CN109326278A

CN109326278A - 一种声学模型构建方法及装置、电子设备

Info

Publication number: CN109326278A
Application number: CN201710640216.8A
Authority: CN
Inventors: 刘利娟; 江源; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2019-02-12
Anticipated expiration: 2037-07-31
Also published as: CN109326278B

Abstract

本发明公开了一种声学模型构建方法及装置、电子设备，所述方法包括如下步骤：步骤一，收集大量文本与语音数据，提取所收集文本的文本特征和语音数据的声学特征，利用所述文本特征和声学特征构建初始深度学习模型；步骤二，利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量；步骤三，利用构建得到的残差向量对初始深度学习模型进行更新，得到更新后的深度学习模型，本发明使声学模型构建时，其输入特征与输出特征包含的信息更匹配，有效提高了建模的精度。

Description

一种声学模型构建方法及装置、电子设备

技术领域

本发明涉及语音信号处理及机器学习领域，尤其涉及一种基于深度学习模型的声学模型构建方法及装置、电子设备。

背景技术

近年来随着深度学习技术的不断突破，越来越多的应用领域使用深度学习方法提升应用效果，如语音合成应用领域一般使用深度学习技术构建声学模型，提升建模精度；因此，深度学习方法具有广阔的研究和应用价值，越来越多的研究人员开始关注深度学习方法，研究如何提升深度学习模型的建模精度，尤其是语音合成等应用领域声学模型的构建。

现有的基于深度学习的声学模型构建方法在利用深度学习模型进行声学模型构建时存在输入层与输出层特征不匹配的问题，严重影响建模精度。

发明内容

为克服上述现有技术存在的不足，本发明的目的在于提供一种声学模型构建方法及装置、电子设备，以在利用深度学习模型进行声学模型构建时，使深度学习模型的输入特征与输出特征包含的信息更匹配，有效提高建模的精度。

为达上述目的，本发明提供的技术方案如下：

一种声学模型构建方法，包括如下步骤：

步骤一，收集大量文本与语音数据，提取所收集文本的文本特征和语音数据的声学特征，利用所述文本特征和声学特征构建初始深度学习模型；

步骤二，利用所述初始深度学习模型构建所述文本特征与语音数据的声学特征之间的残差向量；

步骤三，利用构建得到的残差向量对所述初始深度学习模型进行更新，得到更新后的深度学习模型。

进一步地，步骤一包括：

确定深度学习网络的拓扑结构，以提取的文本特征作为深度学习模型的输入特征，以语音数据的声学特征作为深度学习模型的输出特征，进行模型训练，得到对应的模型参数。

进一步地，步骤二包括：

确定残差向量的维数，初始化残差向量；

利用所述初始深度学习模型对初始化后的残差向量进行更新。

进一步地，所述确定残差向量的维数，初始化残差向量的步骤以句子或音素或音节为单位初始化残差向量，先对训练数据中所有句子/音素/音节进行编号；再将句子/音素/音节编号映射成高维特征向量，向量中每个元素作为每个句子/音素/音节的影响因子，将所述高维特征向量作为残差向量。

进一步地，所述利用所述初始深度学习模型对初始化后的残差向量进行更新的步骤包括：

使用连接矩阵将初始化的残差向量与所述初始深度学习模型结构相连接，获得残差深度学习模型结构；

初始化所述连接矩阵；

根据所述残差深度学习模型结构进行模型参数更新，得到最终残差向量及连接该残差向量的连接矩阵。

进一步地，所述根据所述残差深度学习模型结构进行模型参数更新的步骤为将训练后的初始深度学习模型输入层参数及初始化后的残差向量作为模型输入，利用收集的大量训练数据进行模型参数更新。

进一步地，所述根据所述残差深度学习模型结构进行模型参数更新，得到最终残差向量及连接该残差向量的连接矩阵的步骤如下：

固定步骤一模型训练后的初始深度学习模型的模型参数不变，更新所述连接矩阵及残差向量；

进行模型训练，以最小化模型预测的参数值和训练数据中提取的真实值之间的差值最小为目标，进行模型参数的更新，直到模型参数变化小于预设阈值时，模型训练结束，得到最终的残差向量及连接该残差向量的矩阵，所述残差向量中包含声学特征没有被文本特征表征的信息。

进一步地，步骤三包括：

根据所述残差深度学习模型结构，利用收集的训练数据对所述残差深度学习模型结构中初始深度学习模型的模型参数进行更新；

参数更新时，保持所述残差向量及相应连接矩阵的取值不变，更新所述初始深度学习模型的模型参数。

为达到上述目的，本发明还提供一种声学模型构建装置，包括：

初始深度学习模型构建单元，用于收集大量文本与语音数据，提取所收集文本的文本特征和语音数据的声学特征，利用所述文本特征和声学特征构建初始深度学习模型；

残差向量构建单元，用于利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量；

模型更新单元，用于利用构建得到的残差向量对初始深度学习模型进行更新，得到更新后的深度学习模型。

进一步地，所述初始深度学习模型构建单元进一步包括：

特征提取单元，用于分别提取所收集文本的文本特征和语音数据的声学特征；

模型构建单元，用于确定深度学习网络的拓扑结构，根据提取的文本特征和声学特征构建所述初始深度学习模型。

进一步地，所述残差向量构建单元包括

残差向量初始化单元，用于确定残差向量的维数，并初始化残差向量；

残差向量更新单元，用于利用所述初始深度学习模型对初始化后的残差向量进行更新。

进一步地，所述残差向量更新单元包括：

残差向量连接单元，用于利用连接矩阵将初始化的残差向量与所述初始深度学习模型结构相连接，获得残差深度学习模型结构；

连接矩阵初始化单元，用于初始化所述连接矩阵；

模型参数更新单元，用于根据所述残差深度学习模型结构进行模型参数更新，得到最终残差向量及连接该残差向量的连接矩阵。

进一步地，所述模型更新单元通过如下步骤实现：

参数更新时，保持所述残差向量及相应连接矩阵的取值不变，更新初始深度学习模型的模型参数。

本发明还提供一种电子设备，所述电子设备包括；

存储介质，存储有多条指令，所述指令由处理器加载，执行上述声学模型构建方法的步骤；以及

处理器，用于执行所述存储介质中的指令。

与现有技术相比，本发明一种声学模型构建方法及装置、电子设备的有益效果在于：

本发明一种声学模型构建方法及装置、电子设备通过收集大量文本与语音数据构建初始深度学习模型，利用该初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量，并利用构建得到的残差向量对初始深度学习模型进行更新，从而获得更新后的深度学习模型，本发明考虑了发音人在录制语音数据时，情绪、环境或时间差异等不同状态下引起的发音上的变化信息，并将该信息用于深度学习模型的训练中，从而使建模时，输入特征与输出特征包含的信息更匹配，有效提高了建模精度。

附图说明

图1为本发明一种声学模型构建方法的一个实施例步骤流程图；

图2为本发明具体实施例中步骤101的细部流程图；

图3为本发明具体实施例中深度学习模型的结构图；

图4为本发明具体实施例中步骤102的细部流程图；

图5为本发明具体实施例中步骤S22的细部流程图

图6为本发明具体实施例中残差深度学习模型网络结构图；

图7为本发明一种声学模型构建装置的一个实施例的系统架构图；

图8为本发明具体实施例中初始深度学习模型构建单元的细部结构图；

图9为本发明具体实施例中残差向量构建单元的细部结构图；

图10为本发明具体实施例中残差向量更新单元的细部结构图；

图11为本发明用于声学模型构建方法的电子设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

在本发明的一个实施例中，如图1所示，本发明一种声学模型构建方法，包括如下步骤：

步骤101，收集大量文本与语音数据，提取所收集文本的文本特征和语音数据的声学特征，利用所述文本特征和声学特征构建初始深度学习模型。在本发明中，所述文本与语音数据相对应。

具体地，如图2所示，步骤101进一步包括：

步骤S11，分别提取所收集文本的文本特征和语音数据的声学特征。在本发明具体实施例中，可采用传统方法分别提取文本特征和语音数据的声学特征，例如，所述文本特征可根据收集的文本与语音数据通过标注的方法提取得到，一般为音素、声调以及不同层级的韵律特征，所述声学特征一般指语音数据的频谱、非周期谐波成份、基频、清浊等声学特征；

步骤S12，确定深度学习网络的拓扑结构，根据提取的文本特征和声学特征构建初始深度学习模型。具体构建时，如语音合成时，以提取的文本特征作为深度学习模型的输入特征，以语音数据的声学特征作为深度学习模型的输出特征，进行模型的训练，得到对应的模型参数。所述深度学习模型一般采用神经网络模型，如深度神经网络模型、循环神经网络模型、卷积神经网络模型等，具体本发明不作限定。在本发明具体实施例中，深度学习模型一般包含输入层、隐层、输出层，其中，隐层一般有一或多层，如深度神经网络模型，如图3所示为深度学习模型的结构图。这里的模型训练采用的是现有技术的训练方法，在此不予赘述。

步骤102，利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量。这里的残差向量指的是在相同文本内容时影响不同声学特征的因子，如发音人在读同一段文本时，说话的语气或情绪有可能不同，从而造成声学特征发生变化，其用于描述发音人在录制语音数据时由于情绪、环境、时间差异等不同状态下，在发音上的变化信息。

具体地，如图4所示，步骤102进一步包括：

步骤S21，初始化残差向量。

具体地，首先确定残差向量的维数后再进行初始化，在本发明具体实施例中，例如使用1024维残差向量，具体初始化残差向量的方案如下：

为了防止深度学习模型的自由度过大，导致训练过程不稳定，本发明提出两种初始化残差向量的方法，一种以句子为单位初始化残差向量，另一种以音素为单位初始化残差向量，以下将分别说明：

一、以句子为单位初始化残差向量

一般人在说一句话时，状态都比较稳定，而在说不同句文本时，经常会因为情绪等因素导致发音状态发生变化，为了更符合人的发音状态，可以以句子为单位初始化残差向量。具体地，每个句子使用一个单独的影响因子表示，对于句子内部每个字或每个音素影响因子相同，从而使得句子与句子之间，即使发音人在读相同的文本，提取的声学特征也不同，将每个句子的影响因子初始化为残差向量的每个元素；

每个句子的影响因子可以通过训练数据中每个句子的编号得到，具体地，先对训练数据中每个句子进行编号，然后将句子编号映射成高维的特征向量，具体映射方法与现有技术相同，向量中每个元素作为每个句子的影响因子，将所述高维特征向量作为残差向量。

二、以音素为单位初始化残差向量

为了提升模型的精度，可以以更小单位构建残差向量，例如以音素为单位，即发音人说话时，每个音素使用一个单独的影响因子表示，音素与音素之间影响因子不同，音素内部的语音数据影响因子相同，该方法构建的残差特征向量更加精细，描述的发音变化信息更准确。以音素为单位的残差向量初始化方法与以句子为单位的残差向量初始化方法类似，即先对训练数据中所有音素进行编号；再将音素编号映射成高维特征向量，向量中每个元素作为每个音素的影响因子，将所述高维特征向量作为残差向量。

这里的需要说明的是，除了以句子或音素为单位初始化残差向量，本发明还可以以其它单位初始化残差向量，如以音节为单位，具体残差向量的初始化方法与以句子或音素为单位的初始化方法类似，在此具体不再详述。

步骤S22，利用初始深度学习模型对初始化后的残差向量进行更新。

具体地，如图5所示，步骤S22进一步包括：

步骤S221，将初始化的残差向量与初始深度学习模型结构相连接。具体连接时，使用连接矩阵W将初始化的残差向量连接到初始深度学习模型的隐层，连接残差向量后的模型结构输入层包含初始深度学习模型输入的文本特征和残差向量两部分，称为残差深度学习模型结构，如图6所示；

步骤S222，初始化连接矩阵W，具体可以采用随机初始化方法，这里不予赘述；

步骤S223，根据所述残差深度学习模型结构进行模型参数更新，获得最终残差向量及连接该残差向量的矩阵。具体地，将步骤101训练后的初始深度学习模型输入层参数及初始化后的残差向量作为模型输入，利用收集的大量训练数据进行模型参数更新。具体参数更新时，固定初始深度学习模型参数不变，即初始深度学习模型参数取值为步骤101中模型训练后的参数取值不变，更新连接矩阵W及残差向量，具体更新方法与现有模型训练方法相同，即以最小化模型预测的参数值和训练数据中提取的真实值之间的差值最小为目标，进行模型参数的更新，直到模型参数变化小于预设阈值时，模型训练结束，得到最终残差向量及连接该残差向量的矩阵，所述残差向量中包含声学特征没有被文本特征表征的信息。

步骤103，利用步骤102构建得到的残差向量对初始深度学习模型进行更新，得到更新后的深度学习模型。

由于所述残差向量中包含声学特征中没有被文本特征表征的信息，利用该信息可以提升声学模型准确度；又由于初始深度模型中包含文本特征中的信息，因此利用得到的残差向量对初始深度学习模型进行更新，更新时，可以使得输入特征与输出特征包含的信息更匹配，提升建模精度，具体地，步骤103进一步包括如下步骤：

根据残差深度学习模型结构，利用收集的训练数据对所述残差深度学习模型结构中初始深度学习模型的模型参数进行更新；

参数更新时，保持残差向量及相应连接矩阵的取值不变，即全部为步骤102训练得到的最终残差向量及连接矩阵取值，更新初始深度学习模型参数，初始深度学习模型参数初值为步101模型训练后得到的参数取值，在模型参数更新时，加入了残差向量中信息，使得建模时，输入特征与输出特征包含信息更匹配，从而提升建模精度。

在本发明的一个实施例中，如图7所示，本发明一种声学模型构建装置，包括：

初始深度学习模型构建单元70，用于收集大量文本与语音数据，提取所收集文本的文本特征和语音数据的声学特征，利用所述文本特征和声学特征构建初始深度学习模型。在本发明中，所述文本与语音数据相对应。

具体地，如图8所示，初始深度学习模型构建单元70进一步包括：

特征提取单元701，用于分别提取所收集文本的文本特征和语音数据的声学特征。在本发明具体实施例中，特征提取单元701可采用传统方法分别提取文本特征和语音数据的声学特征，例如，所述文本特征可根据收集的文本与语音数据通过标注的方法提取得到，一般为音素、声调以及不同层级的韵律特征，所述声学特征一般指语音数据的频谱、非周期谐波成份、基频、清浊等声学特征；

模型构建单元702，用于确定深度学习网络的拓扑结构，根据提取的文本特征和声学特征构建初始深度学习模型。具体构建时，如语音合成时，模型构建单元702以提取的文本特征作为深度学习模型的输入特征，以语音数据的声学特征作为深度学习模型的输出特征，进行模型的训练，得到对应模型参数。所述深度学习模型一般采用神经网络模型，如深度神经网络模型、循环神经网络模型、卷积神经网络模型等，具体本发明不作限定。在本发明具体实施例中，深度学习模型一般包含输入层、隐层、输出层，其中，隐层一般有一或多层，如深度神经网络模型。

残差向量构建单元71，利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量。这里的残差向量指的是在相同文本内容时影响不同声学特征的因子，如发音人在读同一段文本时，说话的语气或情绪有可能不同，从而造成声学特征发生变化，其用于描述发音人在录制语音数据时由于情绪、环境、时间差异等不同状态下，在发音上的变化信息。

具体地，如图9所示，残差向量构建单元71进一步包括：

残差向量初始化单元710，用于初始化残差向量。

具体地，残差向量初始化单元710首先确定残差向量的维数后再进行初始化，在本发明具体实施例中，残差向量初始化单元710确定使用1024维残差向量，其具体初始化方案如下：

为了防止深度学习模型的自由度过大，导致训练过程不稳定，残差向量初始化单元710可采用以下两种初始化残差向量的方法，一种以句子为单位初始化残差向量，另一种以音素为单位初始化残差向量，以下将分别说明：

一、以句子为单位初始化残差向量

二、以音素为单位初始化残差向量

残差向量更新单元711，用于利用初始深度学习模型对初始化后的残差向量进行更新。

具体地，如图10所示，残差向量更新单元711进一步包括：

残差向量连接单元7111，用于将初始化的残差向量与初始深度学习模型结构相连接。具体连接时，使用连接矩阵W将初始化的残差向量连接到初始深度学习模型的隐层，连接残差向量后的模型结构输入层包含初始深度学习模型输入的文本特征和残差向量两部分，称为残差深度学习模型结构；

连接矩阵初始化单元7112，用于初始化连接矩阵W，具体可以采用随机初始化方法；

模型参数更新单元7113，用于根据所述残差深度学习模型结构进行模型参数更新，得到最终的残差向量及连接该残差向量的矩阵。具体地，模型参数更新单元7113将训练后的初始深度学习模型输入层参数及初始化后的残差向量作为模型输入，利用收集的大量训练数据进行模型参数更新。具体参数更新时，固定初始深度学习模型参数不变，即初始深度学习模型参数取值为初始深度学习模型构建单元70中模型训练后的参数取值，更新连接矩阵W及残差向量，具体更新方法与现有模型训练方法相同，即以最小化模型预测的参数值和训练数据中提取的真实值之间的差值最小为目标，进行模型参数的更新，直到模型参数变化小于预设阈值时，模型训练结束，得到最终残差向量及连接该残差向量的矩阵，所述残差向量中包含声学特征没有被文本特征表征的信息。

模型更新单元72，用于利用构建得到的残差向量对初始深度学习模型进行更新，得到更新后的深度学习模型。

由于所述残差向量中包含声学特征中没有被文本特征表征的信息，利用该信息可以提升声学模型准确度；又由于初始深度模型中包含文本特征中的信息，因此利用得到的残差向量对初始深度学习模型进行更新，更新时，输入特征与输出特征包含的信息更匹配，提升建模精度，具体地，模型更新单元72通过如下步骤实现：

根据残差深度学习模型结构，利用收集的训练数据对所述结构中初始深度学习模型参数进行更新；

参数更新时，保持残差向量及相应连接矩阵的取值不变，即全部为残差向量构建单元71训练得到的最终残差向量及连接矩阵取值，更新初始深度学习模型参数，初始深度学习模型参数初值为初始深度学习模型构建单元70模型训练后得到的参数取值，在模型参数更新时，加入了残差向量中信息，使得建模时，输入特征与输出特征包含信息更匹配，从而提升了建模精度。

参见图11，示出了本发明用于建模方法的电子设备300的结构示意图。参照图11，电子设备300包括处理组件301，其进一步包括一个或多个处理器，以及由存储介质302所代表的存储设备资源，用于存储可由处理组件301的执行的指令，例如应用程序。存储介质302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件301被配置为执行指令，以执行上述声学模型构建方法的各步骤。

电子设备300还可以包括一个电源组件303，被配置为执行电子设备300的电源管理；一个有线或无线网络接口304，被配置为将电子设备300连接到网络；和一个输入输出(I/O)接口305。电子设备300可以操作基于存储在存储介质302的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

综上所述，本发明一种声学模型构建方法及装置、电子设备通过收集大量文本与语音数据构建初始深度学习模型，利用该初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量，并利用构建得到的残差向量对初始深度学习模型进行更新，从而获得更新后的深度学习模型，本发明考虑了发音人在录制语音数据时，情绪、环境或时间差异等不同状态下引起的发音上的变化信息，并将该信息用于深度学习模型的训练中，从而使建模时，输入特征与输出特征包含的信息更匹配，有效提高了建模精度。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种声学模型构建方法，包括如下步骤：

2.如权利要求1所述的一种声学模型构建方法，其特征在于：步骤一进一步包括：

3.如权利要求1所述的一种声学模型构建方法，其特征在于，步骤二进一步包括：

确定残差向量的维数，初始化残差向量；

4.如权利要求3所述的一种声学模型构建方法，其特征在于：所述确定残差向量的维数，初始化残差向量的步骤以句子或音素或音节为单位初始化残差向量，先对训练数据中所有句子/音素/音节进行编号；再将句子/音素/音节编号映射成高维特征向量，向量中每个元素作为每个句子/音素/音节的影响因子，将所述高维特征向量作为残差向量。

5.如权利要求3所述的一种声学模型构建方法，其特征在于：所述利用所述初始深度学习模型对初始化后的残差向量进行更新的步骤进一步包括：

初始化所述连接矩阵；

6.如权利要求5所述的一种声学模型构建方法，其特征在于：所述根据所述残差深度学习模型结构进行模型参数更新的步骤为将训练后的初始深度学习模型输入层参数及初始化后的残差向量作为模型输入，利用收集的大量训练数据进行模型参数更新。

7.如权利要求6所述的一种声学模型构建方法，其特征在于：所述根据所述残差深度学习模型结构进行模型参数更新，得到最终残差向量及连接该残差向量的连接矩阵的步骤如下：

8.如权利要求5所述的一种声学模型构建方法，其特征在于：步骤三进一步包括：

9.一种声学模型构建装置，包括：

10.如权利要求9所述的一种声学模型构建装置，其特征在于，所述初始深度学习模型构建单元进一步包括：

11.如权利要求9所述的一种声学模型构建装置，其特征在于，所述残差向量构建单元包括

12.如权利要求11所述的一种声学模型构建装置，其特征在于，所述残差向量更新单元包括：

连接矩阵初始化单元，用于初始化所述连接矩阵；

13.如权利要求12所述的一种声学模型构建装置，其特征在于，所述模型更新单元通过如下步骤实现：

14.一种电子设备，其特征在于，所述电子设备包括：

存储介质，存储有多条指令，所述指令由处理器加载，执行权利要求1至8任一项所述方法的步骤；以及

处理器，用于执行所述存储介质中的指令。