CN115910032A

CN115910032A - 音素对齐模型训练方法、计算机设备及计算机存储介质

Info

Publication number: CN115910032A
Application number: CN202211557817.XA
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-04

Abstract

本申请实施例公开了一种音素对齐模型训练方法、计算机设备及计算机存储介质，声学特征参数输入至第一卷积结构获得第一卷积特征，根据每个音素的音素序列生成音素序列向量，将原始音频的每相邻3个音素的音素序列向量输入至第二卷积结构获得第二卷积特征，第一卷积特征与第二卷积特征的内积计算结果进行SoftMax计算得到权重向量，根据权重向量对原始音频每相邻3个音素的音素序列向量加权得到音素向量，将音素向量与位置序列相加得到的条件向量输入至初始声学模型，以使得初始声学模型根据条件向量进行训练得到目标声学模型。降低了由人工标注音素位置和时长的精度要求，使得音素能够更加准确地对应于音频的时长，从而提升歌声合成模型的训练效果。

Description

音素对齐模型训练方法、计算机设备及计算机存储介质

技术领域

本申请实施例涉及语音合成领域，具体涉及一种音素对齐模型训练方法、计算机设备及计算机存储介质。

背景技术

近几年来，语音合成技术得到了长足发展，合成的语音在音质和自然度上趋于真实人发音的水平。相比于语音合成技术，歌声合成技术的进展却比较缓慢。歌声合成技术有很多应用场景，例如改编歌曲、和声生成和虚拟歌手等等。现有方案主要是通过训练歌声合成模型并使用此歌声合成模型输出合成的歌声。歌声合成模型的训练过程中需要根据音频训练样本的音素进行训练，而对于一个歌声合成模型而言，音素的时长和位置至关重要。

现有方案仅通过人工标注出音频训练样本的音素所对应的时长和位置，但是人工标注是基于人的主观意识而作出的，有可能存在标注错误的情况，因而导致人工标注结果不准确，进而影响歌声合成模型的训练效果。

发明内容

本申请实施例提供了一种音素对齐模型训练方法、计算机设备及计算机存储介质，用于准确对齐音频的每个音素的时长和位置。

本申请实施例第一方面提供了一种音素对齐模型训练方法，所述方法包括：

获取原始音频的声学特征参数，以及，获取所述原始音频的每个音素的音素序列和位置序列；

将所述原始音频的声学特征参数输入至音素对齐模型的第一卷积结构中，以获得所述第一卷积结构输出的第一卷积特征；

根据所述原始音频的每个音素的音素序列生成每个音素的音素序列向量，将所述原始音频的每相邻3个音素的音素序列向量输入至所述音素对齐模型的第二卷积结构中，以获得所述第二卷积结构输出的第二卷积特征；

将所述第一卷积特征与所述第二卷积特征进行内积计算，得到内积计算结果；

对所述内积计算结果进行SoftMax计算得到权重向量，根据所述权重向量对所述原始音频的每相邻3个音素的音素序列向量进行加权，得到音素向量；

将所述音素向量与所述位置序列相加得到条件向量，将所述条件向量输入至初始声学模型中，以得到所述初始声学模型输出的目标声学特征参数，当所述目标声学特征参数与所述原始音频的声学特征参数之间的关系满足收敛条件时停止训练，得到目标声学模型。

本申请实施例第二方面提供了一种计算机设备，所述方法包括：

获取单元，用于获取原始音频的声学特征参数，以及，获取所述原始音频的每个音素的音素序列和位置序列；

特征提取单元，用于将所述原始音频的声学特征参数输入至音素对齐模型的第一卷积结构中，以获得所述第一卷积结构输出的第一卷积特征；

生成单元，用于根据所述原始音频的每个音素的音素序列生成每个音素的音素序列向量；

所述特征提取单元还用于将所述原始音频的每相邻3个音素的音素序列向量输入至所述音素对齐模型的第二卷积结构中，以获得所述第二卷积结构输出的第二卷积特征；

计算单元，用于将所述第一卷积特征与所述第二卷积特征进行内积计算，得到内积计算结果；

计算单元还用于对所述内积计算结果进行SoftMax计算得到权重向量，根据所述权重向量对所述原始音频的每相邻3个音素的音素序列向量进行加权，得到音素向量；

训练单元，用于将所述音素向量与所述位置序列相加得到条件向量，将所述条件向量输入至初始声学模型中，以得到所述初始声学模型输出的目标声学特征参数，当所述目标声学特征参数与所述原始音频的声学特征参数之间的关系满足收敛条件时停止训练，得到目标声学模型。

本申请实施例第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述第一方面的方法。

本申请实施例第四方面提供了一种计算机存储介质，计算机存储介质中存储有指令，该指令在计算机上执行时，使得计算机执行前述第一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本实施例中，计算机设备将原始音频的声学特征参数输入至音素对齐模型的第一卷积结构中，以获得第一卷积结构输出的第一卷积特征，根据原始音频的每个音素的音素序列生成每个音素的音素序列向量，将原始音频的每相邻3个音素的音素序列向量输入至音素对齐模型的第二卷积结构中，以获得第二卷积结构输出的第二卷积特征，将第一卷积特征与第二卷积特征进行内积计算，得到内积计算结果，对内积计算结果进行SoftMax计算得到权重向量，根据权重向量对原始音频的每相邻3个音素的音素序列向量进行加权，得到音素向量，将音素向量与位置序列相加得到条件向量，将条件向量输入至初始声学模型中，以得到初始声学模型输出的目标声学特征参数，当目标声学特征参数与原始音频的声学特征参数之间的关系满足收敛条件时停止训练，得到目标声学模型。因此，摆脱了以往由人工标注音素位置和时长的限制，使得音素能够更加准确地对应于音频的时长，从而提升歌声合成模型的训练效果。

附图说明

图1为本申请实施例中音素对齐模型训练方法一个流程示意图；

图2为本申请实施例中音素对齐模型训练方法另一流程示意图；

图3为本申请实施例中音素对齐模型一种结构示意图；

图4为本申请实施例中初始声学模型一种结构示意图；

图5为本申请实施例中计算机设备一个结构示意图；

图6为本申请实施例中计算机设备另一结构示意图。

具体实施方式

请参阅图1，本申请实施例中音素对齐模型训练方法一个实施例包括：

101、获取原始音频的声学特征参数，以及，获取所述原始音频的每个音素的音素序列和位置序列；

本实施例中的方法可应用于计算机设备，该计算机设备可以是服务器、终端等能够执行数据处理的计算机设备。当该计算机设备为终端时，可以是个人电脑(personalcomputer，PC)、台式计算机等终端设备；当该计算机设备为服务器时，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云计算以及大数据和人工智能平台等基础云计算服务的云服务器。

计算机设备可获取用于训练歌声合成模型的原始音频，并获取该原始音频的声学特征参数，以及获取该原始音频的每个音素的音素序列和位置序列。原始音频的声学特征参数是指关于音频的声学特征的具体参数，其中声学特征是指表示语音声学特性的物理量，也是声音诸要素声学表现的统称，如表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。

原始音频的每个音素的音素序列是指每个音素扩充得到多个相同音素后，多个相同的音素形成的序列。音素扩充的目的是使得音素序列的长度与声学特征参数的序列长度相同。音素的位置序列中每个元素可反映每个音素在音素序列中的位置。

102、将所述原始音频的声学特征参数输入至音素对齐模型的第一卷积结构中，以获得所述第一卷积结构输出的第一卷积特征；

获得原始音频的声学特征参数之后，将该声学特征参数输入至音素对齐模型的第一卷积结构，第一卷积结构对该声学特征参数进行特征提取，并输出特征提取结果，即第一卷积特征。

103、根据所述原始音频的每个音素的音素序列生成每个音素的音素序列向量，将所述原始音频的每相邻3个音素的音素序列向量输入至所述音素对齐模型的第二卷积结构中，以获得所述第二卷积结构输出的第二卷积特征；

计算机设备根据原始音频的每个音素的音素序列生成每个音素的音素序列向量，并将原始音频每相邻3个音素的音素序列向量输入至该音素对齐模型的第二卷积结构中，第二卷积结构对相邻3个音素的音素序列向量进行特征提取，并输出特征提取结果，即第二卷积特征。

104、将所述第一卷积特征与所述第二卷积特征进行内积计算，得到内积计算结果；

105、对所述内积计算结果进行SoftMax计算得到权重向量，根据所述权重向量对所述原始音频的每相邻3个音素的音素序列向量进行加权，得到音素向量；

在获得第一卷积特征以及第二卷积特征之后，将第一卷积特征和第二卷积特征进行内积计算，得到内积计算结果，并对此内积计算结果进行SoftMax计算得到权重向量，根据该权重向量对原始音频每相邻3个音素的音素序列向量进行加权，得到音素向量。

106、将所述音素向量与所述位置序列相加得到条件向量，将所述条件向量输入至初始声学模型中，以得到所述初始声学模型输出的目标声学特征参数，当所述目标声学特征参数与所述原始音频的声学特征参数之间的关系满足收敛条件时停止训练，得到目标声学模型；

原始音频的每个音素的音素向量与音素的位置序列相加，可得到条件向量，将此条件向量输入至初始声学模型中，初始声学模型根据条件向量生成目标声学特征参数并输出，同时根据输出的目标声学特征参数与原始音频的声学特征参数之间的关系调整模型参数，当输出的目标声学特征参数与原始音频的声学特征参数之间的关系满足收敛条件时停止模型训练，即得到目标声学模型。目标声学模型可用于根据音频的声学特征参数合成音频，如根据歌声的声学特征参数合成歌声。

下面将在前述图1所示实施例的基础上，进一步详细地描述本申请实施例。请参阅图2，本申请实施例中音素对齐模型训练方法另一实施例包括：

201、获取原始音频的声学特征参数，以及，获取所述原始音频的每个音素的音素序列和位置序列；

本实施例中，原始音频的声学特征参数具体可包括频谱包络参数(SP)以及非周期信号(AP)，可使用声码器来提取原始音频中的基频、频谱包络与非周期信号。其中，声码器可配置DIO算法并使用此算法来提取原始音频的基频特征参数；以及配置CheapTrick算法，将提取到的基频与原始音频的波形一同输入该CheapTrick算法以获得CheapTrick算法输出的频谱包络SP特征参数；以及配置D4C算法，将基频、频谱包络SP与原始音频的波形一同输入该D4C算法，获得D4C算法输出的非周期信号。而基频、频谱包络以及非周期信号可以通过语音合成算法恢复出原始音频。

其中，该声码器可以是WORLD声码器，也可以是STRAIGHT声码器、GriffimLim声码器等等，声码器的具体类型不作限定。

本实施例中，获取原始音频的每个音素的音素序列，其一种实施方式可以是，根据预标注信息确定原始音频中每个音素对应的原始音频的音频帧个数，生成原始音频的每个音素的拷贝，拷贝的个数为音素对应的原始音频的音频帧个数，音素的拷贝构成音素的音素序列。

其中，该预标注信息表示原始音频中每个音素对应的音频帧个数，即每个音素对应的时长，其可以是人工给定的，即人工预标注的。

例如，对于中文歌声合成而言，歌词文本一般为汉字形式。汉字并不能直接表示发音情况，因此需要用文本前端工具将汉字转为拼音形式。但是，拼音也不能直接对应发音情况，例如拼音中的yu和wu，y和w都是不发音，因此还需进一步将拼音解析成音素的形式，每个音素都对应一个发音情况，每个音素对应若干帧的声学特征参数。为了形成音素与声学特征参数的一一映射关系，需要对音素进行拓展。例如，预标注信息表示某个音素对应原始音频的音频帧个数为3个，则需要将该音素重复3遍，从而生成该音素的3个拷贝，该音素的3个拷贝构成该音素的音素序列。

本实施例的一种优选实施方式中，获取原始音频的每个音素的位置序列，可以是计算机设备根据预标注信息确定原始音频中每个音素对应的原始音频的音频帧个数，并生成原始音频的每个音素的位置序号标识，位置序号标识的个数为音素对应的原始音频的音频帧个数，音素的位置序号标识构成位置序列。

例如，该位置序号标识可以分数的形式表示，其中分子表示音素序列中每个元素在音素序列中的位置，而分母可表示音素序列的元素总个数。例如，预标注信息表示汉语拼音的音素“a”对应原始音频的音频帧个数为N个，则其音素序列可表示为“a₁，a₂，…，a_N”，对应的位置序列可表示为“1/N，2/N，…N/N”，即位置序列中的每个元素均可表示音素序列中每个元素在音素序列中的位置序号，从而可以强化每个音素在音素序列中的位置信息，提升发音质量。

202、将所述原始音频的声学特征参数输入至音素对齐模型的第一卷积结构中，以获得所述第一卷积结构输出的第一卷积特征；

本实施例中，原始音频的声学特征参数包括频谱包络和非周期信号，在使用第一卷积结构获得第一卷积特征时，可根据原始音频的频谱包络的维度和非周期信号的维度确定原始音频每一帧声学特征参数的向量维度，并将原始音频的T帧声学特征参数输入至第一卷积结构，从而第一卷积结构根据原始音频每一帧声学特征参数的向量维度以及第一卷积结构的通道数输出第一卷积特征，其中T为大于2的正整数。

本实施例提供了音素对齐模型，主要用于处理数据标注上难以避免的误差。例如，该音素对齐模型的结构如图3所示，其包括第一卷积结构Conv1和第二卷积结构Conv2，以及用于内积计算的MatMul结构、用于执行缩放操作的Scale结构以及用于执行SoftMax计算的SoftMax结构。

在一种实施方式中，第一卷积结构Conv1的输入为音素特征Phonetic Feature，该音素特征PhoneticFeature为前述步骤获取到的声学特征参数，如原始音频的60维频谱包络和4维的非周期信号，因此原始音频每一帧的声学特征参数的向量维度为[1，64]，假设原始视频的帧数为T，则原始视频的声学特征参数的维度为[T，64]。若第一卷积结构的卷积核大小为5，stride为1，输出的通道数为128，则原始视频的声学特征参数输入至第一卷积结构之后，可得到其输出的维度为[T，128]的第一卷积特征。为便于后续的矩阵运算，可将第一卷积特征的维度扩充至[T，1，128]。

203、根据所述原始音频的每个音素的音素序列生成每个音素的音素序列向量，将所述原始音频的每相邻3个音素的音素序列向量输入至所述音素对齐模型的第二卷积结构中，以获得所述第二卷积结构输出的第二卷积特征；

在使用第二卷积结构获得第二卷积特征时，可根据原始音频的频谱包络的维度和非周期信号的维度确定原始音频每个音素的音素序列向量的向量维度，并将原始音频的每相邻3个音素的音素序列向量输入至第二卷积结构，从而第二卷积结构根据原始音频每个音素的音素序列向量的向量维度以及第二卷积结构的通道数输出第二卷积特征。

第二卷积结构Conv2的输入为声学特征AcousticFeature，该声学特征AcousticFeature为原始音频中每相邻3个音素的音素序列向量。例如，可以是对原始音频的每个音素进行词嵌入操作，得到每个音素的音素序列向量。因此，原始音频每个音素对应的音素序列向量的维度为[1，3，64]，经过第二卷积结构Conv2的特征提取之后可得到维度为[T，3，128]的第二卷积特征。

例如，可构造Prev序列和Post序列，分别对应每一个音素的前一个音素和后一个音素。举例来说，歌词“那是我”中，其发音音素为[n，a，sh，i，uo]，预标注信息表示每个音素分别对应帧数为2、4、3、4、3，则可以得到每个音素的音素序列以及Prev序列和Post序列，具体如表1所示。

表1

sp

n

a

sh

i

n

a

sh

i

uo

a

sh

i

uo

sp

表1中，“sp”表示静音，每一列的中间音素为当前音素、最上方音素为当前音素的前一个音素以及最下方音素为当前音素的后一个因素。由表1的中间一行可以看出，音素“n”对应2帧音频帧，因而其具有2个拷贝；音素“a”对应4帧音频帧，因而其具有4个拷贝……且每个音素的拷贝均对应前一个音素的拷贝以及后一个音素的拷贝，则表1的第一行构成Prev序列，第3行构成Post序列。因此，根据表1所示，每相邻3个音素可构成一个音素序列，如表1中第2列“spna”构成1个音素序列，第1列“spna”构成1个音素序列，第3列“nash”构成1个音素序列……

204、将所述第一卷积特征与所述第二卷积特征进行内积计算，得到内积计算结果；

205、对所述内积计算结果进行SoftMax计算得到权重向量，根据所述权重向量对所述原始音频的每相邻3个音素的音素序列向量进行加权，得到音素向量；

在得到第一卷积特征和第二卷积特征之后，可将两者进行内积计算，得到内积计算结果。

沿用上述例子，在得到第一卷积特征[T，1，128]和第二卷积特征[T，3，128]之后，将两者进行内积计算MatMul，得到内积计算结果，其维度为[T，1，3]。

在一种优选的实施方式中，为了使内积计算结果不至于太大，可以对内积计算结果进行缩放操作scale，例如可以将内积计算结果除以特征维度的开方，此处特征维度为128。

之后，可对内积计算结果的缩放结果进行SoftMax计算得到权重向量，根据该权重向量对原始音频的每一个音素序列向量进行加权，得到音素向量。

沿用上述例子，对[T，1，3]的内积计算结果进行SoftMax计算后可以得到权重向量weight，表示当前声学特征参数和相邻三个音素的相似度。然后对相邻三个音素的音素序列向量按照权重向量weight进行加权，得到音素向量，其维度为[T，128]。

206、将所述音素向量与所述位置序列相加得到条件向量，将所述条件向量输入至初始声学模型中，以得到所述初始声学模型输出的目标声学特征参数，当所述目标声学特征参数与所述原始音频的声学特征参数之间的关系满足收敛条件时停止训练，得到目标声学模型；

本实施例中，在获得音素向量和原始音频的每个音素的位置序列之后，可将音素向量和位置序列相加得到条件向量。沿用上述例子，将音素向量[T，128]和位置序列[T，128]相加，得到维度为[T，128]的条件向量Conditional Input，将此条件向量作为初始声学模型的输入。初始声学模型根据输入的条件向量进行特征提取，以64维的声学特征(频谱包络参数60维，非周期信号4维)作为输出信息，进行有监督地学习。当初始声学模型输出的目标声学特征参数与原始音频的声学特征参数之间的关系满足收敛条件时停止训练，目标声学特征参数与原始音频的声学特征参数之间的关系可以用损失函数表示，此损失函数可以是最小均方误差，则优化器可以为Adam，学习率可设置为1e-5。

在一种优选的实施方式中，初始声学模型的结构可以如图4所示，其由一系列的卷积层(Conv)和归一化层(LayerNorm)组成，其中Add表示特征相加，Split表示将特征进二等分拆分，Mul表示特征相乘，叠加的层数为M，一般M取为8。1x1表示卷积核大小为1的卷积。

本实施例另一优选的实施方式中，在获得目标声学模型之后，可使用该目标声学模型合成歌声，例如可将待处理的目标音频输入至目标声学模型，则目标声学模型基于模型结构以及预训练获得的各模型结构的模型参数，提取目标音频中每个音素对应的若干个音频帧的声学特征参数，并根据目标音频中每个音素对应的若干个音频帧的声学特征参数，合成目标音频对应的歌声数据。其中，目标音频中每个音素对应的若干个音频帧的声学特征参数，可包括基频、频谱包络与非周期信号，根据此三项声学特征参数可合成得到目标音频对应的歌声数据。由于经过前述对目标声学模型的训练过程使得目标声学模型能够精准地标注出目标音频的每一个音素的位置和发音时长，进而使最终合成的歌声数据合成效果更佳，提升歌声合成的质量。

上面对本申请实施例中的音素对齐模型训练方法进行了描述，下面对本申请实施例中的计算机设备进行描述，请参阅图5，本申请实施例中计算机设备一个实施例包括：

获取单元501，用于获取原始音频的声学特征参数，以及，获取所述原始音频的每个音素的音素序列和位置序列；

特征提取单元502，用于将所述原始音频的声学特征参数输入至音素对齐模型的第一卷积结构中，以获得所述第一卷积结构输出的第一卷积特征；

生成单元503，用于根据所述原始音频的每个音素的音素序列生成每个音素的音素序列向量；

所述特征提取单元502还用于将所述原始音频的每相邻3个音素的音素序列向量输入至所述音素对齐模型的第二卷积结构中，以获得所述第二卷积结构输出的第二卷积特征；

计算单元504，用于将所述第一卷积特征与所述第二卷积特征进行内积计算，得到内积计算结果；

计算单元504还用于对所述内积计算结果进行SoftMax计算得到权重向量，根据所述权重向量对所述原始音频的每相邻3个音素的音素序列向量进行加权，得到音素向量；

训练单元505，用于将所述音素向量与所述位置序列相加得到条件向量，将所述条件向量输入至初始声学模型中，以得到所述初始声学模型输出的目标声学特征参数，当所述目标声学特征参数与所述原始音频的声学特征参数之间的关系满足收敛条件时停止训练，得到目标声学模型。

本实施例一种优选的实施方式中，所述生成单元503具体用于对所述原始音频的每个音素进行词嵌入操作，得到每个音素的音素序列向量。

本实施例一种优选的实施方式中，获取单元501具体用于根据预标注信息确定所述原始音频中每个音素对应的所述原始音频的音频帧个数；生成所述原始音频的每个音素的拷贝，所述拷贝的个数为音素对应的所述原始音频的音频帧个数，音素的拷贝构成音素的音素序列。

本实施例一种优选的实施方式中，获取单元501具体用于根据预标注信息确定所述原始音频中每个音素对应的所述原始音频的音频帧个数；生成所述原始音频的每个音素的位置序号标识，所述位置序号标识的个数为音素对应的所述原始音频的音频帧个数，音素的位置序号标识构成所述位置序列。

本实施例一种优选的实施方式中，所述计算机设备还包括：

缩放单元506，用于对所述内积计算结果进行缩放操作，得到所述内积计算结果的缩放结果；

计算单元504具体用于对所述内积计算结果的缩放结果进行SoftMax计算得到权重向量。

本实施例中，计算机设备中各单元所执行的操作与前述图1至图2所示实施例中描述的类似，此处不再赘述。

下面对本申请实施例中的计算机设备进行描述，请参阅图6，本申请实施例中计算机设备一个实施例包括：

该计算机设备600可以包括一个或一个以上中央处理器(centralprocessingunits，CPU)601和存储器605，该存储器605中存储有一个或一个以上的应用程序或数据。

其中，存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块，每个模块可以包括对计算机设备中的一系列指令操作。更进一步地，中央处理器601可以设置为与存储器605通信，在计算机设备600上执行存储器605中的一系列指令操作。

计算机设备600还可以包括一个或一个以上电源602，一个或一个以上有线或无线网络接口603，一个或一个以上输入输出接口604，和/或，一个或一个以上操作系统，例如WindowsServerTM，MacOSXTM，UnixTM，LinuxTM，FreeBSDTM等。

该中央处理器601可以执行前述图1至图2所示实施例中计算机设备所执行的操作，具体此处不再赘述。

本申请实施例还提供了一种计算机存储介质，其中一个实施例包括：该计算机存储介质中存储有指令，该指令在计算机上执行时，使得该计算机执行前述图1至图2所示实施例中计算机设备所执行的操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种音素对齐模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始音频的每个音素的音素序列生成每个音素的音素序列向量，包括：

对所述原始音频的每个音素进行词嵌入操作，得到每个音素的音素序列向量。

3.根据权利要求1所述的方法，其特征在于，所述获取所述原始音频的每个音素的音素序列，包括：

根据预标注信息确定所述原始音频中每个音素对应的所述原始音频的音频帧个数；

生成所述原始音频的每个音素的拷贝，所述拷贝的个数为音素对应的所述原始音频的音频帧个数，音素的拷贝构成音素的音素序列。

4.根据权利要求1所述的方法，其特征在于，获取所述原始音频的每个音素的位置序列，包括：

生成所述原始音频的每个音素的位置序号标识，所述位置序号标识的个数为音素对应的所述原始音频的音频帧个数，音素的位置序号标识构成所述位置序列。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述内积计算结果进行缩放操作，得到所述内积计算结果的缩放结果；

所述对所述内积计算结果进行SoftMax计算得到权重向量，包括：

对所述内积计算结果的缩放结果进行SoftMax计算得到权重向量。

6.根据权利要求1所述的方法，其特征在于，所述声学特征参数包括频谱包络和非周期信号；

所述将所述原始音频的声学特征参数输入至音素对齐模型的第一卷积结构中，以获得所述第一卷积结构输出的第一卷积特征，包括：

根据所述频谱包络的维度和所述非周期信号的维度确定所述原始音频每一帧声学特征参数的向量维度；

将所述原始音频的T帧声学特征参数输入至所述第一卷积结构，以使得所述第一卷积结构根据所述原始音频每一帧声学特征参数的向量维度以及所述第一卷积结构的通道数输出所述第一卷积特征，其中T为大于2的正整数。

7.根据权利要求1所述的方法，其特征在于，所述声学特征参数包括频谱包络和非周期信号；

所述将所述原始音频的每相邻3个音素的音素序列向量输入至所述音素对齐模型的第二卷积结构中，以获得所述第二卷积结构输出的第二卷积特征，包括：

根据所述频谱包络的维度和所述非周期信号的维度确定所述原始音频每个音素的音素序列向量的向量维度；

将所述原始音频的每相邻3个音素的音素序列向量输入至所述第二卷积结构，以使得所述第二卷积结构根据所述原始音频每个音素的音素序列向量的向量维度以及所述第二卷积结构的通道数输出所述第二卷积特征，其中T为大于2的正整数。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述得到目标声学模型之后，所述方法还包括：

将待处理的目标音频输入至所述目标声学模型，以使得所述目标声学模型提取所述目标音频中每个音素对应的若干个音频帧的声学特征参数，并根据所述目标音频中每个音素对应的若干个音频帧的声学特征参数，合成所述目标音频对应的歌声数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如权利要求1至8中任一项所述的方法。