CN114267375B

CN114267375B - 音素检测方法及装置、训练方法及装置、设备和介质

Info

Publication number: CN114267375B
Application number: CN202111404813.3A
Authority: CN
Inventors: 杨少雄
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-10-28
Anticipated expiration: 2041-11-24
Also published as: CN114267375A

Abstract

本公开提供了一种音素检测方法及装置、训练方法及装置、设备和介质，涉及人工智能领域，具体为深度学习、语音合成、计算机视觉和虚拟/增强现实、自然语言处理技术领域。方案为：将样本音频对应的音频频谱图输入音素检测模型，以得到音素检测模型输出的预测音素序列，并根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数，以根据序列损失函数对音素检测模型进行训练。由此，基于序列损失函数，对音素检测模型进行训练，可以使得模型不仅可以关注到单个音素，而且还可以提升模型对整个音素序列上下文的感知和关注度，从而提升模型的预测效果。

Description

音素检测方法及装置、训练方法及装置、设备和介质

技术领域

本公开涉及人工智能领域，具体为深度学习、语音合成、计算机视觉和虚拟/增强现实、自然语言处理领域，尤其涉及音素检测方法及装置、训练方法及装置、设备和介质。

背景技术

随着计算机动画技术的不断进步，音频驱动的虚拟形象人脸表情动画得到了发展，可应用于不同领域。其中，可通过输入音频，生成与音频流中各音素对象相符的虚拟形象人脸表情(含口型)动画，从而完成三维(3D)虚拟形象音频驱动。

目前，可以通过深度学习的音素检测模型，从音频流中识别出各音素对象，为了提升模型的预测效果，如何对音素检测模型进行训练是非常重要的。

发明内容

本公开提供了一种用于音素检测方法及装置、训练方法及装置、设备和介质。

根据本公开的一方面，提供了一种音素检测模型的训练方法，包括：

获取样本音频对应的音频频谱图；

将所述音频频谱图输入音素检测模型，以得到所述音素检测模型输出的预测音素序列；

根据所述预测音素序列和所述样本音频上标注的真实音素序列的条件概率，确定序列损失函数；

根据所述序列损失函数对所述音素检测模型进行训练。

根据本公开的另一方面，提供了一种音素检测方法，包括：

获取至少一个音频片段对应的目标音频频谱图；

将所述目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及所述至少一个音素检测框内频谱片段所属的目标音素；其中，所述音素检测模型是采用如上述一方面实施例所述的方法训练得到的。

根据本公开的又一方面，提供了一种音素检测模型的训练装置，包括：

第一获取模块，用于获取样本音频对应的音频频谱图；

第一输入模块，用于将所述音频频谱图输入音素检测模型，以得到所述音素检测模型输出的预测音素序列；

确定模块，用于根据所述预测音素序列和所述样本音频上标注的真实音素序列的条件概率，确定序列损失函数；

训练模块，用于根据所述序列损失函数对所述音素检测模型进行训练。

根据本公开的再一方面，提供了一种音素检测装置，包括：

第二获取模块，用于获取至少一个音频片段对应的目标音频频谱图；

第二输入模块，用于将所述目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及所述至少一个音素检测框内频谱片段所属的目标音素；其中，所述音素检测模型是采用如上述又一方面实施例所述的装置训练得到的。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述另一方面提出的音素检测方法，或者，执行本公开上述一方面提出的训练方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述另一方面提出的音素检测方法，或者，执行本公开上述一方面提出的训练方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述另一方面提出的音素检测方法，或者，实现本公开上述一方面提出的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例一所提供的音素检测模型的训练方法的流程示意图；

图2为本公开实施例二所提供的音素检测模型的训练方法的流程示意图；

图3为本公开实施例三所提供的音素检测模型的训练方法的流程示意图；

图4为本公开实施例四所提供的音素检测模型的训练方法的流程示意图；

图5为本公开实施例五所提供的音素检测模型的训练方法的流程示意图；

图6为本公开实施例六所提供的音素检测方法的流程示意图；

图7为本公开实施例七所提供的音素检测方法的流程示意图；

图8为本公开实施例中的音素检测原理示意图；

图9为本公开实施例八所提供的音素检测方法的流程示意图；

图10为本公开实施例九所提供的音素检测模型的训练装置的结构示意图；

图11为本公开实施例十所提供的音素检测装置的结构示意图；

图12示出了可以用来实施本公开任一实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，可以获取输入文本，使用TTS(Text to Speech，语音合成)技术，对输入文本进行语音合成，得到音频，而后将音频对应的频谱图直接输入至音素检测模型，由音素检测模型对音频频谱图进行音素对象检测，得到音频频谱图中各音素对象。

具体地，音素检测模型的输入为：长度为1秒的语音对应的音频频谱图，音素检测模型的输出为：音频频谱图中各音素对象的检测框位置、类别(409个音素[可以理解为拼音])和类别对应的置信度。

然而，由于不同音素对象相似度非常高(比如“en”，“eng”)，采用模型直接对音频频谱图进行音素对象检测的方法，经常造成音素对象误识别的情况。

针对上述问题，本公开提出一种音素检测方法及装置、训练方法及装置、设备和介质。

下面参考附图描述本公开实施例的音素检测方法及装置、训练方法及装置、设备和介质。

图1为本公开实施例一所提供的音素检测模型的训练方法的流程示意图。

本公开实施例以该音素检测模型的训练方法被配置于音素检测模型的训练装置中来举例说明，该训练装置可以应用于任一电子设备中，以使该电子设备可以执行音素检测模型的训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该音素检测模型的训练方法可以包括以下步骤：

步骤101，获取样本音频对应的音频频谱图。

在本公开实施例中，可以获取样本音频对应的音频频谱图。例如，获取样本音频，对样本音频进行频谱特征提取，得到音频频谱图。由此，基于频谱特征提取技术，对样本音频进行频谱特征提取，得到音频频谱图，可以提升音频频谱图生成结果的准确性。

其中，对样本音频的获取方式不作限制，比如，可以从现有的训练集获取，或者可以人工语音输入，或者，可以根据用户输入的文本进行语音合成，等等，对此并不作限制。

步骤102，将音频频谱图输入音素检测模型，以得到音素检测模型输出的预测音素序列。

在本公开实施例中，可以将音频频谱图输入音素检测模型，以由音素检测模型对音频频谱图进行音素检测，得到预测音素序列。

步骤103，根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数。

在本公开实施例中，可以根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数。例如，序列损失函数可以为CTC(Connectionist TemporalClassification，时序连接分类)损失函数。

作为一种示例，可以根据下述公式(1)，确定序列损失函数：

其中，L₁为序列损失函数，X＝{I_i，l_i}表示样本集合，I_i表示样本集合中的第i个样本音频，l_i表示样本音频I_i上标注的真实音素序列，y_i表示将样本音频I_i对应的音频频谱图输入音素检测模型后，音素检测模型输出的预测音素序列。该序列损失函数的目的为最小化预测音素序列与真实音素序列的条件概率的负对数似然。

步骤104，根据序列损失函数对音素检测模型进行训练。

在本公开实施例中，可以根据序列损失函数，对音素检测模型进行训练。例如，可以根据序列损失函数，对音素检测模型进行训练，以使序列损失函数的取值最小化。

本公开实施例的音素检测模型的训练方法，通过将样本音频对应的音频频谱图输入音素检测模型，以得到音素检测模型输出的预测音素序列，并根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数，以根据序列损失函数对音素检测模型进行训练。由此，基于序列损失函数，对音素检测模型进行训练，可以使得模型不仅可以关注到单个音素，而且还可以提升模型对整个音素序列上下文的感知和关注度，从而提升模型的预测效果。

为了清楚说明上述实施例中音素检测模型是如何输出预测音素序列的，本公开还提出一种音素检测模型的训练方法。

图2为本公开实施例二所提供的音素检测模型的训练方法的流程示意图。

如图2所示，该音素检测模型的训练方法可以包括以下步骤：

步骤201，获取样本音频对应的音频频谱图。

步骤201的执行过程可以参见上述实施例的执行过程，在此不作赘述。

步骤202，采用音素检测模型对音频频谱图进行音素检测，以从音频频谱图中确定至少一个音素预测框的位置以及至少一个音素预测框内频谱片段所属的预测音素。

在本公开实施例中，可以采用音素检测模型对音频频谱图进行音素的回归检测，得到至少一个音素预测框的位置，以及对音频频谱图进行音素的类别预测，得到至少一个音素预测框内频谱片段所属的预测音素(或预测音素所属的类别)。其中，预测音素的个数为与音素预测框的个数相同。

步骤203，根据至少一个音素预测框的位置和至少一个音素预测框内频谱片段所属的预测音素，生成预测音素序列。

在本公开实施例中，可以根据至少一个音素预测框的位置和至少一个音素预测框内频谱片段所属的预测音素，生成预测音素序列。

作为一种示例，音素预测框的位置可以为音素预测框的中心位置的横坐标(即时间信息)，当音素预测框的个数为1个时，预测音素的个数为1个，预测音素序列中仅包括一个预测音素，当音素预测框的个数为多个时，预测音素的个数也为多个，可以按照各音素预测框的位置大小，由小至大地对各音素预测框内频谱片段所属的预测音素进行排序，得到预测音素序列。

举例而言，假设音素检测模型一共输出三个音素预测框，分别为框1、框2和框3，框1的位置>框2的位置>框3的位置，且，框1内频谱片段所属的预测音素为音素1、框2内频谱片段所属的预测音素为音素2、框3内频谱片段所属的预测音素为音素3，则预测音素序列为：{音素3音素2音素1}。

步骤204，根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数。

同理，样本音频上标注的真实音素序列可以根据样本音频上标注的至少一个音素标注框的位置以及至少一个音素标注框内的标注音素生成的，生成原理与预测音素序列相同，在此不作赘述。

步骤205，根据序列损失函数对音素检测模型进行训练。

步骤204至205的执行过程可以参见本公开任一实施例的执行过程，在此不作赘述。

本公开实施例的音素预测模型的训练方法，通过采用音素检测模型对音频频谱图进行音素检测，以从音频频谱图中确定至少一个音素预测框的位置以及至少一个音素预测框内频谱片段所属的预测音素；根据至少一个音素预测框的位置和至少一个音素预测框内频谱片段所属的预测音素，生成预测音素序列。由此，根据各音素预测框的位置，对各音素预测框内频谱片段所属的预测音素进行排序，得到预测音素序列，可以提升预测音素序列生成的合理性和可靠性。

在本公开实施例的一种可能的实现方式中，为了进一步提升模型的预测效果，还可以引入位置损失函数，结合位置损失函数和序列损失函数，对音素检测模型进行训练。下面结合图3，对上述过程进行详细说明。

图3为本公开实施例三所提供的音素检测模型的训练方法的流程示意图。

如图3所示，该音素检测模型的训练方法可以包括以下步骤：

步骤301，获取样本音频对应的音频频谱图。

步骤302，采用音素检测模型对音频频谱图进行音素检测，以从音频频谱图中确定至少一个音素预测框的位置以及至少一个音素预测框内频谱片段所属的预测音素。

步骤303，根据至少一个音素预测框的位置和至少一个音素预测框内频谱片段所属的预测音素，生成预测音素序列。

步骤304，根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数。

其中，真实音素序列是根据样本音频上标注的各音素标注框的位置和各音素标注框内的标注音素生成的。

步骤301至304的执行过程可以参见本公开任一实施例的执行过程，在此不作赘述。

步骤305，根据至少一个音素预测框的位置和至少一个音素标注框的位置之间的差异，生成位置损失函数。

在本公开实施例中，可以根据至少一个音素预测框的位置和至少一个音素标注框的位置之间的差异，生成位置损失函数。

作为一种示例，位置损失函数可以为MSE(Mean Square Error，均方误差)损失函数，即预测值和真实值之差的平方的平均值，例如，可以根据下述公式(2)，确定位置损失函数L₂：

其中，n可以为音素预测框或音素标注框的个数，f(x)可以包括音素预测框的位置(即中心位置横坐标(即时间信息))和/或音素预测框的宽度，y可以包括音素标注框的位置(即中心位置横坐标)和/或音素检测框的宽度，例如，f(x_i)可以表示第i个音素预测框的位置，y_i可以表示第i个音素标注框的位置。

需要说明的是，本公开对步骤305的执行时序不做限制，即本公开仅以步骤305在步骤304之后执行进行示例，实际应用时，步骤305在步骤302之后，且在步骤306之前执行即可。

步骤306，根据位置损失函数和序列损失函数，生成目标损失函数。

在本公开实施例中，可以根据位置损失函数和序列损失函数，生成目标损失函数。比如，可以将位置损失函数和序列损失函数进行加权求和，以得到目标损失函数。

步骤307，根据目标损失函数，对音素检测模型进行训练，以使目标损失函数的取值最小化。

在本公开实施例中，可以根据目标损失函数对音素检测模型进行训练，以使目标损失函数的取值最小化。

本公开实施例的音素检测模型的训练方法，通过根据至少一个音素预测框的位置和至少一个音素标注框的位置之间的差异，生成位置损失函数；根据位置损失函数和序列损失函数，生成目标损失函数；根据目标损失函数，对音素检测模型进行训练，以使目标损失函数的取值最小化。由此，结合位置损失函数和序列损失函数，对音素检测模型进行训练，可以进一步提升模型的预测效果。

为了清楚说明本公开上述实施例中是如何确定至少一个音素预测框内频谱片段所属的预测音素的，本公开还提出一种音素检测模型的训练方法。

图4为本公开实施例四所提供的音素检测模型的训练方法的流程示意图。

如图4所示，该音素检测模型的训练方法可以包括以下步骤：

步骤401，获取样本音频对应的音频频谱图。

步骤401的执行过程可以参见上述任一实施例，在此不作赘述。

步骤402，采用音素检测模型中的第一预测层，对音频频谱图进行音素检测，以从音频频谱图中确定至少一个音素预测框的位置以及至少一个音素预测框内频谱片段对应的多个候选音素。

在本公开实施例中，可以采用音素检测模型的第一预测层，对音频频谱图进行音素检测，得到至少一个音素预测框的位置以及至少一个音素预测框内频谱片段对应的多个候选音素。例如，候选音素的个数可以为409个。

作为一种可能的实现方式，可以采用第一预测层中的一个预测分支，同时对音频频谱图进行音素的回归预测，得到至少一个音素预测框的位置，以及，对音频频谱图进行音素的类别预测，得到至少一个音素预测框内频谱片段对应的多个候选音素(或多个候选音素所属的类别)。

作为另一种可能的实现方式，还可以将分类和回归进行解耦，使得模型聚焦于分类和回归的特征能力的表达，即增强模型的特征表达能力，本公开中，还可以采用第一预测层中的第一预测分支，对音频频谱图进行音素的回归预测，得到至少一个音素预测框的位置，采用第一预测层中的第二预测分支，对音频频谱图进行音素的类别预测，得到至少一个音素预测框内频谱片段对应的多个候选音素(或多个候选音素所属的类别)。其中，第一预测分支与第二预测分支不同。

步骤403，采用音素检测模型中第二预测层，对至少一个音素预测框内频谱片段对应的多个候选音素进行置信度预测，得到至少一个音素预测框对应的多个候选音素的置信度。

在本公开实施例中，针对每个音素预测框，可以采用音素检测模型中的第二预测层(比如softmax层)，对该音素预测框内频谱片段对应的多个候选音素进行置信度预测，得到各候选音素对应的置信度。

步骤404，根据至少一个音素预测框对应的多个候选音素的置信度，从各候选音素中筛选出至少一个音素预测框内频谱片段所属的预测音素。

在本公开实施例中，针对每个音素预测框，可以根据对应的各候选音素对应的置信度，从各候选音素中筛选出预测音素，比如预测音素的置信度可以大于其他候选音素的置信度，从而可以将预测音素作为该音素预测框内频谱片段所属的音素。

步骤405，根据至少一个音素预测框的位置和至少一个音素预测框内频谱片段所属的预测音素，生成预测音素序列。

步骤406，根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数。

其中，真实音素序列是根据样本音频上标注的至少一个音素标注框的位置和至少一个音素标注框内的标注音素生成的。

步骤407，根据序列损失函数对音素检测模型进行训练。

步骤405至407的执行过程可以参见上述任一实施例，在此不作赘述。

本公开实施例的音素检测模型的训练方法，通过采用音素检测模型中的第一预测层，对音频频谱图进行音素检测，以从音频频谱图中确定至少一个音素预测框的位置以及至少一个音素预测框内频谱片段对应的多个候选音素；采用音素检测模型中第二预测层，对至少一个音素预测框内频谱片段对应的多个候选音素进行置信度预测，得到至少一个音素预测框对应的多个候选音素的置信度；根据至少一个音素预测框对应的多个候选音素的置信度，从各候选音素中筛选出至少一个音素预测框内频谱片段所属的预测音素。由此，根据各候选音素对应的置信度，从各候选音素中筛选出音素预测框内频谱片段所属的预测音素，可以提升预测音素确定结果的准确性和合理性。

在本公开实施例的一种可能的实现方式中，为了进一步提升模型的预测效果，还可以引入分类损失函数，结合位置损失函数、序列损失函数以及分类损失函数，对音素检测模型进行训练。下面结合图5，对上述过程进行详细说明。

图5为本公开实施例五所提供的音素检测模型的训练方法的流程示意图。

如图5所示，该音素检测模型的训练方法可以包括以下步骤：

步骤501，获取样本音频对应的音频频谱图。

步骤502，采用音素检测模型中的第一预测层，对音频频谱图进行音素检测，以从音频频谱图中确定至少一个音素预测框的位置以及至少一个音素预测框内频谱片段对应的多个候选音素。

步骤503，采用音素检测模型中第二预测层，对至少一个音素预测框内频谱片段对应的多个候选音素进行置信度预测，得到至少一个音素预测框对应的多个候选音素的置信度。

步骤504，根据至少一个音素预测框对应的多个候选音素的置信度，从各候选音素中筛选出至少一个音素预测框内频谱片段所属的预测音素。

步骤505，根据至少一个音素预测框的位置和至少一个音素预测框内频谱片段所属的预测音素，生成预测音素序列。

步骤506，根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数。

步骤507，根据至少一个音素预测框的位置和至少一个音素标注框的位置之间的差异，生成位置损失函数。

步骤501至507的执行过程可以参见本公开任一实施例的执行过程，在此不作赘述。

步骤508，根据第二预测层输出的至少一个音素预测框内频谱片段对应的多个候选音素的置信度，生成分类损失函数。

在本公开实施例中，可以根据第二预测层输出的至少一个音素预测框内频谱片段对应的多个候选音素的置信度，以及至少一个标注音素的置信度，生成分类损失函数。

作为一种示例，分类损失函数可以为CEL(Cross Entropy Loss，交叉熵损失)损失函数，比如，可以根据下述公式(3)，确定每个标注音素的损失函数：

其中，class是指标注音素(或标注音素所属的类别)，x是指预测音素(或预测音素所属的类别)，x[class]是指音素检测模型预测的409个候选音素中的标注音素对应的置信度，x[j]是指音素检测模型预测的409个候选音素(包括标注音素)对应的置信度，j的取值一共409个，分别为各候选音素。也就是说，可以根据409个候选音素中的408个不准确音素的置信度和1类标注音素对应的准确音素的置信度，计算CEL损失函数。

在标注音素的个数为一个的情况下，可以将公式(3)中的loss作为分类损失函数L₃，而在标注音素的个数为多个的情况下，可以将根据公式(3)得到的各标注音素的损失函数进行加权求和，得到分类损失函数L₃。

步骤509，将位置损失函数、序列损失函数和分类损失函数进行加权求和，以得到目标损失函数。

在本公开实施例中，可以将位置损失函数、序列损失函数和分类损失函数进行加权求和，比如，可以按照设定权重，对位置损失函数、序列损失函数和分类损失函数进行加权求和，得到目标损失函数。

步骤510，根据目标损失函数，对音素检测模型进行训练，以使目标损失函数的取值最小化。

步骤510的执行过程可以参见上述实施例的执行过程，在此不作赘述。

本公开实施例的音素检测模型的训练方法，通过根据第二预测层输出的至少一个音素预测框内频谱片段对应的多个候选音素的置信度，生成分类损失函数；将位置损失函数、序列损失函数和分类损失函数进行加权求和，以得到目标损失函数。由此，结合位置损失函数、序列损失函数以及分类损失函数，对音素检测模型进行训练，可以进一步提升模型的预测效果。

上述为音素检测模型的训练方法所对应的各实施例，本公开还提出一种音素检测模型的应用方法，即音素检测方法。

图6为本公开实施例六所提供的音素检测方法的流程示意图。

如图6所示，该音素检测方法可以包括以下步骤：

步骤601，获取至少一个音频片段对应的目标音频频谱图。

在本公开实施例中，可以获取至少一个音频片段，对音频片段进行频谱特征提取，得到目标音频频谱图。

在本公开实施例中，对音频片段的获取方式不做限制，例如，可以在线采集，比如可以通过网络爬虫技术在线采集，或者，也可以线下采集，或者，也可以人工合成，等等，本公开实施例对此并不做限制。

步骤602，将目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及至少一个音素检测框内频谱片段所属的目标音素。

其中，音素检测模型是采用如上述图1至图5中任一实施例提出的方法训练得到的。

在本公开实施例中，可以将目标音频频谱图输入至音素检测模型，由音素检测模型对目标音频频谱图进行音素检测，得到至少一个音素检测框的位置以及至少一个音素检测框内频谱片段所属的目标音素。

本公开实施例的音素检测方法，通过获取至少一个音频片段对应的目标音频频谱图，并将目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及至少一个音素检测框内频谱片段所属的目标音素。由此，基于深度学习技术，对音频片段对应的目标音频频谱图进行音素检测，可以提升音素检测结果的准确性和可靠性。

为了清楚说明本公开上述实施例中是如何获取音频片段对应的目标音频频谱图的，本公开还提出一种音素检测方法。

图7为本公开实施例七所提供的音素检测方法的流程示意图。

如图7所示，该音素检测方法可以包括以下步骤：

步骤701，获取输入文本，并将输入文本进行语音合成，得到音频流。

在本公开实施例中，对输入文本的获取方式不做限制，比如，输入文本可以为用户输入的文本信息，或者，也可以为在线采集的文本信息，比如可以通过网络爬虫技术在线采集输入文本，等等，本公开对此不做限制。

在本公开实施例中，可以基于语音合成技术，将输入文本进行语音合成，得到音频流。

步骤702，根据设定时间间隔，对音频流进行切分，得到至少一个音频片段。

在本公开实施例中，设定时间间隔为预先设置的时间间隔，比如，设定时间间隔可以为1秒。

可以理解的是，直接对较长的音频流进行音素检测，具有较高的复杂度，因此本公开中，为了降低对音频流进行音素检测的复杂度，可以对音频流进行分段处理，得到多个音频片段。即，可以按照设定时间间隔，对音频流进行切分，得到至少一个音频片段。例如，假设音频流为20秒的语音，则可以将音频流切分为20个1秒的音频片段。

步骤703，对音频片段进行频谱特征提取，得到目标音频频谱图。

在本公开实施例中，在对音频流进行切分得到各音频片段后，可以对每个音频片段进行频谱特征提取，得到音频片段对应的目标音频频谱图。

步骤704，将目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及至少一个音素检测框内频谱片段所属的目标音素。

作为一种示例，以设定时间间隔为1秒进行示例，音频频谱图可以为1*160*101的图像，1秒音频中一般具有2-5个音素(考虑到有相同类别的音素，因此1秒音频中最多具有2-5个音素类别)。

音素检测原理可以如图8所示，音素检测模型中的第一分支(即位置分支)，用于输出音频片段对应的音频频谱图中的音素检测框的位置；第二分支(即类别分支或分类分支)，用于输出每个音素检测框内频谱片段所属的音素类别。

在训练阶段，目标损失函数＝位置损失函数(比如MSE损失函数)+分类损失函数(比如CEL损失函数)+序列损失函数(比如CTC损失函数)。

由此，通过增加序列损失函数，可以提升模型对整个音素序列上下文的感知和关注度，可以适合于如语音音频流这种具有上下文关联的音素检测和识别。即在视觉物体检测框架中加入时序连接分类损失，显性地对音素检测框的类别进行时序序列建模，使得音素检测模型不仅可以关注到单个音素对象，而且增加了模型对音素序列上下文的感知和关注度，提升音素检测模型的识别精度。

本公开实施例的音素检测方法，通过获取输入文本，并将输入文本进行语音合成，得到音频流；根据设定时间间隔，对音频流进行切分，得到至少一个音频片段；对音频片段进行频谱特征提取，得到目标音频频谱图。由此，将音频流进行切分，得到语音时长小于或者等于设定时间间隔的音频片段，对音频片段进行频谱特征提取，不仅可以使得提取得到的目标音频频谱图满足音素检测模型的输入要求，从而保证音素的有效检测，而且，还可以降低音素检测的复杂度。

上述为音素检测方法对应的各实施例，本公开还提出一种基于识别出的目标音素，生成动画视频的方法。

图9为本公开实施例八所提供的音素检测方法的流程示意图。

如图9所示，在上述图6或图7所示实施例的基础上，当音频片段的个数为多个时，该音素检测方法还可以包括以下步骤：

步骤901，根据多个音频片段中至少一个音素检测框的位置和至少一个音素检测框内频谱片段所属的目标音素，生成音素信息序列，其中，音素信息序列中的音素信息包括：各目标音素以及对应的发音时间段。

在本公开实施例中，音素信息序列中的各目标音素的位置，以及对应的发音时间段，均可以根据各目标音素在对应音频片段中的位置，以及对应音频片段在音频流中的位置来确定。其中，发音时间段可以包括发音开始时间和发音结束时间。

举例而言，假设音频流为2秒，第一个音频片段(0-1秒)对应的目标音频频谱图中具有3个音素检测框，分别为框1、框2和框3，框1内频谱片段所属的目标音素为音素1、框2内频谱片段所属的目标音素为音素2、框3内频谱片段所属的目标音素为音素3，假设框1的位置<框2的位置<框3的位置。并且，第二个音频片段(1-2秒)对应的目标音频频谱图中也具有3个音素检测框，分别为框4、框5和框6，框4内频谱片段所属的目标音素为音素4、框5内频谱片段所属的目标音素为音素5、框6内频谱片段所属的目标音素为音素6，假设框4的位置<框5的位置<框6的位置。则音素信息序列中依次排列的目标音素分别为音素1、音素2、音素3、音素4、音素5和音素6。

假设框1的位置在第一个音频片段中的第0.2毫秒，则音素1的发音时间段可为：“0.1毫秒至0.3毫秒”，框2的位置在第一个音频片段中的第300毫秒，则音素2的发音时间段可为：“299.9毫秒至300.1毫秒”，框3的位置在第一个音频片段中的第600毫秒，则音素3的发音时间段可为：“599.9毫秒至600.1毫秒”。并且，假设框4的位置在第二个音频片段中的第0.2毫秒，则音素4的发音时间段可为：“1000.1毫秒至1000.3毫秒”，框5的位置在第二个音频片段中的第300毫秒，则音素5的发音时间段可为：“1299.9毫秒至1300.1毫秒”，框6的位置在第三个音频片段中的第600毫秒，则音素6的发音时间段可为：“1599.9毫秒至1600.1毫秒”。

也就是说，为了提升音素信息序列生成结果的准确性，针对每个音频片段，可以根据该音频片段中至少一个音素检测框的位置和至少一个音素检测框内频谱片段所属的目标音素，生成音素信息子序列，从而可以按照各音频片段在音频流中的位置，对各音素信息子序列进行合并处理，以得到音素信息序列。

例如，可以按照各音频片段在音频流中的位置，对各音素信息子序列中的发音时间段进行调整，得到调整后的音素信息子序列；对多个调整后的音素信息子序列进行合并处理，得到音素信息序列。也就是说，为了提升音素信息序列生成结果的准确性，可以根据多个音频片段在音频流中的时间段信息，将多个音素信息子序列中的发音时间段调整为音频流中的时间段信息，并将调整后的音素信息子序列进行拼接处理，得到音素信息序列。

步骤902，获取音节序列，其中，音节序列与音频流对应相同的文本。

在本公开实施例中，音频流对应的文本为输入文本，可以获取输入文本中各个字符对应的音节，对各个字符对应的音节进行拼接，得到该输入文本对应的音节序列。其中，字符对应的音节可以为字符的拼音。

步骤903，根据音节序列、音素信息序列中的各目标音素以及对应的发音时间段，确定音节序列中音节对应的发音时间段。

在本公开实施例中，音节序列中的音节与音素信息序列中目标音素具有对应关系，比如，音节序列中的音节“wo”与音素信息序列中的目标音素“wo”具有对应关系，因此，对于音节序列中的每个音节，可以根据与该音节对应的目标音素的发音时间段，确定该音节对应的发音时间段。其中，可以针对音节序列中的每个音节，可以分别执行上述确定发音时间段的步骤，得到音节序列中每个音节对应的发音时间段。

在本公开实施例的一种可能的实现方式中，为了提升音节对应的发音时间段确定结果的准确性，可以根据音节序列以及音节与音素之间的对应关系，确定音节序列中音节与音素信息序列中音素信息之间的对应关系，比如，音素信息序列中音素信息中的目标音素与音节序列中音节相对应，音节序列中的音节的发音时间段与该音节对应的音素信息中目标音素的发音时间段相对应。进而可以根据与音节对应的音素信息中目标音素的发音时间段，确定音节对应的发音时间段。

步骤904，根据音节序列中音节对应的发音时间段以及音节对应的动画帧序列，生成音频流对应的动画视频。

在本公开实施例中，由于音节序列中发音时间段是根据音素信息序列中的目标音素对应的发音时间段确定的，因此，根据音节序列中音节对应的发音时间段可确定音节对应的发音时间段的时长，根据该时长可对该音节对应的动画帧序列进行处理，生成与音频流对应的动画视频。

在本公开实施例的一种可能的实现方式中，可以按照音节对应的发音时间段的时长，对音节对应的动画帧序列进行插值处理，得到具有上述时长的处理后动画帧序列。比如，对于音节序列中的音节，可查询动画字典获取该音节对应的动画帧序列，按照音节对应的发音时间段的时长对该音节对应的动画帧序列进行插值处理(比如，压缩处理)，得到具有与该时长对应的动画帧序列。

需要说明的是，上述插值处理的步骤，可以针对音节序列中的每个音节或者部分音节，本公开对此并不作限制。以每个音节为例，针对音节序列中的每个音节，可以分别执行上述插值处理的步骤，得到音节序列中每个音节对应的处理后动画序列。从而可以根据音节序列中各音节对应的处理后动画帧序列，生成动画视频。

本公开实施例的音素检测方法，通过根据多个音频片段中至少一个音素检测框的位置和至少一个音素检测框内频谱片段所属的目标音素，生成音素信息序列，其中，音素信息序列中的音素信息包括：各目标音素以及对应的发音时间段；获取音节序列，其中，音节序列与音频流对应相同的文本；根据音节序列、音素信息序列中的各目标音素以及对应的发音时间段，确定音节序列中音节对应的发音时间段；根据音节序列中音节对应的发音时间段以及音节对应的动画帧序列，生成音频流对应的动画视频。由此，可以实现根据输入文本，自动生成动画视频，可以满足实际的应用需求。并且，还可以使得动画视频和音频流具有很强的一致性，不存在帧间抖动问题，进而提高了动画视频的真实性和泛化能力。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息(比如音频片段、目标文本片段等)的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

与上述图1至图5实施例提供的音素检测模型的训练方法相对应，本公开还提供一种音素检测模型的训练装置，由于本公开实施例提供的音素检测模型的训练装置与上述图1至图5实施例提供的音素检测模型的训练方法相对应，因此在音素检测模型的训练方法的实施方式也适用于本公开实施例提供的音素检测模型的训练装置，在本公开实施例中不再详细描述。

图10为本公开实施例九所提供的音素检测模型的训练装置的结构示意图。

如图10所示，该音素检测模型的训练装置1000可以包括：第一获取模块1010、第一输入模块1020、确定模块1030以及训练模块1040。

其中，第一获取模块1010，用于获取样本音频对应的音频频谱图。

第一输入模块1020，用于将音频频谱图输入音素检测模型，以得到音素检测模型输出的预测音素序列。

确定模块1030，用于根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数。

训练模块1040，用于根据序列损失函数对音素检测模型进行训练。

在本公开实施例的一种可能的实现方式中，第一输入模块1020，具体用于：采用音素检测模型对音频频谱图进行音素检测，以从音频频谱图中确定至少一个音素预测框的位置以及至少一个音素预测框内频谱片段所属的预测音素；根据至少一个音素预测框的位置和至少一个音素预测框内频谱片段所属的预测音素，生成预测音素序列。

在本公开实施例的一种可能的实现方式中，真实音素序列是根据样本音频上标注的至少一个音素标注框的位置和至少一个音素标注框内的标注音素生成的。

训练模块1040，可以包括：

生成单元，用于根据至少一个音素预测框的位置和至少一个音素标注框的位置之间的差异，生成位置损失函数。

生成单元，还用于根据位置损失函数和序列损失函数，生成目标损失函数。

训练单元，用于根据目标损失函数，对音素检测模型进行训练，以使目标损失函数的取值最小化。

在本公开实施例的一种可能的实现方式中，第一输入模块1020，具体用于：采用音素检测模型中的第一预测层，对音频频谱图进行音素检测，以从音频频谱图中确定至少一个音素预测框的位置以及至少一个音素预测框内频谱片段对应的多个候选音素；采用音素检测模型中第二预测层，对至少一个音素预测框内频谱片段对应的多个候选音素进行置信度预测，得到至少一个音素预测框对应的多个候选音素的置信度；根据至少一个音素预测框对应的多个候选音素的置信度，从各候选音素中筛选出至少一个音素预测框内频谱片段所属的预测音素。

在本公开实施例的一种可能的实现方式中，生成单元，具体用于：根据第二预测层输出的至少一个音素预测框内频谱片段对应的多个候选音素的置信度，生成分类损失函数；将位置损失函数、序列损失函数和分类损失函数进行加权求和，以得到目标损失函数。

在本公开实施例的一种可能的实现方式中，第一获取模块1010，具体用于：获取样本音频；对样本音频进行频谱特征提取，以得到音频频谱图。

本公开实施例的音素检测模型的训练装置，通过将样本音频对应的音频频谱图输入音素检测模型，以得到音素检测模型输出的预测音素序列，并根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数，以根据序列损失函数对音素检测模型进行训练。由此，基于序列损失函数，对音素检测模型进行训练，可以使得模型不仅可以关注到单个音素，而且还可以提升模型对整个音素序列上下文的感知和关注度，从而提升模型的预测效果。

与上述图6至图9实施例提供的音素检测方法相对应，本公开还提供一种音素检测装置，由于本公开实施例提供的音素检测装置与上述图6至图9实施例提供的音素检测方法相对应，因此在音素检测方法的实施方式也适用于本公开实施例提供的音素检测装置，在本公开实施例中不再详细描述。

图11为本公开实施例十所提供的音素检测装置的结构示意图。

如图11所示，该音素检测装置1100可以包括：第二获取模块1110和第二输入模块1120。

其中，第二获取模块1110，用于获取至少一个音频片段对应的目标音频频谱图。

第二输入模块1120，用于将目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及至少一个音素检测框内频谱片段所属的目标音素；其中，音素检测模型是采用如图10实施例提出的装置训练得到的。

在本公开实施例的一种可能的实现方式中，第二获取模块1110，具体用于：获取输入文本，并将输入文本进行语音合成，得到音频流；根据设定时间间隔，对音频流进行切分，得到至少一个音频片段；对音频片段进行频谱特征提取，得到目标音频频谱图。

在本公开实施例的一种可能的实现方式中，音频片段为多个，该音素检测装置1100还可以包括：

生成模块，用于根据多个音频片段中至少一个音素检测框的位置和至少一个音素检测框内频谱片段所属的目标音素，生成音素信息序列，其中，音素信息序列中的音素信息包括：各目标音素以及对应的发音时间段。

第二获取模块1110，还用于获取音节序列，其中，音节序列与音频流对应相同的文本。

确定模块，用于根据音节序列、音素信息序列中的各目标音素以及对应的发音时间段，确定音节序列中音节对应的发音时间段。

生成模块，还用于根据音节序列中音节对应的发音时间段以及音节对应的动画帧序列，生成音频流对应的动画视频。

在本公开实施例的一种可能的实现方式中，生成模块，具体用于：针对每个音频片段，根据音频片段中至少一个音素检测框的位置和至少一个音素检测框内频谱片段所属的目标音素，生成音素信息子序列；按照各音频片段在音频流中的位置，对各音素信息子序列进行合并处理，以得到音素信息序列。

本公开实施例的音素检测装置，通过获取至少一个音频片段对应的目标音频频谱图，并将目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及至少一个音素检测框内频谱片段所属的目标音素。由此，基于深度学习技术，对音频片段对应的目标音频频谱图进行音素检测，可以提升音素检测结果的准确性和可靠性。

为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的音素检测方法或训练方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的音素检测方法或训练方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的音素检测方法或训练方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开任一实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)1202中的计算机程序或者从存储单元1208加载到RAM(Random AccessMemory，随机访问/存取存储器)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。I/O(Input/Output，输入/输出)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如上述音素检测方法或训练方法。例如，在一些实施例中，上述音素检测方法或训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的音素检测方法或训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述音素检测方法或训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，通过将样本音频对应的音频频谱图输入音素检测模型，以得到音素检测模型输出的预测音素序列，并根据预测音素序列和样本音频上标注的真实音素序列的条件概率，确定序列损失函数，以根据序列损失函数对音素检测模型进行训练。由此，基于序列损失函数，对音素检测模型进行训练，可以使得模型不仅可以关注到单个音素，而且还可以提升模型对整个音素序列上下文的感知和关注度，从而提升模型的预测效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种音素检测模型的训练方法，所述方法包括：

获取样本音频对应的音频频谱图；

根据所述序列损失函数对所述音素检测模型进行训练。

2.根据权利要求1所述的方法，其中，所述将所述音频频谱图输入音素检测模型，以得到所述音素检测模型输出的预测音素序列，包括：

采用所述音素检测模型对所述音频频谱图进行音素检测，以从所述音频频谱图中确定至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段所属的预测音素；

根据所述至少一个音素预测框的位置和所述至少一个音素预测框内频谱片段所属的预测音素，生成预测音素序列。

3.根据权利要求2所述的方法，其中，所述真实音素序列是根据所述样本音频上标注的至少一个音素标注框的位置和所述至少一个音素标注框内的标注音素生成的；

所述根据所述序列损失函数对所述音素检测模型进行训练，包括：

根据所述至少一个音素预测框的位置和所述至少一个音素标注框的位置之间的差异，生成位置损失函数；

根据所述位置损失函数和所述序列损失函数，生成目标损失函数；

根据所述目标损失函数，对所述音素检测模型进行训练，以使所述目标损失函数的取值最小化。

4.根据权利要求3所述的方法，其中，所述采用所述音素检测模型对所述音频频谱图进行音素检测，以从所述音频频谱图中确定至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段所属的预测音素，包括：

采用所述音素检测模型中的第一预测层，对所述音频频谱图进行音素检测，以从所述音频频谱图中确定至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段对应的多个候选音素；

采用所述音素检测模型中第二预测层，对所述至少一个音素预测框内频谱片段对应的多个所述候选音素进行置信度预测，得到所述至少一个音素预测框对应的多个所述候选音素的置信度；

根据所述至少一个音素预测框对应的多个所述候选音素的置信度，从各所述候选音素中筛选出所述至少一个音素预测框内频谱片段所属的预测音素。

5.根据权利要求4所述的方法，其中，所述根据所述位置损失函数和所述序列损失函数，生成目标损失函数，包括：

根据所述第二预测层输出的至少一个所述音素预测框内频谱片段对应的多个候选音素的置信度，生成分类损失函数；

将所述位置损失函数、所述序列损失函数和所述分类损失函数进行加权求和，以得到所述目标损失函数。

6.根据权利要求1-5中任一项所述的方法，其中，所述获取样本音频对应的音频频谱图，包括：

获取所述样本音频；

对所述样本音频进行频谱特征提取，以得到所述音频频谱图。

7.一种音素检测方法，所述方法包括：

获取至少一个音频片段对应的目标音频频谱图；

将所述目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及所述至少一个音素检测框内频谱片段所属的目标音素；其中，所述音素检测模型是采用如权利要求1-6中任一项所述的方法训练得到的。

8.根据权利要求7所述的方法，其中，所述获取至少一个音频片段对应的目标音频频谱图，包括：

获取输入文本，并将所述输入文本进行语音合成，得到音频流；

根据设定时间间隔，对所述音频流进行切分，得到至少一个音频片段；

对所述音频片段进行频谱特征提取，得到所述目标音频频谱图。

9.根据权利要求8所述的方法，其中，所述音频片段为多个，所述方法还包括：

根据多个所述音频片段中至少一个音素检测框的位置和所述至少一个音素检测框内频谱片段所属的目标音素，生成音素信息序列，其中，所述音素信息序列中的音素信息包括：各目标音素以及对应的发音时间段；

获取音节序列，其中，所述音节序列与所述音频流对应相同的文本；

根据所述音节序列、所述音素信息序列中的各目标音素以及对应的发音时间段，确定所述音节序列中音节对应的发音时间段；

根据所述音节序列中所述音节对应的发音时间段以及所述音节对应的动画帧序列，生成所述音频流对应的动画视频。

10.根据权利要求9所述的方法，其中，所述根据多个所述音频片段中至少一个音素检测框的位置和所述至少一个音素检测框内频谱片段所属的目标音素，生成音素信息序列，包括：

针对每个所述音频片段，根据所述音频片段中至少一个音素检测框的位置和所述至少一个音素检测框内频谱片段所属的目标音素，生成音素信息子序列；

按照各所述音频片段在所述音频流中的位置，对各所述音素信息子序列进行合并处理，以得到所述音素信息序列。

11.一种音素检测模型的训练装置，所述装置包括：

第一获取模块，用于获取样本音频对应的音频频谱图；

12.根据权利要求11所述的装置，其中，所述第一输入模块，具体用于：

13.根据权利要求12所述的装置，其中，所述真实音素序列是根据所述样本音频上标注的至少一个音素标注框的位置和所述至少一个音素标注框内的标注音素生成的；

所述训练模块，包括：

生成单元，用于根据所述至少一个音素预测框的位置和所述至少一个音素标注框的位置之间的差异，生成位置损失函数；

所述生成单元，还用于根据所述位置损失函数和所述序列损失函数，生成目标损失函数；

训练单元，用于根据所述目标损失函数，对所述音素检测模型进行训练，以使所述目标损失函数的取值最小化。

14.根据权利要求13所述的装置，其中，所述第一输入模块，具体用于：

15.根据权利要求14所述的装置，其中，所述生成单元，具体用于：

16.根据权利要求11-15中任一项所述的装置，其中，所述第一获取模块，具体用于：

获取所述样本音频；

17.一种音素检测装置，所述装置包括：

第二输入模块，用于将所述目标音频频谱图输入至音素检测模型，以输出得到至少一个音素检测框的位置以及所述至少一个音素检测框内频谱片段所属的目标音素；其中，所述音素检测模型是采用如权利要求11-16中任一项所述的装置训练得到的。

18.根据权利要求17所述的装置，其中，所述第二获取模块，具体用于：

19.根据权利要求18所述的装置，其中，所述音频片段为多个，所述装置还包括：

生成模块，用于根据多个所述音频片段中至少一个音素检测框的位置和所述至少一个音素检测框内频谱片段所属的目标音素，生成音素信息序列，其中，所述音素信息序列中的音素信息包括：各目标音素以及对应的发音时间段；

所述第二获取模块，还用于获取音节序列，其中，所述音节序列与所述音频流对应相同的文本；

确定模块，用于根据所述音节序列、所述音素信息序列中的各目标音素以及对应的发音时间段，确定所述音节序列中音节对应的发音时间段；

所述生成模块，还用于根据所述音节序列中所述音节对应的发音时间段以及所述音节对应的动画帧序列，生成所述音频流对应的动画视频。

20.根据权利要求19所述的装置，其中，所述生成模块，具体用于：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的训练方法，或者，执行权利要求7-10中任一项所述的音素检测方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的训练方法，或者，执行权利要求7-10中任一项所述的音素检测方法。