CN111968678A

CN111968678A - 一种音频数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN111968678A
Application number: CN202010953505.5A
Authority: CN
Inventors: 黄羿衡; 田晋川
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-11-20
Anticipated expiration: 2040-09-11
Also published as: CN111968678B

Abstract

本申请实施例公开了一种音频数据处理方法、装置、设备及可读存储介质，该方法包括：获取目标文本数据，将目标文本数据对应的文本序列输入音频合成模型，通过音频合成模型输出目标文本数据对应的人声合成音频；获取人声合成音频的音频质量评估值，将人声合成音频的音频质量评估值作为目标文本数据的质量评估标准值；质量评估标准值用于确定针对目标文本数据的待评测朗读音频的质量评测结果。采用本申请，可以降低朗读音频的阈值选取成本。

Description

一种音频数据处理方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频数据处理方法、装置、设备以及可读存储介质。

背景技术

在口语评测技术中，在评判一段语音是否符合既定音素的发音规范时，主要是判断这段语音的声学得分是否超过某一阈值，可见，选取有效阈值是发音规范性判断的关键问题。

在现有技术中，对于一个文本数据的有效阈值的选取，需要收集大量的具有不同发音水平的用户的朗读音频，根据每个朗读音频的声学得分，构建统计分布，根据该朗读音频的标签对该文本数据设置阈值，这种依赖于大量的、高质量的且定制化的标注数据的阈值选取方式，成本极大。

发明内容

本申请实施例提供一种音频数据处理方法、装置、设备以及可读存储介质，可以降低朗读音频的阈值选取成本。

本申请实施例一方面提供了一种音频数据处理方法，包括：

获取目标文本数据，将目标文本数据对应的文本序列输入音频合成模型，通过音频合成模型输出目标文本数据对应的人声合成音频；音频合成模型是通过划分结果对样本音频合成模型进行调整所得到的；划分结果是指通过样本音频合成模型对标签数据分布进行划分所得到的结果；标签数据分布为第一质量评估标签与第二质量评估标签的数据分布，第一质量评估标签为样本文本数据对应的朗读音频正样本的音频质量评估值，第二质量评估标签为样本文本数据对应的朗读音频负样本的音频质量评估值；

获取人声合成音频的音频质量评估值，将人声合成音频的音频质量评估值作为目标文本数据的质量评估标准值；质量评估标准值用于确定针对目标文本数据的待评测朗读音频的质量评测结果。

本申请实施例一方面提供了一种音频数据处理装置，包括：

合成音频获取模块，用于获取目标文本数据，将目标文本数据对应的文本序列输入音频合成模型，通过音频合成模型输出目标文本数据对应的人声合成音频；音频合成模型是通过划分结果对样本音频合成模型进行调整所得到的；划分结果是指通过样本音频合成模型对标签数据分布进行划分所得到的结果；标签数据分布为第一质量评估标签与第二质量评估标签的数据分布，第一质量评估标签为样本文本数据对应的朗读音频正样本的音频质量评估值，第二质量评估标签为样本文本数据对应的朗读音频负样本的音频质量评估值；

评估值获取模块，用于获取人声合成音频的音频质量评估值；

标准值确定模块，用于将人声合成音频的音频质量评估值作为目标文本数据的质量评估标准值；质量评估标准值用于确定针对目标文本数据的待评测朗读音频的质量评测结果。

其中，评估值获取模块包括：

字典获取单元，用于获取发声字典；发声字典包括文本单词与音素序列之间的音素映射关系；

音素序列确定单元，用于通过发声字典中文本单词与音素序列之间的音素映射关系，确定目标文本数据对应的目标音素序列；

评估值确定单元，用于根据目标音素序列，确定人声合成音频的音频质量评估值。

其中，评估值确定单元包括：

状态序列获取子单元，用于通过音频评估模型，获取目标音素序列中每个音素对应的音素状态有向序列；

特征输入子单元，用于获取人声合成音频对应的音频特征，将音频特征输入音频评估模型；音频特征中包括至少两个音频帧的音频帧特征；

转移序列确定子单元，用于在音频评估模型中，根据音素状态有向序列确定每个音频帧特征分别对应的音素状态转移序列；

序列组合子单元，用于将每个音频帧特征分别对应的音素状态转移序列进行顺序组合，得到人声合成音频对应的音素状态转移序列；

评估值输出子单元，用于通过音频评估模型输出人声合成音频对应的音素状态转移序列的序列评估值；

评估值确定子单元，用于将序列评估值作为人声合成音频的音频质量评估值。

其中，至少两个音频帧的音频帧特征包括音频帧特征S_i以及音频帧特征S_j；

评估值输出子单元，还用于获取音频帧特征S_i对应的音素状态转移序列的质量评估值，以及音频帧特征S_j对应的音素状态转移序列的质量评估值；

评估值输出子单元，还用于将音频帧特征S_i对应的音素状态转移序列的质量评估值，与音频帧特征S_j对应的音素状态转移序列的质量评估值进行相加，得到质量评估运算值；

评估值输出子单元，还用于获取音频帧特征S_i与音频帧特征S_j对应的特征数量；

评估值输出子单元，还用于根据质量评估运算值以及特征数量，确定人声合成音频对应的音素状态转移序列的序列评估值。

其中，该装置还包括：

样本数据获取模块，用于获取至少两个样本文本数据，将至少两个样本文本数据输入样本音频合成模型，通过样本音频合成模型输出至少两个样本文本数据分别对应的样本人声合成音频；

评估标签确定模块，用于获取至少两个样本文本数据分别对应的朗读音频正样本以及朗读音频负样本，获取朗读音频正样本对应的音频质量评估值，将朗读音频正样本对应的音频质量评估值作为第一质量评估标签；

评估标签确定模块，还用于获取朗读音频负样本对应的音频质量评估值，将朗读音频负样本对应的音频质量评估值作为第二质量评估标签；

模型调整模块，用于获取样本人声合成音频的样本音频质量评估值，根据样本音频质量评估值对第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对样本音频合成模型进行调整，得到音频合成模型。

其中，至少两个样本文本数据包括样本文本数据K_i与样本文本数据K_j；

模型调整模块，包括：

样本评估值获取单元，用于获取样本人声合成音频T_i对应的样本音频质量评估值M_i；样本人声合成音频T_i为样本文本数据K_i对应的样本人声合成音频；

样本评估值获取单元，还用于获取样本人声合成音频T_j对应的样本音频质量评估值M_j；样本人声合成音频T_j为样本文本数据K_j对应的样本人声合成音频；

坐标获取单元，用于在第一质量评估标签与第二质量评估标签的数据分布中，获取样本音频质量评估值M_i对应的第一坐标位置，以及样本音频质量评估值M_j对应的第二坐标位置；

分界线确定单元，用于根据第一坐标位置与第二坐标位置，确定样本音频质量评估值M_i与样本音频质量评估值M_j所组成的分界线；

模型调整单元，用于按照分界线对第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对样本音频合成模型进行调整，得到音频合成模型。

其中，模型调整单元包括：

数据划分子单元，用于按照分界线将第一质量评估标签与第二质量评估标签的数据分布进行划分，得到第一划分区域以及第二划分区域；第一划分区域对应的期望划分标签为第一质量评估标签，第二划分区域对应的期望划分标签为第二质量评估标签；

数量获取子单元，用于若第一划分区域中包含第二质量评估标签，且第二划分区域中包含第一质量评估标签，则获取第一划分区域中包含的第二质量评估标签的数量，以及第二划分区域中包含的第一质量评估标签的数量；

参数调整子单元，用于在第一划分区域中包含的第二质量评估标签的数量大于第一阈值，且第二划分区域中包含的第一质量评估标签的数量大于第二阈值时，对样本音频合成模型的模型参数进行调整，得到音频合成模型。

其中，该装置还包括：

样本输入模块，用于将至少两个样本文本数据输入至音频合成模型，通过音频合成模型输出至少两个样本文本数据分别对应的人声合成音频；

样本标准值确定模块，用于获取每个样本文本数据分别对应的人声合成音频的音频质量评估值，将每个样本文本数据分别对应的人声合成音频的音频质量评估值，作为样本文本数据对应的样本质量评估标准值；

容错值调整模块，用于获取初始标准容错值，根据样本质量评估标准值、第一质量评估标签以及第二质量评估标签，对初始标准容错值进行调整，得到目标标准容错值；目标标准容错值用于结合目标文本数据的质量评估标准值，确定针对目标文本数据的待评测朗读音频的质量评测结果。

其中，容错值调整模块包括：

样本更新标准值确定单元，用于将样本质量评估标准值与初始标准容错值进行相加，得到样本更新质量评估标准值；

标签数量确定单元，用于在第一质量评估标签中，确定小于样本更新质量评估标准值的第一质量评估标签的第一标签数量；

标签数量确定单元，还用于在第二质量评估标签中，确定小于样本更新质量评估标准值的第二质量评估标签的第二标签数量；

容错值调整单元，用于确定第一标签数量与第二标签数量之间的数量差值，若数量差值大于差值阈值，则对初始标准容错值进行调整，得到目标标准容错值。

其中，该装置还包括：

朗读音频获取模块，用于获取针对目标文本数据的待评测朗读音频，获取待评测朗读音频的音频质量评估值；

评测结果确定模块，用于根据待评测朗读音频的音频质量评估值以及质量评估标准值，确定待评测朗读音频的质量评测结果。

其中，评测结果确定模块包括：

更新标准值确定单元，用于将质量评估标准值与目标标准容错值进行相加，得到更新质量评估标准值；

优质音频确定单元，用于将待评测朗读音频的音频质量评估值与更新质量评估标准值进行匹配，若待评测朗读音频的音频质量评估值大于更新质量评估标准值，则确定待评测朗读音频为优质音频；

劣质音频确定单元，用于若待评测朗读音频的音频质量评估值小于更新质量评估标准值，则确定待评测朗读音频为劣质音频。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的方法。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

在本申请实施例中，通过音频合成模型生成目标文本数据的人声合成音频，可将该人声合成音频的音频质量评估值作为该目标文本数据的质量评估标准值。其中，因为该音频合成模型是通过对样本音频合成音频进行调整所得到的，而对样本音频合成模型的调整又是通过对第一质量评估标签(样本文本数据对应的朗读音频正样本的音频质量评估值)，以及第二质量评估标签(样本文本数据对应的朗读音频负样本的音频质量评估值)的数据分布，进行划分后得到的划分结果来进行调整，所以调整得到的音频合成模型所输出的该目标文本数据的人声合成音频，也可以判断该目标文本数据的朗读音频是优质或劣质。应当理解，本申请通过样本音频合成音频对少量的第一质量评估标签与第二质量评估标签的数据分布进行划分，并根据划分结果来对样本音频合成模型进行调整，可以使得调整得到的音频合成模型所输出的人声合成音频的音频质量评估值，能有效区分目标文本数据的朗读音频的优劣性，该人声合成音频的音频质量评估值可以作为目标文本数据的质量评估标准值(阈值)。可以看出，本申请可以降低阈值选取成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构图；

图2是本申请实施例提供的一种场景示意图；

图3是本申请实施例提供的一种音频数据处理方法的流程示意图；

图4a是本申请实施例提供的一种音素对应的音素状态有向序列的示意图；

图4b是本申请实施例提供的一种确定音素状态转移序列的示意图；

图5是本申请实施例提供的一种模型调整的流程示意图；

图6是本申请实施例提供的一种将第一质量评估标签与第二质量评估标签的数据分布进行划分的示意图；

图7是本申请实施例提供的一种系统架构图；

图8是本申请实施例提供的一种音频数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请实施例提供的一种网络架构图。如图1所示，该网络架构可以包括业务服务器1000和用户终端集群，用户终端集群可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。如图1所示，多个用户终端可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n；如图1所示，用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与业务服务器1000进行网络连接，以便于每个用户终端可以通过该网络连接与业务服务器1000之间进行数据交互。

可以理解的是，如图1所示的每个用户终端均可以安装有目标应用，当该目标应用运行于各用户终端中时，可以分别与图1所示的业务服务器1000之间进行数据交互，使得业务服务器1000可以接收来自于每个用户终端的业务数据。其中，该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功能的应用。如，应用可以为娱乐类应用(例如，游戏应用)，该娱乐类应用可以用于用户进行游戏娱乐。本申请中的业务服务器1000可以根据这些应用获取到业务数据，如，该业务数据可以为目标用户在该游戏应用中通过朗读文本数据所得到的朗读音频。

随后，业务服务器1000可以确定该目标用户的朗读音频的质量评估值，并获取到该文本数据所对应的质量评估标准值；通过将该目标用户的朗读音频的质量评估值与该质量评估标准值进行对比，可以确定出该目标用户的朗读音频的质量评测结果(例如，该目标用户的朗读音频符合发音规范，属于优质隐僻；或该目标用户的朗读音频不符合发音规范，属于劣质音频)。随后，业务服务器1000可以将该质量评测结果发送至用户终端，用户终端可以根据该质量评估结果对目标用户在游戏应用中作出惩罚或奖励的决策(例如，增加目标用户在游戏应用中的评价得分，或减小目标用户在游戏应用中的评价值或经验值)。

本申请实施例可以在多个用户终端中选择一个用户终端作为目标用户终端，该用户终端可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等携带多媒体数据处理功能(例如，视频数据播放功能、音乐数据播放功能)的智能终端，但并不局限于此。例如，本申请实施例可以将图1所示的用户终端100a作为该目标用户终端，该目标用户终端中可以集成有上述目标应用，此时，该目标用户终端可以通过该目标应用与业务服务器1000之间进行数据交互。

如，用户在使用用户终端中的目标应用(如游戏应用)时，用户在该游戏应用中朗读的文本数据为“要多吃水果和蔬菜”，用户终端可以获取到用户的朗读音频，并将该朗读音频发送至业务服务器；业务服务器可以对该朗读音频进行质量评估，得到该朗读音频的质量评估值；随后，业务服务器可以获取到该“要多吃水果和蔬菜”的质量评估标准值，并将该朗读音频的质量评估值与该质量评估标准值进行对比，得到质量评测结果。例如，若该朗读音频的质量评估值大于该质量评估标准值，则可以将该用户的朗读音频确定为优质音频；若该朗读音频的质量评估值小于该质量评估标准值，则可以将该用户的朗读音频确定为劣质音频；随后，业务服务器可以将该质量评测结果(如，该用户的朗读音频确定为优质音频)发送至用户终端，则用户终端可以将用户在游戏应用中增加用户的经验值或评价值。

可选的，可以理解的是，网络架构中可以包括多个业务服务器，一个用户终端可以与一个业务服务器相连接，每个业务服务器可以获取到与之相连接的用户终端中的业务数据(如，用户针对文本数据的朗读音频)，并根据文本数据的质量评估标准值，对这些业务数据进行质量评测。其中，对于业务服务器确定文本数据的质量评估标准值的具体实现方式，可以参见后续图3所对应实施例中步骤S101-步骤S102的描述。

可选的，可以理解的是，用户终端也可以获取到业务数据(如，用户针对文本数据的朗读音频)，并对这些业务数据进行质量评测，得到质量评测结果，并根据该质量评测结果对在游戏应用中对目标用户作出惩罚或奖励的决策。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于用户终端或业务服务器。其中，业务服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

为便于理解，请一并参见图2，图2是本申请实施例提供的一种场景示意图。其中，如图2所示的业务服务器可以为上述业务服务器1000，且如图2所示的用户终端M可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端，比如，该用户终端可以为上述用户终端100b。

如图2所示，用户M在进入用户终端M中的目标应用(例如，游戏应用)后，用户M可以在目标应用中选择一条文本数据进行朗读，如图2所示，用户M所选择的文本数据为“我喜欢打乒乓球而不喜欢羽毛球”。随后，用户M可以对该文本数据进行朗读，用户终端M可以获取到该用户M的朗读音频，并将该朗读音频发送至业务服务器。

进一步地，业务服务器可以获取到该朗读音频的质量评估值，并获取到该文本数据“我喜欢打乒乓球而不喜欢羽毛球”对应的质量评估标准值；业务服务器可以将该质量评估标准值与该朗读音频的质量评估值进行比较，从而得到针对该朗读音频的质量评测结果。如图2所示，当朗读音频的质量评估值大于该质量评估标准值时，业务服务器可以将该用户M的朗读音频确定为符合发音规范的音频(优质音频)，业务服务器可以将该质量评测结果(用户M的朗读音频为优质音频)返回至用户终端M，用户终端M可以根据该质量评测结果，对目标用户在游戏应用中的经验值进行增加，并生成经验值增加提示消息，将该经验值提示消息显示于显示界面中，用户M可以在该显示界面中查看到该经验值提示消息。

其中，对于业务服务器获取文本数据的质量评估标准值的具体实现方式，可以参见后续图3所对应实施例中步骤S201-步骤S202的描述。

为便于理解，请参见图3，图3是本申请实施例提供的一种音频数据处理方法的流程示意图。该方法可以由用户终端(例如，上述图1、图2所示的用户终端)或业务服务器(如，上述图1所示的业务服务器1000)执行，也可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器1000)共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。其中，该音频数据处理方法至少可以包括以下步骤S101-步骤S102：

步骤S101，获取目标文本数据，将目标文本数据对应的文本序列输入音频合成模型，通过音频合成模型输出目标文本数据对应的人声合成音频；音频合成模型是通过划分结果对样本音频合成模型进行调整所得到的；划分结果是指通过样本音频合成模型对标签数据分布进行划分所得到的结果；标签数据分布为第一质量评估标签与第二质量评估标签的数据分布，第一质量评估标签为样本文本数据对应的朗读音频正样本的音频质量评估值，第二质量评估标签为样本文本数据对应的朗读音频负样本的音频质量评估值。

本申请中，这里的音频合成模型可以是指对于给定语句，可以合成类似人声或合成具有特定声音特征的语音输出的相关模型，例如，该音频合成模型可以为人工合成声(Text to Speech，TTS)模型，将目标文本数据输入至音频合成模型(TTS模型)中，通过TTS模型可以输出该目标文本数据的人声合成音频。

步骤S102，获取人声合成音频的音频质量评估值，将人声合成音频的音频质量评估值作为目标文本数据的质量评估标准值；质量评估标准值用于确定针对目标文本数据的待评测朗读音频的质量评测结果。

本申请中，对于确定人声合成音频的音频质量评估值的具体方法可以通过音频评估模型来确定，其中，该音频评估模型可以是指高斯混合声学模型(Gaussian MixtureModel-Hidden Markov Model，GMM-HMM)模型。对于确定人声合成音频的音频质量评估值的具体方法可以为，先获取发声字典，该发声字典中包括文本单词与音素序列之间的音素映射关系，则通过该发声字典，可以获取到该目标文本数据中每个单词所分别对应的音素序列，从而可以组成目标文本数据所对应的目标音素序列。其中，这里的发声字典可以为lexicon发音字典，通过该lexicon发音字典可以将文本数据(例如，目标文本数据)转化为可能的音素序列。

随后，通过音频评估模型，可以获取该目标音素序列中每个音素对应的音素状态有向序列，例如，基于GMM-HMM声学模型中隐马尔科夫模型(Hidden Markov Model，HMM)的网络结构(例如，3状态HMM拓扑结构)，可以确定出每个音素分别对应的音素状态有向序列；随后，可以获取该人声合成音频对应的音频特征，其中，该音频特征中包括至少两个音频的音频帧特征；可以根据该音频帧特征所对应的帧时间戳将这至少两个音频帧特征顺序输入至音频评估模型中，在该音频评估模型中，可以根据该每个音素所对应的音素状态有向序列，确定出每个音频帧特征分别对应的音素状态转移序列；进一步地，可以将该音频帧特征分别对应的音素状态转移序列进行顺序组合，从而可以得到该人声合成音频对应的音素状态转移序列。

进一步地，通过该音频评估模型可以确定该人声合成音频对应的音素状态转移序列的序列评估值，具体方法可以为，以该至少两个音频帧的音频帧特征包括音频帧特征S_i与音频帧特征S_j为例，可以获取该音频帧特征S_i对应的音素状态转移序列的质量评估值，以及该音频帧特征S_j对应的音素状态转移序列的质量评估值；随后，可以将该音频帧特征S_i对应的音素状态转移序列的质量评估值，与该音频帧特征S_j对应的音素状态转移序列的质量评估值进行相加，得到质量评估运算值；获取到音频帧特征S_i与音频帧特征S_j对应的特征数量；可以根据该质量评估运算值以及该特征数量，确定该人声合成音频对应的音素状态转移序列的序列评估值，该序列评估值可以作为该目标文本数据的质量评估标准值。

其中，可以将该质量评估运算值对该特征数量进行均值运算处理，从而得到的均值结果可以作为该人声合成音频对应的音素状态转移序列的序列评估值。例如，音频帧特征S_j对应的音素状态转移序列的质量评估值为50，音频帧特征S_j对应的音素状态转移序列的质量评估值为60，则该质量评估运算值可以为50+60＝110；该音频帧特征S_i与音频帧特征S_j的特征数量为2，则该序列评估值可以为110/2＝55。

为便于理解通过音频评估模型确定人声合成音频的质量评估值的具体方法，以下将结合图4a进行说明。请一并参见图4a，图4a是本申请实施例提供的一种音素对应的音素状态有向序列的示意图。其中，如图4a所示的音素S、音素IH、音素K以及音素S可以分别为文本数据“six”对应的音素，也就是说，通过发音字典(例如lexicon发音字典)，所确定的该文本数据“six”的音素序列为“S_IH_K_S”。

基于GMM-HMM声学模型中HMM的3状态拓扑结构，可以确定出该音素序列中每个音素所对应的音素状态有向序列，如图4a所示，音素“S”所对应的音素状态分别为音素状态1、音素状态序列2以及音素状态3；音素“IH”所对应的音素状态分别为音素状态4、音素状态序列5以及音素状态6；音素“K”所对应的音素状态分别为音素状态7、音素状态序列8以及音素状态9；音素“S”所对应的音素状态分别为音素状态10、音素状态序列11以及音素状态12。则该音素序列“SIHKS”共包括12个音素状态。其中，每个音素状态只能从当前状态跳转至自身状态或下一个状态，例如，音素状态3只能从当前状态(音素状态3)跳转至当前状态或跳转至音素状态4，所以对于每个音素状态，有两条跳转路径。

进一步地，可以将该文本数据“six”输入至音频合成模型(例如，TTS模型)，通过该TTS模型可以输出该文本数据“six”的人声合成音频；可以获取到该人声合成音频的音频帧特征，例如，该音频帧特征分别为音频帧特征1、音频帧特征2、…、音频帧特征14，其中，音频帧特征1的帧时间戳早于音频帧特征2的帧时间戳，音频帧特征2的帧时间戳早于音频帧特征3的帧时间戳，…，音频帧特征13的帧时间戳早于音频帧特征14的帧时间戳。则可以按照音频帧特征1-音频帧特征14的帧时间戳，顺序输入至GMM-HMM模型中，通过该GMM-HMM以及图4a所对应实施例中每个音素对应音素状态有向序列，可以确定出每个音频帧特征分别对应的音素状态转移序列。

其中，对于第一个输入至GMM-HMM模型中的音频帧特征，在该第一个音频帧特征输入至GMM-HMM模型前，可以赋予该第一个音频帧特征一个初始音素状态(例如，音素状态0)，该初始音素状态(例如，音素状态0)可以为有限状态转录机(Finite-State Transducer，FST)所提供。可以理解为，例如，基于上述GMM-HMM模型所确定的每个音素分别对应的3个音素状态，以及这3个音素状态分别所可以跳转的路径(每个音素分别对应的音素状态有向序列)，可以将该文本数据“six”制成一个FST，该FST中包括了根据每个音素分别对应的音素状态有向序列，所确定的该文本数据“six”被正确朗读时所应该遍历的音素状态转移序列(例如，该音素状态转移序列可以为1——>1——>2——>3——4——>4——>5——>6——>7——>7——>8——>9——>10——>11——>12)；基于该GMM-GMM模型，可以对FST进行搜索，从而可以从FST中包含的多条可能的音素状态转移序列中，确定出每个音频帧特征(例如，音频帧特征1)对应的音素状态转移序列(例如，音素状态0——>1)，通过每个音频帧特征分别对应的音素状态转移序列，可以确定一条针对该“six”的人声合成音频的最优音素状态转移序列。

可以理解为，基于该GMM-HMM模型确定出最优音素状态转移序列的具体方法为，先将该文本数据的人声合成音频对应的音频帧特征输入至GMM-HMM模型，GMM-HMM模型可以基于该FST所提供的可能的音素状态转移序列，计算每个音频帧特征对应的可能的发生状态转移的转移概率，从而可以根据转移概率确定出音频帧特征对应的音素状态转移序列，将这些音频帧特征对应的音素状态转移序列进行顺序组合，可以得到该最优音素状态转移序列。

为便于理解，请一并参见图4b，图4b是本申请实施例提供的一种确定音素状态转移序列的示意图。如图4b所示，将音频帧特征1(第一个)输入至该GMM-HMM模型中，该GMM-HMM基于FST可以确定该音频帧特征1当前状态为音素状态0(FST所提供的第一个音频帧特征的初始状态)，基于FST中所提供的可能的音素状态转移序列，可以确定该音素状态0可以跳转至音素状态1且只能跳转至音素状态1，也就是说，该针对该音频帧特征1，FST中只存在音素状态0——>音素状态1这一个音素状态转移序列，该发生状态转移的转移概率为100％，则可以将音素状态0——>音素状态1作为该音频帧特征1的音素状态转移序列。

进一步地，可以将该音频帧特征1的音素状态转移序列中的音素状态1，作为音频帧特征1的下一个音频帧特征(音频帧特征2)的输入GMM-HMM模型前的初始状态。则将音频帧特征2输入至GMM-HMM模型后，基于FST所提供的可能的音素状态转移序列，可以确定该音素状态1可以跳转至音素状态1也可以跳转至音素状态2，则通过该GMM-HMM可以计算出音频帧特征2从音素状态1跳转至音素状态1的转移概率1，以及从音素状态1跳转至音素状态2的转移概率2，可以从转移概率1与转移概率2中确定出最大转移概率(例如，最大转移概率为转移概率2)，并将该最大转移概率(转移概率2)所对应的音素状态转移序列(音素状态1——>音素状态2)作为该音频帧特征2的音素状态转移序列。

同理，可以该音频帧特征2的音素状态转移序列中的音素状态2，作为音频帧特征2的下一个音频帧特征(音频帧特征3)的输入GMM-HMM模型前的初始状态。则基于GMM-HMM以及FST，可以确定出该音频帧特征3所对应的音素状态转移序列为音素状态2——>音素状态3。同理，基于该GMM-HMM模型，也可以确定出其他音频帧特征(包括音频帧特征4、音频帧特征5、…、音频帧特征14)分别对应的音素状态转移序列。

如图4b所示，音频帧特征4对应的音素状态转移序列为音素状态3——>音素状态3，音频帧特征5对应的音素状态转移序列为音素状态3——>音素状态4，音频帧特征6对应的音素状态转移序列为音素状态4——>音素状态5，音频帧特征7对应的音素状态转移序列为音素状态5——>音素状态6，音频帧特征8对应的音素状态转移序列为音素状态6——>音素状态7，音频帧特征9对应的音素状态转移序列为音素状态7——>音素状态8，音频帧特征10对应的音素状态转移序列为音素状态8——>音素状态9，音频帧特征11对应的音素状态转移序列为音素状态9——>音素状态10，音频帧特征12对应的音素状态转移序列为音素状态10——>音素状态11，音频帧特征13对应的音素状态转移序列为音素状态11——>音素状态12，音频帧特征14对应的音素状态转移序列为音素状态12——>音素状态13。其中，音素状态13可以是指最后一个音频帧特征的结束状态，该结束状态可以由FST所提供。

由此，如图4b所示，将音频帧特征1、…音频帧特征14所分别对应的音素状态转移序列进行顺序组合，就可以得到一条该文本数据“six”的音素状态转移序列“音素状态0——>音素状态1——>音素状态2——>音素状态3——>音素状态3——>音素状态4——>音素状态5——>音素状态6——>音素状态7——>音素状态8——>音素状态9——>音素状态10——>音素状态11——>音素状态12——>音素状态13。

可以理解的是，针对每一个音频帧特征对应的音素状态转移序列(例如，音素状态1——>音素状态2)，GMM-HMM模型可以确定出该音素状态转移序列的序列评估值，由此，通过将文本数据“six”的音素状态转移序列中每个音频帧特征对应的音素状态转移序列进行相加，将相加得到的序列评估总值与音频帧特征的特征数量(音素状态转移序列的数量14)进行均值处理得到序列评估均值，可以将均值处理后得到的序列评估均值作为该文本数据“six”的质量评估标准值。

可选的，可以理解的是，在GMM-HMM确定的文本数据的音素状态转移序列中，可能存在部分特定音素(例如，沉默音素或待删除发音音素)特征对应的音素状态转移序列，在具有特定音素特征(例如，沉默音素特征)对应的音素状态转移序列的情况下，再确定序列评估总值时，可以将该特定音素特征(例如，沉默音素特征)对应的音素状态转移序列进行删除，同时删除该特定音素特征(例如，沉默音素特征)对应的音素状态转移序列的序列评估值，也就是说，在确定序列评估总值时，不考虑特定音素特征的音素状态转移序列的序列评估值。

需要说明的是，图4a与图4b所对应实施例中所提供音素状态0、音素状态1、…、音素状态13均是为便于理解，所作出的举例说明，不具有实际参考意义；图4a与图4b所对应实施例中所提供的音素“S”、音素“IH”、音素“K”以及音素“S”均是为便于理解所作出的单因素举例，但目标文本数据所对应的音素包括但不限于单音素，也可以为多音素(例如，通过决策树聚类的方式所确定的多音素)；本申请仅是以音频评估模型为GMM-HMM模型为例，进行阐述说明基于音频评估模型确定目标文本数据的人声合成音频的具体方式，应当理解，音频评估模型包括但不限于GMM-HMM模型，还可以为DNN-HMM声学模型等模型，也可以通过DNN-HMM声学模型来确定目标文本数据的人声合成音频的质量评估值。

在本申请实施例中，通过音频合成模型生成目标文本数据的人声合成音频，可将该人声合成音频的音频质量评估值作为该目标文本数据的质量评估标准值。其中，因为该音频合成模型是通过对样本音频合成音频进行调整所得到的，而对样本音频合成模型的调整又是通过对第一质量评估标签(样本文本数据对应的朗读音频正样本的音频质量评估值)，以及第二质量评估标签(样本文本数据对应的朗读音频负样本的音频质量评估值)的数据分布，进行划分后得到的划分结果来进行调整的，所以调整得到的音频合成模型所输出的该目标文本数据的人声合成音频，也可以判断该目标文本数据的朗读音频是优质或劣质。应当理解，本申请通过样本音频合成音频对少量的第一质量评估标签与第二质量评估标签的数据分布进行划分，并根据划分结果来对样本音频合成模型进行调整，可以使得调整得到的音频合成模型所输出的人声合成音频的音频质量评估值，能有效区分目标文本数据的朗读音频的优劣性，该人声合成音频的音频质量评估值可以作为目标文本数据的质量评估标准值(阈值)。可以看出，通过少量的标签数据就可以对样本音频合成模型进行调整得到音频合成模型，而调整得到的音频合成模型输出的人声合成音频的质量评估值，可以作为目标文本数据的质量评估标准值(阈值)，无需采集大量的朗读数据，可以降低阈值选取成本。

应当理解，为使得音频合成模型所输出的人声合成音频(目标文本数据的质量评估值)的质量评估值能作为目标文本数据的质量评估标准值，可以使样本音频合成模型对少量的质量评估标签的数据分布进行划分，并通过划分结果对样本音频合成模型进行调整，使得调整得到的音频合成模型输出的人声合成音频的质量评估值能正确划分质量评估标签的数据分布。为便于理解，请参见图5，图5是本申请实施例提供的一种模型调整的流程示意图。该流程可以由用户终端(例如，上述图1、图2所示的用户终端)或业务服务器(如，上述图1所示的业务服务器1000)执行，也可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器1000)共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。其中，该模型调整的流程至少可以包括以下步骤S201-步骤S204：

步骤S201，获取至少两个样本文本数据，将至少两个样本文本数据输入样本音频合成模型，通过样本音频合成模型输出至少两个样本文本数据分别对应的样本人声合成音频。

本申请中，这里的样本音频合成模型可以为基线音频合成模型，该基线音频合成模型的模型参数包含超参数。本申请可以通过对基线音频合成模型中的超参数进行调整，来得到音频合成模型。例如，基线音频合成模型(样本音频合成模型)可以为基线TTS模型，则可以通过调整基线TTS模型中的超参数来得到TTS模型。以下步骤S202-步骤S204将对通过调整超参数得到音频合成模型的具体实现方式进行说明。

步骤S202，获取至少两个样本文本数据分别对应的朗读音频正样本以及朗读音频负样本，获取朗读音频正样本对应的音频质量评估值，将朗读音频正样本对应的音频质量评估值作为第一质量评估标签。

本申请中，该朗读音频正样本可以是指人为标注为优质音频的朗读音频(音频符合发音规范)，该朗读音频负样本可以是指人为标注为劣质音频(音频不符合发音规范)的朗读音频。可以获取到该朗读音频正样本(音频符合发音规范的朗读音频)所对应的音频质量评估值，并将该音频质量评估值作为第一质量评估标签。

其中，对于获取该朗读音频正样本(音频符合发音规范的朗读音频)所对应的音频质量评估值的具体方法，可以通过音频评估模型确定，对于通过音频评估模型确定朗读音频正样本的音频质量评估值的具体实现方式，可以参见上述图3所对应实施例中步骤S102中，对于基于音频评估模型确定人声合成音频的质量评估值的描述，这里将不再进行赘述。

步骤S203，获取朗读音频负样本对应的音频质量评估值，将朗读音频负样本对应的音频质量评估值作为第二质量评估标签。

本申请中，可以获取到该朗读音频负样本(音频不符合发音规范的朗读音频)所对应的音频质量评估值，并将该音频质量评估值作为第二质量评估标签。

其中，对于获取该朗读音频负样本(音频不符合发音规范的朗读音频)所对应的音频质量评估值的具体方法，可以通过音频评估模型确定，对于通过音频评估模型确定朗读音频负样本的音频质量评估值的具体实现方式，可以参见上述图3所对应实施例中步骤S102中，对于基于音频评估模型确定人声合成音频的质量评估值的描述，这里将不再进行赘述。

步骤S204，获取样本人声合成音频的样本音频质量评估值，根据样本音频质量评估值对第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对样本音频合成模型进行调整，得到音频合成模型。

本申请中，以样本文本数据包括样本文本数据K_i以及样本文本数据K_j为例，对于调整样本音频合成模型得到音频合成模型的具体方法可以为，可以将该样本文本数据输入样本音频合成模型中，通过该样本音频合成模型可以输出该样本文本数据对应的样本人声合成音频，例如，可以输出该样本文本数据K_i对应的样本人声合成音频T_i，以及该样本文本数据K_j对应的样本人声合成音频T_j；随后，可以获取到该样本人声合成音频T_i对应的样本音频质量评估值M_i，以及该样本人声合成音频T_j对应的样本音频质量评估值M_j。

进一步地，可以在该第一质量评估标签与该第二质量评估标签的数据分布中，获取该样本音频质量评估值M_i对应的第一坐标位置，以及该样本音频质量评估值M_j对应的第二坐标位置；根据该第一坐标位置以及该第二坐标位置，可以确定该样本音频质量评估值M_i与样本音频质量评估值M_j所组成的分界线；按照该分界线可以将第一质量评估标签与该第二质量评估标签的数据分布进行划分，得到第一划分区域以及第二划分区域；其中，该第一划分区域对应的期望划分标签为该第一质量评估标签；第二划分区域对应的期望划分区域为该第二质量评估标签；若该第一划分区域包含该第二质量评估标签，且该第二划分区域中包含该第一质量评估标签，则可以获取该第一划分区域中所包含的第二质量评估标签的数量，以及该第二划分区域中所包含的第一质量评估标签的数量；在该第一划分区域中包含的第二质量评估标签的数量大于第一阈值，且该第二划分区域中包含的第一质量评估标签大于第二阈值时，可以对该样本音频合成模型的模型参数(超参数)进行调整，得到该音频合成模型。

其中，对于获取样本音频质量评估值M_i或样本音频质量评估值M_j的具体方法，可以通过音频评估模型确定，对于通过音频评估模型确定样本音频质量评估值M_i或样本音频质量评估值M_j的具体实现方式，可以参见上述图3所对应实施例中步骤S102中，对于基于音频评估模型确定人声合成音频的质量评估值的描述，这里将不再进行赘述。

其中，这里的第一阈值可以根据第二质量评估标签的总数量来确定(例如，第二质量评估标签的总数量为100，则该第一阈值可以为100*10％＝10)，这里的第二阈值可以根据第一质量评估标签的总数量来确定(例如，第一质量评估标签的总数量为100，则该第二阈值可以为100*10％＝10)。

为便于理解按照分界线将第一质量评估标签与第二质量评估标签的数据分布进行划分，请一并参见图6，图6是本申请实施例提供的一种将第一质量评估标签与第二质量评估标签的数据分布进行划分的示意图。如图6所示，对于每个样本文本数据的第一质量评估标签以及第二质量评估标签，可以在二维坐标系中确定出一个坐标位置，从而可以形成第一质量评估标签与第二质量评估标签的数据分布；其中，X方向上的坐标值可以用于表征样本文本数据，Y方向上的坐标值可以用于表征第一质量评估标签或第二质量评估标签。

应当理解，通过确定每个样本文本数据分别对应的样本音频质量评估值，可以在该二维坐标系中确定出一个二维坐标，那么通过将每个样本文本数据所对应的样本音频质量评估值在该二维坐标系中的坐标位置点进行连接，可以得到一条分界线，从而可以将该第一质量评估标签与该第二质量评估标签所构成的数据分布进行划分，得到两个划分区域，分别为第一划分区域与第二划分区域。

如图6所示，该分界线可以将该数据分布划分为第一划分区域与第二划分区域，其中，第一划分区域对应的期望划分标签为第一质量评估标签，第二划分区域对应的期望划分标签为第二质量评估标签。可以从该二维坐标系中确定出该分界线是否能够正确将第一质量评估标签划分到第一划分区域中，将第二质量评估标签划分到第二划分区域中，若该分界线无法正确划分(第一划分区域中包含较多第一质量评估标签且包含较少或不包含第二质量评估标签，同时第二划分区域中包含较多第一质量评估标签且包含较少或不包含第一质量评估标签)，则可以调整该音频合成模型(例如，TTS模型)的模型参数(超参数)；该TTS模型可以根据调整后的模型参数(超参数)，重新输出一条样本文本数据对应的样本人声合成音频，基于该GMM-HMM模型，可以重新确定出该新的样本人声合成音频对应的新的样本音频质量评估值，并根据该新的样本音频质量评估值形成一条新的分界线，若该新的分界线能正确划分，则可以确定该样本音频合成模型所输出的样本人声合成音频的样本音频质量评估值可以作为区分优质音频(第一质量评估标签对应的音频)与劣质音频(第二质量评估标签对应的音频)的标准，则可以将该调整后的样本音频合成模型作为音频合成模型。

可选的，可以理解的是，为适应不同场景中的质量评估标准值，可以设置一个标准容错值，在确定目标文本数据的质量评估标准值后，可以根据具体场景的需求将该质量评估标准值与该标准容错值进行相加或相减，并将相加或相减后得到的新的质量评估标准值作为该目标文本数据的质量评估标准值。

其中，对于确定该标准容错值的方式，可以基于训练完成的音频合成模型确定，具体方法可以为，将该至少两个样本文本数据输入至该音频合成模型，通过该音频合成模型可以输出该至少两个样本文本数据分别对应的人声合成音频；随后，可以获取该每个样本文本数据分别对应的人声合成音频的音频质量评估值，并作为该样本文本数据对应的样本质量评估标准值；随后，可以获取该标准容错值的一个初始值(初始标准容错值)，可以将该样本质量评估标准值与该初始标准容错值进行相加，得到样本更新质量评估标准值；在该第一质量评估标签中，确定小于该样本更新质量评估标准值的第一质量评估标签的第一标签数量；在该第二质量评估标签中，可以确定小于该样本更新质量评估标准值的第二质量评估标签的第二标签数量；可以确定该第一标签数量与该第二标签数量之间的数量差值，若该数量差值大于差值阈值，则可以对该初始标准容错值进行调整，得到目标标准容错值。

应当理解，可以根据样本更新质量评估标准值(样本质量评估标准值+初始标准容错值)对样本文本数据的朗读音频正样本(对应第一质量评估标签)以及朗读音频负样本(对应第二质量评估标签)进行评测，可以得到以下4种情况：

1、若该第一质量评估标签大于该样本更新质量评估标准值，则可以确定该朗读音频为正样本，通过样本更新质量评估标准值所评测的结果也为优质音频，则可以认为基于该样本更新质量评估标准值评测的结果为正确结果。

2、若该第一质量评估标签小于该样本更新质量评估标准值，则可以确定该朗读音频是为正样本，但通过样本更新质量评估标准值所评测的结果为劣质音频，则可以认为该基于该样本更新质量评估标准值评测的结果为错误结果。

3、若该第二质量评估标签大于该样本更新质量评估标准值，则可以确定该朗读音频为负样本，但通过样本更新质量评估标准值所评测的结果为优质音频，则可以认为基于该样本更新质量评估标准值评测的结果为错误结果。

4、若该第二质量评估标签小于该样本更新质量评估标准值，则可以确定该朗读音频为负样本，通过样本更新质量评估标准值所评测的结果也为劣质音频，则可以认为基于该样本更新质量评估标准值评测的结果为正确结果。

应当理解，若该标准容错值过大，则该样本更新质量评估值也会较大，则出现上述第2种情况的次数也会很多，也就是说，因为样本更新质量评估值较大，很可能会将本该评测为优质音频的音频评测为劣质音频；而若该标准容错值过小，则该样本更新质量评估值也会较小，则出现上述第3种情况的次数也会很多，也就是说，因为样本更新质量评估值较小，很可能会将本该评测为劣质音频的音频评测为优质音频。则可以通过调整初始标准容错值，来权衡上述第2种情况的次数以及上述第3种情况，使得出现上述第2种情况的次数以及上述第3种情况的次数基本保持一致，此时调整后的初始标准容错值可以作为目标标准容错值。

可选的，可以理解的是，在得到训练完成的音频合成模型以及目标标准容错值后，可以获取针对该目标文本数据的待评测朗读音频，以及该待评测朗读音频的音频质量评估值；随后，可以将该目标文本数据的质量评估标准值与该目标标准容错值进行相加，得到更新质量评估标准值；可以将该更新质量评估标准值与该待评测朗读音频的音频质量评估值进行匹配，若该待评测朗读音频的音频质量评估值大于该更新质量评估标准值，则可以确定该待评测朗读音频为优质音频；若该待评测朗读音频的音频质量评估值小于该更新质量评估标准值，则可以确定该待评测朗读音频为劣质音频。

在本申请实施例中，通过样本音频合成模型对第一质量评估标签(样本文本数据对应的朗读音频正样本的音频质量评估值)，以及第二质量评估标签(样本文本数据对应的朗读音频负样本的音频质量评估值)的数据分布进行划分，并根据划分结果对样本音频评估模型进行调整，可以使得调整得到的音频合成模型所输出的人声合成音频的质量评估值能作为区分朗读音频为优质音频或劣质音频的依据。也就是说，该调整得到的音频合成模型所输出的人声合成音频的质量评估值可以作为质量评估标准值。

进一步地，请参见图7，图7是本申请实施例提供的一种系统架构图。如图7所示，可以通过音频合成模型(TTS模型)获取样本文本数据的样本人声合成音频，基于音频评估模型(例如，GMM-HMM模型)可以确定出样本人声音频中对应的音频帧特征所对应的音素状态转移序列，以及每个音素状态转移序列的序列评估值；随后，可以删除沉默音素特征(特定音素特征)对应的音素状态转移序列及其序列评估值，再根据每个音素状态转移序列的序列评估值，确定出该样本人声合成音频的质量评估值；同理，也可以基于GMM-HMM模型确定出样本文本数据正/负样本的质量评估值，并作为质量评估标签；通过该样本人声合成音频的质量评估值可以对该质量评估值进行划分，若划分正确则可以根据该样本文本数据的质量评估值调整标准容错值，得到目标标准容错值，则该该样本文本数据的质量评估值加上目标标准容错值，可以作为该样本文本数据对应的阈值(质量评估标准值)；若划分错误则可以对音频合成模型(TTS模型)的模型参数进行调整。

需要说明的是，这里的音频评估模型(GMM-HMM模型)可以是指以通用中文声学数据以及目标用户声学数据作为样本数据，通过EM算法等方式进行训练所得到的模型。对于基于GMM-HMM模型确定样本人声合成音频或朗读音频正/负样本的质量评估值的具体方式，可以参见上述图3所对应实施例中的描述，这里将不再进行赘述。

请参见图8，图8是本申请实施例提供的一种音频数据处理装置的结构示意图。如图8所示，该音频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该音频数据处理装置为一个应用软件；该音频数据处理装置可以用于执行图3所示的方法。如图8所示，音频数据处理装置1可以包括：合成音频获取模块11、评估值获取模块12以及标准值确定模块13。

合成音频获取模块11，用于获取目标文本数据，将目标文本数据对应的文本序列输入音频合成模型，通过音频合成模型输出目标文本数据对应的人声合成音频；音频合成模型是通过划分结果对样本音频合成模型进行调整所得到的；划分结果是指通过样本音频合成模型对标签数据分布进行划分所得到的结果；标签数据分布为第一质量评估标签与第二质量评估标签的数据分布，第一质量评估标签为样本文本数据对应的朗读音频正样本的音频质量评估值，第二质量评估标签为样本文本数据对应的朗读音频负样本的音频质量评估值；

评估值获取模块12，用于获取人声合成音频的音频质量评估值；

标准值确定模块13，用于将人声合成音频的音频质量评估值作为目标文本数据的质量评估标准值；质量评估标准值用于确定针对目标文本数据的待评测朗读音频的质量评测结果。

其中，合成音频获取模块11、评估值获取模块12以及标准值确定模块13的具体实现方式，可以参见上述图3所对应实施例中步骤S101-步骤S102的描述，这里将不再进行赘述。

请参见图8，评估值获取模块12可以包括：字典获取单元121、音素序列确定单元122以及评估值确定单元123。

字典获取单元121，用于获取发声字典；发声字典包括文本单词与音素序列之间的音素映射关系；

音素序列确定单元122，用于通过发声字典中文本单词与音素序列之间的音素映射关系，确定目标文本数据对应的目标音素序列；

评估值确定单元123，用于根据目标音素序列，确定人声合成音频的音频质量评估值。

其中，字典获取单元121、音素序列确定单元122以及评估值确定单元123的具体实现方式，可以参见上述图3所对应实施例中步骤S102中的描述，这里将不再进行赘述。

请参见图8，评估值确定单元123可以包括：状态序列获取子单元1231、特征输入子单元1232、转移序列确定子单元1233、序列组合子单元1234、评估值输出子单元1235以及评估值确定子单元1236。

状态序列获取子单元1231，用于通过音频评估模型，获取目标音素序列中每个音素对应的音素状态有向序列；

特征输入子单元1232，用于获取人声合成音频对应的音频特征，将音频特征输入音频评估模型；音频特征中包括至少两个音频帧的音频帧特征；

转移序列确定子单元1233，用于在音频评估模型中，根据音素状态有向序列确定每个音频帧特征分别对应的音素状态转移序列；

序列组合子单元1234，用于将每个音频帧特征分别对应的音素状态转移序列进行顺序组合，得到人声合成音频对应的音素状态转移序列；

评估值输出子单元1235，用于通过音频评估模型输出人声合成音频对应的音素状态转移序列的序列评估值；

评估值确定子单元1236，用于将序列评估值作为人声合成音频的音频质量评估值。

其中，状态序列获取子单元1231、特征输入子单元1232、转移序列确定子单元1233、序列组合子单元1234、评估值输出子单元1235以及评估值确定子单元1236的具体实现方式，可以参见上述图3所对应实施例中步骤S102中的描述，这里将不再进行赘述。

请参见图8，该音频数据处理装置1可以包括合成音频获取模块11、评估值获取模块12以及标准值确定模块13，还可以包括：样本数据获取模块14、评估标签确定模块15以及模型调整模块16。

样本数据获取模块14，用于获取至少两个样本文本数据，将至少两个样本文本数据输入样本音频合成模型，通过样本音频合成模型输出至少两个样本文本数据分别对应的样本人声合成音频；

评估标签确定模块15，用于获取至少两个样本文本数据分别对应的朗读音频正样本以及朗读音频负样本，获取朗读音频正样本对应的音频质量评估值，将朗读音频正样本对应的音频质量评估值作为第一质量评估标签；

评估标签确定模块15，还用于获取朗读音频负样本对应的音频质量评估值，将朗读音频负样本对应的音频质量评估值作为第二质量评估标签；

模型调整模块16，用于获取样本人声合成音频的样本音频质量评估值，根据样本音频质量评估值对第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对样本音频合成模型进行调整，得到音频合成模型。

其中，样本数据获取模块14、评估标签确定模块15以及模型调整模块16的具体实现方式，可以参见上述图5所对应实施例中步骤S201-步骤S204的描述，这里将不再进行赘述。

请参见图8，模型调整模16可以包括：样本评估值获取单元161、样本评估值获取单元162、坐标获取单元163、分界线确定单元164以及模型调整单元165。

样本评估值获取单元161，用于获取样本人声合成音频T_i对应的样本音频质量评估值M_i；样本人声合成音频T_i为样本文本数据K_i对应的样本人声合成音频；

样本评估值获取单元162，还用于获取样本人声合成音频T_j对应的样本音频质量评估值M_j；样本人声合成音频T_j为样本文本数据K_j对应的样本人声合成音频；

坐标获取单元163，用于在第一质量评估标签与第二质量评估标签的数据分布中，获取样本音频质量评估值M_i对应的第一坐标位置，以及样本音频质量评估值M_j对应的第二坐标位置；

分界线确定单元164，用于根据第一坐标位置与第二坐标位置，确定样本音频质量评估值M_i与样本音频质量评估值M_j所组成的分界线；

模型调整单元165，用于按照分界线对第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对样本音频合成模型进行调整，得到音频合成模型。

其中，样本评估值获取单元161、样本评估值获取单元162、坐标获取单元163、分界线确定单元164以及模型调整单元165的具体实现方式，可以参见上述图5所对应实施例中步骤S204中的描述，这里将不再进行赘述。

请参见图8，模型调整单元165可以包括：数据划分子单元1651、数量获取子单元1652以及参数调整子单元1653。

数据划分子单元1651，用于按照分界线将第一质量评估标签与第二质量评估标签的数据分布进行划分，得到第一划分区域以及第二划分区域；第一划分区域对应的期望划分标签为第一质量评估标签，第二划分区域对应的期望划分标签为第二质量评估标签；

数量获取子单元1652，用于若第一划分区域中包含第二质量评估标签，且第二划分区域中包含第一质量评估标签，则获取第一划分区域中包含的第二质量评估标签的数量，以及第二划分区域中包含的第一质量评估标签的数量；

参数调整子单元1653，用于在第一划分区域中包含的第二质量评估标签的数量大于第一阈值，且第二划分区域中包含的第一质量评估标签的数量大于第二阈值时，对样本音频合成模型的模型参数进行调整，得到音频合成模型。

其中，数据划分子单元1651、数量获取子单元1652以及参数调整子单元1653的具体实现方式，可以参见上述图5所对应实施例中步骤S204中的描述，这里将不再进行赘述。

请参见图8，该音频数据处理装置1可以包括合成音频获取模块11、评估值获取模块12、标准值确定模块13、样本数据获取模块14、评估标签确定模块15以及模型调整模块16，还可以包括：样本输入模块17、样本标准值确定模块18以及容错值调整模块19。

样本输入模块17，用于将至少两个样本文本数据输入至音频合成模型，通过音频合成模型输出至少两个样本文本数据分别对应的人声合成音频；

样本标准值确定模块18，用于获取每个样本文本数据分别对应的人声合成音频的音频质量评估值，将每个样本文本数据分别对应的人声合成音频的音频质量评估值，作为样本文本数据对应的样本质量评估标准值；

容错值调整模块19，用于获取初始标准容错值，根据样本质量评估标准值、第一质量评估标签以及第二质量评估标签，对初始标准容错值进行调整，得到目标标准容错值；目标标准容错值用于结合目标文本数据的质量评估标准值，确定针对目标文本数据的待评测朗读音频的质量评测结果。

其中，样本输入模块17、样本标准值确定模块18以及容错值调整模块19的具体实现方式，可以参见上述图所对应实施例中步骤S204中的描述，这里将不再进行赘述。

其中，容错值调整模块19可以包括：样本更新标准值确定单元191、标签数量确定单元192以及容错值调整单元193。

样本更新标准值确定单元191，用于将样本质量评估标准值与初始标准容错值进行相加，得到样本更新质量评估标准值；

标签数量确定单元192，用于在第一质量评估标签中，确定小于样本更新质量评估标准值的第一质量评估标签的第一标签数量；

标签数量确定单元192，还用于在第二质量评估标签中，确定小于样本更新质量评估标准值的第二质量评估标签的第二标签数量；

容错值调整单元193，用于确定第一标签数量与第二标签数量之间的数量差值，若数量差值大于差值阈值，则对初始标准容错值进行调整，得到目标标准容错值。

其中，样本更新标准值确定单元191、标签数量确定单元192以及容错值调整单元193的具体实现方式，可以参见上述图5所对应实施例中步骤S204中对于调整初始标准容错值的描述，这里将不再进行赘述。

请参见图8，该音频数据处理装置1可以包括合成音频获取模块11、评估值获取模块12、标准值确定模块13、样本数据获取模块14、评估标签确定模块15、模型调整模块16、样本输入模块17、样本标准值确定模块18以及容错值调整模块19，还可以包括：朗读音频获取模块20以及评测结果确定模块21。

朗读音频获取模块20，用于获取针对目标文本数据的待评测朗读音频，获取待评测朗读音频的音频质量评估值；

评测结果确定模块21，用于根据待评测朗读音频的音频质量评估值以及质量评估标准值，确定待评测朗读音频的质量评测结果。

其中，朗读音频获取模块20以及评测结果确定模块21的具体实现方式，可以参见上述图5所对应实施例中步骤S204的描述，这里将不再进行赘述。

其中，评测结果确定模块21可以包括：更新标准值确定单元211、优质音频确定单元212以及劣质音频确定单元213。

更新标准值确定单元211，用于将质量评估标准值与目标标准容错值进行相加，得到更新质量评估标准值；

优质音频确定单元212，用于将待评测朗读音频的音频质量评估值与更新质量评估标准值进行匹配，若待评测朗读音频的音频质量评估值大于更新质量评估标准值，则确定待评测朗读音频为优质音频；

劣质音频确定单元213，用于若待评测朗读音频的音频质量评估值小于更新质量评估标准值，则确定待评测朗读音频为劣质音频。

其中，更新标准值确定单元211、优质音频确定单元212以及劣质音频确定单元213的具体实现方式，可以参见上述图5所对应实施例中步骤S204的描述，这里将不再进行赘述。

进一步地，请参见图9，图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示，上述图8所对应实施例中的装置1可以应用于上述计算机设备1000，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3到图7所对应实施例中对该音频数据处理方法的描述，也可执行前文图8所对应实施例中对该音频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的音频数据处理的计算机设备1000所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3到图7所对应实施例中对上述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的音频数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

获取目标文本数据，将所述目标文本数据对应的文本序列输入音频合成模型，通过所述音频合成模型输出所述目标文本数据对应的人声合成音频；所述音频合成模型是通过划分结果对样本音频合成模型进行调整所得到的；所述划分结果是指通过所述样本音频合成模型对标签数据分布进行划分所得到的结果；所述标签数据分布为第一质量评估标签与第二质量评估标签的数据分布，所述第一质量评估标签为样本文本数据对应的朗读音频正样本的音频质量评估值，所述第二质量评估标签为所述样本文本数据对应的朗读音频负样本的音频质量评估值；

获取所述人声合成音频的音频质量评估值，将所述人声合成音频的音频质量评估值作为所述目标文本数据的质量评估标准值；所述质量评估标准值用于确定针对所述目标文本数据的待评测朗读音频的质量评测结果。

2.根据权利要求1所述的方法，其特征在于，所述获取所述人声合成音频的音频质量评估值，包括：

获取发声字典；所述发声字典包括文本单词与音素序列之间的音素映射关系；

通过所述发声字典中所述文本单词与音素序列之间的音素映射关系，确定所述目标文本数据对应的目标音素序列；

根据所述目标音素序列，确定所述人声合成音频的音频质量评估值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标音素序列，确定所述人声合成音频的音频质量评估值，包括：

通过音频评估模型，获取所述目标音素序列中每个音素对应的音素状态有向序列；

获取所述人声合成音频对应的音频特征，将所述音频特征输入所述音频评估模型；所述音频特征中包括至少两个音频帧的音频帧特征；

在所述音频评估模型中，根据所述音素状态有向序列确定每个所述音频帧特征分别对应的音素状态转移序列；

将每个所述音频帧特征分别对应的音素状态转移序列进行顺序组合，得到所述人声合成音频对应的音素状态转移序列；

通过所述音频评估模型输出所述人声合成音频对应的音素状态转移序列的序列评估值，将所述序列评估值作为所述人声合成音频的音频质量评估值。

4.根据权利要求3所述的方法，其特征在于，所述至少两个音频帧的音频帧特征包括音频帧特征S_i以及音频帧特征S_j；

所述通过所述音频评估模型输出所述人声合成音频对应的音素状态转移序列的序列评估值，包括：

获取所述音频帧特征S_i对应的音素状态转移序列的质量评估值，以及所述音频帧特征S_j对应的音素状态转移序列的质量评估值；

将所述音频帧特征S_i对应的音素状态转移序列的质量评估值，与所述音频帧特征S_j对应的音素状态转移序列的质量评估值进行相加，得到质量评估运算值；

获取所述音频帧特征S_i与所述音频帧特征S_j对应的特征数量；

根据所述质量评估运算值以及所述特征数量，确定所述人声合成音频对应的音素状态转移序列的序列评估值。

5.根据权利要求1所述的方法，其特征在在于，所述方法还包括：

获取至少两个样本文本数据，将所述至少两个样本文本数据输入样本音频合成模型，通过所述样本音频合成模型输出所述至少两个样本文本数据分别对应的样本人声合成音频；

获取所述至少两个样本文本数据分别对应的朗读音频正样本以及朗读音频负样本，获取所述朗读音频正样本对应的音频质量评估值，将所述朗读音频正样本对应的音频质量评估值作为第一质量评估标签；

获取所述朗读音频负样本对应的音频质量评估值，将所述朗读音频负样本对应的音频质量评估值作为第二质量评估标签；

获取所述样本人声合成音频的样本音频质量评估值，根据所述样本音频质量评估值对所述第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对所述样本音频合成模型进行调整，得到所述音频合成模型。

6.根据权利要求5所述的方法，其特征在于，所述至少两个样本文本数据包括样本文本数据K_i与样本文本数据K_j；

所述获取所述样本人声合成音频的样本音频质量评估值，根据所述样本音频质量评估值对所述第一质量评估标签与第二质量评估标签进行划分，根据划分结果对所述样本音频合成模型进行调整，得到所述音频合成模型，包括：

获取样本人声合成音频T_i对应的样本音频质量评估值M_i；所述样本人声合成音频T_i为所述样本文本数据K_i对应的样本人声合成音频；

获取样本人声合成音频T_j对应的样本音频质量评估值M_j；所述样本人声合成音频T_j为所述样本文本数据K_j对应的样本人声合成音频；

在所述第一质量评估标签与第二质量评估标签的数据分布中，获取所述样本音频质量评估值M_i对应的第一坐标位置，以及所述样本音频质量评估值M_j对应的第二坐标位置；

根据所述第一坐标位置与所述第二坐标位置，确定所述样本音频质量评估值M_i与所述样本音频质量评估值M_j所组成的分界线；

按照所述分界线对所述第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对所述样本音频合成模型进行调整，得到所述音频合成模型。

7.根据权利要求6所述的方法，其特征在于，所述按照所述分界线对所述第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对所述样本音频合成模型进行调整，得到所述音频合成模型，包括：

按照所述分界线将所述第一质量评估标签与第二质量评估标签的数据分布进行划分，得到第一划分区域以及第二划分区域；所述第一划分区域对应的期望划分标签为所述第一质量评估标签，所述第二划分区域对应的期望划分标签为所述第二质量评估标签；

若所述第一划分区域中包含所述第二质量评估标签，且所述第二划分区域中包含所述第一质量评估标签，则获取所述第一划分区域中包含的所述第二质量评估标签的数量，以及所述第二划分区域中包含的所述第一质量评估标签的数量；

在所述第一划分区域中包含的所述第二质量评估标签的数量大于第一阈值，且所述第二划分区域中包含的所述第一质量评估标签的数量大于第二阈值时，对所述样本音频合成模型的模型参数进行调整，得到所述音频合成模型。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

将所述至少两个样本文本数据输入至所述音频合成模型，通过所述音频合成模型输出所述至少两个样本文本数据分别对应的人声合成音频；

获取所述每个样本文本数据分别对应的人声合成音频的音频质量评估值，将所述每个样本文本数据分别对应的人声合成音频的音频质量评估值，作为所述样本文本数据对应的样本质量评估标准值；

获取初始标准容错值，根据所述样本质量评估标准值、所述第一质量评估标签以及所述第二质量评估标签，对所述初始标准容错值进行调整，得到目标标准容错值；所述目标标准容错值用于结合所述目标文本数据的质量评估标准值，确定针对所述目标文本数据的待评测朗读音频的质量评测结果。

9.根据权利要求8所述的方法，其特征在于，所述根据所述样本质量评估标准值、所述第一质量评估标签以及所述第二质量评估标签，对所述初始标准容错值进行调整，得到目标标准容错值，包括：

将所述样本质量评估标准值与所述初始标准容错值进行相加，得到样本更新质量评估标准值；

在所述第一质量评估标签中，确定小于所述样本更新质量评估标准值的第一质量评估标签的第一标签数量；

在所述第二质量评估标签中，确定小于所述样本更新质量评估标准值的第二质量评估标签的第二标签数量；

确定所述第一标签数量与所述第二标签数量之间的数量差值，若所述数量差值大于差值阈值，则对所述初始标准容错值进行调整，得到目标标准容错值。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取针对所述目标文本数据的待评测朗读音频，获取所述待评测朗读音频的音频质量评估值；

根据所述待评测朗读音频的音频质量评估值以及所述质量评估标准值，确定所述待评测朗读音频的质量评测结果。

11.根据权利要求10所述的方法，其特征在于，所述根据所述待评测朗读音频的音频质量评估值以及所述质量评估标准值，确定所述待评测朗读音频的质量评测结果，包括：

将所述质量评估标准值与所述目标标准容错值进行相加，得到更新质量评估标准值；

将所述待评测朗读音频的音频质量评估值与所述更新质量评估标准值进行匹配，若所述待评测朗读音频的音频质量评估值大于所述更新质量评估标准值，则确定所述待评测朗读音频为优质音频；

若所述待评测朗读音频的音频质量评估值小于所述更新质量评估标准值，则确定所述待评测朗读音频为劣质音频。

12.一种音频数据处理装置，其特征在于，包括：

合成音频获取模块，用于获取目标文本数据，将所述目标文本数据对应的文本序列输入音频合成模型，通过所述音频合成模型输出所述目标文本数据对应的人声合成音频；所述音频合成模型是通过学习划分第一质量评估标签与第二质量评估标签的数据分布所训练得到，所述第一质量评估标签为样本文本数据对应的朗读音频正样本的音频质量评估值，所述第二质量评估标签为所述样本文本数据对应的朗读音频负样本的音频质量评估值；

标准值确定模块，用于获取所述人声合成音频的音频质量评估值，将所述人声合成音频的音频质量评估值作为所述目标文本数据的质量评估标准值；所述质量评估标准值用于确定针对所述目标文本数据的待评测朗读音频的质量评测结果。

13.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行权利要求1-11任一项所述的方法。