CN111179973B

CN111179973B - 语音合成质量评价方法及系统

Info

Publication number: CN111179973B
Application number: CN202010011831.4A
Authority: CN
Inventors: 汤泽阳
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2022-04-05
Anticipated expiration: 2040-01-06
Also published as: CN111179973A

Abstract

本发明公开一种语音合成质量评价方法，应用于终端设备，所述方法包括：发送语音合成请求至语音合成服务器；逐帧接收并播放所述语音合成服务器根据所述语音合成请求所合成的n帧合成语音帧；确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧；根据所述不合格音频帧的数量占所述n帧合成语音帧的比例确定所述语音合成质量。通过统计在响应于语音合成请求进行语音合成过程中延迟接收到的合成语音帧占总帧数的比例来确定语音合成的质量，从而实现了对语音合成质量的量化评判。

Description

语音合成质量评价方法及系统

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成质量评价方法及系统。

背景技术

在语音合成领域，对合成音频的质量评判，采用平均意见分方法(MOS，MeanOpinion Score)、失真平均意见分(DRT，Diagnostic RhymeTest)等方法。这类评判方法主观性占主导因素，而缺乏客观性与准确性。

发明内容

本发明实施例提供一种语音合成质量评价方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音合成质量评价方法，应用于终端设备，所述方法包括：

发送语音合成请求至语音合成服务器；

逐帧接收并播放所述语音合成服务器根据所述语音合成请求所合成的n帧合成语音帧；

确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧；

根据所述不合格音频帧的数量占所述n帧合成语音帧的比例确定所述语音合成质量。

第二方面，本发明实施例提供一种语音合成质量评价系统，应用于终端设备，所述系统包括：

请求发送模块，用于发送语音合成请求至语音合成服务器；

语音帧接收播放模块，用于逐帧接收并播放所述语音合成服务器根据所述语音合成请求所合成的n帧合成语音帧；

合格帧确定模块，用于确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧；

质量确定模块，用于根据所述不合格音频帧的数量占所述n帧合成语音帧的比例确定所述语音合成质量。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音合成质量评价方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音合成质量评价方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音合成质量评价方法。

本发明实施例的有益效果在于：通过统计在响应于语音合成请求进行语音合成过程中延迟接收到的合成语音帧占总帧数的比例来确定语音合成的质量，从而实现了对语音合成质量的量化评判。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音合成质量评价方法的一实施例的流程图；

图2为采用本发明的语音合成质量评价方法的系统的一实施例的架构图；

图3为本发明的语音合成质量评价系统的一实施例的原理框图；

图4为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

流化是一个过程，在这个过程中，只需要在内存中维护一小块内存来播放音频文件。当流化一个音频文件的时候，音频数据是从硬盘上一块一块的读取，而不是将整个文件一次性全部加载。流化是通过异步读取音频数据到硬盘缓冲区队列来完成的。当一个缓冲区填充好数据后，提交给source voice。当source voice播放完成一个缓冲区后，这个缓冲区就可以再次用来读取文件中的数据。通过这种方式循环使用缓冲区，允许我们只加载一部分文件的数据就可以完成对一个很大的音频文件的播放。

在语音合成领域，语音合成实时模式下，流化的每一帧数据响应时间受合成时间、网络传输延时等等影响。现有技术中在评判语音合成质量时采用的方法是，平均意见分方法(MOS，Mean Opinion Score)、失真平均意见分(DRT，Diagnostic Rhyme Test)等方法。这类评判方法主观性占主导因素，而缺乏客观性与准确性。

而本发明的发明人发现在语音合成过程中，若某一帧音频数据在前一帧音频数据播放完成之前还未到达客户端，就会出现语音听起来不连续的现象，影响用户体验，并提出了本发明的语音合成质量评价方法。本发明的方法可以用于终端设备，该终端设备可以是智能手机、故事机、车载音箱、智能音箱等，本发明对不做限定。

如图1所示，本发明的实施例提供一种语音合成质量评价方法，应用于终端设备，所述方法包括：

S10、发送语音合成请求至语音合成服务器；

S20、逐帧接收并播放所述语音合成服务器根据所述语音合成请求所合成的n帧合成语音帧；

S30、确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧；

S40、根据所述不合格音频帧的数量占所述n帧合成语音帧的比例确定所述语音合成质量。

本实施例中通过统计在响应于语音合成请求进行语音合成过程中延迟接收到的合成语音帧占总帧数的比例来确定语音合成的质量，从而实现了对语音合成质量的量化评判。

在一些实施例中，对于步骤S10：终端设备为智能手机，用户可以在智能手机端搭载了能够进行语音合成的计算机软件程序(应用程序)，用户通过操作该应用程序输入文字，请求将该输入文字转换为音频。

示例性地，智能手机在接收到用户输入的文字及所触发的语音合成请求后，可以基于该输入的文字生成语音合成请求，并发送至语音合成服务器，以用于语音合成服务器合成相应的语音。

在一些实施例中，对于步骤S20：逐帧接收并播放所述语音合成服务器根据所述语音合成请求所合成的n帧合成语音帧。

示例性地，在进行语音合成时所采用的是流化方法，语音合成服务器根据所接收到的语音合成请求，进行一帧一帧的合成语音帧，并逐帧发送至智能手机，智能手机每接收到一帧合成语音帧就播放一帧，再次接收到下一帧之后再进行播放。

在一些实施例中，对于步骤S30：确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧。示例性地该步骤S30可以包括以下步骤：

S31、判断第i帧合成语音帧播放结束之前是否接收到第i+1帧合成语音帧，其中，i取值1至n-1；

S32、如果是，则确定所述第i+1帧合成语音帧为合格语音帧；

S33、如果否，则确定所述第i+1帧合成语音帧为不合格语音帧。

示例性地，在语音合成过程中，若某一帧音频数据在智能手机将前一帧音频数据播放完成之前还未到达智能手机，就会出现语音听起来不连续的现象，影响用户体验，本实施例中将该某一帧音频数据视为延迟到达，判定为不合格音频帧。

如图2所示，为采用本发明的语音合成质量评价方法的系统的一实施例的架构图，包括：客户端(client)和服务器(tts server)，其中，客户端向服务器发送语音合成请求，服务器根据语音合成请求进行相应的音频帧的合成，并将合成的音频数据逐帧发送至客户端。本实施例中，显示了服务器所合成的第一至第六帧合成语音帧(Framel至Frame6)，其中客户端已经接受到了Framel和Frame2。

示例性地，客户端还获取了每一帧合成音频帧的以下属性信息：

帧大小：frame_size(bytes)；

响应时间：response_time(ms)；

播放时长：playing_time(s)。

在一些实施例中，客户端支持流化数据接收，并且将每一帧数据的大小(frame_size)、响应时间(response_time)记录在文件中。

客户端根据每一帧数据的大小和响应时间计算每一帧音频的可播放时长(playing_time)，例如，WAV格式计算公式：数据帧大小(字节数)/2/音频采样率(Hz)。

客户端以第一帧音频数据的响应时间为基准点，计算响应时间点在前一帧音频播放完成的时间点之前的音频帧的百分比，即流化质量。

例如：语音合成服务器合成了一条wav格式的音频(采样率16kHz)，每一帧的数据如下：

第一帧响应时间为0.325s，可播放时长为0.123s；则以0.325s为时间基准点。第二帧需要在0.325s+0.123s＝0.448s前到达；

第二帧响应时间为0.328s，可播放时长为0.077s；第二帧0.328s＜0.448s，为好帧。第三帧需要在0.488s+0.077s＝0.565s前到达；

第三帧响应时间为0.601s，可播放时长为0.244s；第三帧0.601s＞0.565s，为坏帧，坏帧数+1。第四帧需要在0.601s+0.244s＝0.845s前到达；

第n帧(根据实际情况)响应时间为......

则流化质量＝坏帧数/总帧数≈99％(举例，非真实数据)；

随着服务器请求并发数的增加，流化质量会呈现递减趋势，在高并发情况时评估如下：

流化质量＝100％，完美响应；

100％＞流化质量＞95％，优秀；

95％＞流化质量＞85％，一般；

其他，较差；

一般流化质量不达标(较差)的因素有合成引擎流化质量、网络延迟高、服务器负载能力差、并发过高等。若流化质量不达标，首先我们应该查明原因，根本因素是合成引擎是否支持流化或流化的效果较差，需要核心研发团队优化引擎；若是网络因素，则应更换到网络较好的环境；若是负载过高，则应从服务器角度出发，增大服务器的并发能力。

流化质量不仅可以评估合成语音服务的质量，在服务器性能优化方面，它还可以作为服务器优化的数据依据。例如在提升服务并发性能上，增加单核多路且保证流化质量稳定、不受影响。

在一些实施例中，对于步骤S40：根据所述不合格音频帧的数量占所述n帧合成语音帧的比例确定所述语音合成质量。

示例性地，不合格音频帧的数量在n帧合成语音帧中的占比越大，表明用户在智能手机端所听到的音频的连续性就越差，即语音合成质量就越差。该标准所确定的语音合成质量是客观的，不会因人而异，能够更加准确真实反映语音合成质量。

在一些实施例中，在确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧之前，所述语音合成质量评价方法还包括：

确定所述n帧合成语音帧中的每帧合成语音帧各自的响应时间、播放时长，所述响应时间为自发送所述语音合成请求至接收到相应帧合成语音帧的持续时长；

步骤S31判断第i帧合成语音帧播放结束之前是否接收到第i+1帧合成语音帧包括：

S311、判断所述第i+1帧合成语音帧的响应时间是否小于所述第i帧合成语音帧的响应时间、播放时长之和；

S312、若是，则确定第i帧合成语音帧播放结束之前接收到了所述第i+1帧合成语音帧；

S313、若否，则确定第i帧合成语音帧播放结束之前没有接收到所述第i+1帧合成语音帧。

本实施例中仅仅利用相邻两帧(第i和i+1帧)合成语音帧的响应时间和播放时长信息就能够确定出是否存在不合格语音帧，不依赖于其它合成语音帧，避免了其它语音帧(第i帧之前的合成语音帧)对于合格语音帧的判断的影响。

发明人在实现本发明的过程中发现，以上实施例中仍然存在对合格语音帧误判的情况，以下进行举例说明该问题：

例如，对于三帧合成音频帧A1(x1、y1)、A2(x2、y2)、A3(x3、y3)，其中，x和y分别为对应合成音频帧的响应时间和播放时长，可能存在以下情况：

(x2+y2)＞x3，按照前述实施例的方法，可以确定在第二帧合成音频帧A2播放完之前，智能手机已经接收到了第三帧合成音频帧A3；

但是，实际上，如果在(x1+y1+y2)＜x3＜(x2+y2)的情况下，仍按照前述实施例的方法的话，就会将第三帧合成语音帧A3误判定为合格语音帧，因为x1+y1+y2才是第二帧合成音频帧真正播放完的时间点。基于此，发明人提出了以下替代的技术方案：

S311′、确定所述第i+1帧合成语音帧之前的连续的多个合格语音帧中的第一个语音帧为初始语音帧，并确定其响应时间为基准响应时间。

示例性地，在初始情况下，语音合成服务器合成的第一帧合成语音帧即为初始语音帧。其中，连续的多个合格语音帧与第i+1帧合成语音帧相连续。

S312′、判断所述第i+1帧合成语音帧的响应时间是否小于所述初始语音帧至所述第i帧合成语音帧的各自的播放时长和所述基准响应时间之和；

S313′、如果是，则确定所述第i帧合成语音帧播放结束之前接收到了所述第i+1帧合成语音帧；

S314′、如果否，则确定所述第i帧合成语音帧播放结束之前未接收到所述第i+1帧合成语音帧，并且确定所述第i+1帧合成语音帧为新的初始语音帧。

本实施例中，提出了基准响应时间的概念，并以该基准响应时间为基础与合成语音帧的播放时长相加并待判定合成语音帧的响应时间做比较，从而确定待判定合成语音帧是否为合格语音帧；并且每次确定出某一帧合成语音帧为不合格语音帧时，就以该不合格语音帧为基础来更新基准响应时间，并以此为基础来对后续合成音频帧的合格性进行判定，从而避免了以判定出的不合格语音帧对后续合成语音帧判定准确性的影响。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图3所示，本发明的实施例还提供一种语音合成质量评价系统300，应用于终端设备，所述系统300包括：

请求发送模块310，用于发送语音合成请求至语音合成服务器；

语音帧接收播放模块320，用于逐帧接收并播放所述语音合成服务器根据所述语音合成请求所合成的n帧合成语音帧；

合格帧确定模块330，用于确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧；

质量确定模块340，用于根据所述不合格音频帧的数量占所述n帧合成语音帧的比例确定所述语音合成质量。

在一些实施例中，所述确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧包括：

判断第i帧合成语音帧播放结束之前是否接收到第i+1帧合成语音帧，其中，i取值1至n-1；

如果是，则确定所述第i+1帧合成语音帧为合格语音帧；

如果否，则确定所述第i+1帧合成语音帧为不合格语音帧。

在一些实施例中，本发明的语音合成质量评价系统还包括：语音帧信息获取模块，用于在确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧之前，确定所述n帧合成语音帧中的每帧合成语音帧各自的响应时间、播放时长，所述响应时间为自发送所述语音合成请求至接收到相应帧合成语音帧的持续时长；

所述判断第i帧合成语音帧播放结束之前是否接收到第i+1帧合成语音帧包括：

判断所述第i+1帧合成语音帧的响应时间是否小于所述第i帧合成语音帧的响应时间、播放时长之和；

若是，则确定第i帧合成语音帧播放结束之前接收到了所述第i+1帧合成语音帧；

若否，则确定第i帧合成语音帧播放结束之前没有接收到所述第i+1帧合成语音帧。

确定所述第i+1帧合成语音帧之前的连续的多个合格语音帧中的第一个语音帧为初始语音帧，并确定其响应时间为基准响应时间；

判断所述第i+1帧合成语音帧的响应时间是否小于所述初始语音帧至所述第i帧合成语音帧的各自的播放时长和所述基准响应时间之和；

如果是，则确定所述第i帧合成语音帧播放结束之前接收到了所述第i+1帧合成语音帧；

如果否，则确定所述第i帧合成语音帧播放结束之前未接收到所述第i+1帧合成语音帧，并且确定所述第i+1帧合成语音帧为新的初始语音帧。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音合成质量评价方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音合成质量评价方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音合成质量评价方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现语音合成质量评价方法。

上述本发明实施例的语音合成质量评价系统可用于执行本发明实施例的语音合成质量评价方法，并相应的达到上述本发明实施例的实现语音合成质量评价方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图4是本申请另一实施例提供的执行语音合成质量评价方法的电子设备的硬件结构示意图，如图4所示，该设备包括：

一个或多个处理器410以及存储器420，图4中以一个处理器410为例。

执行口语理解模型训练方法的设备还可以包括：输入装置430和输出装置440。

处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器420作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音合成质量评价方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音合成质量评价方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音合成质量评价装置的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至语音合成质量评价装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可接收输入的数字或字符信息，以及产生与语音合成质量评价装置的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器420中，当被所述一个或者多个处理器410执行时，执行上述任意方法实施例中的语音合成质量评价方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成质量评价方法，应用于终端设备，所述方法包括：

发送语音合成请求至语音合成服务器；

2.根据权利要求1所述的方法，其中，所述确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧包括：

如果是，则确定所述第i+1帧合成语音帧为合格语音帧；

如果否，则确定所述第i+1帧合成语音帧为不合格语音帧。

3.根据权利要求2所述的方法，其中，在确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧之前，所述方法还包括：

4.根据权利要求2所述的方法，其中，在确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧之前，所述方法还包括：

5.一种语音合成质量评价系统，应用于终端设备，所述系统包括：

请求发送模块，用于发送语音合成请求至语音合成服务器；

6.根据权利要求5所述的系统，其中，所述确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧包括：

如果是，则确定所述第i+1帧合成语音帧为合格语音帧；

如果否，则确定所述第i+1帧合成语音帧为不合格语音帧。

7.根据权利要求6所述的系统，其中，还包括：

语音帧信息获取模块，用于在确定所述n帧合成语音帧中延迟到达的合成语音帧为不合格音频帧之前，确定所述n帧合成语音帧中的每帧合成语音帧各自的响应时间、播放时长，所述响应时间为自发送所述语音合成请求至接收到相应帧合成语音帧的持续时长；

8.根据权利要求6所述的系统，其中，还包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任意一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任意一项所述方法的步骤。