CN110853679A

CN110853679A - 语音合成的评估方法、装置、电子设备及可读存储介质

Info

Publication number: CN110853679A
Application number: CN201911010911.1A
Authority: CN
Inventors: 陈宪涛; 吴诗龙; 王任振; 周茉莉; 吴甜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-02-28
Anticipated expiration: 2039-10-23
Also published as: CN110853679B

Abstract

本申请公开了一种语音合成的评估方法、装置、电子设备及可读存储介质，涉及语音技术领域。具体实现方案为：采集测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各所述评估维度上的各评估指标的打分；其中，一个所述评估维度上包括至少一个所述评估指标；根据预先拟合出的各所述评估维度上的各所述评估指标的权重以及各所述评估维度上的各所述评估指标的打分，计算各所述评估维度的综合分值。本申请的技术方案，能够弥补现有技术的不足，实现从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。

Description

语音合成的评估方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机应用技术领域，尤其涉及语音技术，具体涉及一种语音合成的评估方法、装置、电子设备及可读存储介质。

背景技术

语音合成(Text to Speech；TTS)是智能对话系统中的语音交互的关键体验环节，真实自然的合成声音是影响人与智能设备交流和建立信任的重要因素。

目前，关于语音合成TTS的自然度的评估，业内普遍采用一些比较单一的评估评估指标来实现评估，如平均意见得分(Mean Opinion Score；MOS)或AB测试(Test)的方法，这些评估方法仅仅会得到合成语音的平均意见值或总体满意度。其中MOS主要使用5分制来评估用户对语音合成TTS的整体感受，如5分表示优、4分表示良、3分表示尚可、2分表示差、1分表示劣。而AB Test则是通过在多个合成声音中进行两两对比来选择相对较好的合成声音。

上述两种方法，均以获取用户对合成语音TTS整体评级为主，评估方式较为单一，而无法对语音合成TTS的多个维度如质量、自然度等进行全面和详细的评估。因此，亟需提供一种能多维度评估语音合成的评估方案。

发明内容

本申请提供了一种语音合成的评估方法、装置、电子设备及可读存储介质，用于弥补现有技术的不足，能够提供一种能多维度评估语音合成的评估方案。

一方面，本申请能够提供一种语音合成的评估方法，包括：

采集测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各所述评估维度上的各评估指标的打分；其中，一个所述评估维度上包括至少一个所述评估指标；

根据预先拟合出的各所述评估维度上的各所述评估指标的权重以及各所述评估维度上的各所述评估指标的打分，计算各所述评估维度的综合分值。

进一步可选地，在如上所述的方法中，采集测试用户对经过合理性验证的至少两个评估维度的各所述评估维度上的各评估指标的打分之前，所述方法还包括：

为预先筛选出来的多个评估指标配置所述至少两个评估维度，并将所述多个评估指标配置在所述至少两个评估维度上，使得每个所述评估维度包括有至少一个所述评估指标；

根据所述至少两个评估维度和各所述评估维度上包括至少一个所述评估指标，建构待验证的结构方程模型；

计算所述结构方程模型的质量参数；

验证所述结构方程模型的质量参数是否达到预设标准，若达到，确定所述结构方程模型合理；

拟合验证后的所述结构方程模型中各所述评估指标的权重。

进一步可选地，在如上所述的方法中，为预先筛选出来的多个评估指标配置所述至少两个评估维度之前，所述方法还包括：

采集数个所述测试用户基于多个待测试产品分别对预先配置的数个评估指标的打分；

基于各所述评估指标的打分，对各所述评估指标进行相关性分析；

基于所述相关性分析的结果，从所述数个评估指标中滤除冗余的评估指标，留下所述多个评估指标。

进一步可选地，在如上所述的方法中，所述至少两个评估维度包括韵律质量维度和语音自然维度；

所述韵律质量维度上的评估指标包括有发音清楚、发音准确、中音、停顿节奏、速度、语气语调、聆听努力以及连贯性中的至少一种；

所述语音自然度维度上的评估指标包括有声音自然、情感相符、长时间疲劳、舒适度、音色喜好、交流意愿以及友好度中的至少一种。

另一方面，本申请还提供了一种语音合成的评估方法，包括：

采集多个测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各所述评估维度上的各评估指标的打分；其中，一个所述评估维度上包括至少一个所述评估指标；

根据所述多个测试用户对各所述评估指标的打分，计算各个所述评估指标的综合分值。

进一步可选地，在如上所述的方法中，根据所述多个测试用户对各所述评估指标的打分，计算各个所述评估指标的综合分值，包括：

对于各所述评估指标，根据所述多个测试用户对所述评估指标的打分，取所述多个测试用户对所述评估指标的打分的平均值，作为所述评估指标的综合分值；或者

对于各所述评估指标，根据预先为所述多个测试用户中各所述测试用户配置的权重和各所述测试用户对所述评估指标的打分，将多个所述测试用户对所述评估指标的打分进行加权取平均，作为所述评估指标的综合分值。

进一步可选地，在如上所述的方法中，根据所述多个测试用户对各所述评估指标的打分，计算各个所述评估指标的综合分值之后，所述方法还包括：

根据预先拟合出的各所述评估维度上的各所述评估指标的权重以及各所述评估指标的综合分值，计算各所述评估维度的综合分值。

再一方面，本申请还提供一种语音合成的评估装置，包括：

第一采集模块，用于采集测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各所述评估维度上的各评估指标的打分；其中，一个所述评估维度上包括至少一个所述评估指标；

第一评估模块，用于根据预先拟合出的各所述评估维度上的各所述评估指标的权重以及各所述评估维度上的各所述评估指标的打分，计算各所述评估维度的综合分值。

又一方面，本申请还提供一种语音合成的评估装置，包括：

第二采集模块，用于采集多个测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各所述评估维度上的各评估指标的打分；其中，一个所述评估维度上包括至少一个所述评估指标；

第二评估模块，用于根据所述多个测试用户对各所述评估指标的打分，计算各个所述评估指标的综合分值。

再另一方面，本申请还提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的方法。

再又一方面，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上任一项所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：通过采集测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；并根据预先拟合出的各评估维度上的各评估指标的权重以及各评估维度上的各评估指标的打分，计算各评估维度的综合分值，能够弥补现有技术的不足，实现从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。

进一步地，本申请中，还能够构建的评估体系，且该评估体系经过合理性验证，不仅能够对语音合成进行客观、准确地评价，且能够从多个维度对语音合成进行评估，能够更加丰富和全面地对语音合成进行评估。

进一步地，本申请中，还在建立评估体系时，对评估指标进行相关性分析，并滤除冗余的评估指标，使得评估体系中评估指标的配置更加合理。

再者，本申请还通过采集多个测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；根据多个测试用户对各评估指标的打分，计算各个评估指标的综合分值，能够弥补现有技术的不足，实现从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。而且本实施例得到的各个评估指标的综合分值，还能够供研发人员参考并优化智能对话系统，进而能够进一步优化智能对话系统的性能。

进一步地，本申请中，还能够根据预先拟合出的各评估维度上的各评估指标的权重以及各评估指标的综合分值，计算各评估维度的综合分值，实现从另一个角度得到各评估维度的综合分值，能够从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。

进一步地，本申请还能够提供不同的评估指标的综合分值的计算方式，能够丰富评估结果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3为本申请的结构方程模型的示意图；

图4为本申请的结构方程模型拟合后的示意图；

图5是根据本申请第三实施例的示意图；

图6是根据本申请第四实施例的示意图；

图7是根据本申请第五实施例的示意图；

图8是用来实现本申请实施例的语音合成的评估方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为本申请的语音合成的评估方法一实施例的流程图。如图1所示，本实施例的语音合成的评估方法，具体可以包括如下步骤：

S101、采集测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；其中，一个评估维度上包括至少一个评估指标；

S102、根据预先拟合出的各评估维度上的各评估指标的权重以及各评估维度上的各评估指标的打分，计算各评估维度的综合分值。

本实施例的语音合成即TTS的评估方法的执行主体为语音合成的评估装置，该语音合成的评估装置可以为一个电子实体，或者也可以为采用软件集成的应用系统。

本实施例的语音合成的评估装置在对智能系统的合成语音进行评估时，基于预先经过合理性验证的至少两个评估维度来实现，且在每个评估维度上设置有至少一个评估指标。且本实施例中，不同的评估维度中不存在相同的评估指标。

具体在评估时，测试用户收听智能对话系统的合成语音后，对每个评估维度上的所有评估指标进行打分，然后由语音合成的评估装置采集测试用户对每个评估维度上的每个评估指标的打分。具体地，可以由工作人员或者测试用户直接将每个评估维度上的每个评估指标的打分输入至该语音合成的评估装置中。

接下来，语音合成的评估装置根据预先拟合出的各评估维度上的各评估指标的权重，以及各评估维度上的各评估指标的打分，计算各评估维度的综合分值；进一步地，还可以输出每个评估维度的综合分值，以供用户查看。

例如，以一个评估维度为例，若该评估维度上包括N个评估指标，每个评估指标的权重可以表示为w₁、w₂、……、w_N，测试用户对每个评估指标的打分为S₁、S₂、……、S_N。此时该评估维度的综合分值可以表示为如下公式：(w₁*S₁+w₂*S₂+……+w_N*S_N)/N。

按照上述方式，计算每个评估维度上的综合分值，便可以实现从不同评估维度上对该语音合成的评估，从而能够实现对语音合成进行更加全面和详细地评估。

例如，本实施例的评估维度可以包括韵律质量、语音自然等等。再例如，若评估维度为韵律质量时，对应地该评估维度上的评估指标可以包括发音清楚、发音准确、中音、停顿节奏、速度、语气语调、聆听努力以及连贯性中的至少一种。若评估维度为语音自然时，对应地该评估维度上的评估指标可以包括声音自然、情感相符、长时间疲劳、舒适度、音色喜好、交流意愿以及友好度中的至少一种。

本实施例的语音合成的评估方法，通过采集测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；并根据预先拟合出的各评估维度上的各评估指标的权重以及各评估维度上的各评估指标的打分，计算各评估维度的综合分值，能够弥补现有技术的不足，实现从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。

图2为本申请中评估体系架构的建立过程实施例的流程图。如图2所述，本实施例详细描述了本申请的语音合成的评估方案中所使用的评估维度的架构以及各评估维度上采用的评估指标，具体可以包括如下步骤：

S201、为预先筛选出来的多个评估指标配置至少两个评估维度，并将多个评估指标配置在至少两个评估维度上，使得每个评估维度包括有至少一个评估指标；

本实施例在评估指标的筛选过程中，可以进行较多的前期评估和分析。例如，可以邀请相关领域的专家对评估指标的重要性和易理解程度进行评估，并收集稳定建议，调整评估指标描述等工作，确保评估指标的科学性、合理性以及全面性。

例如，该步骤S201之前，可以采用如下步骤实现评估指标的筛选：

(a)采集数个测试用户基于多个待测试产品对预先配置的数个评估指标的打分；

(b)基于各评估指标的打分，对各评估指标进行相关性分析；

(c)基于相关性分析的结果，从数个评估指标中滤除冗余的预设评估指标，留下多个评估指标。

该过程可以在线下实现，首先，根据实验需求，选定数个测试用户如20、30或者其他任意数量个，在此不做限定。并选定多个待测试的智能对话系统产品，并且还可以以这几个产品分别在多个待测试场景下的语音合成来分析，筛选评估指标。

实验过程中，可以提前录制各产品针对选定文本合成的语音，实验时，直接让数个测试用户来听。在测试时，待测试产品的顺序随机，但是同一个测试用户在不同场景下体验产品的顺序一致，以帮助用户形成对同一款产品的整体感知。每个测试用户可以根据所有场景的合成语音，对每个场景下的评估指标进行打分。然后可以将同一测试用户在对同一产品在不同测试场景下对各个评估指标的打分取平均、基于场景的加权取平均或者进行其他的数学计算处理方式，获取到该测试用户对该产品中各个评估指标的打分。进一步地，再采用相同的方式，将同一测试用户对不同产品的各个评估指标的打分取平均、基于产品的加权取平均或者进行其他的数学计算处理方式，获取到该测试用户对各个评估指标的打分。

最后，还可以基于数个测试用户对每个评估指标的打分，可以采用取平均、加权取平均的方式或者其他的书序计算处理方式，获取每个评估指标的最终的打分。若采用加权取平均时，可以为听感好的用户配置较高的权重，而对于听感差的用户配置较低的权重。对于上述实施例中涉及到的其他加权，权重配置方式类似，实现对不同场景、不同产品配置不同的权重，在此不再赘述。

接下来，基于各评估指标的打分，对各评估指标进行相关性分析，并参考相关性分析结果，从数个评估指标中滤除冗余的评估指标，留下多个评估指标，用于后续对TTS进行评估。

例如，在本实施例中，在前期收集时，可以收集到如下表1所示的22个评估指标，这些指标可以根据TTS的实际场景配置出来的。

表1

然后参考相关领域的专家的建议和用户的反馈，可以删除用户理解困难的和不适合用于评估的评估指标，例如，可以删除上述表1中的语调匹配、唤醒度、理解度、愉悦度、音色匹配以及信任感，这样，共得到16个待测试的评估指标。

具体地，可以采用步骤(a)采集数个测试用户基于多个待测试产品对预先配置的16个评估指标的打分；然后基于各评估指标的打分，对各评估指标进行相关性分析。例如，可以参考上述表2进行相关性分析。

表2

由上述表2可知，综合考虑极端组相比较、题项与总分相关、同质性检验，“杂音”题项删除后的alpha值有所提升，共同性低于0.2，且因素负荷量小于0.45，有三项均低于判断标准，综合考虑，删除“杂音”题项，本表中所述的题项即为评估指标。

经过上述处理，可以基于相关性分析的结果，从16个评估指标中滤除1个冗余的评估指标，留下15个评估指标。

S202、根据至少两个评估维度和各评估维度上包括至少一个评估指标，建构待验证的结构方程模型；

本实施例中的结构方程模型为一阶结构方程模型。

本申请中，要建构待验证的结构方程模型，首先需要对评估指标的结构进行探索性因素分析，如可以采用主成分分析法进行因子分析，如下表3和表4，选取特征值大于1的因子，碎石图结果表明，有2个因子占较大的变异性，从第3个因子开始变得较为平缓，解释总变异量见下表3，成份1解释的方差百分比为35,752％，成份2解释的方差百分比为35.385％，共解释71.136％的方差变异量。其中表3为解释总变异量(N＝425)，表4为旋转后的成分矩阵(N＝425)。

表3

上述表3中的成份为上述表2中的题项，即本申请中的评估指标。其中N表示对15个成份即评估指标分别进行处理的总次数。采用上述因子分析方法，可以根据15个评估指标挖掘出其内在结构上存在两个维度。如本实施例中，可以分别将两个维度配置为韵律质量和语音自然。

表4

经过上述探索性分析，可以建构图3所示的结构方程模型，将15个评估指标配置在韵律质量和语音自然两个评估维度上，详细哪些评估指标配置在哪个评估维度上，可以参考图3所示，图3中的方框表示观测变量，椭圆形表示潜在变量，圆圈e表示观测变量的测量误差，由于测量存在误差，故每个潜在变量不能百分之百解释观察变量的变异。

S203、计算结构方程模型的质量参数；

S204、验证结构方程模型的质量参数是否达到预设标准，若达到，确定结构方程模型合理；

例如，本实施例中，可以通过计算如下表4中的质量参数，来验证模型是否合理。

表4

上述表4中的评价项目模型均为结构方程模型常用的一些拟合指标，详细可参考相关现有技术，在此不再赘述。

经过上述表4的质量参数验证，可以发现本申请的结构方程模型外在质量较好，其绝对适配统计量、增值适配统计量以及简约适配统计量都达到预设的标准，可以证明本申请的结构方程模型具有良好的统计检验力，其RMSEA＝0.076(<0.08)，适配合理，因此，可以确定本申请建构的结构方程模型是合理的。

S205、拟合验证后的结构方程模型中各评估指标的权重。

通过对图3所示的结构方程模型中的各评估指标拟合权重，可以得到图4所示的结果，详细如下表5所示。

表5

表5中的数字表示该指标相对于上一层级指标的权重，是结构方程模型中该路径标准化路径系数的平方/总和，表示某指标对上一层级指标的权重。

其中，S_x1为韵律质量总体满意度，a_i为韵律质量二级评估指标中第i项评估指标占第一级评估指标的权重系数值，F_i为所述第二级评估指标中每项评估指标的当前测评数据；

其中，S_x2为语音自然总体满意度，b_i为第二级评估指标中第i项评估指标占第一级评估指标的权重系数值，F_i为所述语音自然二级评估指标中每项评估指标的当前测评数据。

基于以上所述，可以得到本申请的语音合成的评估架构体系，该评价体系中包括韵律质量和语音自然两个评估维度，在韵律质量的评估维度上还可以包括发音清楚、发音准确等8个二级评估指标，在语音自然评估维度上还可以包括声音自然、情感相符等7个二级评估指标，同时该评估模型中还拟合了各二级评估指标的权重。该评估架构体系的模型已经经过合理性验证，后续可以用于对各种智能对话系统的TTS进行评估，从而可以实现从多个维度对TTS的评估，能够更加丰富和全面地对TTS进行评估。

本实施例的步骤S201-S205，具体可以在上述图1所示实施例的步骤S101之前执行，以实现评估体系的构建，方便后续基于评估体系中的评估维度和评估指标，实现对语音合成的评估。

本实施例所构建的评估体系，经过合理性验证，不仅能够对语音合成进行客观、准确地评价，且能够从多个维度对语音合成进行评估，能够更加丰富和全面地对语音合成进行评估。

图5为本申请另一种场景下的语音合成的评估方法实施例的流程图。如图5所示，本实施例的语音合成的评估方法，具体可以包括如下步骤：

S501、采集多个测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；其中，一个评估维度上包括至少一个评估指标；

S502、根据多个测试用户对各评估指标的打分，计算各个评估指标的综合分值。

本实施例的语音合成的评估方法的执行主体与上述图1所示实施例相同。步骤S301的具体实施可以参考上述图1所示实施例的步骤S101的实施。

与上述图1所示实施例不同的是，步骤S502用于实现每个评估指标的打分，而图1所示实施例的步骤S102是用于实现每个评估维度的打分。具体地，可以采用如下任一方式计算各个评估指标的综合分值：

(1)对于各评估指标，根据多个测试用户对评估指标的打分，取多个测试用户对评估指标的打分的平均值，作为评估指标的综合分值；或者

(2)对于各评估指标，根据预先为多个测试用户中各测试用户配置的权重和各测试用户对评估指标的打分，将多个测试用户对评估指标的打分进行加权取平均，作为评估指标的综合分值。

例如，以包括M个测试用户为例，M个测试用户的权重可以分别表示为N₁、N₂、……、N_M，该M个测试用户分别为评估指标X_i打的分数分别为Q₁、Q₂、……、Q_M，此时该评估指标的综合分值可以表示为如下公式：(N₁*Q₁+N₂*Q₂+……+N_M*Q_M)/M。

实际应用中，还可以采用其他数学计算处理方式，计算每个评估指标的综合分值，在此不再一一举例赘述。

在计算到各个评估指标的综合分值后，还可以显示或者输出每个评估指标的综合分值，以供研发人员参考并优化智能对话系统，进而能够进一步优化智能对话系统的性能。

进一步可选地，采用该方式，在计算各个评估指标的综合分值之后，还可以包括：根据预先拟合出的各评估维度上的各评估指标的权重以及各评估指标的综合分值，计算各评估维度的综合分值。

该方式采用不同与上述图1所示实施例的步骤S102的方式，提供另一种评估维度的综合分值。上述图1所示实施例的方式，仅仅以一个测试用户的评分，来评估各评估维度的综合分值，而本实施例中采用多个测试用户的评分，来评估各评估维度的综合分值，能够从整体上来表征评估维度的性能。

另外，本实施例的语音合成的评估方案，也是基于上述图2所示实施例所得到的评估体系的架构为前提，具体的评估系统的架构参考上述图2所示实施例的记载，在此不再赘述。

本实施例的语音合成的评估方法，通过采集多个测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；根据多个测试用户对各评估指标的打分，计算各个评估指标的综合分值，能够弥补现有技术的不足，实现从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。而且本实施例得到的各个评估指标的综合分值，还能够供研发人员参考并优化智能对话系统，进而能够进一步优化智能对话系统的性能。

再者，本实施例中，还能够根据预先拟合出的各评估维度上的各评估指标的权重以及各评估指标的综合分值，计算各评估维度的综合分值，实现从另一个角度得到各评估维度的综合分值，能够从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。

图6为本申请提供的语音合成的评估装置实施例的结构图。如图6所示，本实施例的语音合成的评估装置600，具体可以包括：

第一采集模块601，用于采集测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；其中，一个评估维度上包括至少一个评估指标；

第一评估模块602用于根据预先拟合出的各评估维度上的各评估指标的权重以及各评估维度上的各评估指标的打分，计算各评估维度的综合分值。

进一步可选地，本实施例的语音合成的评估装置600中，还包括：

配置模块603用于为预先筛选出来的多个评估指标配置至少两个评估维度，并将多个评估指标配置在至少两个评估维度上，使得每个评估维度包括有至少一个评估指标；

建构模块604用于根据至少两个评估维度和各评估维度上包括至少一个评估指标，建构待验证的结构方程模型；

计算模块605用于计算结构方程模型的质量参数；

验证模块606用于验证结构方程模型的质量参数是否达到预设标准，若达到，确定结构方程模型合理；

拟合模块607用于拟合验证后的结构方程模型中各评估指标的权重。

进一步可选地，本实施例的语音合成的评估装置600中，还包括：分析模块608和滤除模块609；

第一采集模块601还用于采集数个测试用户基于多个待测试产品分别对预先配置的数个评估指标的打分；

分析模块608用于基于各评估指标的打分，对各评估指标进行相关性分析；

滤除模块609用于基于相关性分析的结果，从数个评估指标中滤除冗余的评估指标，留下多个评估指标。

进一步可选地，本实施例中，至少两个评估维度包括韵律质量维度和语音自然维度；

韵律质量维度上的评估指标包括有发音清楚、发音准确、中音、停顿节奏、速度、语气语调、聆听努力以及连贯性中的至少一种；

语音自然度维度上的评估指标包括有声音自然、情感相符、长时间疲劳、舒适度、音色喜好、交流意愿以及友好度中的至少一种。

本实施例的语音合成的评估装置，通过采用上述模块实现语音合成的评估的实现原理以及技术效果，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图7为本申请提供的语音合成的评估装置实施例的结构图。如图7所示，本实施例的语音合成的评估装置700，具体可以包括：

第二采集模块701用于采集多个测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；其中，一个评估维度上包括至少一个评估指标；

第二评估模块702用于根据多个测试用户对各评估指标的打分，计算各个评估指标的综合分值。

进一步可选地，本实施例的语音合成的评估装置中第二评估模块702具体用于：

对于各评估指标，根据多个测试用户对评估指标的打分，取多个测试用户对评估指标的打分的平均值，作为评估指标的综合分值；或者

对于各评估指标，根据预先为多个测试用户中各测试用户配置的权重和各测试用户对评估指标的打分，将多个测试用户对评估指标的打分进行加权取平均，作为评估指标的综合分值。

进一步可选地，本实施例的语音合成的评估装置中第二评估模块702还用于根据预先拟合出的各评估维度上的各评估指标的权重以及各评估指标的综合分值，计算各评估维度的综合分值。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的语音合成的评估方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音合成的评估方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音合成的评估方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音合成的评估方法对应的程序指令/模块(例如，附图X所示的xx模块X01、xx模块x02和xx模块x03)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音合成的评估方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音合成的评估的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至语音合成的评估的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音合成的评估方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与语音合成的评估的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过采集测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；并根据预先拟合出的各评估维度上的各评估指标的权重以及各评估维度上的各评估指标的打分，计算各评估维度的综合分值，能够弥补现有技术的不足，实现从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。

根据本申请实施例的技术方案，还能够构建的评估体系，且该评估体系经过合理性验证，不仅能够对语音合成进行客观、准确地评价，且能够从多个维度对语音合成进行评估，能够更加丰富和全面地对语音合成进行评估。

根据本申请实施例的技术方案，通过采集多个测试用户收听智能对话系统的合成语音后，对经过合理性验证的至少两个评估维度的各评估维度上的各评估指标的打分；根据多个测试用户对各评估指标的打分，计算各个评估指标的综合分值，能够弥补现有技术的不足，实现从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。而且本实施例得到的各个评估指标的综合分值，还能够供研发人员参考并优化智能对话系统，进而能够进一步优化智能对话系统的性能。

再者，本申请中，还能够根据预先拟合出的各评估维度上的各评估指标的权重以及各评估指标的综合分值，计算各评估维度的综合分值，实现从另一个角度得到各评估维度的综合分值，能够从不同维度上对语音合成进行评估，进而能够从多个评估维度上对语音合成进行更加全面和详细地评估。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音合成的评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采集测试用户对经过合理性验证的至少两个评估维度的各所述评估维度上的各评估指标的打分之前，所述方法还包括：

计算所述结构方程模型的质量参数；

拟合验证后的所述结构方程模型中各所述评估指标的权重。

3.根据权利要求2所述的方法，其特征在于，为预先筛选出来的多个评估指标配置所述至少两个评估维度之前，所述方法还包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述至少两个评估维度包括韵律质量维度和语音自然维度；

5.一种语音合成的评估方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述多个测试用户对各所述评估指标的打分，计算各个所述评估指标的综合分值，包括：

7.根据权利要求5所述的方法，其特征在于，根据所述多个测试用户对各所述评估指标的打分，计算各个所述评估指标的综合分值之后，所述方法还包括：

8.一种语音合成的评估装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

配置模块，用于为预先筛选出来的多个评估指标配置所述至少两个评估维度，并将所述多个评估指标配置在所述至少两个评估维度上，使得每个所述评估维度包括有至少一个所述评估指标；

建构模块，用于根据所述至少两个评估维度和各所述评估维度上包括至少一个所述评估指标，建构待验证的结构方程模型；

计算模块，用于计算所述结构方程模型的质量参数；

验证模块，用于验证所述结构方程模型的质量参数是否达到预设标准，若达到，确定所述结构方程模型合理；

拟合模块，用于拟合验证后的所述结构方程模型中各所述评估指标的权重。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括分析模块和滤除模块；

所述第一采集模块，还用于采集数个所述测试用户基于多个待测试产品分别对预先配置的数个评估指标的打分；

分析模块，用于基于各所述评估指标的打分，对各所述评估指标进行相关性分析；

滤除模块，用于基于所述相关性分析的结果，从所述数个评估指标中滤除冗余的评估指标，留下所述多个评估指标。

11.根据权利要求8-10任一所述的装置，其特征在于，所述至少两个评估维度包括韵律质量维度和语音自然维度；

12.一种语音合成的评估装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述第二评估模块，具体用于：

14.根据权利要求12所述的装置，其特征在于，所述第二评估模块，还用于根据预先拟合出的各所述评估维度上的各所述评估指标的权重以及各所述评估指标的综合分值，计算各所述评估维度的综合分值。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法、或者能够执行权利要求5-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法、或者能够执行权利要求5-7中任一项所述的方法。