CN109830246B

CN109830246B - 音频质量评估方法、装置、电子设备及存储介质

Info

Publication number: CN109830246B
Application number: CN201910073390.8A
Authority: CN
Inventors: 刘永辉; 曹琼; 郝玉峰
Original assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Current assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-10-29
Anticipated expiration: 2039-01-25
Also published as: CN109830246A

Abstract

本发明提供一种音频质量评估方法、装置、电子设备及存储介质，其中，该方法包括：根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本，获取每个语音段对应的发音人的语速值；根据语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果；根据统计结果以及预设条件，获取音频文件的质量评估结果。本发明提供的方法根据发音人语速预设规则进行工程性的自动化分析，能够有效提高音频质量评估效率，且有效提高检测样本的覆盖率。

Description

音频质量评估方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机处理技术领域，尤其涉及一种音频质量评估方法、装置、电子设备及存储介质。

背景技术

长自由对话语料库在制作的过程中，需要对长音频文件中，各个发音人的每一语音段的起始时刻、结束时刻进行标注，同时还需标注与该语音段内语音对应的语料文本。在实际制作过程中，常常会出现各种各样的问题导致音频质量较低，例如：语音段内存在大段无效静音段的现象，严重时，语音段甚至完全不存在有效语音内容，又或者，某语音段标注的语料文本与其实际发生的音频内容不符，例如：相比于该语音段实际发生的音频内容，标注的语料文本存在明显缺失等等。因此，需要对长音频文件对应语音段的音频质量进行评估。

现有技术中，采用人工抽查的方式对音频文件进行音频质量评估。具体表现为：抽查人员在音频文件对应的多个语音段进行抽样，对抽样的语音段进行二次听查，将语音段的语音内容与标注的语料文本进行对比，从而评估整个音频文件的音频质量。但是，采用上述方法需要人工进行，费时费力，导致音频质量评估效率较低，且人工抽查的方式是听查人在多个语音段中进行抽样，抽取的样本数量有限，导致检测样本的覆盖率较低。

发明内容

本发明提供一种音频质量评估方法、装置、电子设备及存储介质，以提高音频质量评估效率，且提高检测样本的覆盖率。

第一方面，本发明提供一种音频质量评估方法，包括：

根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本，获取每个所述语音段对应的发音人的语速值；

根据所述语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果；

根据所述统计结果以及预设条件，获取音频文件的质量评估结果。

可选地，所述根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本，获取每个所述语音段对应的发音人的语速值之前，还包括：

调用语音活动检测VAD工具对所述音频文件对应所有语音段进行检测，获取每个所述语音段的有效语音时长。

可选地，所述语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果，包括：

根据预设语速层级范围以及所述语音段对应的发音人的语速值，获取分组结果；

根据预设聚合策略以及所述分组结果，获取聚合结果，所述聚合结果包括第一聚类集和第二聚类集，其中，第一聚类集中包含的语音段均为正常类型，所述第二聚类集中包含的语音段均为异常类型；

根据所述第一聚类集中语音段的数量、所述第二聚类集中语音段的数量以及语音段的总数，获取所述统计结果。

可选地，所述统计结果包括：正常类型语音段的数量、异常类型语音段的数量、正常类型语音段的数量与语音段的总数的比值以及异常类型语音段的数量与语音段的总数的比值中的一项或多项。

可选地，若所述统计结果为正常类型语音段的数量与语音段的总数的比值；相应地，所述根据所述统计结果以及预设条件，获取音频质量评估结果，包括：

若所述正常类型语音段的数量与语音段的总数的比值大于或等于第一预设阈值，确定所述音频文件的音频质量达标；

若所述正常类型语音段的数量与语音段的总数的比值小于第一预设阈值，确定所述音频文件的音频质量不达标。

可选地，若所述统计结果为异常类型语音段的数量与语音段的总数的比值；相应地，所述根据所述统计结果以及预设条件，获取音频质量评估结果，包括：

若所述异常类型语音段的数量与语音段的总数的比值小于第二预设阈值，确定所述音频文件的音频质量达标；

若所述异常类型语音段的数量与语音段的总数的比值大于或等于第二预设阈值，确定所述音频文件的音频质量不达标。

可选地，所述根据预设语速层级范围以及所述语音段对应的发音人的语速值，获取分组结果之前，还包括：

根据语言种类、所述发音人的语音习惯设置预设语速层级范围。

第二方面，本发明提供一种音频质量评估装置，该装置包括：

第一获取模块，用于根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本，获取每个所述语音段对应的发音人的语速值；

统计分析模块，用于根据所述语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果；

评估模块，用于根据所述统计结果以及预设条件，获取音频文件的质量评估结果。

第三方面，本发明提供一种电子设备，该电子设备包括：存储器和处理器；

所述存储器用于存储程序指令；

所述程序指令在被所述处理器执行时，以执行第一方面所述的方法。

第四方面，本发明提供一种可读存储介质，包括：程序；

所述程序在被处理器执行时，以执行第一方面所述的方法。

本发明提供一种音频质量评估方法、装置、电子设备及存储介质，其中，该方法包括：根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本，获取每个语音段对应的发音人的语速值；根据语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果；根据统计结果以及预设条件，获取音频文件的质量评估结果。本发明提供的方法根据发音人语速以及预设规则进行工程性的自动化分析，能够有效提高音频质量评估效率，且能够有效提高检测样本的覆盖率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的音频质量评估方法实施例一的流程示意图；

图2为本发明提供的音频质量评估方法实施例二的流程示意图；

图3为本发明提供的音频质量评估装置实施例一的结构示意图；

图4为本发明提供的音频质量评估装置实施例二的结构示意图；

图5为本发明提供的电子设备实施例一的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

专业术语释义：

语料库：是以电子计算机为载体承载语言知识的基础资源，且语料库中存放的是在语言实际使用中真实出现过的语言材料。

语音活动检测(Voice Activity Detection，简称：VAD)：又称为语音端点检测或语音边界检测，是指在噪声环境中检测语音的存在与否，通常用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。

语速：文字或人类表达意义的语言符号在单位时间内所呈现的词汇速度。在不同语言文化中，同等语速下信息容量存在差异。

由于在长自由对话语料库制作的过程中，常常由于音频切割等原因会导致语音段内存在大段无效静音段、甚至语音段内完全不存在有效语音内容或者，标注的语料文本与语音段内实际发生的音频内容不符等现象出现，从而使得音频文件质量存在缺陷。

现有技术中，常采用人工抽查的方式对音频文件进行音频质量评估，但是，人工抽查的方式费时费力，导致效率较低，且人工抽查的方式是在多个语音段中随机进行抽样，通常抽取的样本数量有限，导致检测样本覆盖率较低。若抽取的样本数量较多，听查人员工作量较大，检测效率较低，若抽取的样本数量较少，则难以保证检测结果的准确度。

另外，人工抽查的过程中，由于抽查人员自身的原因，例如：听查人是否严谨、是否认真、是否精通或熟知语音段中的语言种类，且听查人员在检测过程中易收到其他外界因素的干扰，以上因素均会对检测结果的准确度造成影响，导致准确度较低。

基于上述问题，本发明实施例提供一种音频质量评估方法，以提高音频质量评估效率，且有效提高检测覆盖率。

图1为本发明提供的音频质量评估方法实施例一的流程示意图。本发明实施例提供的音频质量评估方法的执行主体可为本发明提供的音频质量评估装置其中，音频质量评估装置可以通过任意的软件和/或硬件的方式实现，本发明实施例的方法的执行主体还可以为本发明提供的电子设备，示例性地，该电子设备可以为计算机、掌上电脑等。本实施例中以执行主体为计算机为例进行说明。

如图1所示，本实施例的方法包括：

S101、根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本，获取每个语音段对应的发音人的语速值。

音频文件在经过音频切割后成为多个语音段，通常情况下每个语音段中包含实际发生的语音内容，有时，由于音频切割的原因，语音段中可能还存在无效的静音段，本步骤中，每个语音段的有效语音时长表示该语音段中实际发生语音内容的时间长度，例如：某语音段总时长为1分钟，其中，连续30秒的时间长度内存在实际语音内容，其余连续30秒时间长度内无任何实际语音内容，则该语音段的有效语音时长为30秒。

由于在语料库的制作过程中，会对每个语音段标注其对应的语料文本，其中，语料文本包含该语音段内语音内容对应的文字，其可以文档的形式存储，语料文本的命名可与语音段的顺序编号保持一致。

那么，本步骤中，可根据每个语音段的有效语音时长以及该语料文本中文字总数，获取每个语音段对应的发音人的语速值。具体地，将语料文本的文字总数与有效语音时长的比值确定为该语音段对应的发音人的语速值。由于音频文件对应多个语音段，那么，可按照上述方式获取该音频文件对应的每个语音段对应的发音人的语速值。可以理解的是，本实施例中语速值为有效语音时长内的语速平均值。

示例性地，某语音段总时长为1分钟(该语音段中语言种类为汉语)，其中，有效语音时长为30秒，语料文本包含120个汉字，那么，该语音段对应的发音人的语速值为4字/秒。

S102、根据语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果。

本步骤的目的在于对语音段进行分类，以区分正常类型语音段以及异常类型语音段，其中，正常类型语音段表示该语音段中包含有效语音内容，异常类型语音段表示该语音段中的语音内容存在异常情况，例如：语音内容、有效语音时长以及语料文本不匹配。本步骤是根据语音段的发音人的语速值以及预设规则，进行统计分析从而对语音段进行分类聚合，进一步根据分类聚合结果得到统计结果，其中，统计结果包括：正常类型语音段的数量、异常类型语音段的数量、正常类型语音段的数量与语音段的总数的比值以及异常类型语音段的数量与语音段的总数的比值中的一项或多项。语速值是能够反映语音内容是否正常的基本因素，根据语速值以及预设规则对语音段进行统计分析，不仅简单、方便，且能够保证检测结果的准确度。

一种可能的实现方式，可根据用户输入的控制指令开始对语音段进行统计分析，具体地，计算机在接收到用户输入的控制指令后，开始按照语音段对应的发音人的语速值以及预设规则，对语音段进行分类，将语速值较高或语速值较低的确定为异常类型的语音段，将语速值处于合适范围内的语音段确定为正常类型的语音段，进而得到统计结果。例如：若语速值为0-1字/秒范围内，确定该语音段为异常类型。其中，该控制指令可以是用于通过手动输入的，也可以是用户通过语音输入的。

另一种可能的实现方式，在获取到每个语音段对应的发音人的语速值之后，计算机自动对语音段进行统计分析，以获取统计结果。

S103、根据统计结果以及预设条件，获取音频文件的质量评估结果。

一种可能的实现方式，根据正常类型语音段的数量以及预设条件，确定该音频文件的质量评估结果。具体地，可将预设条件数值化为一具体数值，将正常类型语音段的数量与该预设条件进行比较，若正常类型语音段的数量大于预设条件(即预设数值)，那么，确定该音频文件的音频质量达标，反之，则音频文件的音频质量不达标。

另一种可能的实现方式，根据异常类型语音段的数量以及预设条件，确定该音频文件的质量评估结果。具体地，可将预设条件数值化为一具体数值，将异常类型语音段的数量与该预设条件进行比较，若异常类型语音段的数量小于预设条件(即预设数值)，那么，确定该音频文件的音频质量达标，反之，则音频文件的音频质量不达标。

进一步地，还可根据正常类型的语音段所占的比重，或者，异常类型语音段所占的比重，以及相应的预设条件，确定该音频文件的音频质量评估结果。其具体实现方式，与上述两种实现方式类似。

本实施例中，通过根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本，获取每个语音段对应的发音人的语速值；根据语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果；根据统计结果以及预设条件，获取音频文件的质量评估结果。本发明提供的方法根据发音人语速以及预设规则进行工程性的自动化分析，能够有效提高音频质量评估效率，且有效提高检测覆盖率。

另外，采用本实施例中的方法，通过降低人为因素对音频质量评估的影响，能够有效保证音频质量检测结果的准确度。

下面结合图2对本发明提供的音频质量评估方法进行详细说明，图2为本发明提供的音频质量评估方法实施例二的流程示意图。如图2所示，本实施例的方法包括：

S201、调用语音活动检测VAD工具对长音频文件对应所有语音段进行检测，获取每个语音段的有效语音时长。

语音活动检测(VAD)工具一种基于VAD技术，通过降噪处理、特征提取以及区块分类等处理过程，对语音段进行检测、分析的自动化工具。本实施例中，采用VAD工具，对音频文件对应的所有语音段进行自动化分析，从语音段中识别有效语音段，从而确定语音段中的有效语音时长。采用VAD工具对语音段进行检测，检测效率更高，获取的结果也更加准确。

一种可能的实现方式，计算机上安装有VAD工具，计算机通过调用其上安装的VAD工具，对语音段进行检测分析。

S202、根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本，获取每个语音段对应的发音人的语速值。

本步骤与图1所示实施例中的步骤S101类似，可参见图1中的详细描述，此处不再赘述。

可选地，图1所示实施例中步骤S102、根据语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果，可通过本实施例中步骤S203至S205实现，具体地：

S203、根据预设语速层级范围以及语音段对应的发音人的语速值，获取分组结果。

具体地，可预先根据语言种类、发音人的语音习惯等设置预设语速层级范围。进一步，根据预设语速层级范围以及语音段发音人对应的语速值，对语音段进行分组。

示例性地，编号为2042-S0-A的音频文件中语言种类为中文，经过音频剪切后，音频文件对应558个语音段，预设语速层级范围包含以下5个不同的语速层级范围，语速0-1字/秒、2-3字/秒、4-5字/秒、6-7字/秒、大于或等于8字/秒。

根据预设语速层级范围对558个语音段进行分组，例如，某语音段发音人对应的语速值为2字/秒，那么属于2-3字/秒语速层级范围内，以此类推，对所有语音段进行分组，得到分组结果，该结果包括：属于0-1字/秒语速层级范围内的语音段有239个，属于2-3字/秒语速层级范围内的语音段有47个，属于4-5字/秒语速层级范围内的语音段有77个，属于6-7字/秒语速层级范围内的语音段有46个，大于或等于8字/秒语速层级范围内的语音段有149个。

将该分组结果通过表格的形式表示，分组结果参见表1所示：

表1

音频编号	0-1字/秒	2-3字/秒	4-5字/秒	6-7字/秒	大于或等于8字/秒
						2042-S0-A	239	47	77	46	149

可以理解的是，若是其他语言种类的音频文件，可根据其语言种类及发音人的语音特点等设置相应的预设语速层级范围，进而根据语音段对应的语速值进行归类，获取分组结果，其实现过程类似。

S204、根据预设聚合策略以及分组结果，获取聚合结果。

本步骤中，根据预设聚合策略以及步骤S203中得到的分组结果，将音频文件对应的语音段进一步分类，得到聚合结果，其中，聚合结果包括第一聚类集和第二聚类集，其中，第一聚类集中包含的语音段均为正常类型，第二聚类集中包含的语音段均为异常类型。由于语速值较小或语速值较高均说明该语音段异常，因此，可根据语速值确定如何区语音段为正常类型还是异常类型，其中，异常类型表示：该语音段无有效语音内容，或者，实际发生的语音内容与语料文本不匹配。正常类型表示：语音段内存在有效语音内容，且该语音段的有效语音内容与语料文本相互匹配。

以步骤S203中编号为2042-S0-A的音频文件为例进行举例说明，在上述表1所示的分组结果的基础上，将属于0-1字/秒语速层级范围内的语音段以及属于大于或等于8字/秒语速层级范围内的语音段确定为异常类型，将其余语速层级范围内的语音段确定为正常类型，从而得到第一聚类集中包含2-3字/秒、4-5字/秒、6-7字/秒这3个语速层级范围对应的170个语音段，第二聚类集中包含0-1字/秒以及大于或等于8字/秒语速层级范围对应的388个语音段。

S205、根据第一聚类集中语音段的数量、第二聚类集中语音段的数量以及语音段的总数，获取统计结果。

可选地，当统计结果包括正常类型语音段的数量与语音段的总数的比值(即第一聚类集中语音段的数量与语音段的总数的比值)、以及异常类型语音段的数量与语音段的总数的比值(即第二聚类集中语音段的数量与语音段的总数的比值)，编号为2042-S0-A的音频文件对应的统计结果可参见表2所示：

表2

其中，第一聚类集占比即表示第一聚类集中语音段的数量与语音段的总数的比值，以百分比形式表示。第二聚类集占比即表示第二聚类集中语音段的数量与语音段的总数的比值，以百分比形式表示。

S206、根据统计结果以及预设条件，获取音频文件的质量评估结果。

可选地，若统计结果为正常类型语音段的数量与语音段的总数的比值，那么，可通过以下方式获取音频质量评估结果：

若正常类型语音段的数量(即第一聚类集中语音段的数量)与语音段的总数的比值大于或等于第一预设阈值，确定音频文件的音频质量达标；若正常类型语音段的数量与语音段的总数的比值小于第一预设阈值，确定音频文件的音频质量不达标。

在实际应用中，优选地，第一预设阈值为70％。

可选地，若统计结果为异常类型语音段的数量与语音段的总数的比值，那么，可通过以下方式获取音频质量评估结果

若异常类型语音段的数量(即第二聚类集中语音段的数量)与语音段的总数的比值小于第二预设阈值，确定音频文件的音频质量达标；若异常类型语音段的数量与语音段的总数的比值大于或等于第二预设阈值，确定音频文件的音频质量不达标。

在实际应用中，优选地，第二预设阈值为30％。

当然，可以理解的是，第一预设阈值越高或者第二预设阈值越低，说明语料库对音频质量要求越高，在实际应用中可根据实际需求设定第一预设阈值以及第二预设阈值。

以上述编号为2042-S0-A的音频文件为例，将第一预设阈值设置为70％，根据其统计结果以及预设阈值可知，正常类型的语音段占比30.5％，小于第一预设阈值70％，则确定该音频文件的音频质量不达标，存在异常情况。

本实施例中，通过调用VAD工具对长音频文件对应的语音段进行检测，获取每个语音段的有效语音时长，进一步，根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本，获取每个语音段对应的发音人的语速值，根据预设语速层级范围以及语音段对应的发音人的语速值，获取分组结果，根据预设聚合策略以及分组结果，获取聚合结果，再根据第一聚类集中语音段的数量、第二聚类集中语音段的数量以及语音段的总数，获取统计结果，根据统计结果以及预设条件，获取音频文件的质量评估结果。本实施例中，通过采用VAD工具对语音段进行自动检测，获取语音段对应的有效语音时长，再根据发音人语速以及预设规则进行工程性的自动化分析，能够有效提高音频质量评估效率，且有效提高检测样本的覆盖率。

将本发明实施例提供的音频质量评估方法应用于es-ES(西班牙-西班牙语)的某语料库中，在该库包含的236个语料文本(对应236个音频文件)，异常类型的音频文件有90个，经后期测试验证，音频质量有问题的音频文件数量为81个，准确率达90.0％；正常类型的音频文件有146个，经后期测试验证，音频质量存在问题的音频文件只有1个，仅占0.7％。由此可知，采用本发明实施例提供的方法能够自动进行工程性的检测分析，提高效率，且能够有效保证准确率。

图3为本发明提供的音频质量评估装置实施例一的流程示意图。如图3所示，本实施例提供的音频质量评估装置30包括：第一获取模块31、统计分析模块32以及评估模块33。

其中，第一获取模块31，用于根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本，获取每个语音段对应的发音人的语速值。

统计分析模块32，用于根据语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果。

可选地，统计结果包括：正常类型语音段的数量、异常类型语音段的数量、正常类型语音段的数量与语音段的总数的比值以及异常类型语音段的数量与语音段的总数的比值中的一项或多项。

评估模块33，用于根据统计结果以及预设他条件，获取音频文件的质量评估结果。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明提供的音频质量评估装置实施例二的结构示意图。如图4所示，本实施例的装置40在图3所示实施例的基础上，还包括：第二获取模块34。

其中，第二获取模块34，用于在第一获取模块31根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的预料文本，获取每个语音段对应的发音人的语速值之前，调用VAD工具对音频文件对应的所有语音段进行检测，获取每个语音段的有效语音时长。

可选地，在一些实施例中，统计分析模块32包括：第一分组子模块321、聚合子模块322、以及计算子模块323。

其中，第一分组子模块321，用于根据预设语速层级范围以及语音段对应的发音人的语速值，获取分组结果。

聚合子模块322，用于根据预设聚合策略以及分组结果，获取聚合结果，聚合结果包括第一聚类集和第二聚类集，其中，第一聚类集中包含的语音段均为正常类型，所述第二聚类集中包含的语音段均为异常类型。

计算模块323，用于根据第一聚类集中语音段的数量、第二聚类集中语音段的数量以及语音段的总数，获取统计结果。

可选地，在一些实施例中，若统计结果为正常类型语音段的数量与语音段的总数的比值，评估模块33，主要用于通过以下方式，获取音频文件的质量评估结果：

若正常类型语音段的数量与语音段的总数的比值大于或等于第一预设阈值，确定音频文件的音频质量达标；若正常类型语音段的数量与语音段的总数的比值小于第一预设阈值，确定音频文件的音频质量不达标。

若统计结果为异常类型语音段的数量与语音段的总数的比值，评估模块33，主要用于通过以下方式，获取音频文件的质量评估结果：

若异常类型语音段的数量与语音段的总数的比值小于第二预设阈值，确定音频文件的音频质量达标；若异常类型语音段的数量与语音段的总数的比值大于或等于第二预设阈值，确定音频文件的音频质量不达标。

可选地，在一些实施例中，还包括：设置模块35(图4中未示出)，具体用于根据语言种类、发音人的语音习惯设置预设语速层级范围。

本实施例的装置可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本发明提供的电子设备实施例一的结构示意图。如图5所示，本实施例的电子设备50包括：存储器51和处理器52；

存储器51可以是独立的物理单元，与处理器52可以通过总线53连接。存储器51、处理器52也可以集成在一起，通过硬件实现等。

存储器51用于存储实现以上方法实施例，处理器52调用该程序，执行以上方法实施例的操作。

可选地，当上述实施例的方法中的部分或全部通过软件实现时，上述电子设备50也可以只包括处理器52。用于存储程序的存储器51位于电子设备50之外，处理器52通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器52可以是中央处理器(Central Processing Unit，CPU)，网络处理器(Network Processor，NP)或者CPU和NP的组合。

处理器52还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(ProgrammableLogic Device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)，现场可编程逻辑门阵列(Field-Programmable GateArray，FPGA)，通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。

存储器51可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random-Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-volatileMemory)，例如快闪存储器(Flash Memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-state Drive，SSD)；存储器还可以包括上述种类的存储器的组合。

本发明还提供一种程序产品，例如，计算机可读存储介质，可读存储介质中包括程序，程序在被处理器执行时，以执行以上方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音频质量评估方法，其特征在于，包括：

根据所述统计结果以及预设条件，获取音频文件的质量评估结果；

所述语音段对应的发音人的语速值以及预设规则进行统计分析，获取统计结果，包括：

根据预设语速层级范围以及所述语音段对应的发音人的语速值，获取分组结果；根据预设聚合策略以及所述分组结果，获取聚合结果，所述聚合结果包括第一聚类集和第二聚类集，其中，第一聚类集中包含的语音段均为正常类型，所述第二聚类集中包含的语音段均为异常类型；根据所述第一聚类集中语音段的数量、所述第二聚类集中语音段的数量以及语音段的总数，获取所述统计结果；

所述统计结果包括：正常类型语音段的数量、异常类型语音段的数量、正常类型语音段的数量与语音段的总数的比值以及异常类型语音段的数量与语音段的总数的比值中的一项或多项；

若所述统计结果为正常类型语音段的数量与语音段的总数的比值；相应地，所述根据所述统计结果以及预设条件，获取音频质量评估结果，包括：

若所述正常类型语音段的数量与语音段的总数的比值大于或等于第一预设阈值，确定所述音频文件的音频质量达标；若所述正常类型语音段的数量与语音段的总数的比值小于第一预设阈值，确定所述音频文件的音频质量不达标；若所述异常类型语音段的数量与语音段的总数的比值小于第二预设阈值，确定所述音频文件的音频质量达标；若所述异常类型语音段的数量与语音段的总数的比值大于或等于第二预设阈值，确定所述音频文件的音频质量不达标。

2.根据权利要求1所述的方法，其特征在于，所述根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本，获取每个所述语音段对应的发音人的语速值之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预设语速层级范围以及所述语音段对应的发音人的语速值，获取分组结果之前，还包括：

4.一种音频质量评估装置，其特征在于，包括：

评估模块，用于根据所述统计结果以及预设条件，获取音频文件的质量评估结果；

其中，所述统计分析模块包括：第一分组子模块、聚合子模块、以及计算子模块；

其中，第一分组子模块，用于根据预设语速层级范围以及语音段对应的发音人的语速值，获取分组结果；

聚合子模块，用于根据预设聚合策略以及分组结果，获取聚合结果，聚合结果包括第一聚类集和第二聚类集，其中，第一聚类集中包含的语音段均为正常类型，所述第二聚类集中包含的语音段均为异常类型；

计算子模块，用于根据第一聚类集中语音段的数量、第二聚类集中语音段的数量以及语音段的总数，获取统计结果；

所述评估模块，主要用于通过以下方式，获取音频文件的质量评估结果：

若正常类型语音段的数量与语音段的总数的比值大于或等于第一预设阈值，确定音频文件的音频质量达标；若正常类型语音段的数量与语音段的总数的比值小于第一预设阈值，确定音频文件的音频质量不达标；

若统计结果为异常类型语音段的数量与语音段的总数的比值，评估模块，主要用于通过以下方式，获取音频文件的质量评估结果：

5.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述程序指令在被所述处理器执行时，以执行如权利要求1至3任一项所述的方法。

6.一种可读存储介质，其特征在于，包括：程序；

所述程序在被处理器执行时，以执行如权利要求1至3任一项所述的方法。