CN109147765A

CN109147765A - 音频质量综合评测方法及系统

Info

Publication number: CN109147765A
Application number: CN201811368468.0A
Authority: CN
Inventors: 郑抗; 李兰影; 胡尹; 王金钖
Original assignee: Anhui Hear Technology Co Ltd
Current assignee: Anhui Hear Technology Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-01-04
Anticipated expiration: 2038-11-16
Also published as: CN109147765B

Abstract

本发明公开了一种音频质量综合评测方法及系统，其中方法包括：接收待测音频数据；对所述待测音频数据进行语音识别，得到识别文本；分别从所述待测音频数据和所述识别文本获取质量评测特征，所述质量评测特征包括声学特征和语义特征；利用所述质量评测特征以及预先训练的音频质量评测模型，对所述待测音频数据进行评价，得到音频质量评测结果。本发明通过分析音频数据的声学及语义两个层面的信息，弥补了现有的评测方案标准单一的问题，在实际评测过程中不仅大大节省人工工作量，并且还具有较高的评价准确度，使得评价结果更为客观、全面。

Description

音频质量综合评测方法及系统

技术领域

本发明涉及自然语言理解及语音信号处理领域，尤其是一种音频质量综合评测方法及系统。

背景技术

语音识别被广泛地应用在各种领域，如工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等。尤其是随着深度神经网络等新技术的应用以及硬件计算能力的飞速提升，语音识别的效率与效果都在逐年提升，因而在可预期的未来，语音识别必然会获得更加广泛的应用。

音频作为语音识别系统的输入，其质量好坏直接影响到语音识别的正确率，同时音频质量对于语音识别模型训练也起到至关重要的作用，所以有必要对音频质量进行评测。但是音频资源浩如烟海，完全用人工进行评价不切实际，同时音频资源种类繁多，单一的评价特征往往不能得到全面可靠的评测结果。所以有必要提出一种音频质量的自动评测方法及系统，能够对大量、多类的音频实现高效的自动评测，得到可靠的评测结果。

现有音频质量评测方法一般包含主观评测方法及客观评测方法两大类。主观评测方法需要人工听音频数据给出主观打分，所述人工一般为专家或专业人士，当音频时长较长或者音频较多时，人工评测的工作量较大，成本也较高，不具有实用性；客观评测方法并不能完全地代替主观质量评估，而是在尽量接近人类主观感知的基础上获得一种既方便又能够准确有效地预测音频质量的方法。当前的客观评测方法大都是提取语音信号的时域、频域或变换域的特征参数，估计语音信号的质量，如频谱、包络、响度、回音和噪声等，此类评估方法考虑因素单一，得到的评测结果不够全面。

本发明的设计初衷是面向人类语音音频，语音质量的好坏最后均会反映在终端受众(人或非人)的接受度上，传统的单纯依靠声学特征进行质量评测的方式忽略了语义层面对于质量评价结果的影响，由于无论是间接还是直接，最终的受众仍会关注该段人类语音的清晰表达上，但“清晰表达”在某些容易被忽略的场景中包含了针对语义清楚的特定需求，当受众能够较容易地识别、理解音频中的语义时，往往会提升对该音频的正面评价。因此，对于音频质量评价体系，将语义层面与声学层面相结合的需求会具有超越传统观念的重要意义。

发明内容

针对上述需求，本发明的目的是提供一种音频质量综合评测方法及系统，综合声学及语义两个维度评价音频质量，以此获得更为全面、客观的评测结果。

本发明采用的技术方案如下：

一种音频质量综合评测方法，包括：

接收待测音频数据；

对所述待测音频数据进行语音识别，得到识别文本；

分别从所述待测音频数据和所述识别文本获取质量评测特征，所述质量评测特征包括声学特征和语义特征；

利用所述质量评测特征以及预先训练的音频质量评测模型，对所述待测音频数据进行评价，得到音频质量评测结果。

可选地，

所述分别从所述待测音频数据和所述识别文本获取质量评测特征包括：

从所述待测音频数据中获取所述声学特征，所述声学特征包括：流畅度特征和/或完整性特征；

从所述识别文本中获取语义特征，所述语义特征包括：语义置信度特征和/或语法准确性特征。

可选地，

从所述待测音频数据中获取所述流畅度特征的方法为：

根据所述待测音频数据的响度异常状态的占比，得到所述流畅度特征；

从所述待测音频数据中获取所述完整性特征的方法为：

根据所述待测音频数据中的异常静音的占比，得到所述完整性特征。

可选地，

所述根据所述待测音频数据的响度异常状态的占比，得到所述流畅度特征具体包括：

设置固定时长的抽样窗口；

通过所述抽样窗口随机且重复截取所述待测音频数据的响度曲线；

根据每个所述抽样窗口中的响度最大值和响度最低值，计算各所述抽样窗口中的响度差；

将所述响度差大于或等于预设响度阈值的抽样窗口标记为异常窗口；

将所述异常窗口的数量占比作为所述流畅度特征；

所述根据所述待测音频数据中的异常静音的占比，得到所述完整性特征具体包括：

获取所述待测音频数据中的各静音段的持续时长；

将所述持续时长大于或等于预设时长阈值的静音段标记为异常静音段；

将所有异常静音段的持续时长累加，得到异常静音总时长；

将异常静音总时长的占比作为所述完整性特征。

可选地，

从所述识别文本中获取所述语义置信度特征的方法为：

根据所述识别文本的单词置信度计算语句置信度；

根据语句置信度计算所述识别文本的语义置信度特征；

从所述识别文本中获取所述语法准确性特征的方法为：

对所述识别文本中的语句进行语法修正，确定语法异常语句；

根据语法异常语句的占比，得到所述语法准确性特征。

可选地，

从所述识别文本中获取所述语义置信度特征的方法具体为：

以所述识别文本中的语句为单位，计算语句内各单词的单词置信度；

将一个语句内的单词置信度的均值作为该语句的语句置信度；

计算语句置信度的均值，得到所述识别文本的语义置信度特征；

从所述识别文本中获取所述语法准确性特征的方法具体为：

以所述识别文本中的语句为单位进行语法修正，得到各语句的字符串编辑距离；

计算所述字符串编辑距离与相应语句的句子长度的比值；

将所述比值大于或等于预设比值阈值的语句标记为语法异常语句；

将所述语法异常语句的数量占比作为所述语法准确性特征。

可选地，所述音频质量评测模型的训练方式包括：对所述音频质量评测模型的音频训练样本的音频质量，按预设的主观分级标准进行评测。

一种音频质量综合评测系统，包括：

接收模块，用于接收待测音频数据；

识别模块，用于对所述待测音频数据进行语音识别，得到识别文本；

评测特征获取模块，用于分别从所述待测音频数据和所述识别文本获取质量评测特征，所述质量评测特征包括声学特征和语义特征；

评测模块，用于利用所述质量评测特征以及预先训练的音频质量评测模型，对所述待测音频数据进行评价，得到音频质量评测结果。

可选地，所述评测特征获取模块具体包括：

声学特征获取单元，用于从所述待测音频数据中获取所述声学特征，所述声学特征包括：流畅度特征和/或完整性特征；

语义特征获取单元，用于从所述识别文本中获取语义特征，所述语义特征包括：语义置信度特征和/或语法准确性特征。

可选地，

所述声学特征获取单元具体包括流畅度特征获取子单元和/或完整性特征获取子单元；

所述流畅度特征获取子单元，用于根据所述待测音频数据的响度异常状态的占比，得到所述流畅度特征；

所述完整性特征获取子单元，用于根据所述待测音频数据中的异常静音的占比，得到所述完整性特征。

可选地，

所述流畅度特征获取子单元具体包括：

窗口设定组件，用于设置固定时长的抽样窗口；

抽样组件，用于通过所述抽样窗口随机且重复截取所述待测音频数据的响度曲线；

响度差计算组件，用于根据每个所述抽样窗口中的响度最大值和响度最低值，计算各所述抽样窗口中的响度差；

窗口标记组件，用于将所述响度差大于或等于预设响度阈值的抽样窗口标记为异常窗口；

流畅度特征确定组件，用于将所述异常窗口的数量占比作为所述流畅度特征；

所述完整性特征获取子单元具体包括：

静音段时长获取组件，用于获取所述待测音频数据中的各静音段的持续时长；

静音段标记组件，用于将所述持续时长大于或等于预设时长阈值的静音段标记为异常静音段；

累加组件，用于将所有异常静音段的持续时长累加，得到异常静音总时长；

完整性特征确定组件，用于将异常静音总时长的占比作为所述完整性特征。

可选地，所述语义特征获取单元具体包括语义置信度特征获取子单元和/或语法准确性特征获取子单元；

所述语义置信度特征获取子单元，用于根据所述识别文本的单词置信度计算语句置信度；根据语句置信度计算所述识别文本的语义置信度特征；

所述语法准确性特征获取子单元，用于对所述识别文本中的语句进行语法修正，确定语法异常语句；根据语法异常语句的占比，得到所述语法准确性特征。

可选地，

所述语义置信度特征获取子单元具体包括：

单词置信度计算组件，用于以所述识别文本中的语句为单位，计算语句内各单词的单词置信度；

语句置信度计算组件，用于将一个语句内的单词置信度的均值作为该语句的语句置信度；

语义置信度计算组件，用于计算语句置信度的均值，得到所述识别文本的语义置信度特征；

所述语法准确性特征子单元具体包括：

语法修正组件，用于以所述识别文本中的语句为单位进行语法修正，得到各语句的字符串编辑距离；

比值计算组件，用于计算所述字符串编辑距离与相应语句的句子长度的比值；

语句标记组件，用于将所述比值大于或等于预设比值阈值的语句标记为语法异常语句；

语法准确性特征确定组件，用于将所述语法异常语句的数量占比作为所述语法准确性特征。

可选地，所述系统还包括：训练样本评分模块，用于对所述音频质量评测模型的音频训练样本的音频质量，按预设的主观分级标准进行评测。

本发明对接收到的待测音频数据进行语音识别，得到识别文本；并分别从待测音频数据本身和相应的识别文本中获取包括声学特征和语义特征的质量评测特征，再利用所述质量评测特征以及预先训练的音频质量评测模型，对待测音频数据进行评价，得到音频质量评测结果。本发明通过分析音频数据的声学及语义两个层面的信息，弥补了现有的评测方案标准单一的问题，在实际评测过程中不仅大大节省人工工作量，并且还具有较高的评价准确度，因而本发明的评价结果更为客观、全面。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的音频质量综合评测方法的实施例的流程图；

图2为本发明提供的流畅度特征获取方法的实施例的流程图；

图3为本发明提供的完整性特征获取方法的实施例的流程图；

图4为本发明提供的语义置信度特征获取方法的实施例的流程图；

图5为本发明提供的语法准确性特征获取方法的实施例的流程图；

图6为本发明提供的音频质量综合评测系统的实施例的方框图。

附图标记说明：

1接收模块2识别模块3评测特征获取模块4评测模块

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提供了一种音频质量综合评测方法的实施例，如图1所示，可以包括如下步骤：

步骤S1、接收待测音频数据；

本实施例所称待测音频数据主要是指用来评测音频质量的人类语音数据，场景可以是诸如朗读、演讲、会话、语言测试以及表演类型的口述等(语言类曲艺表演，脱口秀等)，并不特别针对音乐、自然界声音等非人类语音音频数据；所述待测音频数据的接受方式可以通过各类型麦克风现场录音或后期采集，还可以通过网络远程传输等其他方式，本发明对此不作限定。

步骤S2、对所述待测音频数据进行语音识别，得到识别文本；

具体地，可以先对待测音频数据进行端点检测，得到有效语音段的起始点和结束点，所述有效语音段可以通过多种现有方法检测得到，如使用语音活动检测(VoiceActivity Detection，VAD)等成熟的技术方案；然后对所述有效语音段进行语音识别，得到相应识别文本，同样地，语音识别方法也可以采用成熟的现有技术，现有的语音识别技术可以直接将说话人的语音转换为文本数据，即转写成对应该音频数据的识别文本，识别过程在本发明中不再详述。

步骤S3、分别从所述待测音频数据和所述识别文本获取质量评测特征；

与现有技术相比，本发明的初衷是提供一种更为全面的综合评测方案，也即是对某段语音数据的质量优劣的评价不仅仅从现有的听感角度，而是还包含了音频所传达的语义信息；由于音频数据的接收方可涉及的领域和场景十分广泛，并且随着技术智能化的演进和成熟，音频接收方势必不能仅满足单纯的声学质量的要求，例如由语音信号的时域、频域或变换域的特征参数，估计语音信号的质量，如频谱、包络、响度、回音和噪声等。因此本发明提出用于质量评测的依据，其来源不仅包括传统的声学特征，还涵盖了语义信息，即所述质量评测特征包括声学特征和语义特征，由此得到的评测结果才更符合对音频质量评测的客观需要。

具体地，本实施例中以音频数据及识别文本作为特征来源，优选从接收到的所述待测音频数据中直接获取所述声学特征，并且所述声学特征可以包括：流畅度特征和/或完整性特征；并从所述识别文本中获取语义特征，并且所述语义特征可以包括：语义置信度特征和/或语法准确性特征。但本发明并不排除声学特征和语义特征来自其他来源，例如根据不同的应用场景，声调、韵律等声学特征也可以从含有声学信息的识别文本中获取到，对此本发明不作限定。而对于优选方案中的特定特征的选取原因和方式，将在下文中具体说明。

步骤S4、利用所述质量评测特征以及预先训练的音频质量评测模型，对所述待测音频数据进行评价，得到音频质量评测结果。

具体评价时，可以直接将前述步骤中获取到的质量评测特征作为音频质量评测模型的输入，模型输出则为待测音频数据的质量评测结果，该评测结果可以以百分制得分表达，也可以采用平均意见得分(Mean Opinion Scores，MOS)，本发明对此不作限定。关于音频质量评测模型的构建可以采用如下方式：

1)可以通过离线方式预先收集大量音频训练样本；

2)通过人工体验的方式，对音频训练样本的音频质量按预设的主观分级标准进行评测。所述主观分级标准可以采用前述MOS标准，即根据音频质量的优劣分为优、良、一般、差、很差五个等级，并用数字5-1表示等级；另外，也可采用前述百分制打分的评测方式。

3)对音频训练样本进行识别，得到对应的识别文本样本。

4)按照前文提及的，分别从样本的音频数据和识别文本上提取质量评测特征。

5)最后根据样本的质量评测特征及前述主观评测得分对模型进行训练，本实施例中用到的音频质量评测模型的结构可以是回归模型或分类模型；例如，当评价结果采用百分制得分时，可以使用回归模型描述，当评价结果采用MOS得分时，则可以使用分类模型描述，具体的模型训练过程可借鉴现有技术，在此不再详述。

本实施例通过分析音频数据的声学及语义两个层面的信息，弥补了现有的评测方案标准单一的问题，在实际评测过程中不仅大大节省人工工作量，并且还具有较高的评价准确度，因而本发明的评价结果更为客观、全面。

在前文中本发明提及了获取不同层面的评测特征，作为音频质量评判依据。这里需强调的是，为解决现有的评测手段不全面的问题，本发明的重点是将语义信息融合至评测过程中，同时，对于特定特征的选取同样是依赖于本发明的技术目的，也就是说，本发明的并非是讨论“接收待测数据，提取特征并输入至模型，最后得到评测结果”等常规步骤，而是在这些步骤中侧重关注：为了解决本发明提出的技术问题，从哪里获取特征、获取什么特征、且如何获取到所需的特定特征。

据此，本发明针对声学特征和语义特征分别提供了如下具体的实施示例：

1、声学特征中的流畅度特征，主要指待测音频数据中人类语音的顺畅平稳程度。本发明提出以音频的响度予以表征，这是因为质量良好的人类语音的响度曲线(波形)变化较平滑，少有剧烈波动。具体地，如图2所示的获取流畅度特征的流程，具体可以包括如下步骤：

步骤S20、设置固定时长的抽样窗口；

窗口的时长可以因需要而定，通常可以设置的较小，例如以毫秒为单位；而固定时长的目的是为了统一采样标准，以使每个抽样窗口中所含响度信息较为均衡。

步骤S21、通过所述抽样窗口随机且重复截取所述待测音频数据的响度曲线；

这里所称“随机且重复”，是指对一段完整的响度曲线取样时，以随机为原则从起始至结束完成一次抽样后还可以重复执行多次同样的操作，从而可以获得均衡且大量的样本，当然，抽样次数量和样本数量皆可依据需求进行调整。

步骤S22、根据每个所述抽样窗口中的响度最大值和响度最低值，计算各所述抽样窗口中的响度差；

当得到大量包含响度信息的抽样窗口后，确定各窗口内的响度最大值和最低值，进而算出每个窗口的响度差。

步骤S23、将所述响度差大于或等于预设响度阈值的抽样窗口标记为异常窗口；

这里所称预设响度阈值可以由实际所需确定，当前述响度差等于或超过该响度阈值，则表明该窗口中的响度曲线的波动超出预期，属于非正常的响度，因此将该抽样窗口标记为异常窗口。而对于未超过响度阈值的窗口也可以标记为正常窗口。

步骤S24、将所述异常窗口的数量占比作为所述流畅度特征；

最后统计异常窗口的占比，并将该占比作为前述流畅度特征，也即是实施例中前述流畅度特征以比例关系表达。这里需说明的是，所称异常窗口的数量占比，可以是指异常窗口与正常窗口的比值，也可以是指异常窗口与所有抽样窗口的比值，具体依所需而定。

上述根据待测音频数据的响度异常状态的占比，得到所述流畅度特征的方法并不限于此，例如响度异常的计算也可以通过观测响度曲线的斜率或者统计波谷的数量等方式，在此不多赘述。

2、声学特征中的完整性特征，主要是关注待测音频数据中人类语音有无异常缺失。通常质量较差的音频往往由于异常的停顿、静音等使得语音数据不完整，出现片段缺失。具体地，如图3所示的获取完整性特征的流程，具体可以包括如下步骤：

步骤S30、获取所述待测音频数据中的各静音段的持续时长；

实际操作中，可以通过但不限于前文提及的VAD技术获取到音频数据中的各静音段，并同时可以得到各静音段的持续时长。

步骤S31、将所述持续时长大于或等于预设时长阈值的静音段标记为异常静音段；

根据实际需求设定一个关于静音的时长阈值，等于或超过该标准的静音段则被视为影响音频数据完整性的异常静音段。而对于未超过阈值的静音段则可以视为正常的静音，例如由话语之间的呼吸换气所产生的静音。

步骤S32、将所有异常静音段的持续时长累加，得到异常静音总时长；

结合实践经验，本实施例不以单个静音段作为评判依据，也不以异常静音段的数量作为评判依据，而是提出统计待测音频数据中的异常静音总时长。

步骤S33、将异常静音总时长的占比作为所述完整性特征。

同理地，此处所称异常静音总时长的占比可以是指异常静音总时长与正常静音时长的比值，也可以是指异常静音总时长与待测音频数据的总时长的比值，具体依所需而定。

上述根据待测音频数据中的异常静音的占比，得到所述完整性特征的方法并不限于此，例如可以与语义理解相结合，判断静音的出现是否为非完整表述的时机，若是则判定为异常静音，再据此统计异常静音的占比，在此不多赘述。

本发明之所以特别关注上述两项特征，是因为在语音识别过程中，输入的音频残缺部分片段或呈现断断续续的音效，这类数据极大有损识别效果，所以有必要从声学特征这些层面获取语音的完整性和流畅度。但还需补充的是，除了本发明提出上述特定的声学特征，在其他实施例中，还可以涵盖其他的声学特征，例如传统的语音信号的时域、频域或信噪比特征。以信噪比特征举例，通常背景噪声较高的音频数据往往质量较差。具体在提取信噪比特征时，可以先对音频数据使用VAD技术区分有效语音帧和噪声帧，接着再分别计算两者的均方值，两者的均方值之比就是所要提取的信噪比特征。其他声学特征的获取同样可以借鉴现有技术，本发明对此不再赘述。

3、语义特征中的语义置信度特征，主要是指待测音频数据在与语义层面的可靠程度。本发明之所以选取该特定特征作为质量评测的依据之一，是因为经实践发现，上下文内容对于待测音频数据的完整含义的影响较大，并且在某些语种中经常出现同词多义或一句多义的情况，因此在忽略该特征情况下，容易使得即使音频质量符合声学层面的需求，但由于语义理解错误仍导致较差的“听感”，当然这里所称“听感”是指不同场景中的音频接收方对音频数据的需求期待。具体地，如图4所示的获取语义置信度特征的流程，具体可以包括如下步骤：

步骤S40、以所述识别文本中的语句为单位，计算语句内各单词的单词置信度；

步骤S41、将一个语句内的单词置信度的均值作为该语句的语句置信度；

步骤S42、计算语句置信度的均值，得到所述识别文本的语义置信度特征。

对音频进行识别时，能够计算出识别结果中词、句的置信度。该置信度一定程度上能够模拟人类对语音的听感及理解，假设当音频中的语音清晰、含义指向明确，置信度则会较高；反之，如果发音模糊或包含较多的同音不同义、同词多义语句时，虽然可识别出结果，但置信度则会较低。以人类听众的主观判定角度可以这样理解，对所听内容感到较多的不确定、不理解、含糊不清的内容时，则会给出较低的主观评价，所以本申请提出有必要将置信度特征参与到音频质量评测之中。

对于置信度的计算方式在语音识别领域已有成熟的现有技术可以借鉴，本发明对此不再赘述。但需指出的是，本实施例提出的确定最终的语义置信度的思路，是按序由单词、语句的置信度均值逐步得到整个待测音频数据的置信度，但在具体计算过程中比不限于上述方式，例如可以先进行以语句为单位的关键词的判定，再计算关键词的置信度，之后选取按一定阈值标准的置信度前几位的关键词，作为语句置信度的代表，以此类推，对此不予赘述。

4、语义特征中的语法准确性特征，主要是指语音表达是否符合语法需求。从统计上看，较好质量的语音音频往往符合语法规范，使得手中非常容易识别、理解音频的实际内容。反之，即便音频中每个词语发音清晰可辨，但不符合语法规范，例如生拼硬凑、毫无语义的音频，那么受众也会对该类音频质量给出较负面评价，所以本申请认为有必要采用语法准确性特征对音频质量进行评测。具体地，如图5所示的获取语法准确性特征的流程，具体可以包括如下步骤：

步骤S50、以所述识别文本中的语句为单位进行语法修正，得到各语句的字符串编辑距离；

在实际操作中，可使用语法规整技术，如编解码模型(Encoder-Decoder,ED)；并且，语法通常反映在一个语句的表达中，因此在本实施例中提出以语句为单位进行语法修正，且在修正过程中即可以计算出修正后语句与原始语句的字符串编辑距离(其中，插入、删除、替换等权值均可以是1)。

步骤S51、计算所述字符串编辑距离与相应语句的句子长度的比值；

于此，本发明提出的策略是由字符串编辑距离与该语句的句长的比值作为后续获得语法准确性特征的基础，由于不同的句长可能导致出现语法错误的概率不同，因而不采用单纯看待编辑距离的方式评判准确性。

步骤S52、将所述比值大于或等于预设比值阈值的语句标记为语法异常语句；

这里所称比值阈值同样如前文中提及的各阈值相同，由实际所需确定；当前述比值等于或超过该阈值时，则表明语法错误超出预期，因此将相应的语句标记为语法异常语句。而对于未超过该比值阈值的语句也可以标记为语法正常语句。

步骤S53、将所述语法异常语句的数量占比作为所述语法准确性特征。

同理地所称语法异常语句的数量占比，可以是指语法异常语句与语法正常语句的比值，也可以是指语法异常语句与文本中所有语句的比值，具体依所需而定。

上述由语法修正确定语法异常语句，并根据语法异常语句的占比，得到所述语法准确性特征的方式并不限于此，例如可以将完整的待测音频数据视为整体，对其中进行细化的分句操作，对每个细分的分句进行语法修正，并且一旦执行过语法修正，则定义该分句为语法异常语句，最后统计所有经历语法修正的分句的占比，得到语法准确性特征，对此不作过多赘述。

还需补充的是，除了本发明提出上述特定的语义特征，在其他实施例中，还可以涵盖其他的语义特征，例如根据不同的应用场景，参与音频质量评测的语义特征还可以包括方言特征、非相同语种特征(如一段中文语音中无规律地夹杂了英文词汇的情况)以及口语特征等，以口语特征为例，在朗读或者正式场合的演讲场景中，音频数据中包含过多口语成分，如语气词、辅助词等，往往也会带来较差的“听感”体验。在对口语特征提取时，可使用现有的基于双向LSTM模型的顺滑技术，先对识别文本进行文本顺滑，再将具有口语属性的单词进行标记，最后如前文方式，计算口语单词总数的占比，以此作为口语特征。其他语义特征的获取同样可以借鉴现有技术或前文内容，本发明不再赘述。

基于上述方法实施例及其优选方案，相应地，本发明还提供了一种音频质量综合评测系统的实施例，如图6所示，可以包括如下部件：

接收模块1，用于接收待测音频数据；

识别模块2，用于对所述待测音频数据进行语音识别，得到识别文本；

评测特征获取模块3，用于分别从所述待测音频数据和所述识别文本获取质量评测特征，所述质量评测特征包括声学特征和语义特征；

评测模块4，用于利用所述质量评测特征以及预先训练的音频质量评测模型，对所述待测音频数据进行评价，得到音频质量评测结果。

进一步地，所述评测特征获取模块具体包括：

进一步地，

所述流畅度特征获取子单元具体包括：

窗口设定组件，用于设置固定时长的抽样窗口；

所述完整性特征获取子单元具体包括：

进一步地，所述语义特征获取单元具体包括语义置信度特征获取子单元和/或语法准确性特征获取子单元；

进一步地，

所述语义置信度特征获取子单元具体包括：

所述语法准确性特征子单元具体包括：

进一步地，所述系统还包括：训练样本评分模块，用于对所述音频质量评测模型的音频训练样本的音频质量，按预设的主观分级标准进行评测。

虽然上述系统实施例及优选方案的工作方式以及技术原理皆记载于前文，但仍需指出的是，本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，也可以把它们分成多个子模块或子单元或子组件予以实施。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种音频质量综合评测方法，其特征在于，包括：

接收待测音频数据；

对所述待测音频数据进行语音识别，得到识别文本；

2.根据权利要求1所述的音频质量综合评测方法，其特征在于，

3.根据权利要求2所述的音频质量综合评测方法，其特征在于，

从所述待测音频数据中获取所述流畅度特征的方法为：

从所述待测音频数据中获取所述完整性特征的方法为：

4.根据权利要求3所述的音频质量综合评测方法，其特征在于，

设置固定时长的抽样窗口；

将所述异常窗口的数量占比作为所述流畅度特征；

获取所述待测音频数据中的各静音段的持续时长；

将所有异常静音段的持续时长累加，得到异常静音总时长；

将异常静音总时长的占比作为所述完整性特征。

5.根据权利要求2所述的音频质量综合评测方法，其特征在于，

从所述识别文本中获取所述语义置信度特征的方法为：

根据所述识别文本的单词置信度计算语句置信度；

根据语句置信度计算所述识别文本的语义置信度特征；

从所述识别文本中获取所述语法准确性特征的方法为：

根据语法异常语句的占比，得到所述语法准确性特征。

6.根据权利要求5所述的音频质量综合评测方法，其特征在于，

从所述识别文本中获取所述语义置信度特征的方法具体为：

从所述识别文本中获取所述语法准确性特征的方法具体为：

计算所述字符串编辑距离与相应语句的句子长度的比值；

将所述语法异常语句的数量占比作为所述语法准确性特征。

7.根据权利要求1～6任一项所述的音频质量综合评测方法，其特征在于，所述音频质量评测模型的训练方式包括：对所述音频质量评测模型的音频训练样本的音频质量，按预设的主观分级标准进行评测。

8.一种音频质量综合评测系统，其特征在于，包括：

接收模块，用于接收待测音频数据；

9.根据权利要求8所述的音频质量综合评测系统，其特征在于，所述评测特征获取模块具体包括：

10.根据权利要求9所述的音频质量综合评测系统，其特征在于，

11.根据权利要求10所述的音频质量综合评测系统，其特征在于，

所述流畅度特征获取子单元具体包括：

窗口设定组件，用于设置固定时长的抽样窗口；

所述完整性特征获取子单元具体包括：

12.根据权利要求9所述的音频质量综合评测系统，其特征在于，所述语义特征获取单元具体包括语义置信度特征获取子单元和/或语法准确性特征获取子单元；

13.根据权利要求12所述的音频质量综合评测系统，其特征在于，

所述语义置信度特征获取子单元具体包括：

所述语法准确性特征子单元具体包括：

14.根据权利要求8～13任一项所述的音频质量综合评测系统，其特征在于，所述系统还包括：训练样本评分模块，用于对所述音频质量评测模型的音频训练样本的音频质量，按预设的主观分级标准进行评测。