CN115798518B

CN115798518B - 一种模型训练方法、装置、设备及介质

Info

Publication number: CN115798518B
Application number: CN202310010839.2A
Authority: CN
Inventors: 刘秋男; 黄飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-07
Anticipated expiration: 2043-01-05
Also published as: CN115798518A

Abstract

本申请实施例提供了一种模型训练方法、装置、设备及介质，其中的方法包括：获取样本音频及评测对象的对象信息；利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征，并利用音频质量评测模型对评测对象的对象标识进行转换处理，得到评测对象的对象嵌入特征；将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征；采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练。

Description

一种模型训练方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，具体涉及机器学习领域，尤其涉及一种模型训练方法、装置、设备及介质。

背景技术

在各种音频场景中，音频质量是音频性能评估的一项重要指标。例如，通过互联网进行语音通话场景中，如果通话者通过人耳听到的语音会话质量较好（如人声清晰），那么确定该语音通话性能较好。

目前，支持通过人耳听取音频实现音频质量评估，但此评估方法需要花费大量的人力，且评估结果受到人耳的主观因素影响较大。还支持采用评估指标对音频实现音频质量评估，但不同指标的评估性能参差不齐，很多时候无法为待检测音频选择相适配的评估指标。

发明内容

本申请实施例提供一种模型训练方法、装置、设备及介质，能够利用已知质量的非配对样本音频训练得到音频质量评测模型，以通过该音频质量评测模型实现对语音质量的评估。

一方面，本申请实施例提供了一种模型训练方法，该方法包括：

获取样本音频及评测对象的对象信息，评测对象是指对样本音频的语音质量进行评测的对象；对象信息包含评测对象的对象标识，及评测对象对样本音频的语音质量进行评测所得到的评测结果；

利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征，并利用频质量评测模型对评测对象的对象标识进行转换处理，得到评测对象的对象嵌入特征；

将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征，融合特征兼具样本音频的音频特性及评测对象的对象特性；

采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练；训练好的音频质量评测模型用于对音频的语音质量进行预测。

另一方面，本申请实施例提供了一种模型训练装置，该装置包括：

获取单元，用于获取样本音频及评测对象的对象信息，评测对象是指对样本音频的语音质量进行评测的对象；对象信息包含评测对象的对象标识，及评测对象对样本音频的语音质量进行评测所得到的评测结果；

处理单元，用于利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征，并利用音频质量评测模型对评测对象的对象标识进行转换处理，得到评测对象的对象嵌入特征；

处理单元，还用于将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征，融合特征兼具样本音频的音频特性及评测对象的对象特性；

处理单元，还用于采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练；训练好的音频质量评测模型用于对音频的语音质量进行预测。

在一种实现方式中，处理单元，用于利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征时，具体用于：

对样本音频进行音频划分处理，得到样本音频对应的多个音频片段；

利用音频质量评测模型对多个音频片段中每个音频片段进行编码，得到每个音频片段的帧级别序列特征，音频片段的帧级别序列特征用于反映相应音频片段所包含的各音频帧的帧特性；

基于每个音频片段的帧级别序列特征，构建样本音频的音频序列特征；音频序列特征中各帧级别序列特征，按照相应音频片段在样本音频中的播放时间排序，音频序列特征用于反映样本音频中各音频帧的帧特性。

在一种实现方式中，样本音频中包含多个采样点，处理单元，用于对样本音频进行音频划分处理，得到样本音频对应的多个音频片段时，具体用于：

获取音频划分步长和音频划分长度；音频划分步长用于定义划分的两个相邻音频片段之间的间隔长度，音频划分长度用于定义划分的音频片段所包含的采样点数量；

按照音频划分步长和音频划分长度，对样本音频进行音频划分处理，得到样本音频对应的多个音频片段。

在一种实现方式中，音频序列特征中包含每个音频片段的帧级别序列特征；处理单元，用于将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征时，具体用于：

将对象嵌入特征与每个音频片段的帧级别序列特征进行融合，得到每个音频片段的融合片段特征；

按照各音频片段的播放时间顺序，将每个音频片段的融合片段特征进行排序，得到样本音频的融合特征。

在一种实现方式中，每个音频片段的帧级别序列特征中包含相应音频片段所包含的各音频帧的帧级别特征；样本音频对应的任一音频片段表示为目标音频片段；

处理单元，用于将对象嵌入特征与每个音频片段的帧级别序列特征进行融合，得到每个音频片段的融合片段特征时，具体用于包括：

将对象嵌入特征与目标音频片段所包含各音频帧的帧级别特征融合，得到各音频帧的帧级别融合特征；音频帧的帧级别融合特征兼具相应音频帧的帧特性及评测对象的对象特性；

基于各音频帧的帧级别融合特征，构建目标音频片段的融合片段特征。

在一种实现方式中，处理单元，用于采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练时，具体用于：

利用音频质量评测模型基于音频序列特征和融合特征，对样本音频进行质量预测处理，得到样本音频的目标预测结果；

基于目标预测结果和评测结果之间的差异，确定音频质量评测模型的损失信息，并按照减小损失信息的方向，对音频质量评测模型的模型参数进行训练。

在一种实现方式中，处理单元，用于利用音频质量评测模型基于音频序列特征和融合特征，对样本音频进行质量预测处理，得到样本音频的目标预测结果时，具体用于：

使用音频质量评测模型基于音频序列特征，对样本音频进行质量预测处理，得到述样本音频的第一质量预测结果；

使用音频质量评测模型基于融合特征，对样本音频进行质量预测处理，得到样本音频的第二质量预测结果；

结合第一质量预测结果和第二质量预测结果，确定样本音频的目标预测结果。

在一种实现方式中，音频序列特征中包含每个音频片段的帧级别序列特征，处理单元，用于使用音频质量评测模型基于音频序列特征，对样本音频进行质量预测处理，得到样本音频的第一质量预测结果时，具体用于：

使用音频质量评测模型对每个音频片段的帧级别序列特征进行特征转换处理，得到每个音频片段的段级别特征；

基于每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到每个音频片段的段质量预测结果；

对样本音频所包含的多个音频片段的段质量预测结果进行目标预测运算，得到样本音频的第一质量预测结果。

在一种实现方式中，目标预测运算为平均运算，处理单元，用于基于每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到每个音频片段的段质量预测结果时，具体用于：

按照范围裁剪规则基于每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到每个音频片段的段质量预测结果；

其中，每个音频片段的段质量预测结果的取值范围，位于范围裁剪规则所指示的取值范围内。

在一种实现方式中，处理单元，用于基于目标预测结果和评测结果之间的差异，确定音频质量评测模型的损失信息时，具体用于：

获取音频质量评测模型的目标函数；

将目标预测结果和评测结果，作为目标函数的输入信息，得到音频质量评测模型的损失信息；

其中，目标函数是基于均方差损失函数，对训练标签分布进行统计转换所得到的，训练标签分布是指多个评测对象对各样本音频的评测结果分布；目标函数中包含均方差损失函数和样本平衡函数；其中，在训练标签分布是均衡分布的情况下，目标函数中只包含均方差损失函数；在训练标签分布是未均衡分布的情况下，目标函数用于解决样本不均衡所导致的音频质量评测模型的泛化性问题。

在一种实现方式中，评测对象的数量为K，K为大于1的整数；在目标预测运算为平均运算时，评测结果包括K个评测对象对样本音频的语音质量评测所得的K个子评测结果的平均结果；处理单元，用于将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征；采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练时，具体用于：

将每个评测对象的对象嵌入特征，分别添加至样本音频的音频序列特征中，得到K个融合特征；

采用评测结果，音频序列特征和K个融合特征，对音频质量评测模型进行训练。

在一种实现方式中，处理单元，还用于：

获取待评测的目标音频；

调用训练好的音频质量评测模型对目标音频进行质量预测处理，得到目标音频的音频评测结果，音频评测结果用于表征目标音频的语音质量。

另一方面，本申请实施例提供了一种计算机设备，该设备包括：

处理器，用于加载并执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，实现上述模型训练方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述模型训练方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，计算机指令被处理器执行时实现上述的模型训练方法。

本申请实施例中，支持获取样本音频和评测对象的对象信息（包含对象信息和评测结果），该评测对象是指通过人耳对样本音频的语音音频进行评测对象；然后，利用音频质量评测模型分别对样本音频和对象信息所包含的对象标识进行特征提取处理，得到样本音频的音频序列特征，和评测对象的对象嵌入特征；进一步的，将对象嵌入特征添加至样本音频的音频序列特征中，以得到兼具样本音频的音频特性的音频特征和评测对象的对象特征的融合特征；最后，这样基于该融合特征，音频序列特征和评测结果，训练得到音频质量评测模型。由上述方案可知，一方面，本申请实施例只依赖于已知人耳评测结果的样本音频就可以实现对音频质量评测模型的训练，相比于客观语音质量评估方法依赖于相匹配的待评测音频和干净音频进行模型训练而言，可以克服干净音频难以获取的缺陷，实现采用模型进行音频质量预测的效果。另一方面，本申请实施例在模型训练时引入了评测样本音频的语音质量的评测对象的对象信息；例如将评测对象的对象嵌入特征添加至样本音频的音频序列特征中，这使得用于训练模型的融合特征兼具了样本音频和评测对象的特性；再如采用评测对象对样本音频的语音质量的评测结果进行模型训练，帮助模型能够模拟人耳对样本音频的语音质量的打分效果，从而确保训练得到的音频质量评测模型能够很好地拟合人耳对音频的主观评判情况，确保音频质量评测模型的评测准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请一个示例性实施例提供的一种语音质量评测系统的架构示意图；

图1b是本申请一个示例性实施例提供的另一种语音质量评测系统的架构示意图；

图2是本申请一个示例性实施例提供的一种模型训练方法的流程示意图；

图3是本申请一个示例性实施例提供的一种音频质量评测模型的结构示意图；

图4是本申请一个示例性实施例提供的一种特征提取处理的流程示意图；

图5是本申请一个示例性实施例提供的一种音频划分的示意图；

图6是本申请一个示例性实施例提供的一种质量预测处理的流程示意图；

图7是本申请一个示例性实施例提供的一种模型训练的流程示意图；

图8是本申请一个示例性实施例提供的另一种模型训练方法的流程示意图；

图9是本申请一个示例性实施例提供的一种模型训练装置的结构示意图；

图10是本申请一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，提供了模型训练方案，具体涉及音频质量评测模型的模型训练和模型应用。下面对本申请实施例提供的模型训练方案所涉及的技术术语和相关概念进行简单介绍，其中：

（1）人工智能（Artificial Intelligence，AI）。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的模型训练方案，主要涉及人工智能下的语音处理技术和机器学习等方向。其中，语音处理技术(Speech Technology)的关键技术有自动语音识别技术（Automatic Speech Recognition，ASR）和语音合成技术（Text To Speech，TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习及元学习等技术。

（2）音频。

音频可以是指人耳能够听到的一定声音频率范围（如在20赫兹~20千赫兹）的声波；音频涵盖了所有人耳可感知的信号，包括人声，音乐，噪声，鸣笛声或机床声等等。例如，使用通信设备进行通话场景中涉及会话音频，再如使用智能设备观看直播时涉及直播音频，等等；本申请实施例对音频的具体类型不作限定。在实际应用中往往会对音频进行语音处理（如编解码压缩处理，噪声去除或声音增强等），以便于在传输或存储音频场景中确保音频的语音质量（如通话语音（或音乐）中人声的清晰度）。由此可见，对音频进行语音处理的目的是为了确保音频的语音质量，让人听取音频时能够感受到较好的听觉效果；因此，如何准确地实现音频的语音质量评估，对提高音频的语音质量有着重要的指导作用。

其中，语音质量评估是指评估人耳听取音频的感受情况；人耳对音频的感受情况一般可以从清晰度，可懂度和自然度等维度进行判断。其中，清晰度可以是指音频（如语音）中语言单元（如单个汉字或单词）的清晰程度（如发音的准确性）；可懂度可以是指音频中连贯的语言单元的可辨认程度，如连贯的语音单元所表达的含义是否清楚等；自然度可以理解为音频的保真程度，如该音频为某个对象产生的真实性。语音质量评估的方法可以大致区分为主观评价和客观评价。其中，主观评价是以人为主体，在某种预设原则的基础上对语音的质量作出的主观的等级意见或者作出某种比较成果，它反映的是试听者（即听取音频的用户）对语音质量好坏的主观印象；换句话说，主观评价是人凭借听觉感受对音频（或语音）的语音质量进行打分，实现对该音频的语音质量的评估的。客观评价主要是使用算法代替人打分的工作，通过算法来评测音频的语音质量。

由前述描述可知，音频的听取对象是人，即为音频的语音质量打分的是人本身，如果能够模拟人耳对音频的语音质量的评判情况来对音频的语音质量进行打分，将会较大地提高音频的语音质量的评估准确性。因此，本申请实施例提供的模型训练方案主要涉及语音质量评估的主观评价方向；具体地，本申请实施例支持通过机器学习实现对音频的语音质量的主观评价。考虑到客观语音质量评估方法依赖于相匹配的待评测音频（如噪声音频）和干净音频（或称为参考音频，如噪声音频对应的无噪声音频），而在现实场景中干净音频是不易获取的；因此语音质量评估时需要匹配的干净音频这一条件，在一定程度上限制了有参考评价（intrusive method）在语音质量评估方面的使用；其中，有参考评价是指将原始音频与失真音频在每一个对应音频帧中的每一个对应像素之间进行比较，反应的是失真音频相对于原始音频的相似程度或保真程度。与有参考评价相对应的是无参考评价（non-intrusive method），无参考评价是指不需要原始音频，而是根据制定的标准如ITU-TP.862（Perceptual evaluation of speech quality，PESQ）指标等，对语音质量进行评估；然而，标准指标（如语音质量评估指标PESQ）是不可导的，因此无法将其作为训练目标函数进行机器学习；且基于相匹配音频（即包含原始音频和干净音频）的标准指标等训练出来的网络模型具有泛化能力无法保证等问题，因此这也限制了无参考评价的机器学习方法的使用。

本申请实施例提出一种模型训练方案，该方案无需依赖待评测音频的参考音频（即与该待评测音频相匹配的干净音频），只需基于已知语音质量（如通过评测对象主动试听音频，以为该音频打分得到该音频的主观评测结果）的单个音频就能提供基于AI的音频质量评测模型（或称为语音质量评估模型）。就是说，本申请实施例提供一种基于人工智能的无参考语音质量评测方案，通过该语音质量评测方案构建的音频质量评测模型，能够模拟人耳对任意音频（或音频信号）进行语音质量评估，得到该任意音频的主观质量评测结果。

具体实现中，本申请实施例提供的模型训练方案的大致流程可以包括：获取用于模型训练的样本音频和评测对象的对象信息，该评测对象是对样本音频的语音质量进行评测对象；然后，利用待训练的音频质量评测模型分别对样本音频和对象信息包含的对象标识进行特征提取处理，以得到样本音频的音频序列特征和评测对象的对象嵌入特征；进一步的，支持将对象嵌入特征添加至音频序列特征中，得到兼具了样本音频的音频特性和评测对象的对象特性的融合特征；最后支持基于该融合特征，音频序列特征和对象信息所包含的评测结果，对音频质量评测模型进行训练，得到训练好的音频质量评测模型。进一步的，在训练好音频质量评测模型后，支持采用该训练好的音频质量评测模型对任意的目标音频（如任一待评测的音频）进行语音质量评估，实现了通过网络预测目标音频的语音质量的目标。

由此可见，本申请实施例不需要采用相匹配的样本音频和干净音频，只需采用已知语音质量（即具有评测结果）的样本音频就可以实现机器学习，克服了有参考评价的机器学习需要获取干净音频的缺陷，使得通过机器学习实现语音质量评估产品能够落地。并且，支持基于兼具音频特性和对象特性的融合特征实现模型训练，使得训练好的音频质量评测模型能够很好地拟合人耳的听觉效果，确保音频质量评测模型的评测性能。

为便于理解本申请实施例提供的模型训练方案，下面结合图1a所示的语音质量评测系统，对本申请实施例涉及的语音质量评测场景进行简单介绍；如图1a所示，该语音质量评测系统中包含终端101、终端102和服务器102，本申请实施例对终端101、终端102和服务器102的数量和命名不作限定。

其中，终端101可以是指模型训练对象所使用的终端设备，模型训练对象通过该终端101启动对音频质量评测模型的训练。终端102可以是指具有语音质量评测需求的任一对象所使用的终端设备。终端（如终端101或终端102）可以包括但不限于：智能手机（如部署安卓（Android）系统的智能手机，或部署互联网操作系统（Internetworking OperatingSystem，IOS）的智能手机）、平板电脑、便携式个人计算机、移动互联网设备（MobileInternet Devices，MID）、车载设备、头戴设备等终端设备，本申请实施例并不对终端设备的类型进行限定，在此说明。

服务器103是终端对应的服务器，用于与终端进行数据交互以实现为终端提供计算和应用服务支持。服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器103之间可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

具体实现中，模型训练对象可以通过终端101启动对音频质量评测模型的训练，具体是通过终端101将样本数据集合输入至服务器103中，并且由该服务器103基于样本数据集合，实现对音频质量评测模型的模型训练。其中，样本数据集合中包含样本音频和评测对象的对象信息，该评测对象是指对样本音频的语音质量进行评测的对象。在实际模型训练过程中，样本音频的数量和评测对象的数量往往不止一个；此实现方式下，样本数据集合中包含有多个样本音频以及多个评测对象的对象信息，每个评测对象的对象信息中包含相应评测对象的对象标识和对每个样本音频的评测结果；这样可以通过迭代训练的方式对音频质量评测模型进行迭代训练，以确保音频质量评测模型的语音质量评测性能。

进一步的，训练好的音频质量评测模型可以直接部署于服务器103中，这样目标对象（如任一对象）在具有语音质量评测需求时，可以将获取到的目标音频，通过其使用的终端102将待评测的目标音频发送至部署有训练好的音频质量评测模型的服务器103中。这样服务器103采用训练好的音频质量评测模型对目标音频进行语音质量的质量预测处理，得到目标音频的音频评测结果，该音频评测结果用于表征目标音频的语音质量，如目标音频的清晰度或可懂度等。然后，服务器103可以将目标音频的音频评测结果返回至终端102，以便于目标对象能够获取到目标音频的准确地语音质量评测结果。

当然，训练好的音频质量评测模型还可以部署于终端102中，这样目标对象在具有针对目标音频的语音质量评测需求时，可以直接采用终端102中部署的音频质量评测模型对该目标音频进行语音质量评估。具体地，训练好的音频质量评测模型可以以插件或应用程序的形式部署于终端102中；例如，训练好的音频质量评测模型以系统级的插件部署在终端102中，那么终端102中部署的任一应用程序可以调用该插件实现针对相应应用程序中的音频的语音质量评测；再如，训练好的音频质量评测模型部署于某个应用程序中，那么通过终端102启动该某个应用程序后，可在该某个应用程序中调用训练好的音频质量评测模型对该某个应用程序中的音频进行语音质量评测。其中，应用程序可是指为完成某项或多项特定工作的计算机程序；按照不同维度（如应用程序的运行方式、功能等）对应用程序进行归类，可得到同一应用程序在不同维度下的类型。例如：按照应用程序的运行方式分类，应用程序可包括但不限于：安装在终端中的客户端、无需下载安装即可使用的小程序（作为客户端的子程序）、通过浏览器打开的web（World Wide Web，全球广域网）应用程序等等。再如：按照应用程序的功能类型分类，应用程序可包括但不限于：IM（Instant Messaging，即时通信）应用程序、内容交互应用程序等等。其中，即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序，即时通信应用程序可以包括但不限于：包含通信功能的社交应用程序、包含社交交互功能的地图应用程序、游戏应用程序等等。内容交互应用程序是指能够实现内容交互的应用程序，例如可以是网银、分享平台、个人空间、新闻等应用程序。本申请实施例对终端102中运行的，部署有训练好的音频质量评测模型的应用程序的具体类型不作限定，在此说明。

需要说明的是，上述图1a只是本申请实施例提供的示例性的语音质量评测系统的架构示意图；在实际应用中该架构可以发生适应性变化，正如前述所描述的，训练好的音频质量评测模型还可以部署于具有语音质量评测需求的终端102中，此时语音质量评测系统的示例性架构示意图可以参见图1b。另外，本申请实施例运用到具体产品或技术中时，如获取目标对象待评测的目标音频时，需要获得目标对象的许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

基于上述描述的模型训练方案，本申请实施例提出更为详细的模型训练方法，下面将结合附图对本申请实施例提出的模型训练方法进行详细介绍。

图2示出了本申请一个示例性实施例提供的一种模型方法的流程示意图；图2所示的模型训练方法流程主要是关于音频质量评测模型的模型训练的流程，该模型训练方法可以由计算机设备来执行，该模型训练方法可包括但不限于步骤S201-S204：

S201：获取样本音频及评测对象的对象信息。

样本音频是用于对音频质量评测模型进行训练的音频，该样本音频可以包括但是不限于：通话音频、直播音频、视频音频或听书音频等等。评测对象是指对样本音频的语音质量进行评测的对象。下面对样本音频和评测对象进行详细介绍，其中：

（1）样本音频属于样本数据集合；也就是说，该样本数据集合中可以包括多个样本音频。样本数据集合中的样本音频具有随机性，样本音频的随机性体现在该样本音频的来源或获取途径上；换句话说，本申请实施例并不限制用于模型训练的样本音频的来源，即样本音频可以是随机获取的，这使得每个样本音频的类型可以是不同或相同的，如样本音频1是从直播应用程序中随机选取直播视频下载的，那么该样本音频1的类型为直播音频，同理，如样本音频2是从通话过程中随机截取的，那么该样本音频2的类型为通话音频等。这样采用不同来源的样本音频对音频质量评测模型进行模型训练，使得训练好的音频质量评测模型对多种类型的音频均具有较好的预测性能，确保音频质量评测模型的鲁棒性。在实际模型训练过程中，每一轮模型训练可以从样本数据集合中选取一个样本音频进行模型训练，并在训练后的音频质量评测模型的性能未稳定的情况下，继续从样本数据集合中选取其他样本音频，对上一轮训练后的音频质量评测模型进行迭代训练，直至得到训练好的音频质量评测模型或者样本数据集合中的样本音频均被选取进行模型训练。例如，数据样本集合中可以包括20000（或其他数值）个样本音频，这样可以对音频质量评测模型进行至少20000次迭代训练。通过针对音频质量评测模型的多洗迭代训练，能够确保音频质量评测模块每次迭代训练都能朝着性能较优的方向调整，从而确保训练好的音频质量评测模块的质量预测性能。

正如前述所描述的，样本数据集合中的样本音频是随机获取的；下面给出几种示例性的样本音频的获取途径：①样本数据集合中的样本音频可以是从网络公开的音频数据中下载得到。②样本数据集合中的部分样本音频可以是对样本音频进行数据增强得到的，这样可以缓解样本音频数量不足的问题，提升模型鲁棒性；如从互联网中下载得到第一样本音频，那么可以对该第一样本音频进行数据增强，得到第二样本音频，这样该第一样本音频和第二样本音频均可以作为样本音频添加至样本数据集合中。其中，针对第一样本音频的数据增强可以包括但是不限于：增加噪音、增加混响、时移、Pitch shifting和Timestretching等，本申请实施例对数据增强的具体实施方式不作限定。③样本数据集合中的部分样本音频（或全部样本音频）可以是对样本音频进行编码压缩得到的，这样采用编码压缩后的样本音频对音频质量评测模型进行训练后，可以使得训练好的音频质量评测模型能够更好地预测编码压缩后的目标音频的语音质量，从而根据语音质量评测结果更好地对目标音频的压缩编码进行优化，进而从整体上提升音频传输质量。

（2）评测对象可以称为试听者，试听者往往需要经过专业的主观听音培训。这样，经过专业培训的试听者在较为安静的听音室（如环境噪声满足一定条件的室内环境）听取样本音频时，才能够为样本音频的语音质量进行主观打分，以获得该样本音频较为准确地语音质量打分结果，进而通过准确地语音质量打分结果对音频质量评测模型进行训练后，训练好的音频质量评测模型也能实现对目标音频的语音质量的准确评测。如前述描述可知，样本音频是属于样本数据集合的，该样本数据集合中包含多个样本音频，那么本申请实施例支持采用相同或不同的评测对象对不同样本音频进行主观打分，对此不作限定。

评测对象的对象信息可以包含评测对象的对象标识，及评测对象对样本音频的语音质量进行评测所得到的评测结果。其中，评测对象的对象标识可以是用来唯一标志该评测对象的标识，如该对象标识可以包括但是不限于对象昵称、对象ID，对象编号或对象联系方式（如手机号码等）等。

根据主观评测策略不同，评测对象对样本音频的语音质量的评测方式和评测结果可能有所不同；主观评测策略可以包括但不限于：平均意见分（Mean Opinion Score，MOS），失真平均意见分（Degradation Mean Opinion Score，DMOS）或汉字清晰度测试等。其中，平均意见分是由多个评测对象对同一样本音频的综合语音质量进行试听，并对该样本音频的语音质量进行打分（如分值范围为1~5分）；再平均所有评测对象的打分分值，将平均分值作为该样本音频的平均意见得分；平均意见得分不需要评测对象对样本音频匹配的参考音频（或称为干净音频）进行试听，只需对样本音频（如失真视频）进行试听即可作为评价。失真平均意见分与上述提及的平均意见分的评测方法不同的是，其在对失真音频进行主观打分之前，需要先熟悉与该失真音频匹配的原始音频，再将该失真音频和原始音频的差别按照一定原则进行描述。汉字清晰度测试则是侧重于对样本音频所包含的汉字清晰度进行主观评测，即评测对象在听取样本音频时主要是按照汉字的清晰程度这一维度来实现对该样本音频的主观打分。本申请实施例对具体采用哪种主观评测策略来实现对样本音频的主观打分不作限定，为便于阐述后续实施例以主观评测策略为平均意见分为例进行阐述，特在此说明。

S202：利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征，并利用音频质量评测特征对评测对象的对象标识进行转换处理，得到评测对象的对象嵌入特征。

本申请实施例提供的音频质量评测模型的一种示例性模型结构的示意图可以参见图3；如图3所示，该音频质量评测模型所包含的模块可以大致分为特征提取模块和质量评测模块。其中：①特征提取模块用于实现特征提取处理，得到用于表征属性的特征（或称为特征表示）。在本申请实施例中，特征提取模块可以包括分段编码模块和可训练嵌入表；其中，分段编码模块可以用于对样本音频进行特征提取处理，而可训练嵌入表可以用于对评测对象的对象标识进行特征提取处理。②质量评测模块用于实现针对样本音频的质量预测的相关处理。在本申请实施例中，质量评测模块可以包括注意力池化模块，范围裁剪模块，偏置网络和平均模块。注意力池化模块用于对特征提取模块输入的特征表示进行质量预测处理，从而得到样本音频的目标预测结果。范围裁剪模块是用于将目标预测结果的分值限定在固定范围内，以确保预测结果属于合理分值范围。偏置网络用于将未携带对象信息时样本音频的第一质量预测结果，和携带对象信息时样本音频的第二质量预测结果进行融合（具体是相加），得到样本音频的最终得分。在音频质量评测模型中可以包括多个平均模块；其中，不同模型训练阶段的评价模块的功能不同；例如，确定第一质量预测结果和第二质量预测结果的模型训练阶段，平均模块用于将样本音频对应的多段音频片段的片段分值进行平均运算，以将平均运算结果作为整个样本音频的预测结果（如第一质量预测结果或第二质量预测结果）；再如，在评测对象的数量为多个的场景中，在得到携带不同对象信息的样本音频的多个预测结果的模型训练阶段，平均模块用于将样本音频的多个预测结果进行平均运算，以得到样本音频的最终得分。由上述对质量评测模块所包含的各模块功能的简单介绍可知，范围裁剪模块，偏置网络和平均模块的功能其实是包含于注意力池化模块的，即注意力池化模块，范围裁剪模块，偏置网络和平均模块可以是同一模块，本申请实施例对质量评测模块所包含的模块数量和种类不作限定。

上述只是结合图3给出本申请实施例提供的音频质量评测模块的结构示意图，后续实施例会继续对该音频质量评测模型的具体模型训练过程进行介绍，在此说明。

具体实现中，在基于前述步骤S201获取到样本音频和评测对象的对象信息后，可以将该样本音频和评测对象的对象信息输入至待训练的音频质量评测模型中；此时可以利用该音频质量评测模块首先分别对样本音频和，对象信息所包含的对象标识进行特征提取处理；具体是利用音频质量评测模块所包含的特征提取模块中的分段编码模块，对样本音频进行特征提取处理，以及，利用音频质量评测模块所包含的特征提取模块中的可训练嵌入表，对对象信息所包含的对象标识进行特征提取处理。

下面分别对利用音频质量评测模块对样本音频，和评测对象的对象信息所包含的对象标识的特征提取处理的具体实施过程进行介绍。

在一种实现方式中，利用分段编码模块对样本音频进行特征提取处理，得到样本音频的音频序列特征的具体实施过程可以参见图4，包括但不限于步骤s11-s13；其中：

s11：考虑到音频质量评测模块不便于对整段样本音频进行特征提取处理，如样本音频太长时会降低特征提取效率和准确度，因此支持利用分段编码模块对该样本音频进行音频划分处理，得到样本音频对应的多个音频片段。具体是样本音频中包含多个采样点，如样本音频包含T个采样点，T为大于零的整数，那么可以获取音频划分长度（Long）和音频划分步长（Stride），并按照音频划分长度和音频划分步长，对样本音频进行音频划分处理，得到音频样本对应的多个音频片段。

其中，音频划分步长可以用于定义划分的两个相邻音频片段之间的间隔长度，该间隔长度可以是以时间来定义的（如音频片段1的起始时刻和相邻音频片段2的起始时刻之间的时间长度为2秒），或者是以采样点来定义的（如音频片段1中的第一个采样点和相邻音频片段2中的第一个采样点之间的采样点数量为3个），本申请实施例对间隔长度的定义方式不作限定。音频划分长度可以用于定义划分的音频片段所包含的采样点数量；也就是说，音频划分长度用于规定划分的每个音频片段的片段长度，该片段长度可以是以采样点数量来定义的。

一种示例性的按照音频划分步长和音频划分长度，对样本音频进行音频划分处理，得到样本音频对应的多个音频片段的示意图可以参见图5；如图5所示，假设样本音频表示为x，该样本音频x包含T个采样点，T=10，即，且音频划分步长S=2（如2个采样点），音频划分长度L=3（即3个采样点）；那么按照音频划分步长S和音频划分长度L对该样本音频进行音频划分处理后，可以得到样本音频对应的N个音频片段，N为大于1的整数，在图4示例中N=5。为便于理解，可以将音频划分过程看作是采用了一个长度为L的移动窗口，从样本音频的起始点开始，沿着样本音频的播放时间方向每次移动步长S，直至移动窗口移动至样本音频的终止点位置，截取到N个音频片段。其中，N个音频片段中的任一音频片段可以表示为，；N个音频片段中的第i个音频片段可以用采样点来表示为：；如图4所示的音频片段1可以用采样点来表示为音频片段1=[采样点x1，采样点x2，采样点x3]。

s12：利用音频质量评测模型对多个音频片段中每个音频片段进行编码，具体是利用音频质量评测模型中的分段编码模块对每个音频片段进行编码，得到每个音频片段的帧级别序列特征。

基于上述步骤s11实现将样本音频划分为N个音频片段，每个音频片段是由离散的采样点来表示的；进一步的，可以针对每个音频片段进行编码，此处的编码可以采用卷积层和池化层对音频片段进行特征提取的操作，以提取得到每个音频片段的帧级别序列特征，该帧级别序列特征可以用于反映音频片段所包含的各音频帧的帧特性（或属性）。具体地，假设对音频片段进行编码，那么可以得到该音频片段的帧级别序列特征，该帧级别序列特征可以表示为，其中，M表示音频片段的特征长度，是指帧级别序列表示中的帧级别的特征表示，可以用于表征音频片段所包含的音频帧的帧特性，该具体可以是指第i个音频片段中的第j帧音频帧的帧级别特征，1≤j≤M，且j为整数。d为帧级别的特征表示的向量维度。

s13：基于每个音频片段的帧级别序列特征，构建样本音频的音频序列特征。具体地，基于上述步骤s12得到每个音频片段的帧级别序列特征后，可以基于N个音频片段的帧级别序列特征构建得到整个样本音频的音频序列特征。也就是说，音频质量评测模型（具体是分段编码模型）支持将N个音频片段编码成一段音频序列特征，该音频序列特征可以表示为。由此可见，样本音频的音频序列特征中各帧级别序列特征H，是按照相应音频片段在样本音频中的播放事件排序的，该音频序列特征可以用于反映样本音频中各音频片段的片段特征，而各音频片段的片段特征又是通过所包含音频帧的帧特征反映的，因此音频序列特征可以用于反映样本音频中各音频帧的帧特性。

基于上述步骤s11-s13可以实现采用分段编码模块对样本音频的特征提取处理，使得提取得到可以用于反映该样本音频的属性或特征的音频序列特征，从而有利于根据该音频序列特征继续执行后续操作实现对样本音频的语音质量的预测。

其他实现方式中，评测对象的对象嵌入特征可以是通过嵌入向量（即embedding向量，或简称为embedding）来表示的；embedding向量就是用一个低维度的向量来表示某个物体（在本申请实施例中是评测对象）的特征或属性。任意两个物体的embedding向量之间的距离可以来表征，该任意两个物体之间的相似度；例如：若两个物体的embedding向量之间的距离小于距离阈值，则这两个物体较为相似（如特征或属性相似等），若这两个物体的embedding向量之间的距离大于或等于距离阈值，则这两个物体之间的相似程度较低。

需要说明的是，本申请实施例并不限定利用可训练嵌入表生成评测对象的对象嵌入特征的具体实施过程。例如，可训练嵌入表可以设计成包含隐含层的神经网络，通过该神经网络实现对评测对象的对象标识的特征提取处理，得到评测对象的对象嵌入特征；此实现方式下，该可训练嵌入表是一个可以进行迭代训练得到的网络结构，通过多次迭代训练确保可训练嵌入表的特征提取性能，从而有利于后续根据准确的对象嵌入表示实现对音频质量评测模型的训练。其中，可训练嵌入表的训练具体可以包括：可选的，在预训练阶段对该可训练嵌入表迭代训练好后，将训练好的可训练嵌入表迁移至本申请实施例提供的模型训练过程中；可选的，在本申请实施例提供的模型训练过程中，通过多目标学习实现对该可训练嵌入表的优化；本申请实施例对可训练嵌入表的具体训练过程不作限定。

综上可知，通过利用音频质量评测模型所包含的分段编码模块，可以实现对样本音频的特征提取处理，得到可以用于表征样本音频的音频特性的音频序列特征；同理，通过利用音频质量评测模型所包含的可训练嵌入表，可以实现对评测对象的对象标识的特征提取处理，得到可以用于表征评测对象的对象特性的对象嵌入表示；这样后续可以基于能够表征相应特性的特征进行模型训练，确保模型训练的准确性。

S203：将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征。

正如前述所描述的，本申请实施例构建的音频质量评测模型支持模拟人耳对音频的评测效果，为更好地提升音频质量评测模型拟合人耳的性能，本申请实施例支持在训练阶段利用单个评测对象对样本音频的评测结果，来提高音频质量评测模型的模型评测表现。具体实现中，支持将基于前述步骤提取到的评测对象的对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征；这样，该融合特征兼具样本音频的音频特性及评测对象的对象特性，使得用于模型训练的融合特征能够携带评测对象的对象嵌入特征，从而基于融合特征训练好的音频质量评测模型能够更好地拟合人耳评测效果。

其中，将评测对象的对象嵌入特征添加至样本音频的音频序列特征的具体实施过程可以包括：将评测对象的对象嵌入特征，与样本音频对应的每个音频判断的帧级别序列特征进行融合，得到每个音频片段的融合片段特征；然后，按照各音频片段的播放时间顺序，将每个音频片段的融合片段特征进行排序，得到样本音频的融合特征，此处的排序具体是按照音频序列特征中原本各帧级别序列特征之间的序列进行排序。

进一步的，以样本音频对应的任一音频片段表示为目标音频片段为例，对评测对象的对象嵌入特征与每个音频片段的帧级别序列特征融合的过程进行介绍：由前述描述可知，每个音频片段的帧级别序列特征中包含相应音频片段所包含的各音频帧的帧级别特征（即h_ij），那么目标音频片段的帧级别序列特征中也包含该目标音频片段所包含的各音频帧的帧级别特征；则支持将对象嵌入特征添加至目标音频片段所包含的各音频帧的帧级别特征中，或描述为将对象嵌入特征与目标音频片段所包含的各音频帧的帧级别特征进行融合，得到各音频帧的帧级别融合特征。其中，每个音频帧的帧级别融合特征兼具相应音频帧的帧特性和评测对象的对象特性。然后，再基于各音频帧的帧级别融合特征，构建目标音频片段的融合片段特征。

S204：采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练。

基于前述步骤S201-S203所示的具体实施过程，可以得到用于表征样本音频本身的音频特性的音频序列特征，还可以得到同时用于表征样本音频的音频特性和评测对象的对象特性的融合特征。基于此，本申请实施例支持使用音频质量评测模型继续基于音频序列特性和融合特征，对样本音频进行质量预测处理，从而得到样本音频的目标预测结果；具体是使用图3所示的音频质量评测模型所包含的质量评测模块，基于音频序列特性和融合特征对样本音频进行质量预测处理，得到样本音频的目标预测结果。然后，按照减小目标预测结果和评测结果之间的差异的方向，对音频质量评测模型的模型参数进行训练；也就是说，本申请实施例支持最小化整段样本音频的预测的目标预测结果，和评测对象对样本音频进行的主观评分的评测结果之间的差异，得到训练好的音频质量评测模型。

其中，使用音频质量评测模型基于音频序列特征和融合特征，对样本音频进行质量预测处理的具体实施过程可以包括：使用音频质量评测模型基于音频序列特征，对样本音频进行质量预测处理，得到样本音频的第一质量预测结果；具体是利用音频质量评测模型所包含的注意力池化模块，范围裁剪模块和平均模型，对样本音频进行质量预测处理，得到样本音频的第一质量预测结果。以及，使用音频质量评测模型基于融合特征，对样本音频进行质量预测处理，得到样本音频的第二质量预测结果；具体是利用音频质量评测模型所包含的注意力池化模块，范围裁剪模块和平均模型，对携带对象信息的样本音频进行质量预测处理，得到样本音频的第二质量预测结果。然后，使用偏置网络来结合第一质量预测结果和第二质量预测结果，确定样本音频的目标预测结果，具体是将第一质量预测结果和第二质量预测结果相加，得到样本音频的目标预测结果。

需要说明的是，本申请实施例使用音频质量评测模型实现质量预测处理的过程是类似的；即基于样本音频的音频序列特征对样本音频进行质量预测处理，得到样本音频的第一质量预测结果，和基于融合特征对样本音频进行质量预测处理，得到样本音频的第二质量预测结果的具体实施过程是类似的。为了提高简洁性，下面以样本音频的音频序列特征为例，对基于音频序列特征对样本音频进行质量预测处理，得到样本音频的第一质量预测结果的具体实施过程进行介绍。

基于音频序列特征对样本音频进行质量预测处理，得到样本音频的第一质量预测结果的过程可以参见图6，包括但不限于步骤s21-s23：

s21：使用音频质量评测模型对每个音频片段的帧级别序列特征进行特征转换处理，得到每个音频片段的段级别特征；具体是使用如图3所示的音频质量评测模型所包含的注意力池化模块对每个音频片段的帧级别序列特征进行特征转换处理，得到每个音频片段的段级别特征。

也就是说，本申请实施例支持采用注意力池化模块将每个音频片段的语音帧级别序列特征转变为语音段级别特征，以便于基于每个音频片段的段级别特征对相应音频片段进行评测，从而基于各音频片段的评测结果确定整个样本音频的目标预测结果；这种先计算各音频片段的评测结果，再基于各音频片段的评测结果确定整个样本音频的目标预测结果的方式，能够实现对样本音频的语音质量更为精细化的评测，从而提高语音质量预测的准确性。

具体地，对于样本音频对应的每个音频片段，注意力池化模块可以依据注意力机制对帧级别序列特征进行编码。其中，注意力机制是模拟人类视觉注意力所产生的，如人眼的视野是比较开阔的，但视野所关注的焦点往往只有一个小范围，即人眼更关注于视野中重要的区域（即感兴趣区域），因此与人类视觉注意力类似的，注意力机制旨在关注任务中重要信息，忽略不重要信息。注意力机制又可以细分为自注意力机制（self-attention）、多头注意力机制（multi-head self-attention）和全局注意力机制（global attention）等。基于注意力机制对帧级别序列特征进行编码具体可以是指将帧级别序列特征归一化处理，归一化处理的公式如下：

(1)

其中，表示第i个音频片段的帧级别序列特征的转换特征，，表示第i个音频片段的段级别序列特征，，d和M为特征维度，，softmax函数为归一化指数函数。

进一步的，基于转换特征得到音频片段的段级别特征，具体是按照如下公式得到音频片段的段级别特征的：

(2)

其中，表示第i个音频片段的转换特征的转置，表示第i个音频片段的段级别特征。

s22：基于每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到每个音频片段的段质量预测结果。

基于前述步骤得到每个音频片段的段级别特征后，本申请实施例支持基于段级别特征对每个音频片段进行质量评测，得到每个段级别特征的段质量预测结果。具体地，支持采用注意力池化模块所包含的函数，来实现音频片段的质量评测，函数可以包括；该函数具体可以由卷积层和池化层等网络结构组成的网络模型，通过该网络模型实现对音频片段的段级别特征的维度进行降维处理，从而将降维后的结果作为该音频片段的段质量预测结果。其中，通过函数得到音频片段的段质量评测结果如下：

(3)

其中，表示第i个音频片段的预测的段质量预测结果。

值得注意的是，由前述描述可知本申请实施例是采用平均意见分（MOS）来实现主观打分的，即在得到多个音频片段的段质量评测结果后，是通过平均运算方式得到整个样本音频的目标预测结果的；但仍然难以避免音频片段中出现异常的段质量预测结果，如某个音频片段的段质量预测结果的分数为负数或者远超合理范围。为减少这种失真情况的发生，本申请实施例支持按照范围裁剪规则基于每个音频片段的段级别特征，对相应音频片段进行质量评测处理，具体是利用音频质量评测模型所包含的范围裁剪模块，来确定每个音频片段的段质量预测结果；通过按照范围裁剪规则去进行质量评测处理，可以确保每个音频片段的段质量评测结果的取值范围，位于范围裁剪规则所指示的取值范围内，从而保证各音频片段的语音质量的预测范围是合理且可靠的。

更为详细地，本申请实施例提供的示例性的范围裁剪规则是采用双曲正切函数来确保段级别打分的固定范围。其中，双曲正切函数是一类与常见的三角函数（也叫圆函数）类似的函数，双曲正切函数是双曲函数的一种，它也是双曲正弦函数（sinh）与双曲余弦函数（cosh）的商；人工智能领域中双曲正切函数是一种常见的激活函数，其取值范围为（-1,1），因此采用双曲正切函数能够确保音频片段的段质量预测结果在一个固定范围。采用双曲正切函数对音频片段进行主观评测时，上述给出的公式（3）变化为如下公式（4）：

(4)

其中，函数为双曲正切函数。由公式（4）可知通过范围裁剪可以确保音频片段的段质量预测结果的分数在1~5范围内，具体是tanh的取值为（-1，1），则的取值范围为（1，5），从而确保音频判断的段质量评测结果的合理性。

s23：对样本音频所包含的多个音频片段的段质量预测结果进行目标预测运算，得到样本音频的第一质量预测结果。

基于上述步骤得到样本音频的每个音频片段的段质量评测结果后，可以对多个音频片段的段质量预测结果进行目标预测运算，在本申请实施例中该目标预测运算为平均运算，即将多个音频片段的段质量预测结果进行平均运算，将平均结果作为整个样本音频的第一质量预测结果；具体是利用音频质量评测模型所包含的平均模型实现上述提及的平均运算的。其中，整个样本音频的第一质量预测结果可以表示为：

(5)

其中，N为样本音频所包含的音频片段的数量，表示N个音频片段的段质量预测结果的平均值（即第一质量预测结果）。

综上可知，通过上述步骤可以实现先计算样本音频所包含的各音频片段的段质量预测结果，再对多个音频片段的段质量预测结果求平均，从而将平均结果作为样本音频的预测的第一质量预测结果；这样可以实现对样本音频的语音质量更为精细化的评测，从而提高语音质量预测的准确性。

需要说明的是，使用音频质量评测模型基于融合特征，对样本音频进行质量预测处理，得到样本音频的第二质量预测结果的具体实施过程，与上述描述步骤s21-s23所示的具体实施过程是类似的，只是代入各公式的特征为融合特征，在此不作赘述；其中，评测对象k的对象嵌入特征和样本音频的音频序列特征融合，所得的融合特征可以表示为f_k。那么本申请实施例使用音频质量评测模型，分别基于音频序列特征和融合特征对样本音频进行质量预测处理，得到第一质量预测结果和第二质量预测结果后，可以得到音频质量评测模型对样本音频的最终评测结果为，第一质量预测结果和第二质量预测结果之和。其中，在评测对象的数量为1的场景中，利用音频质量评测模型所包含的偏置网络，来确定音频质量评测模型的最终得分计算公式为：

(6)

其中，表示基于评测对象k训练的音频质量评测模型的最终得分，表示携带了评测对象k的对象信息的样本音频的第二质量预测结果。

值得注意的是，前述实施例是以评测对象的数量为1个为例进行阐述的；在实际应用中，评测对象的数量为K，K为大于1的整数；此实现方式下，在目标预测运算为平均运算时，评测结果包括K个评测对象对样本音频的语音质量评测所得的K个子评测结果的平均结果。例如，在平均意见分主观测试时，K个评测对象对样本音频的主观打分分别为：，则取这个序列的平均值标记为y，将y作为样本音频的训练标签（真实的主观评分，即评测结果）。在模型训练过程中，引入多个评测对象的对象信息，可以帮助训练音频质量评测模型模仿人耳的主观评分效果，使得训练好的音频质量评测模型具有较好地拟合人耳的评判情况的效果，从而确保音频质量评测模型的评测性能。

进一步的，在评测对象为K的情况下，上述步骤S203-S204所示的具体实施步骤可以具体细化为：将每个评测对象的对象嵌入特征，分别添加至样本音频的音频序列特征中，得到K个融合特征；然后，采用评测结果，音频序列特征和K个融合特征，对音频质量评测模型进行训练。此实现方式下，音频质量评测模型输出的最终得分可以表示为：

(7)

其中，表示K个评测对象时音频质量评测模型的最终得分；K表示评测对象的数量；表示携带K个评测对象中的第k个评测对象的对象信息后，音频质量评测模型的得分，的计算公式如上述公式（6）。

一种示例性的评测对象的数量为K时，模型训练的训练流程可以参见图7；如图7所示，每个评测对象的对象嵌入特征，分别与样本音频的音频序列特征进行融合，得到K个融合特征；并且，利用音频质量评测模型对K个融合特征均进行质量预测处理，得到K个第二质量预测结果；进一步的，将每个第二质量预测结果与第一质量预测结果相加，可以得到K个相加结果；进一步的，对这K个相加结果进行平均运算，并将平均运算结果作为音频质量评测模型的最终输出结果。

在本申请实施例中，一方面，只依赖于已知人耳评测结果的样本音频就可以实现对音频质量评测模型的训练，相比于客观语音质量评估方法依赖于相匹配的待评测音频和干净音频进行模型训练而言，可以克服干净音频难以获取的缺陷，实现采用模型进行音频质量预测的效果。另一方面，本申请实施例在模型训练时引入了评测样本音频的语音质量的评测对象的对象信息；例如将评测对象的对象嵌入特征添加至样本音频的音频序列特征中，这使得用于训练模型的融合特征兼具了样本音频和评测对象的特性；再如采用评测对象对样本音频的语音质量的评测结果进行模型训练，帮助模型能够模拟人耳对样本音频的语音质量的打分效果，从而确保训练得到的音频质量评测模型能够很好地拟合人耳对音频的主观评判情况，确保音频质量评测模型的评测准确性。进一步的，本申请实施例采用机器学习方式构建音频质量评测模型，来模拟真实人耳对语音质量的评测判断，能够克服现有技术中通过大量人力实现语音质量的主观评测的劣势，提高语音质量评测效率的同时，还能确保语音质量评测的正确性。

图8示出了本申请一个示例性实施例提供的一种模型方法的流程示意图；图8所示的模型训练方法流程主要是关于音频质量评测模型的模型训练和模型应用的流程，该模型训练方法可以由计算机设备来执行，该模型训练方法可包括但不限于步骤S801-S806：

S801：获取样本音频及评测对象的对象信息。

S802：利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征，并利用音频质量评测模型对评测对象的对象标识进行转换处理，得到评测对象的对象嵌入特征。

S803：将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征。

S804：采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练。

需要说明的是，步骤S801-S804所示实施例的具体实施过程，可以参见前述图2所示实施例中步骤S201-S204所示的具体实施过程的相关描述，在此不作赘述。

还需说明的是，在获取到样本音频的音频序列特征，融合特征和音频质量评测模型最终输出的目标预测结果后，本申请实施例支持采用目标函数（或称为损失函数）来计算本轮模型训练的损失信息；这样可以根据该损失信息对音频质量评测模型进行训练（或优化），以不断提升音频质量评测模型的评测性能。需要特别说明的是，本申请实施例支持采用样本音频的第一质量预测结果和K个评测对象针对样本音频的真实的评测结果，各音频片段的段质量预测结果和K个评测对象对各音频片段的真实的段质量评测结果，以及基于评测对象预测的样本音频的目标预测结果和基于K个评测对象的对象信息主观评测得到的音频质量评测结果，对音频质量评测模型进行联合训练，以提升音频质量评测模型中不同模型的性能。具体实现中，获取样本音频中各音频片段的段质量评测结果，和样本音频的音频质量评测结果。然后，基于目标预测结果和评测结果之间的差异，确定音频质量评测模型的损失信息；具体是获取音频质量评测模型的目标函数，并将目标预测结果和评测结果作为目标函数的输入信息，得到该音频质量评测模型的损失信息。最后，按照减小损失信息的方向，对音频质量评测模型的模型参数进行训练，得到训练好的音频质量评测模型。

其中，本申请实施例采用均方差损失（Mean Square Error，MSE）函数作为模型训练的目标函数（或称为损失函数）。均方差损失是通过计算预测值和实际值之间距离的平方来衡量模型的优势，即预测值与真实值越接近，两者的均方差就越小。采用均方差损失计算音频质量评测模型的损失信息的公式如下：

(8)

其中，表示音频质量评测模型对样本音频x进行质量预测处理后输出的预测的语音这里，在评测对象为1个评测对象k时，等于前述公式（6）给出的，在评测对象为K个，K大于1时，等于前述公式（7）给出的。y表示评测对象对样本音频进行主观评测的主观打分，在评测对象为多个时，y为多个评测对象的主观打分平均值。

值得注意的是，在训练音频质量评测模型的过程中，若使用均方差损失作为损失函数，且模型训练所使用的训练数据是不均衡数据，则均方差损失会将这种不均衡代入到模型训练中，导致模型在稀有标签场景下表现效果较差。在本申请实施例中，所谓数据不均衡可以包括：样本音频的不均衡，例如：在进行语音质量评估模型的训练时，成年男性和女性的语音语料（样本音频）比较容易获取，但大批量的老人和未成年人语音数据获取难度较大，导致样本音频的来源不均衡；或者，多个评测对象对样本音频的主观打分的不均衡，例如：对样本音频打分范围为1~5分，如果评测对象的主观打分在3分5分的评测对象较多，而1分~2分的评测对象较少时，导致标签分值不均衡。均方差损失作为损失函数时导致模型在稀有标签场景下的表现效果较差的主要原理如下：常规均方差损失函数公式为：

(9)

表示L2正则化，即在原本损失信息的基础上增加所有层所有参数的平方和。表示回归量。最小化MSE等于回归问题中的极大似然估计。

其中，回归量的预测可等价于预测高斯分布的均值：

(10)

代表回归器参数，代表回归器的预测值，代表误差项的均值。优化MSE函数等价于预测分布的负对数似然损失；在模型训练过程中使用MSE函数作为损失函数进行模型训练，相当于学习建模。

在模型训练过程中涉及训练阶段和测试阶段，该训练阶段是对模型进行模型训练以构建模型的阶段，测试阶段是模型构建后采用测试集合（包含测试数据）对模型进行测试的阶段。在实际应用中，模型训练阶段所采用的训练集合，和模型测试阶段所采用的测试集合是来自相同的数据分布，即来自一个总的数据集合。然而，当数据标签分布产生高度偏斜（即前述提及的样本不均衡）时，模型可能通过学习多数的样本数据分布来学习一个简单的解决方案；这样，不平衡回归情况下，可以认为训练集合与测试集合是来自不同的数据标签分布的，如训练集合的数据标签分布和测试集合的数据标签分布。其中，训练集合的数据标签分布是倾斜（即样本分布不均衡）的，而测试集合的数据标签分布是均匀（即样本分布均衡）的。由此可见，相比于以不均衡的数据标签分布作为训练目标，将均衡的数据标签分布作为训练目标，更能在均匀分布的测试集合上有更好的表现。

从样本不均衡的训练标签分布（如长尾训练分布，即小部分类有大量的样本点，而其他类只与少数样本相关）到样本平衡（或均衡，均匀）的测试标签分布的转变，和之间是不匹配的。根据贝叶斯规则，，同时，，即：

(11)

由公式（11）可知，和之间的比率，是与成正比的；这样当少数类标签出现在训练集合中时，和之间的比率较低，因此，使用均方差损失函数进行模型训练会低估少数类数据。

为了避免音频质量评测模型在样本数据不均衡情况下所导致的泛化能力差的问题，本申请实施例支持采用Balanced MSE方法，通过对训练标签分布进行统计转换来恢复，以缓解样本不均衡带来的泛化能力差等问题，使得本申请实施例训练得到的音频质量评测模型能够覆盖到更多的数据场景。其中：①Balanced MSE可以称为平衡均方误差。值得注意的是，在机器学习的理论中存在着一个很重要的假设，即模型训练阶段的训练数据集合和模型测试阶段的测试数据集合需要是同分布的；所谓训练数据集合和测试数据集合同分布可以理解为，两个数据集合所包含的训练数据是服从同一分布的，这能使得在训练数据集合上用模型学习到的规律可以直接应用到测试数据集合上，且达到较好的模型训练效果。而本申请实施例提及的平衡均方误差就是想要解决模型训练过程中，模型训练阶段的训练数据不均衡，但模型测试阶段（或称为模型验证阶段）的训练数据均衡的问题，以实现训练数据集合和测试数据集合的一致性。②训练标签分布是指前述提及的训练集合的数据标签分布，具体可以是指多个评测对象对各样本音频的评测结果分布，或者样本音频所包含的人声来源分布。也就是说，本申请实施例支持基于标准的均方差损失函数，对训练标签分布进行统计转换，以得到本申请实施例提供的音频质量评测模型的目标函数；该目标函数能够克服样本不均衡所带来的模型泛化能力差的缺陷，从而提高训练好的音频质量评测模型的鲁棒性。

具体地，首先使用训练标签分布实现从到的统计转换。其中是不均衡的，是均衡的测试标签分布。可以表示为：

(12)

正如前述所描述的，最小化MSE等于回归问题中的极大似然估计，即支持通过最小化的最大似然函数（Negative Log LikelihoodLoss，NLL Loss）时估计。具体地，使用回归器直接估计所需的，即：

(13)

综上可知，在实际模型训练的过程中，支持先预测，进而使用公式（12）转变为求，进而计算最大似然函数来更新参数。在模型测试的过程中，跳过上述描述的转换，直接输出回归器的预测值即可。

对于回归器的预测值，以及先验训练标签分布，Balanced MSE损失函数（即本申请实施例提供的音频质量评测模型的目标函数）可以定义为：

(14)

由公式（14）可见，目标函数包含两部分，分别为：第一部分等价于标准的均方差损失函数；第二部分是新的平衡项（即样本平衡函数），该样本平衡函数需要计算积分。其中，在训练标签分布是均衡分布的情况下，目标函数中只包含均方差损失函数；当训练标签分布是均匀分布时，标准的MSE损失函数可以看作是Balanced MSE损失函数的一个特例。在训练标签分布是未均衡分布的情况下，目标函数能够或用于解决样本不均衡所导致的音频质量评测模型的泛化性问题。

进一步的，在实际应用时，公式(14)中的积分计算是难以计算的，因此需要针对这部分积分计算提出可行的解决办法。想要对公式(14)中的积分确定一个表达式，主要的挑战在于表示使得积分更加容易处理，此处将表示为高斯混合模型（Gaussian Mixed Model，GMM）。使用高斯混合模型的优点在于两个高斯分布的乘积是一个未归一化的高斯模型，具体地：

(15)

其中，代高斯分布的数量，代表多个高斯分布的权重，均值和方差。两个高斯分布的乘积可以表示为：

(16)

其中，分别代表新的高斯分布的权重，均值和方差。考虑到高斯分布上的积分可以很容易的求解，因此本申请实施例提供的音频质量评测模型的最终的损失函数可以表达为：

(17)

综上可知，在本申请实施例中采用公式（17）给出的损失函数，作为音频质量评测模型的最终损失函数；即采用公式（17）替换前述给出的（8）作为音频质量评测模型的目标函数。

S805：获取待评测的目标音频。

S806：利用训练好的音频质量评测模型对目标音频进行质量预测处理，得到目标音频的音频评测结果。

基于前述步骤S701-S704所示的具体实施过程，可以得到训练好的音频质量评测模型。进一步的，在目标对象（如任一对象）具有对目标音频（如任一待评测的音频）主观评测需求时，目标对象可以将目标音频输入至训练好的音频质量评测模型中，而不需要输入与目标频相对应的干净语音作为参考，这样训练好的音频质量评测模型可以自动对目标音频进行质量预测预测处理，得到该目标音频的音频评测结果，该音频评测结果可以用于表征目标音频的语音质量。

本申请实施例中，一方面，只依赖于已知人耳评测结果的样本音频就可以实现对音频质量评测模型的训练，相比于客观语音质量评估方法依赖于相匹配的待评测音频和干净音频进行模型训练而言，可以克服干净音频难以获取的缺陷，实现采用模型进行音频质量预测的效果。并且，考虑到用于对音频质量评测模型进行模型训练的样本音频的来源具有随机性（如可以是网络下载，通话截取及短视频应用中截取所得到的），这使得样本数据集合所包含的样本数据的类型是丰富且多样的；因此，基于多种类型样本音频训练得到的音频质量评测模型具有较强鲁棒性，能够基于任意给定的目标音频进行主观评测（如MOS评测），即训练好的音频质量评测模型能够对任意的待评测的目标音频进行主观评测；而且，用于对音频质量评测模型进行模型训练的样本数据集合中，无需包含与样本音频配对的干净音频，这使得基于待评测的单个目标音频，也能够利用训练好的语音质量评测模型对该单个目标音频进行语音质量评测，模拟人耳主观评测效果，摆脱需要输入与目标音频相对应的干净音频作为参考的缺陷。另一方面，本申请实施例在模型训练时引入了评测样本音频的语音质量的评测对象的对象信息；例如将评测对象的对象嵌入特征添加至样本音频的音频序列特征中，这使得用于训练模型的融合特征兼具了样本音频和评测对象的特性；再如采用评测对象对样本音频的语音质量的评测结果进行模型训练，帮助模型能够模拟人耳对样本音频的语音质量的打分效果，从而确保训练得到的音频质量评测模型能够很好地拟合人耳对音频的主观评判情况，确保音频质量评测模型的评测准确性。进一步的，本申请实施例采用机器学习方式构建音频质量评测模型，来模拟真实人耳对语音质量的评测判断，能够克服现有技术中通过大量人力实现语音质量的主观评测的劣势，提高语音质量评测效率的同时，还能确保语音质量评测的正确性。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方法，相应地，下面提供了本申请实施例的装置。

图9示出了本申请一个示例性实施例提供的一种模型训练装置的结构示意图，该模型训练装置可以是运行于计算机设备中的一个计算机程序（包括程序代码）；该模型训练装置可以用于执行图2及图8所示的方法实施例中的部分或全部步骤；该装置包括如下单元：

获取单元901，用于获取样本音频及评测对象的对象信息，评测对象是指对样本音频的语音质量进行评测的对象；对象信息包含评测对象的对象标识，及评测对象对样本音频的语音质量进行评测所得到的评测结果；

处理单元902，用于利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征，并利用音频质量评测模型对评测对象的对象标识进行转换处理，得到评测对象的对象嵌入特征；

处理单元902，还用于将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征，融合特征兼具样本音频的音频特性及评测对象的对象特性；

处理单元902，还用于采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练；训练好的音频质量评测模型用于对音频的语音质量进行预测。

在一种实现方式中，处理单元902，用于利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征时，具体用于：

在一种实现方式中，样本音频中包含多个采样点，处理单元902，用于对样本音频进行音频划分处理，得到样本音频对应的多个音频片段时，具体用于：

在一种实现方式中，音频序列特征中包含每个音频片段的帧级别序列特征；处理单元902，用于将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征时，具体用于：

处理单元902，用于将对象嵌入特征与每个音频片段的帧级别序列特征进行融合，得到每个音频片段的融合片段特征时，具体用于：

在一种实现方式中，处理单元902，用于采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练时，具体用于：

在一种实现方式中，处理单元902，用于利用音频质量评测模型基于音频序列特征和融合特征，对样本音频进行质量预测处理，得到样本音频的目标预测结果时，具体用于：

在一种实现方式中，音频序列特征中包含每个音频片段的帧级别序列特征，处理单元902，用于使用音频质量评测模型基于音频序列特征，对样本音频进行质量预测处理，得到样本音频的第一质量预测结果时，具体用于：

在一种实现方式中，目标预测运算为平均运算，处理单元902，用于基于每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到每个音频片段的段质量预测结果时，具体用于：

在一种实现方式中，处理单元902，用于基于目标预测结果和评测结果之间的差异，确定音频质量评测模型的损失信息时，具体用于：

获取音频质量评测模型的目标函数；

在一种实现方式中，评测对象的数量为K，K为大于1的整数；在目标预测运算为平均运算时，评测结果包括K个评测对象对样本音频的语音质量评测所得的K个子评测结果的平均结果；处理单元902，用于将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征；采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练时，具体用于：

在一种实现方式中，处理单元902，还用于：

获取待评测的目标音频；

根据本申请的一个实施例，图9所示的模型训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该模型训练装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2及图8所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图9中所示的模型训练装置，以及来实现本申请实施例的模型训练方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中，一方面，本申请实施例只依赖于已知人耳评测结果的样本音频就可以实现对音频质量评测模型的训练，相比于客观语音质量评估方法依赖于相匹配的待评测音频和干净音频进行模型训练而言，可以克服干净音频难以获取的缺陷，实现采用模型进行音频质量预测的效果。另一方面，本申请实施例在模型训练时引入了评测样本音频的语音质量的评测对象的对象信息；例如将评测对象的对象嵌入特征添加至样本音频的音频序列特征中，这使得用于训练模型的融合特征兼具了样本音频和评测对象的特性；再如采用评测对象对样本音频的语音质量的评测结果进行模型训练，帮助模型能够模拟人耳对样本音频的语音质量的打分效果，从而确保训练得到的音频质量评测模型能够很好地拟合人耳对音频的主观评判情况，确保音频质量评测模型的评测准确性。

图10示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。请参见图10，该计算机设备包括处理器1001、通信接口1002以及计算机可读存储介质1003。其中，处理器1001、通信接口1002以及计算机可读存储介质1003可通过总线或者其它方式连接。其中，通信接口1002用于接收和发送数据。计算机可读存储介质1003可以存储在计算机设备的存储器中，计算机可读存储介质1003用于存储计算机程序，计算机程序包括程序指令，处理器1001用于执行计算机可读存储介质1003存储的程序指令。处理器1001（或称CPU（Central Processing Unit，中央处理器））是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质（Memory），计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的处理系统。并且，在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的指令，这些指令可以是一个或多个的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，该计算机可读存储介质中存储有一条或多条指令；由处理器1001加载并执行计算机可读存储介质中存放的一条或多条指令，以实现上述模型训练方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条指令由处理器1001加载并执行如下步骤：

利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征，并利用音频质量评测模型对评测对象的对象标识进行转换处理，得到评测对象的对象嵌入特征；

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行利用音频质量评测模型对样本音频进行特征提取处理，得到样本音频的音频序列特征时，具体执行如下步骤：

在一种实现方式中，样本音频中包含多个采样点，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行对样本音频进行音频划分处理，得到样本音频对应的多个音频片段时，具体执行如下步骤：

在一种实现方式中，音频序列特征中包含每个音频片段的帧级别序列特征；计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征时，具体执行如下步骤：

计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行将对象嵌入特征与每个音频片段的帧级别序列特征进行融合，得到每个音频片段的融合片段特征时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行利用音频质量评测模型基于音频序列特征和融合特征，对样本音频进行质量预测处理，得到样本音频的目标预测结果时，具体执行如下步骤：

在一种实现方式中，音频序列特征中包含每个音频片段的帧级别序列特征，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行使用音频质量评测模型基于音频序列特征，对样本音频进行质量预测处理，得到样本音频的第一质量预测结果时，具体执行如下步骤：

在一种实现方式中，目标预测运算为平均运算，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行基于每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到每个音频片段的段质量预测结果时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行基于目标预测结果和评测结果之间的差异，确定音频质量评测模型的损失信息时，具体执行如下步骤：

获取音频质量评测模型的目标函数；

在一种实现方式中，评测对象的数量为K，K为大于1的整数；在目标预测运算为平均运算时，评测结果包括K个评测对象对样本音频的语音质量评测所得的K个子评测结果的平均结果；计算机可读存储介质中的一条或多条指令由处理器1001加载并在执行将对象嵌入特征添加至样本音频的音频序列特征中，得到融合特征；采用评测结果，音频序列特征和融合特征，对音频质量评测模型进行训练时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1001加载并还执行如下步骤：

获取待评测的目标音频；

基于同一发明构思，本申请实施例中提供的计算机设备解决问题的原理与有益效果与本申请方法实施例中模型训练方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述模型训练方法。

本领域普通技术对象可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术对象可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如，同轴电缆、光纤、数字线（DSL））或无线（例如，红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如，固态硬盘(Solid State Disk，SSD)）等。

以上描述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术对象在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

获取样本音频及评测对象的对象信息，所述评测对象是指对所述样本音频的语音质量进行评测的对象；所述对象信息包含所述评测对象的对象标识，及所述评测对象对所述样本音频的语音质量进行评测所得到的评测结果；

利用音频质量评测模型对所述样本音频进行特征提取处理，得到所述样本音频的音频序列特征，并利用所述音频质量评测模型对所述评测对象的对象标识进行转换处理，得到所述评测对象的对象嵌入特征；

将所述对象嵌入特征添加至所述样本音频的音频序列特征中，得到融合特征，所述融合特征兼具所述样本音频的音频特性及所述评测对象的对象特性；

采用所述评测结果，所述音频序列特征和所述融合特征，对所述音频质量评测模型进行训练；训练好的音频质量评测模型用于对音频的语音质量进行预测。

2.如权利要求1所述的方法，其特征在于，所述利用音频质量评测模型对所述样本音频进行特征提取处理，得到所述样本音频的音频序列特征，包括：

对所述样本音频进行音频划分处理，得到所述样本音频对应的多个音频片段；

利用音频质量评测模型对所述多个音频片段中每个音频片段进行编码，得到所述每个音频片段的帧级别序列特征，音频片段的帧级别序列特征用于反映相应音频片段所包含的各音频帧的帧特性；

基于所述每个音频片段的帧级别序列特征，构建所述样本音频的音频序列特征；所述音频序列特征中各帧级别序列特征，按照相应音频片段在所述样本音频中的播放时间排序，所述音频序列特征用于反映所述样本音频中各音频帧的帧特性。

3.如权利要求2所述的方法，其特征在于，所述样本音频中包含多个采样点，所述对所述样本音频进行音频划分处理，得到所述样本音频对应的多个音频片段，包括：

获取音频划分步长和音频划分长度；所述音频划分步长用于定义划分的两个相邻音频片段之间的间隔长度，所述音频划分长度用于定义划分的音频片段所包含的采样点数量；

按照所述音频划分步长和所述音频划分长度，对所述样本音频进行音频划分处理，得到所述样本音频对应的多个音频片段。

4.如权利要求1所述的方法，其特征在于，所述音频序列特征中包含每个音频片段的帧级别序列特征；所述将所述对象嵌入特征添加至所述样本音频的音频序列特征中，得到融合特征，包括：

将所述对象嵌入特征与所述每个音频片段的帧级别序列特征进行融合，得到每个音频片段的融合片段特征；

按照各音频片段的播放时间顺序，将所述每个音频片段的融合片段特征进行排序，得到所述样本音频的融合特征。

5.如权利要求4所述的方法，其特征在于，所述每个音频片段的帧级别序列特征中包含相应音频片段所包含的各音频帧的帧级别特征；所述样本音频对应的任一音频片段表示为目标音频片段；

所述将所述对象嵌入特征与所述每个音频片段的帧级别序列特征进行融合，得到每个音频片段的融合片段特征，包括：

将所述对象嵌入特征与所述目标音频片段所包含各音频帧的帧级别特征融合，得到各音频帧的帧级别融合特征；音频帧的帧级别融合特征兼具相应音频帧的帧特性及所述评测对象的对象特性；

基于所述各音频帧的帧级别融合特征，构建所述目标音频片段的融合片段特征。

6.如权利要求1所述的方法，其特征在于，所述采用所述评测结果，所述音频序列特征和所述融合特征，对所述音频质量评测模型进行训练，包括：

利用所述音频质量评测模型基于所述音频序列特征和所述融合特征，对所述样本音频进行质量预测处理，得到所述样本音频的目标预测结果；

基于所述目标预测结果和所述评测结果之间的差异，确定所述音频质量评测模型的损失信息，并按照减小所述损失信息的方向，对所述音频质量评测模型的模型参数进行训练。

7.如权利要求6所述的方法，其特征在于，所述利用所述音频质量评测模型基于所述音频序列特征和所述融合特征，对所述样本音频进行质量预测处理，得到所述样本音频的目标预测结果，包括：

使用所述音频质量评测模型基于所述音频序列特征，对所述样本音频进行质量预测处理，得到所述样本音频的第一质量预测结果；

使用所述音频质量评测模型基于所述融合特征，对所述样本音频进行质量预测处理，得到所述样本音频的第二质量预测结果；

结合所述第一质量预测结果和所述第二质量预测结果，确定所述样本音频的目标预测结果。

8.如权利要求7所述的方法，其特征在于，所述音频序列特征中包含每个音频片段的帧级别序列特征，所述使用所述音频质量评测模型基于所述音频序列特征，对所述样本音频进行质量预测处理，得到所述样本音频的第一质量预测结果，包括：

使用所述音频质量评测模型对所述每个音频片段的帧级别序列特征进行特征转换处理，得到所述每个音频片段的段级别特征；

基于所述每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到所述每个音频片段的段质量预测结果；

对所述样本音频所包含的多个音频片段的段质量预测结果进行目标预测运算，得到所述样本音频的第一质量预测结果。

9.如权利要求8所述的方法，其特征在于，所述目标预测运算为平均运算，所述基于所述每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到所述每个音频片段的段质量预测结果，包括：

按照范围裁剪规则基于所述每个音频片段的段级别特征，对相应音频片段进行质量评测处理，得到所述每个音频片段的段质量预测结果；

其中，每个音频片段的段质量预测结果的取值范围，位于所述范围裁剪规则所指示的取值范围内。

10.如权利要求6所述的方法，其特征在于，所述基于所述目标预测结果和所述评测结果之间的差异，确定所述音频质量评测模型的损失信息，包括：

获取所述音频质量评测模型的目标函数；

将所述目标预测结果和所述评测结果，作为所述目标函数的输入信息，得到所述音频质量评测模型的损失信息；

其中，所述目标函数是基于均方差损失函数，对训练标签分布进行统计转换所得到的，所述训练标签分布是指多个评测对象对各样本音频的评测结果分布；所述目标函数中包含所述均方差损失函数和样本平衡函数；其中，在所述训练标签分布是均衡分布的情况下，所述目标函数中只包含所述均方差损失函数；在所述训练标签分布是未均衡分布的情况下，所述目标函数用于解决样本不均衡所导致的所述音频质量评测模型的泛化性问题。

11.如权利要求1所述的方法，其特征在于，所述评测对象的数量为K，K为大于1的整数；在目标预测运算为平均运算时，所述评测结果包括K个评测对象对所述样本音频的语音质量评测所得的K个子评测结果的平均结果；所述将所述对象嵌入特征添加至所述样本音频的音频序列特征中，得到融合特征；采用所述评测结果，所述音频序列特征和所述融合特征，对所述音频质量评测模型进行训练，包括：

将每个评测对象的对象嵌入特征，分别添加至所述样本音频的音频序列特征中，得到K个融合特征；

采用所述评测结果，所述音频序列特征和所述K个融合特征，对所述音频质量评测模型进行训练。

12.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取待评测的目标音频；

调用所述训练好的音频质量评测模型对所述目标音频进行质量预测处理，得到所述目标音频的音频评测结果，所述音频评测结果用于表征所述目标音频的语音质量。

13.一种模型训练装置，其特征在于，包括：

获取单元，用于获取样本音频及评测对象的对象信息，所述评测对象是指对所述样本音频的语音质量进行评测的对象；所述对象信息包含所述评测对象的对象标识，及所述评测对象对所述样本音频的语音质量进行评测所得到的评测结果；

处理单元，用于利用音频质量评测模型对所述样本音频进行特征提取处理，得到所述样本音频的音频序列特征，并利用所述音频质量评测模型对所述评测对象的对象标识进行转换处理，得到所述评测对象的对象嵌入特征；

所述处理单元，还用于将所述对象嵌入特征添加至所述样本音频的音频序列特征中，得到融合特征，所述融合特征兼具所述样本音频的音频特性及所述评测对象的对象特性；

所述处理单元，还用于采用所述评测结果，所述音频序列特征和所述融合特征，对所述音频质量评测模型进行训练；训练好的音频质量评测模型用于对音频的语音质量进行预测。

14.一种计算机设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-12任一项所述的模型训练方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-12任一项所述的模型训练方法。