CN114242044A

CN114242044A - 语音质量评估方法、语音质量评估模型训练方法及装置

Info

Publication number: CN114242044A
Application number: CN202210177164.6A
Authority: CN
Inventors: 刘名乐; 杨栋; 曹木勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-03-25
Anticipated expiration: 2042-02-25
Also published as: CN114242044B

Abstract

本申请涉及语音信号处理，具体涉及一种语音质量评估方法、语音质量评估模型训练方法及装置。该方法包括：对待评估的语音内容进行特征提取，得到语音内容所包含的各个音频帧的语音特征；通过自注意力机制对各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息；对相关性信息进行池化处理，得到第一语音质量评估值，并对相关性信息进行全连接处理，得到第二语音质量评估值；将第一语音质量评估值和第二语音质量评估值进行整合，得到待评估的语音内容的语音质量评估分数。本申请实施例的技术方案可以提升语音质量评估的准确性。

Description

语音质量评估方法、语音质量评估模型训练方法及装置

技术领域

本申请属于计算机及通信技术领域，具体涉及一种语音质量评估方法、语音质量评估模型训练方法及装置。

背景技术

语音质量评估旨在对一段语音的质量好坏作出量化评价，在语音交互领域一直是研究热点之一。在对语音质量进行评估的方法中，相关技术的方案主要分为主观评估和客观评估，其中，主观评估即为通过专业的测试人员对语音进行打分，而客观评估则是通过算法来对语音质量进行评估。

虽然主观评估得到的评估结果最可靠，但是这样的方式存在成本高昂且无法实时测评的技术问题。而在使用客观评估的方式对语音质量进行评估时，需要采用参考信号进行预测评估，但是在实际应用中，往往获得的参考信号中存在其它干扰信号，这样导致得到的语音质量评估效果不佳。

发明内容

本申请的目的在于提供一种语音质量评估方法、语音质量评估模型训练方法及装置。至少在一定程度上可以提升语音质量评估的准确性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种语音质量评估方法，所述方法包括：

对待评估的语音内容进行特征提取，得到所述语音内容所包含的各个音频帧的语音特征；

通过自注意力机制对所述各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，所述相关性信息表示所述各个音频帧在所述语音内容中的重要性；

对所述相关性信息进行池化处理，得到第一语音质量评估值，并对所述相关性信息进行全连接处理，得到第二语音质量评估值；

将所述第一语音质量评估值和所述第二语音质量评估值进行整合，得到所述待评估的语音内容的语音质量评估分数。

根据本申请实施例的一个方面，提供一种语音质量评估模型训练方法，所述方法包括：

获取语音样本；

对所述语音样本进行特征提取，得到所述语音样本所包含的各个音频帧的语音特征；

通过自注意力机制对所述各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，所述相关性信息表示所述各个音频帧在所述语音样本中的重要性；

将所述第一语音质量评估值和所述第二语音质量评估值进行整合，得到所述语音样本的语音质量评估分数；

将所述语音质量评估分数与所述语音样本对应的真实分数进行比对，并根据比对结果，对语音质量评估模型的参数进行调整。

根据本申请实施例的一个方面，提供一种语音质量评估装置，所述装置包括：

提取模块，用于对待评估的语音内容进行特征提取，得到所述语音内容所包含的各个音频帧的语音特征；

第一处理模块，用于通过自注意力机制对所述各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，所述相关性信息表示所述各个音频帧在所述语音内容中的重要性；

第二处理模块，用于对所述相关性信息进行池化处理，得到第一语音质量评估值，并对所述相关性信息进行全连接处理，得到第二语音质量评估值；

整合模块，用于将所述第一语音质量评估值和所述第二语音质量评估值进行整合，得到所述待评估的语音内容的语音质量评估分数。

在本申请的一些实施例中，基于以上技术方案，所述提取模块包括：

分帧模块，用于对所述待评估的语音内容进行分帧处理，得到多个音频帧；

变换模块，用于对每个音频帧进行傅里叶变换，得到每个音频帧对应的频谱信息；

滤波模块，用于对所述每个音频帧对应的频谱信息进行滤波处理，得到所述每个音频帧的频谱特征；

卷积模块，用于对所述每个音频帧的频谱特征进行卷积处理，得到所述各个音频帧的语音特征。

在本申请的一些实施例中，基于以上技术方案，所述滤波模块还用于，对所述每个音频帧对应的频谱信息进行梅尔滤波处理，以得到所述每个音频帧的频谱特征。

在本申请的一些实施例中，基于以上技术方案，所述提取模块还包括预处理模块，用于将所述待评估的语音内容进行预加重处理，以增强所述待评估的语音内容中的高频信号。

在本申请的一些实施例中，基于以上技术方案，所述分帧模块还用于，在对所述待评估的语音内容进行分帧之后，进行加窗处理，以得到连续的所述多个音频帧。

在本申请的一些实施例中，基于以上技术方案，所述分帧模块还用于，在对所述待评估的语音内容进行分帧之后，使用汉明窗进行加窗处理，以得到连续的所述多个音频帧。

在本申请的一些实施例中，基于以上技术方案，所述卷积模块还用于，在对所述每个音频帧的频谱特征进行卷积处理之后，依次进行归一化处理、非线性变换处理以及池化处理，以得到所述各个音频帧对应的语音特征。

在本申请的一些实施例中，基于以上技术方案，所述第二处理模块还用于，对所述相关性信息进行注意力池化处理，以得到所述第一语音质量评估值。

在本申请的一些实施例中，基于以上技术方案，所述整合模块还用于，对所述第二语音质量评估值进行最小均分误差计算，得到误差分数；将所述第一语音质量评估值与所述误差分数进行求和，以得到所述语音质量评估分数。

根据本申请实施例的一个方面，提供一种语音质量评估模型训练装置，所述装置包括：

样本获取模块，用于获取语音样本；

提取模块，用于对所述语音样本进行特征提取，得到所述语音样本所包含的各个音频帧的语音特征；

第一处理模块，用于通过自注意力机制对所述各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，所述相关性信息表示所述各个音频帧在所述语音样本中的重要性；

整合模块，用于将所述第一语音质量评估值和所述第二语音质量评估值进行整合，得到所述语音样本的语音质量评估分数；

参数优化模块，用于将所述语音质量评估分数与所述语音样本对应的真实分数进行比对，并根据比对结果，对语音质量评估模型的参数进行调整。

在本申请的一些实施例中，基于以上技术方案，所述装置还包括调整模块，用于根据所述语音样本对应的真实分数与所述语音质量评估分数，计算损失函数的值；对语音质量评估模型的参数进行调整，直至所述损失函数的值收敛。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的语音质量评估方法或者语音质量评估模型训练方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的语音质量评估方法或者语音质量评估模型训练方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的语音质量评估方法或者语音质量评估模型训练方法。

在本申请实施例提供的技术方案中，通过使用自注意力机制对各个音频帧的语音特征进行处理，以得到各个音频帧之间的相关性信息，然后再对相关性信息分别经过池化处理以及全连接处理，以得到第一语音质量评估值和第二语音质量评估值，其中，通过将相关性信息经过全连接处理增加了帧级别的分数评估，使得评估过程更加平稳，减少了预测分数与真实分数之间的误差，最后，通过将第一语音质量评估值和第二语音质量评估值进行整合，输出一个较准确的待评估的语音内容的语音质量评估分数。这样，通过采用本申请的技术方案，无需使用参考信号进行语音质量评估，而可以基于自注意力机制得到的相关性信息来保证语音质量评估结果接近于真实语音质量，从而提升了语音质量评估的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1示意性地示出了应用本申请技术方案的示例性系统架构框图。

图2示意性地示出了本申请实施例提供的语音质量评估系统的结构图。

图3示意性地示出了本申请实施例提供的语音质量评估方法的步骤流程。

图4示意性地示出了本申请实施例中对待评估的语音内容进行特征提取，得到语音内容所包含的各个音频帧的语音特征的步骤流程。

图5示意性地示出了本申请实施例提供的特征提取的步骤流程。

图6示意性地示出了本申请实施例提供的卷积处理的步骤流程。

图7示意性地示出了本申请实施例提供的注意力池化处理的步骤流程。

图8示意性地示出了本申请实施例提供的整体语音质量评估方法的步骤流程。

图9示意性地示出了本申请实施例提供的SE模型的结构框图。

图10示意性地示出了本申请实施例提供的自注意力机制的结构框图。

图11示意性地示出了本申请实施例提供的语音质量评估模型训练方法的步骤流程。

图12示意性地示出了本申请实施例提供的语音质量评估装置的结构框图。

图13示意性地示出了本申请实施例提供的语音质量评估模型训练装置的结构框图。

图14示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在进行语音质量评估时，相关技术中采用的方式主要包括主观评测和客观评测，主观评测即为通过专业的测试人员对语音进行打分，常见的方式包含MOS、CMOS以及ABXTest等，其中，MOS、CMOS以及ABX Test代表的是测试人员对语音质量进行评测所采用的方式；客观评测则是通过算法来对语音质量进行评估，包含需参考信号与无需参考信号的语音质量评估方法，常见的方式包含P.563、PESQ、Quality Net以及MOS Net等，其中，P.563、PESQ、Quality Net以及MOS Net代表的是评估语音质量算法中对应的参数或所使用的模型。对于需参考信号与无需参考信号方法进行语音质量评估的方法的区别在于是否需要参考信号，即在对目标语音信号进行评估时，是否需要一个干净无损的参考信号进行对比。

虽然主观评估得到的评估结果最可靠，但是这样的方式存在成本高昂且无法实时测评的技术问题。虽然采用客观评估的方式，可以克服成本高且无法实时评测的技术问题，但是，一般地，在使用客观评估的方式对语音质量进行评估时，需要采用参考信号进行预测评估，而在实际应用中，往往获得的参考信号中存在其它干扰信号，这样导致得到的语音质量评估效果不佳。

为了解决上述技术问题，本申请提出了一种语音质量评估方法、语音质量评估模型训练方法及装置，通过使用自注意力机制对各个音频帧的语音特征进行处理，以得到各个音频帧之间的相关性信息，然后再对相关性信息分别经过池化处理以及全连接处理，以得到第一语音质量评估值和第二语音质量评估值，其中，通过将相关性信息经过全连接处理增加了帧级别的分数评估，使得评估过程更加平稳，减少了预测分数与真实分数之间的误差，最后，通过将第一语音质量评估值和第二语音质量评估值进行整合，输出一个较准确的待评估的语音内容的语音质量评估分数。这样，通过采用本申请的技术方案，无需使用参考信号进行语音质量评估，而可以基于自注意力机制得到的相关性信息来保证语音质量评估结果接近于真实语音质量，从而提升了语音质量评估的准确性。

另外，需要说明的是，虽然相关技术中也存在无需参考信号的语音质量评估方法，但是相关技术中大多采用的是传统信号处理方法与简易的深度学习模型。具体地实现方式为，首先，将音频信号进行分帧处理与加窗处理；随后，提取信号的对数梅尔谱或者MFCC（Mel-Frequency Cepstral Coefficients，声学特征）等特征；最后，搭建神经网络模型，根据失真信号的预测评分值与真实客观评分值建立映射关系，从而使得神经网络模型具备MOS分评估能力。这样的方式，由于存在该方式Quality-Net与MOS Net的结构简单，存在提取信号特征能力弱等问题，因此在面对复杂的游戏语音时，显得鲁棒性不足。

而本申请的语音质量评估方法，通过引入了自注意力机制以及将自注意力机制得到的相关性信息分别进行池化处理和全连接处理的方案，使得神经网络能够专注于学习有效特征，增强了该方法的鲁棒性，另外，通过并行计算节约模型推理时间。由此可知，本申请的语音质量评估方案也可以解决相关技术中无参考信号进行语音质量评估的方案所带来的鲁棒性不足的问题。

下面结合具体实施方式对本申请提供的语音质量评估方法、语音质量评估模型训练方法及装置做出详细说明。

如图1所示，系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能语音交互设备、智能家电、车载终端、飞行器等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，本申请对此不做特殊限定。

举例而言，当终端设备110向服务器130上传了待评估的语音内容之后，服务器130可以执行本申请提供的语音质量评估方法，先对待评估的语音内容进行特征提取，接着通过自注意力机制对提取到的各个音频帧的语音特征进行处理，以得到各个音频帧之间的相关性信息，接着对相关性信息分别进行池化处理和全连接处理，以得到第一语音质量评估值和第二语音质量评估值；最后，将第一语音质量评估值和第二语音质量评估值进行整合，以得到待评估的语音内容的语音质量评估分数。

这样，通过使用自注意力机制对各个音频帧的语音特征进行处理，以得到各个音频帧之间的相关性信息，然后再对相关性信息分别经过池化处理以及全连接处理，以得到第一语音质量评估值和第二语音质量评估值，其中，通过将相关性信息经过全连接处理增加了帧级别的分数评估，使得评估过程更加平稳，减少了预测分数与真实分数之间的误差，最后，通过将第一语音质量评估值和第二语音质量评估值进行整合，输出一个较准确的待评估的语音内容的语音质量评估分数。因此，通过采用本申请的技术方案，无需参考信号进行语音质量评估，而可以基于自注意力机制得到的相关性信息来保证语音质量评估结果接近于真实语音质量，从而提升了语音质量评估的准确性。

本申请实施方式的语音质量评估方法，应用于游戏语音领域，用于监控游戏语音服务质量，在每次语音服务升级迭代后，本申请的技术方案可作为一项评估工具，通过与升级前的版本进行比较，为语音服务开发人员提供客观量化评价。

另外，在玩家组队使用语音进行游戏时，往往玩家自己并不清楚自己方发出语音质量好坏，在周围环境嘈杂或者网络信号不好时，双方的语音交互将变得困难，从而将会降低玩家游戏体验。参见图2，图2示意性地示出了本申请实施例提供的语音质量评估系统的结构图，通过从客户端获取玩家在游戏当中的游戏语音，接着在语音质量评估系统中采用本申请实施方式的语音质量评估方法，从而输出MOS分，也就是待评估的语音内容的语音质量评估分数。这样，通过本申请的语音质量评估方法从而实现了对玩家实时语音质量进行评价，在无需参考信号的条件下，提升了当前语音质量评估的准确性。

图3示意性地示出了本申请实施例提供的语音质量评估方法的步骤流程，该语音质量评估方法的执行主体可以是终端设备，也可以是服务器。如图3所示，该语音质量评估方法主要可以包括如下步骤S310至步骤S340：

步骤S310，对待评估的语音内容进行特征提取，得到语音内容所包含的各个音频帧的语音特征。

在一些可选的实施例中，可以从客户端获取玩家在游戏当中的游戏语音，该游戏语音即为待评估的语音内容。在获取得到待评估的语音内容后，对该待评估的语音内容进行特征提取，以得到各个音频帧的语音特征。这样，通过对待评估的语音内容进行特征提取，可以有利于后续对该语音内容的语音质量进行评估。其中，在对待评估的语音内容进行特征提取时，可以采用梅尔滤波的方式进行特征提取，以保证提取到的语音特征更加符合人耳听觉特性。

步骤S320，通过自注意力机制对各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，相关性信息表示各个音频帧在语音内容中的重要性。

自注意力机制（Self-Attention）可以使得神经网络充分学习到音频信号中的前后相关性，使得模型关注到对结果更有利的特征，而少关注无用特征。自注意力机制简单理解就是将注意力集中到某些重要特征上。为了便于理解自注意力机制，举例如下，以一张图片为例，假如在这张图片中有一个人物，此时注意力会集中在人物上，而看到图片上有天空时，注意力又会集中在天空上，在图片上还有太阳时，注意力会集中到太阳上。这样，通过看这个图可以得出结论：这个人在晒太阳。

以上是以图像进行举例说明，对于语音片段也可以进行同样地理解。假设有一段语音，这段语音有10s的长度，那个人只在5s的时候说话，在后5s是没有声音的，通过自注意力机制就会知道原来这个语音对于这个评分更重要的部分是在前5s，前5s它可能是在某一个频段其实更重要。在确定了比较重要的一部分特征之后，将该特征赋予一个更高的权重，也就是给前5s的部分赋予更高的权重。以上只是简单举例说明，其他的部分按照同样的原理进行处理，最后得到各个音频帧之间的相关性信息。

这样，通过自注意力机制对各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，可以确定各个音频帧在语音内容中的重要性，进而便于提取得到有效的语音特征。

步骤S330，对相关性信息进行池化处理，得到第一语音质量评估值，并对相关性信息进行全连接处理，得到第二语音质量评估值。

具体地，在通过自注意力机制对各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息之后，可以同时对相关性信息分别作池化处理和全连接处理，以得到第一语音质量评估值和第二语音质量评估值。第一语音质量评估值为整段语音的质量评估分数，而第二语音质量评估值为各个音频帧的语音质量评估分数，通过将相关性信息经过全连接处理增加了帧级别的分数评估，使得评估过程更加平稳，减少了预测分数与真实分数之间的误差。

可见，本申请实施例通过同时对相关性信息进行池化处理和全连接处理，不仅减少了处理时间，也可以减少误差，以得到与实际情况相适应的评测结果。

步骤S340，将第一语音质量评估值和第二语音质量评估值进行整合，得到待评估的语音内容的语音质量评估分数。

在一些可选的实施例中，待评估的语音内容的语音质量评估分数也可称为MOS分。

在本申请实施例提供的技术方案中，无需参考信号进行语音质量评估，通过使用自注意力机制对各个音频帧的语音特征进行处理，以得到各个音频帧之间的相关性信息，然后再对相关性信息分别经过池化处理以及全连接处理，以得到第一语音质量评估值和第二语音质量评估值，其中，通过将相关性信息经过全连接处理增加了帧级别的分数评估，使得评估过程更加平稳，减少了预测分数与真实分数之间的误差，最后，通过将第一语音质量评估值和第二语音质量评估值进行整合，输出一个较准确的待评估的语音内容的语音质量评估分数。这样，通过采用本申请的技术方案，使得语音质量评估结果接近于真实语音质量，从而提升了语音质量评估的准确性。

图4示意性地示出了本申请实施例中对待评估的语音内容进行特征提取，得到语音内容所包含的各个音频帧的语音特征的步骤流程。如图4所示，在以上实施例的基础上，在某些实施例中，步骤S310中的对待评估的语音内容进行特征提取，得到语音内容所包含的各个音频帧的语音特征，可以进一步包括以下步骤S410至步骤S440：

步骤S410，对待评估的语音内容进行分帧处理，得到多个音频帧。

在本申请的实施例中，分帧处理指的是将待评估的语音信号分成大小固定的N段语音信号，而每一段语音信号被称为一帧，一般帧长为10ms到30ms。

在进行分帧处理时，可以采用交叠分段的方法，且帧移与帧长的比值范围为0-1/2，其中，帧移为前一帧和后一帧的交叠部分。通过利用信号的短时平稳性，使帧与帧之间平滑过渡，保持其连续性。这样，通过对待评估的语音内容进行分帧处理，以得到多个音频帧，有利于对待评估的语音内容进行处理。

步骤S420，对每个音频帧进行傅里叶变换，得到每个音频帧对应的频谱信息。

具体而言，在本申请的实施例中，傅里叶变换用于将时域信号转换为频域信号，其中，傅里叶变换采用的是快速傅里叶变换方式，快速傅里叶变换满足如下公式：

其中，X（k）对应为频谱信息，x（n）对应为时域信号，j表示虚数单位，N为FFT（FastFourier Transform，快速傅里叶变换）对应的点数。

步骤S430，对每个音频帧对应的频谱信息进行滤波处理，得到每个音频帧的频谱特征。

在一些可选的实施例中，将每个音频帧经过短时傅里叶变换后，可以通过梅尔滤波器进行滤波处理，得到每个音频帧对应的频谱信息，这样可使得到的频谱特征更加符合人耳听觉特性。

步骤S440，对每个音频帧的频谱特征进行卷积处理，得到各个音频帧的语音特征。

基于图4所示实施例的技术方案，可以通过对待评估的语音内容依次进行分帧、傅里叶变换和滤波处理以提取得到各个音频帧的语音特征，从而有利于后续对语音质量的评估。

在本申请的一个实施例中，对每个音频帧的频谱特征进行卷积处理，得到各个音频帧的语音特征之后，还经过全连接处理，一方面以降低特征维度，提取高维度特征，另一方面用于提供更多的非线性处理，增加空间维度。

在本申请的一个实施例中，对每个音频帧对应的频谱信息进行滤波处理，得到每个音频帧的频谱特征，包括：

对每个音频帧对应的频谱信息进行梅尔滤波处理，以得到每个音频帧的频谱特征。

梅尔滤波是将频谱信息通过Mel尺度的三角滤波器进行滤波处理，并通过如下表达式从而得到每个音频帧的频谱特征：

其中，

每个音频帧的频谱特征，f(m)为滤波器的中心频率，m代表的是每个音频帧的频谱信息，音频帧的数量为22-26之间的值。

这样，将每个音频帧经过短时傅里叶变换后，通过梅尔滤波器，得到每个音频帧对应的频谱信息，使特征更加符合人耳听觉特性。

在本申请的一个实施例中，对待评估的语音内容进行分帧处理之前，方法还包括：

将待评估的语音内容进行预加重处理，以增强待评估的语音内容中的高频信号。

在一些可选的实施例中，在对音频信号处理前，可以使用一个高通滤波器对该音频信号进行预加重，而高通滤波器的函数表达式为：

其中，z代表的音频信号，μ代表设定的超参数。

由于预加重的目的为平衡频谱，以突出高频信号，对应地时域表达式为：

其中，x（n）代表的是n时刻的时域，x（n-1）代表的是（n-1）时刻的时域，而y（n）代表的是n时刻与（n-1）时刻之间的差值，α为常数，一般取0.97。

这样，在对待评估的语音内容进行分帧处理之前，先进行预加重处理，从而突出高频信号，有利于减少信号的衰减损耗。

在本申请的一个实施例中，对待评估的语音内容进行分帧处理，得到多个音频帧，包括：

在对待评估的语音内容进行分帧之后，进行加窗处理，以得到连续的多个音频帧。

具体而言，在完成分帧后，为了使相邻帧之间平滑过渡，也就是消除各个帧两端可能会造成的信号不连续性，即谱泄露（spectral leakage），通过进行加窗处理，窗函数可以减少截断带来的影响。

本申请实施例的技术方案通过加窗操作从而有利于得到连续的多个音频帧，以消除各个帧两端可能会造成的信号不连续性的影响。

在本申请的一个实施例中，在对待评估的语音内容进行分帧之后，进行加窗处理，以得到连续的多个音频帧，包括：

在对待评估的语音内容进行分帧之后，使用汉明窗进行加窗处理，以得到连续的多个音频帧。

将每一帧带入窗函数，窗语音信号sw（n）=s（n）*w（n），s（n）代表的是多个音频帧，w（n）代表的是加的窗函数，sw（n）代表的是给s（n）这段信号进行加窗处理得到的结果值。

在语音处理中在进行加窗处理时常用的为汉明窗，汉明窗公式为：

其中，W（n，α）代表的是汉明窗的窗函数，a为常数，N为窗长，变量n的取值范围为0≤n≤N-1。

这样，通过使用汉明窗进行加窗操作从而有利于得到连续的多个音频帧，以消除各个帧两端可能会造成的信号不连续性的影响。

为了便于从整体上理解本申请的特征提取流程，参见图5，图5示意性地示出了本申请实施例提供的特征提取的步骤流程。其中，对待评估的语音内容进行特征提取时，依次进行预加重处理、分帧处理、加窗处理、傅里叶变换、梅尔滤波以及取对数处理，这样从而得到较有用的语音特征，各个步骤的处理过程可参照前述实施例的技术方案。

在本申请的一个实施例中，对每个音频帧的频谱特征进行卷积处理，得到各个音频帧的语音特征，包括：

在对每个音频帧的频谱特征进行卷积处理之后，依次进行归一化处理、非线性变换处理以及池化处理，以得到各个音频帧对应的语音特征。

在一些可选的实施例中，参见图6，图6示意性地示出了本申请实施例提供的卷积处理的步骤流程。在进行卷积操作时，经过卷积层610（Convolutional Layer）的处理，卷积层610中的卷积核为3*3，填充步长为1*1，而卷积层610的作用为提取高维特征。接着通过归一化层620（Batch Normalization，BN）以进行归一化处理，BN层的作用是为了加速网络收敛，缓解梯度问题以及防止过拟合。然后通过激活函数层630（ELU activation function），激活函数层630的作用为提供非线性变换，同时加速收敛。然后经过池化层640（AveragePooling）进行池化处理，而池化的作用为降维与缓解过拟合；最后经过，梯度下降层650（Dropout），该层的作用为防止过拟合，且Dropout的取值为常数0.3。

需要说明的是，激活函数f（x）的对应的表达式为：

其中，x代表的是经过归一化层处理的输出信号，

为常数。

这样，通过对经过卷积层处理后，依次进行归一化处理、非线性变换处理以及池化处理，以得到各个音频帧对应的语音特征，从而有利于得到较准确的语音特征。

在本申请的一个实施例中，对相关性信息进行池化处理，得到第一语音质量评估值，包括：

对相关性信息进行注意力池化处理，以得到第一语音质量评估值。

参见图7，图7示意性地示出了本申请实施例提供的注意力池化处理的步骤流程。具体地，先进行前向传播处理，例如输入一个B*T*D一个矩阵，B代表的是行数，T代表的是音频帧的帧数，D代表的矩阵维度，经过前向传播处理指的是可能经过了两层全连接，然后得到的输出就是B*T1*D2，然后经过Mask矩阵进行处理，Mask矩阵的作用是在这个长度里面随机的抹去一些数值，即掩盖一部分的数值，将一些数值设成false数值，接着再进行softmax处理，然后再跟之前的y（代表的是相关性信息）进行矩阵乘法相乘，最后经过全连接层输出一个MOS值。

这样，通过相关性信息进行池化处理，由于注意力池化相比于传统全局平均池化方法进行降维，注意力池化方法能够进一步提取特征中的有效信息，从而降低损失函数值，有利于提升模型判决精度。

在本申请的一个实施例中，将第一语音质量评估值和第二语音质量评估值进行整合，得到待评估的语音内容的语音质量评估分数，包括：

对第二语音质量评估值进行最小均分误差计算，得到误差分数；

将第一语音质量评估值与误差分数进行求和，以得到语音质量评估分数。

为了便于理解本申请的技术方案，举例如下，经过池化处理得到的是32帧12维的矩阵，假设每一行有12维特征，那就是32行*12维的矩阵，比如第一帧12个特征，若要知道哪一个特征更重要，则就给它加个权，假设第一个特征的重要性是0.1，第二个特征的重要性是0.2，然后加权把他们加起来最终得到一个数值，这个数值就代表了第一帧的分数，这样，由于待评估的语音内容包括多个音频帧，每一帧都有一个分数，由于一共有32帧，则有32个分数，最终得到32*1的向量。在得到该向量之后，由于需要的是整句的表示的一个分数，接着经过一个输入节点32，输出节点为1的一个全连接，最后得到的分数就是一个1*1的，就是一句话就是一个分数，经过池化处理得到的是1*1向量，也就是该段语音的分值，即第一语音质量评估分数，比如这段话的分值是3。

而经过全连接处理得到的是每一帧的分值，例如该段语音有32帧，通过全连接处理然后第一帧是多少分，第二帧是多少分，然后第32帧是多少分，即每一帧的分值，也就是第二语音质量评估分数。

由于经过池化处理得到的是一个向量，而经过全连接处理后得到的是32个向量，则需要将两个向量进行整合，最终输出一个数值，以得到待评估的语音内容的语音质量评估分数。

这样，加入帧级别的评估分数之后，可以让最小均分误差降得更低，由于最小均分误差越小越好，最小均分误差值越小代表预测的分数接近真实分数，所以加入帧级别的分数之后，让最小均分误差变得更小，就是更接近真实分数。通过将第一语音质量评估值和第二语音质量值进行整合，从而有利于得到最终的待评估的语音内容的语音质量评估分数。

为了便于理解本申请的整体技术方案，图8示意性地示出了本申请实施例提供的整体语音质量评估方法的步骤流程，具体包括如下以下步骤S810至步骤S870：

步骤S810，输入音频，也就是输入待评估的语音内容。

步骤S820，对待评估的语音内容进行频谱特征提取，得到语音内容所包含的各个音频帧的频谱特征。

步骤S830，将各个音频帧的频谱特征经过卷积处理，得到各个音频帧的语音特征。

步骤S840，将各个音频帧的语音特征经过第一全连接层处理，得到降低维度后的各个音频帧的语音特征。

步骤S850，通过自注意力机制对各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息。

步骤S860，对相关性信息进行池化处理，得到第一语音质量评估值。

步骤S870，对相关性信息进行第二全连接层处理，得到第二语音质量评估值。

最后，将第一语音质量评估值和第二语音质量评估值进行整合，得到待评估的语音内容的语音质量评估分数。

在本申请的一个实施例中，对于自注意力机制的使用，自注意力机制可以采用SE（Squeeze-Excitation）模型，图9示意性地示出了本申请实施例提供的SE模型的结构框图，参见图9，自注意力机制通过考虑特征图与通道中的注意力关系，使神经网络模型关注到整个高维特征中的有效信息。

具体地，SE模型是在

变化上建立的，

可以看成简单的卷积操作，其中

的输入为

，得到输出为

。为了让通道间的特征更好的利用全局信息，在提取到的特征被送入下一层前，进行了squeeze和excitation两步操作，也就是对应到图9中的

和

，其中，squeeze用于对提取到的特征在每个通道上执行全局平均池化，excitation用于对得到的结果进行自适应校准。最后将自适应校准的结果与上一层的结果相乘，对应图9中的

，就是通道上的乘积，以得到最终的输出结果。这里通过卷积层的建模，使得通道间的卷积特征有了一些隐形的提取过程。

对于SE模型简单来说，就是先对整个张量进行全局信息的获取即将张量转换为通道数，然后经过两个全连接层进行训练，最后将训练结果与上一层的输入相乘，以得到对应的输出结果。得到的输出结果可以认作是各个通道的重要性，而各个通道的重要性也可以理解为是一种注意力，权重越高的，就把越多注意力放在这一通道上，因此通过SE模型的处理，可以得到各个音频帧在语音内容中的重要性。

对应地，图10示意性地示出了本申请实施例提供的自注意力机制的结构框图，该图为与图9对应的结构框图。参见图10，输入为Q、K、V，其中Q、K、V代表的是不同音频帧的语音特征，Q、K相乘之后，再经过scale之后，维度发生变化，然后经过Mask和SoftMax的处理，将得到的输出结果和V相乘，最后得到各个音频帧在语音内容中的重要程度。这样，以便于后续得到较准确的评估分数值。

图11示意性地示出了本申请实施例提供的语音质量评估模型训练方法的步骤流程，该语音质量评估模型训练方法的执行主体可以是终端设备，也可以是服务器。如图11所示，该语音质量评估模型训练方法主要可以包括如下步骤S1110至步骤S1160：

步骤S1110，获取语音样本。

其中，语音样本中包含有从客户端获取到的玩家在游戏当中的游戏语音信息。

步骤S1120，对语音样本进行特征提取，得到语音样本所包含的各个音频帧的语音特征。

在获取得到待评估的语音内容后，对该待评估的语音内容进行特征提取，以得到各个音频帧的语音特征。这样，通过对待评估的语音内容进行特征提取，可以有利于后续对该语音内容的语音质量进行评估。其中，在对待评估的语音内容进行特征提取时，可以采用梅尔滤波的方式进行特征提取，以保证提取到的语音特征更加符合人耳听觉特性。

步骤S1130，通过自注意力机制对各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，相关性信息表示各个音频帧在语音样本中的重要性。

自注意力机制（Self-Attention）可以使得神经网络充分学习到音频信号中的前后相关性，使得模型关注到对结果更有利的特征，而少关注无用特征。

步骤S1140，对相关性信息进行池化处理，得到第一语音质量评估值，并对相关性信息进行全连接处理，得到第二语音质量评估值。

步骤S1150，将第一语音质量评估值和第二语音质量评估值进行整合，得到语音样本的语音质量评估分数。

具体地，对第二语音质量评估值进行最小均分误差计算，得到误差分数；将第一语音质量评估值与误差分数进行求和，以得到语音质量评估分数。

步骤S1160，将语音质量评估分数与语音样本对应的真实分数进行比对，并根据比对结果，对语音质量评估模型的参数进行调整。

这样，无需参考信号进行语音质量评估，通过使用自注意力机制对各个音频帧的语音特征进行处理，以得到各个音频帧之间的相关性信息，然后再对相关性信息分别经过池化处理以及全连接处理，以得到第一语音质量评估值和第二语音质量评估值，其中，通过将相关性信息经过全连接处理增加了帧级别的分数评估，使得评估过程更加平稳，减少了预测分数与真实分数之间的误差，最后，通过将第一语音质量评估值和第二语音质量评估值进行整合，输出一个较准确的待评估的语音内容的语音质量评估分数。通过将语音质量评估分数与语音样本对应的真实分数进行比对，并根据比对结果，不断调整语音质量评估模型的参数，从而有利于得到较准确的语音质量评估模型，以使得输出的语音质量评估结果接近于真实语音质量。

在本申请的一个实施例中，方法还包括：

根据语音样本对应的真实分数与语音质量评估分数，计算损失函数的值；

对语音质量评估模型的参数进行调整，直至损失函数的值收敛。

这样，不断地对语音质量评估模型的参数进行调整，直至损失函数的值收敛，使得得到的语音质量评估模型的参数是最优参数，从而有利于得到较佳的语音质量评估模型。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的语音质量评估方法或者语音质量评估模型训练方法。图12示意性地示出了本申请实施例提供的语音质量评估装置的结构框图。如图12所示，根据本申请实施例的一个方面，提供一种语音质量评估装置，该语音质量评估装置1200包括：

提取模块1201，用于对待评估的语音内容进行特征提取，得到语音内容所包含的各个音频帧的语音特征；

第一处理模块1202，用于通过自注意力机制对各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，相关性信息表示各个音频帧在语音内容中的重要性；

第二处理模块1203，用于对相关性信息进行池化处理，得到第一语音质量评估值，并对相关性信息进行全连接处理，得到第二语音质量评估值；

整合模块1204，用于将第一语音质量评估值和第二语音质量评估值进行整合，得到待评估的语音内容的语音质量评估分数。

在本申请的一些实施例中，基于以上技术方案，提取模块1201包括：

分帧模块，用于对待评估的语音内容进行分帧处理，得到多个音频帧；

滤波模块，用于对每个音频帧对应的频谱信息进行滤波处理，得到每个音频帧的频谱特征；

卷积模块，用于对每个音频帧的频谱特征进行卷积处理，得到各个音频帧的语音特征。

在本申请的一些实施例中，基于以上技术方案，滤波模块还用于，对每个音频帧对应的频谱信息进行梅尔滤波处理，以得到每个音频帧的频谱特征。

在本申请的一些实施例中，基于以上技术方案，提取模块1201还包括预处理模块，用于将待评估的语音内容进行预加重处理，以增强待评估的语音内容中的高频信号。

在本申请的一些实施例中，基于以上技术方案，分帧模块还用于，在对待评估的语音内容进行分帧之后，进行加窗处理，以得到连续的多个音频帧。

在本申请的一些实施例中，基于以上技术方案，分帧模块还用于，在对待评估的语音内容进行分帧之后，使用汉明窗进行加窗处理，以得到连续的多个音频帧。

在本申请的一些实施例中，基于以上技术方案，卷积模块还用于，在对每个音频帧的频谱特征进行卷积处理之后，依次进行归一化处理、非线性变换处理以及池化处理，以得到各个音频帧对应的语音特征。

在本申请的一些实施例中，基于以上技术方案，第二处理模块还用于，对相关性信息进行注意力池化处理，以得到第一语音质量评估值。

在本申请的一些实施例中，基于以上技术方案，整合模块还用于，对第二语音质量评估值进行最小均分误差计算，得到误差分数；将第一语音质量评估值与误差分数进行求和，以得到语音质量评估分数。

图13示意性地示出了本申请实施例提供的语音质量评估模型训练装置的结构框图。如图13所示，根据本申请实施例的一个方面，提供一种语音质量评估模型训练装置，模型训练装置1300包括：

样本获取模块1301，用于获取语音样本；

提取模块1302，用于对语音样本进行特征提取，得到语音样本所包含的各个音频帧的语音特征；

第一处理模块1303，用于通过自注意力机制对各个音频帧的语音特征进行处理，得到各个音频帧之间的相关性信息，相关性信息表示各个音频帧在语音样本中的重要性；

第二处理模块1304，用于对相关性信息进行池化处理，得到第一语音质量评估值，并对相关性信息进行全连接处理，得到第二语音质量评估值；

整合模块1305，用于将第一语音质量评估值和第二语音质量评估值进行整合，得到语音样本的语音质量评估分数；

参数优化模块1306，用于将语音质量评估分数与语音样本对应的真实分数进行比对，并根据比对结果，对语音质量评估模型的参数进行调整。

在本申请的一些实施例中，基于以上技术方案，装置还包括调整模块，用于根据语音样本对应的真实分数与语音质量评估分数，计算损失函数的值；对语音质量评估模型的参数进行调整，直至损失函数的值收敛。

本申请各实施例中提供的语音质量评估装置或者语音质量评估模型训练装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图14示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图14示出的电子设备的计算机系统1400仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图14所示，计算机系统1400包括中央处理器1401（Central Processing Unit，CPU），其可以根据存储在只读存储器1402（Read-Only Memory，ROM）中的程序或者从存储部分1408加载到随机访问存储器1403（Random Access Memory，RAM）中的程序而执行各种适当的动作和处理。在随机访问存储器1403中，还存储有系统操作所需的各种程序和数据。中央处理器1401、在只读存储器1402以及随机访问存储器1403通过总线1404彼此相连。输入/输出接口1405（Input /Output接口，即I/O接口）也连接至总线1404。

以下部件连接至输入/输出接口1405：包括键盘、鼠标等的输入部分1406；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分1407；包括硬盘等的存储部分1408；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至输入/输出接口1405。可拆卸介质1411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1410上，以便于从其上读出的计算机程序根据需要被安装入存储部分1408。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1409从网络上被下载和安装，和/或从可拆卸介质1411被安装。在该计算机程序被中央处理器1401执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音质量评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音质量评估方法，其特征在于，所述对待评估的语音内容进行特征提取，得到所述语音内容所包含的各个音频帧的语音特征，包括：

对所述待评估的语音内容进行分帧处理，得到多个音频帧；

对每个音频帧进行傅里叶变换，得到每个音频帧对应的频谱信息；

对所述每个音频帧对应的频谱信息进行滤波处理，得到所述每个音频帧的频谱特征；

对所述每个音频帧的频谱特征进行卷积处理，得到所述各个音频帧的语音特征。

3.根据权利要求2所述的语音质量评估方法，其特征在于，所述对所述每个音频帧对应的频谱信息进行滤波处理，得到所述每个音频帧的频谱特征，包括：

对所述每个音频帧对应的频谱信息进行梅尔滤波处理，以得到所述每个音频帧的频谱特征。

4.根据权利要求2所述的语音质量评估方法，其特征在于，所述对所述待评估的语音内容进行分帧处理之前，所述方法还包括：

将所述待评估的语音内容进行预加重处理，以增强所述待评估的语音内容中的高频信号。

5.根据权利要求2所述的语音质量评估方法，其特征在于，所述对所述待评估的语音内容进行分帧处理，得到多个音频帧，包括：

在对所述待评估的语音内容进行分帧之后，进行加窗处理，以得到连续的所述多个音频帧。

6.根据权利要求5所述的语音质量评估方法，其特征在于，所述在对所述待评估的语音内容进行分帧之后，进行加窗处理，以得到连续的所述多个音频帧，包括：

在对所述待评估的语音内容进行分帧之后，使用汉明窗进行加窗处理，以得到连续的所述多个音频帧。

7.根据权利要求2所述的语音质量评估方法，其特征在于，所述对所述每个音频帧的频谱特征进行卷积处理，得到所述各个音频帧的语音特征，包括：

在对所述每个音频帧的频谱特征进行卷积处理之后，依次进行归一化处理、非线性变换处理以及池化处理，以得到所述各个音频帧对应的语音特征。

8.根据权利要求1所述的语音质量评估方法，其特征在于，所述对所述相关性信息进行池化处理，得到第一语音质量评估值，包括：

对所述相关性信息进行注意力池化处理，以得到所述第一语音质量评估值。

9.根据权利要求1至8中任一项所述的语音质量评估方法，其特征在于，所述将所述第一语音质量评估值和所述第二语音质量评估值进行整合，得到所述待评估的语音内容的语音质量评估分数，包括：

对所述第二语音质量评估值进行最小均分误差计算，得到误差分数；

将所述第一语音质量评估值与所述误差分数进行求和，以得到所述语音质量评估分数。

10.一种语音质量评估模型训练方法，其特征在于，所述方法包括：

获取语音样本；

11.根据权利要求10所述的语音质量评估模型训练方法，其特征在于，所述方法还包括：

根据所述语音样本对应的真实分数与所述语音质量评估分数，计算损失函数的值；

对语音质量评估模型的参数进行调整，直至所述损失函数的值收敛。

12.一种语音质量评估装置，其特征在于，所述装置包括：

13.一种语音质量评估模型训练装置，其特征在于，所述装置包括：

样本获取模块，用于获取语音样本；

14.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至9中任意一项所述的语音质量评估方法，或者如权利要求10至11中任意一项所述的语音质量评估模型训练方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任意一项所述的语音质量评估方法，或者如权利要求10至11中任意一项所述的语音质量评估模型训练方法。