CN113436644B

CN113436644B - 音质评估方法、装置、电子设备及存储介质

Info

Publication number: CN113436644B
Application number: CN202110806154.XA
Authority: CN
Inventors: 张旭; 郑羲光; 张晨; 郭亮
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-09-01
Anticipated expiration: 2041-07-16
Also published as: CN113436644A

Abstract

本公开关于一种音质评估方法、装置、电子设备及存储介质，所述音质评估方法包括：获取关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号；根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果。

Description

音质评估方法、装置、电子设备及存储介质

技术领域

本公开涉及信号处理领域，尤其涉及一种音质评估方法、装置、电子设备及存储介质，此外，还涉及一种用于音质评估的深度神经网络模型的训练方法和训练装置。

背景技术

音频信号客观质量评估可以分为两种方法，即完全参考方法和无参考方法。如PESQ和Polqa就是一种完全参考的语音质量评估方法。完全参考方法需要的输入信号为原始无损的语音信号和音质被各种可能原因降低的对应音频信号(将被进行质量评估的信号)。通过对比原始参考信号和对应的被评估信号，取得一个差距值，根据差距的大小来给定被打分信号的质量(例如，打分)。相对于有参考打分方法，目前业界尚无广泛采纳的无参考音频音质打分方法(不需要原始语音参考，直接对输入的音频信号进行打分)。这些无参考音频音质打分方法普遍存在音质评估不准确的问题。

发明内容

本公开提供一种音频处理方法、装置电子设备及存储介质，以至少解决相关技术中的音质评估不准确的问题。

根据本公开实施例的第一方面，提供了一种音质评估方法，所述音质评估方法包括：获取关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号；根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果。

可选地，所述根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果，包括：根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，利用用于音质评估的深度神经网络模型获得关于发送端与接收端之间的语音通信的音质评估结果。

可选地，所述根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，利用用于音质评估的深度神经网络模型获得关于发送端与接收端之间的语音通信的音质评估结果，包括：提取接收端接收的音频信号的音频特征；基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果。

可选地，所述深度神经网络模型是卷积神经网络和循环神经网络结合的网络结构。

可选地，所述基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果，包括：将所述音频特征输入所述卷积神经网络的卷积层；将所述卷积神经网络的输出与所述网络传输信息和所述音质评估信息串联后输入所述卷积神经网络的第一全连接层；将第一全连接层的输出输入到循环神经网络来获得时序信息；将所述时序信息输入到所述卷积神经网络的第二全连接层，获得所述音质评估结果。

可选地，所述音质评估信息是通过以下方式之一获得的：基于发送端的回声消除质量评估结果、降噪质量评估结果、自动增益控制模块的增益、音频编解码模块使用的码率以及发送端发送的音频信号，获得所述音质评估信息；基于发送端的回声消除模块的输入、输出和估计的回声信号、降噪模块估计的噪声和降噪模块的输出、自动增益控制模块的增益和输出、音频编解码模块使用的码率和发送端发送的音频信号，获得所述音质评估信息。

可选地，所述音频特征是接收端接收的音频信号的幅度和/或相位本身，或者是通过对幅度和/或相位进行处理而得到的音频特征。

可选地，所述循环神经网络是长短期记忆LSTM网络或门控循环单元GRU网络。

根据本公开实施例的第二方面，提供了一种用于音质评估的深度神经网络模型的训练方法，所述训练方法包括：获取训练数据和针对训练数据的音质评估标记，其中，所述训练数据包括关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号；基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果；将预测出的音质评估结果与所述音质评估标记进行比较来调整所述深度神经网络模型的参数。

可选地，所述基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果，包括：提取接收端接收的音频信号的音频特征；基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果。

可选地，所述基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络获得所述音质评估结果，包括：将所述音频特征输入所述卷积神经网络的卷积层；将所述卷积神经网络的输出与所述网络传输信息和所述音质评估信息串联后输入所述卷积神经网络的第一全连接层；将第一全连接层的输出输入到循环神经网络来获得时序信息；将所述时序信息输入到所述卷积神经网络的第二全连接层，获得所述音质评估结果。

根据本公开实施例的第三方面，提供了一种音质评估装置，所述音质评估装置包括：信息获取单元，被配置为获取关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号；音质评估单元，被配置为根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果。

根据本公开实施例的第四方面，提供了一种用于音质评估的深度神经网络模型的训练装置，所述训练装置包括：数据获取单元，被配置为获取训练数据和针对训练数据的音质评估标记，其中，所述训练数据包括关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号；训练单元，被配置为基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果，并且将预测出的音质评估结果与所述音质评估标记进行比较来调整所述深度神经网络模型的参数。

根据本公开实施例的第五方面，提供了一种电子设备，其特征在于，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音质评估方法或训练方法。

根据本公开实施例的第六方面，提供了一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音质评估方法或训练方法。

根据本公开实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如上所述的音质评估方法或训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：根据本公开实施例的音质评估方法，通过根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果，可以更加准确地实现音质无参考评估，得到更加准确的音质评估结果。根据本公开实施例的训练方法，由于基于包括关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号的训练数据来训练深度神经网络模型，因此，可以训练出能够提供更准确的音质评估结果的深度神经网络模型。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的示例实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开的示例性实施例可以应用于其中的示例性系统架构；

图2是本公开示例性实施例的音质评估方法的流程图；

图3是示出本公开示例性实施例的获得关于发送端发送的音频信号的音质评估信息的一种方式的示意图；

图4是示出本公开示例性实施例的获得关于发送端发送的音频信号的音质评估信息的另一种方式的示意图；

图5是本公开示例性实施例的利用深度神经网络模型的音质评估方法的示意图；

图6是本公开示例性实施例的用于音质评估的深度神经网络模型执行的操作的示意图；

图7是本公开示例性实施例的用于音质评估的深度神经网络模型的训练方法的流程图；

图8是示出本公开示例性实施例的音质评估装置的框图；

图9是示出本公开示例性实施例的训练装置的框图；

图10是根据本公开示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1示出了本公开的示例性实施例可以应用于其中的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息(例如视频数据上传请求、视频数据下载请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如音视频通信软件、音视频录制软件、即使通信软件、会议软件、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且能够进行音视频播放、录制、编辑等的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备101、102、103可以安装有图像采集装置(例如摄像头)，以采集视频数据。实践中，组成视频的最小视觉单位是帧(Frame)。每一帧是一幅静态的图像。将时间上连续的帧序列合成到一起便形成动态视频。此外，终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬声器)以播放声音，并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如，麦克风)以采集声音。另外，终端设备101、102、103之间可彼此进行语音通信或视频通信。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上所安装的多媒体应用提供支持的后台服务器。后台服务器可以对所接收到的音视频数据上传请求等数据进行解析、存储等处理，并且还可以接收终端设备101、102、103所发送的音视频数据下载请求，并将该音视频数据下载请求所指示的音视频数据反馈至终端设备101、102、103。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的音质评估方法通常由终端设备执行，但是也可由服务器执行，或者也可以由终端设备和服务器协作执行。相应地，音质评估装置可设置在终端设备中、服务器中或者设置在终端设备和服务器两者中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本公开对此并无限制。

如背景技术中所述，现有的无参考打分网络，都或多或少的存在自己的弊端，例如，现有的利用深度学习进行无参考音质评估，对于实际使用场景下如静音+语音等效果不稳定，且复杂度偏高，无法在移动端实时处理；而另外一些打分机制仅利用上行算法中的参数和网络传输的信息，与信号本身脱离，若接受信号本身质量较差，则存在打分不准确的情况。基于此，本文提出了一种结合上行信息、网络传输信息、以及信号本身的语音音质无参考评估机制，该机制可解决现有无参考打分机制存在的打分不准确问题，使语音音质无参考评估更加准确，而且复杂度不改，利于在移动端实时处理。

图2是本公开示例性实施例的音质评估方法的流程图。

参照图2，在步骤S210，获取关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号。作为示例，关于发送端发送的音质信号的音质评估信息(在下文中，也可被称为“上行音质评估结果”)可以是对该音频信号的打分信息。

图3是示出本公开示例性实施例的获得关于发送端发送的音频信号的音质评估信息的一种方式的示意图。如图3所示，可以基于发送端的回声消除质量评估结果、降噪质量评估结果、自动增益控制模块的增益、音频编解码模块使用的码率以及发送端发送的音频信号，获得上述音质评估信息。

具体而言，如图3所示，发送端通常可包括回声消除(AEC)模块、降噪模块、自动增益控制(AGC)模块和音频编解码模块(CODEC)。在发送端和接收端进行语音通信时，发送端通过音频采集设备获得采集信号，采集信号中可以包括发送端用户自身的语音和采集的发送端扬声器播放的用户语音。在获得采集信号之后，发送端的AEC模块可以基于参考信号和采集信号执行回声消除处理。这里，参考信号可以是发送端扬声器播放的用户语音。在回声消除处理过程中，AEC可以获得参考估计，即，估计的回声。基于参考信号、采集信号、参考估计和AEC输出，可以执行AEC质量估计，进而获得发送端的回声消除质量评估结果。例如，可以使用任何已知的AEC质量评估规则或使用AEC质量评估网络来获得回声消除质量评估结果。之后，AEC的输出被输入到发送端的降噪模块。降噪模块可以对AEC输出进行降噪处理，在降噪处理中会进行噪声估计，得到估计的噪声。基于AEC输出、估计的噪声和降噪模块的输出(即，降噪后的音频信号)，可以执行降噪质量评估，进而获得发送端的降噪质量评估结果。接下来，AGC模块对降噪模块的输出执行自动增益控制，得到AGC输出。随后，CODEC可对AGC输出按照一定码率进行音频编码，最终得到将发送给接收端的发送信号，即，发送端发送的音频信号。最后，可基于发送端的回声消除质量评估结果、降噪质量评估结果、自动增益控制模块的增益、音频编解码模块使用的码率以及发送端发送的音频信号执行上行音质评估来获得上述音质评估信息。例如，可以将发送端的回声消除质量评估结果、降噪质量评估结果、自动增益控制模块的增益、音频编解码模块使用的码率以及发送端发送的音频信号输入预先训练的上行音质评估网络(例如，深度神经网络模型)得到上述音质评估信息(在下文中，也可被称为“上行音质评估结果”)。上述音质评估信息可以是对发送端发送的音频信号的音质评分，具体可以是采集信号经过发送端的各模块之后的音质评分。

可选地，除了采用图3所示的方式来获得关于发送端发送的音频信号的音质评估信息之外，还可采用其他方式获得上述音质评估信息。图4是示出本公开示例性实施例的获得关于发送端发送的音频信号的音质评估信息的另一种方式的示意图。

如图4所示，与图3的方式不同的是，在图4的方式中，并没有单独对AEC质量进行评估，也没有对降噪质量进行评估，而是基于发送端的回声消除模块的输入、输出和估计的回声信号、降噪模块估计的噪声和降噪模块的输出、自动增益控制模块的增益和输出、音频编解码模块使用的码率和发送端发送的音频信号，获得上述音质评估信息。例如，可以将发送端的回声消除模块的输入、输出和估计的回声信号、降噪模块估计的噪声和降噪模块的输出、自动增益控制模块的增益和输出、音频编解码模块使用的码率和发送端发送的音频信号输入预先训练的上行音质评估网络(例如，深度神经网络模型)得到上述音质评估信息。上述音质评估信息可以是对发送端发送的音频信号的音质评分。

通过采用图3和图4所示的方式，由于将上行算法参数与上行信号结合来进行上行音质评估，因此能够更加准确地评估即将发送的音频信号的质量。

以上，参照图3和图4描述了获得关于发送端发送的音频信号的音质评估信息的示例性方式，但是获得关于发送端发送的音频信号的音质评估信息的方式不限于以上示例性方式。

根据示例性实施例，上述网络传输信息是关于发送端与接收端之间的网络情况的信息，例如，网络传输质量信息，诸如，网络丢包率(如，单位时间内的丢包率)等。

返回参照图2，在获取到关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号之后，在步骤S220，可根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果。作为示例，上述音质评估结果可以是打分结果，但是音质评估结果的呈现方式不限于分数。

作为示例，在步骤S220，可以根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，利用用于音质评估的深度神经网络模型获得关于发送端与接收端之间的语音通信的音质评估结果。具体地，可首先提取接收端接收的音频信号的音频特征，然后，可基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果。作为示例，所述音频特征可以是接收端接收的音频信号的幅度和/或相位本身，或者也可以是通过对幅度和/或相位进行处理而得到的音频特征。例如，在提取音频信号的音频特征时，可以通过时频转换方法对音频信号进行变换，例如，可通过STFT变换将音频信号S(t)转换至时频域得到复数信号S(n，k)：

S(n，k)＝STFT(S(t))＝A(n，k)*e^iθ(n，k) (1)

其中，A(n，k)为信号幅度，θ(n，k)为相位，n是帧数，k是频点。如上所述，信号的幅度、相位可以直接作为表征音频信号的特征，或者，通过对音频信号的幅度和/或相位进行加工，可以得到其他的音频特征，包括但不限于：mel-frequency cepstrum(mfcc倒谱)、melspectrogram(梅尔谱)等。

可选地，例如，还可以使用改进离散余弦变换MDCT对音频信号进行变换来得到变换后的实数结果S(n，k)，作为音频特征：

S(n，k)＝MDCT(S(t))＝M(n，k) (2)

尽管以上示出了通过STFT变换和MDCT变换来提取音频信号的特征，但是提取音频信号的特征不限于以上方式，而是可根据实际需要采用任何合适的音频信号提取方式。

如上所述，在提取音频特征之后，可以基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果。图5是本公开示例性实施例的利用深度神经网络模型的音质评估方法的示意图。

如图5所示，接收端接收的音频信号的音频特征、网络传输信息(例如，网络QOS)和音质评估信息(例如，上行音质打分)可被输入到用于音质评估的深度神经网络模型(在下文中，也可被称为“音质评估网络”)，并利用音质评估网络获得音质评估结果。作为示例，所述深度神经网络模型可以是卷积神经网络和循环神经网络结合的网络结构。例如，所述循环神经网络可以是长短期记忆LSTM网络或门控循环单元GRU网络，但不限于此。

在所述深度神经网络模型是卷积神经网络和循环神经网络结合的网络结构的情况下，基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果可以包括：将所述音频特征输入所述卷积神经网络的卷积层；将所述卷积神经网络的输出与所述网络传输信息和所述音质评估信息串联后输入所述卷积神经网络的第一全连接层；将第一全连接层的输出输入到循环神经网络来获得时序信息；将所述时序信息输入到所述卷积神经网络的第二全连接层，获得所述音质评估结果。

利用根据本公开实施例的深度神经网络模型执行音质评估，不仅音质评估更加准确，而且复杂度不高，可以在移动端实时处理。

图6是本公开示例性实施例的用于音质评估的深度神经网络模型执行的操作的示意图。

如图6所示，提取的音频特征(二维的梅尔谱)首先被输入卷积神经网络的三个二维卷积层，随后，卷积后的特征向量与上行音质打分结果和网络QOS串联起来作为一个新的输入特征输入卷积神经网络的一个全连接层，之后，该全连接层的输出被输入到两个GRU层，得到时序信息。最后，该时序信息被输入到卷积神经网络的另一个全连接层，得到最终的音质评估结果(如，最终打分结果)。这里，时序信息是反映输入到深度神经网络模型的各信息的时序的信息。

以上已经参照图2至图6描述了根据本公开实施例的音质评估方法，根据上述音质评估方法，由于根据获取的关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号来获得关于发送端与接收端之间的语音通信的音质评估结果，因此可以解决现有无参考打分机制存在的打分不准确问题，使语音音质无参考评估更加准确，而且，可解决采集信号本身不准确的问题，更加准确定位出音质问题的所在。

在上文中，提到了可以利用用于音质评估的深度神经网络模型获得关于发送端与接收端之间的语音通信的音质评估结果。下面对用于音质评估的深度神经网络模型的训练进行简要介绍。

图7是本公开示例性实施例的用于音质评估的深度神经网络模型的训练方法的流程图。

参照图7，在步骤S710，获取训练数据和针对训练数据的音质评估标记，其中，所述训练数据包括关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号。这里，针对训练数据的音质评估标记可以是人工基于用户主动感知而标注的音质评分，或者也可以是使用完全参考音质评估方法得到的音质评分。此外，所述音质评估信息可以是通过以下方式之一获得的：基于发送端的回声消除质量评估结果、降噪质量评估结果、自动增益控制模块的增益、音频编解码模块使用的码率以及发送端发送的音频信号，获得所述音质评估信息；基于发送端的回声消除模块的输入、输出和估计的回声信号、降噪模块估计的噪声和降噪模块的输出、自动增益控制模块的增益和输出、音频编解码模块使用的码率和发送端发送的音频信号，获得所述音质评估信息。以上已经参照图3和图4介绍了获得音质评估信息的具体方式，这里不再赘述。

在步骤S720，基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果。具体地，可首先提取接收端接收的音频信号的音频特征，随后，可基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果。这里，作为示例，音频特征是接收端接收的音频信号的幅度和/或相位本身，或者是通过对幅度和/或相位进行处理而得到的音频特征。

根据示例性实施例，所述深度神经网络模型可以是卷积神经网络和循环神经网络结合的网络结构。例如，所述循环神经网络可以是长短期记忆LSTM网络或门控循环单元GRU网络，但不限于此。根据示例性实施例，在所述深度神经网络模型是卷积神经网络和循环神经网络结合的网络结构的情况下，可通过以下方式获得上述音质评估结果：将所述音频特征输入所述卷积神经网络的卷积层；将所述卷积神经网络的输出与所述网络传输信息和所述音质评估信息串联后输入所述卷积神经网络的第一全连接层；将第一全连接层的输出输入到循环神经网络来获得时序信息；将所述时序信息输入到所述卷积神经网络的第二全连接层，获得所述音质评估结果。

接下来，在步骤S730，将预测出的音质评估结果与所述音质评估标记进行比较来调整所述深度神经网络模型的参数。具体地，可将预测出的音质评估结果与所述音质评估标记进行比较来计算预测损失，然后，不断调整参数直至预测损失最小。

此外，本领域技术人员均熟知的是，深度神经网络模型在训练时模型执行的操作和预测时模型执行的操作完全相同，只是训练时使用的是训练数据，而预测时使用的真实的待预测数据，而且训练过程中在得到预测结果后会将预测结果与真实标记进行比较来调整模型参数，因此，鉴于以上已经在描述视频处理方法中对深度神经网络模型所执行的操作以及各个操作所涉及的细节进行过介绍，这里不再对它们进行赘述。相应部分可参照图2至图6中的相应描述。

根据本公开实施例的上述训练方法，由于基于包括关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号的训练数据来训练深度神经网络模型，因此，可以训练出能够提供更准确的音质评估结果的深度神经网络模型。

图8是示出本公开示例性实施例的音质评估装置的框图。

参照图8，音质评估装置800可包括信息获取单元810和音质评估单元820。具体而言，信号获取单元810可获取关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号。音质评估单元820可根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果。

由于图2所示的音质评估方法可由图8所示的音质评估装置800来执行，并且信息获取单元810和音质评估单元820可分别执行与图2中的步骤S210和步骤S220对应的操作，因此，关于图8中的各单元所执行的操作中涉及的任何相关细节均可参见关于图2至图6的相应描述，这里都不再赘述。

此外，需要说明的是，尽管以上在介绍音质评估装置800时将其划分为用于分别执行相应处理的单元，然而，本领域技术人员清楚的是，上述各单元执行的处理也可以在音质评估装置800不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外，音质评估装置800还可包括其他单元，例如，存储单元等。

图9是示出本公开示例性实施例的训练装置的框图。

参照图9，训练装置900可包括数据获取单元910和训练单元920。具体而言，数据获取单元910可获取训练数据和针对训练数据的音质评估标记、这里，所述训练数据可包括关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号。训练单元920可基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果，并且将预测出的音质评估结果与所述音质评估标记进行比较来调整所述深度神经网络模型的参数。

由于图7所示的训练方法可由图9所示的训练装置900来执行，并且数据获取单元910执行与图7中的步骤S710对应的操作，训练单元920执行与图7中的步骤S720和S730对应的操作，因此，关于图9中的各单元所执行的操作中涉及的任何相关细节均可参见关于图7的相应描述，这里都不再赘述。

此外，需要说明的是，尽管以上在介绍训练装置900时将其划分为用于分别执行相应处理的单元，然而，本领域技术人员清楚的是，上述各单元执行的处理也可以在训练装置900不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外，训练装置900还可包括其他单元，例如，存储单元等。

图10是根据本公开示例性实施例的电子设备的框图。

参照图10，电子设备1000可包括至少一个存储器1001和至少一个处理器1002，所述至少一个存储器存储计算机可执行指令，计算机可执行指令在被至少一个处理器执行时，促使至少一个处理器1002执行根据本公开实施例的音质评估方法或训练方法。

作为示例，电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码，其中，存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当所述指令由至少一个处理器执行时，促使所述至少一个处理器执行根据本公开示例性实施例的音质评估方法或训练方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的指令或计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序包括计算机指令，所述计算机指令被处理器执行时实现根据本公开示例性实施例的音质评估方法或训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求限定。

Claims

1.一种音质评估方法，包括：

获取关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号，其中，所述音频评估信息是对发送端发送的音频信号的音质评分；

根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果，

其中，所述音质评估信息是通过以下方式之一获得的：

基于发送端的回声消除质量评估结果、降噪质量评估结果、自动增益控制模块的增益、音频编解码模块使用的码率以及发送端发送的音频信号，获得所述音质评估信息；

基于发送端的回声消除模块的输入、输出和估计的回声信号、降噪模块估计的噪声和降噪模块的输出、自动增益控制模块的增益和输出、音频编解码模块使用的码率和发送端发送的音频信号，获得所述音质评估信息。

2.如权利要求1所述的音质评估方法，其中，所述根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果，包括：

根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，利用用于音质评估的深度神经网络模型获得关于发送端与接收端之间的语音通信的音质评估结果。

3.如权利要求2所述的音质评估方法，其中，所述根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，利用用于音质评估的深度神经网络模型获得关于发送端与接收端之间的语音通信的音质评估结果，包括：

提取接收端接收的音频信号的音频特征；

基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果。

4.如权利要求3所述的音质评估方法，其中，所述深度神经网络模型是卷积神经网络和循环神经网络结合的网络结构。

5.如权利要求4所述的音质评估方法，其中，所述基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果，包括：

将所述音频特征输入所述卷积神经网络的卷积层；

将所述卷积神经网络的输出与所述网络传输信息和所述音质评估信息串联后输入所述卷积神经网络的第一全连接层；

将第一全连接层的输出输入到循环神经网络来获得时序信息；

将所述时序信息输入到所述卷积神经网络的第二全连接层，获得所述音质评估结果。

6.如权利要求3所述的音质评估方法，其中，所述音频特征是接收端接收的音频信号的幅度和/或相位本身，或者是通过对幅度和/或相位进行处理而得到的音频特征。

7.如权利要求4所述的音质评估方法，其中，所述循环神经网络是长短期记忆LSTM网络或门控循环单元GRU网络。

8.一种用于音质评估的深度神经网络模型的训练方法，包括：

获取训练数据和针对训练数据的音质评估标记，其中，所述训练数据包括关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号，其中，所述音频评估信息是对发送端发送的音频信号的音质评分；

基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果；

将预测出的音质评估结果与所述音质评估标记进行比较来调整所述深度神经网络模型的参数，

其中，所述音质评估信息是通过以下方式之一获得的：

9.如权利要求8所述的训练方法，其中，所述基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果，包括：

提取接收端接收的音频信号的音频特征；

10.如权利要求9所述的训练方法，其中，所述深度神经网络模型是卷积神经网络和循环神经网络结合的网络结构。

11.如权利要求10所述的训练方法，其中，所述基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络获得所述音质评估结果，包括：

将所述音频特征输入所述卷积神经网络的卷积层；

12.如权利要求9所述的训练方法，其中，所述音频特征是接收端接收的音频信号的幅度和/或相位本身，或者是通过对幅度和/或相位进行处理而得到的音频特征。

13.如权利要求10所述的训练方法，其中，所述循环神经网络是长短期记忆LSTM网络或门控循环单元GRU网络。

14.一种音质评估装置，包括：

信息获取单元，被配置为获取关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号，其中，所述音频评估信息是对发送端发送的音频信号的音质评分；

音质评估单元，被配置为根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果，

其中，所述音质评估信息是通过以下方式之一获得的：

15.如权利要求14所述的音质评估装置，其中，所述根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，获得关于发送端与接收端之间的语音通信的音质评估结果，包括：

16.如权利要求15所述的音质评估装置，其中，所述根据获取的音质评估信息、网络传输信息以及接收端接收的音频信号，利用用于音质评估的深度神经网络模型获得关于发送端与接收端之间的语音通信的音质评估结果，包括：

提取接收端接收的音频信号的音频特征；

17.如权利要求16所述的音质评估装置，其中，所述深度神经网络模型是卷积神经网络和循环神经网络结合的网络结构。

18.如权利要求17所述的音质评估装置，其中，所述基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络模型获得所述音质评估结果，包括：

将所述音频特征输入所述卷积神经网络的卷积层；

19.如权利要求16所述的音质评估装置，其中，所述音频特征是接收端接收的音频信号的幅度和/或相位本身，或者是通过对幅度和/或相位进行处理而得到的音频特征。

20.如权利要求17所述的音质评估装置，其中，所述循环神经网络是长短期记忆LSTM网络或门控循环单元GRU网络。

21.一种用于音质评估的深度神经网络模型的训练装置，包括：

数据获取单元，被配置为获取训练数据和针对训练数据的音质评估标记，其中，所述训练数据包括关于发送端发送的音频信号的音质评估信息、网络传输信息以及接收端接收的音频信号，其中，所述音频评估信息是对发送端发送的音频信号的音质评分；

训练单元，被配置为基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果，并且将预测出的音质评估结果与所述音质评估标记进行比较来调整所述深度神经网络模型的参数，

其中，所述音质评估信息是通过以下方式之一获得的：

22.如权利要求21所述的训练装置，其中，所述基于所述训练数据，利用所述深度神经网络模型预测针对所述训练数据的音质评估结果，包括：

提取接收端接收的音频信号的音频特征；

23.如权利要求22所述的训练装置，其中，所述深度神经网络模型是卷积神经网络和循环神经网络结合的网络结构。

24.如权利要求23所述的训练装置，其中，所述基于提取的音频特征、所述网络传输信息以及所述音质评估信息，利用所述深度神经网络获得所述音质评估结果，包括：

将所述音频特征输入所述卷积神经网络的卷积层；

25.如权利要求22所述的训练装置，其中，所述音频特征是接收端接收的音频信号的幅度和/或相位本身，或者是通过对幅度和/或相位进行处理而得到的音频特征。

26.如权利要求23所述的训练装置，其中，所述循环神经网络是长短期记忆LSTM网络或门控循环单元GRU网络。

27.一种电子设备，其特征在于，包括:

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到13中的任一权利要求所述的方法。

28.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到13中的任一权利要求所述的方法。