CN113393863B

CN113393863B - 一种语音评价方法、装置和设备

Info

Publication number: CN113393863B
Application number: CN202110649894.7A
Authority: CN
Inventors: 陈伟宾; 高华; 陈力; 朱霜霜; 何超
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-11-03
Anticipated expiration: 2041-06-10
Also published as: CN113393863A

Abstract

本申请实施例公开了一种语音评价方法、装置和设备，针对语音通话过程中产生的待评价信号，获得待评价信号中的语音信号和噪声信号；根据语音信号确定第一评价结果，根据噪声信号确定第二评价结果；根据第一评价结果和第二评价结果确定待评价信号的目标评价结果。可见，该方法中将语音通话过程中产生的待评价信号拆分为语音信号和噪声信号，不仅对语音信号进行准确的评价，还考虑语音通话过程中的噪声信号，提供了对语音通话过程中所产生信号的准确、全面的评价方法，为后续调整语音通话过程中的设置，为用户提供更优质的语音通话服务提供了可信的数据基础。

Description

一种语音评价方法、装置和设备

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音评价方法、装置和设备。

背景技术

语音通话功能拉近了人与人之间的距离，方便人们在工作、生活中的沟通和交流。在语音通话过程中，如果语音通话质量良好，将给通话双方带来很好的使用体验，但是，如果语音通话质量不佳，则，给通话双方带来不便甚至对通话的效率大打折扣。那么，为用户提供高质量的语音通话体验，是目前提供语音通话服务的商家重点考虑的。而要想提供高质量的语音通话体验，对语音通话过程中产生的信号进行准确的评价，成为了目前亟待解决的问题。

目前对语音通话过程中产生的信号的评价，可以采用基于深度学习语音增强的无参考语音质量客观评估方法，该方法中首先将语音信号进行增强，然后分别计算增强前后的语音信号的梅尔倒谱系数(即MFCC系数)，再做两个MFCC系数的差；最后将两个MFCC系数的差作为输入，通过反向传播(英文：backpropagation，简称：BP)神经网络模型，该BP神经网络模型的输出即为该语音信号的客观分数。但是，该方法仅考虑了语音通话过程中的语音信号，对语音通话过程中影响语音通话质量的因素考虑不够全面，导致该方法得到的客观分数不能准确、全面的体现语音通话质量。

基于此，亟待提供一种能够准确的对语音通话过程中产生的信号进行评价的方法，从而使得语音通话过程尽可能的满足用户的需求。

发明内容

本申请实施例提供了一种语音评价方法、装置和设备，能够准确和全面的完成对语音通话过程中所生成的信号的评价，从而为合理设置语音通话设备提供了数据基础，使得为用户提供高质量的语音通话成为可能。

第一方面，本申请实施例提供了一种语音评价方法，该方法可以包括：针对语音通话过程中产生的待评价信号，获得所述待评价信号中的语音信号和噪声信号；接着，根据所述语音信号确定第一评价结果，根据所述噪声信号确定第二评价结果；从而，根据所述第一评价结果和所述第二评价结果，确定所述待评价信号的目标评价结果。

第二方面，本申请实施例还提供了一种语音评价装置，该装置包括：获取单元、第一确定单元和第二确定单元。其中，获取单元，用于针对语音通话过程中产生的待评价信号，获得所述待评价信号中的语音信号和噪声信号；第一确定单元，用于根据所述语音信号确定第一评价结果，根据所述噪声信号确定第二评价结果；第二确定单元，用于根据所述第一评价结果和所述第二评价结果，确定所述待评价信号的目标评价结果。

第三方面，本申请实施例还提供了一种电子设备，该电子设备包括：处理器和存储器；其中，所述存储器，用于存储指令或计算机程序；所述处理器，用于执行所述存储器中的所述指令或计算机程序，以使得所述电子设备执行以上第一方面提供的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行以上第一方面提供的方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供了一种语音评价方法，执行该方法的语音评价装置，针对语音通话过程中产生的待评价信号，可以先获得所述待评价信号中的语音信号和噪声信号；接着，根据所述语音信号确定第一评价结果，根据所述噪声信号确定第二评价结果；从而，根据第一评价结果和第二评价结果，确定所述待评价信号的目标评价结果。可见，该方法中语音评价装置对语音通话过程中产生的待评价信号，拆分为语音信号和噪声信号，不仅对语音信号进行准确的评价，还考虑语音通话过程中的噪声信号，将噪声信号也纳入评价语音通话的评价因素，从而，综合考虑语音信号和噪声信号的评价结果，得到该待评价信号的最终评价结果，提供了对语音通话过程中所产生信号的准确、全面的评价方法，为后续调整语音通话过程中的设置，为用户提供更优质的语音通话服务提供了可信的数据基础。

附图说明

图1为本申请实施例提供的一种语音评价方法的流程示意图；

图2为本申请实施例提供的S102中S1021的一实现方式的流程示意图；

图3为本申请实施例提供的深度学习网络的结构示意图；

图4为本申请实施例提供的S102中S1022的一实现方式的流程示意图；

图5为本申请实施例提供的一种语音评价装置的结构示意图；

图6为本申请实施例提供的一种电子设备的基本结构的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，并非对本申请的限定。另外，还需要说明的是，为便于描述，附图中仅示出了与本申请相关的部分，并非全部结构。

语音通话过程中，在语音的采集、传输、回访等环节中会受到噪声干扰、压缩调制、信号处理等影响，多少会造成语音质量降低，从而降低语音通话参与者的听觉感受，从而语音通话服务给用户带来较差的使用体验。为了能够为用户提供良好的语音通信质量，准确、合理的对语音通话过程中信号质量的评价显得尤为重要。

由于主观对语音通话过程中的信号进行评价的方法(如平均意见分数(英文：meanopinion score，简称：MOS)评测方法、ABtest方法等)，需要评测者人工执行，不仅耗费人力、物力资源，而且评价结果由于测评者的人工差异性而不够准确，所以，更多的采用客观的方式对该信号进行评价。目前，语音评价通常采用：有源-客观评价方式和无源-客观评价方式。

目前，有源-客观评价方法(如p.563)，需要提供参考源和待评价信号，借助深度学习方法进行语音评价，但是在实时通话中比较难得到该参考源，所以，有源-客观方法无法准确的对通话过程中的信号进行评价。

目前，采用基于深度学习语音增强的方法是较为成熟的无源-客观评价方式，该方法中，首先将语音信号进行增强；然后，分别计算增强前后的语音信号的MFCC系数；接着，计算两个MFCC系数的差；最后，将两个MFCC系数的差作为输入，通过BP神经网络模型，该BP神经网络模型的输出即为该语音信号的客观分数。

但是，发明人经过研究发现，该无源-客观评价方法仅考虑了语音通话过程中的语音信号，没有考量噪声信号对语音通话过程的影响，即，该方法对语音通话过程中影响语音通话质量的因素考虑不够全面，而且，该方法在创建虚拟参考源时只进行了语音增强，使得虚拟出的参考源无法描述实际的通话现象，导致该方法得到的客观分数不能准确、全面的体现语音通话质量。此外，该方法仅给出对语音信号的得分，但是不能反馈导致语音信号质量较低的原因，对语音通话过程中的语音质量的提升没有指导意义，无法实现为用户提供更优语音通话服务的最终目的。

基于此，本申请实施例提供了一种语音评价方法，执行该方法的语音评价装置，针对语音通话过程中产生的待评价信号，可以先获得所述待评价信号中的语音信号和噪声信号；接着，根据所述语音信号确定第一评价结果，根据所述噪声信号确定第二评价结果；从而，根据第一评价结果和第二评价结果，确定所述待评价信号的目标评价结果。可见，该方法中语音评价装置对语音通话过程中产生的待评价信号，拆分为语音信号和噪声信号，不仅对语音信号进行准确的评价，还考虑语音通话过程中的噪声信号，将噪声信号也纳入评价语音通话的评价因素，从而，综合考虑语音信号和噪声信号的评价结果，得到该待评价信号的最终评价结果，提供了对语音通话过程中所产生信号的准确、全面的评价方法，为后续调整语音通话过程中的设置，为用户提供更优质的语音通话服务提供了可信的数据基础。

需要说明的是，实现本申请实施例的主体可以为具有本申请实施例提供的语音评价功能的插件、客户端或服务器，其中插件或客户端可以承载于终端，该终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接相互交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。

为便于理解本申请实施例提供的语音评价方法的具体实现，下面将结合附图进行说明。

需要说明的是，下文的实施例中以执行主体为客户端(或者称为语音评价装置)为例进行说明。

参见图1，该图为本申请实施例提供的一种语音评价方法流程示意图，如果需要对语音通话过程中产生的信号进行评价，则，可以执行本申请实施例提供的该方法。如图1所示，该方法可以包括下述S101～S103：

S101，针对语音通话过程中产生的待评价信号，获得所述待评价信号中的语音信号和噪声信号。

通常，待评价信号中，不仅包括语音通话过程中通话参与者的语音信号，还包括语音通话过程中产生的噪声信号(如环境噪声、设备噪声等)。

具体实现时，语音评价装置可以对待评价信号进行处理，获得该待评价信号中的语音信号和噪声信号。作为一个示例，语音评价装置可以采用语音活动检测(英文：VoiceActivity Detection，简称：VAD)技术对待评价信号进行处理，得到该待评价信号中的语音信号和噪声信号。

可见，通过S101得到的语音信号和噪声信号，为对语音通话过程中产生的待评价信号的全面评价提供了丰富的数据基础，使得准确的对待评价信号进行评价成为可能。

S102，根据所述语音信号确定第一评价结果，根据所述噪声信号确定第二评价结果。

具体实现时，S102可以包括：S1021，语音评价装置根据所述语音信号确定第一评价结果；S1022，语音评价装置根据所述噪声信号确定第二评价结果。其中，S1021和S1022的执行没有先后顺序，可以先后执行，也可以同时执行，在本申请实施例中不作限定。

上述S1021中，可以利用训练好的模型对语音信号进行评价，得到第一评价结果，该训练好的模型即为下文所述的网络学习模型。作为一个示例，参见图2所示，S1021例如可以包括下述S201～S203：

S201，提取所述语音信号的语音特征。

其中，语音特征，用于表征语音信号的特点，是语音信号的评价的依据。

具体实现时，语音评价装置提取语音信号的语音特征，例如可以包括：对时域的语音信号先进行快速傅里叶变换(英文：fastFouriertransform，简称：FFT)，得到该频域的语音信号；接着，计算频域的语音信号的功率谱；然后，计算功率谱的对数(也称log)，得到log谱特征，即，该语音信号的语音特征。

对于S201，一种情况下，可以是已训练好的深度学习网络中的特征提取模块执行的，即，将语音信号输入到深度学习网络，该深度学习网络中的特征提取模块提取该语音信号的语音特征。另一种情况下，也可以是深度学习网络之外的特征提取模块执行的，即，先将语音信号通过特征提取模块的处理，得到语音特征，该语音特征可以作为深度学习网络的输入，为后续执行S202作好了准备。

S202，根据所述语音特征，确定所述语音信号的参考模板。

作为一个示例，本申请实施例中的深度学习网络例如可以采用卷积神经网络(英文：Convolutional NeuralNetworks,简称：CNN)+门控循环单元(英文：GatedRecurrentUnit，简称：GRU)。作为一个示例，该深度学习网络300的结构例如可以参见图3所示，包括：模板生成模块301和评价模块302，其中，模板生成模块301可以用于执行该S202，即，对待评价的语音信号进行修复得到该语音信号对应的参考模板；评价模块302用于执行下述S203，即，以S202生成的参考模板为参考源对输入的语音信号进行有源评价。在一些实现方式中，该深度学习网络300还可以包括特征提取模块303，该特征提取模块303可以用于执行上述S201。

具体实现时，语音评价装置可以将S201中提取的语音特征输入到深度学习网络，该深度学习网络可以根据语音特征，修复待评估语音的噪声、残缺、失真等问题，产生参考模板，该参考模板例如可以是用于对语音信号进行评价的优质参考源。作为一个示例，深度学习网络根据语音特征产生参考模板，具体可以是将语音特征输入到深度学习网络的模板生成模块中，该模板生成模块即可根据语音特征对语音信号进行修复，得到参考模板。

S203，根据所述参考模板和所述语音特征，确定所述第一评价结果。

具体实现时，语音评价装置可以将S201中提取的语音特征、S202中获得的参考模板输入到深度学习网络，该深度学习网络可以将参考模板作为此次评价的参考源，根据语音特征对语音信号进行有源-客观评价，确定第一评价结果。作为一个示例，深度学习网络确定第一评价结果，具体可以是将语音特征和参考模板输入到如图3所示的深度学习网络300的评价模块302中，该评价模块302即可根据语音特征和参考模板对语音信号进行评价，输出第一评价结果。

其中，第一评价结果可以包括语音信号的得分。语音信号的得分可以从预设的最高分中，扣除使得语音信号不佳的分数，获得的分数。其中，预设的最高分例如可以是5分或4.75分，在本申请实施例中不作具体限定。

此外，为了能够让用户知晓语音信号得分较低的原因，该第一评价结果还可以包括影响语音信号得分的因素。该因素包括但不限于：有杂音、丢数据、削波等。具体实现时，当语音信号的某个因素的得分小于该因素对应的预设值(如1.5分)时，可以将该因素作为第一评价结果中的内容，其中，各因素对应的预设值可以相同也可以不同；或者，当语音信号的整体得分小于的预设值(如3分)时，可以将该语音信号中得分最低的预设个数(如2个)因素作为第一评价结果中的内容。

需要说明的是，该第一评价结果还可以包括语音信号的各个因素的得分。

例如，假设语音信号的得分因素包括：杂音和削波，且得分分别为2分和2.5分，且各个因素的预设值为1.5分，那么，由于2分和2.5分均高于预设值1.5分，所以，第一评价结果为(2+2.5)＝4.5分，由于语音信号质量较优，可以不包括任何影响语音信号得分的因素。此外，该第一评价结果还可以包括：杂音2分和削波2.5分，第一评价结果的格式例如可以是“语音信号的得分：4.5分，杂音2分，削波2.5分”。

又例如，假设语音信号的得分因素包括：杂音和削波，且得分分别为2分和0.5分，且各个因素的预设值为1.5分，那么，由于0.5分低于预设值1.5分，所以，第一评价结果不仅包括(2+0.5)＝2.5分，还可以包括影响语音信号得分的因素：削波。第一评价结果的格式例如可以是“语音信号的得分：2.5分，劣质信号分类：削波”。此外，该第一评价结果的格式例如也可以是“语音信号的得分：2.5分，杂音2分，削波0.5分，劣质信号分类：削波”。

以上图2所示的实施例中，介绍了如何利用训练好的深度学习网络对语音信号进行评价，下面，对该深度学习网络的训练过程进行简要说明：

对于初始构建的深度学习网络，其结构可以参见图3所示。如果该深度学习模型不包括特征提取模块，则，训练的样本包括：若干语音信号的语音特征以及每个语音信号的已知得分和影响该语音信号得分的已知因素；那么，训练过程包括：将各个语音信号的语音特征分别输入到深度学习网络，该深度学习网络经过模板生成模块、评价模块得到预测得分和预测因素；然后，根据预测得分和已知得分的差异、以及预测因素和已知因素的差异，对深度学习网络中的模型参数进行调整，并将调整后的深度学习模型作为下一轮训练时的训练对象，如此往复，直到所有的样本都参与训练，或者，直到训练所得的深度学习模型的预测结果和已知结果符合预设条件(如预测得分和已知得分的差异在预设范围内，且的预测因素和已知因素一致)，则停止训练，将当前的深度学习网络作为训练完成并执行图2所示方法的模型。

如果该深度学习模型包括特征提取模块，则，训练的样本包括：若干语音信号以及每个语音信号的已知得分和影响该语音信号得分的已知因素；那么，训练过程包括：将各个语音信号分别输入到深度学习网络，该深度学习网络经过特征提取模块、模板生成模块、评价模块得到预测得分和预测因素；然后，根据预测得分和已知得分的差异、以及预测因素和已知因素的差异，对深度学习网络中的模型参数进行调整，并将调整后的深度学习模型作为下一轮训练时的训练对象，如此往复，直到所有的样本都参与训练，或者，直到训练所得的深度学习模型的预测结果和已知结果符合预设条件(如预测得分和已知得分的差异在预设范围内，且的预测因素和已知因素一致)，则停止训练，将当前的深度学习网络作为训练完成并执行图2所示方法的模型。

可见，通过图2所示的方法，能够对待评价信号中的语音信号，在不额外提供参考源的情况下进行有源-客观评价，得到准确的评价结果，并且，能够将影响语音信号得分的因素也作为评价结果的内容，为提升语音通话过程中语音信号的质量提供了可靠的依据。

在一些实现方式中，为了进行使得语音评价的结果对后续优化语音通话系统有用，还可以将第一评价结果反馈到服务器或者通过用户界面(英文：UserInterface，简称：UI)展示给用户。

需要说明的是，本申请实施例还可以采用其他方式获得语音信号的评价结果，只要能够准确、全面的实现对语音信号的评价的方法，都属于该S1021的实现方式。

上述S1022中，可以先提取噪声信号的噪声特征，再对不同的噪声特征计算得分，对不同噪声特征的得分进行加权得到噪声信号的得分，从而得到第二评价结果。作为一个示例，参见图4所示，S1022例如可以包括下述S401～S403：

S401，提取所述噪声信号的噪声特征集合，所述噪声特征集合包括噪声大小、噪声突变或噪声频谱分布中的至少一个噪声特征。

其中，噪声特征，用于表征噪声信号的特点，即，噪声信号中影响语音通话质量的特征，是噪声信号的评价的依据。噪声特征包括但不限于：噪声大小、噪声突变、噪声频谱分布等。

S402，分别计算所述噪声特征集合中各噪声特征的得分。

具体实现时，可以根据每个噪声特征对语音通话质量的影响程度和方式，涉及计算该噪声特征得分的方式。例如，可以为每个噪声特征初始赋值5分，采用减分方式得到每项噪声特征的最终得分。下文中示例性的说明各个噪声特征得分的计算方式。

对于噪声大小这一噪声特征，可以先采用均方根(英文：rootmean square，简称：RMS)的方式在时域计算噪声大小，计算公式可以参见下述公式(1)：

其中，Noiser_ms表示噪声大小，x(n)表示时域中该噪声信号的序列，N表示该噪声信号的序列长度，32768为16比特噪声信号的最大值，lg()用于求以10为低该噪声信号的噪声大小归一化的结果。

接着，可以基于Noiser_ms计算该噪声大小的得分，具体可以参见下述公式(2)：

其中，rms_score表示噪声大小的得分。

对于噪声突变这一噪声特征，用于表示待评价信号的底噪的不平稳程度。具体实现时，可以先计算一段时间内噪声信号的标准差var，然后再基于该var计算噪声突变的分数。其中，计算一段时间内(如10秒)噪声信号的var时，可以先计算该段时间内每个时间单元(如1秒)中噪声信号的均值，然后根据若干个时间单元中噪声信号的均值，计算该段时间内噪声信号的var。根据var计算噪声突变的分数例如可以采用下述公式(3)：

var_score＝-5*tanh(var/M)……公式(3)

其中，M表示噪声信号标准差var的归一化系数，var_score表示噪声突变的得分。

对于噪声频谱分布这一噪声特征，用于表征噪声分布影响噪声信号听感的舒适度，计算得分的方式例如可以包括：先对时域的噪声信号进行FFT得到频域噪声信号，并计算频域噪声信号中每个频带能量ENG；接着，对ENG进行BARK子带划分，得到BARK能量，记作BENG；然后，创建一个与噪声大小Noise_rms一致的粉色噪声，同样计算该粉色噪声的BARK能量，记作PinkENG；从而，计算PinkENG和BENG的协方差，将计算所得的结果记作alpha；接着，可以基于下述公式(4)计算噪声频谱分布的得分：

dist_score＝-5*tanh(max(alpha，0))……公式(4)

其中，dist_score表示噪声频谱分布的得分。

经过上述示例性的说明，可以得到各个噪声特征的得分，为计算噪声信号的得分提供了数据基础。

S403，根据所述各噪声特征的得分，确定所述第二评价结果。

经过上述S401和S402，得到了各个噪声特征的得分，基于此，S403中例如可以基于下述公式(5)计算噪声信号的得分：

score＝5+beta1*rms_score+beta2*var_score+beta3*dist_score……公式(5)

其中，score表示噪声信号的整体得分，beta1、beta2和beta3分别表示各个噪声特征对应的权重，beta1+beta2+beta3＝1。

在一些实例中，如果score的值大于4，表示噪声信号的听感舒适；如果score的值不大于4但大于3.5，表示噪声信号质量良好，听感良好；如果score的值小于2，表示噪声信号嘈杂感太强。

具体实现时，语音评价装置可以基于噪声信号的整体得分，确定第二评价结果。该第二评价结果，可以包括所述噪声信号的得分。此外，为了能够让用户知晓噪声信号得分较低的原因，该第二评价结果还可以包括影响噪声信号得分的噪声特征。该影响噪声信号得分的噪声特征包括但不限于：噪声大小、噪声突变、噪声频谱分布等。具体实现时，当噪声信号的某个噪声特征的得分小于该噪声特征对应的预设值(如-1分)时，可以将该噪声特征作为第二评价结果中的内容，其中，各噪声特征对应的预设值可以相同也可以不同；或者，当噪声信号的整体得分小于的预设值(如3分)时，可以将该噪声信号中得分最低的预设个数(如2个)噪声特征作为第二评价结果中的内容。

需要说明的是，该第二评价结果还可以包括噪声信号的各个噪声特征的得分。

例如，假设噪声信号的得分噪声特征包括：噪声大小、噪声突变和噪声频谱分布，且得分分别为-1.5分、-2分和-0.5分，且各个噪声特征的预设值为-2.5分，那么，由于-1.5分、-2分和-0.5分均高于预设值-2.5分，所以，第二评价结果为(5-0.2*1.5-0.1*2-0.7*0.5)＝4.15分，由于噪声信号质量较优，可以不包括任何影响噪声信号得分的噪声特征。此外，该第二评价结果还可以包括：噪声大小-1.5分、噪声突变-2分和噪声频谱分布-0.5分，第二评价结果的格式例如可以是“噪声信号的得分：4.15分，噪声大小-1.5分，噪声突变-2分，噪声频谱分布-0.5分”。

又例如，假设噪声信号的得分噪声特征包括：噪声大小、噪声突变和噪声频谱分布，且得分分别为-3分、-2分和-0.5分，且各个噪声特征的预设值为-2.5分，那么，由于-3分高于预设值-2.5分，所以，第二评价结果不仅包括(5-0.2*3-0.1*2-0.7*0.5)＝3.85分，还可以包括影响噪声信号得分的噪声特征：噪声大小。第二评价结果的格式例如可以是“噪声信号的得分：3.85分，劣质信号分类：噪声大小”。此外，该第二评价结果的格式例如也可以是“噪声信号的得分：3.85分，噪声大小-3分，噪声突变-2分，噪声频谱分布-0.5分，劣质信号分类：噪声大小”。

可见，通过图4所示的方法，能够对待评价信号中的噪声信号进行评价，得到准确的评价结果，并且，能够将影响噪声信号得分的噪声特征也作为评价结果的内容，为提升语音通话过程中噪声信号的质量提供了可靠的依据。

在一些实现方式中，为了进行使得语音评价的结果对后续优化语音通话系统有用，还可以将第二评价结果反馈到服务器或者通过UI展示给用户。

需要说明的是，本申请实施例还可以采用其他方式获得噪声信号的评价结果，只要能够准确、全面的实现对噪声信号的评价的方法，都属于该S1022的实现方式。

S103，根据所述第一评价结果和所述第二评价结果，确定所述待评价信号的目标评价结果。

具体实现时，语音评价装置可以根据第一评价结果和第二评价结果，确定待评价语音的综合评价结果——目标评价结果。该目标评价结果，可以包括下述内容中的至少一个：待评价信号的得分，第一评价结果和第二评价结果。其中，待评价信号的得分可以等于语音信号的得分与噪声信号的得分的和，也可以等于语音信号的得分与噪声信号的得分的均值，还可以等于语音信号的得分与噪声信号的得分的加权平均值。

语音信号的得分，所述噪声信号的得分，以及，影响所述噪声信号得分的噪声特征和/或影响所述语音信号得分的因素。

例如，假设第一评价结果为“语音信号的得分：2.5分，劣质信号分类：削波”，该第二评价结果为“噪声信号的得分：3.85分，劣质信号分类：噪声大小”，待评价信号的得分可以等于语音信号的得分与噪声信号的得分的和，那么，目标评价结果的格式例如可以是“待评价信号的得分：6.35分，劣质信号分类：削波、噪声大小”。

又例如，假设第一评价结果为“语音信号的得分：2.5分，杂音2分，削波0.5分，劣质信号分类：削波”，该第二评价结果为“噪声信号的得分：3.85分，噪声大小-3分，噪声突变-2分，噪声频谱分布-0.5分，劣质信号分类：噪声大小”，待评价信号的得分可以等于语音信号的得分与噪声信号的得分的均值，那么，目标评价结果的格式例如可以是“待评价信号的得分：3.175分，语音信号的得分：2.5分，杂音2分，削波0.5分，噪声信号的得分：3.85分，噪声大小-3分，噪声突变-2分，噪声频谱分布-0.5分，劣质信号分类：削波、噪声大小”。

如此，通过本申请实施例提供的方法，语音评价装置对语音通话过程中产生的待评价信号，拆分为语音信号和噪声信号，不仅对语音信号进行准确的评价，还考虑语音通话过程中的噪声信号，将噪声信号也纳入评价语音通话的评价因素，从而，综合考虑语音信号和噪声信号的评价结果，得到该待评价信号的最终评价结果，提供了对语音通话过程中所产生信号的准确、全面的评价方法，为后续调整语音通话过程中的设置，为用户提供更优质的语音通话服务提供了可信的数据基础。

在一些可能的实现方式中，为了让用户能够清楚语音通话过程中待评价信号的情况，并让用户能够按照自己的需求和习惯调整语音通话过程中的设置，该语音评价装置还可以在UI上显示目标评价结果，并显示调整提示信息。其中，调整提示信息可以通过UI开关(其中，UI开关的形状、位置在本申请实施例中不作限定)的形式显示给用户，供用户操作调整提示信息对应的UI开关以实现对语音通话的选项设置；或者，也可以以提示框+设置值的方式显示调整提示信息，供用户输入设置值，以实现对语音通话的设置。其中，调整提示信息可以包括对影响语音信息得分的因素和/或影响噪声信号得分的噪声特征的待调整项目。待调整项目包括但不限于：噪声抑制、音量缩放、虚拟声音调整等。例如，调整提示信息包括调整降噪的UI开关，如果用户不想语音通话对方听到周边说话人声音，可以点击“降噪”UI开关切换到“激进”状态，同时UI开关显示成红色；如果用户想把自己这边任何声音细节都传到通话对方，用户可以点击“降噪”UI开关，切换到“保真”状态，同时UI开关显示成蓝色。

在另一些可能的实现方式中，为了提高该语音通话所使用设备的智能化水平，该语音评价装置也可以根据所述目标评价结果，自动调整所述语音通话的设置，实现对语音通话服务的优化。该语音评价装置自动调整所述语音通话的设置包括但不限于调整下述设置选项中的至少一个：降噪激进程度、残余回声抑制、语音缩放。此外，该实现方式中，也可以基于用户的设备为用户显示目标评价结果。其中，语音评价装置可以根据所述第一评价结果，调整所述语音通话中语音相关设置选项；和/或，该语音评价装置也可以根据第二评价结果，调整所述语音通话中噪声相关设置选项。

需要说明的是，上述两种可能的实现方式，均属于本申请实施例中基于合理、准确、全面的语音评价方法所获得的目标评价结果，对语音通话过程的优化手段。如果语音通话的设备支持上述两种实现方式，那么，为了给用户提供更加灵活和智能的使用体验，当用户对语音通话的调整方式不进行设置时，可以根据默认的调整方式进行语音通话设置的调整，默认的调整方式可以是上述两种调整方式中的任意一种；当用户对语音通话的调整方式进行设置时，可以根据用户设置的调整方式进行语音通话设置的调整。

可见，本申请实施例还能够实现根据准确和全面的待评价信号的评价结果，对语音通话的设置进行调整和优化，从而提升语音通话质量，为用户提供更加优质的语音通话服务。

相应的，本申请实施例还提供了一种语音评价装置500，参见图5。该装置500可以包括：获取单元501、第一确定单元502和第二确定单元503。其中：

获取单元501，用于针对语音通话过程中产生的待评价信号，获得所述待评价信号中的语音信号和噪声信号；

第一确定单元502，用于根据所述语音信号确定第一评价结果，根据所述噪声信号确定第二评价结果；

第二确定单元503，用于根据所述第一评价结果和所述第二评价结果，确定所述待评价信号的目标评价结果。

在一种可能的实现方式中，第一确定单元502，包括：第一提取子单元、第一确定子单元和第二确定子单元。其中：

第一提取子单元，用于提取所述语音信号的语音特征；

第一确定子单元，用于根据所述语音特征，确定所述语音信号的参考模板，所述参考模板为修复所述语音信号得到的信号；

第二确定子单元，用于根据所述参考模板和所述语音特征，确定所述第一评价结果，所述第一评价结果为以所述参考模板为参考源对所述语音信号进行有源评价得到的。

在一种可能的实现方式中，所述第一评价结果包括所述语音信号的得分。

在一种可能的实现方式中，所述第一评价结果还包括影响所述语音信号得分的因素。

在一种可能的实现方式中，第一确定单元502，包括：第二提取子单元、计算子单元和第三确定子单元。

第二提取子单元，用于提取所述噪声信号的噪声特征集合，所述噪声特征集合包括噪声大小、噪声突变或噪声频谱分布中的至少一个噪声特征；

计算子单元，用于分别计算所述噪声特征集合中各噪声特征的得分；

第三确定子单元，用于根据所述各噪声特征的得分，确定所述第二评价结果。

在一种可能的实现方式中，所述第二评价结果包括所述噪声信号的得分，所述噪声信号的得分为根据所述各噪声特征的得分确定的。

在一种可能的实现方式中，所述第二评价结果还包括影响所述噪声信号得分的噪声特征。

在一种可能的实现方式中，所述目标评价结果包括下述信息中的至少一个：所述待评价信号的得分，所述语音信号的得分，所述噪声信号的得分，影响所述噪声信号得分的噪声特征或影响所述语音信号得分的因素，其中，所述待评价信号的得分根据所述语音信号的得分和所述噪声信号的得分确定。

在一种可能的实现方式中，该装置500还可以包括显示单元，该显示单元，用于显示所述目标评价结果，以及显示调整提示信息。

在一种可能的实现方式中，该装置500还可以包括调整单元，该调整单元，用于根据所述目标评价结果，调整所述语音通话的设置。

作为一个示例，调整单元，具体用于：

调整所述语音通话中的下述至少一个设置选项：降噪激进程度、残余回声抑制或语音缩放。

作为一个示例，调整单元，具体用于：

根据所述第一评价结果，调整所述语音通话中语音相关设置选项。

作为另一个示例，调整单元，具体用于：

根据所述第二评价结果，调整所述语音通话中噪声相关设置选项。

需要说明的是，本申请实施例提供的语音评价装置500，具体实现方式以及达到的效果可以参见上述图1所示实施例中的相关说明，此处不再赘述。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，也可以包括服务器设备。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

本申请实施例中提到的“第一评价结果”等名称中的“第一”只是用来做名字标识，并不代表顺序上的第一。该规则同样适用于“第二”等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例和设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的优选实施方式，并非用于限定本申请的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音评价方法，其特征在于，包括：

针对语音通话过程中产生的待评价信号，获得所述待评价信号中的语音信号和噪声信号；

根据所述语音信号确定第一评价结果，根据所述噪声信号确定第二评价结果；

根据所述第一评价结果和所述第二评价结果，确定所述待评价信号的目标评价结果；其中：

所述根据所述噪声信号确定第二评价结果，包括：

提取所述噪声信号的噪声特征集合，所述噪声特征集合包括至少一个噪声特征；

分别计算所述噪声特征集合中各噪声特征的得分；

根据所述各噪声特征的得分，确定所述第二评价结果；

所述根据所述语音信号确定第一评价结果，包括：

提取所述语音信号的语音特征；

根据所述语音特征，确定所述语音信号的参考模板，所述参考模板为修复所述语音信号得到的信号；

根据所述参考模板和所述语音特征，确定所述第一评价结果，所述第一评价结果为以所述参考模板为参考源对所述语音信号进行有源评价得到的。

2.根据权利要求1所述的方法，其特征在于，所述第一评价结果包括所述语音信号的得分。

3.根据权利要求2所述的方法，其特征在于，所述第一评价结果还包括影响所述语音信号得分的因素。

4.根据权利要求1所述的方法，其特征在于，所述噪声特征集合包括噪声大小、噪声突变或噪声频谱分布中的至少一个噪声特征。

5.根据权利要求4所述的方法，其特征在于，所述第二评价结果包括所述噪声信号的得分，所述噪声信号的得分为根据所述各噪声特征的得分确定的。

6.根据权利要求5所述的方法，其特征在于，所述第二评价结果还包括影响所述噪声信号得分的噪声特征。

7.根据权利要求1所述的方法，其特征在于，所述目标评价结果包括下述信息中的至少一个：所述待评价信号的得分，所述语音信号的得分，所述噪声信号的得分，影响所述噪声信号得分的噪声特征或影响所述语音信号得分的因素，其中，所述待评价信号的得分根据所述语音信号的得分和所述噪声信号的得分确定。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

显示所述目标评价结果，以及调整提示信息。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标评价结果，调整所述语音通话的设置。

10.根据权利要求9所述的方法，其特征在于，所述调整所述语音通话的设置包括：

11.根据权利要求9所述的方法，其特征在于，所述根据所述目标评价结果，调整所述语音通话的设置，包括：

12.根据权利要求9所述的方法，其特征在于，所述根据所述目标评价结果，调整所述语音通话的设置，包括：

13.一种语音评价装置，其特征在于，所述装置包括：

获取单元，用于针对语音通话过程中产生的待评价信号，获得所述待评价信号中的语音信号和噪声信号；

第一确定单元，用于根据所述语音信号确定第一评价结果，根据所述噪声信号确定第二评价结果；

第二确定单元，用于根据所述第一评价结果和所述第二评价结果，确定所述待评价信号的目标评价结果；其中：

所述根据所述噪声信号确定第二评价结果，包括：

分别计算所述噪声特征集合中各噪声特征的得分；

根据所述各噪声特征的得分，确定所述第二评价结果；

所述根据所述语音信号确定第一评价结果，包括：

提取所述语音信号的语音特征；

14.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；

所述存储器，用于存储指令或计算机程序；

所述处理器，用于执行所述存储器中的所述指令或计算机程序，以使得所述电子设备执行权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行以上权利要求1至12任一项所述的方法。