CN114187921A

CN114187921A - 语音质量评价方法和装置

Info

Publication number: CN114187921A
Application number: CN202010965579.0A
Authority: CN
Inventors: 房雷
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2022-03-15

Abstract

本申请提供了一种语音质量评价方法和装置，涉及人工智能领域。该方法包括：通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后的语音；将增强后的语音输入至语音质量评价模型，获得该增强后的语音的损失信息，语音质量评价模型包括至少两个声学模型，上述损失信息是基于该至少两个声学模型的解码器对上述增强后的语音的解码结果作为真实值确定的；基于该损失信息，判断上述增强后的语音的质量是否达标。上述语音质量评价方法及装置能够与特定的语音增强算法、特定的ASR后端解耦，能反映语音增强算法对ASR后端的影响，可灵活适用于多种不同的场景。

Description

语音质量评价方法和装置

技术领域

本申请涉及人工智能领域，尤其涉及一种语音质量评价方法和装置。

背景技术

随着人工智能技术的发展，自动语音识别(automatic speech recognition，ASR)技术越来越重要。ASR是实现人机交互的关键技术，机器能够通过ASR技术识别和理解人的语音，将语音转换为文字，或者，将语音转换为机器能够理解的命令，并根据命令来执行相应的操作。

由于实际环境噪声与干扰的存在，在进行语音识别之前，需要对采集到的语言信号进行语音增强处理。语音增强就是采用语音增强算法，从含噪语音中提取尽可能纯净的原始语音，即对语音进行降噪处理，从而提高语音质量，降低识别错误率。通常，需要采用语音质量评价方法来评价增强后的语音质量是否满足要求，从而评价语音增强算法的好坏。

目前的语音质量评价方法所采用的语音质量评价模型都是基于处理后的语音信号的，与特定的ASR后端无关，也无法呈现语音增强算法的改变对ASR的影响，例如，当ASR从一种设备扩展到另一种设备时，语音增强算法发生了改变，增强后的语音也就发生了改变，原有的语音质量评价算法得到的指标不能反映出语音增强算法改变对ASR后端的影响。

发明内容

本申请提出一种语音质量评价方法和装置，能够与特定的语音增强算法、特定的ASR后端解耦，能反映语音增强算法对ASR后端的影响，可灵活适用于多种不同的场景。

第一方面，提供了一种语音质量评价方法，具体包括：首先通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后的语音；然后将增强后的语音输入至语音质量评价模型，获得该增强后的语音的损失信息，语音质量评价模型包括至少两个声学模型，上述损失信息是基于至少两个声学模型的解码器对增强后的语音的解码结果作为真实值确定的；最后基于上述损失信息，判断增强后的语音的质量是否达标。

应理解，损失信息还可以称为困惑度(perplexity)或其他名称，本申请实施例对此不作限定。本申请实施例所采用的语音质量评价模型不偏好于特定的语音增强算法，使得语音质量评价方法能够与特定的语音增强算法、特定的ASR后端解耦，灵活适用多种不同的场景。本申请实施例的方法可以用来测试第三方接入的语音信号的质量能否达到准入条件，若语音质量达标，则表示该语音信号达到准入条件。

结合第一方面，在第一方面的某些实现方式中，基于所述损失信息，判断所述增强后的语音的质量是否达标，包括：若损失信息小于或等于阈值，确定该增强后的语音质量达标；或者，若损失信息大于阈值，确定该增强后的语音的质量不达标。

在另一种可能的实现方式中，上述根据增强后的语音的损失信息，判断增强后的语音的质量是否达标，包括：若损失信息小于阈值，确定增强后的语音的质量达标；或者，若损失信息大于或等于阈值，确定增强后的语音的质量不达标。

结合第一方面，在第一方面的某些实现方式中，在判断增强后的语音的质量是否达标之后，该方法还包括：若增强后的语音的质量达标，接受该语音增强算法；或者，若增强后的语音的质量不达标，拒绝该语音增强算法。

在本申请实施例中，接受语音增强算法可以理解为ASR系统允许该语音增强算法的接入，拒绝语音增强算法可以理解为ASR系统拒绝该语音增强算法的接入。

结合第一方面，在第一方面的某些实现方式中，上述方法还包括：在所述增强后的语音的质量不达标的情况下，优化所述语音增强算法。

在本申请实施例中，当确定该增强后的语音的质量不达标的情况下，对语音增强算法进行改进，优化该语音增强算法，驱使通过该语音增强算法获得的增强后的语音在声学特征上往低混响、低外噪、无人声噪声、无回声的理想远场语音靠拢。当ASR系统从一种设备扩展到另一种新设备时，通过本申请实施例的方法对语音增强算法进行优化即可，无需更新ASR系统，减小了工作量。

结合第一方面，在第一方面的某些实现方式中，上述至少两个语音识别模型包括下列模型中的全部或部分：基于卷积神经网络CNN结构和联结主义时间分类器CTC损失函数的模型；基于变换器Transformer结构和转换器Transducer损失函数的模型；基于交叉熵损失函数的听、注意和拼写LAS模型；基于交叉熵损失函数的隐马尔可夫-深度神经网络HMM-DNN模型。上述模型都为常见的声学模型。

在本申请实施例中，语音质量评价模型可以包括但不限于上述列举的各个声学模型。这些声学模型的建模单位可以包括词条、子词、拼音、音节、音素等。通过综合使用多种典型的声学模型，本申请实施例的语音质量评价方法可以对特定的声学模型中立。

结合第一方面，在第一方面的某些实现方式中，将增强后的语音输入至语音质量评价模型，获得该增强后的语音的损失信息，包括：将增强后的语音分别输入至上述至少两个声学模型，获得至少两个子损失信息，该至少两个子损失信息与上述至少两个声学模型对应；基于至少两个子损失信息，确定该损失信息。

在本申请实施例中，增强后的语音的损失信息可以根据至少两个声学模型中的每个声学模型对应的子损失信息确定。

结合第一方面，在第一方面的某些实现方式中，该损失信息是通过对上述至少两个子损失信息进行加权求和得到的。

结合第一方面，在第一方面的某些实现方式中，将增强后的语音分别输入至上述至少两个声学模型，获得至少两个子损失信息，包括：将增强后的语音输入至上述至少两个声学模型的第一声学模型，获得上述第一声学模型中的解码器的解码结果；将该第一声学模型中的解码器的解码结果作为真实值，计算增强后的语音的第一子损失信息。

结合第一方面，在第一方面的某些实现方式中，该方法还包括：基于已标注语料，对上述至少两个声学模型进行训练，获得语音质量评价模型。

应理解，由于语音质量评价模型包括至少两个声学模型，对语音质量评价模型的训练，即是对该至少两个声学模型的训练。语音语料为语音信号的已标注语料，一个语音信号的标注文本即可以理解为该语音信号的真实值。将语音信号作为一个声学模型的输入，输出该语音信号的预测标注文本，将该预测标注文本作为预测值与该语音信号的真实值比较，不断训练该声学模型的参数，使得该声学模型的预测值逼近真实值，从而完成对该声学模型的训练。

结合第一方面，在第一方面的某些实现方式中，已标注语料可以包括理想近场语料和理想远场语料。其中，理想近场语料对应近场场景，上述理想远场语料对应远场场景。

在近场场景下，可以采用理想近场语料作为上述声学模型的训练语料；在远场场景下，可以采用低混响、低外噪、无人声噪声、无回声的理想远场语料作为上述声学模型的训练语料。最终训练出两套不同的语音质量评价模型，不同的场景选用不同的语音质量评价模型进行评价语音质量，更加有针对性，相关性也更高。

第二方面，提供了一种语音质量评价装置，用于执行上述第一方面中任一种可能的实现方式中的方法。具体地，该装置包括用于执行上述第一方面中任一种可能的实现方式中的方法的模块。

第三方面，提供了另一种语音质量评价装置，包括处理器，该处理器与存储器耦合，可用于执行存储器中的指令，以实现上述第一方面中任一种可能实现方式中的方法。可选地，该装置还包括存储器。可选地，该装置还包括通信接口，处理器与通信接口耦合。

在一种实现方式中，该语音质量评价装置为数据处理设备。当该语音质量评价装置为数据处理设备时，通信接口可以是收发器，或，输入/输出接口。

在另一种实现方式中，该语音质量评价装置为配置于服务器中的芯片。当该语音质量评价装置为配置于服务器中的芯片时，通信接口可以是输入/输出接口。

第四方面，提供了一种处理器，包括：输入电路、输出电路和处理电路。处理电路用于通过输入电路接收信号，并通过输出电路发射信号，使得处理器执行上述第一方面中任一种可能实现方式中的方法。

在具体实现过程中，上述处理器可以为芯片，输入电路可以为输入管脚，输出电路可以为输出管脚，处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的，输出电路所输出的信号可以是例如但不限于输出给发射器并由发射器发射的，且输入电路和输出电路可以是同一电路，该电路在不同的时刻分别用作输入电路和输出电路。本申请实施例对处理器及各种电路的具体实现方式不做限定。

第五方面，提供了一种处理装置，包括处理器和存储器。该处理器用于读取存储器中存储的指令，并可通过接收器接收信号，通过发射器发射信号，以执行上述第一方面中任一种可能实现方式中的方法。

可选地，处理器为一个或多个，存储器为一个或多个。

可选地，存储器可以与处理器集成在一起，或者存储器与处理器分离设置。

在具体实现过程中，存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(read only memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。

应理解，相关的数据交互过程例如发送指示信息可以为从处理器输出指示信息的过程，接收能力信息可以为处理器接收输入能力信息的过程。具体地，处理输出的数据可以输出给发射器，处理器接收的输入数据可以来自接收器。其中，发射器和接收器可以统称为收发器。

上述第五方面中的处理装置可以是一个芯片，该处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外，独立存在。

第六方面，提供了一种计算机程序产品，计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当计算机程序被运行时，使得计算机执行上述第一方面中任一种可能实现方式中的方法。

第七方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述第一方面中任一种可能实现方式中的方法。

附图说明

图1是本实施例中的语音质量评价方法的流程示意图；

图2是本实施例中的语音质量评价方法的示意性流程图；

图3是本实施例中的语音质量评价模型训练图；

图4是本实施例中的语音质量评价装置的示意性框图；

图5是本实施例中另一个语音质量评价装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

随着人工智能技术的不断发展，让人机之间能够通过自然语言进行交互的自然语言人机交互系统变得越来越重要。人机之间能够通过自然语言进行交互，就需要系统能够识别出人类自然语言的具体含义，语音识别技术应运而生。语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令，从而执行相应的操作。

为便于理解，首先对本申请所涉及到的相关术语进行说明。

1、自动语音识别ASR

ASR是一种机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

ASR系统通常可以分为“前端”和“后端”两个模块。其中，ASR前端模块主要的作用是降噪、特征提取和端点检测；ASR后端模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别,又称“解码”，得到其包含的文字信息。

上述声学模型可以通过对语音数据进行训练获得，输入是特征向量，输出为音素、音节、拼音、汉字等基本发音单元信息。通过声学模型能够计算语音的特征矢量序列和每个发音单元之间的距离。声学模型是语音识别系统的重要组成部分，决定着语音识别系统的性能。

2、语音增强(speech enhancement，SE)

语音增强指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音，以便后续识别，从而提高语音质量，降低识别错误率。因此，语音增强往往是为ASR服务的，属于ASR前端技术。具体而言，语音增强技术需要在具有显著外部噪声的、远场的环境下，通常使用多个麦克风组成麦克风阵列，以利用多个麦克风录取的语音与噪声在时域和空间上的冗余性及差异性来提高语音信号的质量。

语音增强一般通过语音增强算法来实现，具体可以包括回声消除、波束形成、波束追踪、噪声抑制、混响消除、自动增益控制等过程。常用的语音增强算法可以包括如下几类：基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法以及其他算法等，此处不再一一列举。

3、语音质量评价方法

增强后的语音需要采用语音质量评价方法，来评价增强后的语音质量是否满足要求，从而评价语音增强算法的好坏。语音质量评价方法可以分为主观评价和客观评价两类。

主观评价方法以人的主观感受为基础，例如平均意见值(mean opinion score，MOS)方法。但是，主观评价方法对评价者的要求很高，并且重复性差、周期长，主观评价方法逐渐被基于算法的客观评价方法所取代。

典型的客观评价方法的评价指标可以包括：信号失真比(signal-to-distortionratio，SDR)、语音质量感知评估(perceptual evaluation of speech quality，PESQ)、短时客观可懂度(short-time objective intelligibility，STOI)等。这些方法都需要一个理想的参考信号，以增强后的语音信号在时域或频域上是否接近参考信号，来评估增强后的语音信号的质量。

目前的语音质量评价方法所采用的语音质量评价模型都是基于处理后的语音信号的，无法呈现语音增强算法的变化对ASR的影响，无法灵活适用于多种不同的场景。

在一种可能的场景中，ASR系统可以从一种设备扩展应用于另一种新设备，例如，ASR系统从基于线型阵列的智能电视扩展到基于圆形阵列的智能音箱，在这种情况下，ASR前端的语音增强算法会依据不同形状、不同麦克风数量的麦克风阵列进行改进。而语音增强算法的变化，可以体现在语音增强处理后的语音信号的变化带来的声学特征的变化。由于原有的语音质量评价方法未考虑到ASR的特征，而ASR对声学特征的变化非常敏感，因此，即便语音质量评价方法得到的指标有所提升，ASR指标也不一定提升。

在另一种可能的场景中，ASR系统的语音识别能力可以以服务的形式开放给第三方应用，在这种情况下，ASR后端需要通过语音质量评价方法来测试第三方应用接入的语音信号的质量能否达到准入条件。只有语音信号的质量达标，ASR后端才能保证语音识别的准确率及业务的有效性。若语音质量评价方法没有考虑ASR后端，那么不同的第三方应用即便得到相同的语音质量评分，但最终得到的识别准确率的指标也未必会完全相同，因此无法反映语音质量对ASR的影响。

有鉴于此，本申请实施例提供了一种新的语音质量评价方法和装置，通过采用至少两个声学模型所构建的语音质量评价模型，对语音增强算法增强后的语音进行质量评价，体现语音增强算法对ASR的影响，且能够与特定的语音增强算法特定的ASR后端解耦，灵活适用于多种不同的场景。

本申请实施例的方法适用于能够进行语音识别的任何电子设备，例如，安装有ASR系统的智能音箱、智能电视、计算机、汽车、电话、手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备，虚拟现实(virtual reality，VR)设备、个人数字助理(personal digital assistant，PDA)等，本申请实施例对此并不限定。

在介绍本申请实施例提供的语音质量评价方法和装置之前，先做出以下几点说明。

第一，在下文示出的实施例中，各术语及英文缩略语，如语音质量评价模型、损失信息等，均为方便描述而给出的示例性举例，不应对本申请构成任何限定。本申请并不排除在已有或未来的协议中定义其它能够实现相同或相似功能的术语的可能。

第二，在下文示出的实施例中第一、第二以及各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围。例如，区分不同的声学模型、区分不同的子损失信息等。

第三，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b和c中的至少一项(个)，可以表示：a，或b，或c，或a和b，或a和c，或b和c，或a、b和c，其中a，b，c可以是单个，也可以是多个。

下面将结合附图详细说明本申请提供的语音质量评价方法和装置。

图1为本申请实施例提供的一种语音质量评价方法100的示意性流程图。如图1所示，方法100包括下列步骤：

S101，通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后的语音。

S102，将增强后的语音输入至语音质量评价模型，获得增强后的语音的损失信息，语音质量评价模型包括至少两个声学模型，损失信息是基于至少两个声学模型的解码器对增强后的语音的解码结果作为计算损失时的真实值来确定的。

S103，基于损失信息，判断增强后的语音的质量是否达标。

在本申请实施例中，电子设备可以采集语音信号，通过语音增强算法对采集的语音信号进行语音增强处理，得到增强后的语音。电子设备可以将增强后的语音输入至语音质量评价模型，获得该增强后的语音的损失信息，再基于该损失信息，判断上述增强后的语音的质量是否达标。

应理解，本申请实施例的语音质量评价模型是由至少两个声学模型构成的，所以该语音质量评价模型不偏好于特定的语音增强算法。通过该至少两个声学模型中的每个声学模型，将该每个声学模型的解码器对增强后的语音的解码结果作为真实值，可以得到增强后的语音的损失信息。损失信息还可以称为困惑度(perplexity)或其他名称，本申请实施例对此不作限定。

本申请实施例所采用的语音质量评价模型不偏好于特定的语音增强算法，使得语音质量评价方法能够与特定的语音增强算法、特定的ASR后端解耦，灵活适用多种不同的场景。本申请实施例的方法可以用来测试第三方接入的语音信号的质量能否达到准入条件，若语音质量达标，则表示该语音信号达到准入条件。

作为一个可选的实施例，电子设备可以通过将损失信息与预定阈值进行比较，判断增强后的语音的质量是否达标，即该增强后的语音是否达到准入条件。

在一种可能的实现方式中，上述基于损失信息，判断增强后的语音的质量是否达标，包括：若损失信息小于或等于阈值，确定增强后的语音的质量达标；或者，若损失信息大于阈值，确定增强后的语音的质量不达标。

作为一个可选的实施例，上述判断增强后的语音的质量是否达标之后，该方法还包括：若增强后的语音的质量达标，则电子设备可以接受该语音增强算法；或者，若增强后的语音的质量不达标，则电子设备可以拒绝该语音增强算法。

在本申请实施例中，接受语音增强算法可以理解为电子设备的ASR系统允许该语音增强算法的接入，拒绝语音增强算法可以理解为电子设备的ASR系统拒绝该语音增强算法的接入。

作为一个可选的实施例，上述方法还包括：在增强后的语音的质量不达标的情况下，优化语音增强算法。

具体而言，电子设备可以在确定该增强后的语音的质量不达标的情况下，对语音增强算法进行改进，优化该语音增强算法，驱使通过该语音增强算法获得的增强后的语音在声学特征上往低混响、低外噪、无人声噪声、无回声的理想远场语音靠拢。示例性地，如果不同方向的干扰人声消除得不干净，可以重点优化语音增强算法中的波束形成算法；如果语音信号的幅度过小，可以重点调整语音增强算法中的自动增益控制算法。

当ASR系统从一种设备扩展到另一种新设备时，通过本申请实施例的方法对语音增强算法进行优化即可，无需更新ASR系统，减小了工作量。

作为一个可选的实施例，上述语音质量评价模型可以包括下列声学模型中的全部或部分：基于卷积神经网络主体结构(convolutional neural network，CNN)和(connectionist temporal classification，CTC)连接主义时间分类器损失函数的模型；基于变换器(transformer)主体结构和转换器(Transducer)损失函数的模型；基于交叉熵(cross entropy)损失函数的听、注意和拼写(listen attention and spell，LAS)模型；基于交叉熵(cross entropy)的(hidden markov model，HMM)隐马尔科夫-深度神经网络(deep neural nrtwork，DNN)模型。

在本申请实施例中，语音质量评价模型可以包括但不限于上述列举的各个声学模型。这些声学模型的建模单位可以包括拼音、音节、音素等。通过综合使用多种典型的声学模型，本申请实施例的语音质量评价方法可以对特定的声学模型中立。

作为一个可选的实施例，上述将增强后的语音输入至语音质量评价模型，获得该增强后的语音的损失信息，包括：将增强后的语音分别输入到至少两个声学模型，获得至少两个子损失信息，上述至少两个子损失信息与至少两个声学模型对应；基于至少两个子损失信息，确定损失信息。

作为一个可选的实施例，上述损失信息可以通过对至少两个子损失信息进行加权求和得到。

示例性地，假设上述语音质量评价模型包括N个声学模型，第一声学模型、第二声学模型、…、第N声学模型，则每个声学模型分别对应一个权重，第一声学模型对应权重w₁，第二声学模型对应权重w₂，依次类推，第N声学模型对应权重w_N，各个声学模型的权重可以是预设的，也可以是针对不同的场景预设不同的权重。每个声学模型的输出结果(即子损失信息)依次为p₁,p₂,…,p_N，则损失信息可以通过下列公式得到：

w₁×p₁+w₂×p₂+…+w_N×p_N。

下面以第一声学模型为例，描述第一声学模型对应的第一子损失信息的确定过程，应理解，其他声学模型确定子损失信息的过程与该第一声学模型是类似的，此处不再赘述。

作为一个可选的实施例，上述将增强后的语音分别输入至上述至少两个声学模型，获得至少两个子损失信息，包括：将增强后的语音输入至上述至少两个声学模型中的第一声学模型，获得第一声学模型中的解码器的解码结果；将该第一声学模型中的解码器的解码结果作为真实值，计算增强后的语音的第一子损失信息。

图2示出了本申请实施例的语音质量评价方法的示意性流程图。假设ASR系统安装在一个新的电子设备(简称新设备)上，为了使本申请实施例的语音质量评价方法更加适用于该新设备，可以通过测试数据集对该ASR系统的语音增强算法进行优化。具体而言，图2通过采用测试数据集，获取语音信号，通过语音增强算法对语音信号进行增强处理，再通过本申请实施例的语音质量评价方法对增强后的语音信号的质量进行评价，在语音增强算法不满足接入条件的情况下，进一步优化语音增强算法。

首先介绍构建测试数据集的过程。示例性地，可以在录音棚进行录音，采集标准的麦克风语料，本申请实施例又称为“标麦语料”；在典型场景下采集噪声语料，该典型场景可以为客厅、餐厅、高速行驶的车内等，本申请实施例对此不作限定。上述标麦语料和噪声语料可以统称为基准语料。当ASR系统安装在新设备上时，可以先确定该新设备的应用场景，例如，噪声类型、信噪比、人声干扰、房间大小与混响、人麦距离等。再搭建合适的录音房间，并布置合适的环境，然后通过人工嘴来播放上述基准语料以仿真人的说话和噪声的传播，从而形成适配了该新设备对应的场景的真实的多通道的语音信号，包括图2所示的原始录音和噪声录音。应理解，上述噪声类型、信噪比、人声干扰等因素可以通过录制好的多通道音箱的时域相加合成来进行控制。

然后，将上述多通道的语音信号通过语音增强算法进行处理，得到增强后的语音。采用本申请实施例的语音质量评价方法计算增强后的语音的损失信息。若损失信息小于阈值，则接受该语音增强算法，确定该语音增强算法满足要求，无需优化；若损失信息大于或等于阈值，则拒绝该语音增强算法，进一步优化该语音增强算法。

应理解，在获得优化后的语音增强算法之后，还可以采用上述方法继续判断是否需要继续对该算法进行优化，直到语音增强算法满足要求为止。

还应理解，一般情况下，电子设备是通过语音增强算法对一组音频批量进行增强处理，然后通过语音质量评价模型分别计算该组音频的损失信息。如果该组音频的损失信息的均值小于阈值，则电子设备可以确定增强后的语音信号的语音质量达标；否则，增强后的语音信号的语音质量不达标，可以继续改进语音增强算法。

上面基于已有的语音质量评价模型，介绍的是该语音质量评价模型的使用过程，在使用该语音质量评价模型之前，还可以对该语音质量评价模型进行训练。下面，介绍本申请实施例的语音质量评价模型的训练过程。

作为一个可选的实施例，上述方法还包括：基于已标注语料，对上述至少两个声学模型进行训练，获得语音质量评价模型。

具体而言，由于语音质量评价模型包括至少两个声学模型，对语音质量评价模型的训练，即是对该至少两个声学模型的训练。训练过程如图3所示，语音语料为语音信号的已标注语料，一个语音信号的标注文本即可以理解为该语音信号的真实值。将语音信号作为一个声学模型的输入，输出该语音信号的预测标注文本，将该预测标注文本作为预测值与该语音信号的真实值比较，不断训练该声学模型的参数，使得该声学模型的预测值逼近真实值，从而完成对该声学模型的训练。

可选地，上述已标注语料可以包括理想近场语料和理想远场语料。其中，上述理想近场语料对应近场场景，上述理想远场语料对应远场场景。在一种可能的实现方式中，在近场场景下，可以采用理想近场语料作为上述声学模型的训练语料；在远场场景下，可以采用低混响、低外噪、无人声噪声、无回声的理想远场语料作为上述声学模型的训练语料。

应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文中结合图1至图3，详细描述了根据本申请实施例的语音质量评价模型的使用和训练方法，下面将结合图4至图5，详细描述根据本申请实施例的语音质量评价的装置。

图4示出了本申请实施例提供的语音质量评价装置400，该装置400包括：增强模块401、处理模块402和判断模块403。

增强模块401，用于通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后的语音。处理模块402，用于将增强后的语音输入至语音质量评价模型，获得该增强后的语音的损失信息，语音质量评价模型包括至少两个声学模型，该损失信息是基于至少两个声学模型的解码器对上述增强后的语音的解码结果作为真实值确定的。判断模块403，基于上损失信息，判断该增强后的语音的质量是否达标。

可选地，该判断模块403，若损失信息小于或等于阈值，确定该增强后的语音的质量达标；或者，若损失信息大于阈值，确定该增强后的语音的质量不达标。

可选地，该判断模块403，用于若增强后的语音的质量达标，接受该语音增强算法；或者，若增强后的语音的质量不达标，拒绝该语音增强算法。

可选地，该处理模块402，用于在增强后的语音的质量不达标的情况下，优化该语音增强算法。

可选地，至少两个声学模型包括下列声学模型中的全部或部分：

基于卷积神经网络CNN结构和联结主义时间分类器CTC损失函数的模型；基于变换器Transformer结构和转换器Transducer损失函数的模型；基于交叉熵损失函数的听、注意和拼写LAS模型；基于交叉熵损失函数的隐马尔可夫-深度神经网络HMM-DNN模型。

可选地，该处理模块402，用于将增强后的语音分别输入至上述至少两个声学模型，获得至少两个子损失信息，上述至少两个子损失信息与至少两个声学模型对应；基于上述至少两个子损失信息，确定损失信息。

可选地，该损失信息是通过对上述至少两个子损失信息进行加权求和得到的。

可选地，该处理模块402，用于将增强后的语音输入至上述至少两个声学模型的第一声学模型，获得该第一声学模型中的解码器的解码结果；将该第一声学模型中的解码器的解码结果作为真实值，计算该增强后的语音的第一子损失信息。

可选地，上述装置400还包括：训练模块404，用于基于已标注语料，对上述至少两个声学模型进行训练，获得语音质量评价模型。

可选地，该已标注语料包括：该已标注语料包括理想近场语料和理想远场语料，理想近场语料对应近场场景，理想远场语料对应远场场景。

应理解，这里的装置400以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，装置400可以具体为上述实施例中的电子设备，或者，上述实施例中电子设备的功能可以集成在装置400中，装置400可以用于执行上述方法实施例中与电子设备对应的各个流程和/或步骤，为避免重复，在此不再赘述。

上述装置400具有实现上述方法中电子设备执行的相应步骤的功能；上述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

在本申请的实施例，图4中的装置400也可以是芯片或者芯片系统，例如：片上系统(system on chip，SoC)。

图5示出了本申请实施例提供的另一语音质量评价装置500。该装置500包括处理器501、收发器502和存储器503。其中，处理器501、收发器502和存储器503通过内部连接通路互相通信，该存储器503用于存储指令，该处理器501用于执行该存储器503存储的指令，以控制该收发器502发送信号和/或接收信号。

应理解，装置500可以具体为上述实施例中的电子设备，或者，上述实施例中电子设备的功能可以集成在装置500中，装置500可以用于执行上述方法实施例中与电子设备对应的各个步骤和/或流程。可选地，该存储器503可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。该处理器501可以用于执行存储器中存储的指令，并且该处理器执行该指令时，该处理器可以执行上述方法实施例中与电子设备对应的各个步骤和/或流程。

应理解，在本申请实施例中，该处理器可以是中央处理单元(Central ProcessingUnit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器执行存储器中的指令，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音质量评价方法，其特征在于，包括：

通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后的语音；

将所述增强后的语音输入至语音质量评价模型，获得所述增强后的语音的损失信息，所述语音质量评价模型包括至少两个声学模型，所述损失信息是基于所述至少两个声学模型的解码器对所述增强后的语音的解码结果作为真实值确定的；

基于所述损失信息，判断所述增强后的语音的质量是否达标。

2.根据权利要求1所述的方法，其特征在于，所述基于所述损失信息，判断所述增强后的语音的质量是否达标，包括：

若所述损失信息小于或等于阈值，确定所述增强后的语音的质量达标；或者，

若所述损失信息大于阈值，确定所述增强后的语音的质量不达标。

3.根据权利要求1或2所述的方法，其特征在于，在所述判断所述增强后的语音的质量是否达标之后，所述方法还包括：

若所述增强后的语音的质量达标，接受所述语音增强算法；或者，

若所述增强后的语音的质量不达标，拒绝所述语音增强算法。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述增强后的语音的质量不达标的情况下，优化所述语音增强算法。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述至少两个声学模型包括下列声学模型中的全部或部分：

基于卷积神经网络CNN结构和联结主义时间分类器CTC损失函数的模型；

基于变换器Transformer结构和转换器Transducer损失函数的模型；

基于交叉熵损失函数的听、注意和拼写LAS模型；

基于交叉熵损失函数的隐马尔可夫-深度神经网络HMM-DNN模型。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述将所述增强后的语音输入至语音质量评价模型，获得所述增强后的语音的损失信息，包括：

将所述增强后的语音分别输入至所述至少两个声学模型，获得至少两个子损失信息，所述至少两个子损失信息与所述至少两个声学模型对应；

基于所述至少两个子损失信息，确定所述损失信息。

7.根据权利要求6所述的方法，其特征在于，所述损失信息是通过对所述至少两个子损失信息进行加权求和得到的。

8.根据权利要求6或7所述的方法，其特征在于，所述将所述增强后的语音分别输入至所述至少两个声学模型，获得至少两个子损失信息，包括：

将所述增强后的语音输入至所述至少两个声学模型的第一声学模型，获得所述第一声学模型中的解码器的解码结果；

将所述第一声学模型中的解码器的解码结果作为真实值，计算所述增强后的语音的第一子损失信息。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

基于已标注语料，对所述至少两个声学模型进行训练，获得所述语音质量评价模型。

10.根据权利要求9所述的方法，其特征在于，所述已标注语料包括：

理想近场语料和理想远场语料，所述理想近场语料对应近场场景，所述理想远场语料对应远场场景。

11.一种语音质量评价装置，其特征在于，包括：

增强模块，用于通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后的语音；

处理模块，用于将所述增强后的语音输入至语音质量评价模型，获得所述增强后的语音的损失信息，所述语音质量评价模型包括至少两个声学模型，所述损失信息是基于所述至少两个声学模型的解码器对所述增强后的语音的解码结果作为真实值确定的；

判断模块，基于所述损失信息，判断所述增强后的语音的质量是否达标。

12.根据权利要求11所述的装置，其特征在于，所述判断模块具体用于：

13.根据权利要求11或12所述的装置，其特征在于，所述判断模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述处理模块具体用于：

15.根据权利要求11至14中任一项所述的装置，其特征在于，所述至少两个声学模型包括下列声学模型中的全部或部分：

基于变换器Transformer结构和转换器Transducer损失函数的模型；

基于交叉熵损失函数的听、注意和拼写LAS模型；

16.根据权利要求11至15中任一项所述的装置，其特征在于，所述处理模块具体用于：

基于所述至少两个子损失信息，确定所述损失信息。

17.根据权利要求16所述的装置，其特征在于，所述损失信息是通过对所述至少两个子损失信息进行加权求和得到的。

18.根据权利要求16或17所述的装置，其特征在于，所述处理模块具体用于：

19.根据权利要求11至18中任一项所述的装置，其特征在于，所述装置还包括：

训练模块，用于基于已标注语料，对所述至少两个声学模型进行训练，获得所述语音质量评价模型。

20.根据权利要求19所述的装置，其特征在于，所述已标注语料包括：

21.一种语音质量评价装置，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储计算机程序，当所述处理器调用所述计算机程序时，使得所述装置执行如权利要求1至10中任一项所述的方法。

22.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于实现如权利要求1至10中任一项所述的方法的指令。