CN113782036A

CN113782036A - 音频质量评估方法、装置、电子设备和存储介质

Info

Publication number: CN113782036A
Application number: CN202111060014.9A
Authority: CN
Inventors: 陈孝良; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-10
Anticipated expiration: 2041-09-10
Also published as: CN113782036B

Abstract

本发明公开了一种音频质量评估方法、装置、电子设备和存储介质。该方法包括：获取测试音频；对所述测试音频进行预处理，得到N个目标音频，N为正整数；将所述N个目标音频输入至训练完成的声纹模型中，得到所述N个目标音频一一对应的N个目标声纹特征；基于所述N个目标声纹特征和预设的注册声纹特征，确定所述测试音频的质量。本发明实施例中，不需要使用人工校对的方式对大量的音频文件进行校验，而是使用声纹模型得到测试音频对应的目标声纹特征，进而基于目标声纹特征确定测试音频的质量，以此提高了音频质量评估的效率。

Description

音频质量评估方法、装置、电子设备和存储介质

技术领域

本发明涉及语音处理技术领域，特别是涉及一种音频质量评估方法、装置、电子设备和存储介质。

背景技术

在安防领域，可以通过建立声纹库对用户的声音进行识别。声纹库中存储有大量的音频文件，这些音频文件又称为入库音频。

目前，往往使用人工校对的方式对大量的音频文件进行校验，人工筛选出符合入库标准的音频文件，将其存储至声纹库，这要求对于每段音频文件需要人工判断是否符合入库标准，即人工的对音频质量进行评估，这导致对音频质量进行评估的效率太低。

发明内容

本发明实施例的目的在于提供一种音频质量评估方法、装置、电子设备和存储介质，解决音频质量评估的效率太低的技术问题。具体技术方案如下：

在本发明实施例的第一方面，首先提供了一种音频质量评估方法，包括：

获取测试音频；

对所述测试音频进行预处理，得到N个目标音频，N为正整数；

将所述N个目标音频输入至训练完成的声纹模型中，得到所述N个目标音频一一对应的N个目标声纹特征；

基于所述N个目标声纹特征和预设的注册声纹特征，确定所述测试音频的质量。

在本发明实施例的第二方面，还提供了一种音频质量评估装置，所述装置包括：

获取模块，用于获取测试音频；

第一处理模块，用于对所述测试音频进行预处理，得到N个目标音频，N为正整数；

第二处理模块，用于将所述N个目标音频输入至训练完成的声纹模型中，得到所述N个目标音频一一对应的N个目标声纹特征；

确定模块，用于基于所述N个目标声纹特征和预设的注册声纹特征，确定所述测试音频的质量。

在本发明实施例的第三方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一实施例所述的音频质量评估方法。

在本发明实施的第四方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一实施例所述的音频质量评估方法。

本发明实施例中，获取测试音频，对测试音频进行预处理，得到N个目标音频；将N个目标音频输入至训练完成的声纹模型中，得到N个目标音频一一对应的N个目标声纹特征；基于N个目标声纹特征和预设的注册声纹特征，确定测试音频的质量。本发明实施例中，不需要使用人工校对的方式对大量的音频文件进行校验，而是使用声纹模型得到测试音频对应的目标声纹特征，进而基于目标声纹特征确定测试音频的质量，以此提高了音频质量评估的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中音频质量评估方法的流程示意图；

图2为本发明实施例中音频质量评估方法的应用流程图；

图3为本发明实施例中音频质量评估装置的结构示意图；

图4为本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

请参阅图1，图1为本发明实施例中音频质量评估方法的流程图。本发明实施例提供的音频质量评估方法包括：

S101，获取测试音频。

本发明实施例提供的音频质量评估方法可以应用于终端，上述测试音频即待入库的音频文件。可选地，用户可以将待入库的音频文件输入至应用该音频质量评估方法的终端。

S102，对所述测试音频进行预处理，得到N个目标音频。

本步骤中，在得到测试音频后，对测试音频进行预处理，得到N个目标音频，N为正整数。其中，对测试音频进行预处理的具体技术方案请参阅后续实施例。

S103，将所述N个目标音频输入至训练完成的声纹模型中，得到所述N个目标音频一一对应的N个目标声纹特征。

上述声纹模型是一种卷积神经网络模型，例如，上述声纹模型为Resnet34残差网络模型。

以下，以Resnet34残差网络模型为例，简要阐述声纹模型的训练过程：

将大量的训练音频输入至Resnet34残差网络模型中进行训练，在每次训练过程中，Resnet34残差网络模型中的损失函数值梯度下降，应理解，Resnet34残差网络模型中的损失函数为Arcface损失函数。在训练到一定的迭代次数时，损失函数收敛为预设数值，则说明Resnet34残差网络模型具备了生成音频文件对应的声纹特征的能力，确定声纹模型训练完成。

本步骤中，将N个目标音频作为训练完成的声纹模型的输入，得到N个目标声纹特征，且这N个目标声纹特征与N个目标音频一一对应。

应理解，声纹特征用于表征对应的目标音频，且声纹特征是一个具备256维数的特征向量，该特征向量也是Resnet34残差网络模型中倒数第二个网络层的参数。

S104，基于所述N个目标声纹特征和预设的注册声纹特征，确定所述测试音频的质量。

本步骤中，预设有注册声纹特征。可选的实施方式为，将注册音频输入至训练完成的声纹模型中，得到该注册音频对应的注册声纹特征。其中，注册音频可以理解为是符合声纹库标准的音频文件，例如，注册音频可以是特定用户的音频。

本步骤中，在得到N个目标声纹特征后，可以使用N个目标声纹特征和预设的注册声纹特征进行相关计算，确定测试音频的质量，进一步确定测试音频是否符合声纹库标准。具体的根据N个目标声纹特征和预设的注册声纹特征，确定测试音频的质量的技术方案，请参阅后续实施例。

以下，具体阐述对测试音频进行预处理的过程：

可选地，所述对所述测试音频进行预处理，得到N个目标音频包括：

对所述测试音频进行静音抑制处理，得到去燥音频；

在所述去燥音频对应的时长大于第一预设阈值的情况下，将所述去燥音频划分为连续的N个待增强音频；

对所述N个待增强音频进行音频增强处理，得到N个目标音频。

本实施例中，对测试音频进行静音抑制处理，从测试音频中识别和消除长时间的静音期，得到去燥音频。具体而言，上述静音抑制处理可以是语音活动检测(VoiceActivity Detection，VAD)；在其他实施例中，也可以通过其他方式消除测试音频中的静音期，在此不做具体限定。

本实施例中，还预设有第一预设阈值。在得到去燥音频后，检测上述去燥音频的时长，在去燥音频对应的时长大于第一预设阈值的情况下，表明去燥音频为长音频，为了使得音频质量评估的结果更为准确，将去燥音频划分为连续的N个待增强音频，其中，每个待增强音频对应的时长相同。

在一种可选的实施方式中，可以将每个待增强音频对应的时长设置为5秒。应理解，每个待增强音频对应的时长可以自定义设置，在此不做具体限定。

对每个待增强音频进行音频增强处理，上述音频增强处理可以理解为增强待增强音频中每个音频帧。示例性的，上述音频增强处理可以是对待增强音频进行数据增强。

本实施例中，对测试音频进行静音抑制处理，去除测试音频中的静音期，以消除静音帧对音频质量评估结果的干扰；在去燥音频为长音频的情况下，将去燥音频划分为多个时长较短的待增强音频，进一步提高音频质量评估的可靠性和准确性。

可选地，所述对所述测试音频进行静音抑制处理，得到去燥音频之后，所述方法包括：

在所述去燥音频对应的时长小于或等于第一预设阈值的情况下，对所述去燥音频进行音频增强处理；

将音频增强处理后的去燥音频，确定为目标音频。

本实施例中，若去燥音频对应的时长小于或等于第一预设阈值的情况下，表面该去燥音频不为长音频，则可以不将该去燥音频划分为连续的多个目标音频，直接对该去燥音频进行音频增强处理。需要说明的是，对去燥音频进行音频增强处理的方式与上述对N个目标音频进行音频增强处理的方式一致，在此不做重复阐述。将音频增强处理后的去燥音频，确定为目标音频。

以下，具体阐述对测试音频进行静音抑制处理的过程：

可选地，所述对所述测试音频进行静音抑制处理，得到去燥音频包括：

使用预设的滑动窗口将所述测试音频划分为M个按照预设顺序排列的第一音频；

对所述M个第一音频进行筛选，得到K个第二音频；所述第二音频包含的静音帧数量小于或等于第二预设阈值；

按照所述预设顺序拼接所述K个第二音频，得到去燥音频。

本实施例中，可以使用WebRTC开源库中的滑动窗口，将测试音频划分为M个按照预设顺序排列的第一音频，其中，每个第一音频对应的时长与滑动窗口的窗口长度相同，M为大于1的正整数。

上述预设顺序是基于第一音频对应的起始时间和终止时间确定的，例如，第一音频A对应的起始时间为00:00，终止时间为00:15，第一音频B对应的起始时间为00:30，终止时间为00:45，则第一音频A的顺序位于第一音频B之前。

检测每个第一音频包含的静音帧的数量，若一第一音频的静音帧数量小于或等于第二预设阈值，则将该第一音频确定为第二音频。这样，对M个第一音频进行筛选，得到了K个第二音频，其中，K为小于或等于M的正整数。

按照预设顺序拼接上述K个第二音频，得到去燥音频。

本实施例中，使用滑动窗口判断每个窗口对应的音频文件中静音帧的数量，筛选出静音帧数量小于或等于第二预设阈值的音频文件，并按照拼接第二音频，得到去燥音频，由于去燥音频中每个音频文件的静音帧数量均小于或等于第二预设阈值，因此消除了静音音频文件对音频质量评估结果的干扰，提高音频质量评估结果的准确。

可选地，所述对所述M个第一音频进行筛选，得到K个第二音频包括：

确定每个第一音频包含的静音帧数量；

将静音帧数量大于第二预设阈值的第一音频，确定为静音音频；

去除所述M个第一音频中的静音音频，得到所述K个第二音频。

本实施例中，检测每个第一音频包含的静音帧的数量，若一第一音频的静音帧数量大于第二预设阈值，表明该第一音频的音频内容为空，则将该第一音频确定为静音音频。进一步的，在检测得到所有第一音频包含的静音帧数量后，去除静音音频，将剩下的第一音频确定为第二音频。

本实施例中，使用滑动窗口判断每个窗口对应的音频文件中静音帧的数量，确定静音帧数量大于第二预设阈值的静音音频，进而去除测试音频中的静音期，消除静音帧对音频质量评估结果的干扰，提高音频质量评估结果的准确。

可选地，所述基于所述N个目标声纹特征和预设的注册声纹特征，确定所述测试音频的质量包括：

对所述注册声纹特征和所述N个目标声纹特征进行相似度计算，得到所述N个目标声纹特征一一对应的N个相似度分数；

对所述N个相似度分数分别进行平均值计算和方差计算，得到相似度平均值和相似度方差。

如上所述，注册声纹特征和目标声纹特征均是包括256个维数的特征向量，对每个目标声纹特征与注册声纹特征进行相似度计算，得到所述N个目标声纹特征一一对应的N个相似度分数，该相似度分数用于表征目标声纹特征与注册声纹特征之间的相似度，关于相似度计算的具体方案，请参阅后续实施例。

应理解，目标声纹特征的相似度分数越高，则该目标声纹特征与注册声纹特征越相似，如上所述，注册声纹特征是基于符合声纹库标准的注册音频确定的，也就是说，目标声纹特征的相似度分数越高，则该目标声纹特征越可能符合声纹库的入库标准。

在得到N个相似度分数后，计算这N个相似度分数对应的平均值，得到测试音频对应的相似度平均值；计算这N个相似度分数对应的方差，得到测试音频对应的相似度方差，其中，上述相似度平均值和相似度方差用于表征所述测试音频的质量。

应理解，测试音频对应的相似度平均值越高，说明测试音频与注册音频的相似度程度越高，该测试音频越可能符合声纹库的入库标准；测试音频对应的相似度方差越低，说明该测试音频包含的噪声越少，该测试音频的音频质量越高。可选的实施方式为，将相似度平均值高于一定数值，且相似度方差低于一定数值的测试音频，存储至声纹库中，以扩充声纹库存储的音频文件的数量。

在一些实施例中，若测试音频对应的相似度平均值小于0.6，则确定该测试音频不符合声纹库的入库标准。

本实施例中，对注册声纹特征和测试音频对应的N个目标声纹特征进行相似度计算，得到N个相似度分数；进一步的，对N个相似度分数分别进行平均值计算和方差计算，得到相似度平均值和相似度方差；根据上述相似度平均值和相似度方差对测试音频的音频质量进行判断，以此提高音频质量评估的准确性。

以下，具体阐述对注册声纹特征和N个目标声纹特征进行相似度计算的技术方案：

可选地，所述对所述注册声纹特征和所述N个目标声纹特征进行相似度计算，得到所述N个目标声纹特征一一对应的N个相似度分数包括：

对于任一目标声纹特征，对所述目标声纹特征进行归一化处理，得到目标特征向量；

对所述目标特征向量和注册特征向量进行点积运算，得到所述目标声纹特征对应的相似度分数。

如上所述，注册声纹特征和目标声纹特征均是包括256个维数的特征向量，对目标声纹特征进行归一化处理，得到目标特征向量。对注册声纹特征进行归一化处理，得到注册特征向量。对目标特征向量和注册特征向量进行点积运算，即目标特征向量与注册特征向量的转置做点积乘法运算，得到目标声纹特征对应的相似度分数。

为便于理解整体方案，请参阅图2，图2为本发明实施例中音频质量评估方法的应用流程图。

如图2所示，候选入库长音频列表中存储有多条候选入库长音频，上述候选入库长音频即测试音频；从列表中提取一条长音频作为候选长音频。对该长音频进行VAD处理，消除长音频中的静音帧，得到消除静音期的长音频。进一步的，将该长音频切分为多条连续，且对应的时长均相同的短音频，得到短音频集合。将短音频集合中的每条短音频输入至训练完成的声纹模型中，得到多个目标声纹特征，将注册音频输入至训练完成的声纹模型中，得到注册声纹特征。根据注册声纹特征和每条短音频对应的目标声纹特征，得到每条短音频对应的相似度分数，将所有的相似度分数存储至分数集合中。计算分数集合中所有相似度分数的平均值和方差，得到该长音频对应的相似度平均值和相似度方差。进而得到候选入库长音频列表中所有长音频对应的相似度平均值和相似度方差。

如图3所示，本发明实施例还提供了一种音频质量评估装置200，包括：

获取模块201，用于获取测试音频；

第一处理模块202，用于对所述测试音频进行预处理，得到N个目标音频；

第二处理模块203，用于将所述N个目标音频输入至训练完成的声纹模型中，得到所述N个目标音频一一对应的N个目标声纹特征；

确定模块204，用于基于所述N个目标声纹特征和预设的注册声纹特征，确定所述测试音频的质量。

可选地，所述第一处理模块202具体用于：

对所述测试音频进行静音抑制处理，得到去燥音频；

可选地，所述第一处理模块202还具体用于：

将音频增强处理后的去燥音频，确定为目标音频。

可选地，所述第一处理模块202还具体用于：

对M个第一音频进行筛选，得到K个第二音频；

按照所述预设顺序拼接所述K个第二音频，得到去燥音频。

可选地，所述第一处理模块202还具体用于：

确定每个第一音频包含的静音帧数量；

可选地，所述确定模块204具体用于：

可选地，所述确定模块204还具体用于：

本发明实施例还提供了一种电子设备，如图4所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，所述计算机程序被所述处理器301执行时，用于获取测试音频；

对所述测试音频进行预处理，得到N个目标音频；

可选地，所述计算机程序被所述处理器301执行时，还用于对所述测试音频进行静音抑制处理，得到去燥音频；

可选地，所述计算机程序被所述处理器301执行时，还用于在所述去燥音频对应的时长小于或等于第一预设阈值的情况下，对所述去燥音频进行音频增强处理；

将音频增强处理后的去燥音频，确定为目标音频。

可选地，所述计算机程序被所述处理器301执行时，还用于使用预设的滑动窗口将所述测试音频划分为M个按照预设顺序排列的第一音频；

对M个第一音频进行筛选，得到K个第二音频；

按照所述预设顺序拼接所述K个第二音频，得到去燥音频。

确定每个第一音频包含的静音帧数量；

可选地，所述计算机程序被所述处理器301执行时，还用于对所述注册声纹特征和所述N个目标声纹特征进行相似度计算，得到所述N个目标声纹特征一一对应的N个相似度分数；

可选地，所述计算机程序被所述处理器301执行时，还用于对于任一目标声纹特征，对所述目标声纹特征进行归一化处理，得到目标特征向量；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一实施例所述的音频质量评估方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一实施例所述的音频质量评估方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种音频质量评估方法，其特征在于，包括：

获取测试音频；

2.根据权利要求1所述的方法，其特征在于，所述对所述测试音频进行预处理，得到N个目标音频包括：

对所述测试音频进行静音抑制处理，得到去燥音频；

3.根据权利要求2所述的方法，其特征在于，所述对所述测试音频进行静音抑制处理，得到去燥音频之后，所述方法包括：

将音频增强处理后的去燥音频，确定为目标音频。

4.根据权利要求2-3中任一项所述的方法，其特征在于，所述对所述测试音频进行静音抑制处理，得到去燥音频包括：

使用预设的滑动窗口将所述测试音频划分为M个按照预设顺序排列的第一音频；所述第一音频对应的时长与所述滑动窗口的窗口长度相同，M为大于1的正整数；

对所述M个第一音频进行筛选，得到K个第二音频；所述第二音频包含的静音帧数量小于或等于第二预设阈值，K为小于或等于M的正整数；

按照所述预设顺序拼接所述K个第二音频，得到去燥音频。

5.根据权利要求4所述的方法，其特征在于，所述对所述M个第一音频进行筛选，得到K个第二音频包括：

确定每个第一音频包含的静音帧数量；

6.根据权利要求1所述的方法，其特征在于，所述基于所述N个目标声纹特征和预设的注册声纹特征，确定所述测试音频的质量包括：

对所述N个相似度分数分别进行平均值计算和方差计算，得到相似度平均值和相似度方差；所述相似度平均值和所述相似度方差用于表征所述测试音频的质量。

7.根据权利要求6所述的方法，其特征在于，所述对所述注册声纹特征和所述N个目标声纹特征进行相似度计算，得到所述N个目标声纹特征一一对应的N个相似度分数包括：

对所述目标特征向量和注册特征向量进行点积运算，得到所述目标声纹特征对应的相似度分数；

其中，所述注册特征向量基于对所述注册声纹特征进行归一化处理得到。

8.一种音频质量评估装置，其特征在于，包括：

获取模块，用于获取测试音频；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7中任一项所述的音频质量评估方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1-7中任一项所述的音频质量评估方法。