CN114420100A

CN114420100A - 语音检测方法及装置、电子设备及存储介质

Info

Publication number: CN114420100A
Application number: CN202210321299.5A
Authority: CN
Inventors: 傅睿博; 陶建华; 易江燕; 张震; 孙旭东; 刘睿霖; 王立强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-04-29
Anticipated expiration: 2042-03-30
Also published as: CN114420100B

Abstract

本公开涉及一种语音检测方法及装置、电子设备及存储介质，所述方法包括：对待检测语音进行声学特征提取，得到第一声学特征和第二声学特征；将第一声学特征序列输入预先训练好的采样率预测模型，得到采样率信息特征；将第二声学特征和采样率信息特征输入预先训练好的语音检测模型，得到待检测语音为真实语音或合成语音的分类结果，结合采样率信息特征对待检测语音进行检测，能够对实际场景中音频进行音频质量的快速判别，帮助语音检测模型对实际音频的不同频带进行更加有侧重的识别，避免假高频语音对模型判别进行干扰，提高检测模型的分类精确度。

Description

语音检测方法及装置、电子设备及存储介质

技术领域

本公开涉及语音技术领域，尤其涉及一种语音检测方法及装置、电子设备及存储介质。

背景技术

目前，语音检测模型为了捕获更有区分度的信息，使用多种用于语音信号处理的声学特征，用于语音生成检测的声学特征直接送入模型或作为判别依据。然而，在语音检测的实际应用过程中，存在待检测语音的名义音频采样率与实际音频采样率的不一样的情况，导致语音检测鲁棒性不足、精度低的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种语音检测方法及装置、电子设备及存储介质。

第一方面，本公开的实施例提供了一种语音检测方法，包括以下步骤：

对待检测语音进行声学特征提取，得到第一声学特征和第二声学特征；

将第一声学特征序列输入预先训练好的采样率预测模型，得到采样率信息特征；

将第二声学特征和采样率信息特征输入预先训练好的语音检测模型，得到待检测语音为真实语音或合成语音的分类结果。

在一种可能的实施方式中，所述第一声学特征和所述第二声学特征分别为梅尔倒谱系数、线性频率倒谱系数、线性预测系数、常数Q变换倒谱系数、对数谱中的任意一种特征或者至少两种按帧拼接得到的特征。

在一种可能的实施方式中，所述采样率预测模型和所述语音检测模型通过以下步骤训练得到：

将已知语音的第一声学特征作为采样率预测模型的输入，输出已知语音的预测采样率，并根据已知语音的预测采样率和实际采样率计算采样率预测模型的损失值；

将采样率预测模型的中间层输出的采样率信息特征和已知语音的第二声学特征作为语音检测模型的输入，输出已知语音为真实语音或合成语音的预测分类结果，并根据已知语音的实际分类和预测分类计算语音检测模型的损失值；

根据采样率预测模型的损失值和语音检测模型的损失值训练所述采样率预测模型和所述语音检测模型。

在一种可能的实施方式中，所述将采样率预测模型的中间层输出的采样率信息特征和已知语音的第二声学特征作为语音检测模型的输入，包括：

将采样率预测模型的中间层输出的采样率信息特征和已知语音的第二声学特征进行按帧拼接，得到拼接后特征；

将拼接后特征作为语音检测模型的输入。

在一种可能的实施方式中，通过以下表达式，根据采样率预测模型的损失值和语音检测模型的损失值训练所述采样率预测模型和所述语音检测模型：

其中，

为采样率预测模型和语音检测模型的总损失值，

为采样率预测模型的损失值，

为语音检测模型的损失值，

和

为权重因子。

在一种可能的实施方式中，所述已知语音通过以下步骤得到：

将预设采样率已知的真实音频和合成音频，分别通过降采样再升采样生成的音频，作为已知语音。

在一种可能的实施方式中，所述已知语音的采样率为预设采样率已知的真实音频或合成音频通过降采样得到的采样率。

第二方面，本公开的实施例提供了一种语音检测装置，包括：

提取模块，其用于对待检测语音进行声学特征提取，得到第一声学特征和第二声学特征；

输入模块，其用于将第一声学特征序列输入预先训练好的采样率预测模型，得到采样率信息特征；

分类模块，其用于将第二声学特征和采样率信息特征输入预先训练好的语音检测模型，得到待检测语音为真实语音或合成语音的分类结果。

第三方面，本公开的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的语音检测方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的语音检测方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例所述的语音检测方法，对待检测语音进行声学特征提取，得到第一声学特征和第二声学特征；将第一声学特征序列输入预先训练好的采样率预测模型，得到采样率信息特征；将第二声学特征和采样率信息特征输入预先训练好的语音检测模型，得到待检测语音为真实语音或合成语音的分类结果，结合采样率信息特征对待检测语音进行检测，能够对实际场景中音频进行音频质量的快速判别，帮助语音检测模型对实际音频的不同频带进行更加有侧重的识别，避免假高频语音对模型判别进行干扰，提高检测模型的分类精确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开实施例的语音检测方法的流程示意图；

图2示意性示出了根据本公开实施例的步骤S2和步骤S3中模型训练方法的流程示意图；

图3示意性示出了根据本公开实施例的步骤S22的详细流程示意图；

图4示意性示出了根据本公开实施例的语音检测方法的应用流程示意图；

图5示意性示出了根据本公开实施例的语音检测装置的结构框图；以及

图6示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

音频采样率是指录音设备在单位时间内对模拟信号采样的多少，采样频率越高，机械波的波形就越真实越自然，在当今的主流采集卡上，采样频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级，11025Hz能达到AM调幅广播的声音品质，而22050Hz和24000HZ能达到FM调频广播的声音品质，44100Hz则是理论上的CD音质界限，48000Hz则更加精确一些。

然而，在实际情况中，由于网络文件传输，存储空间等诸多原因，一个音频文件尽管名义上能达到16000Hz或者更高，但是实际只包含与8000Hz或者更低的有效频谱信息，将实际有效音频采样率定义为在频域分析中含有有效信息的最高频率。比如，将一个16kHz的音频（16kHz的音频文件且频谱完整）降采样到8kHz后再以16kHz音频格式存储，该音频文件（名义采样率）虽然是16kHz，但是其实际有效音频采样率为8kHz，这种音频的名义音频采样率与实际音频采样率的不一样的情况，导致音频检测鲁棒性不足、精度低的问题。

参见图1，本公开的实施例提供了一种语音检测方法，包括以下步骤：

S1，对待检测语音进行声学特征提取，得到第一声学特征和第二声学特征；

在实际应用中，对待检测语音进行声学特征提取可以通过语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧，得到帧级别的第一声学特征和第二声学特征，其中，第一声学特征和第二声学特征可以相同，也可以不同，例如，所述第一声学特征和所述第二声学特征分别为梅尔倒谱系数、线性频率倒谱系数、线性预测系数、常数Q变换倒谱系数、对数谱中的任意一种特征或者至少两种按帧拼接得到的特征，或者任意一种特征的一阶、二阶、三阶等高阶特征。当所述第一声学特征或所述第二声学特征为梅尔倒谱系数时，通过以下步骤得到梅尔倒谱系数：输入待检测语音，通过对待检测语音进行傅里叶变换获得频谱图，然后在与梅尔倒谱系数相乘获得梅尔谱特征，最后根据梅尔谱特征提取梅尔倒谱系数即可。

S2，将第一声学特征序列输入预先训练好的采样率预测模型，得到采样率信息特征；

S3，将第二声学特征和采样率信息特征输入预先训练好的语音检测模型，得到待检测语音为真实语音或合成语音的分类结果。

本公开的实施例能够通过得到待检测语音的采样率信息特征快速判别实际场景中音频的音频质量，帮助检测模型对实际音频的实际情况以及不同频带进行更加有侧重的识别，避免假高频语音对检测模型的判别干扰。

参见图2，步骤S2中的采样率预测模型和步骤S3中的所述语音检测模型通过以下步骤训练得到：

S21，将已知语音的第一声学特征作为采样率预测模型的输入，输出已知语音的预测采样率，并根据已知语音的预测采样率和实际采样率计算采样率预测模型的损失值；

在实际应用中，所述已知语音通过以下步骤得到：

其中，合成音频为采用语音合成或语音转换技术生成的音频。

其中，降采样再升采样的操作如下：实际采样率是16kHz的音频，分别通过降采样再升采样生成实际采样率不是16kHz的音频。其中，采样率预测模型的输入是已知语音的第一声学特征，模型的输出是音频采样率的类别标签，即不同的采样率，如1kHz、2kHz......15kHz。

所述已知语音的采样率为预设采样率已知的真实音频或合成音频通过降采样得到的采样率。

其中，采样率预测模型可以为一个多分类模型，如采用RNN网络，可以选取其中的中间层特征（bottleneck）特征，作为音频采样率信息特征。

S22，将采样率预测模型的中间层输出的采样率信息特征和已知语音的第二声学特征作为语音检测模型的输入，输出已知语音为真实语音或合成语音的预测分类结果，并根据已知语音的实际分类和预测分类计算语音检测模型的损失值；

在实际应用中，语音检测模型可以是二分类模型，采用编码器-解码器结构，语音检测模型的输入为采样率信息特征和已知语音的第二声学特征按帧拼接的声学特征，输出为真实语音和合成语音的二分类结果，

S23，根据采样率预测模型的损失值和语音检测模型的损失值训练所述采样率预测模型和所述语音检测模型。

在实际应用中，通过以下表达式，根据采样率预测模型的损失值和语音检测模型的损失值训练所述采样率预测模型和所述语音检测模型：

其中，

为采样率预测模型和语音检测模型的总损失值，

为采样率预测模型的损失值，采样率预测模型的损失值可以采用交叉熵损失函数进行计算，

为语音检测模型的损失值，语音检测模型的损失值采用交叉熵损失函数进行计算，

和

为权重因子。

参见图3，步骤S22中，所述将采样率预测模型的中间层输出的采样率信息特征和已知语音的第二声学特征作为语音检测模型的输入，包括：

S31，将采样率预测模型的中间层输出的采样率信息特征和已知语音的第二声学特征进行按帧拼接，得到拼接后特征；

在实际应用中，样率预测模型的中间层可以是隐层中的任意一个层。

S32，将拼接后特征作为语音检测模型的输入。

其中，

为采样率预测模型和语音检测模型的总损失值，

为采样率预测模型的损失值，

为语音检测模型的损失值，

和

为权重因子。

参见图4，本公开的语音检测方法的应用过程如下：

将第一声学特征序列输入预先训练好的采样率预测模型，得到采样率信息特征和采样率信息；

本公开的语音检测方法，待检测语音作为输入，经过采样率预测模型和语音检测模型，得到检测结果的同时，还可以得到采样率信息，能够鉴别待检测语音的实际采样率。

本公开的语音检测方法采用采样率预测模型来提取语音的实际音频采样率信息，融合实际音频采样率信息与帧级别一致性特征，实现对语音波形拼接点的检测。

参见图5，本公开的实施例提供了一种语音检测装置，包括：

提取模块11，其用于对待检测语音进行声学特征提取，得到第一声学特征和第二声学特征；

输入模块12，其用于将第一声学特征序列输入预先训练好的采样率预测模型，得到采样率信息特征；

分类模块13，其用于将第二声学特征和采样率信息特征输入预先训练好的语音检测模型，得到待检测语音为真实语音或合成语音的分类结果。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本实施例中，提取模块11、输入模块12和分类模块13中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。提取模块11、输入模块12和分类模块13中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，提取模块11、输入模块12和分类模块13中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

参照图6所示，本公开的实施例提供的电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示语音检测方法：

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的语音检测方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的语音检测方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。