CN114937455A

CN114937455A - 语音检测方法及装置、设备及存储介质

Info

Publication number: CN114937455A
Application number: CN202210861977.7A
Authority: CN
Inventors: 陶建华; 王成龙; 易江燕; 张震; 李鹏; 石瑾; 孙旭东
Original assignee: Institute of Automation of Chinese Academy of Science; National Computer Network and Information Security Management Center
Current assignee: Institute of Automation of Chinese Academy of Science; National Computer Network and Information Security Management Center
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-08-23
Anticipated expiration: 2042-07-21
Also published as: CN114937455B

Abstract

本公开涉及一种语音检测方法及装置、设备及存储介质，所述方法包括：接收待检测语音，根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征；将待检测语音输入预先训练好的语音检测模型，将所述语音检测模型的隐藏层的输出作为语音声学特征；拼接所述语义声学特征和所述语音声学特征，并将拼接后的声学特征输入所述语音检测模型的输出层，输出待检测语音是真实的还是伪造的检测结果，结合待检测语音的语义声学特征检测语音的真伪，通过语义声学特征中待检测语音的编码状态向量与解码状态向量之间的相关性，能够结合待检测语音的上下文之间的相关性检测语音的真伪，提高检测的准确性。

Description

语音检测方法及装置、设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音检测方法及装置、设备及存储介质。

背景技术

为了提高伪音频检测系统的性能，近年来的工作主要集中在两个方面：改进音频的声学特征和设计有效的分类模型。

然而，现有的声学特征一般从幅度谱特征（如梅尔倒谱系数、线性频率倒谱系数等）和相位谱特征(群迟延图)来研究真实语音和生成语音的差异，对与语义相关的声学特征研究较少。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种语音检测方法及装置、设备及存储介质。

第一方面，本公开的实施例提供了一种语音检测方法，包括：

接收待检测语音，根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征，其中，所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定；

将待检测语音输入预先训练好的语音检测模型，将所述语音检测模型的隐藏层的输出作为语音声学特征；

拼接所述语义声学特征和所述语音声学特征，并将拼接后的声学特征输入所述语音检测模型的输出层，输出待检测语音是真实的还是伪造的检测结果。

在一种可能的实施方式中，所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定，包括：

对接收到的待检测语音进行编码，得到待检测语音的编码状态序列；

对所述编码状态序列进行解码，得到解码状态序列；

计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分；

根据所述相关性得分，计算每一个编码状态向量的权重值。

在一种可能的实施方式中，通过以下表达式，计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分：

其中，

是第j个编码状态向量，

是第i个解码状态向量，

是第j个编码状态向量与第i个解码状态向量之间的相关性得分。

在一种可能的实施方式中，通过以下表达式，根据所述相关性得分，计算每一个编码状态向量的权重值：

其中，

是第j个编码状态向量的权重值，

在一种可能的实施方式中，通过以下表达式，根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征：

其中，

是第j个编码状态向量的权重值，

是第j个编码状态向量，

为语义声学特征。

在一种可能的实施方式中，所述语音检测模型通过以下步骤训练得到：

以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型，得到语音检测模型的第一损失函数值；

以已知的语音样本的语音声学特征作为输入训练语音检测模型，得到语音检测模型的第二损失函数值；

根据第一损失函数值和第二损失函数值计算语音检测模型的总损失函数值，以通过总损失函数值调整语音检测模型的模型参数，得到训练后的语音检测模型。

在一种可能的实施方式中，当以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型时，所述语音样本为真实语音；当以已知的语音样本的语音声学特征作为输入训练语音检测模型时，所述语音样本包括真实语音和伪造语音。

第二方面，本公开的实施例提供了一种语音检测装置，包括：

确定模块，其用于接收待检测语音，根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征；

输出模块，其用于将待检测语音输入预先训练好的语音检测模型，将所述语音检测模型的隐藏层的输出作为语音声学特征；

拼接模块，其用于拼接所述语义声学特征和所述语音声学特征，并将拼接后的声学特征输入所述语音检测模型的输出层，输出待检测语音是真实的还是伪造的检测结果。

第三方面，本公开的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的语音检测方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的语音检测方法。。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例所述的语音检测方法，接收待检测语音，根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征，其中，所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定；将待检测语音输入预先训练好的语音检测模型，将所述语音检测模型的隐藏层的输出作为语音声学特征；拼接所述语义声学特征和所述语音声学特征，并将拼接后的声学特征输入所述语音检测模型的输出层，输出待检测语音是真实的还是伪造的检测结果，结合待检测语音的语义声学特征检测语音的真伪，通过语义声学特征中待检测语音的编码状态向量与解码状态向量之间的相关性，能够结合待检测语音的上下文之间的相关性检测语音的真伪，提高检测的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开实施例的语音检测方法的示意流程图；

图2示意性示出了根据本公开实施例的数据处理的装置的结构框图；以及

图3示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

参见图1，本公开的语音检测方法，包括：

S1，接收待检测语音，根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征，其中，所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定；

S2，将待检测语音输入预先训练好的语音检测模型，将所述语音检测模型的隐藏层的输出作为语音声学特征；

S3，拼接所述语义声学特征和所述语音声学特征，并将拼接后的声学特征输入所述语音检测模型的输出层，输出待检测语音是真实的还是伪造的检测结果。

在本实施例中，步骤S1中，所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定，包括：

对所述编码状态序列进行解码，得到解码状态序列；

根据所述相关性得分，计算每一个编码状态向量的权重值。

在本实施例中，在一种可能的实施方式中，通过以下表达式，计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分：

其中，

是第j个编码状态向量，

是第i个解码状态向量，

是第j个编码状态向量与第i个解码状态向量之间的相关性得分。在实际应用中，

或者

，其中，

和

分别为向量

和向量

的各分量。

在本实施例中，在一种可能的实施方式中，通过以下表达式，根据所述相关性得分，计算每一个编码状态向量的权重值：

其中，

是第j个编码状态向量的权重值，

在本实施例中，步骤S1中，通过以下表达式，根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征：

其中，

是第j个编码状态向量的权重值，

是第j个编码状态向量，

为语义声学特征。

在本实施例中，步骤S2中，所述语音检测模型通过以下步骤训练得到：

根据第一损失函数值和第二损失函数值计算语音检测模型的总损失函数值，以通过总损失函数值调整语音检测模型的模型参数，得到训练后的语音检测模型，其中，当以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型时，所述语音样本为真实语音；当以已知的语音样本的语音声学特征作为输入训练语音检测模型时，所述语音样本包括真实语音和伪造语音。

以语音声学特征为线性频率倒谱系数为例，解释本公开的语音检测方法：

（1）语音声学特征通过基于注意力机制的序列到序列模型提取得到，不再将模型的源序列压缩为一个向量，而是在解码的每一步，都使用注意力机制来从编码状态序列中，计算一个上下文向量，其过程可以被描述为一个查询机制，解码器生成一个解码状态向量也被称之为查询向量，使用查询向量与编码状态序列中的每一个向量都计算一个相关性得分（能量值），该能量值表示的是编码向量中有多少信息与当前解码状态相关，然后使用分类器来对一系列的能量值进行归一化得到注意力分数，最后使用注意力分数作为权重，对编码状态序列进行加权求和，得到与当前解码标记相关的上下文向量。整个流程就是一个查询相关信息的过程。其可以被公式描述如下：

能量值的计算：

其中，

是第j个编码状态向量，

是第i个解码状态向量，

是第j个编码状态向量与第i个解码状态向量之间的相关性得分，

归一化计算：

其中，

是第j个编码状态向量的权重值，

计算上下文向量：

其中，

是第j个编码状态向量的权重值，

是第j个编码状态向量，

为语义声学特征。

（2）将ResNet18作为语音检测模型，将

表示为语音检测模型最后一层的输入，即：

其中，

为待检测语音的线性频率倒谱系数。

（3）联合训练：由于特征空间位移的问题，提取的语义声学特征表示并不总是语音检测模型的最佳拟合方法。为了解决这一问题，提出了多目标学习方法，联合优化基于注意力机制的序列到序列模型和语音检测模型，以相互促进，其中，用真实语音训练基于注意力机制的序列到序列模型，而语音检测模型同时训练真实语音和虚假语音。联合优化目标定义如下：

其中，

指定了相应项的相对重要性，可以通过实验选择。为了进行评估，首先将待检测的语音输入到训练好的基于注意力机制的序列到序列模型中，以提取语义声学特征

，然后将提取的语义声学特征

与原始线性频率倒谱系数相连接，然后将其引入多层语音检测模型中，以进行生成语音检测。在进行语音检测时，首先，提取待检测的语音的语义声学特征

和线性频率倒谱系数，将两者拼接之后输入语音检测模型的最后一层给出当前输入语音的得分来判断此语音是否生成。

本公开的语音检测方法，解决目前语音检测中没有结合语义相关的特征的问题，事实上，每个说话人都有自己特有的说话方式，惯用词或者说话习惯等，这点在语音合成上很难实现，因此，将语义信息特征作为鉴别真伪音频的突破口，有效地在前端声学特征层面融合了语义声学特征作为语义信息用于语音检测，能够结合待检测语音的上下文之间的相关性检测语音的真伪，提高检测的准确性。

参见图2，本公开还提供一种语音检测装置，包括：

确定模块11，其用于接收待检测语音，根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征；

输出模块12，其用于将待检测语音输入预先训练好的语音检测模型，将所述语音检测模型的隐藏层的输出作为语音声学特征；

拼接模块13，其用于拼接所述语义声学特征和所述语音声学特征，并将拼接后的声学特征输入所述语音检测模型的输出层，输出待检测语音是真实的还是伪造的检测结果。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述第二个实施例中，确定模块11、输出模块12和拼接模块13中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。确定模块11、输出模块12和拼接模块13中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，确定模块11、输出模块12和拼接模块13中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

参见图3，本公开的第三个示例性实施例提供的电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示语音检测方法：

语音检测方法，其特征在于，所述方法包括：

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述语音检测方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的数据处理的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。