CN113380235A

CN113380235A - 基于知识迁移的电话信道虚假语音鉴别方法及存储介质

Info

Publication number: CN113380235A
Application number: CN202110931452.1A
Authority: CN
Inventors: 易江燕; 陶建华; 田正坤; 傅睿博
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-09-10
Anticipated expiration: 2041-08-13
Also published as: CN113380235B

Abstract

本发明提供一种基于知识迁移的电话信道虚假语音鉴别方法，包括：将利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型，将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型；在所述电话信道模型训练过程中，应用所述麦克风信道模型指导所述电话信道模型进行训练，使得所述电话信道模型模仿所述麦克风信道模型的行为，即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布；应用训练后的电话信道模型对电话信道语音进行预测，得到电话信道语音的真假判别结果。

Description

基于知识迁移的电话信道虚假语音鉴别方法及存储介质

技术领域

本发明涉及语音鉴别领域，具体涉及一种基于知识迁移的电话信道虚假语音鉴别方法。

背景技术

语音合成与转换技术的日益成熟，与之相应的检测技术也受到越来越多的学者的关注。目前大多虚假语音鉴别技术都致力于解决麦克风信道语音的真假判别问题，很少关注电话信道语音的真假问题。但是语音是电话信道进行信息传输的天然载体，不需要视频或文本等模态就能很容易欺骗大众。因此研究电话信道语音真假的鉴别问题具有重要的意义。然而，因受电话带宽、编码标准和信道噪声的影响，电话信道虚假语音鉴别任务更具挑战性，目前方法采用高斯混合模型和深度神经网络及其变种，采集或模拟电话信道的语音数据进行模型训练。

公开号为CN112992126A公开了一种语音真伪的验证方法、装置、电子设备及可读存储介质，包括：获取待识别语音；将待识别语音输入预先训练好的声音特征提取网络，得到目标特征向量；目标特征向量包含用于区分声音来源的待识别语音的时序信息以及音素长时对应信息；将目标特征向量输入至预先训练好的分类模型中，确定待识别语音是否为真实用户发出的；分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。

公开号为CN112712809B公开了一种语音检测方法、装置、电子设备及存储介质。从待检测语音中提取出多个语音特征信息；将语音特征信息分别输入至预先训练好的多个语音来源模型中，确定待检测语音与每个语音来源模型的来源类型之间的第一匹配度；针对于每个语音类别模型，基于确定出的第一匹配度，确定待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；基于确定出的多个第一匹配度和多个第二匹配度，确定待检测语音的类别类型和来源类型。

现有技术缺点

但是相比于麦克风信道语音的鉴别任务，电话信道语音鉴别的错误率依然很高。因为电话带宽、各种编码标准和信道噪声掩盖了虚假语音的伪造痕迹，模型很难学习真假语音的区分性特征。

发明内容

有鉴于此，本发明第一方面提供一种基于知识迁移的电话信道虚假语音鉴别方法，包括：

利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型，将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型；在所述电话信道模型训练过程中，应用所述麦克风信道模型指导所述电话信道模型进行训练，使得所述电话信道模型模仿所述麦克风信道模型的行为，即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布；应用训练后的电话信道模型对电话信道语音进行预测，得到电话信道语音的真假判别结果。；

所述应用所述麦克风信道模型指导所述电话信道模型进行训练，使得所述电话信道模型模仿所述麦克风信道模型的行为具体为：使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布。

优选的，所述电话信道模型训练的具体步骤包括：

特征提取：

从麦克风信道的语音数据中提取麦克风信道声学特征；

从电话信道的语音数据中提取电话信道声学特征；

麦克风信道模型训练步骤：

将麦克风信道声学特征作为所述麦克风信道模型的输入，采用后向传播算法进行梯度反传，利用随机梯度下降算法更新所述麦克风信道模型参数，得到训练后的麦克风信道模型；

电话信道模型训练步骤：

将麦克风信道声学特征作为训练后的麦克风信道模型的输入，采用前向算法生成语音类别的后验概率；

利用电话信道声学特征作为所述电话信道模型的输入，应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练，更新所述电话信道模型的参数，得到训练后的电话信道模型。

优选的，所述应用训练后的电话信道模型对电话信道语音进行预测的具体步骤包括：

电话信道特征提取：

从电话信道的语音预测数据中提取电话信道声学特征；

将所述电话信道声学特征输入训练后的电话信道模型，得到电话信道语音的鉴别结果。

优选的，所述应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练的方法是通过最小化麦克风信道模型和电话信道模型之间后验概率分布的差异来实现。

优选的，所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示，具体计算公式包括：

(1)

其中，P _m代表麦克风信道模型的后验概率，Q代表电话信道模型的后验概率；i表示为语音类别的下标，s _i为i对应的语音类别，x _m表示麦克风信道语音数据的声学特征，x表示电话信道语音数据的声学特征；P _m(s _i|x _m)表示麦克风信道语音数据的声学特征x _m被识别为s _i的后验概率；Q (s _i|x )表示电话信道语音数据的声学特征x被识别为s _i的后验概率。

优选的，所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示，具体计算公式还包括：

(2)

其中，

(3)

(4)。

其中，

代表 Q和Pm交叉熵，

代表Pm信息熵。

优选的，所述公式（4）与所述麦克风信道模型的后验概率分布P _m(s _i|x _m)有关，与电话信道模型的后验概率分布Q (s _i|x )无关；

根据所述公式(2)-(4)，所述公式（4）与所述麦克风信道模型的后验概率分布Pm(si|xm)有关，与电话信道模型的后验概率分布Q (si|x )无关，因此所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示，其计算公式可进一步简化为：

（5）；

电话信道模型训练的优化准则即最小化公式(5)的差异。

优选的，所述麦克风信道声学特征为声学特征常数Q谱系数；所述电话信道声学特征为声学特征常数Q谱系数。

优选的，所述麦克风信道模型和电话信道模型均为深度神经网络模型。

本发明第二方面提供一种可读存储介质，其特征在于，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述所述的基于知识迁移的电话信道虚假语音鉴别方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的方法只在训练阶段利用麦克风信道模型的知识，在预测阶段直接利用电话信道模型鉴别即可，不会增加额外的计算开销，但提高了鉴别模型的鉴别精度。

附图说明

图1为本发明实施例提供的麦克风信道模型训练流程图；

图2为本发明实施例提供的电话信道模型训练流程图；

图3为本发明实施例提供的电话信道语音真假判别预测流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本申请提出利用知识迁移的方法对电话信道的语音进行声学建模，学习更具区分性的真假判别表征，以提高电话信道虚假语音的鉴别准确率。

本申请实施例提供的一种基于知识迁移的电话信道虚假语音鉴别方法，包括：

将利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型，将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型；在所述电话信道模型训练过程中，应用所述麦克风信道模型指导所述电话信道模型进行训练，使得所述电话信道模型模仿所述麦克风信道模型的行为，即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布；应用训练后的电话信道模型对电话信道语音进行预测，得到电话信道语音的真假判别结果；

所述电话信道模型训练的具体步骤包括：

特征提取：

从麦克风信道的语音数据中提取麦克风信道声学特征常数Q谱系数（CQCC）；

从电话信道的语音数据中提取电话信道声学特征常数Q谱系数（CQCC）；

如图1所示，麦克风信道模型训练步骤：

如图2所示，电话信道模型训练步骤：

利用电话信道声学特征作为所述电话信道模型的输入，应用所述麦克风信道模型生成的语音类别的后验概率指导训练所述电话信道模型，在电话信道模型训练的过程中，麦克风信道模型的参数保持不变，更新所述电话信道模型的参数，得到训练后的电话信道模型；所述麦克风信道模型和电话信道模型均为深度神经网络；所述深度神经网络包含2个卷积层和５个全连接层；每个卷积层采用最大池化进行处理，全连接层的节点数为2048；

所述应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练的思想是通过最小化麦克风信道模型和电话信道模型之间后验概率分布的差异来实现。所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示，其计算公式可表示为：

(1)

所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示，具体计算公式还可表示为：

(2)

其中，

(3)

(4)

其中，

代表 Q和Pm交叉熵，

代表Pm信息熵，P _m代表麦克风信道模型的后验概率，Q代表电话信道模型的后验概率；i表示为语音类别的下标，s _i为i对应的语音类别，x _m表示麦克风信道语音数据的声学特征，x表示电话信道语音数据的声学特征；P _m(s _i|x _m)表示麦克风信道语音数据的声学特征x _m被识别为s _i的后验概率；Q (s _i|x )表示电话信道语音数据的声学特征x被识别为s _i的后验概率。

因为，公式(4)只与麦克风信道模型的后验概率分布有关，而与电话信道模型的后验概率分布无关，因此可以忽略，由此可得

（5）

电话信道模型训练的优化准则即最小化公式(5)的差异。

如图3所示，所述应用训练后的电话信道模型对电话信道语音进行预测的具体步骤包括：

电话信道特征提取：

从电话信道采集的语音预测数据中提取电话信道声学特征CQCC；

将所述电话信道声学特征CQCC输入训练后的电话信道模型，得到电话信道语音的鉴别结果。

本方法只在训练阶段利用麦克风信道模型的后验概率知识，在预测阶段直接利用电话信道模型进行语音真假鉴别即可，不会增加额外的计算开销，但提高了电话信道模型的鉴别精度。

本发明还提供一种可读存储介质，其特征在于，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如实施例中所述的基于知识迁移的电话信道虚假语音鉴别方法。

本发明还提供一种计算机设备，包括处理器和存储器，其中，所述存储器，用于存放计算机程序；所述处理器，用于执行存储在所述存储器上的计算机程序时，实现实施例中所述基于知识迁移的电话信道虚假语音鉴别方法的步骤。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于知识迁移的电话信道虚假语音鉴别方法，其特征在于，所述方法包括：

利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型，将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型；在所述电话信道模型训练过程中，应用所述麦克风信道模型指导所述电话信道模型进行训练，使得所述电话信道模型模仿所述麦克风信道模型的行为；应用训练后的电话信道模型对电话信道语音进行预测，得到电话信道语音的真假判别结果；

2.根据权利要求1所述的基于知识迁移的电话信道虚假语音鉴别方法，其特征在于，所述电话信道模型训练的具体步骤包括：

特征提取：

从麦克风信道的语音数据中提取麦克风信道声学特征；

从电话信道的语音数据中提取电话信道声学特征；

麦克风信道模型训练步骤：

电话信道模型训练步骤：

3.根据权利要求2所述的基于知识迁移的电话信道虚假语音鉴别方法，其特征在于，所述应用训练后的电话信道模型对电话信道语音进行预测的具体步骤包括：

电话信道特征提取：

从电话信道的语音预测数据中提取电话信道声学特征；

4.根据权利要求2所述的基于知识迁移的电话信道虚假语音鉴别方法，其特征在于，所述应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练的方法是通过最小化麦克风信道模型和电话信道模型之间后验概率分布的差异来实现。

5.根据权利要求4所述的基于知识迁移的电话信道虚假语音鉴别方法，其特征在于，所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示，具体计算公式包括：