CN116665649A

CN116665649A - 基于韵律特征的合成语音检测方法

Info

Publication number: CN116665649A
Application number: CN202310670395.5A
Authority: CN
Inventors: 温正棋; 汪涛
Original assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-08-29

Abstract

本发明属于合成语音检测技术领域，特别涉及一种基于韵律特征的合成语音检测方法，其中，合成语音检测方法包括以下步骤：获取待检测语音信号；根据预设的第一方式对待检测语音信号进行处理，得到声学特征；根据预设的第二方式对待检测语音信号进行处理，得到韵律特征；将声学特征与韵律特征拼接，得到特征向量；将特征向量输入预设的神经网络模型进行检测，得到检测结果。本发明提供的合成语音检测方法，通过提取语音中的韵律特征来鉴别深度合成语音和真实语音，提高了语音鉴别的准确性和鲁棒性。

Description

基于韵律特征的合成语音检测方法

技术领域

本发明涉及语音检测领域，尤其涉及一种基于韵律特征的合成语音检测方法。

背景技术

语音是现代通讯和信息交流的重要形式之一。随着数字语音技术的不断发展，语音合成技术已经成为实现语音信息自动化的关键技术之一，被广泛应用于语音转换、语音合成、音乐生成等领域。然而，随着语音合成技术的广泛应用，一些不良分子利用语音合成技术进行网络欺诈、声音冒充等活动，严重威胁了网络安全和社会稳定。因此，如何准确、高效地检测合成语音具有重要的现实意义和应用价值。

近年来，针对声音防伪检测的研究主要集中在两个方面。首先是在特征层面的探索，其中高斯混合模型(Gaussian Mixture Model，GMM)分类器与常数Q倒谱系数(CQCC)的组合在各种反欺骗任务中受到了广泛的关注。CQCC特征是从常量Q变换(CQT)中提取的一种受感知启发的时频分析方法。然而，由于伪造声音和真实声音之间的相似性，单一特征无法完全展示出它们之间的差异，使得传统合成语音检测方法无法准确地区分伪造语音和真实声音之间的区别，可靠性较低。

发明内容

有鉴于此，本发明实施例提供了一种基于韵律特征的合成语音检测方法，用以解决传统合成语音检测方法的可靠性较低的技术问题。

第一方面，本发明实施例提供一种基于韵律特征的合成语音检测方法，包括以下步骤：获取待检测语音信号；根据预设的第一方式对所述待检测语音信号进行处理，得到声学特征；根据预设的第二方式对所述待检测语音信号进行处理，得到韵律特征；将所述声学特征与所述韵律特征拼接，得到特征向量；将所述特征向量输入预设的神经网络模型进行检测，得到检测结果。

优选地，根据预设的第一方式对所述待检测语音信号进行处理包括以下步骤：对所述待检测语音信号进行预处理，得到第一中间语音信号；计算所述第一中间语音信号的功率谱，并进行梅尔滤波处理，得到梅尔频率谱；对所述梅尔频率谱进行离散余弦变换，将得到梅尔频率倒谱系数作为所述声学特征。

优选地，根据预设的第二方式对所述待检测语音信号进行处理包括以下步骤：对所述待检测语音信号进行预处理，得到第二中间语音信号；从所述第二中间语音信号提取语音的音素时长信息和基频信息；将所述基频信息和所述音素时长信息进行融合，得到所述韵律特征。

优选地，将所述基频信息和所述音素时长信息进行融合包括以下步骤：将所述音素时长信息进行归一化处理，然后处理结果与所述基频信息分别输入到两层CNN网络中，并分别提取固定64维度的表征向量，再将所述表征向量进行点乘，得到所述韵律特征。

优选地，所述神经网络模型包括卷积神经网络、循环神经网络、长短期记忆网络或Transformer模型。

第二方面，本发明实施例提供一种一种合成语音检测装置，包括：语音获取模块：用于获取待检测语音；声学特征提取模块：用于对所述待检测语音信号进行处理，得到声学特征；韵律特征模块：用于对所述待检测语音信号进行处理，得到韵律特征；鉴别器模块：用于根据特征向量检测待检测语音的真伪。

优选地，所述韵律特征模块包括：韵律特征提取模组：用于提取待检测语音信号中的所述音素时长信息和所述基频信息；韵律特征融合模组：用于将所述音素时长信息和所述基频信息进行融合，生成韵律特征。

优选地，将所述音素时长信息和所述基频信息进行融合的方式包括向量加法、乘法等数学运算以及使用神经网络模型进行训练融合。

第三方面，本发明实施例提供一种可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现如上述方法的步骤。

第四方面，本发明实施例提供一种程序产品，其上包括计算机程序指令，所述计算机程序指令被执行时实现如上述方法的步骤。

与现有技术相比，本发明所提供的一种基于韵律特征的合成语音检测方法，具有如下的有益效果：

本发明实施例提供基于韵律特征的合成语音检测方法包括以下步骤：获取待检测语音信号；根据预设的第一方式对待检测语音信号进行处理，得到声学特征；根据预设的第二方式对待检测语音信号进行处理，得到韵律特征；将声学特征与韵律特征拼接，得到特征向量；将特征向量输入预设的神经网络模型进行检测，得到检测结果。可以理解地，传统的语音鉴伪方法一方面缺乏关于真实声音和伪造声音差异的理论研究，从特征和信号层面无法清晰解释两者的差别；另一方面，声音的防伪检测需要系统具有鲁棒性，需要能够有效地识别多种不同来源的合成声音，但现有技术在这方面存在一定的局限性。而在本方案中，通过提取语音中的韵律特征来鉴别深度合成语音和真实语音。韵律特征在语音中扮演着至关重要的角色，因为它们反映了说话者的情感状态和语言表达方式。同时，由于深度合成语音与真实语音在韵律特征方面存在较大的差距，因此基于韵律特征的检测方法可以有效地区分真实语音和深度合成语音。此外，韵律特征还可以提供额外的信息，帮助识别可能存在的语音编辑或伪造。因此，本发明旨在利用韵律特征来鉴别真假语音，提高了语音鉴别的准确性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明第一实施例提供的基于韵律特征的合成语音检测方法的流程示意图。

图2为本发明第二实施例提供的合成语音检测装置的结构示意图一。

图3为本发明第二实施例提供的合成语音检测装置的结构示意图二。

图4为本发明第四实施例提供的程序产品的结构示意图。

图5为本发明第五实施例提供的电子设备的结构示意图。

附图标号说明：

1、合成语音检测方法；2、合成语音检测装置；3、程序产品；4、电子设备；

20、语音获取模块；21、声学特征提取模块；22、韵律特征提取模块；23、鉴别器模块；30、计算机程序指令；40、处理器；41、存储器；42、总线；43、通信接口；

220、韵律特征提取模组；221、韵律特征融合模组。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，本发明第一实施例提供了一种基于韵律特征的合成语音检测方法，用于检测目标语音的真实性，包括以下步骤：

获取待检测语音信号；

根据预设的第一方式对待检测语音信号进行处理，得到声学特征；

根据预设的第二方式对待检测语音信号进行处理，得到韵律特征；

将声学特征与韵律特征拼接，得到特征向量；

将特征向量输入预设的神经网络模型进行检测，得到检测结果。

可以理解地，传统的语音鉴伪方法一方面缺乏关于真实声音和伪造声音差异的理论研究，从特征和信号层面无法清晰解释两者的差别；另一方面，声音的防伪检测需要系统具有鲁棒性，需要能够有效地识别多种不同来源的合成声音，但现有技术在这方面存在一定的局限性。而在本方案中，通过提取语音中的韵律特征来鉴别深度合成语音和真实语音。韵律特征在语音中扮演着至关重要的角色，因为它们反映了说话者的情感状态和语言表达方式。同时，由于深度合成语音与真实语音在韵律特征方面存在较大的差距，因此基于韵律特征的检测方法可以有效地区分真实语音和深度合成语音。此外，韵律特征还可以提供额外的信息，帮助识别可能存在的语音编辑或伪造。因此，本发明旨在利用韵律特征来鉴别真假语音，以提高语音鉴别的准确性和鲁棒性。

在一些实施例中，根据预设的第一方式对待检测语音信号进行处理包括以下步骤：

对待检测语音信号进行预处理，得到第一中间语音信号；进一步地，预处理包括语音信号的预加重、分帧和加窗等操作；

计算第一中间语音信号的功率谱，并进行梅尔滤波处理，得到梅尔频率谱；

对梅尔频率谱进行离散余弦变换，将得到梅尔频率倒谱系数(MFCC)作为声学特征。

在一些实施例中，根据预设的第二方式对待检测语音信号进行处理包括以下步骤：

对待检测语音信号进行预处理，得到第二中间语音信号；

从第二中间语音信号提取语音的音素时长信息和基频信息；

将基频信息和音素时长信息进行融合，得到韵律特征。

需要说明地，韵律特征是语音信号中的一种抽象特征，难以直接量化，因此如何有效地提取和表征韵律特征一直是语音识别和语音鉴别领域的研究热点。在本方案中中，我们将采用音素的时长信息和基频特征作为韵律特征的表征方式。其中，音素的时长信息被认为是语音信号中最基本的韵律特征之一，是指语音信号中音素的发音时长信息。而基频特征则是指语音信号中的基频变化特征，也是语音韵律的一个重要表征。基频特征的变化与语调、语气等因素有关，因此可以较好地表征语音韵律的变化。选择音素的时长信息和基频特征作为韵律特征的原因在于，音素的时长信息具有不同于其他特征的优点，即其可以在不同语言、不同人群之间进行通用性的应用，而且容易被计算机算法提取。同时，音素的时长信息可以很好地表征韵律特征的变化，因此被广泛应用于语音识别和鉴别领域。基频特征则是另一种常见的韵律特征，其变化与人的情感表达、语气等因素密切相关。

可以理解地，利用伪造语音的音素时长特征与真实语音音素时长特征之间的差异性，可对伪造语音进行精确的检测。由于通过机器伪造的语音韵律信息规律性较大，随机性小，并且这种规律性主要体现在一句话中每个音素的时长分布上。每个音素的时长差异性较小，并且在不同句子中相同音素的时长大致是相同的。而在真实的语音中，由于说话人发音的随机性较大，加之口语化等原因，有真实人类发出来的声音在音素的时长分布上随机性很大，相同音素在不同语句场景和时刻中具有明显不同的时长分布。根据这种伪造语音和真实语音在时长特征上显著的差异性，可以从语音中提取音素的时长特征作为特征向量，联合对应音素的种类输入到鉴伪判别器中进行分类，从而达到对伪造语音的精确检测。这样做的好处是基于显著的物理背景，可解释性，并且易于操作和实现。此外，鉴伪系统内的鲁棒性强，虽然伪造系统种类众多，但是伪造系统均逃不过声学模型加声码器的框架，而凡是存在声学模型的架构中，模型学习出来的音素时长一定是基于训练语料较为平均的结果，所以结论是基于语音合成技术的伪造语音均存在时长音素过于平均的问题，所以可以仅仅利用这种差异检测众多原理的语音合成系统合成出来的伪造语音，极大提高鉴伪系统的鲁棒性。

在一些实施例中，将基频信息和音素时长信息进行融合包括以下步骤：将音素时长信息进行归一化处理，然后处理结果与基频信息分别输入到两层CNN网络中，并分别提取固定64维度的表征向量，再将表征向量进行点乘，得到韵律特征。

进一步地，神经网络模型包括卷积神经网络、循环神经网络、长短期记忆网络或Transformer模型。

本发明第二实施例还提供一种合成语音检测装置2，用于实现上述合成语音检测方法，包括：

语音获取模块：用于获取待检测语音；

声学特征提取模块：用于对待检测语音信号进行处理，得到声学特征；常见的声学特征包括短时傅里叶变换、梅尔频率倒谱系数(MFCC)、倒频谱系数(BFCC)等，提取出语音的频谱、功率谱、频带能量等声学特征。

韵律特征模块：用于对待检测语音信号进行处理，得到韵律特征；

鉴别器模块：用于根据特征向量检测待检测语音的真伪。具体地，在实现时，可以采用深度学习技术中的卷积神经网络(CNN)、循环神经网络(RNN)等模型进行训练，将声学特征和韵律特征融合后的特征向量作为输入。

进一步地，韵律特征模块包括：

韵律特征提取模组：用于提取待检测语音信号中的音素时长信息和基频信息；具体地，可采用自然语言处理技术中的语音识别技术识别出语音中的音素，并计算出每个音素的时长信息。同时，可以采用基频分析技术，计算出语音中的基频信息。

韵律特征融合模组：用于将音素时长信息和基频信息进行融合，生成韵律特征。

在一些实施例中，将音素时长信息和基频信息进行融合的方式包括向量加法、乘法等数学运算以及使用神经网络模型进行训练融合。

综上，在使用合成语音检测装置时，语音获取模块上首先收到一个待检测的语音信号，然后，该语音信号通过声学特征提取模块进行声学特征提取(例如MFCC、BFCC等)，通过韵律特征提取模组提取出音素时长信息和基频信息；然后再将音素时长信息和基频信息输入到韵律特征融合模组，生成韵律特征；将韵律特征与声学特征进行拼接之后，得到特征向量，然后将特征向量输入到鉴别器模块中进行检测。其中，鉴别器模块包括鉴别器网络，鉴别器网络采用深度神经网络模型，包括6个卷积层和全连接层，最终输出的结果是语音信号的真伪概率。在训练深度神经网络模型过程中，鉴别器网络的目标是最小化损失函数，使得真实语音信号的伪造概率接近0，而伪造语音信号的伪造概率接近1。具体地，可按照下列方式构建鉴别器网络：

采用ResNet50构建分类器。其模型结构有50层，其中有四组子结构，一共50个2D卷积，并采用残差结构防止模型过拟合，提高模型建模能力。鉴别器网络模型采用MFCC和韵律特征的拼接结果作为输入；输入语音为长度为20秒的片段(小于20秒则使用0进行填充，超过20秒则进行截断)。模型输入仅仅包含一个通道，输出包含两个节点，分别表示真伪两类。在使用鉴别器模块时，鉴别器网络鉴别为伪造概率大于等于0.5的语音判别为伪造语音，对于伪造概率小于0.5的语音判别为真实语音。

可以理解地，本发明具有以下优点：

准确性高：采用深度学习方法，通过多层的神经网络对声学特征和韵律特征进行联合训练，可以得到更加准确的语音伪造检测结果。

鲁棒性强：本发明采用的韵律特征包括音素时长信息和基频信息，这些特征对语音伪造检测具有很强的鲁棒性，可以有效地应对不同类型的语音伪造攻击。

实时性好：本发明采用了轻量级的模型结构和高效的声学特征提取算法，可以在较短的时间内对语音进行伪造检测，适用于实时语音处理场景。

发明中所采用的具体实现方法仅仅是示例，并不限制于所述的技术方案，替代或变化的方案均在本发明的保护范围之内。比如，所采用的声学特征可以根据具体应用选择，比如MFCC、BFCC等频谱特征；韵律特征融合方法也可以根据具体情况进行选择和优化，比如采用LSTM、Transformer等深度学习模型；鉴别器的结构也可以根据需要进行选择，比如采用GAN、CNN、RNN等结构，只要能够实现本发明所述的技术效果，均属于本发明的保护范围之内。

应当注意，尽管在上文详细描述中提及了用于执行流程的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端，或者网络设备等)执行根据本公开实施方式的方法。

本发明第三实施例还提供一种可读存储介质，其上存储有计算机程序指令，计算机程序指令被执行时实现如上述方法的步骤。

在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“基于韵律特征的合成语音检测方法”部分中描述的根据本公开各种示例性实施方式的步骤。

请参阅图4，本发明第四实施例还提供一种程序产品3，其上包括计算机程序指令30，计算机程序指令被执行时实现如上述方法的步骤。

请参阅图5，本发明第五实施例还提供了一种电子设备4，具体的，该电子设备4包括处理器40和存储器41；存储器41上存储有计算机程序，计算机程序在被处理器运行时执行如上实施方式的任一项的方法。

进一步地，处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，处理器40在接收到执行指令后，执行程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上各实施例仅用以说明本(发明或发明)的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于韵律特征的合成语音检测方法，其特征在于：包括以下步骤：

获取待检测语音信号；

根据预设的第一方式对所述待检测语音信号进行处理，得到声学特征；

根据预设的第二方式对所述待检测语音信号进行处理，得到韵律特征；

将所述声学特征与所述韵律特征拼接，得到特征向量；

将所述特征向量输入预设的神经网络模型进行检测，得到检测结果。

2.如权利要求1所述的合成语音检测方法，其特征在于：根据预设的第一方式对所述待检测语音信号进行处理包括以下步骤：

对所述待检测语音信号进行预处理，得到第一中间语音信号；

计算所述第一中间语音信号的功率谱，并进行梅尔滤波处理，得到梅尔频率谱；

对所述梅尔频率谱进行离散余弦变换，将得到梅尔频率倒谱系数作为所述声学特征。

3.如权利要求1所述的合成语音检测方法，其特征在于：根据预设的第二方式对所述待检测语音信号进行处理包括以下步骤：

对所述待检测语音信号进行预处理，得到第二中间语音信号；

从所述第二中间语音信号提取语音的音素时长信息和基频信息；

将所述基频信息和所述音素时长信息进行融合，得到所述韵律特征。

4.如权利要求1所述的合成语音检测方法，其特征在于：将所述基频信息和所述音素时长信息进行融合包括以下步骤：

将所述音素时长信息进行归一化处理，然后处理结果与所述基频信息分别输入到两层CNN网络中，并分别提取固定64维度的表征向量，再将所述表征向量进行点乘，得到所述韵律特征。

5.如权利要求1所述的合成语音检测方法，其特征在于：所述神经网络模型包括卷积神经网络、循环神经网络、长短期记忆网络或Transformer模型。

6.一种合成语音检测装置，用于实现如权利要求1-5任一项所述的合成语音检测方法，其特征在于：包括：

语音获取模块：用于获取待检测语音；

声学特征提取模块：用于对所述待检测语音信号进行处理，得到声学特征；

韵律特征模块：用于对所述待检测语音信号进行处理，得到韵律特征；

鉴别器模块：用于根据特征向量检测待检测语音的真伪。

7.如权利要求6所述的合成语音检测装置，其特征在于：所述韵律特征模块包括：

韵律特征提取模组：用于提取待检测语音信号中的所述音素时长信息和所述基频信息；

韵律特征融合模组：用于将所述音素时长信息和所述基频信息进行融合，生成韵律特征。

8.如权利要求7所述的合成语音检测装置，其特征在于：将所述音素时长信息和所述基频信息进行融合的方式包括向量加法、乘法等数学运算以及使用神经网络模型进行训练融合。

9.一种可读存储介质，其上存储有计算机程序指令，其特征在于：所述计算机程序指令被执行时实现如权利要求1-5所述方法的步骤。

10.一种程序产品，包括计算机程序指令，其特征在于：所述计算机程序指令被执行时实现如权利要求1-5所述方法的步骤。