CN116092503B

CN116092503B - 联合时域和频域的伪造语音检测方法、装置、设备及介质

Info

Publication number: CN116092503B
Application number: CN202310355092.4A
Authority: CN
Inventors: 田晖; 张强; 卢璥; 全韩彧; 李越
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-20
Anticipated expiration: 2043-04-06
Also published as: CN116092503A

Abstract

本发明提供了联合时域和频域的伪造语音检测方法、装置、设备及介质，包括：获取多组样本自然语音和样本伪造语音，构建语音样本库，并对语音样本库中的每条语音样本进行预处理，生成具有特定维度的时域信号组和频域信号组；根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，将时域和频域信号组输入至伪造语音检测训练模型中进行联合训练，生成伪造语音检测模型；获取待检测语音样本，对语音样本进行预处理，生成与相对应的时域和频域信号；将时域和频域信号输入至伪造语音检测模型中，进行检测，生成判别结果。旨在解决现有决策融合方法忽略了各模型在训练过程中的交互，使得不同特征不能充分地有机结合的问题。

Description

联合时域和频域的伪造语音检测方法、装置、设备及介质

技术领域

本发明涉及多媒体安全技术领域，具体涉及联合时域和频域的伪造语音检测方法、装置、设备及介质。

背景技术

近些年，深度学习在语音伪造方面取得了巨大的成功，高质量的伪造语音给恶意攻击者提供了欺骗受害者和自动说话人验证(ASV)系统的机会，从而导致信任危机和威胁系统安全。伪造语音主要是通过文本到语音(Text-to-Speech,TTS)和语音转换(VoiceConversion,VC)产生的。其中，文本到语音是指将给定的文本转换成自然语音；语音转换是指仅改变语音中说话人的身份。

最新的伪造语音检测方法大多利用深度神经网络提取可区分真伪语音的特征并实现检测，从特征类型角度可细分为三类：基于频域特征的方法、基于时域特征的方法和基于混合特征的方法。基于频域特征的方法借助语音的频域信号实现伪造检测，语音的频域信号包括线性倒谱系数、对数功率谱、恒Q倒谱系数等。虽然频域信号更容易找到伪造语音的潜在特性，但在频域信号生成的过程中往往会损失一部分信息，这就在一定程度上降低了伪造语音检测的性能。为了避免信号在时频转换过程中的信息损失，基于时域特征方法被提出，它利用语音的时域信号实现伪造检测；即利用短时傅里叶变换等方法将时域信号转为频域信号(称为时频转变)，这个过程有一部分信息(相位信息)将被丢弃，由于这个信息缺失，催生了利用时域信息实现伪造检测。该方法的代表工作有：利用残差网络直接从原始波形数据提取特征；利用sinc卷积对时域语音信号进行预处理并通过图神经网络实现伪造检测。上述的两种方法都是在单域，即时域或频域上进行伪造语音检测，仅能考虑到单域的特征，这可能导致可区分真伪语音的特征不够全面，降低伪造检测方法的性能。

为了能够发挥时域和频域特征各自的优势，基于混合特征的方法被提出。该方法在基于单域特征模型的基础上，利用决策融合的方法聚合不同的模型的预测结果。融合两个模型输出分数，取得了优于单域模型的检测性能，决策融合可以很容易融合多个模型的预测结果，具有很好的灵活性，但是该决策融合方法忽略了各模型在训练过程中的交互，不同特征不能充分地有机结合。

有鉴于此，提出本申请。

发明内容

有鉴于此，本发明的目的在于提供联合时域和频域的伪造语音检测方法、装置、设备及介质，能够有效解决现有技术中的决策融合方法忽略了各模型在训练过程中的交互，使得不同特征不能充分地有机结合的问题。

本发明公开了联合时域和频域的伪造语音检测方法,包括：

获取多组样本自然语音和样本伪造语音，构建语音样本库，并对所述语音样本库中的每条语音样本进行预处理，生成具有特定维度的时域信号组和频域信号组，其中，所述预处理包括时域预处理和频域预处理，具体为:

设时域操作的窗口维度为d，通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理，生成d维时域信号x_T，其形式化过程为

其中，

为拼接的次数，z₀＝{x₁,x₂,...,x_d}，z_j＝{x₁,x₂,...,x_n},j＝1,2,...,t_T-1，

给定的语音样本为x(n)＝{x₁,x₂,...,x_n},i＝1,2,...,n，x_i为该语音样本中的第i个采样数据值，d为时域操作的窗口维度，n为采样数据的个数，z₀为含有d个采样数据值的语音片段，z_j为含有n个采样数据值的语音片段，z_k+1为含有d-t_Tn个采样数据值的语音片段；

设定频域操作的窗口大小h×w，对所述语音样本库中的每条语音样本提取语音的对数功率谱，通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号x_F；

根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练，生成伪造语音检测模型；

获取待检测语音样本，对所述待检测语音样本进行预处理，生成与所述待检测语音样本相对应的时域信号和频域信号；

将所述时域信号和所述频域信号输入至所述伪造语音检测模型中，进行检测，生成判别结果。

优选地，设定频域操作的窗口大小h×w，对所述语音样本库中的每条语音样本提取语音的对数功率谱，通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号x_F，具体为：

对给定的语音样本x(n)进行预加重处理，其形式化过程为x'(n)＝x(n)-ε·x(n-1)，其中，ε为比例系数；

对预加重后的语音样本x'(n)进行短时傅里叶变换，得到频域复数矩阵M，其形式化过程为

其中，f_STFT为短时傅里叶变换，其窗口长度为l，帧移为δ，/>

为频域复数矩阵的行数，/>

为频域复数矩阵的列数，对于给定的复数a_uv+b_uvi，a_uv为实部，b_uv为虚部，i为虚数单位，u＝1,2,...,r，v＝1,2,...,c；

对矩阵M中的各元素的模的平方取对数，得到大小为r×c的对数功率谱S，其形式化过程为

对对数功率谱S进行拼接和截断处理，得到大小为h×w的频域信号x_F，其形式化过程为

其中，/>

为拼接的次数，

其中，Z₀为大小为h×w的对数功率谱，Z_j为大小为h×c的对数功率谱，Z_k+1为大小为h×(w-t_Fc)的对数功率谱，c为频域复数矩阵的列数。

优选地，根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，具体为:

时域分支网络的功能是获取时域特征，主要由预处理层、残差层、特征压缩层和映射层组成，其工作流程如下：

以语音的时域信号x_T作为网络的输入，经过预处理层f_tp后,生成特征F_tp，该过程可形式化为F_tp＝f_tp(x_T,s_tp)，其中，s_tp为预处理层的网络参数集合；

经过残差层f_tr得到特征F_tr，该过程可形式化为F_tr＝f_tr(F_tp,s_tr)，s_tr为残差层的网络参数集合；

利用特征压缩层f_tc实现特征降维得到时域特征v_T，该过程形式化为v_T＝f_tc(F_tr,s_tc)，其中，s_tc为特征压缩层的网络参数集合；

映射层f_tm以时域特征v_T为输入，输出自然语音的预测概率p_T，该过程形式化为p_T＝f_tm(v_T,s_tm)，其中，s_tm为映射层的网络参数集合；

利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值，该过程形式化为

其中，N为语音样本的数目，y_i为第i个语音样本对应的标签，p_Ti为时域分支网络对第i个语音样本进行预测的概率。

优选地，根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，还包括:

频域分支网络的功能是获取频域特征，主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成，其工作流程如下：

以语音的频域信号x_F作为网络的输入，经过预处理层f_fp后得到特征F_fp，该过程可形式化为F_fp＝f_fp(x_F,s_fp)，其中，s_fp为预处理层的网络参数集合；

经过残差层f_fr得到特征F_fr，该过程可形式化为F_fr＝f_fr(F_fp,s_fr)，其中，s_fr为残差层的网络参数集合；

经过全局平均池化层f_fap展平特征得到频域特征v_F，其过程形式化为v_F＝f_fap(F_fr)；

映射层f_fm以频域特征v_F为输入，输出自然语音的预测概率p_F，该过程形式化为p_F＝f_fm(v_F,s_fm)，其中，s_fm为映射层的网络参数集合；

其中，N为语音样本的数目，y_i为第i个语音样本对应的标签，p_Fi为频域分支网络对第i个语音样本进行预测的概率。

以时域特征v_T和频域特征v_F作为输入，对时域特征v_T和频域特征v_F进行拼接，并通过线性映射f_pr实现融合和降维，得到特征F_pr，

其中，/>

为拼接操作，s_pr为线性映射的网络参数集合；

经过非线性激活函数f_act的处理，得到跨域特征v_C，该过程形式化为v_C＝f_act(F_pr)；

分类层f_cls以跨域特征v_C为输入，输出自然语音的预测概率p_C，该过程形式化定义为p_C＝f_cls(v_C,s_cls)，其中，s_cls为分类层的网络参数集合；

利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值，该过程形式化定义为

其中，N为语音样本的数目，y_i为第i个语音样本对应的标签，p_Ci为跨域融合网络对第i个语音样本进行预测的概率。

优选地，将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练，生成伪造语音检测模型，具体为:

通过加权求和的方式联合时域辅助损失L_T、频域辅助损失L_F和跨域辅助损失L_C，从而得到全局损失L，L＝α·L_T+β·L_F+γ·L_C，其中，α,β,γ∈[0,1]为经验参数，且α+β+γ＝1。

本发明还公开了联合时域和频域的伪造语音检测装置，包括：

样本获取单元，用于获取多组样本自然语音和样本伪造语音，构建语音样本库，并对所述语音样本库中的每条语音样本进行预处理，生成具有特定维度的时域信号组和频域信号组其中，所述预处理包括时域预处理和频域预处理，具体为:

其中，

模型构建单元，用于根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练，生成伪造语音检测模型；

信号获取单元，用于获取待检测的语音样本，对所述语音样本进行预处理，生成与所述语音样本相对应的时域信号和频域信号；

结果判别单元，用于将所述时域信号和所述频域信号输入至所述伪造语音检测模型中，进行检测，生成判别结果。

本发明还公开了联合时域和频域的伪造语音检测设备，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的联合时域和频域的伪造语音检测方法。

本发明还公开了可读存储介质，存储有计算机程序，所述计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项所述的联合时域和频域的伪造语音检测方法。

综上所述，本实施例提供的联合时域和频域的伪造语音检测方法、装置、设备及介质，通过时域和频域信息的有机结合扩展了特征的广度，并引入域辅助损失和跨域融合机制增强了特征信息的表达能力，进而显著提高了伪造语音检测的性能。从而解决现有技术中的决策融合方法忽略了各模型在训练过程中的交互，不同特征不能充分地有机结合的问题。

附图说明

图1是本发明第一方面提供的联合时域和频域的伪造语音检测方法的流程示意图。

图2是本发明第二方面提供的联合时域和频域的伪造语音检测方法的流程示意图。

图3是本发明实施例提供的网络结构示意图。

图4是本发明实施例提供的ASVspoof2019 LA场景中评估集的检测结果示意图。

图5是本发明实施例提供的联合时域和频域的伪造语音检测装置的模块示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

以下结合附图对本发明的具体实施例做详细说明。

本发明公开了联合时域和频域的伪造语音检测方法、装置、设备及介质，至少在一定程度上解决了现有技术的不足。

请参阅图1至图2，本发明的第一实施例提供了联合时域和频域的伪造语音检测方法，其可由伪造语音检测设备(以下简称检测设备)来执行，特别的，由检测设备内的一个或者多个处理器来执行，以实现如下步骤：

在本实施例中，所述检测设备可为用户终端设备(如智能手机、智能电脑或者其他智能设备)，该用户终端设备可与云端的服务器建立通讯连接，以实现数据的交互。

S101，获取多组样本自然语音和样本伪造语音，构建语音样本库，并对所述语音样本库中的每条语音样本进行预处理，生成具有特定维度的时域信号组和频域信号组，其中，所述预处理包括时域预处理和频域预处理；

具体地，步骤S101包括：设时域操作的窗口维度为d，通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理，生成d维时域信号x_T，其形式化过程为

其中，/>

为拼接的次数，z₀＝{x₁,x₂,...,x_d}，z_j＝{x₁,x₂,...,x_n},j＝1,2,...,t_T-1，/>

设定频域操作的窗口大小h×w，对所述语音样本库中的每条语音样本提取语音的对数功率谱，通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号x_F。

为频域复数矩阵的行数，/>

其中，/>

为拼接的次数，

具体地，在本实施例中，Z_j和x(n)两者是相等的，为保持时域信号定义简洁性，故采用了不同的符号。在时域预处理中，考虑到实际情况中语音时长和神经网络模型的结构之间相互制约的关系，设时域信号的维度阈值d＝96,000。在频域预处理中，对给定的语音样本x(n)进行预加重处理，该操作可在一定程度上弥补频域信息中高频部分的损耗；对预加重后的语音样本x'(n)进行短时傅里叶变换，得到频域复数矩阵M，为了增强窗函数的能量抑制效果，此处采用布莱克曼(Blackman)窗。

在本实施例中，考虑到输入数据与神经网络模型的相互关系，频域信号的维度阈值h＝w＝400；预加重处理的比例系数ε＝0.97，短时傅里叶变换的窗口长度和窗口大小l＝1728，帧移δ＝130。

S102，根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练，生成伪造语音检测模型；

时域分支网络的功能是获取时域特征，主要由预处理层、残差层、特征压缩层和映射层组成，其工作流程如下：以语音的时域信号x_T作为网络的输入，经过预处理层f_tp后,生成特征F_tp，该过程可形式化为F_tp＝f_tp(x_T,s_tp)，其中，s_tp为预处理层的网络参数集合；

利用特征压缩层f_tc实现特征降维得到时域特征v_T，该过程可以形式化为v_T＝f_tc(F_tr,s_tc)，其中，s_tc为特征压缩层的网络参数集合；

映射层f_tm以时域特征v_T为输入，输出自然语音的预测概率p_T，该过程可以形式化为p_T＝f_tm(v_T,s_tm)，其中，s_tm为映射层的网络参数集合；

利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值，该过程可以形式化为

具体地，在本实施例中，为最大程度上保留时域特征，映射层f_tm以时域特征v_T为输入，输出自然语音的预测概率p_T；并且在计算时域辅助损失L_T时，为保证时域特征的完整性，利用交叉熵损失函数计算预测概率和标签的损失。

请参阅图3，在本实施例中，预处理层是由卷积核大小为7的一维卷积层f_con、批量归一化f_bn、激活函数f_rel(ReLU函数)和池化核和步长都为4的最大池化层f_mp组成，其可以表示为：

其中，/>

为复合函数的符号。残差层是由四个残差结构f_tre和最大池化f_mp组成，其可以表示为：/>

其中，/>

为复合函数的符号，残差结构是由一维卷积层、批量归一化和激活函数组成，×4表示()中重复的次数，其展开为

特征压缩层是两个全连接层f_fc组成，其输出维度分别为64、32，且每个连接层之后引入ReLU激活函数f_rel，其可以表示为/>

其中，/>

为复合函数的符号。映射层由一个全连接层组成，其输入维度为32，输出维度为2。

频域分支网络的功能是获取频域特征，主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成，其工作流程如下：以语音的频域信号x_F作为网络的输入，经过预处理层f_fp后得到特征F_fp，该过程可形式化为F_fp＝f_fp(x_F,s_fp)，其中，s_fp为预处理层的网络参数集合；

经过全局平均池化层f_fap展平特征得到频域特征v_F，其过程可以形式化为v_F＝f_fap(F_fr)；

映射层f_fm以频域特征v_F为输入，输出自然语音的预测概率p_F，该过程可以形式化为p_F＝f_fm(v_F,s_fm)，其中，s_fm为映射层的网络参数集合；

具体地，在本实施例中，为最大程度上保留频域特征，映射层f_fm以频域特征v_F为输入，输出自然语音的预测概率p_F；并且，在计算频域辅助损失L_F时，为保证频域特征的完整性，利用交叉熵损失函数计算预测概率和标签的损失。

在本实施例中，预处理层是由卷积核大小为7×7的二维卷积层f_cov、批量归一化f_bn、激活函数f_rel(ReLU函数)和池化核为3×3与步长为2×2的最大池化层f_mp组成，其可以表示为：

其中，/>

为复合函数的符号。残差层是由八个引入注意力机制f_se的残差结构f_fre组成，其可以表示为：/>

其中，/>

为复合函数的符号，残差结构是由二维卷积层、批量归一化和激活函数组成，×8表示()中重复的次数，其展开为

全连接模块由一个全连接层组成，其输入维度为128，输出维度为2。

其中，/>

为拼接操作，s_pr为线性映射的网络参数集合；

经过非线性激活函数f_act的处理，得到跨域特征v_C，该过程可以形式化为v_C＝f_act(F_pr)；

分类层f_cls以跨域特征v_C为输入，输出自然语音的预测概率p_C，该过程可以形式化定义为p_C＝f_cls(v_C,s_cls)，其中，s_cls为分类层的网络参数集合；

利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值，该过程可以形式化定义为

具体地，在本实施例中，在计算跨域辅助损失L_C时，为保证时域特征和频域特征的充分融合，利用交叉熵损失函数计算预测概率和标签的损失。考虑到跨域特征的表征能力和维度的关系，线性映射的输出维度为64。

具体地，在本实施例中，为简化训练过程，通过加权求和的方式联合时域辅助损失L_T、频域辅助损失L_F和跨域辅助损失L_C，从而得到全局损失L；具体地，为简化模型的训练过程，设经验参数α＝β＝γ＝1/3。时域辅助损失L_T、频域辅助损失L_F和跨域辅助损失L_C反映了各类辅助损失在全局损失中所占的权重；通过迭代训练使全局损失逐渐降低，在此过程中保存性能最优的模型f_b作为测试阶段的模型。

S103，获取待检测语音样本，对所述待检测语音样本进行预处理，生成与所述待检测语音样本相对应的时域信号和频域信号；

具体地，在本实施例中，假设待检测语音样本

其中，/>

为待测语音样本中的第i个采样数据值；随后按照步骤S101中的预处理操作对检测语音样本x^*(n)进行预处理，分别得到与检测语音样本相对应的时域信号/>

和频域信号/>

S104，将所述时域信号和所述频域信号输入至所述伪造语音检测模型中，进行检测，生成判别结果。

具体地，在本实施例中，将时域信号

和频域信号/>

输入到训练好的伪造语音检测模型f_b中，得到待测语音样本的预测概率/>

当/>

时，待测语音为自然语音,否则为伪造语音。

请参阅图4，在本实施例中，为了对所述联合时域和频域的伪造语音检测方法明进行评估，在ASVspoof 2019LA数据集进行了实验，该数据集分为三个子集：训练集(train)、验证集(dev)和测试集(eval)。训练集包含6种伪造算法(记为S01-S06)，共25,380个语音样本；验证集包含6种伪造算法(记为S01-S06)，共24,844个语音样本；测试集包含13种伪造算法(记为S07-S19)，共71,237个语音样本。申请人在训练集上训练模型并保存验证集上的最优模型，在测试集上评估模型的性能，并与目前较为先进的伪造语音检测算法(J.-w.Jung,H.S.Heo,H.Tak,H.-j.Shim,J.S.Chung,B.-J.Lee,H.-J.Lee,and N.Evans.AASIST:AudioAnti-Spoofing Using Integrated Spectro-Temporal Graph Attention Networks,Proceedings of the IEEE International Conference on Acoustics,Speech andSignal Processing,2022,pp.6367-6371.)比较。为了能够直观地评估模型的性能，申请人采用了主流的评估指标：等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)。等错误率是错误接受率(FalseAccept Rate，FAR)和错误拒绝率(False Rejection Rate，FRR)相等时的错误率，它反映了伪造语音检测算法的性能，此值越小表示性能越好。最小串联检测代价函数反映了伪造语音检测算法对自动说话人验证系统性能的影响，此值越小表示对自动说话人验证系统影响越小。图4中的实验结果表明，所述联合时域和频域的伪造语音检测方法有着优秀的性能，超越了目前较为先进的伪造语音检测算法。

请参阅图5，本发明的第二实施例提供了联合时域和频域的伪造语音检测装置，包括：

样本获取单元201，用于获取多组样本自然语音和样本伪造语音，构建语音样本库，并对所述语音样本库中的每条语音样本进行预处理，生成具有特定维度的时域信号组和频域信号组其中，所述预处理包括时域预处理和频域预处理，具体为:

其中，

模型构建单元202，用于根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练，生成伪造语音检测模型；

信号获取单元203，用于获取待检测的语音样本，对所述语音样本进行预处理，生成与所述语音样本相对应的时域信号和频域信号；

结果判别单元204，用于将所述时域信号和所述频域信号输入至所述伪造语音检测模型中，进行检测，生成判别结果。

本发明的第三实施例提供了联合时域和频域的伪造语音检测设备，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的联合时域和频域的伪造语音检测方法。

本发明的第四实施例提供了可读存储介质，存储有计算机程序，所述计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项所述的联合时域和频域的伪造语音检测方法。

示例性地，本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述实现联合时域和频域的伪造语音检测设备中的执行过程。例如，本发明第二实施例中所述的装置。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述联合时域和频域的伪造语音检测方法的控制中心，利用各种接口和线路连接整个所述实现对联合时域和频域的伪造语音检测方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现联合时域和频域的伪造语音检测方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。