CN111798828B - 合成音频检测方法、系统、移动终端及存储介质 - Google Patents

合成音频检测方法、系统、移动终端及存储介质 Download PDF

Info

Publication number
CN111798828B
CN111798828B CN202010479131.8A CN202010479131A CN111798828B CN 111798828 B CN111798828 B CN 111798828B CN 202010479131 A CN202010479131 A CN 202010479131A CN 111798828 B CN111798828 B CN 111798828B
Authority
CN
China
Prior art keywords
feature
real
features
realistic
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010479131.8A
Other languages
English (en)
Other versions
CN111798828A (zh
Inventor
李稀敏
曾志先
叶志坚
肖龙源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010479131.8A priority Critical patent/CN111798828B/zh
Publication of CN111798828A publication Critical patent/CN111798828A/zh
Application granted granted Critical
Publication of CN111798828B publication Critical patent/CN111798828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种合成音频检测方法、系统、移动终端及存储介质,该方法包括:根据真实音频样本对CNN网络进行训练得到真实化特征转换器;控制真实化特征转换器对训练集数据进行特征转换得到真实化特征,将真实化特征和对应的标签信息输入LCNN网络进行模型训练得到合成音频检测模型;将待检测音频输入真实化特征转换器得到待检测特征;控制合成音频检测模型对待检测特征进行检测得到检测结果。本发明利用真实音频样本的特征学习CNN的模型的设计,以得到真实化特征转换器,该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征,从而增强了训练集数据中真实语音和合成语音之间的区别,提高了合成音频检测模型训练的准确性。

Description

合成音频检测方法、系统、移动终端及存储介质
技术领域
本发明属于音频检测技术领域,尤其涉及一种合成音频检测方法、系统、移动终端及存储介质。
背景技术
现代文本生成语音技术和声音转换技术的演进能够生成自然的说话声音,带来的问题就是对说话人识别系统的安全性造成了威胁,这使得在说话人识别系统当中检测非真人的合成音频就变为了一个非常重要的安全问题。
声纹识别技术是实现通过声音来判断说话人身份的技术,主要应用于银行,金融,安防等领域,该技术有成本低,效率高的特点,声纹识别技术的缺陷在于容易遭受录音重放、语音合成、语音生成、语音转换等技术的攻击,导致识别系统将非真实说话人语音判断为说话人语音,攻击者可以通过输入文字到机器然后合成出与说话人相似的语音,从而欺骗识别系统,导致识别系统将机器合成的语音判断为说话人的语音,因此,在声纹识别技术的使用过程中,对待测音频的合成音频检测步骤尤为重要。
现有的合成音频检测方法均需要人工进行声波特征选择后,通过采用声波匹配的方式,以对应进行待测音频的合成判断,即通过基于人工声波特征的选取,以使将待测音频的声波与预设声波进行波纹匹配,以得到合成判断结果,但由于基于人工特征选取的声波匹配方式使得音频检测效率低下,且音频检测精准度差。
发明内容
本发明实施例的目的在于提供一种合成音频检测方法、系统、移动终端及存储介质,旨在解决现有的合成音频检测方法音频检测效率低且音频检测精准度差的问题。
本发明实施例是这样实现的,一种合成音频检测方法,所述方法包括:
获取真实音频样本,并根据所述真实音频样本对CNN网络进行训练,得到真实化特征转换器;
控制所述真实化特征转换器对训练集数据进行特征转换,得到真实化特征,并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练,得到合成音频检测模型;
将待检测音频输入所述真实化特征转换器,得到待检测特征,并将所述待检测特征输入训练后的所述合成音频检测模型;
控制所述合成音频检测模型对所述待检测特征进行检测,得到检测结果。
更进一步的,所述根据所述真实音频样本对CNN网络进行训练的步骤包括:
采用strided卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度,并采用ReLU激活函数获取卷积结果;
对所述卷积结果进行反卷积,并采用所述ReLU激活函数获取反卷积结果。
更进一步的,所述将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练的步骤之前,所述方法还包括:
根据预设文件长度对所述真实化特征进行特征裁剪,并将长度小于所述预设文件长度的所述真实化特征沿时间轴补0补齐至所述预设文件长度。
更进一步的,所述方法还包括:
当所述LCNN网络中完成最大池化层的池化后,对所述LCNN网络中的特征数据进行批处理归一化。
更进一步的,所述对所述LCNN网络中的特征数据进行批处理归一化的步骤包括:
计算所述LCNN网络中每个训练批次训练数据的均值和方差;
根据所述均值和所述方差对应批次的所述训练数据做归一化处理,以得到0-1的分布;
根据所述分布对所述LCNN网络进行尺度变换和偏移。
更进一步的,所述真实化特征为LPS特征,所述LPS特征的静态维数为863,且所述预设文件长度为256帧。
更进一步的,所述LCNN网络采用的激活函数为MFM激活函数。
本发明实施例的另一目的在于提供一种合成音频检测系统,所述系统包括:
转换器训练模块,用于获取真实音频样本,并根据所述真实音频样本对CNN网络进行训练,得到真实化特征转换器;
模型训练模块,用于控制所述真实化特征转换器对训练集数据进行特征转换,得到真实化特征,并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练,得到合成音频检测模型;
特征处理模块,用于将待检测音频输入所述真实化特征转换器,得到待检测特征,并将所述待检测特征输入训练后的所述合成音频检测模型;
音频检测模块,用于控制所述合成音频检测模型对所述待检测特征进行检测,得到检测结果。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的合成音频检测方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的合成音频检测方法的步骤。
本发明实施例,利用真实音频样本的特征学习CNN的模型的设计,以得到真实化特征转换器,该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征,从而增强了训练集数据中真实语音和合成语音之间的区别,提高了合成音频检测模型训练的准确性,以提高后续合成音频检测的准确率。
附图说明
图1是本发明第一实施例提供的合成音频检测方法的流程图;
图2是本发明第二实施例提供的合成音频检测方法的流程图;
图3是本发明第三实施例提供的合成音频检测系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
实施例一
请参阅图1,是本发明第一实施例提供的合成音频检测方法的流程图,包括步骤:
步骤S10,获取真实音频样本,并根据所述真实音频样本对CNN网络进行训练,得到真实化特征转换器;
其中,通过根据该真实音频样本对CNN网络进行训练的设计,使得训练后的真实化特征转换器能将任何真实或欺骗音频的特征投射到接近真实语音特征的特征;
优选的,该步骤中,通过应用了一个完整的卷积神经网络(CNN网络)结构,使得真实化特征转换器中没有完全连接的层,进而迫使网络关注输入信号与整个分层过程之间的时间相关性,提高了后续真实化特征转换的准确性,且通过采用CNN网络结构的设计,减少了训练参数的数量,大大减少了网络训练周期;
具体的,该步骤中,该真实音频样本采用ASVspoof2019数据集,该数据集有三个分类,分别是训练集、开发集和评估集,该数据集包含107名发言者的真实音频数据,包括46名男性和61名女性发言者,需要指出的是,不同子集的发言者之间没有重叠;
步骤S20,控制所述真实化特征转换器对训练集数据进行特征转换,得到真实化特征,并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练,得到合成音频检测模型;
其中,通过控制真实化特征转换器对训练集数据进行特征转换的设计,有效的增强了真实语音和欺骗语音之间的区别;
具体的,由于CQT特征的长时效特征被发现可以捕获用于检测合成音频的有用信息,因此,本实施例从CQT特征导出的真实化特征作为检测的输入特征,通过获取该训练集数据中的CQT特征数据,并控制该真实化特征转换器对该CQT特征数据进行卷积和反卷积处理,以得到该真实化特征(LPS特征);
步骤S30,将待检测音频输入所述真实化特征转换器,得到待检测特征,并将所述待检测特征输入训练后的所述合成音频检测模型;
其中,将该待检测音频的CQT特征数据输入该真实化特征转换器进行卷积处理,得到该待检测特征,并将该待检测特征输入该合成音频检测模型中;
步骤S40,控制所述合成音频检测模型对所述待检测特征进行检测,得到检测结果;
其中,该合成音频检测模型采用LCNN网络结构,使用Max-Feature-Map函数作为激活函数,得到的结果即为该待检测特征对应的合成概率检测结果,通过使用Max-Feature-Map(MFM)激活函数代替现有技术中LCNN系统的ReLU函数,使得LCNN网络可以学习紧凑的特征,而不是像ReLU函数对应的高维特征,此外,MFM激活函数利用最大函数抑制少量神经元的激活,使得基于MFM激活函数的网络具有轻鲁棒的特点;
本实施例,利用真实音频样本的特征学习CNN的模型的设计,以得到真实化特征转换器,该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征,从而增强了训练集数据中真实语音和合成语音之间的区别,提高了合成音频检测模型训练的准确性,以提高后续合成音频检测的准确率。
实施例二
请参阅图2,是本发明第二实施例提供的合成音频检测方法的流程图,包括步骤:
步骤S11,获取真实音频样本,并采用strided卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度;
其中,通过采用strided卷积方式对真实音频样本进行压缩维度的设计,有效的提高了真实音频样本池化过程中的稳定性,即通过使用strided方式卷积进行下采样,而不是使用池化层进行下采样,使得CNN网络可以学习自身的池化函数,提高了数据池化的稳定性;
步骤S21,采用ReLU激活函数获取卷积结果,对所述卷积结果进行反卷积,并采用所述ReLU激活函数获取反卷积结果,以训练得到真实化特征转换器;
其中,训练后的真实化特征转换器,可以用来将任何给定的真实/欺骗特征转换为使用真实特征学习的特征域,优选的,本实施例中,单个卷积处理的步骤包括:1.采用strided卷积方式控制CNN网络中的卷积层对真实音频样本进行压缩维度;2.采用批量归一化的方式对所有数据进行归一化操作;3.采用ReLU激活函数获取卷积结果;
具体的,该步骤中,数据卷积的步骤包括:
第一个卷积层过程为:采用32层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为LeakyReLU;
第二个卷积层过程为:采用64层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为LeakyReLU;
第三个卷积层过程为:采用128层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为LeakyReLU;
第四个卷积层过程为:采用256层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为LeakyReLU;
第五个卷积层过程为:采用512层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为LeakyReLU;
此外,该步骤中,反卷积的步骤包括;
第一个反卷积层过程为:采用256层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU;
第二个反卷积层过程为:采用128层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU;
第三个反卷积层过程描述:采用64层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU;
第四个反卷积层过程为:采用32层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU;
第五个反卷积层过程为:采用32层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU;
步骤S31,控制所述真实化特征转换器对训练集数据进行特征转换,得到真实化特征,并根据预设文件长度对所述真实化特征进行特征裁剪;
其中,本实施例从CQT特征导出的真实化特征作为检测的输入特征,通过获取该训练集数据中的CQT特征数据,并控制该真实化特征转换器对该CQT特征数据进行卷积和反卷积处理,以得到该真实化特征(LPS特征),优选的,该LPS特征的静态维数为863,且所述预设文件长度为256帧;
步骤S41,将长度小于所述预设文件长度的所述真实化特征沿时间轴补0补齐至所述预设文件长度;
其中,对于从CQT特征中提取LPS特征,通过填充和裁剪将每个文件的长度设置为256帧,特别是,帧长超过256帧的示例被截断,而帧长小于256帧的示例被填充最后一个帧值,因此,对于每个示例,都有863*256的输入特征结构;
步骤S51,将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练;
其中,该合成音频检测模型采用LCNN网络结构,使用Max-Feature-Map函数作为激活函数,得到的结果即为该待检测特征对应的合成概率检测结果,通过使用Max-Feature-Map(MFM)激活函数代替现有技术中LCNN系统的ReLU函数,使得LCNN网络可以学习紧凑的特征,而不是像ReLU函数对应的高维特征,此外,MFM激活函数利用最大函数抑制少量神经元的激活,使得基于MFM激活函数的网络具有轻鲁棒的特点;
步骤S61,当所述LCNN网络中完成最大池化层的池化后,对所述LCNN网络中的特征数据进行批处理归一化,得到合成音频检测模型;
其中,通过对所述LCNN网络中的特征数据进行批处理归一化的设计,有效的提高了合成音频检测模型的稳定性和收敛速度;
此外,该步骤中,该LCNN网络中设置有Max POOLing池化层,在池化层之后使用批量归一化操作,本实施例中,采用随机丢失参数和参数衰减的方法,以避免合成音频检测模型的过拟合现象,随机丢失参数用于比率为0.4的全连接层,优选的,在该全连接层中有使用dropout操作,dropout操作的比例为0.4,并且有权重衰减,衰减率为2*10-4,进而有效的防止了该合成音频检测模型训练过程中的过拟合现象;
具体的,该步骤中,所述对所述LCNN网络中的特征数据进行批处理归一化的步骤包括:
计算所述LCNN网络中每个训练批次训练数据的均值和方差;
根据所述均值和所述方差对应批次的所述训练数据做归一化处理,以得到0-1的分布;
根据所述分布对所述LCNN网络进行尺度变换和偏移。
步骤S71,将待检测音频输入所述真实化特征转换器,得到待检测特征,并将所述待检测特征输入训练后的所述合成音频检测模型;
步骤S81,控制所述合成音频检测模型对所述待检测特征进行检测,得到检测结果;
本实施例中,利用真实音频样本的特征学习CNN的模型的设计,以得到真实化特征转换器,该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征,从而增强了训练集数据中真实语音和合成语音之间的区别,提高了合成音频检测模型训练的准确性,以提高后续合成音频检测的准确率。
实施例三
请参阅图3,是本发明第三实施例提供的合成音频检测系统100的结构示意图,包括:转换器训练模块10、模型训练模块11、特征处理模块12和音频检测模块13,其中:
转换器训练模块10,用于获取真实音频样本,并根据所述真实音频样本对CNN网络进行训练,得到真实化特征转换器。
其中,所述转换器训练模块10还用于:采用strided卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度,并采用ReLU激活函数获取卷积结果;
对所述卷积结果进行反卷积,并采用所述ReLU激活函数获取反卷积结果。
模型训练模块11,用于控制所述真实化特征转换器对训练集数据进行特征转换,得到真实化特征,并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练,得到合成音频检测模型,所述LCNN网络采用的激活函数为MFM激活函数。
其中,所述模型训练模块11还用于:根据预设文件长度对所述真实化特征进行特征裁剪,并将长度小于所述预设文件长度的所述真实化特征沿时间轴补0补齐至所述预设文件长度,所述预设文件长度为256帧。
优选的,所述模型训练模块11还用于:当所述LCNN网络中完成最大池化层的池化后,对所述LCNN网络中的特征数据进行批处理归一化。
进一步的,所述模型训练模块11还用于:计算所述LCNN网络中每个训练批次训练数据的均值和方差;
根据所述均值和所述方差对应批次的所述训练数据做归一化处理,以得到0-1的分布;
根据所述分布对所述LCNN网络进行尺度变换和偏移。
特征处理模块12,用于将待检测音频输入所述真实化特征转换器,得到待检测特征,并将所述待检测特征输入训练后的所述合成音频检测模型,其中,所述真实化特征为LPS特征,所述LPS特征的静态维数为863。
音频检测模块13,用于控制所述合成音频检测模型对所述待检测特征进行检测,得到检测结果。
本实施例,利用真实音频样本的特征学习CNN的模型的设计,以得到真实化特征转换器,该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征,从而增强了训练集数据中真实语音和合成语音之间的区别,提高了合成音频检测模型训练的准确性,以提高后续合成音频检测的准确率。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的合成音频检测方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取真实音频样本,并根据所述真实音频样本对CNN网络进行训练,得到真实化特征转换器;
控制所述真实化特征转换器对训练集数据进行特征转换,得到真实化特征,并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练,得到合成音频检测模型;
将待检测音频输入所述真实化特征转换器,得到待检测特征,并将所述待检测特征输入训练后的所述合成音频检测模型;
控制所述合成音频检测模型对所述待检测特征进行检测,得到检测结果。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的合成音频检测系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的合成音频检测方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标合成音频检测系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标合成音频检测系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种合成音频检测方法,其特征在于,所述方法包括:
获取真实音频样本,并根据所述真实音频样本对CNN网络进行训练,得到真实化特征转换器;
控制所述真实化特征转换器对训练集数据进行特征转换,得到真实化特征,根据预设文件长度对所述真实化特征进行特征裁剪;
将长度小于所述预设文件长度的所述真实化特征沿时间轴补0补齐至所述预设文件长度,并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练,得到合成音频检测模型;
将待检测音频输入所述真实化特征转换器,得到待检测特征,并将所述待检测特征输入训练后的所述合成音频检测模型;
控制所述合成音频检测模型对所述待检测特征进行检测,得到检测结果;
所述根据所述真实音频样本对CNN网络进行训练的步骤包括:
采用strided卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度,并采用ReLU激活函数获取卷积结果;
对所述卷积结果进行反卷积,并采用所述ReLU激活函数获取反卷积结果;
所述真实化特征为LPS特征,所述LPS特征的静态维数为863,且所述预设文件长度为256帧。
2.如权利要求1所述的合成音频检测方法,其特征在于,所述方法还包括:
当所述LCNN网络中完成最大池化层的池化后,对所述LCNN网络中的特征数据进行批处理归一化。
3.如权利要求2所述的合成音频检测方法,其特征在于,所述对所述LCNN网络中的特征数据进行批处理归一化的步骤包括:
计算所述LCNN网络中每个训练批次训练数据的均值和方差;
根据所述均值和所述方差对应批次的所述训练数据做归一化处理,以得到0-1的分布;
根据所述分布对所述LCNN网络进行尺度变换和偏移。
4.如权利要求1所述的合成音频检测方法,其特征在于,所述LCNN网络采用的激活函数为MFM激活函数。
5.一种合成音频检测系统,其特征在于,所述系统包括:
转换器训练模块,用于获取真实音频样本,并根据所述真实音频样本对CNN网络进行训练,得到真实化特征转换器;
模型训练模块,用于控制所述真实化特征转换器对训练集数据进行特征转换,得到真实化特征,根据预设文件长度对所述真实化特征进行特征裁剪;
将长度小于所述预设文件长度的所述真实化特征沿时间轴补0补齐至所述预设文件长度,并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练,得到合成音频检测模型;
特征处理模块,用于将待检测音频输入所述真实化特征转换器,得到待检测特征,并将所述待检测特征输入训练后的所述合成音频检测模型;
音频检测模块,用于控制所述合成音频检测模型对所述待检测特征进行检测,得到检测结果;
所述转换器训练模块还用于:采用strided卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度,并采用ReLU激活函数获取卷积结果;
对所述卷积结果进行反卷积,并采用所述ReLU激活函数获取反卷积结果;
所述真实化特征为LPS特征,所述LPS特征的静态维数为863,且所述预设文件长度为256帧。
6.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至4任一项所述的合成音频检测方法。
7.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的合成音频检测方法的步骤。
CN202010479131.8A 2020-05-29 2020-05-29 合成音频检测方法、系统、移动终端及存储介质 Active CN111798828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010479131.8A CN111798828B (zh) 2020-05-29 2020-05-29 合成音频检测方法、系统、移动终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010479131.8A CN111798828B (zh) 2020-05-29 2020-05-29 合成音频检测方法、系统、移动终端及存储介质

Publications (2)

Publication Number Publication Date
CN111798828A CN111798828A (zh) 2020-10-20
CN111798828B true CN111798828B (zh) 2023-02-14

Family

ID=72806215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010479131.8A Active CN111798828B (zh) 2020-05-29 2020-05-29 合成音频检测方法、系统、移动终端及存储介质

Country Status (1)

Country Link
CN (1) CN111798828B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185417B (zh) * 2020-10-21 2024-05-10 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质
CN112735381B (zh) * 2020-12-29 2022-09-27 四川虹微技术有限公司 一种模型更新方法及装置
CN112967712A (zh) * 2021-02-25 2021-06-15 中山大学 一种基于自回归模型系数的合成语音检测方法
CN114783405B (zh) * 2022-05-12 2023-09-12 马上消费金融股份有限公司 一种语音合成方法、装置、电子设备及存储介质
CN115171725A (zh) * 2022-06-15 2022-10-11 厦门快商通科技股份有限公司 一种基于自监督的防语音合成攻击方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583357A (zh) * 2018-11-23 2019-04-05 厦门大学 一种改进lbp和轻量卷积神经网络级联的人脸识别方法
CN110232927A (zh) * 2019-06-13 2019-09-13 苏州思必驰信息科技有限公司 说话人验证反欺骗方法和装置
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN110473569A (zh) * 2019-09-11 2019-11-19 苏州思必驰信息科技有限公司 检测说话人欺骗攻击的优化方法及系统
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
US10573295B2 (en) * 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US11303671B2 (en) * 2018-08-10 2022-04-12 Visa International Service Association Replay spoofing detection for automatic speaker verification system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583357A (zh) * 2018-11-23 2019-04-05 厦门大学 一种改进lbp和轻量卷积神经网络级联的人脸识别方法
CN110232927A (zh) * 2019-06-13 2019-09-13 苏州思必驰信息科技有限公司 说话人验证反欺骗方法和装置
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN110473569A (zh) * 2019-09-11 2019-11-19 苏州思必驰信息科技有限公司 检测说话人欺骗攻击的优化方法及系统
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于AOF-LCNN的语音回放攻击场景下的说话人识别算法;李波 等;《桂林电子科技大学学报》;20200228;第40卷(第1期);第13-17页 *
语音伪造与鉴伪的发展与挑战;陶建华 等;《信息安全学报》;20200331;第5卷(第2期);第28-38页 *

Also Published As

Publication number Publication date
CN111798828A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN111798828B (zh) 合成音频检测方法、系统、移动终端及存储介质
CN113362822B (zh) 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
CN111357051A (zh) 语音情感识别方法、智能装置和计算机可读存储介质
Ozer et al. Lanczos kernel based spectrogram image features for sound classification
CN113241079A (zh) 一种基于残差神经网络的语音欺骗检测方法
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
CN116978370A (zh) 语音处理方法、装置、计算机设备和存储介质
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
CN111785284A (zh) 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN113449840A (zh) 神经网络训练方法及装置、图像分类的方法及装置
Pandharipande et al. Robust front-end processing for emotion recognition in noisy speech
Lu et al. Temporal Attentive Pooling for Acoustic Event Detection.
CN116705078B (zh) 基于原始音频波形的端到端的语音伪装情绪检测方法及装置
CN117976006A (zh) 音频处理方法、装置、计算机设备和存储介质
CN112418173A (zh) 异常声音识别方法、装置及电子设备
CN116884435A (zh) 一种基于音频提示学习的声音事件检测方法及装置
CN116959502A (zh) 基于语音识别的人体咳嗽声识别方法
CN115358280B (zh) 轴承信号故障诊断方法、装置、设备及存储介质
CN114220438B (zh) 基于bottleneck和通道切分的轻量级说话人识别方法及系统
CN111933180B (zh) 音频拼接检测方法、系统、移动终端及存储介质
Bui et al. A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification
CN112634869B (zh) 命令词识别方法、设备及计算机存储介质
CN114566156A (zh) 一种关键词的语音识别方法及装置
Li et al. Environmental sound classification based on car-transformer neural network model
CN116912920B (zh) 表情识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant