CN113284513B - 基于音素时长特征的虚假语音检测方法及装置 - Google Patents

基于音素时长特征的虚假语音检测方法及装置 Download PDF

Info

Publication number
CN113284513B
CN113284513B CN202110841276.2A CN202110841276A CN113284513B CN 113284513 B CN113284513 B CN 113284513B CN 202110841276 A CN202110841276 A CN 202110841276A CN 113284513 B CN113284513 B CN 113284513B
Authority
CN
China
Prior art keywords
phoneme duration
training
deep learning
learning network
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110841276.2A
Other languages
English (en)
Other versions
CN113284513A (zh
Inventor
陶建华
汪涛
易江燕
傅睿博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110841276.2A priority Critical patent/CN113284513B/zh
Publication of CN113284513A publication Critical patent/CN113284513A/zh
Application granted granted Critical
Publication of CN113284513B publication Critical patent/CN113284513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供基于音素时长特征的虚假语音检测方法,包括:从音频训练数据中提取声学特征;利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;应用音频测试数据,重复步骤S1‑S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果。

Description

基于音素时长特征的虚假语音检测方法及装置
技术领域
本发明涉及虚假语音检测领域,具体涉及基于音素时长特征的虚假语音检测方法及装置。
背景技术
防伪检测最先在图像和视频领域取得突破性进展。最常见的AI换脸算法有DeepFake、FaceSwap 和 Face2Face三种,对于它们所生成的人脸,人类的识别率甚至低于40%。不过得益于大型虚假人脸数据集FaceForensics的发布,人脸的防伪检测取得突破性进展,来自微软亚洲研究院视觉计算组的学者提出的模型一举将假脸鉴别的准确率提升到了99%以上。近些年端到端语音合成的系统生成的语音音质越来越高,足以以假乱真,但是关于声音防伪检测的研究。随着端到端合成和转换系统的进步,用这些系统能够生成极其逼近真人声音的虚假音频,人耳几乎无法分辨这些声音的真假,这也使得增加了声音防伪检测的很大的难度。2015年之后,由国际信息学研究所、爱丁堡大学、芬兰东部大学等全世界著名大学和研究所以及包括谷歌等科技公司发起了自动说话人欺骗验证系统(ASVspoof)评测大赛,极大的推动了声音防伪检测领域的发展。近几年,关于声音防伪检测的研究方法主要集中于两个方面。第一个是特征层面,高斯混合模型(Gaussian MixtureModel,GMM)分类器联合常数Q倒谱系数(CQCC)在各种反欺骗任务中得到了广泛的关注。CQCC特征是从常量Q变换(CQT)中提取的一种受感知启发的时频分析。考虑到虚假声音和真实声音的相似性,一种特征可能无法完全展示出两者的差异,一些研究者尝试使用多种特征融合的方法来提高特征的区分性,同时避免有效信息的丢失。另外受限于目前的数据集大小,通过数据扩增的方法也能够通过提高模型的鲁棒性来提高模型的识别效果。第二个是模型层面,很多研究者试图通过寻找更加鲁棒的模型结构来提高模型的鉴别效果。典型的就是采用深度神经网络中的卷积神经网络,通过设计不同卷积层之间的连接结构,以及不同的模型参数来提高模型的性能。单个模型的表现能力也是有限的,部分工作尝试使用集成学习的方法,采用多个模型同时对输入语句进行鉴别,判断句子的真伪。
目前的声音防伪检测研究,虽然获得了一定的性能提升,但是缺乏对于真实声音与虚假声音之间差异的理论研究,不能从特征和信号层面解释真实声音和虚假声音之间的差异。
公开号为CN112992126A公开了一种语音真伪的验证方法、装置、电子设备及可读存储介质,包括:获取待识别语音;将待识别语音输入预先训练好的声音特征提取网络,得到目标特征向量;目标特征向量包含用于区分声音来源的待识别语音的时序信息以及音素长时对应信息;将目标特征向量输入至预先训练好的分类模型中,确定待识别语音是否为真实用户发出的;分类模型是基于最大互信息准则进行训练的,用于区分真实语音与伪造语音。
公开号为CN111613240A公开了一种基于注意力机制和BiLSTM的伪装语音检测方法,包括:S1 .提取语音样本中与语音相对应的语音特征数据,并将提取出的语音特征数据转换为语音图像数据;S2 .采用双向长短期记忆网络Bi-LSTM对转换得到的语音图像数据进行处理,得到图像数据的深度特征;S3 .采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;S4 .采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。
现有技术缺点:
1)缺乏对于真实声音与虚假声音之间差异的理论研究,不能从真实语音与虚假语音之间的韵律差异来进行判别。
2)声音的防伪检测要求系统具有鲁棒性,能够鉴别出来自于多种不同的合成系统的虚假声音。
发明内容
有鉴于此,本发明第一方面提供一种基于音素时长特征的虚假语音检测方法,具体地,本发明是通过如下技术方案实现的:
S1:从音频训练数据中提取声学特征;
S2:利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;
S3:应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;
S4:将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;
S5:应用音频测试数据,重复步骤S1-S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得到测试语音的真伪检测结果。
优选地,声学特征包括: MFCC或者BFCC频谱特征。
优选地,深度学习网络包括:编码器和解码器两部分。
优选地,最后n层的隐含特征为解码器的最后n层的隐含特征。
优选地,n表示为预训练深度学习网络的最后n层,其可以根据具体情况进行选值,建议选取3~5层
优选地,提取音素时长特征向量之前还包括:将最后n层的隐含特征进行拼接,得到拼接特征。
优选地,提取音素时长特征向量之前还包括:在拼接特征中获得与说话人无关的音素表示特征。
优选地,提取音素时长特征向量之前还包括:通过音素表示特征提取出音素时长特征向量。
优选地,判别器采用ResNet50来构建。
优选地,得到测试语音的真伪检测结果的具体方法为:鉴别为虚假的概率大于等于0.5的语音判别为虚假语音,对于虚假的概率小于0.5的语音判别为真实语音。
本发明第二方面提供一种基于音素时长特征的虚假语音检测装置,所述装置包括:声学特征提取模块、时长特征提取模块和判别器;
声学特征提取模块从音频训练数据中提取声学特征;
时长特征提取模块为预训练深度学习网络:应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;
将所述声学特征和所述音素时长特征向量作为输入,输入到判别器,得到语音的真伪检测结果。
优选的,所述预训练深度学习网络包括:编码器和解码器;所述最后n层的隐含特征为解码器的最后n层的隐含特征。
本申请实施例提供的上述技术方案及装置与现有技术相比具有如下优点:
可以利用音素时长特征检测虚假语音,准确率高,鲁棒性强。
提高准确率:
由于真实语音和伪语音在音素时长特征上分布差异较大,虚假语音是音素时长规律性强,差异性小,而真实语音由于说话是随机性较大,每个音素的时长分布差异性很大,利用这样的差异可以有效的真伪进行检测,提高系统的准确率。
增加鲁棒性:
虚假系统种类众多,但是虚假系统均逃不过声学模型加声码器的框架,而凡是存在声学模型的架构中,模型学习出来的音素时长一定是基于训练语料较为平均的结果,所以结论是基于语音合成技术的虚假语音均存在时长音素过于平均的问题,所以可以仅仅利用这种差异检测众多原理的语音合成系统合成出来的虚假语音,提高鉴伪系统的鲁棒性。
附图说明
图1为本发明实施例提供的基于音素时长特征的虚假语音检测方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
目前虚假语音大多是基于语音合成系统虚假而来,而语音合成系统可以分解为声学模型和声码器模块。其中声学模型是负责将文本信息转化为声学特征,声码器的功能是将声学特征转换为最终的语音信号。在这个过程中,由于声学模型采用了有监督的文本-声学特征对的训练方式,训练的声学模型在合成阶段会出现韵律过于平滑的现象,而这种韵律过平滑的现象的原因是每个音素的时长分布过于的平均。这是由于真实的数据中每个音素的分布是具有一定的随机性的,而在模型训练过程中,采用梯度下降法训练模型参数,模型会在这种随机性上去一个均衡,导致每个音素的分布呈现统计后的平均量。所以,分局这种音素的时长分布特征在真伪数据之间的差异性可以鉴别语音的真伪。
利用虚假语音的音素时长特征与真实语音音素时长特征之间的差异性,对虚假语音进行精确的检测。由于通过机器虚假的语音韵律信息规律性较大,随机性小,并且这种规律性主要体现在一句话中每个音素的时长分布上。每个音素的时长差异性较小,并且在不同句子中相同音素的时长大致是相同的。而在真实的语音中,由于说话人发音的随机性较大,加之口语化等原因,有真实人类发出来的声音在音素的时长分布上随机性很大,相同音素在不同语句场景和时刻中具有明显不同的时长分布。根据这种虚假语音和真实语音在时长特征上显著的差异性,可以从语音中提取音素的时长特征作为特征向量,联合对应音素的种类输入到鉴伪判别器中进行分类,从而达到对虚假语音的精确检测。
这样做的好处是基于显著的物理背景,可解释性,并且易于操作和实现。此外,鉴伪系统内的鲁棒性强,虽然虚假系统种类众多,但是虚假系统均逃不过声学模型加声码器的框架,而凡是存在声学模型的架构中,模型学习出来的音素时长一定是基于训练语料较为平均的结果,所以结论是基于语音合成技术的虚假语音均存在时长音素过于平均的问题,所以可以仅仅利用这种差异检测众多原理的语音合成系统合成出来的虚假语音,极大提高鉴伪系统的鲁棒性。
实施例1:
如图1所示本申请实施例提供的基于音素时长特征的虚假语音检测方法,包括:
S1:从音频训练数据中提取声学特征:可采用常规的声学特征,比如MFCC或者BFCC等频谱特征;在此,以MFCC特征为例,首先输入语音,通过对语音进行傅里叶变换获得频谱图,然后在与MEL倒谱系数相乘获得Mel谱特征,最后根据Mel谱特征提取MFCC系数;以此MFCC特征作为判别器的输入;
S2:利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;所述深度学习网络包括:编码器和解码器两部分;所述深度学习网络选用TDNN时延神经网络;
在一些实施中,预训练神经网络模型实际上是利用语音识别技术训练的模型,该模型结构是编码器和解码器结构。
S3:将深度学习网络的解码器的最后n层的隐含特征进行拼接,可以根据具体情况进行选值,建议选择3-5层,得到拼接特征,在拼接特征中获得与说话人无关的音素表示特征,再通过音素表示特征提取出音素时长特征向量;
S4:将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;判别器的设计可以采用传统的机器学习方法比如SVM,随机森林等技术,也可以采用神经网络模型优化模型参数,比如DNN,CNN,RNN等模块进行构建;所述判别器具体采用ResNet50来构建;其模型结构有50层,其中有四组子结构,一共50个2D卷积,并采用残差结构防止模型过拟合,提高模型建模能力;
S5:应用语音伪长度为20秒的片段(小于20秒则使用0进行填充,超过20秒则进行截断)的音频测试数据,重复步骤S1-S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的MFCC声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果,具体方法为:鉴别为虚假的概率大于等于0.5的语音判别为虚假语音,对于虚假的概率小于0.5的语音判别为真实语音。
实施例2:
根据实施例1中的所述的方案,本发明第二方面提供一种基于音素时长特征的虚假语音检测装置,采用上述实施例1中的方法,具体包括:声学特征提取模块、时长特征提取模块和判别器;
声学特征提取模块从音频训练数据中提取声学特征;
时长特征提取模块为预训练深度学习网络:应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;
将所述声学特征和所述音素时长特征向量作为输入,输入到判别器,得到语音的真伪检测结果。
优选的,所述预训练深度学习网络包括:编码器和解码器;所述最后n层的隐含特征为解码器的最后n层的隐含特征。
实施例3:
根据实施例1中的所述的方案,本发明第三方面提供一种存储介质,用于实施和/或存储实施例1所述的方法基于音素时长特征的虚假语音检测方法。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.基于音素时长特征的虚假语音检测方法,其特征在于,所述方法包括:
S1:从音频训练数据中提取声学特征;
S2:利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;
S3:应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;
S4:将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;
S5:应用音频测试数据,重复步骤S1-S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得到测试语音的真伪检测结果。
2.根据权利要求1所述的基于音素时长特征的虚假语音检测方法,其特征在于,所述声学特征包括:MFCC或者BFCC频谱特征。
3.根据权利要求1所述的基于音素时长特征的虚假语音检测方法,其特征在于,所述深度学习网络包括:编码器和解码器两部分。
4.根据权利要求3所述的基于音素时长特征的虚假语音检测方法,其特征在于,所述最后n层的隐含特征为解码器的最后n层的隐含特征。
5.根据权利要求4所述的基于音素时长特征的虚假语音检测方法,其特征在于,所述n表示为预训练深度学习网络的最后n层,选取3~5层。
6.根据权利要求5所述的基于音素时长特征的虚假语音检测方法,其特征在于,所述提取音素时长特征向量之前还包括:将最后n层的隐含特征进行拼接,得到拼接特征;在拼接特征中获得与说话人无关的音素表示特征;
所述提取音素时长特征向量包括:通过音素表示特征提取出音素时长特征向量。
7.根据权利要求1所述的基于音素时长特征的虚假语音检测方法,其特征在于,所述判别器采用ResNet50来构建。
8.根据权利要求1所述的基于音素时长特征的虚假语音检测方法,其特征在于,所述得到测试语音的真伪检测结果的具体方法为:鉴别为虚假的概率大于等于0.5的语音判别为虚假语音,对于虚假的概率小于0.5的语音判别为真实语音。
9.基于音素时长特征的虚假语音检测装置,其特征在于,所述装置包括:声学特征提取模块、时长特征提取模块和判别器;
声学特征提取模块从音频训练数据中提取声学特征;
时长特征提取模块为利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络:应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;
将所述声学特征和所述音素时长特征向量作为输入,输入到判别器,得到语音的真伪检测结果。
10.根据权利要求9所述的基于音素时长特征的虚假语音检测装置,其特征在于,所述预训练深度学习网络包括:编码器和解码器;所述最后n层的隐含特征为解码器的最后n层的隐含特征。
CN202110841276.2A 2021-07-26 2021-07-26 基于音素时长特征的虚假语音检测方法及装置 Active CN113284513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110841276.2A CN113284513B (zh) 2021-07-26 2021-07-26 基于音素时长特征的虚假语音检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110841276.2A CN113284513B (zh) 2021-07-26 2021-07-26 基于音素时长特征的虚假语音检测方法及装置

Publications (2)

Publication Number Publication Date
CN113284513A CN113284513A (zh) 2021-08-20
CN113284513B true CN113284513B (zh) 2021-10-15

Family

ID=77287248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110841276.2A Active CN113284513B (zh) 2021-07-26 2021-07-26 基于音素时长特征的虚假语音检测方法及装置

Country Status (1)

Country Link
CN (1) CN113284513B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555007B (zh) 2021-09-23 2021-12-14 中国科学院自动化研究所 语音拼接点检测方法及存储介质
CN114937455B (zh) * 2022-07-21 2022-10-11 中国科学院自动化研究所 语音检测方法及装置、设备及存储介质
CN116153336B (zh) * 2023-04-19 2023-07-21 北京中电慧声科技有限公司 一种基于多域信息融合的合成语音检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2437477A1 (en) * 2010-09-30 2012-04-04 British Telecommunications public limited company Fraud detection
WO2014116199A1 (en) * 2013-01-22 2014-07-31 Interactive Intelligence, Inc. False alarm reduction in speech recognition systems using contextual information
US20150255063A1 (en) * 2014-03-10 2015-09-10 General Motors Llc Detecting vanity numbers using speech recognition
US20160328547A1 (en) * 2008-06-23 2016-11-10 The John Nicholas and Kristin Gross Trust U/A/D April 13, 2010 System and Method for Discriminating Between Speakers for Authentication
CN109147799A (zh) * 2018-10-18 2019-01-04 广州势必可赢网络科技有限公司 一种语音识别的方法、装置、设备及计算机存储介质
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN110070875A (zh) * 2019-04-29 2019-07-30 深圳市友杰智新科技有限公司 一种基于语音关键词检测和声纹的反电信诈骗方法
CN112201255A (zh) * 2020-09-30 2021-01-08 浙江大学 语音信号频谱特征和深度学习的语音欺骗攻击检测方法
CN112634856A (zh) * 2020-12-10 2021-04-09 苏州思必驰信息科技有限公司 语音合成模型训练方法和语音合成方法
CN112766166A (zh) * 2021-01-20 2021-05-07 中国科学技术大学 一种基于多音素选择的唇型伪造视频检测方法及系统
CN112992126A (zh) * 2021-04-22 2021-06-18 北京远鉴信息技术有限公司 语音真伪的验证方法、装置、电子设备及可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328547A1 (en) * 2008-06-23 2016-11-10 The John Nicholas and Kristin Gross Trust U/A/D April 13, 2010 System and Method for Discriminating Between Speakers for Authentication
EP2437477A1 (en) * 2010-09-30 2012-04-04 British Telecommunications public limited company Fraud detection
WO2014116199A1 (en) * 2013-01-22 2014-07-31 Interactive Intelligence, Inc. False alarm reduction in speech recognition systems using contextual information
US20150255063A1 (en) * 2014-03-10 2015-09-10 General Motors Llc Detecting vanity numbers using speech recognition
CN109147799A (zh) * 2018-10-18 2019-01-04 广州势必可赢网络科技有限公司 一种语音识别的方法、装置、设备及计算机存储介质
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN110070875A (zh) * 2019-04-29 2019-07-30 深圳市友杰智新科技有限公司 一种基于语音关键词检测和声纹的反电信诈骗方法
CN112201255A (zh) * 2020-09-30 2021-01-08 浙江大学 语音信号频谱特征和深度学习的语音欺骗攻击检测方法
CN112634856A (zh) * 2020-12-10 2021-04-09 苏州思必驰信息科技有限公司 语音合成模型训练方法和语音合成方法
CN112766166A (zh) * 2021-01-20 2021-05-07 中国科学技术大学 一种基于多音素选择的唇型伪造视频检测方法及系统
CN112992126A (zh) * 2021-04-22 2021-06-18 北京远鉴信息技术有限公司 语音真伪的验证方法、装置、电子设备及可读存储介质

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
Deep Audio-visual Learning: A Survey;Hao Zhu et al.;《International Journal of Automation and 》;20210630;第351-376页 *
Dynamic Speaker Representations Adjustment and Decoder Factorization for Speaker Adaptation in End-to-End Speech Synthesis;Ruibo Fu et al.;《INTERSPEECH 2020》;20201029;第4701-4705页 *
Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for Replay Attack Detection;Yongqiang Dou et al.;《arXiv》;20200625;全文 *
Grapheme-to-phoneme conversion in Chinese TTS system;Honghui Dong et al.;《International Symposium on Chinese Spoken Language Processing》;20041218;第165-168页 *
Phoneme dependent speaker embedding and model factorization for multi-speaker speech synthesis and adaptation;Ruibo Fu et al.;《ICASSP 2019》;20191231;第6930-6934页 *
人工智能安全的隐忧:深度伪造技术的挑战与应对;赵建强 等;《中国安防》;20210630;第40-47页 *
声音伪造与防伪检测技术研究;鲍薇 等;《信息技术与标准化》;20200331;第54-58页 *
视听觉深度伪造检测技术研究综述;梁瑞刚 等;《信息安全学报》;20200331;第5卷(第2期);第1-17页 *
语音伪造与鉴伪的发展与挑战;陶建华 等;《信息安全学报》;20200331;第5卷(第2期);第28-38页 *

Also Published As

Publication number Publication date
CN113284513A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN113284513B (zh) 基于音素时长特征的虚假语音检测方法及装置
Zhang et al. End-to-end attention based text-dependent speaker verification
CN108198574B (zh) 变声检测方法及装置
Thiolliere et al. A hybrid dynamic time warping-deep neural network architecture for unsupervised acoustic modeling.
CN107731233B (zh) 一种基于rnn的声纹识别方法
Weninger et al. Deep learning based mandarin accent identification for accent robust ASR.
WO2003015078A1 (en) Voice registration method and system, and voice recognition method and system based on voice registration method and system
Agrawal et al. Prosodic feature based text dependent speaker recognition using machine learning algorithms
Iqbal et al. General-purpose audio tagging from noisy labels using convolutional neural networks.
Wu et al. The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge.
Prachi et al. Deep learning based speaker recognition system with cnn and lstm techniques
CN113362814B (zh) 一种融合组合模型信息的语音鉴别模型压缩方法
Karthikeyan Adaptive boosted random forest-support vector machine based classification scheme for speaker identification
Chakroun et al. Improving text-independent speaker recognition with GMM
Alex et al. Variational autoencoder for prosody‐based speaker recognition
Ponraj Speech recognition with gender identification and speaker diarization
CN116665649A (zh) 基于韵律特征的合成语音检测方法
Iloanusi et al. Voice recognition and gender classification in the context of native languages and lingua franca
Ma et al. Language identification with deep bottleneck features
Gade et al. Hybrid Deep Convolutional Neural Network based Speaker Recognition for Noisy Speech Environments
Dennis et al. Generalized Hough transform for speech pattern classification
CN115083419A (zh) 说话人识别方法及装置、设备、存储介质
Shen et al. Investigation of NICT Submission for Short-Duration Speaker Verification Challenge 2020.
Yerramreddy et al. Speaker Identification Using MFCC Feature Extraction: A Comparative Study Using GMM, CNN, RNN, KNN and Random Forest Classifier
He et al. LSTM Based End-to-End Text-Independent Speaker Verification Using Raw Waveform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant