CN110491391A - 一种基于深度神经网络的欺骗语音检测方法 - Google Patents

一种基于深度神经网络的欺骗语音检测方法 Download PDF

Info

Publication number
CN110491391A
CN110491391A CN201910590712.6A CN201910590712A CN110491391A CN 110491391 A CN110491391 A CN 110491391A CN 201910590712 A CN201910590712 A CN 201910590712A CN 110491391 A CN110491391 A CN 110491391A
Authority
CN
China
Prior art keywords
deception
speech
voice
task
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910590712.6A
Other languages
English (en)
Other versions
CN110491391B (zh
Inventor
李琳
黎荣晋
洪青阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910590712.6A priority Critical patent/CN110491391B/zh
Publication of CN110491391A publication Critical patent/CN110491391A/zh
Application granted granted Critical
Publication of CN110491391B publication Critical patent/CN110491391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于深度神经网络的欺骗语音检测方法,包括:步骤A,根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络的欺骗语音检测模型,所述欺骗语音检测模型具有网络参数;步骤B,将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型进行分类判别,判断出该测试语音是真实语音还是欺骗语音。它具有如下优点:支持检测新型未知的语音合成、语音转换和录音回放等欺骗攻击。

Description

一种基于深度神经网络的欺骗语音检测方法
技术领域
本发明涉及计算机信息服务技术领域,特别是涉及基于深度神经网络的欺骗 语音检测方法。
背景技术
说话人识别,是从说话人的声音中,识别出一个人身份(Identity)。通俗来 讲,是在回答“谁在说话?”的问题。具体上看,是从说话人的语音中提炼出该 个体的可区分性的声纹表征,以该表征作为此说话人的身份信息,从而实现识别。 在实际应用场景中,说话人识别技术与其他身份验证技术一样,伴随着人为的恶 意欺骗攻击,有着安全性的问题。
当前,主要有三种欺骗攻击模式:
(1)来自于其他说话人的刻意模仿(如口技等技艺);
(2)高质量的语音合成技术合成的自然语音或先进的语音转换技术转换的逼 真语音;
(3)来自于高保真录音设备(录音笔、播放器、手机等)的录音回放或录音 拼接,即在某种场合下提前秘密录下说话人的声音,然后通过回放录音文件或稍 作处理来攻击说话人识别系统。
在上述三种欺骗攻击模式中,资深的口技师可以逼真地模仿他人从而欺骗人 耳,但人类的声道、口腔和鼻腔等发音器官是各异的,其决定着不一样的基音频 率(PitchFrequency),这种欺骗攻击方式可被主流的说话人识别系统辨析出真 伪。高质量的语音合成与语音转换技术则需要特定说话人的大量语音,所需成本 较高,其欺骗攻击的成功率有限。而录音设备回放录音是操作最为简单和也最容 易实现的攻击方式,借助越先进的录音设备则能获得越高保真的录音用于回放攻 击,而回放语音本质是真实说话人的原始语音,携带着真实说话人的身份信息, 对是说话人识别系统的攻击强度是最严峻的。因此,研发具有反欺骗攻击(Counter measures,CM)的说话人识别系统具有十分必要的实用价值。
中国专利CN201110330598公开一种基于信道模式噪声的录音回放攻击检测 方法和系统,其从预处理后的语音信号中提取信道模式噪声,再提取其长时统计 特征,然后根据信道噪声分类判决模型对尝试统计特征进行分类,最后得到录音 回放攻击检测的判决结果。该发明优点是从录音回放所特有的噪声特征上切入作 为判决根据,噪声特征具有很明显的欺骗痕迹,能有效增强真实与欺骗语音的区 分性。该发明缺点是所面对的欺骗语音较为单一和只利用二分类支持向量机 (Support Vector Machine,SVM),并没有考虑复杂的欺骗攻击与利用更强拟合 能力的深度神经网络。
中国专利CN201611062202公开一种基于环境噪声变化检测的说话人语音回 放鉴别方法及系统,其从语音中划分出静音段并计算静音段的平均功率谱,以其 作为声学特征;然后将真实录音的静音段特征与待测试的静音段特征进行比较, 若两者变化超过阈值,则判断为回放录音;其中,阈值的更新采用时序阈值优化 和/或监督学习阈值法进行调整。该发明放大利用静音段中的环境噪声变化,即欺 骗痕迹,使得算法实现简单,复杂度低。该发明缺点是过于依赖先验信息阈值, 对于开集泛化性弱。
中国专利CN 105702263 A公开一种语音重放检测方法和装置,包括:根据 目标用户的预留训练语音建立用户信道模型;计算待识别语音在所述用户信道模 型上的信任度打分;若所述信任度打分小于设定阈值,则认定待识别语音存在重 放,返回认证失败;反之,通过重放检测。该发明仅针对语音重放进行检测,并 没有考虑复杂的欺骗攻击与利用深度神经网络。
中国专利CN 108364656 A公开了一种用于语音重放检测的特征提取方法及装置,该方法包括:对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维 谱特征;采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整, 得到规整后的语音信号的能量分布特征;对所述语音信号的1.5维谱特征和规整 后的能量分布特征进行融合,得到1.5-SFED(1.5 Spectrum Fuse Energy Distribution)特征。该发明提出了一种用于语音重放检测的特征提取方法及装 置,并没有考虑复杂的欺骗攻击与利用深度神经网络。
发明内容
本发明提供了一种基于深度神经网络的欺骗语音检测方法,其克服了背景技 术中欺骗语音检测方法所存在的不足。
本发明解决其技术问题的所采用的技术方案是:
一种基于深度神经网络的欺骗语音检测方法,包括:
步骤A,根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络 的欺骗语音检测模型,所述欺骗语音检测模型具有网络参数;
步骤B,将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型 进行分类判别,判断出该测试语音是真实语音还是欺骗语音。
一实施例之中:所述步骤B中,将测试语音输入到上述欺骗语音检测模型, 上述欺骗语音检测模型的输出为输出层二元决策任务的输出节点概率,根据二元 决策节点的两个概率大小判断该测试语音是真实语音还是欺骗语音。
一实施例之中:所述步骤B包括:
将测试语音通过上述欺骗语音检测模型提取得到相应的深度特征向量值;
利用已有的已知真伪的语音数据训练一个分类器,将已有的已知真伪的语音 数据中真实语音和欺骗语音分别通过上述欺骗语音检测模型提取得到相应的深度 特征向量值,利用真实语音的深度特征向量值训练一个真实语音的分类模块,利 用欺骗语音的深度特征向量值训练一个欺骗语音的分类模块;
提取测试语音深度特征向量值,提取的测试语音深度特征向量值分别在真实 语音的分类模块和欺骗语音的分类模块上计算相似度,将该两个相似度之差异作 为分类分数;
比较分类分数与预先设置的打分阈值,若分类分数大于打分阈值,则该测试 语音为真实语音,若分类分数小于打分阈值,则该测试语音为欺骗语音。
一实施例之中:所述步骤A包括:
从用户已有的已知真伪的语音数据中提取一种高时间-频率分辨率的声学 特征,将声学特征输入到一个特征网络分支,该特征网络分支的输出值直接输 到后续隐藏层,以建立欺骗语音检测模型。
一实施例之中:所述深度神经网络系支持多特征多任务的深度神经网络,它 含有多个隐藏层、支持多特征的特征拼接层、统计池化层和支持多任务的输出层; 所述步骤A包括:
步骤A1,从用户已有的已知真伪的语音数据中提取至少两种高时间-频率分 辨率的声学特征;
步骤A2,按每帧对齐后依次拼接每帧的至少两种声学特征向量,形成拼接 的声学特征向量;
步骤A3,基于同一语音信号对应的拼接的声学特征向量,生成至少两份不 同的网络训练样本集,至少有一份是用于二元决策任务,至少有一份是用于其 他任务;
步骤A4,将至少两份训练样本随机交替输入到多特征多任务网络中,样本 的每帧特征向量经过输入层之后分离为至少两种声学特征;
步骤A5,将至少两种声学特征输入到不同的特征网络分支,分别将特征网 络分支的输出值按帧拼接成一个特征表征向量,把这至少两个神经网络分支的 输出向量进行左右拼接形成拼接层的拼接式特征向量,继而输出到后续隐藏层;
步骤A6,结合梯度控制单元的多任务学习,上述的二元决策任务和欺骗攻 击分类任务交替进行,当前主任务为二元决策任务时,当前辅助任务则为其他 任务;当前主任务为其他任务时,当前辅助任务为二元决策任务;使用梯度控 制单元来协调不同任务之间的前向表征传播与后向梯度传播,减少多任务学习 中不同任务之间的负面干扰。
一实施例之中:所述步骤A6中的结合梯度控制单元的多任务学习包括:
在前向传播中,当前辅助任务网络分支的表征向量会通过梯度控制单元传播 到当前主任务网络分支上,并与当前任务网络分支的表征向量加权相加;在后向 传播中,传播到当前辅助任务网络分支的梯度可人为设置,即被梯度控制单元抑 制而绕过当前辅助任务网络分支,直接后向传播到深度神经网络其余所有隐藏层。
一实施例之中:所述步骤A1中,提取训练集所有语音样本的高时间-频率分 辨率的两种声学特征,两种声学特征为梅尔频率倒谱系数和梅尔频率滤波器组; 而且,设置相应的提取帧移为4毫秒,每帧滤波器组数为160个,离散余弦变换 后为40维度的高时频分辨率的声学特征。
一实施例之中:所述步骤A5包括:
将至少两种声学特征输入到不同的特征网络分支,分别将特征网络分支的输 出值按帧拼接成一个特征表征向量,把这至少两个神经网络分支的输出向量进行 左右拼接形成拼接层的拼接式特征向量,继而输出到后续隐藏层;
拼接式特征向量输入至统计池化层,汇聚一段语音片段的所有帧级别的拼接 式特征向量,计算对应的均值和标准差,左右拼接均值与标准差,形成段级别的 整合式特征向量。
一实施例之中:所述步骤B包含MMI-GMM的分类识别,它包括:
步骤B1,得到训练完成后的多特征多任务网络参数,指定二元决策分支的 统计池化层后的某层隐藏层输出值,作为深度特征向量值;
提取训练集所有语音的深度特征向量值;
提取测试集所有语音的深度特征向量值;
步骤B2,利用训练集语音的深度特征向量值分别训练真实语音的MMI-GMM 模型和欺骗语音的MMI-GMM模型;
步骤B3,测试语音深度特征向量分别在步骤B2的真实MMI-GMM模型和欺骗 MMI-GMM模型上计算两个对数似然概率,并将对应真实模型的对数似然概率与对 应欺骗模型的对数似然概率作差,作为分类分数;
步骤B4,将分类分数与设置好的阈值进行比较,若分数大于设定阈值,则该 测试语音是真实语音,小于设定阈值则该测试语音为欺骗语音。
一实施例之中:所述其他任务为欺骗攻击分类任务。
本技术方案与背景技术相比,它具有如下优点:
(1)支持检测新型未知的语音合成、语音转换和录音回放等欺骗攻击;
(2)采取多种不同的高时间-频率分辨率的声学特征,有效弥补不同声学特 征之间的表征能力,并结合深度神经网络,能有效挖掘欺骗语音的深层次欺骗痕 迹;
(3)运用神经网络学习语音声学特征的内在个性信息,具备更强的非线性 建模能力;
(4)采用梯度控制单元,能协调不同任务之间的梯度传播,减少多任务学 习中不同任务之间的干扰,借助欺骗攻击分类任务的学习增强二元决策任务的泛 化能力。
附图说明
下面结合附图和具体实施方式对本发明作进一步说明。
图1是具体实施方式中所提供的一种用于检测欺骗语音的方法的应用场景示 意图;
图2是实施例一中所提供的一种用于检测欺骗语音的方法的流程图;
图3是实施例二中所提供的一种用于检测欺骗语音的方法的流程图;
图4是具体实施方式中所提供的一种梯度控制单元的运算示意图。
具体实施方式
实施例一
请查阅图1和图2,一种基于深度神经网络的欺骗语音检测方法的流程图, 包括:
建立欺骗语音检测模型步骤,根据用户已有的已知真伪的语音数据建立基 于深度神经网络的欺骗语音检测模型;
判别步骤,选“步骤203”或“步骤204至步骤208”。
所述建立欺骗语音检测模型步骤包括:
步骤201,提取训练集所有语音样本的声学特征,声学特征包含MFCC特征;
步骤202,将从训练集中提取的声学特征送入神经网络,根据任务代价函数 训练整个神经网络的网络参数,在神经网络训练完成后,固定网络参数,即, 建立了欺骗语音检测模型;
步骤203,将测试语音的特征送入神经网络后,直接由该欺骗语音检测模型 中神经网络的输出层输出该语音是真实语音的概率和该语音是欺骗语音的概 率,比较两个两个概率大小;具体为:将待测试语音输入到上述欺骗语音检测 模型,上述欺骗语音检测模型的输出为输出层二元决策任务的输出节点概率, 根据二元决策节点的两个概率大小判断该测试语音是真实语音还是欺骗语音;
若对应真实语音的节点输出概率较高,该测试语音是真实语音,通过检测;
若对应欺骗语音的节点输出概率较高,该测试语音为欺骗语音,返回认证 失败。
步骤204,将测试语音输送到整个神经网络,根据训练好的网络参数计算得 到指定的网络的某层隐藏层输出值,将隐藏层输出值作为深度特征向量值;
利用训练集语音的深度特征向量值分别训练真实语音和欺骗语音的分类模 块。具体为:利用已有的已知真伪的语音数据训练一个分类器,将已有的已知 真伪的语音数据中真实语音或者欺骗语音分别通过上述欺骗语音检测模型提取 得到相应的深度特征向量值,训练一个真实语音的分类模块和一个欺骗语音的 分类模块;所述的分类模块可采用MMI-GMM分类模型或者LR(逻辑回归)分类模 型。
步骤205,提取的测试语音深度特征向量值分别在真实语音的分类模块和欺 骗语音的分类模块上计算两个分类分数;具体为:将测试语音的深度特征向量 值分别与真实语音的分类模块和欺骗语音的分类模块计算相似度,二者之差作 为分类分数。
步骤206,分类分数与预先设置的打分阈值进行比较,若小于打分阈值,则 执行步骤207,否则执行步骤208;其中,打分阈值的设定由人工经验设定,或 者,根据判决模型的算法特点来设定;
步骤207,该测试语音为欺骗语音,返回认证失败;
步骤208,该测试语音是真实语音,通过检测。
实施例二
请查阅图3,一种基于深度神经网络欺骗语音检测方法的流程图,包括:
步骤301,声学特征提取和训练样本生成步骤,它包括:
先提取训练集所有语音样本的高时间-频率分辨率的至少两种声学特征,声 学特征如MFCC和FBank,即,针对梅尔(Mel)频率倒谱系数(Mel Frequency CepstralCoefficient,MFCC)和梅尔(Mel)频率滤波器组(Mel Frequency Bank, FBank)。设置相应的提取帧移从通用的10毫秒改变为4毫秒,每帧滤波器组数 从通用的30个改变为160个,离散余弦变换后从通用的20维度改变为40维度 的高时频分辨率的MFCC声学特征;
按每帧对齐后依次拼接每帧的MFCC与FBank两种声学特征向量,形成拼接 的声学特征向量;
基于同一语音信号对应的拼接的声学特征向量,生成两份不同的网络训练 样本集。第一份是用于二元决策任务,第二份是用于欺骗攻击分类任务。对于 二元决策任务,每帧特征向量对应一个二元标签,其中二元标签指真实语音为0, 欺骗语音为1;对于欺骗攻击分类任务,每帧特征向量对应一个欺骗类别标签, 其中真实语音为0,欺骗语音根据类别数依次为1,2,……,N;及将两份训练 样本随机交替输入到多特征多任务网络中,样本的每帧特征向量经过输入层之 后分离为两种声学特征,声学特征1和声学特征2,如,分别对应MFCC与FBank;
步骤302,特征整合步骤,它包括:
步骤3021或者步骤3022,声学特征1(如MFCC)与声学特征2(如FBank) 经过各自的帧级别神经网络分支;
步骤3023,将两个神经网络分支最后一个隐藏层的输出表征向量xMFCC和 xFbank同时汇聚在特征拼接模块中,即把这两个神经网络分支的输出向量进行左 右拼接形成拼接层的拼接式特征向量xspliced,并传递到后续网络的隐藏层;及
拼接公式如下:
xspliced←Append(xMFCC,xFbank) (1)
步骤3024,拼接式特征向量xspliced输入至统计池化层,汇聚一段语音片段 的所有帧级别的拼接式特征向量,计算对应的均值和标准差,左右拼接均值与 标准差,形成段级别(Segment Level)的整合式特征向量;
步骤303,包含梯度控制单元的多特征多任务学习,它包括:
步骤3031,根据训练样本的任务类型,若是二元决策任务,则训练图3的 左分支代价函数;
步骤3032,根据训练样本的任务类型,若是欺骗攻击分类任务,则训练图 3的右分支代价函数;
步骤3033,在步骤3021和步骤3022的基础上,将多任务左右分支网络的 最后一层隐藏层的输出向量分别接到梯度控制单元,梯度控制单元输出的向量 值分别输入至两个任务类型的输出层。梯度控制单元内部执行前向传播的计算, 假设xT1和xT2分别为多任务左右分支网络最后一层隐藏层的输出向量,则梯度控 制单元输出至左右两个任务类型的向量值可由公式(2)计算得到,其中, 参数a和参数b分别为权重值,可设置为接近为1的值,如a=b=0.925,如图4 所示;
步骤3034,在误差后向传播中,若是二元决策任务,所采用的代价函数为LT1, 对应二元决策任务的梯度不通过梯度控制单元传播到右分支,即绕过右分支的 段级别隐藏层,传播到多特征多任务其余所有隐藏层;及
步骤3035,在误差后向传播中,若是欺骗攻击分类任务,所采用的代价函 数为LT2,对应欺骗攻击分类任务的梯度不通过梯度控制单元传播到左分支,即 绕过左分支的两层段级别隐藏层,传播到多特征多任务网络其余所有隐藏层。 梯度控制单元内部执行后向传播的计算,其中可人为设置权重值β=0,如公式 (3)所示:
步骤304,包含最大互信息混合高斯模型(MMI-GMM)的分类识别,它包括:
步骤3041,得到训练完成后的多特征多任务网络参数,指定二元决策分支 的统计池化层后的某层隐藏层输出值,如倒数第二层隐藏层的输出值,作为深 度特征向量值x(如,x-vector);
提取训练集所有语音的深度特征向量值。
提取测试集所有语音的深度特征向量值。
步骤3042,利用训练集语音的深度特征向量值分别训练真实语音的MMI-GMM 模型yg和欺骗语音的MMI-GMM模型ys;其中,MMI-GMM目标函数如下所示:
其中,k是概率缩放因子;经由期望最大化(Exception Maximum,EM)收 敛,均值my与协方差∑y更新如下:
其中常数c0=2,而统计量分别如下:
步骤3043,测试语音深度特征向量xem分别在步骤3042的真实MMI-GMM模 型yg和欺骗MMI-GMM模型ys上计算两个对数似然概率(Log Likelihood Probability,LLP),并将对应真实模型的对数似然概率logP(mem|yg)与对应欺骗模 型的对数似然概率logP(xem|ys)作差,以对数似然比(Log Likelihood Ratio,LLR) 作为分类分数;
LLR=logP(xim|yg)-logP(xm|ys) (10)
将分类分数与设置好的阈值进行比较,若分数大于设定阈值,则执行步骤 3044,否则执行步骤3045;
步骤3044,该测试语音是真实语音,通过检测;
步骤3045,该测试语音为欺骗语音,返回认证失败。
本实施例之中:支持多特征多任务的深度神经网络,含有多个隐藏层、支 持多特征的特征拼接层、统计池化层和支持多任务的输出层,输出层至少含有 二元决策(真/假)任务和欺骗攻击分类任务。声学特征为该网络的输入,根据 应用需要,可直接输出二元决策任务的输出节点概率,也可以从统计池化层与 输出层之间的某一隐藏层输出对应一段语音信号的深度特征向量。
本发明所提出的一种基于深度神经网络的欺骗语音检测方法,不仅深度挖 掘欺骗语音的内在欺骗痕迹,而且整合了不同声学特征的刻画尺度于单个神经 网络系统框架内,大大地提升单系统的识别性能,摆脱了多系统分数融合的资 源成本。同时,多特征多任务的网络架构(MFMT)采取基于梯度控制单元的多 任务学习机制,提升了二元决策任务的解释性与泛化性,增强了深度特征向量 的鲁棒性,有利于抵御新型未知的欺骗攻击。
本说明书中各个实施例采用递进方式描述,每个实施例重点说明的都是与 其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本说明书具体实施方式的识别方法能对抗说话人识别系统中存在的多种复 杂欺骗攻击类型以及开集未知欺骗攻击方式,如语音合成、语音转换和录音回 放等欺骗攻击手段。
所述的分类模块可采用MMI-GMM分类模型或者LR分类模型。将待测语音的 深度特征向量值分别与真实语音的分类模型和欺骗欺骗语音的分类模型计算相 似度,二者之差作为分类分数。若采用MMI-GMM分类模型,则计算待测语音的 深度特征向量分别与真实语音MMI-GMM模型和欺骗语音MMI-GMM模型的两个对 数似然概率(Log LikelihoodProbability,LLP),并将真实的对数似然概率 与欺骗的对数似然概率作差,以对数似然比(Log Likelihood Ratio,LLR)作 为分类分数;若采用LR分类模型,则计算待测语音的深度特征向量在LR模型 的对数后验概率之差,作为分类分数。若分类分数大于阈值,则该测试语音为 真实语音;若分类分数小于阈值,则该测试语音为欺骗语音。
本领域技术人员还可以进一步意识到,结合本文所公开的实施例描述的各 个模块及算法步骤,能够以电子硬件、计算机软件或者二者结合的方式来实现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能性描述了 各示例的组成及步骤。这些功能以硬件还是软件方式来执行,取决于技术方案 的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不 同方法实现所描述的功能,但这种实现不应超过本发明的范围。

Claims (10)

1.一种基于深度神经网络的欺骗语音检测方法,其特征在于:包括:
步骤A,根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络的欺骗语音检测模型,所述欺骗语音检测模型具有网络参数;
步骤B,将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型进行分类判别,判断出该测试语音是真实语音还是欺骗语音。
2.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤B中,将测试语音输入到上述欺骗语音检测模型,上述欺骗语音检测模型的输出为输出层二元决策任务的输出节点概率,根据二元决策节点的两个概率大小判断该测试语音是真实语音还是欺骗语音。
3.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤B包括:
将测试语音通过上述欺骗语音检测模型提取得到相应的深度特征向量值;
利用已有的已知真伪的语音数据训练一个分类器,将已有的已知真伪的语音数据中真实语音和欺骗语音分别通过上述欺骗语音检测模型提取得到相应的深度特征向量值,利用真实语音的深度特征向量值训练一个真实语音的分类模块,利用欺骗语音的深度特征向量值训练一个欺骗语音的分类模块;
提取测试语音深度特征向量值,提取的测试语音深度特征向量值分别在真实语音的分类模块和欺骗语音的分类模块上计算相似度,将该两个相似度之差异作为分类分数;
比较分类分数与预先设置的打分阈值,若分类分数大于打分阈值,则该测试语音为真实语音,若分类分数小于打分阈值,则该测试语音为欺骗语音。
4.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤A包括:
从用户已有的已知真伪的语音数据中提取一种高时间-频率分辨率的声学特征,将声学特征输入到一个特征网络分支,该特征网络分支的输出值直接输到后续隐藏层,以建立欺骗语音检测模型。
5.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述深度神经网络系支持多特征多任务的深度神经网络,它含有多个隐藏层、支持多特征的特征拼接层、统计池化层和支持多任务的输出层;所述步骤A包括:
步骤A1,从用户已有的已知真伪的语音数据中提取至少两种高时间-频率分辨率的声学特征;
步骤A2,按每帧对齐后依次拼接每帧的至少两种声学特征向量,形成拼接的声学特征向量;
步骤A3,基于同一语音信号对应的拼接的声学特征向量,生成至少两份不同的网络训练样本集,至少有一份是用于二元决策任务,至少有一份是用于其他任务;
步骤A4,将至少两份训练样本随机交替输入到多特征多任务网络中,样本的每帧特征向量经过输入层之后分离为至少两种声学特征;
步骤A5,将至少两种声学特征输入到不同的特征网络分支,分别将特征网络分支的输出值按帧拼接成一个特征表征向量,把这至少两个神经网络分支的输出向量进行左右拼接形成拼接层的拼接式特征向量,继而输出到后续隐藏层;
步骤A6,结合梯度控制单元的多任务学习,上述的二元决策任务和欺骗攻击分类任务交替进行,当前主任务为二元决策任务时,当前辅助任务则为其他任务;当前主任务为其他任务时,当前辅助任务为二元决策任务;使用梯度控制单元来协调不同任务之间的前向表征传播与后向梯度传播,减少多任务学习中不同任务之间的负面干扰。
6.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤A6中的结合梯度控制单元的多任务学习包括:
在前向传播中,当前辅助任务网络分支的表征向量会通过梯度控制单元传播到当前主任务网络分支上,并与当前任务网络分支的表征向量加权相加;在后向传播中,传播到当前辅助任务网络分支的梯度可人为设置,即被梯度控制单元抑制而绕过当前辅助任务网络分支,直接后向传播到深度神经网络其余所有隐藏层。
7.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤A1中,提取训练集所有语音样本的高时间-频率分辨率的两种声学特征,两种声学特征为梅尔频率倒谱系数和梅尔频率滤波器组;而且,设置相应的提取帧移为4毫秒,每帧滤波器组数为160个,离散余弦变换后为40维度的高时频分辨率的声学特征。
8.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤A5包括:
将至少两种声学特征输入到不同的特征网络分支,分别将特征网络分支的输出值按帧拼接成一个特征表征向量,把这至少两个神经网络分支的输出向量进行左右拼接形成拼接层的拼接式特征向量,继而输出到后续隐藏层;
拼接式特征向量输入至统计池化层,汇聚一段语音片段的所有帧级别的拼接式特征向量,计算对应的均值和标准差,左右拼接均值与标准差,形成段级别的整合式特征向量。
9.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤B包含MMI-GMM的分类识别,它包括:
步骤B1,得到训练完成后的多特征多任务网络参数,指定二元决策分支的统计池化层后的某层隐藏层输出值,作为深度特征向量值;
提取训练集所有语音的深度特征向量值;
提取测试集所有语音的深度特征向量值;
步骤B2,利用训练集语音的深度特征向量值分别训练真实语音的MMI-GMM模型和欺骗语音的MMI-GMM模型;
步骤B3,测试语音深度特征向量分别在步骤B2的真实MMI-GMM模型和欺骗MMI-GMM模型上计算两个对数似然概率,并将对应真实模型的对数似然概率与对应欺骗模型的对数似然概率作差,作为分类分数;
步骤B4,将分类分数与设置好的阈值进行比较,若分数大于设定阈值,则该测试语音是真实语音,小于设定阈值则该测试语音为欺骗语音。
10.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述其他任务为欺骗攻击分类任务。
CN201910590712.6A 2019-07-02 2019-07-02 一种基于深度神经网络的欺骗语音检测方法 Active CN110491391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910590712.6A CN110491391B (zh) 2019-07-02 2019-07-02 一种基于深度神经网络的欺骗语音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910590712.6A CN110491391B (zh) 2019-07-02 2019-07-02 一种基于深度神经网络的欺骗语音检测方法

Publications (2)

Publication Number Publication Date
CN110491391A true CN110491391A (zh) 2019-11-22
CN110491391B CN110491391B (zh) 2021-09-17

Family

ID=68546592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910590712.6A Active CN110491391B (zh) 2019-07-02 2019-07-02 一种基于深度神经网络的欺骗语音检测方法

Country Status (1)

Country Link
CN (1) CN110491391B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009238A (zh) * 2020-01-02 2020-04-14 厦门快商通科技股份有限公司 一种拼接语音的识别方法和装置以及设备
CN111243621A (zh) * 2020-01-14 2020-06-05 四川大学 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111564163A (zh) * 2020-05-08 2020-08-21 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN111710327A (zh) * 2020-06-12 2020-09-25 百度在线网络技术(北京)有限公司 用于模型训练和声音数据处理的方法、装置、设备和介质
CN111755014A (zh) * 2020-07-02 2020-10-09 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
CN111785303A (zh) * 2020-06-30 2020-10-16 合肥讯飞数码科技有限公司 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN112466298A (zh) * 2020-11-24 2021-03-09 网易(杭州)网络有限公司 语音检测方法、装置、电子设备和存储介质
CN112863523A (zh) * 2019-11-27 2021-05-28 华为技术有限公司 语音防伪方法、装置、终端设备及存储介质
CN112967712A (zh) * 2021-02-25 2021-06-15 中山大学 一种基于自回归模型系数的合成语音检测方法
CN113012684A (zh) * 2021-03-04 2021-06-22 电子科技大学 一种基于语音分割的合成语音检测方法
CN113035230A (zh) * 2021-03-12 2021-06-25 北京百度网讯科技有限公司 认证模型的训练方法、装置及电子设备
US20210201110A1 (en) * 2019-12-31 2021-07-01 Alibaba Group Holding Limited Methods and systems for performing inference with a neural network
CN113284486A (zh) * 2021-07-26 2021-08-20 中国科学院自动化研究所 一种环境对抗的鲁棒语音鉴别方法
CN113284508A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 基于层级区分的生成音频检测系统
WO2021164256A1 (zh) * 2020-02-17 2021-08-26 平安科技(深圳)有限公司 语音信号处理方法、装置及设备
CN113314148A (zh) * 2021-07-29 2021-08-27 中国科学院自动化研究所 基于原始波形的轻量级神经网络生成语音鉴别方法和系统
CN113488027A (zh) * 2021-09-08 2021-10-08 中国科学院自动化研究所 一种层级分类的生成音频溯源方法及存储介质、计算机设备
EP3933832A1 (en) * 2020-07-02 2022-01-05 Deutsche Telekom AG A method and a speech-based system for automatically detecting synthesized or natural speech in a speech-based system and a computer program
WO2022222056A1 (en) * 2021-04-21 2022-10-27 Microsoft Technology Licensing, Llc Synthetic speech detection
CN115280410A (zh) * 2020-01-13 2022-11-01 密歇根大学董事会 安全自动说话者验证系统
CN117393000A (zh) * 2023-11-09 2024-01-12 南京邮电大学 一种基于神经网络和特征融合的合成语音检测方法
CN118298809A (zh) * 2024-04-10 2024-07-05 中国人民解放军陆军工程大学 基于软对比伪学习的开放世界伪造语音归因方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
US10008209B1 (en) * 2015-09-25 2018-06-26 Educational Testing Service Computer-implemented systems and methods for speaker recognition using a neural network
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
CN108711436A (zh) * 2018-05-17 2018-10-26 哈尔滨工业大学 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN109147799A (zh) * 2018-10-18 2019-01-04 广州势必可赢网络科技有限公司 一种语音识别的方法、装置、设备及计算机存储介质
CN109300479A (zh) * 2018-10-31 2019-02-01 桂林电子科技大学 一种回放语音的声纹识别方法、装置及存储介质
CN109599117A (zh) * 2018-11-14 2019-04-09 厦门快商通信息技术有限公司 一种音频数据识别方法及人声语音防重放识别系统
CN109754812A (zh) * 2019-01-30 2019-05-14 华南理工大学 一种基于卷积神经网络的防录音攻击检测的声纹认证方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
US10008209B1 (en) * 2015-09-25 2018-06-26 Educational Testing Service Computer-implemented systems and methods for speaker recognition using a neural network
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108711436A (zh) * 2018-05-17 2018-10-26 哈尔滨工业大学 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN109147799A (zh) * 2018-10-18 2019-01-04 广州势必可赢网络科技有限公司 一种语音识别的方法、装置、设备及计算机存储介质
CN109300479A (zh) * 2018-10-31 2019-02-01 桂林电子科技大学 一种回放语音的声纹识别方法、装置及存储介质
CN109599117A (zh) * 2018-11-14 2019-04-09 厦门快商通信息技术有限公司 一种音频数据识别方法及人声语音防重放识别系统
CN109754812A (zh) * 2019-01-30 2019-05-14 华南理工大学 一种基于卷积神经网络的防录音攻击检测的声纹认证方法

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021103913A1 (zh) * 2019-11-27 2021-06-03 华为技术有限公司 语音防伪方法、装置、终端设备及存储介质
CN112863523B (zh) * 2019-11-27 2023-05-16 华为技术有限公司 语音防伪方法、装置、终端设备及存储介质
CN112863523A (zh) * 2019-11-27 2021-05-28 华为技术有限公司 语音防伪方法、装置、终端设备及存储介质
US20210201110A1 (en) * 2019-12-31 2021-07-01 Alibaba Group Holding Limited Methods and systems for performing inference with a neural network
CN111009238B (zh) * 2020-01-02 2023-06-23 厦门快商通科技股份有限公司 一种拼接语音的识别方法和装置以及设备
CN111009238A (zh) * 2020-01-02 2020-04-14 厦门快商通科技股份有限公司 一种拼接语音的识别方法和装置以及设备
CN115280410A (zh) * 2020-01-13 2022-11-01 密歇根大学董事会 安全自动说话者验证系统
CN111243621A (zh) * 2020-01-14 2020-06-05 四川大学 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
US11217225B2 (en) 2020-01-22 2022-01-04 Xiamen University Multi-type acoustic feature integration method and system based on deep neural networks
CN111276131B (zh) * 2020-01-22 2021-01-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
WO2021164256A1 (zh) * 2020-02-17 2021-08-26 平安科技(深圳)有限公司 语音信号处理方法、装置及设备
CN111564163B (zh) * 2020-05-08 2023-12-15 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN111564163A (zh) * 2020-05-08 2020-08-21 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN111710327A (zh) * 2020-06-12 2020-09-25 百度在线网络技术(北京)有限公司 用于模型训练和声音数据处理的方法、装置、设备和介质
CN111785303A (zh) * 2020-06-30 2020-10-16 合肥讯飞数码科技有限公司 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN111785303B (zh) * 2020-06-30 2024-04-16 合肥讯飞数码科技有限公司 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN111755014A (zh) * 2020-07-02 2020-10-09 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
CN111755014B (zh) * 2020-07-02 2022-06-03 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
EP3933832A1 (en) * 2020-07-02 2022-01-05 Deutsche Telekom AG A method and a speech-based system for automatically detecting synthesized or natural speech in a speech-based system and a computer program
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN112466298B (zh) * 2020-11-24 2023-08-11 杭州网易智企科技有限公司 语音检测方法、装置、电子设备和存储介质
CN112466298A (zh) * 2020-11-24 2021-03-09 网易(杭州)网络有限公司 语音检测方法、装置、电子设备和存储介质
CN112967712A (zh) * 2021-02-25 2021-06-15 中山大学 一种基于自回归模型系数的合成语音检测方法
CN113012684A (zh) * 2021-03-04 2021-06-22 电子科技大学 一种基于语音分割的合成语音检测方法
CN113035230A (zh) * 2021-03-12 2021-06-25 北京百度网讯科技有限公司 认证模型的训练方法、装置及电子设备
WO2022222056A1 (en) * 2021-04-21 2022-10-27 Microsoft Technology Licensing, Llc Synthetic speech detection
CN113284508A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 基于层级区分的生成音频检测系统
US11763836B2 (en) 2021-07-21 2023-09-19 Institute Of Automation, Chinese Academy Of Sciences Hierarchical generated audio detection system
CN113284486A (zh) * 2021-07-26 2021-08-20 中国科学院自动化研究所 一种环境对抗的鲁棒语音鉴别方法
CN113314148A (zh) * 2021-07-29 2021-08-27 中国科学院自动化研究所 基于原始波形的轻量级神经网络生成语音鉴别方法和系统
CN113314148B (zh) * 2021-07-29 2021-11-09 中国科学院自动化研究所 基于原始波形的轻量级神经网络生成语音鉴别方法和系统
CN113488027A (zh) * 2021-09-08 2021-10-08 中国科学院自动化研究所 一种层级分类的生成音频溯源方法及存储介质、计算机设备
CN117393000A (zh) * 2023-11-09 2024-01-12 南京邮电大学 一种基于神经网络和特征融合的合成语音检测方法
CN117393000B (zh) * 2023-11-09 2024-04-16 南京邮电大学 一种基于神经网络和特征融合的合成语音检测方法
CN118298809A (zh) * 2024-04-10 2024-07-05 中国人民解放军陆军工程大学 基于软对比伪学习的开放世界伪造语音归因方法及系统
CN118298809B (zh) * 2024-04-10 2024-10-18 中国人民解放军陆军工程大学 基于软对比伪学习的开放世界伪造语音归因方法及系统

Also Published As

Publication number Publication date
CN110491391B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN110491391A (zh) 一种基于深度神经网络的欺骗语音检测方法
Reimao et al. For: A dataset for synthetic speech detection
CN105518708B (zh) 用于验证活体人脸的方法、设备和计算机程序产品
CN105139857B (zh) 一种自动说话人识别中针对语音欺骗的对抗方法
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN108922518A (zh) 语音数据扩增方法和系统
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
CN110459204A (zh) 语音识别方法、装置、存储介质及电子设备
CN106448685B (zh) 一种基于音素信息的声纹认证系统及方法
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN109448759A (zh) 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN108876951A (zh) 一种基于声音识别的教学考勤方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN108985776A (zh) 基于多重信息验证的信用卡安全监测方法
CN110459226A (zh) 一种通过声纹引擎检测人声或机器音进行身份核验的方法
CN105513598A (zh) 一种基于频域信息量分布的回放语音检测方法
Doan et al. Bts-e: Audio deepfake detection using breathing-talking-silence encoder
Huang et al. Stop deceiving! an effective defense scheme against voice impersonation attacks on smart devices
CN105679323B (zh) 一种号码发现方法及系统
CN110111798A (zh) 一种识别说话人的方法及终端
Zhang et al. Waveform level adversarial example generation for joint attacks against both automatic speaker verification and spoofing countermeasures
CN110348409A (zh) 一种基于声纹生成人脸图像的方法和装置
CN110085236B (zh) 一种基于自适应语音帧加权的说话人识别方法
CN102509548B (zh) 一种基于多距离声传感器的音频索引方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant