CN115346532A - 声纹识别系统的优化方法、终端设备及存储介质 - Google Patents

声纹识别系统的优化方法、终端设备及存储介质 Download PDF

Info

Publication number
CN115346532A
CN115346532A CN202110508555.7A CN202110508555A CN115346532A CN 115346532 A CN115346532 A CN 115346532A CN 202110508555 A CN202110508555 A CN 202110508555A CN 115346532 A CN115346532 A CN 115346532A
Authority
CN
China
Prior art keywords
flux
recognition system
voiceprint recognition
voiceprint
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110508555.7A
Other languages
English (en)
Inventor
于乐
张峰
李祥军
张弘扬
马禹昇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110508555.7A priority Critical patent/CN115346532A/zh
Publication of CN115346532A publication Critical patent/CN115346532A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种声纹识别系统的优化方法、终端设备及计算机可读存储介质,其中,所述方法包括:获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;根据所述目标样本生成所述目标对象对应的通量;对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。这样通过构建通量并基于通量直接优化声纹识别系统,达成了缩减声纹识别系统的优化耗时,提高声纹识别系统的优化效率的效果。

Description

声纹识别系统的优化方法、终端设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及声纹识别系统的优化方法、终端设备及计算机可读存储介质。
背景技术
声纹识别是一种基于生物特征的身份识别技术,可以通过说话人的语音特征鉴别说话人的身份。在语音信号处理中,通过声纹识别技术,可以对感兴趣的敏感目标说话人进行识别和分析。如诈骗团伙常常通过电话通信进行诈骗,我们如果能在通话中识别出该人为经常诈骗人员,则可及时阻止对端用户被骗。人声纹识别是通过对收到的语音信号进行处理,提取相应的特征或建立相应的模型,然后据此作出判断。
然而,在声纹安全对抗场景下,如诈骗人员采取录音回放的模式,由于录音设备以及回放设备的差异,会导致回放录音与真实声音信道、信噪比差异较大,从而致使声纹系统识别错误。在相关技术中,为了提高声纹系统识别的准确率,可以将识别错误的语音添加到黑名单声纹库中。当黑名单声纹库中加入新的语音数据时,基于所述黑名单声纹库中的语音数据重新训练声纹训练模型的训练参数,得到更新后的声纹训练模型。
由于该分析方法是将遇到的识别错误的音频添加到黑名单声纹库中,然后通过更新训练模型,从而提高模型的反欺骗效果。这样导致声纹识别系统需要较长时间的迭代才会起一定的提高反欺诈的效果的作用。这样存在声纹识别系统性能提升耗时长的缺陷。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种声纹识别系统的优化方法、终端设备及计算机可读存储介质,旨在达成缩减声纹识别系统的优化耗时,提高声纹识别系统的优化效率的效果。
为实现上述目的,本发明提供一种声纹识别系统的优化方法,所述声纹识别系统的优化方法包括以下步骤:
获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;
根据所述目标样本生成所述目标对象对应的通量;
对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;
在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
可选地,所述获取待优化的声纹识别系统基于目标对象的识别阈值识别出的目标样本的步骤之前,还包括:
建立样本数据库,并确定所述目标对象;
所述获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本的步骤包括:
获取所述声纹识别系统对所述样本数据库中的每一样本相对于所述目标对象的评价结果;
获取所述识别阈值;
将所述样本数据库中,对应的所述评价结果大于或者等于所述识别阈值的样本,作为所述目标对象对应的所述目标样本。
可选地,所述根据所述目标样本生成所述目标对象对应的通量的步骤包括:
拼接所述目标样本的声学特征,以及各个所述目标样本相对于所述目标对象的评价结果,以生成所述通量。
可选地,所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤之后,还包括:
确定所述通量对应的欺骗结果,其中,所述欺骗结果包括欺骗成功和欺骗失败;
在所述欺骗结果为欺骗失败时,跳转执行所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤。
可选地,所述根据所述目标样本生成所述目标对象对应的通量的步骤包括:
当存在至少两个所述目标对象时,确定根据各个所述目标对象对应的所述目标样本生成与所述目标对象一一对应的通量;
所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤之后,还包括:
确定所述通量的扰动时长;
在所述扰动时长大于预设时长时,基于下一通量执行所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤。
可选地,所述在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统的步骤包括:
在检测到欺骗成功,基于扰动后所述通量,对所述声纹识别系统中,所述目标对象对应的所述声纹模型进行重新建模,以优化所述声纹识别系统。
可选地,采用无穷范数限制对所述通量的扰动大小。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别系统的优化程序,所述声纹识别系统的优化程序被所述处理器执行时实现如上所述的声纹识别系统的优化方法的步骤。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:
获取模块,用于获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;
生成模块,用于根据所述目标样本生成所述目标对象对应的通量;
攻击模块,用于对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;
优化模块,用于在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有声纹识别系统的优化程序,所述声纹识别系统的优化程序被处理器执行时实现如上所述的声纹识别系统的优化方法的步骤。
本发明实施例提出的一种声纹识别系统的优化方法、终端设备及计算机可读存储介质,通过先构建一个通量,然后对通量进行自学习的多次空间扰动,将扰动后的通量特征对说话人识别系统进行欺骗性攻击,将欺骗成功的扰动后的通量用于声纹系统的迭代训练,从而实现提升原有系统反欺诈性能。这样可以有效的缩减提升声纹识别系统的性能的所需时长,从而提高声纹识别系统性能优化的效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明声纹识别系统的优化方法的一实施例的流程示意图;
图3为本发明声纹识别系统的优化方法的另一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于在相关技术中,需要将遇到的识别错误的音频添加到黑名单声纹库中,然后通过更新训练模型,从而提高模型的反欺骗效果。这样导致声纹识别系统需要较长时间的迭代才会起一定的提高反欺诈的效果的作用。这样存在声纹识别系统性能提升耗时长的缺陷。
为了缩减声纹识别系统性能提升耗时,提高声纹识别系统性优化效率。本发明实施例提出一种声纹识别系统的优化方法、终端设备及计算机可读存储介质,其中,所述方法的主要步骤包括:
获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;
根据所述目标样本生成所述目标对象对应的通量;
对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;
在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
这样通过先构建一个通量,然后对通量进行自学习的多次空间扰动,将扰动后的通量特征对说话人识别系统进行欺骗性攻击,将欺骗成功的扰动后的通量用于声纹系统的迭代训练,从而实现提升原有系统反欺诈性能。这样可以有效的缩减提升声纹识别系统的性能的所需时长,从而提高声纹识别系统性能优化的效率。
以下结合附图对本发明权利要求要求保护的内容进行详细说明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是计算机、服务器等终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,存储器1003,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1003中可以包括操作系统以及声纹识别系统的优化程序。
在图1所示的终端中,处理器1001可以用于调用存储器1003中存储的声纹识别系统的优化程序,并执行以下操作:
获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;
根据所述目标样本生成所述目标对象对应的通量;
对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;
在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
进一步地,处理器1001可以调用存储器1003中存储的声纹识别系统的优化程序,还执行以下操作:
建立样本数据库,并确定所述目标对象;
所述获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本的步骤包括:
获取所述声纹识别系统对所述样本数据库中的每一样本相对于所述目标对象的评价结果;
获取所述识别阈值;
将所述样本数据库中,对应的所述评价结果大于或者等于所述识别阈值的样本,作为所述目标对象对应的所述目标样本。
进一步地,处理器1001可以调用存储器1003中存储的声纹识别系统的优化程序,还执行以下操作:
拼接所述目标样本的声学特征,以及各个所述目标样本相对于所述目标对象的评价结果,以生成所述通量。
进一步地,处理器1001可以调用存储器1003中存储的声纹识别系统的优化程序,还执行以下操作:确定所述通量对应的欺骗结果,其中,所述欺骗结果包括欺骗成功和欺骗失败;
在所述欺骗结果为欺骗失败时,跳转执行所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤。
进一步地,处理器1001可以调用存储器1003中存储的声纹识别系统的优化程序,还执行以下操作:
所述根据所述目标样本生成所述目标对象对应的通量的步骤包括:
当存在至少两个所述目标对象时,确定根据各个所述目标对象对应的所述目标样本生成与所述目标对象一一对应的通量;
所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤之后,还包括:
确定所述通量的扰动时长;
在所述扰动时长大于预设时长时,基于下一通量执行所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤。
进一步地,处理器1001可以调用存储器1003中存储的声纹识别系统的优化程序,还执行以下操作:
在检测到欺骗成功,基于扰动后所述通量,对所述声纹识别系统中,所述目标对象对应的所述声纹模型进行重新建模,以优化所述声纹识别系统。
声纹识别是一种基于生物特征的身份识别技术,可以通过说话人的语音特征鉴别说话人的身份。在语音信号处理中,通过声纹识别技术,可以对感兴趣的敏感目标说话人进行识别和分析,如诈骗团伙常常通过电话通信进行诈骗。因此,如果能在通话中识别出该人为经常诈骗人员,则可及时阻止被骗人上当受骗。这便是从语音数据中通过声纹识别技术识别出“谁在说话”。说话人声纹识别可以看作是语音识别的一种。它和语音识别一样,都是通过对所收到的语音信号进行处理,提取相应的特征或建立相应的模型,然后据此作出判断。而区别在于它并不注重语言信号中的语义内容,而是希望从语音信号中提取出不同发声人的声纹特征。从这点上说,说话人声纹识别是企求挖掘出包含在语音信号中的个性因数,在处理方法上,说话人声纹识别力图强调不同人之间的差别。
然而,在声纹安全对抗场景下,如诈骗人员通常采取录音回放的模式,对被骗者播放一段欺骗性语音,以诱导受骗者进行下一步受骗操作。此类电信诈骗,录音与诈骗人员的真实声音一般有较高的相似性,但由于录音设备以及回放设备的差异,会导致回放录音与真实声音信道、信噪比差异较大,从而致使声纹系统识别错误,达到欺骗声纹识别系统的效果。诸如此类对抗攻击欺骗手段,使不是目标人的声纹被系统误识别为目标人,或者使目标人的声纹被系统误识别为不是目标人。
为了提高声纹识别系统的反欺骗能力,在相关技术中,可以将识别错误的语音添加到黑名单声纹库中。当黑名单声纹库中加入新的语音数据时,再基于所述黑名单声纹库中的语音数据重新训练声纹模型,得到更新后的声纹模型,以更好的适应语音反欺诈,提升反欺诈准确性,克服误报的缺陷,同时提升检测效率。由于该分析方法是将遇到的识别错误的音频添加到黑名单声纹库中,然后通过更新训练模型,从而提高模型的反欺骗效果。这样导致模型需要较长时间的迭代才会起一定的提高反欺诈的效果的作用。这样存在模型性能提升耗时长的缺陷。
为解决相关技术中存在的上述缺陷,本发明提出一种声纹识别系统的优化方法,构建一个通量,通过对通量进行自学习的多次空间扰动,将扰动后的通量特征对说话人识别系统进行欺骗性攻击,将欺骗成功的扰动后的通量用于声纹系统的迭代训练,从而实现提升原有系统反欺诈性能。这样可以有效的缩减提升声纹识别系统的性能的所需时长,从而提高声纹识别系统性能优化的效率。
示例性地,参照图2,在本发明声纹识别系统的优化方法的一实施例中,所述声纹识别系统的优化方法包括以下步骤:
步骤S10、获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;
步骤S20、根据所述目标样本生成所述目标对象对应的通量;
步骤S30、对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;
步骤S40、在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
在一声纹识别系统中,可以包括用于识别一个或者多个目标对象的一个或者多个声纹模型。其中,上述目标对象为一具体的识别个体,例如,可以将一个说话人作为一个目标对象。由于声纹识别主要用于根据个体的个性化特征来区别个体,因此,可以在一个声纹识别系统中,设置不同个体对应的声纹识别模型。
在本实施例中,可以先首先建立样本库,并确定对应的目标对象,即目标说话人。其中,所述样本库中包含目标说话人的对应的多段语音片段。其中,样本库中样本的数量为对象的个数m,与对象对应的样本数n的乘积。例如,当有10个对象,每一对象设置有5个对应样本时,样本库中包括10*5=50个样本。进一步地,可以选定样本库中的样本对应的对象中的一个或者多个对象,作为目标对象。
进一步地,生成样本库并确定目标对象后,可以通过待优化的声纹识别对象,对样本库中的样本进行识别。以确定样本库中的样本,相对于每一目标对象的评价结果。其中,所述评价结果可以以数值的形式体现,也可以百分比的形式体现。例如,样本1相对于目标对象A的评价结果,可以表示为0.98或者98%。其中,评价结果即样本对应的声纹特征与目标对象的声纹特征之间的匹配程度。
进一步地,当确定样本数据库中每一样本相对于各个目标对象的评价结果后,还可以获取预存的识别阈值。其中,所述识别阈值为自定义的数值,例如,可以设置为[0.95,1)区间内的任意数值。优选地,所述识别阈值设置为0.97。可以理解的是,当评价结果以其它形式体现时,识别阈值也需要相应变化。例如,评价结果为百分比时,识别阈值也设置为百分比。
当获取到识别阈值之后,可以确定各个目标对象对应的目标样本。其中,所述目标样本为所述样本数据库中,对应的所述评价结果大于或者等于所述识别阈值的样本。
进一步地,当确定目标样本后,可以基于所述目标样本,构建每一目标对象对应的通量。具体地,可以拼接所述目标样本的声学特征,以及各个所述目标样本相对于所述目标对象的评价结果,以生成所述通量。例如,目标对象A对应的目标样本包括样本a1,样本a2和样本a3时,可以拼接样本a1,样本a2和样本a3的声学特征,以及其对应的评价结果,作为该目标对象A对应的通量。
可以理解的是,当设置有多个目标对象时,可以根据多个目标对象对应的目标样本,生成多个目标对象对应的通量。从而根据各个所述目标对象对应的通量,生成通量集。
进一步地,当确定目标对象的通量后,可以对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击,并在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
作为一种实施方案,在对所述通量进行空间扰动时,可以采用无穷范数限制对所述通量的扰动大小。例如,可以限制最大扰动值为c=0.03。可选地,还可以设置最大扰动时长T,在所述最大扰动时长内,定时对所述通量进行空间扰动,并根据扰动后的通量,对纹识别系统进行欺骗攻击。在检测到欺骗成或者对该通量的扰动时长大于最大扰动时长T时,结束对该通量的扰动。并基于所述其它通量优化所述声纹识别系统。其中,在基于所述其它通量优化所述声纹识别系统时,可以基于扰动后所述通量,即欺骗成功的扰动后的通量,对所述声纹识别系统中,所述通量对应的目标对象的所述声纹模型进行重新建模,以优化所述声纹识别系统。
示例性地,设置目标对象的识别阈值为0.97,进而基于所述识别阈值确定目标样本。当确定目标样本后,拼接识别结果(评价结果)大于0.97的目标样本的声学特征与其对应目标说话人评价结果,以生成该目标对象对应的通量。当目标对象为多个时,则生成多个与目标对象一一对应的通量,并由多个通量组成通量集。
进一步地,可以对样本通量(即所述通量)进行空间扰动,扰动策略采用无穷范数来限制扰动大小,限制最大扰动值为c=0.03,当确定了多个多个目标对象对应的多个通量时,还可以设置扰动最大时长T=7秒。使得在T时间段内定时进行一次通量扰动,当欺骗成功或对当前通量的扰动时间到达最大时长T后,结束对该通量扰动。进一步地,利用扰动后的通量对声纹识别系统进行欺骗攻击。具体地,可以先初始化目标对象最大欺骗数E=103,每次欺骗最大时长T=7秒,收益衰减系数r=0.002,以及通量扰动器和通量评判器。然后根据输入通量解得声学状态初始值S1 e,初始评价结果P0 e。然后选择通量扰动器(At e=u(St e)),对样本通量进行扰动,得到当前通量状态的下一空间扰动状态St+1 e=St e+At e,然后计算欺骗结果Pt e=F(St+1 e),以及当前时间收益Rt e=Pt e-Pt e;计算正确数值Yt=Rt+rQ(St+1,u(St+1)。并通过损失函数更新通量评判器,采用深度确定性策略梯度算法更新通量扰动器;对于欺骗成功的通量用于迭代声纹识别系统,重新对欺骗成功的目标对象进行建模,欺骗失败则更新通量评判器以及通量扰动器,进行下一次通量扰动欺骗。当通量的扰动时间大于T结束该样本通量扰动,进行新的样本通量扰动。
在本实施例公开的技术方案中,通过构建一个通量,然后对通量进行自学习的多次空间扰动,将扰动后的通量特征对说话人识别系统进行欺骗性攻击,将欺骗成功的扰动后的通量用于声纹系统的迭代训练,从而实现提升原有系统反欺诈性能。这样可以有效的缩减提升声纹识别系统的性能的所需时长,从而提高声纹识别系统性能优化的效率。
可选地,在另一实施例中,所述步骤S30之后,还包括:
确定所述第一通量对应的欺骗结果,其中,所述欺骗结果包括欺骗成功和欺骗失败;在所述欺骗结果为欺骗失败时,跳转执行所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤。
在本实施例中,当对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击后。可以先确定所述通量对应的欺骗结果,其中,所述欺骗结果包括欺骗成功和欺骗失败。在所述欺骗结果为欺骗失败时,跳转执行所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤。以使得通过多次扰动,确定可以对声纹识别系统欺骗成功的通量。从而根据对声纹识别系统欺骗成功的通量对声纹识别系统进行优化。
此外,当声纹识别系统设置为可以识别多个目标对象时,可以根据多个目标对象对应的通量生成通量集。然后基于所述通量集中的通量,逐一优化声纹识别系统中,各个目标对象对应的声纹模型。从而使得声纹识别系统对各个目标对象的识别能力都有所提升。
可选地,当通过通量集对声纹识别系统进行优化时,还可以为每一通量设置一最大扰动时长(即预设时长,例如,可以设置为7s或者8s等具体数值)。在对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的过程中,实时确定定所述通量的扰动时长,在所述扰动时长大于预设时长时,对其它通量进行空间扰动,并基于扰动后的所述其它通量对所述声纹识别系统进行欺骗攻击,其中,所述其它通量为所述目标对象之外的其它目标对象对应的通量,并在检测到欺骗成时,基于所述其它通量优化所述声纹识别系统。这样可以使得声纹识别系统对自身可识别的各个目标对象的识别效率均有所提高。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别系统的优化程序,所述声纹识别系统的优化程序被所述处理器执行时实现如上各个实施例所述的声纹识别系统的优化方法的步骤。
此外,本发明实施例还提出一种终端设备,示例性地,参照图3,所述终端设备100包括:
获取模块101,用于获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;
生成模块102,用于根据所述目标样本生成所述目标对象对应的通量;
攻击模块103,用于对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;
优化模块104,用于在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有声纹识别系统的优化程序,所述声纹识别系统的优化程序被处理器执行时实现如上各个实施例所述的声纹识别系统的优化方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得终端设备执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种声纹识别系统的优化方法,其特征在于,所述声纹识别系统的优化方法包括以下步骤:
获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;
根据所述目标样本生成所述目标对象对应的通量;
对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;
在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
2.如权利要求1所述的声纹识别系统的优化方法,其特征在于,所述获取待优化的声纹识别系统基于目标对象的识别阈值识别出的目标样本的步骤之前,还包括:
建立样本数据库,并确定所述目标对象;
所述获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本的步骤包括:
获取所述声纹识别系统对所述样本数据库中的每一样本相对于所述目标对象的评价结果;
获取所述识别阈值;
将所述样本数据库中,对应的所述评价结果大于或者等于所述识别阈值的样本,作为所述目标对象对应的所述目标样本。
3.如权利要求1所述的声纹识别系统的优化方法,其特征在于,所述根据所述目标样本生成所述目标对象对应的通量的步骤包括:
拼接所述目标样本的声学特征,以及各个所述目标样本相对于所述目标对象的评价结果,以生成所述通量。
4.如权利要求1所述的声纹识别系统的优化方法,其特征在于,所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤之后,还包括:
确定所述通量对应的欺骗结果,其中,所述欺骗结果包括欺骗成功和欺骗失败;
在所述欺骗结果为欺骗失败时,跳转执行所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤。
5.如权利要求1所述的声纹识别系统的优化方法,其特征在于,所述根据所述目标样本生成所述目标对象对应的通量的步骤包括:
当存在至少两个所述目标对象时,确定根据各个所述目标对象对应的所述目标样本生成与所述目标对象一一对应的通量;
所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤之后,还包括:
确定所述通量的扰动时长;
在所述扰动时长大于预设时长时,基于下一通量执行所述对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击的步骤。
6.如权利要求1所述的声纹识别系统的优化方法,其特征在于,所述在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统的步骤包括:
在检测到欺骗成功,基于扰动后所述通量,对所述声纹识别系统中,所述目标对象对应的所述声纹模型进行重新建模,以优化所述声纹识别系统。
7.如权利要求1所述的声纹识别系统的优化方法,其特征在于,采用无穷范数限制对所述通量的扰动大小。
8.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别系统的优化程序,所述声纹识别系统的优化程序被所述处理器执行时实现如权利要求1至7中任一项所述的声纹识别系统的优化方法的步骤。
9.一种终端设备,其特征在于,所述终端设备包括:
获取模块,用于获取待优化的声纹识别系统基于预设识别阈值识别出的目标对象对应的目标样本;
生成模块,用于根据所述目标样本生成所述目标对象对应的通量;
攻击模块,用于对所述通量进行空间扰动,并基于扰动后的所述通量对所述声纹识别系统进行欺骗攻击;
优化模块,用于在检测到欺骗成功时,基于扰动后的所述通量优化所述声纹识别系统。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有声纹识别系统的优化程序,所述声纹识别系统的优化程序被处理器执行时实现如权利要求1至7中任一项所述的声纹识别系统的优化方法的步骤。
CN202110508555.7A 2021-05-11 2021-05-11 声纹识别系统的优化方法、终端设备及存储介质 Pending CN115346532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110508555.7A CN115346532A (zh) 2021-05-11 2021-05-11 声纹识别系统的优化方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110508555.7A CN115346532A (zh) 2021-05-11 2021-05-11 声纹识别系统的优化方法、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN115346532A true CN115346532A (zh) 2022-11-15

Family

ID=83947361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110508555.7A Pending CN115346532A (zh) 2021-05-11 2021-05-11 声纹识别系统的优化方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN115346532A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072123A (zh) * 2023-03-06 2023-05-05 南昌航天广信科技有限责任公司 广播信息播放方法、装置、可读存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072123A (zh) * 2023-03-06 2023-05-05 南昌航天广信科技有限责任公司 广播信息播放方法、装置、可读存储介质及电子设备

Similar Documents

Publication Publication Date Title
Chen et al. Who is real bob? adversarial attacks on speaker recognition systems
US10685657B2 (en) Biometrics platform
Gałka et al. Playback attack detection for text-dependent speaker verification over telephone channels
US9571490B2 (en) Method and system for distinguishing humans from machines
Chen et al. Robust deep feature for spoofing detection—The SJTU system for ASVspoof 2015 challenge
WO2017215558A1 (zh) 一种声纹识别方法和装置
CA2736133C (en) Voice authentication system and methods
JP2023511104A (ja) ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
WO2010047816A1 (en) Speaker verification methods and apparatus
US20120239398A1 (en) Speaker verification methods and apparatus
US9430627B2 (en) Method and system for enforced biometric authentication
CN111835784B (zh) 用于重放攻击检测系统的数据泛化方法及系统
Tan et al. A survey on presentation attack detection for automatic speaker verification systems: State-of-the-art, taxonomy, issues and future direction
CN111863003B (zh) 语音数据增强方法和装置
CN110379433A (zh) 身份验证的方法、装置、计算机设备及存储介质
US20140163986A1 (en) Voice-based captcha method and apparatus
CN115346532A (zh) 声纹识别系统的优化方法、终端设备及存储介质
Mascia et al. Forensic and anti-forensic analysis of indoor/outdoor classifiers based on acoustic clues
Firc et al. The dawn of a text-dependent society: Deepfakes as a threat to speech verification systems
Yasur et al. Deepfake captcha: A method for preventing fake calls
CN112351047A (zh) 基于双引擎的声纹身份认证方法、装置、设备及存储介质
Ge et al. Data Poisoning and Backdoor Attacks on Audio Intelligence Systems
Kawa et al. Defense against adversarial attacks on audio deepfake detection
RU2747935C2 (ru) Способ и система аутентификации пользователя с помощью голосовой биометрии
CN115954007B (zh) 一种声纹检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination