CN114399005B - 一种活体检测模型的训练方法、装置、设备及存储介质 - Google Patents
一种活体检测模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114399005B CN114399005B CN202210232701.2A CN202210232701A CN114399005B CN 114399005 B CN114399005 B CN 114399005B CN 202210232701 A CN202210232701 A CN 202210232701A CN 114399005 B CN114399005 B CN 114399005B
- Authority
- CN
- China
- Prior art keywords
- audio
- feature extraction
- neural network
- loss value
- living body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 114
- 238000001514 detection method Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000013528 artificial neural network Methods 0.000 claims abstract description 187
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 180
- 238000000605 extraction Methods 0.000 claims abstract description 162
- 238000001727 in vivo Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 100
- 230000006870 function Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000001574 biopsy Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请公开了一种活体检测模型的训练方法、装置、设备及存储介质,涉及语音识别技术领域。该方法包括:获取用于模型训练的音频样本集;基于多种特征提取算法中的每种特征提取算法,分别提取音频样本集中的音频样本对应的多种第一音频特征;将音频样本输入至第一神经网络进行特征提取,得到音频样本对应的第二音频特征;将音频样本对应的第二音频特征输入至第二神经网络,得到音频样本对应的识别结果;基于识别结果、多种第一音频特征以及第二音频特征,对第一神经网络以及第二神经网络进行迭代训练,直至第一神经网络以及第二神经网络满足预设条件,得到训练后的活体检测模型。如此,提高了活体检测模型的泛化能力和语音鉴别的准确性。
Description
技术领域
本申请涉及语音识别技术领域,更具体地,涉及一种活体检测模型的训练方法、装置、设备及存储介质。
背景技术
随着语音信号处理技术的不断发展,利用说话人语音信号进行身份认证的系统在诸多行业得到了广泛的应用。在利用说话人语音信号进行身份认证存在较大的安全隐患,其中的安全隐患包括,利用合成语音冒充说话人语音。因此,如何鉴别合成语音和自然人声是消除安全隐患的关键。
基于此,通常使用预先训练的活体检测模型对待检测语音进行检测,鉴别待检测语音是否为真人发出的语音,而非是合成语音或回放录音。但是,在相关技术中的活体检测模型的泛化能力较差,进而导致语音鉴别的准确率较差。
发明内容
有鉴于此,本申请提出了一种活体检测模型的训练方法、装置、设备及存储介质。
第一方面,本申请实施例提供了一种活体检测模型的训练方法,所述活体检测模型包括第一神经网络以及第二神经网络,所述方法包括:获取用于模型训练的音频样本集,所述音频样本集包括标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签;基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征;将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征;将所述音频样本对应的第二音频特征输入至第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音;基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
第二方面,本申请实施例提供了一种活体检测模型的训练装置,所述活体检测模型包括第一神经网络以及第二神经网络,所述装置包括:音频样本获取模块、第一特征提取模块、第二特征提取模块、识别模块以及模型训练模块。音频样本获取模块,用于获取用于模型训练的音频样本集,所述音频样本集包括标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签;第一特征提取模块,用于基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征;第二特征提取模块,用于将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征;识别模块,用于将所述音频样本对应的第二音频特征输入至第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音;模型训练模块,用于基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
第三方面,本申请实施例提供了一种计算机设备,包括:一个或多个处理器;存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。
本申请提供的方案中,获取用于模型训练的音频样本集,其中,音频样本集包括标注有标签信息的音频样本,标签信息为活体标签或非活体标签;基于多种特征提取算法中的每种特征提取算法,分别提取音频样本集中的音频样本的音频特征,得到音频样本对应的多种第一音频特征;将音频样本输入至第一神经网络进行特征提取,得到音频样本对应的第二音频特征;将音频样本对应的第二音频特征输入至第二神经网络,得到音频样本对应的识别结果,识别结果用于表征音频样本是否为真人发出的语音;基于音频样本对应的识别结果、多种第一音频特征以及第二音频特征,对第一神经网络以及第二神经网络进行迭代训练,直至第一神经网络以及第二神经网络满足预设条件,得到训练后的活体检测模型。如此,使得训练后的活体检测模型可以使用训练后的第一神经网络提取音频特征,取代了传统的固定特征,避免了人工分析和选择特征计算方法的局限性,也省去了提前计算并存储特征的过程,模型可以根据训练数据学习到更适配的特征,同时使得模型学到的特征可以包含多种指导特征的信息,在不同的任务中都有更好的适应性,提高了活体检测模型的泛化能力;并且,第二神经网络可以基于由第一神经网络提取到的包含更全面信息的音频特征进行活体检测,可以更为准确地判别出音频是否为真人发出的语音,即提高了活体检测模型的语音鉴别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的活体检测模型的训练方法的应用场景的示意图。
图2示出了本申请一实施例提供的活体检测模型的训练方法的流程示意图。
图3示出了图2中步骤S205在一种实施方式中的子步骤流程示意图。
图4示出了图3中步骤S2051在一种实施方式中的子步骤流程示意图。
图5示出了本申请另一实施例提供的活体检测模型的训练方法的流程示意图。
图6示出了本申请另一实施例提供的活体检测模型的训练方法的流程示意图。
图7示出了本申请又一实施例提供的活体检测模型的训练方法的流程示意图。
图8示出了本申请再一实施例提供的活体检测模型的训练方法的流程示意图。
图9是根据本申请一实施例提供的一种活体检测模型的训练装置的框图。
图10是本申请实施例的用于执行根据本申请实施例的活体检测模型的训练方法的计算机设备的框图。
图11是本申请实施例的用于保存或者携带实现根据本申请实施例的活体检测模型的训练方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
活体检测模型是用于在身份验证的过程中判断待检测语音是否来自真人,目的是消除录音回放、人工合成语音等的干扰。
但是,在现有的活体检测模型训练过程中,活体检测模型的输入是固定的信号处理算法计算得到的语音特征。为了得到具有更好的准确性和泛化能力的声纹活体检测模型,需要对每个应用场景具体分析,选用最适合的特征算法,如此,需要为每一个活体检测任务训练单独的模型,模型不能广泛地复用,而且要求对信号处理有一定的了解;或者,训练多个模型进行融合,则会导致在实际应用中需要存储多个模型,并且每一次测试都需要计算所有模型的结果,消耗存储空间和更多的计算时间。
针对上述问题,发明人提出一种活体检测模型的训练方法、装置、设备及存储介质,基于多种特征提取算法,分别提取所述音频样本集中的音频样本对应的多种第一音频特征,通过第一神经网络提取音频样本对应的第二音频特征以及通过第二神经网络识别第二音频特征,并基于识别结果、多种第一音频特征以及第二音频特征对第一神经网络和第二神经网络进行迭代训练,得到最终的活体检测模型。下面对该内容进行详细描述。
请参阅图1,图1为本申请一实施例提供的一种活体检测模型的训练方法的应用场景的示意图,该应用场景包括活体检测模型的训练系统10。其中,活体检测模型的训练系统10包括计算机设备110和音频样本集120,该计算机设备110可以是具有数据处理功能的电子终端,该电子终端包括但不限于智能手机、平板电脑以及笔记本电脑等;当然,该计算机设备也可以是服务器,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。音频样本集120可以是计算机设备110从本地数据库中直接获取预存的样本音频数据集,也可以从通过有线或无线网络从网络数据库中下载所需的样本音频数据集,当然,其他方式的样本音频数据集获取方式也在本申请的保护范围内,在此不再具体进行限定。
在一些实施方式中,计算机设备110可以获取用于模型训练的音频样本集120,其中,音频样本集120包括标注有标签信息的音频样本,标签信息为活体标签或非活体标签;基于多种特征提取算法中的每种特征提取算法,分别提取音频样本集120中的音频样本的音频特征,得到音频样本对应的多种第一音频特征;将音频样本输入至第一神经网络进行特征提取,得到音频样本对应的第二音频特征;将音频样本对应的第二音频特征输入至第二神经网络,得到音频样本对应的识别结果,识别结果用于表征音频样本是否为真人发出的语音;基于音频样本对应的识别结果、多种第一音频特征以及第二音频特征,对第一神经网络以及第二神经网络进行迭代训练,直至第一神经网络以及第二神经网络满足预设条件,得到训练后的活体检测模型。
请参照图2,图2为本申请一实施例提供的一种活体检测模型的训练方法的流程示意图,所述活体检测模型包括第一神经网络以及第二神经网络。下面将结合图2对本申请实施例提供的活体检测模型的训练方法进行详细阐述。该活体检测模型的训练方法可以包括以下步骤:
步骤S201:获取用于模型训练的音频样本集,所述音频样本集包括标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签。
在本实施例中,获取的用于模型训练的音频样本集中的音频样本上标注有标签信息,其中,标签信息为活体标签或非活体标签,活体标签用于表征该音频是真人发出的语音,对应地,将标注有活体标签的音频样本作为正样本;非活体标签用于保证该音频为非真人发出的语音,例如合成语音或录音等,因此,将标注有非活体标签的音频样本作为负样本。也就是说,音频样本集中同时包含正样本集和负样本集,使得在使用音频样本集训练后的模型可以准确地鉴别出待识别音频为真人发出的语音,还是为非真人发出的语音。音频样本集可以是仅包含一种应用场景下的音频样本基,也可以是包含多种应用场景下的音频样本,本实施例对此不作限制。
步骤S202:基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
在本实施例中,为提高最终训练得到的活体检测模型的泛化能力,可以使用多种特征提取算法,对音频样本集中的音频样本进行特征提取。不同的特征提取算法提取出的音频特征的种类不同,可以理解地,不同种类的音频特征中包含的信息的角度也不同。
其中,多种特征提取算法可以是预先设置的多种信号处理算法,例如,梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)算法、滤波器组(Filter bank,FBANK)算法、横Q变换(constant-Q transform,CQT)算法、线性预测倒谱系数(LinearPredic TIve Cepstral Coefficient,LPCC)算法、感知线性预测系数(Perceptual LinearPredicTIve,PLP)算法、线性预测分析(Linear Prediction Coefficients,LPC)算法等,本实施例对此不作限制。
示例性地,以多种特征提取算法包括有MFCC算法、FBANK算法、CQT算法、LPCC算法、PLP算法、LPC算法为例,基于多种特征提取算法中的每种特征提取算法,分别提取音频样本集中的音频样本的音频特征,得到音频样本对应的多种第一音频特征,该多种第一音频特征包含MFCC特征、FBANK特征、CQT特征、LPCC特征、PLP特征以及LPC特征。
在一些实施方式中,可以直接将音频样本集中的所有音频样本送入模型,进行模型训练,如此,可以提高模型训练的速度。对应地,则基于每种特征提取算法,提取音频样本集中的每个音频样本的音频特征,得到每个音频样本对应的多种第一音频特征。
在另一些实施方式中,还可以分批进行模型训练,具体地,对音频样本集中的音频样本进行分组,得到多个样本子集,每个样本子集中包括目标数量的音频样本;每次将任一样本子集输入模型,进行模型训练,直至使用每个样本子集完成多轮模型训练。其中,可以对每轮模型训练的参数信息进行更新,使得训练得到的活体检测模型的准确率更高。对应地,基于每种特征提取算法,提取多个样本子集中任一样本子集中的每个音频样本的音频特征,得到任一样本子集中每个音频样本对应的多种第一音频特征。
步骤S203:将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征。
在本实施例中,第一神经网络可以理解为活体检测模型中的特征提取模块,第二神经网络可以理解为活体检测模型中的判别模块,通过音频样本集训练活体检测模型,即为通过音频样本集训练第一神经网络以及第二神经网络,使得第一神经网络可以提取到更为准确且全面的音频特征,同时使第二神经网络可以基于第一神经网络提取到的音频特征,准确地判别音频是否为真人发出的语音。
其中,第一神经网络包括但不限于前馈神经网络(feedforward neural network,FF)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-TermMemory,LSTM) 、深度残差网络(Deep Residual Network,DRN) 等神经网络。
步骤S204:将所述音频样本对应的第二音频特征输入至第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音。
基于此,在获取到音频样本对应的第二音频特征后,将第二音频特征输入至第二神经网络,由第二神经网络基于该第二音频特征判别其对应的音频样本是否为真人发出的语音,得到音频样本对应的识别结果。可以理解地,将第二神经网络作为分类网络,即根据输入的第二音频特征,对其对应的音频样本进行分类。其中,可以用于分类的神经网络均可以作为上述第二神经网络,在此不再具体进行限定。
步骤S205:基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
在本实施例中,可以将多种第一音频特征作为模型训练过程中的指导特征,使得第一神经网络可以基于指导特征,更好得学习提取到音频中更为全面且准确的音频特征,即通过多种第一音频特征以及第二音频特征,实现对第一神经网络的训练;同时第二神经网络又可以基于第一神经网络所提取的特征,进行语音鉴别,得到对应的识别结果,并基于该识别结果,实现对第二神经网络的训练。也就是说,同时对第一神经网络和第二神经网络进行训练,第一神经网络的输出与第二神经网络的识别结果之间相互作用,相辅相成,进而使得训练出的活体检测模型的语音鉴别的准确性更高。
在一些实施方式中,请参阅图3,步骤S205可以包括以下步骤:
步骤S2051:基于所述识别结果、所述标签信息、所述多种第一音频特征以及所述第二音频特征,获取总损失值。
在一些实施方式中,请参阅图4,步骤S2051可以包括以下步骤:
步骤S2051-1:根据所述识别结果与所述标签信息之间的差异,确定第一损失值。
在本实施例中,可以通过交叉熵损失函数来计算识别结果与标签信息之间的差异,得到第一损失值。具体地,基于交叉熵损失函数,获取识别结果中活体标签的分布概率与音频样本集中活体标签的分布概率之间的差异,作为第一损失值。其中,第一损失值越小,表征识别结果与标签信息之间的差异越小,即语音鉴别的准确率越高。
步骤S2051-2:根据所述第二音频特征与所述多种第一音频特征中每种第一音频特征之间的差异,确定与所述每种第一音频特征对应的第二损失值,得到多个第二损失值。
在本实施例中,可以通过差异衡量函数来计算第二音频特征与多种第一音频特征中每种第一音频特征之间的差异,以获取每种第一音频特征对应的第二损失值,得到多个第二损失值。其中,差异衡量函数包括但不限于标量积以及欧几里得范数,其他可以用于计算向量之间相似度的函数均用作差异衡量函数也在本申请的保护范围内,在此不再具体进行限定。
在一些实施方式中,若使用标量积函数作为差异衡量函数,计算第二损失值的公式可以表示为:
D(f_X, F_X)= f_X * F_X
在另一些实施方式中,若使用欧几里得范数作为差异衡量函数,计算第二损失值的公式可以表示为:
D(MFCC_X, F_X)= ||MFCC_X , F_X||
其中,前述实施方式中的F_X代表第二音频特征,f_X代表第一音频特征,D(f_X, F_X)代表第一音频特征对应的第二损失值。
步骤S2051-3:根据所述第一损失值以及所述多个第二损失值,确定所述总损失值。
在本实施例中,由于要同时训练第一神经网络和第二神经网络,因此,可以获取由第一神经网络提取音频特征所带来的差异损失值与第二神经网络的判别损失值,作为模型训练过程中的总损失值。
在一些实施方式中,可以直接获取第一损失值与多个第二损失值的和值,作为总损失值。
在另一些实施方式中,还可以基于第一损失值的权重以及每个第二损失值的权重,对第一损失值以及多个第二损失值加权求和,得到总损失值。
在又一些实施方式中,还可以基于每个第二损失值的权重,对多个第二损失值进行加权求和,得到第三损失值;在获取第一损失值与第三损失值的和值,作为总损失值。
其中,第一损失值的权重以及每个第二损失值的权重可以是预先设置的数值,当然,也可以根据不同的应用场景,对其数值进行调整,本实施例对此不作限制。
步骤S2052:根据所述总损失值,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足所述预设条件,得到训练后的所述活体检测模型。
在本实施例中,预设条件可以为:总损失值小于预设值、总损失值不再变化、或者训练次数达到预设次数等。可以理解的,在根据音频样本集对第一神经网络以及第二神经网络进行多个训练周期的迭代训练后,其中,每个训练周期包括多次的迭代训练,不断对第一神经网络以及第二神经网络中的参数进行优化,使得上述总损失值越来越小,最后变小为一个固定值,或者小于预设值,此时,则表示第一神经网络以及第二神经网络已收敛;当然也可以是在训练次数达到预设次数后,确定第一神经网络以及第二神经网络已经收敛,此时,则可以将第一神经网络以及第二神经网络,作为上述活体检测模型。其中,预设值以及预设次数均为预先设置的,也可以根据不同的应用场景对其数值进行调整,本实施例对此不作限制。
在本实施例中,基于多种特征提取算法中的每种特征提取算法,分别提取音频样本集中的音频样本的音频特征,得到音频样本对应的多种第一音频特征;将音频样本输入至第一神经网络进行特征提取,得到音频样本对应的第二音频特征;将音频样本对应的第二音频特征输入至第二神经网络,得到音频样本对应的识别结果,识别结果用于表征音频样本是否为真人发出的语音;基于音频样本对应的识别结果、多种第一音频特征以及第二音频特征,对第一神经网络以及第二神经网络进行迭代训练,直至第一神经网络以及第二神经网络满足预设条件,得到训练后的活体检测模型。如此,使得训练后的活体检测模型可以使用训练后的第一神经网络提取音频特征,取代了传统的固定特征,避免了人工分析和选择特征计算方法的局限性,也省去了提前计算并存储特征的过程,模型可以根据训练数据学习到更适配的特征,同时使得模型学到的特征可以包含多种指导特征的信息,在不同的任务中都有更好的适应性,提高了活体检测模型的泛化能力;并且,第二神经网络可以基于由第一神经网络提取到的包含更全面信息的音频特征进行活体检测,可以更为准确地判别出音频是否为真人发出的语音,即提高了活体检测模型的语音鉴别的准确性。
请参照图5,图5为本申请另一实施例提供的一种活体检测模型的训练方法的流程示意图,所述活体检测模型包括第一神经网络以及第二神经网络。下面将结合图5对本申请实施例提供的活体检测模型的训练方法进行详细阐述。该活体检测模型的训练方法可以包括以下步骤:
步骤S301:获取用于模型训练的音频样本集,所述音频样本集包括多种应用场景下的标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签。
步骤S302:基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
步骤S303:将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征。
步骤S304:将所述音频样本对应的第二音频特征输入至第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音。
在本实施例中,步骤S301至步骤S304的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
步骤S305:获取与每种特征提取算法所匹配的应用场景的场景数量,得到所述每种特征提取算法的使用频次。
在本实施例中,为保证训练后的活体检测模型可以在面对不同应用场景下的音频时,均能保证较好的语音鉴别性能,因此,音频样本集可以为包括多种应用场景下的音频样本。对每种应用场景下的音频样本进行分析,所使用的特征提取算法可能相同,也可能不同,因此,可以获取与每种特征提取算法所匹配的应用场景的场景数量,得到每种特征提取算法的使用频次。可以理解地,使用频次越高的特征算法,表征在对大部分的应用场景下的音频进行分析时,均是使用的该频次越高的特征算法。
步骤S306:基于所述每种特征提取算法的使用频次,确定在多种特征提取算法中所述每种特征提取算法的使用占比。
基于此,在获取到每种特征提取算法的使用频次之后,可以基于使用频次,确定在多种特征提取算法中每种特征提取算法的使用占比。
示例性地,多种特征提取算法包括CQT算法、MFCC算法以及FBANK算法,CQT算法的使用频次为10次,MFCC算法的使用频次为70次,FBANK的使用频次为20次。可以确定出MFCC算法的使用占比为70%,CQT算法的使用占比为10%,FBANK算法的使用占比为70%,
步骤S307:基于所述每种特征提取算法的使用占比,确定所述多个第二损失值中每个第二损失值对应的权重。
进一步地,根据每种特征提取算法的使用占比,确定多个第二损失值中每个第二损失值对应的权重,可以为使用占比越高的特征提取算法所分配的权重更大,以使训练后的第一神经网络提取出的音频特征,包含更多的基于使用占比越高的特征提取算法所提取出的特征中的信息。具体地,可以直接将每种特征提取算法的使用占比,作为对应的每个第二损失值对应的权重。
步骤S308:根据所述每个第二损失值对应的权重,对所述多个第二损失值进行加权求和,得到第三损失值。
基于此,在确定出每个第二损失值对应的权重后,则根据每个第二损失值对应的权重,对多个第二损失值进行加权求和,得到第三损失值。
示例性地,多种特征提取算法包括CQT算法、MFCC算法以及FBANK算法,与MFCC算法对应的第二损失值的权重λ1,与FBANK算法对应的第二损失值的权重为λ2,与CQT算法对应的第二损失值的权重为λ3。计算第三损失值的公式可以表示为:
LOSS3=λ
1*
LOSS_MFCC+ λ
2*
LOSS_FBANK+ λ
3*
LOSS_CQT
其中,LOSS3代表第三损失值,LOSS_MFCC代表与MFCC算法对应的第二损失值,LOSS_FBANK代表与FBANK算法对应的第二损失值,LOSS_CQT代表与CQT算法对应的第二损失值。
步骤S309:获取所述第三损失值与所述第一损失值的和值,作为总损失值。
步骤S310:根据所述总损失值,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足所述预设条件,得到训练后的所述活体检测模型根据所述总损失值,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足所述预设条件,得到训练后的所述活体检测模型。
在本实施例中,步骤S310的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
在本实施例中,根据每种特征提取算法的使用占比,确定每个第二损失值的权重,其中,每个第二损失值的权重与其对应的特征提取算法的使用占比呈正相关。如此,使训练后的第一神经网络提取出的音频特征,包含更多的基于使用占比越高的特征提取算法所提取出的特征中的信息;进而使得模型在学到包含多种指导特征的信息的前提下,尽可能多的使提取的音频特征包含现实环境中使用较多的类型的音频特征中的信息,即同时保证了训练后的模型的识别准确率以及普适性。
请参照图6,图6为本申请另一实施例提供的一种活体检测模型的训练方法的流程示意图,所述活体检测模型包括第一神经网络以及第二神经网络。下面将结合图6对本申请实施例提供的活体检测模型的训练方法进行详细阐述。该活体检测模型的训练方法可以包括以下步骤:
步骤S401:获取用于模型训练的音频样本集,所述音频样本集包括多种应用场景下的标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签。
在本实施例中,步骤S401的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
步骤S402:从多种预设算法中获取与所述多种应用场景中每种应用场景所匹配的至少一种所述预设算法,得到所述多种特征提取算法。
在本实施例中,多种预设算法可以是预先设置的多种信号处理算法,具体所包含的算法可以参阅前述实施例中的内容,在此不再赘述。基于此,可以获取音频样本集中所包含的所有应用场景,进而再从前述多种预设算法中,筛选出与每种应用场景所匹配的预设算法,得到多种特征提取算法。其中,由于针对同一应用场景下的音频,可以使用多种预设算法,因此,获取到的与每种应用场景所匹配的预设算法的数量可以一种,也可以是多种,本实施例对此不作限制。
步骤S403:基于所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
步骤S404:将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征。
步骤S405:将所述音频样本对应的第二音频特征输入至第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音。
步骤S406:基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
在本实施例中,步骤S403至步骤S406的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
在本实施例中,并非直接基于预先设置的所有信号处理算法,来提取音频样本对应的多种第一音频特征,而是先基于音频样本集中所包含的应用场景,自动筛选出符合应用场景的特征提取算法,再提取音频样本对应的多种第一音频特征。如此,筛选出符合现实环境中多种应用场景的多种特征提取算法,来提取音频样本对应的多种第一音频特征,可以避免因预设的多种信号处理算法过多,导致模型训练训练时间过长等问题的发生;同时,也使得训练后的模型可以学习到更适配的音频特征,提高了活体检测模型的语音鉴别准确性,同时也保证了该活体检测模型在不同应用场景下的任务中有更好的适应性,即提高了活体检测模型的普适性。
请参照图7,图7为本申请又一实施例提供的一种活体检测模型的训练方法的流程示意图,所述活体检测模型包括第一神经网络以及第二神经网络。下面将结合图7对本申请实施例提供的活体检测模型的训练方法进行详细阐述。该活体检测模型的训练方法可以包括以下步骤:
步骤S501:获取用于模型训练的音频样本集,所述音频样本集包括多种应用场景下的标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签。
步骤S502:从多种预设算法中获取与所述多种应用场景中每种应用场景所匹配的至少一种所述预设算法,得到所述多种特征提取算法。
步骤S503:获取所述多种特征提取算法中每种特征提取算法所匹配的应用场景的场景数量。
在本实施例中,步骤S501至步骤S503的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
步骤S504:获取所述场景数量小于预设阈值的特征提取算法,作为目标特征提取算法。
在本实施例中,在获取到每种特征提取算法所匹配的应用场景的场景数量之后,可以进一步判断是否存在场景数量小于预设阈值的特征提取算法,若存在,则获取场景数量小于预设阈值的特征提取算法,作为目标特征提取算法。其中,预设阈值可以是预先设置的数值,例如2或3,当然,也可以根据需求的不同对该数值进行调整,本实施例对此不作限制。
步骤S505:基于剔除所述目标特征提取算法后的所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
进一步地,当场景数量小于预设阈值时,表征该场景数量对应的特征提取算法在数量庞大的音频样本集中所使用的频次非常少,即该特征提取算法对第一神经网络的训练的贡献并不大,因此,可以将目标特征提取算法从多种特征提取算法中剔除,再基于剔除目标特征提取算法后的多种特征提取算法中的每种特征提取算法,分别提取音频样本集中的音频样本的音频特征,得到音频样本对应的多种第一音频特征。如此,减少了对第一神经网络训练贡献作用不大的第一音频特征,提高了模型训练速度,减少了模型训练时间以及所使用的计算机资源。
步骤S506:将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征。
步骤S507:将所述音频样本对应的第二音频特征输入至第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音。
步骤S508:基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
在本实施例中,步骤S506至步骤S508的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
在本实施例中,将在所有应用场景中使用数量最少的目标特征提取算法进行剔除,以减少了对第一神经网络训练贡献作用不大的第一音频特征,提高了模型训练速度,减少了模型训练时间以及所使用的计算机资源,同时,也保证了该活体检测模型在不同应用场景下的活体检测任务中的准确性以及普适性。
请参照图8,图8为本申请再一实施例提供的一种活体检测模型的训练方法的流程示意图,所述活体检测模型包括第一神经网络以及第二神经网络。下面将结合图8对本申请实施例提供的活体检测模型的训练方法进行详细阐述。该活体检测模型的训练方法可以包括以下步骤:
步骤S601:获取用于模型训练的音频样本集,所述音频样本集包括标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签。
步骤S602:基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
步骤S603:将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征。
步骤S604:将所述音频样本对应的第二音频特征输入至第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音。
步骤S605:基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
在本实施例中,步骤S601至步骤S605的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
步骤S606:获取待检测音频。
在本实施例中,待检测音频可以通过计算机设备自身配置的音频采集设备采集的音频,也可以是接收由外置音频采集装置所采集并发送的音频,还可以是利用有线或无线通信方式,从网络数据库下载的音频,本实施例对此不作限制。
步骤S607:将所述待检测音频输入至训练后的所述活体检测模型中的第一神经网络进行特征提取,得到第三音频特征。
步骤S608:将所述第三音频特征输入至训练后的所述活体检测模型中的第二神经网络,得到所述待检测音频的识别结果。
基于此,在获取到待检测音频后,将待检测音频输入至训练后的活体检测模型中的第一神经网络中进行特征提取,得到包含信息更为全面的第三音频特征;再将第三音频特征输入至训练后的活体检测模型中的第二神经网络,得到待检测音频的识别结果。
上述实施例中,使活体检测模型中的第二神经网络基于更全面的第三音频特征对待检测音频进行活体检测,提高了活体检测的准确性;并且,由于第一神经网络所提取的特征包含了多种指导特征的信息,因此,在不同应用场景下的待检测音频均有更好的活体检测准确性。
请参照图9,其中示出了本申请一实施例提供的一种活体检测模型的训练装置700的结构框图。该装置700可以包括:音频样本获取模块710、第一特征提取模块720、第二特征提取模块730、识别模块740和模型训练模块750。
音频样本获取模块710用于获取用于模型训练的音频样本集,所述音频样本集包括标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签。
第一特征提取模块720用于基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
第二特征提取模块730用于将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征。
识别模块740用于将所述音频样本对应的第二音频特征输入至第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音。
模型训练模块750用于基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
在一些实施方式中,模型训练模块750可以包括:损失值获取单元以及迭代训练单元。其中,损失值获取单元可以用于基于所述识别结果、所述标签信息、所述多种第一音频特征以及所述第二音频特征,获取总损失值。迭代训练单元可以用于根据所述总损失值,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足所述预设条件,得到训练后的所述活体检测模型。
在该方式下,损失值获取单元可以包括:第一损失值获取子单元、第二损失值获取子单元以及总损失值获取子单元。其中,第一损失值获取子单元可以用于根据所述识别结果与所述标签信息之间的差异,确定第一损失值。第二损失值获取子单元可以用于根据所述第二音频特征与所述多种第一音频特征中每种第一音频特征之间的差异,确定与所述每种第一音频特征对应的第二损失值,得到多个第二损失值。总损失值获取子单元可以用于根据所述第一损失值以及所述多个第二损失值,确定所述总损失值。
在一些实施方式中,所述音频样本集中包括多种应用场景下的音频样本,活体检测模型的训练装置700还可以包括:权重获取模块。其中,权重获取模块可以用于在所述根据所述第一损失值以及所述多个第二损失值,确定所述总损失值之前,获取与每种特征提取算法所匹配的应用场景的场景数量,得到所述每种特征提取算法的使用频次;基于所述每种特征提取算法的使用频次,确定在多种特征提取算法中所述每种特征提取算法的使用占比;基于所述每种特征提取算法的使用占比,确定所述多个第二损失值中每个第二损失值对应的权重。
在该方式下,总损失值获取子单元可以具体用于:根据所述每个第二损失值对应的权重,对所述多个第二损失值进行加权求和,得到第三损失值;获取所述第三损失值与所述第一损失值的和值,作为所述总损失值。
在一些实施方式中,所述音频样本集中包括多种应用场景下的音频样本,第一特征提取模块720可以包括:特征算法确定单元以及第一特征提取单元。其中,特征算法确定单元可以用于从多种预设算法中获取与所述多种应用场景中每种应用场景所匹配的至少一种所述预设算法,得到所述多种特征提取算法。第一特征提取单元可以用于基于所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
在该方式下,活体检测模型的训练装置700还可以包括:目标算法确定模块。其中,目标算法确定模块可以具体用于在所述基于所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征之前,获取所述多种特征提取算法中每种特征提取算法所匹配的应用场景的场景数量;获取所述场景数量小于预设阈值的特征提取算法,作为目标特征提取算法。第一特征提取单元可以具体用于基于剔除所述目标特征提取算法后的所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
在一些实施方式中,活体检测模型的训练装置700还可以包括:待检测音频获取模块、第三特征提取模块以及识别模块。其中,待检测音频获取模块可以用于在所述得到训练后的所述活体检测模型之后,获取待检测音频。第三特征提取模块可以用于将所述待检测音频输入至训练后的所述活体检测模型中的第一神经网络进行特征提取,得到第三音频特征。识别模块可以用于将所述第三音频特征输入至训练后的所述活体检测模型中的第二神经网络,得到所述待检测音频的识别结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
综上所述,本申请实施例提供的方案中,获取用于模型训练的音频样本集,其中,音频样本集包括标注有标签信息的音频样本,标签信息为活体标签或非活体标签;基于多种特征提取算法中的每种特征提取算法,分别提取音频样本集中的音频样本的音频特征,得到音频样本对应的多种第一音频特征;将音频样本输入至第一神经网络进行特征提取,得到音频样本对应的第二音频特征;将音频样本对应的第二音频特征输入至第二神经网络,得到音频样本对应的识别结果,识别结果用于表征音频样本是否为真人发出的语音;基于音频样本对应的识别结果、多种第一音频特征以及第二音频特征,对第一神经网络以及第二神经网络进行迭代训练,直至第一神经网络以及第二神经网络满足预设条件,得到训练后的活体检测模型。如此,使得训练后的活体检测模型可以使用训练后的第一神经网络提取音频特征,取代了传统的固定特征,避免了人工分析和选择特征计算方法的局限性,也省去了提前计算并存储特征的过程,模型可以根据训练数据学习到更适配的特征,同时使得模型学到的特征可以包含多种指导特征的信息,在不同的任务中都有更好的适应性;并且,第二神经网络可以基于由第一神经网络提取到的包含更全面信息的音频特征进行活体检测,可以更为准确地判别出音频是否为真人发出的语音,即提高了活体检测模型的语音鉴别的准确性。
下面将结合图10对本申请提供的一种计算机设备进行说明。
参照图10,图10示出了本申请实施例提供的一种计算机设备800的结构框图,本申请实施例提供的上述方法可以由该计算机设备800执行。其中,计算机设备800可以是智能手机、平板电脑、智能手表、笔记本电脑、台式电脑、服务器、录音笔等能够运行应用程序的设备。
本申请实施例中的计算机设备800可以包括一个或多个如下部件:处理器801、存储器802、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器802中并被配置为由一个或多个处理器801执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器801可以包括一个或者多个处理核。处理器801利用各种接口和线路连接整个计算机设备800内的各个部分,通过运行或执行存储在存储器802内的指令、程序、代码集或指令集,以及调用存储在存储器802内的数据,执行计算机设备800的各种功能和处理数据。可选地,处理器801可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器601可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以集成到处理器801中,单独通过一块通信芯片进行实现。
存储器802可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器802可用于存储指令、程序、代码、代码集或指令集。存储器802可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备800在使用中所创建的数据(比如上述的各种对应关系)等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参考图11,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质900中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质900包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (7)
1.一种活体检测模型的训练方法,其特征在于,所述活体检测模型包括第一神经网络以及第二神经网络,所述方法包括:
获取用于模型训练的音频样本集,所述音频样本集包括标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签,所述音频样本集中包括多种应用场景下的音频样本;
基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征;
将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征;
将所述音频样本对应的第二音频特征输入至所述第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音;
根据所述识别结果与所述标签信息之间的差异,确定第一损失值;
根据所述第二音频特征与所述多种第一音频特征中每种第一音频特征之间的差异,确定与所述每种第一音频特征对应的第二损失值,得到多个第二损失值;
获取与每种特征提取算法所匹配的应用场景的场景数量,得到所述每种特征提取算法的使用频次;
基于所述每种特征提取算法的使用频次,确定在多种特征提取算法中所述每种特征提取算法的使用占比;
基于所述每种特征提取算法的使用占比,确定所述多个第二损失值中每个第二损失值对应的权重;
根据所述每个第二损失值对应的权重,对所述多个第二损失值进行加权求和,得到第三损失值;
获取所述第三损失值与所述第一损失值的和值,作为总损失值;
根据所述总损失值,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
2.根据权利要求1所述的方法,其特征在于,所述基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征,包括:
从多种预设算法中获取与所述多种应用场景中每种应用场景所匹配的至少一种所述预设算法,得到所述多种特征提取算法;
基于所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
3.根据权利要求2所述的方法,其特征在于,在所述基于所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征之前,所述方法还包括:
获取所述多种特征提取算法中每种特征提取算法所匹配的应用场景的场景数量;
获取所述场景数量小于预设阈值的特征提取算法,作为目标特征提取算法;
所述基于所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征,包括:
基于剔除所述目标特征提取算法后的所述多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述得到训练后的所述活体检测模型之后,所述方法还包括:
获取待检测音频;
将所述待检测音频输入至训练后的所述活体检测模型中的第一神经网络进行特征提取,得到第三音频特征;
将所述第三音频特征输入至训练后的所述活体检测模型中的第二神经网络,得到所述待检测音频的识别结果。
5.一种活体检测模型的训练装置,其特征在于,所述活体检测模型包括第一神经网络以及第二神经网络,所述装置包括:
音频样本获取模块,用于获取用于模型训练的音频样本集,所述音频样本集包括标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签,所述音频样本集中包括多种应用场景下的音频样本;
第一特征提取模块,用于基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征;
第二特征提取模块,用于将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征;
识别模块,用于将所述音频样本对应的第二音频特征输入至所述第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音;
模型训练模块,用于根据所述识别结果与所述标签信息之间的差异,确定第一损失值;根据所述第二音频特征与所述多种第一音频特征中每种第一音频特征之间的差异,确定与所述每种第一音频特征对应的第二损失值,得到多个第二损失值;获取与每种特征提取算法所匹配的应用场景的场景数量,得到所述每种特征提取算法的使用频次;基于所述每种特征提取算法的使用频次,确定在多种特征提取算法中所述每种特征提取算法的使用占比;基于所述每种特征提取算法的使用占比,确定所述多个第二损失值中每个第二损失值对应的权重;根据所述每个第二损失值对应的权重,对所述多个第二损失值进行加权求和,得到第三损失值;获取所述第三损失值与所述第一损失值的和值,作为总损失值;根据所述总损失值,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。
6.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-4中任意一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-4中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210232701.2A CN114399005B (zh) | 2022-03-10 | 2022-03-10 | 一种活体检测模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210232701.2A CN114399005B (zh) | 2022-03-10 | 2022-03-10 | 一种活体检测模型的训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114399005A CN114399005A (zh) | 2022-04-26 |
CN114399005B true CN114399005B (zh) | 2022-07-12 |
Family
ID=81234659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210232701.2A Active CN114399005B (zh) | 2022-03-10 | 2022-03-10 | 一种活体检测模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399005B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346089A (zh) * | 2018-09-27 | 2019-02-15 | 深圳市声扬科技有限公司 | 活体身份认证方法、装置、计算机设备和可读存储介质 |
CN109858381A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 活体检测方法、装置、计算机设备和存储介质 |
CN111291755A (zh) * | 2020-02-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质 |
CN111414858A (zh) * | 2020-03-19 | 2020-07-14 | 北京迈格威科技有限公司 | 人脸识别方法、目标图像的确定方法、装置和电子系统 |
WO2020245447A1 (en) * | 2019-06-07 | 2020-12-10 | Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) | Method and device for imaging fluorescent proteins in near- and short-wave infrared |
CN113033519A (zh) * | 2021-05-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 活体检测方法、估算网络处理方法、装置和计算机设备 |
CN113593611A (zh) * | 2021-07-26 | 2021-11-02 | 平安科技(深圳)有限公司 | 语音分类网络训练方法、装置、计算设备及存储介质 |
CN113643706A (zh) * | 2021-07-14 | 2021-11-12 | 深圳市声扬科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN114120454A (zh) * | 2021-11-29 | 2022-03-01 | 北京百度网讯科技有限公司 | 活体检测模型的训练方法、装置、电子设备及存储介质 |
CN114400019A (zh) * | 2021-12-31 | 2022-04-26 | 深圳市声扬科技有限公司 | 模型生成方法、异常检测方法、装置以及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7148737B2 (ja) * | 2020-03-24 | 2022-10-05 | 楽天グループ株式会社 | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 |
CN111179975B (zh) * | 2020-04-14 | 2020-08-04 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
CN111667835A (zh) * | 2020-06-01 | 2020-09-15 | 马上消费金融股份有限公司 | 语音识别方法、活体检测方法、模型训练方法及装置 |
CN113851147A (zh) * | 2021-10-19 | 2021-12-28 | 北京百度网讯科技有限公司 | 音频识别方法、音频识别模型训练方法、装置、电子设备 |
-
2022
- 2022-03-10 CN CN202210232701.2A patent/CN114399005B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346089A (zh) * | 2018-09-27 | 2019-02-15 | 深圳市声扬科技有限公司 | 活体身份认证方法、装置、计算机设备和可读存储介质 |
CN109858381A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 活体检测方法、装置、计算机设备和存储介质 |
WO2020245447A1 (en) * | 2019-06-07 | 2020-12-10 | Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) | Method and device for imaging fluorescent proteins in near- and short-wave infrared |
CN111291755A (zh) * | 2020-02-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质 |
CN111414858A (zh) * | 2020-03-19 | 2020-07-14 | 北京迈格威科技有限公司 | 人脸识别方法、目标图像的确定方法、装置和电子系统 |
CN113033519A (zh) * | 2021-05-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 活体检测方法、估算网络处理方法、装置和计算机设备 |
CN113643706A (zh) * | 2021-07-14 | 2021-11-12 | 深圳市声扬科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN113593611A (zh) * | 2021-07-26 | 2021-11-02 | 平安科技(深圳)有限公司 | 语音分类网络训练方法、装置、计算设备及存储介质 |
CN114120454A (zh) * | 2021-11-29 | 2022-03-01 | 北京百度网讯科技有限公司 | 活体检测模型的训练方法、装置、电子设备及存储介质 |
CN114400019A (zh) * | 2021-12-31 | 2022-04-26 | 深圳市声扬科技有限公司 | 模型生成方法、异常检测方法、装置以及电子设备 |
Non-Patent Citations (7)
Title |
---|
Mohammad I等.Enhanced Needle Detection in Ultrasound Images using Acoustic Excitation and Ultrasound Image Analyses.《2018 11th Biomedical Engineering International Conference (BMEiCON)》.2019,第1-5页. * |
rosenor1.特征提取的方法.《https://blog.csdn.net/rosenor1/article/details/52372788》.2016,第1页. * |
刘鸿玮.人脸检测和人脸识别原理 三元组损失 中心损失.《https://blog.csdn.net/lhwjgs123456789/article/details/115500441》.2021,第1页. * |
戚敏惠.基于深度卷积神经网络的声纹识别算法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2022,(第1期),第I136-519页. * |
晓飞的算法工程笔记.晓飞的算法工程笔记.《https://www.cnblogs.com/VincentLee/p/14985647.html》.2021,第1页. * |
李亚桐.身份信息采集和识别的新式"武器"——活体指纹采集技术的最新应用.《中国安防》.2009,(第4期),第58-61页. * |
苏春玲.音频事件检测算法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2015,(第5期),第I136-142页. * |
Also Published As
Publication number | Publication date |
---|---|
CN114399005A (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN112329619B (zh) | 一种人脸识别方法、装置、电子设备及可读存储介质 | |
CN110659582A (zh) | 图像转换模型训练方法、异质人脸识别方法、装置及设备 | |
CN108305615A (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
CN111081279A (zh) | 语音情绪波动分析方法及装置 | |
CN108874895B (zh) | 交互信息推送方法、装置、计算机设备及存储介质 | |
CN110418204B (zh) | 基于微表情的视频推荐方法、装置、设备和存储介质 | |
CN113035231B (zh) | 关键词检测方法及装置 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN110288085B (zh) | 一种数据处理方法、装置、系统及存储介质 | |
CN112259101B (zh) | 语音关键词识别方法、装置、计算机设备和存储介质 | |
CN112149754B (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN115171731A (zh) | 一种情绪类别确定方法、装置、设备及可读存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN113948090A (zh) | 语音检测方法、会话记录产品及计算机存储介质 | |
JPWO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
US10198613B2 (en) | Latent fingerprint pattern estimation | |
CN114399005B (zh) | 一种活体检测模型的训练方法、装置、设备及存储介质 | |
CN114171031A (zh) | 一种基于多任务学习和对抗训练的声纹识别模型训练方法 | |
CN114283791A (zh) | 一种基于高维声学特征的语音识别方法及模型训练方法 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
CN116486789A (zh) | 语音识别模型的生成方法、语音识别方法、装置及设备 | |
CN113628637A (zh) | 一种音频识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |