CN114120452A - 一种活体检测模型训练方法、装置、电子设备及存储介质 - Google Patents

一种活体检测模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114120452A
CN114120452A CN202111026802.6A CN202111026802A CN114120452A CN 114120452 A CN114120452 A CN 114120452A CN 202111026802 A CN202111026802 A CN 202111026802A CN 114120452 A CN114120452 A CN 114120452A
Authority
CN
China
Prior art keywords
training
data
living body
detection model
body detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111026802.6A
Other languages
English (en)
Inventor
张国生
王珂尧
冯浩城
岳海潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111026802.6A priority Critical patent/CN114120452A/zh
Publication of CN114120452A publication Critical patent/CN114120452A/zh
Priority to KR1020220063271A priority patent/KR20220078538A/ko
Priority to JP2022088153A priority patent/JP7357114B2/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开提供了一种活体检测模型训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于人脸识别等场景。具体实现方案为:构建用于训练活体检测模型的训练集和测试集;基于所述训练集训练预设的活体检测模型,获得第一活体检测模型;基于所述测试集训练第一活体检测模型,生成测试结果;根据所述测试结果分析所述测试集,获取第一样本数据;基于第一样本数据更新训练集、测试集,进一步训练所述活体检测模型。本公开从数据层面上引入样本挖掘的思想,能有效减少大量冗余无指导意义的样本,提高模型训练效率。

Description

一种活体检测模型训练方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于人脸识别等场景。
背景技术
人脸活体检测即区分一张图像是否为真人拍摄,是人脸识别系统的基础模块,保证人脸识别系统的安全性。使用深度学习技术的人脸活体检测方法是当前该领域的主流方法,相比传统的方法在精度上有大幅度提升。然而,在现实应用中,由于人脸攻击样本的多样化,各种各样的攻击方式层出不穷,已优化的模型对未见过新型攻击抵御能力非常有限,并且训练成本高,效率低。
发明内容
本公开提供了一种活体检测模型训练方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种活体检测模型训练方法,包括:
构建用于训练活体检测模型的训练集和测试集;
基于所述训练集训练预设的活体检测模型,获得第一活体检测模型;
基于所述测试集训练第一活体检测模型,生成测试结果;
根据所述测试结果分析所述测试集,获取第一样本数据;
基于第一样本数据更新训练集、测试集,进一步训练所述活体检测模型。
根据本公开的另一方面,提供了一种活体检测模型训练装置,包括:
构建模块,用于构建用于训练活体检测模型的训练集和测试集;
训练模块,用于基于所述训练集训练预设的活体检测模型,获得第一活体检测模型;基于所述测试集训练第一活体检测模型,生成测试结果;
样本获取模块,用于根据所述测试结果分析所述测试集,获取第一样本数据;
更新模块,用于基于第一样本数据更新训练集、测试集,进一步训练所述活体检测模型。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的方法。
本公开从数据层面上引入样本挖掘的思想,能有效减少大量冗余无指导意义的样本,提高模型训练效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的活体检测模型训练方法示意图;
图2是根据本公开第二实施例的活体检测模型训练方法示意图;
图3是根据本公开第三实施例的活体检测模型训练装置结构示意图;
图4是用来实现本公开实施例的活体检测模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开实施例中,新数据是指活体检测模型已优化后的新出现的新型人脸攻击样本数据;原数据是指活体检测模型原来训练时使用的数据。
本公开提出一种基于难样本挖掘的活体检测模型训练方法,使用新数据加原数据混合重新训练模型来解决模型因为灾难性遗忘问题造成的精度损失,同时基于难样本挖掘的思想,通过提高训练样本的难样本比例,从而减少冗余样本,提高模型训练效率,同时使模型更关注于难样本,提高模型的检查性能。
图1是根据本公开第一实施例的活体检测模型训练方法示意图。参照图1所示,本公开第一实施例的活体检测模型训练方法,包括:
步骤101,构建用于训练活体检测模型的训练集和测试集;
所述构建用于训练活体检测模型的训练集和测试集,包括,基于混合数据集构建训练集及测试集,所述混合数据集包括新数据以及原数据。
通过采用新数据以及原数据构成混合数据集,并且基于混合数据集构建训练集及测试集,能解决模型因为灾难性遗忘问题造成的精度损失。
所述基于混合数据集构建训练集及测试集,包括,在所述混合数据集中进行随机采样,将采样数据构成训练集,除采样数据之外的数据构成测试集。
通过在混合数据集中进行随机采样构成初始训练集及初始测试集,能更好地实现对模型的训练效果。
在所述混合数据集中进行随机采样,包括:根据预设的超参数初始采样率在所述混合数据集中进行随机采样。
通过设置随机采样的超参数初始采样率,能对随机采样的指标进行了具体限定。
其中,在本实施例中,所述超参数初始采样率取值大于0%小于50%。当然,实际应用中也可以根据需要对超参数初始采样率进行其他的设置,本公开对此不加以限定。
通过对超参数初始采样率取值进行选择,提供了实际应用的指引,提供了本公开实施例的具体实现方法,方便实际应用中的选择。
步骤102,基于所述训练集训练预设的活体检测模型,获得第一活体检测模型;
步骤103,基于所述测试集训练第一活体检测模型,生成测试结果;
步骤104,根据所述测试结果分析所述测试集,获取第一样本数据;
在本公开的实施例中,根据所述测试结果分析所述测试集,获取第一样本数据,包括:
根据测试结果对测试集中的数据进行评分获得预测分数,基于所述预测分数对测试集中的数据进行排序,将所述预测分数满足设定阈值的数据确定为第一样本数据。
从而,本公开实施例实现了获取第一样本数据的具体实现方法,实现了第一样本数据即难样本数据的挖掘,从而可以采用挖掘出的第一样本数据对模型进行训练,通过提高训练样本的难样本比例,从而减少冗余样本,提高模型训练效率,同时使模型更关注于难样本,提高模型的检测性能。
步骤105,基于第一样本数据更新训练集、测试集,进一步训练所述活体检测模型。
所述基于第一样本数据更新训练集、测试集,包括:在第一样本数据中分别抽取部分样本数据添加至训练集及测试集,构成更新后的训练集及更新后的测试集。
本公开实施例通过在第一样本数据即难样本数据分别抽取部分样本数据构成更新后的训练集及更新后的测试集,整个训练过程中用到的数据并非完整的新数据加原数据,而是其中的一部分样本,并且可以进一步是难样本,通过提高训练样本的难样本比例,从而减少冗余样本,提高模型训练效率,同时使模型更关注于难样本,提高模型的检测性能。
在第一样本数据中分别抽取部分样本数据添加至训练集及测试集,构成更新后的训练集及更新后的测试集,包括:在所述第一样本数据中按预设采样率抽取第二样本数据,将抽取的第二样本数据添加至训练集,构成更新后的训练集,将除第二样本数据之外的第一样本数据添加至测试集,构成更新后的测试集;将预设采样率按预设衰减率进行衰减更新,获得衰减更新后的采样率;根据更新后的训练集和更新的测试集对活体检测模型进行训练;迭代执行训练步骤,直到判断到活体检测模型收敛到预测精度则停止训练,输出最终训练好的活体检测模型。
在本公开的实施例中,所述预设采样率取值大于0%小于30%。当然,实际应用中也可以根据需要对预设采样率进行其他的设置,本公开对此不加以限定。通过给出采样率取值的参考,给出了本公开具体实施例的实现,提供了实际应用的指引,方便实际应用中的选择。
整个训练过程中用到的数据并非完整的新数据加原数据,而是其中的一部分样本,虽然在训练过程中会逐步加入数据到训练集,但加入的比例是按照指数衰减,所以基于难样本挖掘的训练方法用到的数据远小于完整的全部数据,这极大提高了模型的训练效率。
参照图2所示,是根据本公开第二实施例的活体检测模型训练方法示意图;所述活体检测模型训练方法包括以下步骤:。
步骤201,输入数据集Φ,初始采样率ρ,设定难样本率ξ,设定衰减率ε;
给定模型训练的输入,包括新数据+原数据混合数据集Φ;设定超参数初始采样率ρ,用于模型初步开始训练的训练集划分,在数据集Φ按超参数初始采样率ρ随机采样一定量数据构成初始的训练集Φtrain,超参数初始采样率ρ取值大于0%小于50%;设定难样本率ξ,用于假设数据中存在的难样本比例,取值大于0%小于30%;设定衰减率ε,用于刻画难样本率的衰减,随着模型的逐步收敛,数据中所剩余的难样本比例将会逐步下降,因此衰减率用于刻画难样本率的衰减程度。其中,超参数初始采样率、难样本率、衰减率都可以根据应用需求人为设定。这样可以满足各种不同的应用需求,达到更好的模型训练效果。
步骤202,根据超参数初始采样率ρ均匀采用数据集Φ构成初始训练集Φtrain=ρ⊙Φ,剩余的数据用于构成初始测试集Φtest=(1-ρ)⊙Φ;
步骤203,在Φtrain中训练模型,在Φtest中测试模型,并对Φtest中样本按照预测分数排序;
模型先在训练集Φtrain进行一定迭代次数的训练,然后将模型在初始测试集进行测试,并对测试集中的样本进行样本预测分数评分,对预测分数进行排序,进行排序的目的是选择难样本,可以通过设定阈值,满足该设定阈值要求的确定为难样本。这样通过设定难样本的确定方法,能更好地找到难样本。理论上正样本预测分数为1,负样本预测分数为0,而若正样本预测分数远小于1(比如小于0.5),则认为这个样本为难样本。同理,负样本预测分数远大于0,则认为这个样本也为难样本。
步骤204,对Φtest中样本进行难样本抽取,并更新训练集和测试集:Φtrain=Φtrain+ξ⊙Φtest;Φtest=(1-ξ)⊙Φtest;ξ=ε·ξ;
根据设定的难样本率,在Φtest中根据预测分数抽取低预测分数的正样本和高预测分数的负样本,抽样率为难样本率ξ,将抽取的样本放回到训练集,由此更新训练集Φtrain=Φtrain+ξ⊙Φtest和测试集Φtest=(1-ξ)⊙Φtest,与此同时,对难样本率进行衰减更新ξ=ε·ξ。
步骤205,判断模型是否收敛到预测精度,是则结束,停止训练,否则转而执行步骤203。
由于模型采用渐进式难样本挖掘的方法,抽取的样本大概率为模型认为是难样本,因为训练过程中不断抽取难样本回训练集里边,所以训练集里边难样本比例逐渐增大。因为难样本训练比较有效,所以对模型的预测精度有一个可观的提升。
本公开的关键点在于对模型进行难样本挖掘的建模过程,通过渐进式难样本挖掘的思想,提高训练样本的难样本比例,减少训练集中的冗余样本,从而提高模型的训练效率。也同时提升了模型的性能,即因为采用难样本达到了更好的训练效果,提高了模型预测的准确率。相比于传统的训练方式,采用渐进式难样本挖掘的训练方法,能极大缩减训练成本,使得活体检测模型能在后期不断快速迭代优化。
可见,本公开设计了一种基于难样本挖掘训练活体检测模型的方法,该方法能实现渐进式端到端动态地选择难样本进行训练,能有效减少大量冗余无指导意义的样本,从而提高活体检测的训练效率,甚至能提升检测模型的性能。
人脸活体检测是人脸相关领域的基础技术之一,应用于安防、考勤、金融、门禁通行等诸多场景。在当前的很多业务上都有广泛的应用。采用本公开能够减小活体模型后期的优化成本,提高优化效率、极大提供模型随着数据增加的成长效果。因为提高训练效率,减少了训练时间,效率高了,更好增加数据去训练,可以训练的数据越来越多,数据的成长性比较好,有利于业务项目的进一步推广。
本公开所设计的训练方法可以应用于任一人脸活体的深度学习神经网络模型的优化,帮助其提高模型的优化效率。该方法通过提升难样本比例来提高人脸活体检测模型的性能,可以应用于需要定期持续优化的人脸活体检测模型的应用场景。
参照图3所示,是根据本公开第三实施例的活体检测模型训练装置结构示意图,所述活体检测模型训练装置,包括:
构建模块301,用于构建用于训练活体检测模型的训练集和测试集;
训练模块302,用于基于所述训练集训练预设的活体检测模型,获得第一活体检测模型;基于所述测试集训练第一活体检测模型,生成测试结果;
样本获取模块303,用于根据所述测试结果分析所述测试集,获取第一样本数据;
更新模块304,用于基于第一样本数据更新训练集、测试集,进一步训练所述活体检测模型。
在本公开实施例中,所述构建模块301用于构建用于训练活体检测模型的训练集和测试集,包括,基于混合数据集构建训练集及测试集,所述混合数据集包括新数据以及原数据。
在本公开实施例中,所述构建模块301用于基于混合数据集构建训练集及测试集,包括,在所述混合数据集中进行随机采样,将采样数据构成训练集,除采样数据之外的数据构成测试集。
在本公开实施例中,所述样本获取模块303用于根据所述测试结果分析所述测试集,获取第一样本数据,包括:
根据测试结果对测试集中的数据进行评分获得预测分数,基于所述预测分数对测试集中的数据进行排序,将所述预测分数满足设定阈值的数据确定为第一样本数据。
在本公开实施例中,所述样本获取模块303用于基于第一样本数据更新训练集、测试集,包括:在第一样本数据中分别抽取部分样本数据添加至训练集及测试集,构成更新后的训练集及更新后的测试集。
在本公开实施例中,所述样本获取模块303用于在第一样本数据中分别抽取部分样本数据添加至训练集及测试集,构成更新后的训练集及更新后的测试集,包括:在所述第一样本数据中按预设采样率抽取第二样本数据,将抽取的第二样本数据添加至训练集,构成更新后的训练集,将除第二样本数据之外的第一样本数据添加至测试集,构成更新后的测试集;将预设采样率按预设衰减率进行衰减更新,获得衰减更新后的采样率;根据更新后的训练集和更新后的测试集对活体检测模型进行训练;迭代执行训练步骤,直到判断到活体检测模型收敛到预测精度则停止训练,输出最终训练好的活体检测模型。
在本公开实施例中,所述构建模块301用于在所述混合数据集中进行随机采样,包括:根据预设的超参数初始采样率在所述混合数据集中进行随机采样。
在本公开实施例中,所述构建模块301用于根据预设的超参数初始采样率在所述混合数据集中进行随机采样,包括:所述超参数初始采样率取值大于0%小于50%。
在本公开实施例中,所述样本获取模块303用于将预设采样率按预设衰减率进行衰减更新,所述预设采样率取值大于0%小于30%。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种存储有计算机指令的非瞬时计算机可读存储介质和一种计算机程序产品。
图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如活体检测模型训练方法。例如,在一些实施例中,活体检测模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的活体检测模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行活体检测模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (21)

1.一种活体检测模型训练方法,包括:
构建用于训练活体检测模型的训练集和测试集;
基于所述训练集训练预设的活体检测模型,获得第一活体检测模型;
基于所述测试集训练第一活体检测模型,生成测试结果;
根据所述测试结果分析所述测试集,获取第一样本数据;
基于第一样本数据更新训练集、测试集,进一步训练所述活体检测模型。
2.根据权利要求1所述的方法,其中,所述构建用于训练活体检测模型的训练集和测试集,包括,基于混合数据集构建训练集及测试集,所述混合数据集包括新数据以及原数据。
3.根据权利要求2所述的方法,其中,所述基于混合数据集构建训练集及测试集,包括,在所述混合数据集中进行随机采样,将采样数据构成训练集,除采样数据之外的数据构成测试集。
4.根据权利要求1所述的方法,其中,根据所述测试结果分析所述测试集,获取第一样本数据,包括:
根据测试结果对测试集中的数据进行评分获得预测分数,基于所述预测分数对测试集中的数据进行排序,将所述预测分数满足设定阈值的数据确定为第一样本数据。
5.根据权利要求3所述的方法,其中,所述基于第一样本数据更新训练集、测试集,包括:在第一样本数据中分别抽取部分样本数据添加至训练集及测试集,构成更新后的训练集及更新后的测试集。
6.根据权利要求5所述的方法,其中,
在第一样本数据中分别抽取部分样本数据添加至训练集及测试集,构成更新后的训练集及更新后的测试集,包括:在所述第一样本数据中按预设采样率抽取第二样本数据,将抽取的第二样本数据添加至训练集,构成更新后的训练集,将除第二样本数据之外的第一样本数据添加至测试集,构成更新后的测试集;将预设采样率按预设衰减率进行衰减更新,获得衰减更新后的采样率;根据更新后的训练集和更新后的测试集对活体检测模型进行训练;迭代执行训练步骤,直到判断到活体检测模型收敛到预设精度则停止训练,输出训练好的活体检测模型。
7.根据权利要求3所述的方法,其中,在所述混合数据集中进行随机采样,包括:根据预设的超参数初始采样率在所述混合数据集中进行随机采样。
8.根据权利要求7所述的方法,其中,所述超参数初始采样率取值大于0%小于50%。
9.根据权利要求6所述的方法,其中,所述预设采样率取值大于0%小于30%。
10.一种活体检测模型训练装置,包括:
构建模块,用于构建用于训练活体检测模型的训练集和测试集;
训练模块,用于基于所述训练集训练预设的活体检测模型,获得第一活体检测模型;基于所述测试集训练第一活体检测模型,生成测试结果;
样本获取模块,用于根据所述测试结果分析所述测试集,获取第一样本数据;
更新模块,用于基于第一样本数据更新训练集、测试集,进一步训练所述活体检测模型。
11.根据权利要求10所述的装置,其中,
所述构建模块用于构建用于训练活体检测模型的训练集和测试集,包括,基于混合数据集构建训练集及测试集,所述混合数据集包括新数据以及原数据。
12.根据权利要求11所述的装置,其中,
所述构建模块用于基于混合数据集构建训练集及测试集,包括,在所述混合数据集中进行随机采样,将采样数据构成训练集,除采样数据之外的数据构成测试集。
13.根据权利要求11所述的装置,其中,所述样本获取模块用于根据所述测试结果分析所述测试集,获取第一样本数据,包括:
根据测试结果对测试集中的数据进行评分获得预测分数,基于所述预测分数对测试集中的数据进行排序,将所述预测分数满足设定阈值的数据确定为第一样本数据。
14.根据权利要求12所述的装置,其中,所述样本获取模块用于基于第一样本数据更新训练集、测试集,包括:在第一样本数据中分别抽取部分样本数据添加至训练集及测试集,构成更新后的训练集及更新后的测试集。
15.根据权利要求14所述的装置,其中,
所述样本获取模块用于在第一样本数据中分别抽取部分样本数据添加至训练集及测试集,构成更新后的训练集及更新后的测试集,包括:在所述第一样本数据中按预设采样率抽取第二样本数据,将抽取的第二样本数据添加至训练集,构成更新后的训练集,将除第二样本数据之外的第一样本数据添加至测试集,构成更新后的测试集;将预设采样率按预设衰减率进行衰减更新,获得衰减更新后的采样率;根据更新后的训练集和更新后的测试集对活体检测模型进行训练;迭代执行训练步骤,直到判断到活体检测模型收敛到预测精度则停止训练,输出最终训练好的活体检测模型。
16.根据权利要求12所述的装置,其中,所述构建模块用于在所述混合数据集中进行随机采样,包括:根据预设的超参数初始采样率在所述混合数据集中进行随机采样。
17.根据权利要求16所述的装置,其中,所述构建模块用于根据预设的超参数初始采样率在所述混合数据集中进行随机采样,包括:所述超参数初始采样率取值大于0%小于50%。
18.根据权利要求15所述的装置,其中,所述样本获取模块用于将预设采样率按预设衰减率进行衰减更新,所述预设采样率取值大于0%小于30%。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
CN202111026802.6A 2021-09-02 2021-09-02 一种活体检测模型训练方法、装置、电子设备及存储介质 Pending CN114120452A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111026802.6A CN114120452A (zh) 2021-09-02 2021-09-02 一种活体检测模型训练方法、装置、电子设备及存储介质
KR1020220063271A KR20220078538A (ko) 2021-09-02 2022-05-24 생체 감지 모델 트레이닝 방법, 장치, 전자 기기 및 저장 매체
JP2022088153A JP7357114B2 (ja) 2021-09-02 2022-05-31 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111026802.6A CN114120452A (zh) 2021-09-02 2021-09-02 一种活体检测模型训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114120452A true CN114120452A (zh) 2022-03-01

Family

ID=80441245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111026802.6A Pending CN114120452A (zh) 2021-09-02 2021-09-02 一种活体检测模型训练方法、装置、电子设备及存储介质

Country Status (3)

Country Link
JP (1) JP7357114B2 (zh)
KR (1) KR20220078538A (zh)
CN (1) CN114120452A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495291A (zh) * 2022-04-01 2022-05-13 杭州魔点科技有限公司 活体检测的方法、系统、电子装置和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512813B (zh) * 2022-09-20 2023-08-04 海南金域医学检验中心有限公司 样本监测方法、模型训练方法、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933414A (zh) * 2015-06-23 2015-09-23 中山大学 一种基于wld-top的活体人脸检测方法
CN108549854A (zh) * 2018-03-28 2018-09-18 中科博宏(北京)科技有限公司 一种人脸活体检测方法
CN110956255A (zh) * 2019-11-26 2020-04-03 中国医学科学院肿瘤医院 难样本挖掘方法、装置、电子设备及计算机可读存储介质
CN111753914A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 模型优化方法和装置、电子设备及存储介质
CN112215280A (zh) * 2020-10-12 2021-01-12 西安交通大学 一种基于元骨干网络的小样本图像分类方法
CN112348082A (zh) * 2020-11-06 2021-02-09 上海依智医疗技术有限公司 深度学习模型构建方法、影像处理方法及可读存储介质
CN112651458A (zh) * 2020-12-31 2021-04-13 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN112990326A (zh) * 2021-03-24 2021-06-18 华南理工大学 一种用于不平衡分布数据分类的自适应采样方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6489005B2 (ja) * 2015-12-18 2019-03-27 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム
JP6629678B2 (ja) * 2016-06-16 2020-01-15 株式会社日立製作所 機械学習装置
JP6642878B1 (ja) * 2018-12-19 2020-02-12 株式会社Fronteo コンピュータ、構成方法、及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933414A (zh) * 2015-06-23 2015-09-23 中山大学 一种基于wld-top的活体人脸检测方法
CN108549854A (zh) * 2018-03-28 2018-09-18 中科博宏(北京)科技有限公司 一种人脸活体检测方法
CN110956255A (zh) * 2019-11-26 2020-04-03 中国医学科学院肿瘤医院 难样本挖掘方法、装置、电子设备及计算机可读存储介质
CN111753914A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 模型优化方法和装置、电子设备及存储介质
CN112215280A (zh) * 2020-10-12 2021-01-12 西安交通大学 一种基于元骨干网络的小样本图像分类方法
CN112348082A (zh) * 2020-11-06 2021-02-09 上海依智医疗技术有限公司 深度学习模型构建方法、影像处理方法及可读存储介质
CN112651458A (zh) * 2020-12-31 2021-04-13 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN112990326A (zh) * 2021-03-24 2021-06-18 华南理工大学 一种用于不平衡分布数据分类的自适应采样方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仝小敏,吉祥: "基于自训练的回归算法", 《中国电子科学研究院学报》, pages 60 - 64 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495291A (zh) * 2022-04-01 2022-05-13 杭州魔点科技有限公司 活体检测的方法、系统、电子装置和存储介质

Also Published As

Publication number Publication date
JP7357114B2 (ja) 2023-10-05
JP2022116231A (ja) 2022-08-09
KR20220078538A (ko) 2022-06-10

Similar Documents

Publication Publication Date Title
CN111709247B (zh) 数据集处理方法、装置、电子设备和存储介质
CN112560501B (zh) 语义特征的生成方法、模型训练方法、装置、设备及介质
CN111753914B (zh) 模型优化方法和装置、电子设备及存储介质
CN111639710A (zh) 图像识别模型训练方法、装置、设备以及存储介质
JP7357114B2 (ja) 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体
CN111860769A (zh) 预训练图神经网络的方法以及装置
CN111859997A (zh) 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN113221104B (zh) 用户异常行为的检测方法及用户行为重构模型的训练方法
US20220245465A1 (en) Picture searching method and apparatus, electronic device and computer readable storage medium
CN111738418A (zh) 超网络的训练方法和装置
CN114020950A (zh) 图像检索模型的训练方法、装置、设备以及存储介质
CN114239853A (zh) 模型训练方法、装置、设备、存储介质以及程序产品
CN115631381A (zh) 分类模型训练方法、图像分类方法、装置及电子设备
CN114861059A (zh) 资源推荐方法、装置、电子设备及存储介质
CN111291192A (zh) 知识图谱中三元组置信度计算方法和装置
CN113657468A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN113361574A (zh) 数据处理模型的训练方法、装置、电子设备及存储介质
CN113204614A (zh) 模型训练方法、优化训练数据集的方法及其装置
CN115186738B (zh) 模型训练方法、装置和存储介质
CN113641724B (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN115759209A (zh) 神经网络模型的量化方法、装置、电子设备及介质
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
CN113033179B (zh) 知识获取方法、装置、电子设备及可读存储介质
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN114219694A (zh) 目标全连接子图的采样方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination