CN102194134A - 基于统计学习的生物特征识别性能指标预测方法 - Google Patents

基于统计学习的生物特征识别性能指标预测方法 Download PDF

Info

Publication number
CN102194134A
CN102194134A CN 201010115646 CN201010115646A CN102194134A CN 102194134 A CN102194134 A CN 102194134A CN 201010115646 CN201010115646 CN 201010115646 CN 201010115646 A CN201010115646 A CN 201010115646A CN 102194134 A CN102194134 A CN 102194134A
Authority
CN
China
Prior art keywords
recognition system
biological feature
performance index
sample
feature recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010115646
Other languages
English (en)
Other versions
CN102194134B (zh
Inventor
谭铁牛
孙哲南
何倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN 201010115646 priority Critical patent/CN102194134B/zh
Publication of CN102194134A publication Critical patent/CN102194134A/zh
Application granted granted Critical
Publication of CN102194134B publication Critical patent/CN102194134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种基于统计学习的生物特征识别性能指标预测方法,包括步骤:对生物特征训练样本进行质量评价;计算生物特征识别系统在训练数据库上的真匹配分数;拟合各种质量组合生物特征样本之间真匹配分数的高斯分布;抽样统计应用环境中各种质量等级生物特征样本的构成比例;根据步骤c和d构建混合高斯模型估计生物特征识别系统在应用环境中真匹配分数的分布;预测生物特征识别系统的性能指标和置信区间。本发明计算简单、预测精确、适用于多种生物特征模态、实现通用的生物特征识别性能预测。

Description

基于统计学习的生物特征识别性能指标预测方法
技术领域
本发明涉及生物特征识别、图像处理、模式识别和统计学,特别是生物特征识别性能测评领域。
背景技术
安全是全球普遍关注的重大问题,可靠的个人身份识别是保障个人安全和公共安全的一项重要技术手段。正是在这种背景下,各种各样的生物识别技术例如虹膜、人脸、指纹识别纷纷发展起来。生物识别技术已被越来越多地应用于各种关系到国家和社会安全的领域,如公安、边检、金融、社保、门禁等。
由于不同时刻、不同环境、不同姿态、不同设备采集的生物特征数据存在一定的变化,生物特征比对又是基于概率和统计科学,所以识别算法一般都有出错的可能。作为模式识别学科的尖端应用技术,生物特征识别的技术含量高,不同的实现方法设计的核心算法的精确性和安全性会参差不齐,对于不同应用的满足程度也会千差万别。
目前市场上生物特征识别技术和产品的性能良莠不齐,在小规模数据库和限定应用环境下可以取得理想的实验效果,但是在大规模数据库和未知的应用场景中往往出现大幅度的性能下降,造成严重的安全隐患。因此为了保障生物特征识别的可靠运行,必须对相关技术和产品的性能进行测评认证,从而实现技术监督管理。此外生物特征识别的技术生产商和销售商以及生物特征识别的使用者也关心生物特征识别技术和产品在实际应用场景中的性能指标和可靠性,他们也希望获得生物特征识别性能测评工具的技术支持。
任何的生物特征识别系统或者方法都有出错的可能,对识别精度进行客观、准确的评估其实是一个很复杂的问题,它受测试样本的数量、质量、评估指标等因素的影响,特别是在实际的测评工作中,由于数据库资源的稀缺以及大规模测试对于人力以及物力耗费的巨大,我们无法穷举所有可能的变化,采集包含所有变量的生物特征数据,从而使测评工作难于进行。测评机构很难有足够的资源建设模仿实际应用场景的大规模测试数据库,因此只能建设小规模的固定场景下的测试数据库来做测评实验。为了使有限规模、有限变量数据库上的实验结果能够估计和预测生物特征识别技术和产品在真实应用环境中的性能指标,需要一套简单、精确、普适的生物特征识别性能指标预测方法,不仅有助于全面测试评估生物特征识别技术和产品,而且可以节省大量的人力物力。
生物特征识别的性能指标主要有错误接收率和错误拒绝率,其中错误接收率指标相对稳定,受测试数据的影响较小;但是生物特征识别的错误拒绝率指标受测试数据的变化影响较大。所以本发明主要针对生物特征识别错误拒绝率的预测。
现有的生物特征识别预测模型主要是基于小样本上的结果来预测被测系统在大样本集上的性能。相关的研究基本上都是构建在二项分布的基础上。对于基于样本质量的预测模型研究刚刚起步,如针对人脸识别算法的性能预测,但是模型涉及复杂的统计分布函数,模型参数计算相当困难,且不具有普适性,无法适应于生物特征识别性能测评任务的需求。
发明内容
本发明的目的是提供一种基于统计学习的生物特征识别性能指标预测方法。
为实现上述目的,一种基于统计学习的生物特征识别性能指标预测方法包括以下步骤:
a.对生物特征训练样本进行质量评价;
b.计算生物特征识别系统在训练数据库上的真匹配分数;
c.拟合各种质量组合生物特征样本之间真匹配分数的高斯分布;
d.抽样统计应用环境中各种质量等级生物特征样本的构成比例;
e.根据步骤c和d构建混合高斯模型估计生物特征识别系统在应用环境中真匹配分数的分布;
f.预测生物特征识别系统的性能指标和置信区间。
本发明计算简单、预测精确、适用于多种生物特征模态、实现通用的生物特征识别性能预测。
附图说明
图1是基于统计学习的生物特征识别性能指标预测方法的流程图;
图2通过四种图形证明由质量预测匹配分数的高斯模型存在的合理性,从上到下,从左到右,四个图分别为:序列图、延迟图、直方图、正态概率图;
图3是指纹识别系统在测试数据库匹配分数分布的预测流程图;
图4对指纹图像训练集四类真匹配分数分布进行高斯验证。
具体实施方式
下面结合附图以某个指纹识别系统的性能预测流程为例来详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
问题描述:某指纹识别公司C开发了一套指纹识别系统FS,在研发过程中建设了一个内部的指纹数据库FD,存储了该公司所有员工的指纹图像。FS在FD上的测试结果良好,但是C希望把FS用于建筑工人考勤管理。显然建筑工人人群的指纹图像特点和高科技公司员工群体的指纹图像特征相差甚远,因此C希望通过FD的测试结果预测FS在建筑工人人群使用的性能指标。
采用本发明的基于统计学习的生物特征识别性能指标预测方法,包括步骤如下:
1.生物特征样本质量评价
首先对指纹数据库FD中的每一幅指纹图像进行质量评价,指纹图像的质量评价指标主要是依据指纹图像中细节点的个数、有效区域面积、指纹干湿程度等,可以通过自动质量评价算法获得,例如参考文献[F.Alonso-Femandez,J.Fierrez,J.Ortega-Garcia,J.Gonzalez-Rodriguez,et al.,″A Comparative Study of Fingerprint Image-Quality Estimation Methods″,IEEE Transactions on Information Forensics and Security,Volume 2,Issue 4,Dec.2007,pp.734-743.]介绍并比较了各种自动指纹图像质量评价方法。经过自动质量评价,指纹数据库FD中的每幅指纹图像的质量分数被评为五个等级{1,2,3,4,5}。
2.计算生物特征识别系统在训练库的真匹配分数
给定两幅指纹图像pi,pj,指纹识别系统FS可以输出它们之间的匹配分数f(pi,pj),如果这两幅指纹图像来自同一个手指,则为真匹配分数,否则为假匹配分数。指纹识别系统FS可以计算指纹数据库FD中所有同一类指纹图像之间的匹配分数,得到大量的真匹配分数。
3.各种质量组合生物特征样本之间真匹配分数的高斯拟合
考虑到匹配分数的不确定性和众多随机因素的影响,最佳方法是采用统计分析方法来对真匹配分数进行建模。本发明假设真匹配分数f(pi,pj)和pi,pj的质量分数qi,qj相关并满足正态分布。对生物特征识别性能预测的基础就是存在一个数学模型建立生物特征图像匹配分数和图像质量之间的对应关系。我们在指纹识别领域的权威测试数据库FVC2002进行了实验,通过四种图形(见图2)证明了此预测模型的存在性以及选取高斯拟合分布的合理性。图2的上左为序列图,其反映出数据具有确定的均值及确定的方差;上右为延迟图,证明了数据的随机性;第二排的两幅图分别为直方图与正态分布证明图,分别证明了数据大致服从正态分布。
因此我们可以把第2步获得的真匹配分数按照图像质量组合进行分类,对于每一类匹配分数可以通过极大似然估计方法估计高斯函数的均值和方差。这样每一种质量组合指纹图像之间的匹配分数就可以用一个高斯函数拟合。由于指纹图像数据库中质量小于3的指纹图像样本比较少,为了便于统计分析,我们将质量小于等于3的指纹图片归为一类,这样可以简化模型分析。最终质量对的组合数为四种,分别为(5,5)、(5,4)、(4,4)、(参与匹配的任意一幅指纹图像的质量小于或等于3)。图3给出了指纹图像真匹配分数按照4种质量组合进行分类以及四种真匹配分数的拟合过程,最终可以得到4个高斯函数的参数(μ1,σ1;μ2,σ2;μ3,σ3;μ4,σ4)。图4证明了在真实指纹图像数据库上四类真匹配分数分布基本符合高斯函数。
4.抽样统计应用环境中各种质量等级生物特征样本的构成比例
为了摸清测试应用环境中生物特征数据样本的特点,尤其是质量等级的分布情况,就必须在实际场景中用生物特征传感器抽样采集部分数据并统计各种质量等级生物特征样本的分布情况。
为了测试指纹识别系统FS在建筑工人人群B的使用性能指标,就必须找一个典型的建筑公司采集50名建筑工人的指纹图像,并统计四类质量组合(按照步骤3中的分类方法)真匹配分数的比例(C1,C2,C3,C4)。
5.构建生物特征识别系统在测试应用环境真匹配分数的混合高斯分布模型
因为每种质量组合生物特征样本对之间的真匹配分数都满足一个高斯分布,而实际应用环境中可能采集的数据必然由质量等级参差不齐的生物特征图像混合组成,因此生物特征识别系统在测试应用环境中的真匹配分数分布可以用混合高斯模型建模。混合高斯模型是各种质量组合生物特征样本之间真匹配分数的高斯分布函数的加权和,高斯基的参数在训练库上已经求好,即(μ1,σ1;μ2,σ2;μ3,σ3;μ4,σ4),加权系数是对应质量组合样本对在应用环境中的抽样统计百分比(C1,C2,C3,C4)。因为不管是任何应用环境,两幅生物特征图像之间的匹配分数只由它们的质量分数决定,因此可以将训练库上的高斯基参数推广用于真实应用环境中相同质量组合真匹配分数的建模。每个高斯基的系数由各种质量等级生物特征样本的构成比例所决定,比例越高,对应高斯基对最终结果的影响力越大,这是十分合理的推测。
综上所述,指纹识别系统在建筑工人人群的真匹配分数分布的预测结果为 k ( x ) = Σ i = 1 4 C i 1 2 π σ i exp [ - ( x - μ i ) 2 2 σ i 2 ] .
6.预测生物特征识别系统在测试应用环境性能指标
根据真匹配分数的分布,我们就可以推导出生物特征识别系统在测试应用环境的错误拒绝率FRR为∫0 tk(x)dx,其中k(x)是估计得到的生物特征识别系统在应用环境中真匹配分数的分布函数,t是指纹识别系统FS的决策阈值,两幅指纹图像的匹配分数如果高于t就判断这两幅图像来自同一手指,如果低于t就判断这两幅图像来自不同手指。
7.预测生物特征识别系统在测试应用环境性能指标的置信度区间FRR的点估计值不是很稳定,所以我们采用Bootstrap来估计FRR的90%置信度区间(Confidence Interval,CI)。Bootstrap是1986年由Efron提出的非参数统计分析方法[B.Efron and R.Tibshirani,“Bootstrap Methods forStandard Errors,Confidence Intervals,and Other Measures of StatisticalAccuracy,”Statistical Science,vol.1,pp.54-75,1986],它的基本思想是用计算机对观测值进行有放回的重采样。
我们可以在步骤3采集100人的指纹图像,但是每次有放回的随机抽取50人的指纹图像进行实验,每次会得到不同的(C1,C2,C3,C4)。重复步骤3到步骤6一千次,把每次计算得到FRR排序,排名50位和950位的分别是FRR置信区间的下界和上界。
最终指纹识别公司C就可以得到指纹识别系统FS在建筑工人人群使用时的错误拒绝率FRR及其置信区间,根据性能高低决策是否将FS引入建筑行业。
本发明在训练阶段用统计科学中简单实用的高斯模型对生物特征样本匹配分数进行建模。由于高斯模型只有均值和方差两个参数,参数估计方法直观简单,因此对于每种质量组合样本对匹配分数的高斯函数拟合消耗的计算资源少,即使在测试阶段需要使用混合高斯模型,其中的高斯函数参数已经在训练阶段获得,只要统计测试库中每种质量组合样本对的比例就可以获得每个高斯函数的权值,最后对多个高斯函数加权并求和就可以得到测试样本库匹配分数的分布,然后对小于决策阈值的分布曲线的面积求和就可以得到错误拒绝率。整个过程计算简单,直观易懂,具有很强的可操作性。
本发明采用统计学习的方法建立了生物特征样本质量和匹配分数分布之间的对应关系,科学合理,符合生物特征识别匹配分数对图像质量的依赖但是又具有不确定性的特点,考虑了随机因素的影响,可以从训练库的识别性能精确估计测试样本库的识别性能,即使这两个库的生物特征样本存在显著的质量差异,因为本发明巧妙地通过样本质量分布建立了两个不可比的生物特征数据库性能指标之间的联系。
本发明提供了一种有效的从有限样本、有限变量的生物特征训练库识别结果到任意样本、复杂变量下的大规模测试库识别性能的预测方法,节省了大量的人力物力。传统的测试方法需要在复杂环境下进行人工测试或者花费大量人力物力采集大规模的数据库测试,而本发明只要抽样获得特定环境下生物特征样本的质量分布就可以估计出生物特征识别产品在此环境下的性能指标。
本发明基于生物特征数据库质量分析,与生物特征识别技术特性无任何关系,因而适用于各种不同技术实现方法的生物特征识别系统的性能预测;本发明对于高斯基的个数分类以及质量规约方法灵活,在实际模型构建中可继续细化分析,具有较强的可扩展性;本发明的生物特征识别性能预测方法适用于所有的生物特征模态,包括虹膜、人脸、指纹、掌纹、静脉、步态、声纹、笔迹。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于统计学习的生物特征识别性能指标预测方法,包括步骤:
a.对生物特征训练样本进行质量评价;
b.计算生物特征识别系统在训练数据库上的真匹配分数;
c.拟合各种质量组合生物特征样本之间真匹配分数的高斯分布;
d.抽样统计应用环境中各种质量等级生物特征样本的构成比例;
e.根据步骤c和d构建混合高斯模型估计生物特征识别系统在应用环境中真匹配分数的分布;
f.预测生物特征识别系统的性能指标和置信区间。
2.按权利要求1所述的方法,其特征在于所述对生物特征样本进行质量评价是通过质量评价算法对每一个生物特征样本自动评定一个质量等级。
3.按权利要求1所述的方法,其特征在于所述的拟合各种质量组合生物特征样本之间真匹配分数的高斯分布是用高斯函数对每种质量组合生物特征样本之间的真匹配分数的概率分布进行数学建模,然后采用极大似然估计方法将生物特征识别系统在训练数据库上的真匹配分数作为统计样本估计每个高斯函数的均值和方差。
4.按权利要求1所述的方法,其特征在于所述混合高斯模型是各种质量组合生物特征样本之间真匹配分数的高斯分布函数的加权和,加权系数是对应质量组合样本对在应用环境中的抽样统计百分比。
5.按权利要求1所述的方法,其特征在于按下式推导所述的预测生物特征识别系统的性能指标错误拒绝率FRR:
FRR = ∫ 0 t k ( x ) dx , 其中k(x)是权利要求1中步骤e估计得到的生物特征识别系统在应用环境中真匹配分数的分布函数,t是生物特征识别系统的决策阈值,两幅生物特征图像的匹配分数如果高于t就判断这两幅生物特征图像来自同一人,如果低于t就判断这两幅图像来自不同人。
6.按权利要求1所述的方法,其特征在于所述的生物特征识别性能指标的置信区间是采用非参数的Bootstrap方法计算得到。
CN 201010115646 2010-03-01 2010-03-01 基于统计学习对生物特征识别系统的性能指标进行预测的方法 Active CN102194134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010115646 CN102194134B (zh) 2010-03-01 2010-03-01 基于统计学习对生物特征识别系统的性能指标进行预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010115646 CN102194134B (zh) 2010-03-01 2010-03-01 基于统计学习对生物特征识别系统的性能指标进行预测的方法

Publications (2)

Publication Number Publication Date
CN102194134A true CN102194134A (zh) 2011-09-21
CN102194134B CN102194134B (zh) 2013-06-05

Family

ID=44602172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010115646 Active CN102194134B (zh) 2010-03-01 2010-03-01 基于统计学习对生物特征识别系统的性能指标进行预测的方法

Country Status (1)

Country Link
CN (1) CN102194134B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567744A (zh) * 2011-12-29 2012-07-11 中国科学院自动化研究所 基于机器学习的虹膜图像质量确定方法
CN102831437A (zh) * 2012-08-08 2012-12-19 中国科学院自动化研究所 一种基于样本质量的生物特征识别系统性能预测方法
CN106908258A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 性能测试的方法及装置
CN107341336A (zh) * 2017-05-19 2017-11-10 上海交通大学 一种贮箱产品几何精度一致性评价方法
CN109064217A (zh) * 2018-07-16 2018-12-21 阿里巴巴集团控股有限公司 基于用户等级的核身策略确定方法、装置及电子设备
CN110175516A (zh) * 2019-04-17 2019-08-27 深圳绿米联创科技有限公司 生物特征模型生成方法、装置、服务器及存储介质
WO2020140376A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于声纹识别的酒驾检测方法、装置、设备及存储介质
CN114360553A (zh) * 2021-12-07 2022-04-15 浙江大学 一种提升声纹安全性的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750020A (zh) * 2004-09-14 2006-03-22 安捷伦科技有限公司 用于管理及预测自动分类器性能的方法和装置
CN1808465A (zh) * 2005-01-21 2006-07-26 中国科学院计算技术研究所 一种人脸检测系统的评测方法及评测系统
US20070172114A1 (en) * 2006-01-20 2007-07-26 The Johns Hopkins University Fusing Multimodal Biometrics with Quality Estimates via a Bayesian Belief Network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750020A (zh) * 2004-09-14 2006-03-22 安捷伦科技有限公司 用于管理及预测自动分类器性能的方法和装置
CN1808465A (zh) * 2005-01-21 2006-07-26 中国科学院计算技术研究所 一种人脸检测系统的评测方法及评测系统
US20070172114A1 (en) * 2006-01-20 2007-07-26 The Johns Hopkins University Fusing Multimodal Biometrics with Quality Estimates via a Bayesian Belief Network

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567744A (zh) * 2011-12-29 2012-07-11 中国科学院自动化研究所 基于机器学习的虹膜图像质量确定方法
CN102567744B (zh) * 2011-12-29 2014-06-18 中国科学院自动化研究所 基于机器学习的虹膜图像质量确定方法
CN102831437A (zh) * 2012-08-08 2012-12-19 中国科学院自动化研究所 一种基于样本质量的生物特征识别系统性能预测方法
CN106908258A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 性能测试的方法及装置
CN107341336A (zh) * 2017-05-19 2017-11-10 上海交通大学 一种贮箱产品几何精度一致性评价方法
CN109064217A (zh) * 2018-07-16 2018-12-21 阿里巴巴集团控股有限公司 基于用户等级的核身策略确定方法、装置及电子设备
WO2020140376A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于声纹识别的酒驾检测方法、装置、设备及存储介质
CN110175516A (zh) * 2019-04-17 2019-08-27 深圳绿米联创科技有限公司 生物特征模型生成方法、装置、服务器及存储介质
CN114360553A (zh) * 2021-12-07 2022-04-15 浙江大学 一种提升声纹安全性的方法

Also Published As

Publication number Publication date
CN102194134B (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN102194134B (zh) 基于统计学习对生物特征识别系统的性能指标进行预测的方法
Sun et al. Using Bayesian deep learning to capture uncertainty for residential net load forecasting
Brandt et al. Evaluating forecasts of political conflict dynamics
Han et al. Drought forecasting based on the remote sensing data using ARIMA models
CN109615129A (zh) 房地产客户成交概率预测方法、服务器及计算机存储介质
CN105512465B (zh) 基于改进vikor法的云平台安全性量化评估方法
White et al. Methodological tools
CN103473786A (zh) 基于多目标模糊聚类的灰度图像分割方法
CN110365647A (zh) 一种基于pca和bp神经网络的虚假数据注入攻击检测方法
CN101957913A (zh) 一种基于信息融合技术的指纹识别方法及装置
CN104239722A (zh) 一种基于因素间相关关系识别的预测方法
CN102779240B (zh) 基于核典型相关分析的固有不规则蛋白质结构预测方法
CN103310235B (zh) 一种基于参数识别与估计的隐写分析方法
CN102163285A (zh) 一种基于主动学习的跨域视频语义概念检测方法
CN107679756B (zh) 土壤适宜性评价方法及装置
Kalka et al. LQMetric: a latent fingerprint quality metric for predicting AFIS performance and assessing the value of latent fingerprints
CN103150476B (zh) 一种基于数据站场的系统效能评估方法
CN103530515B (zh) 底栖生物完整性评价指数结构方程模型的构建方法
Lu et al. Application of grey relational analysis for evaluating road traffic safety measures: advanced driver assistance systems against infrastructure redesign
Wang et al. Temperature forecast based on SVM optimized by PSO algorithm
Harwell The importance of type I error rates when studying bias in Monte Carlo studies in statistics
Caldarelli et al. Weighted networks as randomly reinforced urn processes
CN106911512A (zh) 在可交换图中基于博弈的链接预测方法及系统
CN104516858A (zh) 一种非线性动力学行为分析的相图矩阵方法
Al-Asadi et al. Predict the number of traffic accidents in Turkey by using machine learning techniques and python tools

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant