CN116756718B

CN116756718B - 一种基于U-Sketch的生物特征数据纠错方法、系统、工具

Info

Publication number: CN116756718B
Application number: CN202311016217.7A
Authority: CN
Inventors: 赖衍龙; 金哲; 张慧; 吕兴国; 李得志
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-12-01
Anticipated expiration: 2043-08-14
Also published as: CN116756718A

Abstract

本发明属于信息安全领域，具体涉及一种基于U‑Sketch的生物特征数据纠错方法、系统以及工具。该纠错方法包括如下步骤：在编码阶段，采用局部敏感哈希作为元函数构成造元函数组；将多个相互独立的元函数组作为生成函数。根据随机排列秘钥对生成函数进行重新排列，得到排列生成函数。利用注册模板作为输入通过排列生成函生成注册码字集。将注册码字集和排列生成函数作为辅助数据。在解码阶段，获取查询模板以及辅助数据。根据查询模板生成查询码字集并根据汉明距离对查询码字和注册码字进行配对，获取查询码字的位置索引；按序排列位置索引恢复出排列秘钥。本发明解决了现有生物特征数据纠错方法的通用性不足，效率较低，效果较差的问题。

Description

一种基于U-Sketch的生物特征数据纠错方法、系统、工具

技术领域

本发明属于信息安全领域，具体涉及一种基于U-Sketch的生物特征数据纠错方法、系统以及工具。

背景技术

互联网和数字化技术便利了人们的生活，同时也滋生了越来越验证的网络安全问题。例如，ATO（账户接管）攻击就是一种典型的网络欺诈行为，不法分子通过窃取用户的账户名和密码从事欺诈行为。传统的账号密码式的身份验证系统的保密等级较低，随着网络钓鱼和数据泄露技术的不断发展，ATO攻击日益普遍。生物特征识别技术为传统身份验证方法提供了一种可行的替代方案，企业可以利用这种广泛接受的技术来防范ATO攻击。用户通过身体特征进行身份验证，避免使用容易受到攻击或盗窃的密码或身份证，从而提高安全性。此外，生物特征识别更加便捷，无需记住密码或携带物理令牌。更重要的是，生物特征识别不仅有助于预防ATO攻击和提供便利，还可以作为高熵随机性的优秀来源。

研究已经表明，生物特征可以有效地隐藏或生成密钥，为传统加密系统提供重要优势。通过将用户的生物特征作为随机源来生成密钥，生物特征识别技术能够更广泛地应用于传统加密系统的日常使用中。例如银行卡密码、加密邮件、车库门遥控器、密码安全门、加密通话和密码保险柜等。这为身份验证提供了一种更安全和更有效的方式，从而更好地保护数据安全。因此，生物特征识别技术在信息安全领域具有广泛的应用前景，并有望在未来得到更广泛的采用。这将有助于降低ATO攻击的成功率，提高企业和个人数据的安全性，为信息安全领域带来重要的突破。

虽然具有上述优势，但是将生物特征识别技术与传统密码系统相结合，即所谓的生物特征加密系统，也面临着巨大挑战。这是因为与具有确定性的数字密码不同，生物特征数据本质上具有噪声。在捕获生物特征数据的过程中，光照、遮挡、老化、用户的生理状况和扫描设备误差等外部因素均可能导致用户的生物特征数据发生变化，这将使得验证阶段提交的生物特征数据可能和注册阶段提交的生物特征数据并不无法完全一致。这可能会影响用户的验证效率和通过率，给用户带来不好的体验。要将生物特征与传统密码系统结合，就必须考虑到生物特征数据中的噪声或误差。

使用纠错码处理生物特征数据的噪声被认为是一种可行的方案。但在实际应用中，如何为生物特征加密系统选择合适的纠错码又成为了一个复杂且艰巨的新任务。这是因为生物特征数据与其模板之间的错误分布很难预测和准确计算。传统方法通常采用预定义的纠错码，这些纠错码为具有良好结构的码字集，例如汉明码可以用于纠正码字之间的单比特错误。但是在生物特征数据和码字分布之间缺乏明显的连接的情况下，找到生物特征密码系统的最优纠错码是极为困难的。因此，如何在验证系统中提供一种更加高效的生物特征数据的纠错方法，正成为本领域技术人员亟待解决的技术难题。

发明内容

为了解决现有生物特征数据纠错的方法存在最优纠错码难以确定，纠错效果较差，通用性不足的问题，本发明提供一种基于U-Sketch的生物特征数据纠错方法、系统以及工具。

本发明采用以下技术方案实现：

一种基于U-Sketch的生物特征数据纠错方法，其用于对采用生物识别特征的验证系统获取到的生物特征模板中的噪声或错误进行纠错，以提升系统的验证效率。该生物特征数据纠错方法包括如下步骤：

一、编码阶段：

采用基于余弦距离的局部敏感哈希作为元函数h_i(w)，利用k个相互独立的元函数h_i(w)构成所需的元函数组G(w)：

；

上式中，w表示用户生物识别特征的注册模板。

获取n个相互独立的元函数组Gi(w)并按指定顺序排列，构成所需的生成函数：

。

根据一个预设的随机排列秘钥x对所述生成函数进行重新排列，得到排列生成函数。

以用户生物识别特征的注册模板w为输入，通过排列生成函数生成注册码字集C：

将注册码字集C和排列生成函数共同作为编码阶段的辅助数据p：

。

二、解码阶段：

获取任意用户的查询模板w'，并从对应用户的辅助数据p中获取排列生成函数。

以查询模板w'为输入，通过排列生成函数生成一个查询码字集C'：

。

以汉明距离最近为指标，将查询码字集C'中的每个码字依次与注册码字集C的各个码字进行配对，进而获取每个查询码字的位置索引。

按序排列所述位置索引得到恢复出的排列秘钥x'。

作为本发明进一步的改进，元函数h_i(w)的数学表达式如下：

上式中，v_i表示根据随机投影技术随机选择的单位法向量；其中，每个元函数的单位法向量v_i从均值为0，方差为1的正态分布中随机地单独抽取。

作为本发明进一步的改进构造出的生成函数中，元函数组共包含n×k个元函数h_i(w)；每个元函数均由不同的单位法向量v_i构造而成。

作为本发明进一步的改进，排列秘钥x是一个随机排列后的包含从1至n的n个整数的数组；

；

基于排列秘钥x的排列操作的表达式如下：

作为本发明进一步的改进，注册码字集 C和查询码字集中的每个码字的生成公式如下：

作为本发明进一步的改进，查询码字集中任意码字的位置索引的计算公式如下：

上式中，argmin表示求取使得目标函数取最小值时的变量值的函数。

作为本发明进一步的改进，在编码和解码阶段，排列生成函数分别根据注册模板w和查询模板w'生成其在哈希域中的码字；

注册模板w和查询模板w'在同一个元函数h_i（w）中生成的码字的差异概率ε表示如下：

则维数为 k的码字c和之间的汉明距离遵循二项分布，预平均值为：

和方差为。

在本发明提供的技术方案中，验证系统在秘钥恢复时，秘钥每一位上的秘钥值都与其中一个注册码字的位置有内在关联。配对过程中，单个查询码字在最多n步骤中恢复出一个秘钥值；对于长度为 n的查询码字集，则整个秘钥可以在最多n²步骤中恢复；将秘钥值与注册码字的位置关联起来后，长度为n的秘钥的信号容量为达到（n!）。

本发明还包括一种基于U-Sketch的生物特征数据纠错系统，其应用于采用生物识别特征的验证系统中，用于对验证阶段采集到的用户生物识别特征的查询模板进行自动纠错。该生物特征数据纠错系统包括：生成函数构造模块、排列秘钥生成模块、排列生成函数构造模块、辅助数据生成模块、信息查询模块，以及秘钥恢复模块。

其中，生成函数构造模块用于采用基于余弦距离的局部敏感哈希作为元函数，并对元函数中的单位法向量进行逐次调整，分别得到由k个元函数构成元函数组；然后将多个相互独立的原函数组按指定顺序排列，构成所需的生成函数。

排列秘钥生成模块用于生成一个随机排列的包含从1至n的n个整数的数组，并将其作为排列秘钥。

排列生成函数构造模块用于将排列秘钥作为位置索引，将生成函数中的每个元函数组的位置进行重新排列，得到一个所需的排列生成函数。

辅助数据生成模块用于获取任意注册用户在注册阶段提交的注册模板，并输入到排列生成函数中，输出一个对应的注册码字集；然后将注册码字集和排列生成函数共同作为注册用户的辅助数据。

信息查询模块用于获取用户在验证阶段提交的查询模板，以及注册阶段生成的辅助数据；并将查询模板输入到辅助数据中的排列生成函数中，得到对应的查询码字集；

秘钥恢复模块用于计算查询码字集与注册码字集中的各个码字之间的汉明距离，最后记录与查询码字集中各个码字的汉明距离最近的注册码字在注册码字集中的位置，即为对应的位置索引；按序排列位置索引得到恢复出的排列秘钥。

本发明还包括一种基于U-Sketch的生物特征数据纠错工具，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，创建出如前述的基于U-Sketch的生物特征数据纠错系统，进而在注册阶段根据注册用户输入的注册模板生成相应的辅助数据，并在验证阶段利用辅助数据以及注册用户输入的查询模板恢复出纠错后的秘钥。

本发明提供的技术方案，具有如下有益效果：

本发明提出的基于U-Sketch的生物特征数据纠错方法在安全草图策略的基础上融合了局部敏感哈希编码和最大似然译码的技术；克服了现有生物特征加密系统的局限。

在编码端，本发明直接从生物特征数据生成码字，同时保留数据点的相对余弦距离。这样的操作使得最小距离解码成为可能，仅允许对最邻近码字进行纠错，也使其成为生物特征加密系统的最优选择。在解码端，本发明的方案通过仅允许对最邻近码字进行纠错，最小化攻击者可以学到的生物特征数据的邻近信息，从而增强安全和隐私保护。

此外，本发明提供的生物特征数据纠错方法是自适应的，意味着无论生物特征的分布如何，它都可以生成保留原始数据的成对距离的码字，同时通过最小距离解码进行纠错。因此，它消除了对ECC的细致选择的需求，使其高度适应各种生物特征分布和模态。

附图说明

图1为典型的安全草图（Secure Sketch）架构中信息的加密与解密过程。

图2为两种不同生物特征信息在汉明球内的分布及其对应的最佳纠错码的范围。

图3为本发明实施例1提出的U-Sketch方案的原理示意图。

图4为本发明实施例1提出的基于U-Sketch的生物特征数据纠错方法的步骤流程图。

图5为本发明实施例2中提出的基于U-Sketch的生物特征数据纠错系统的模型框架图。

图6为性能测试过程中本发明提供的U-Sketch方案在不同样本数据集下的GAR曲线。

图7为性能测试过程中本发明提供的U-Sketch方案在不同样本数据集下的FAR曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步地详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提供一种基于U-Sketch（通用草图，Universal-Sketch）的生物特征数据纠错方法，其用于对采用生物识别特征的验证系统获取到的生物特征模板中的噪声或错误进行纠错，以提升系统的验证效率。

本实施例提供的基于U-Sketch）的生物特征数据纠错方法本质上是一种加密模型，同时也是一种纠错模型。其主要原理大致如图1中安全草图（Secure Sketch）的架构所示：首先将带有噪声的输入，例如用户在注册时提交的生物特征模板（w）和秘钥（x）按照特定的规则进行编码，生成一个新的表示，称为辅助数据（Helper Data）。当用户需要进行身份验证时，辅助数据将与用户的查询模板（w'）通过解码过程进行错误纠正，从而恢复秘钥。

在图1的系统框架内，辅助数据具备明显的安全特性，即确保攻击者无法从辅助数据中提取关于密钥（x）和生物特征模板（w）的主要信息。另外，这种验证系统的数据编解码方式能通过纠错处理来保护生物特征数据和密钥，确保在传输或存储过程中不会泄露敏感信息。通过这种方式，生物特征加密系统可以有效地克服生物特征数据中的噪声问题，实现更为安全、更为可靠的身份验证和数据保护。

但是，该系统的仍面临的挑选在于：如何选择一种最适合的通用纠错码，以在任何生物特征数据中进行纠错。解决这问题相当于能够在众多纠错码当中找出最优纠错码，最优纠错码即意味着其纠错能力最高，同时最少泄漏生物特征信息，以达到最高效，最安全的生物特征密码系统应用。

但是，这一问题显然是无解的，造成这一局面的主要原因是：生物特征数据具有内在的随机性，其分布模式难以预测。传统的纠错码设计主要强调在离散域内码字的分布，因为错误容忍能力依赖于成对码字之间的最小汉明距离。然而，生物特征数据的固有随机性则经常打破这一规律，导致生物特征数据与码字分布之间无法建立明确的联系，使得寻找生物特征密码系统中最优的纠错码变得极为困难。前述安全草图架构的纠错能力全赖于纠错码，而纠错码又受到相关的信息论界限的限制，因此开发出可应用于安全草图的通用纠错码的可能性相当小。换句话说，要解决安全草图的限制问题，首先需要解决信息论界限对纠错码的限制问题。

例如，图2显示了两种不同的分布（分布A和分布B）。分布A中的生物特征数据点分散得相当广，而分布B中的数据点则紧密聚集在一起。假设需要检查一个查询模板w'，并试图在分布A和B中找到与其最近的已注册模板w。对于分布A，选择一个具有较大错误容忍阈值t的纠错码可能是合适的，但在分布B中，这可能导致大量信息的丢失。因为在这种情况下，由于错误容忍阈值t相对较大，所有的邻近点（模板）都可能被误认为是同一模板，以进行纠错而暴露。另一方面，选择一个阈值t'较小的纠错码对于在分布B中找到其最近邻注册模板w是足够的，但对于在分布A中找到w却显得不足。这是因为阈值t'相对于t来说较小，只能容忍有限的错误（即在距离t'内的错误）。因此，考虑到生物特征信息本身的复杂性，基本上不存在能够在所有情况下有效地处理生物特征数据的随机分布的单一最优阈值（t或t'）。

基于安全草图的经典架构，本实施例将局部敏感哈希和最大似然译码技术相结合，提出一种新的基于U-Sketch的生物特征数据纠错方法。如图3所示，该方法使用注册生物特征模板w和一组独立的生成函数来生成多个独立的注册码字c₁，这些生成的码字可以被概念性地类比为一组锁。随后，对单个生成函数的位置进行随机排列，例如，。随机排列后的生成函数然后与生成的注册码字C一起存储在本地存储器中，这些生成的码字作为辅助数据。

在后续采用查询模板w'以进行验证时，可以先使用已随机排列后的生成函数生成等量的独立的查询码字将查询码字视为一组钥匙。当某一对码字显示最高的相关性时，即它们之间的汉明距离最小时，一个有效的“钥匙-锁配对”就此被建立。也就是说，每次使用特定的查询码字来确定与之相关性最高的已注册码字的位置过程中可以类比为用正确的钥匙打开一把锁，如果找到了所有锁盒钥匙之间的配对关系，就说明最终完成了生物特征数据的纠错。

结合图3可知，本实施例提供的生物特征数据纠错方法包括主要分为编码阶段和解码阶段两个主要过程。如图4所示，本实施例提供的方法具体包括如下步骤：

一、编码阶段：

为了应对生物特征数据的个体差异较大，特征分布不规则的特点，本实施例的方案将任何分布的生物特征数据转化为独立同分布（i.i.d）的码字，该使得本身实施例的方案几乎能够适合仍和类型的生物特征数据，而无需耗费大量资源去预估各种生物特征的原始数据分布。这克服了传统方法存在的特异性缺陷，使得该生物特征数据纠错方法的通用性明显增强。

为生成独立同分布的码字，本实施例采用了局部敏感哈希（LSH）的原理，基于随机投影技术设计了一个特别适合于处理实值生物特征的LSH。本实施例设计的哈希函数可以被称为基于余弦距离的LSH，具体描述如下：

给定单位范数的模板，随机投影技术使用随机选择的单位法向量v_i和 Signum 函数来定义单个LSH函数。这可以表示为

其中，为了确保函数的独立性，其关键于从均值为0，方差为1的正态分布中独立地抽取它们的投影向量v_i。

接下来，采用基于余弦距离的局部敏感哈希作为元函数，利用k个相互独立的元函数可以构成所需的元函数组G（w）：

。

重复前述调整单位法向量v_i生成新的元函数的步骤，可以继续获取n个相互独立的元函数组；将上述元函数组按照指定的顺序排列，可以构成所需的生成函数：

在生成函数中，元函数组共包含n×k个元函数；每个元函数均由不同的单位法向量v_i构造而成。

至此，本实施例获得了一个可以同步生成包含n个码字的码字集的生成函数。其中，生成的每个码字实质为一个k维向量。将注册模板或查询模板输入到生成函数中，就可以得到对应的注册码字集或查询码字集。本实施例中，注册码字集C和查询码字集中的每个码字的生成公式如下：

排列生成函数分别根据注册模板w和查询模板w'生成其在哈希域中的码字；注册模板w和查询模板w'在同一个元函数中生成的码字的差异概率ε表示如下：

由此可见，本实施例设计的生成函数能够生成遵循独立同分布随机变量的码字 c和，它们之间的预期汉明距离为，表示为他们的原始模板 (w, w') 之间的余弦距离的函数。

在编码阶段，还需要设计一个秘钥，本实施例中排列秘钥x是一个随机排列后的包含从1至n的n个整数的数组；。

根据一个预设的随机排列秘钥x可以对生成函数中的各个元函数组进行重新排列，重新排列过程就是根据排列秘钥随机改变生成函数中各个元函数组的位置；进而得到包含秘钥信息的排列生成函数。本实施例中采用的基于排列秘钥x的排列操作的表达式如下：

。

例如，假设原始的生成函数为，给定的排列秘钥利用排列秘钥对原始的生成函数进行重新排列，则得到的新的排列生成函数为

最后，本实施例将注册码字集 C和排列生成函数共同作为编码阶段的辅助数据p：

二、解码阶段：

本实施例中的解码阶段旨在恢复出注册阶段随机指定的排列秘钥。具体过程如下：

首先，获取任意用户的查询模板w'，并从对应用户的辅助数据p中获取排列生成函数。

其中，以查询模板w'为输入，通过排列生成函数生成一个查询码字集C'：

。

接着，对于从辅助数据中获取的每个已注册码字可以根据新生成的此查询码字的汉明距离最近的码字的索引（位置）来识别排列密钥的一个组成部分。因此，以汉明距离最近为指标，将查询码字集C'中的每个码字依次与注册码字集C的各个码字进行配对，进而获取每个查询码字的位置索引。按序排列位置索引得到恢复出的排列秘钥。

在本实施例中，查询码字集C'中任意码字的位置索引的计算公式如下：

本实施例的解码过程即最小距离解码（MDD），采用这种方式能够最优地纠正任何生物特征数据分布，因为它确保每个查询码字都能找到其最近的注册码字这意味着解码过程仅对最近的码字进行纠错。但是，由于本实施例方案在编码阶段采用了LSH进行编码，基于局部敏感哈希的特性，对最近的码字进行纠错等同于在原始生物特征数据中纠正最近的生物特征数据点。因此，本实施例通过最小距离解码进行噪声和错误信息纠错的策略，可以自适应地应用于不同的原始生物特征数据分布。

值得注意的是：在本实施例提供的U-Sketch的解码方案是基于最大似然译码（MLD），在不遵循特定错误容忍阈值 t 的情况下，最优地解码噪声码字。具体来说，当离散二值化的生物特征数据中的错误是独立同分布的时（此情况可以通过LSH函数来生成独立同分布码字达到），系统的信道类似于二进制对称信道（BSC），在该信道中，每个比特位置上的错误都以常数概率独立发生。这允许实施最大似然译码，相当于最小距离译码（MDD），在其中，通过选择有效码字c（最接近 c'）具有最小汉明距离来解码接收到的 c'。鉴于此，采用 MDD 有效地应对了安全草图中的两个主要挑战，即：（1）当纠错码阈值t较小时的低错误容忍能力较低问题。（2）当纠错码阈值t较大时的信息泄漏问题。

结合上述内容可以发现，本实施例提供的基于U-Sketch的生物特征数据纠错方法至少具有以下三个优点：

1、高效率

假设U-Sketch中“钥匙-锁配对”的数量为 n，值得注意的是，U-Sketch能够高效地推导出秘钥值。具体地说，在恢复秘钥过程中，每个秘钥值都与其中一个注册码字（锁）的位置有内在关联，使得可以使用相应的查询码字（钥匙）在最多步骤中恢复出一个秘钥值。对于 n 个查询码字，整个秘钥可以在最多步骤中恢复。

2、抵御破解能力强

将秘钥值与注册码字的位置关联起来可以最大化信道容量的利用，并提供指数级的密钥大小。这意味着本实施例在理论上可以提供的秘钥空间的总大小为 n!（即存在n!的可能性），随参数 n 的增大而呈指数增长。因此，当 n 增大时，对秘钥进行直接的暴力攻击迅速变得不可行。

3、隐私保密性好

该方案还具有零信息泄漏的辅助数据，不难想象，在每次生成新的秘钥表示时，除非知道码字位置是如何改变（排列）的，否则仅有的辅助数据不会泄露任何关于秘钥的信息。这种特性保证了在利用生物特征数据生成辅助数据的环境中，除非提供了有效的查询码字，否则不会从辅助数据中泄露任何关于秘钥的信息从而学习到w。

综上所述：本实施例提供的基于U-Sketch的生物特征数据纠错方法能在不受特定错误容忍阈值t限制的情况下，实现隐私安全保护与错误纠正的最大化平衡。而其具有的高效率特性还可以确保整个秘钥可以在最多步骤中恢复。

实施例2

在实施例1方案基础上，本实施例进一步提供一种基于U-Sketch的生物特征数据纠错系统，其应用于采用生物识别特征的验证系统中，用于对验证阶段采集到的用户生物识别特征的查询模板进行自动纠错。

如图5所示，该生物特征数据纠错系统包括：生成函数构造模块、排列秘钥生成模块、排列生成函数构造模块、辅助数据生成模块、信息查询模块，以及秘钥恢复模块。

信息查询模块用于获取用户在验证阶段提交的查询模板，以及注册阶段生成的辅助数据，并将查询模板输入到辅助数据中的排列生成函数中，得到对应的查询码字集；

实施例3

在前述实施例的基础上，本实施例进一步提供一种基于U-Sketch的生物特征数据纠错工具，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，创建出如实施例2的基于U-Sketch的生物特征数据纠错系统，进而在注册阶段根据注册用户输入的注册模板生成相应的辅助数据，并在验证阶段利用辅助数据以及注册用户输入的查询模板对用户的生物特征数据进行纠错。

本实施例提供的基于U-Sketch的生物特征数据纠错工具本质上是一种用于实现数据处理和指令生成的计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。本实施例中提供的计算机设备可以是能执行程序的智能终端、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器。

本实施例中，存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card ，SMC)，安全数字(SecureDigital ，SD)卡，闪存卡(Flash Card)等。当然，存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、图像处理器GPU(Graphics Processing Unit)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据。

性能测试

为了验证本实施例提供的基于U-Sketch的生物特征数据纠错方法的有效性，本实施例还制定了性能验证实验。

1、性能测试实验的说明

测试过程中采用一个预先训练好的CNN模型MagFace根据脸部图像生成脸部特征向量，并以此作为验证系统用生物特征模板，特征向量（w和w'）的维度为。测试过程采用正确接受率（GAR）和错误接受率（FAR）作为性能评估指标。其中，GAR表示系统正确通过已授权注册用户的比率，而FAR则表示未经授权的用户被授予访问权限的比率。

在测试过程，设置k=n的系统参数，考虑到残余熵与n成正比，本次通过设置k=N来尽量减少验证模型的参数数量，只留下单一的参数。即将码字长度（n）作为可以微调的参数。

本次验证U-Sketch在生物识别数据的纠错能力的评估实验在LFW、CFP、CMU-PIE，以及Color-FERET四个数据集上进行。其中，对于LFW和CFP，本次实验遵循1:1的验证，得出LFW的3000个真实测试分数和3000个冒名测试分数，以及CFP的3500个真实测试分数和3500个冒名测试分数。对于CMU-PIE和Color-FERET数据集，本次则遵循FVC协议，得出CMU-PIE的18768个真实测试分数和2278个冒名测试分数，以及Color-FERET的3654个真实分数和493521个冒名测试分数。

2、本案的性能评估结果

测试过程U-Sketch在不同数据集上的GAR如图6所示，从图6中可以发现：随着参数k=n的增长，U-Sketch在各数据集上的GAR逐渐收敛于100%，且在k=n＞200时，基本上已经在所有数据集上达到超过90%的水平，接近收敛。

U-Sketch在不同数据集上的GAR如图7所示，从图7中可以发现：U-Sketch方案在所有数据集上都保持了极低且稳定的FAR，并且在更“干净”的数据集，如CMU-PIE和LFW上，甚至可以达到0%的水平，这进一步凸显了本发明方案的稳健性和高性能。并体现出本发明方案完全可以应对在不同程度的噪声和多种数据集所带来的挑战。

3、本案与其他方案的性能对比

为了进一步评估本实施例提供的U-Sketch方案的性能，本次性能验证实验还设计了对比实验，对比本案以其它现有方案在不同数据集上的性能测试结果。其中，表1为各个对照组方案的说明：

表1：对比实验中个对照组的说明

本实验选择上述多个对照组的方案与本案在四个数据集上进行对比测试，测试的结果如表2所示：

表2：与对照组在不同数据集上的测试结果对比

分析表2中的数据可以发现：与其它文献中方案相比，本发明提供的U-Sketch在整体性能方面优于现有方法，并且还可以注意到，[47-49]中依靠基于深度学习的解码器来完成解码。[50]中基于迭代LDPC解码器来解码存储为加密散列的辅助数据，[51-53]采用了仅对特定错误阈值（t）有效的方案，以上方案在不同数据集中均存在局限性，且性能相对较差。而本实施例方案则在所有数据集的各类生物特征数据上均表现出良好的自纠错的性能，可以同时保持较高的识别精度（GAR）以及较低的错误接受率（FAR）。因此本实施例提供的基于U-Sketch的生物特征数据纠错方法可以作为各类基于生物识别特征的验证系统中实现特征纠错的通用解决方案。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于U-Sketch的生物特征数据纠错方法，其特征在于，其用于对采用生物识别特征的验证系统获取到的生物特征模板中的噪声或错误进行纠错，以提升系统的验证效率；所述生物特征数据纠错方法包括如下步骤：

一、编码阶段：

采用基于余弦距离的局部敏感哈希作为元函数h_i(w)，利用k个相互独立的元函数h_i(w)构成所需的元函数组G(w)：

上式中，w表示用户生物识别特征的注册模板；

获取n个相互独立的元函数组G_i(w)并按指定顺序排列，构成所需的生成函数：

根据一个预设的随机排列秘钥x对所述生成函数进行重新排列，得到排列生成函数；

以用户生物识别特征的注册模板w为输入，通过所述排列生成函数生成注册码字集C：

；

将所述注册码字集和排列生成函数共同作为编码阶段的辅助数据p：；

二、解码阶段：

获取任意用户的查询模板w'，并从对应用户的辅助数据p中获取所述排列生成函数；

以所述查询模板w'为输入，通过所述排列生成函数生成一个查询码字集：

；

以汉明距离最近为指标，将查询码字集中的每个码字依次与注册码字集C的各个码字进行配对，进而获取每个查询码字的位置索引；所述位置索引指与查询码字集中各个码字的汉明距离最近的注册码字在注册码字集中的位置；

按序排列所述位置索引得到恢复出的排列秘钥x'。

2.如权利要求1所述的基于U-Sketch的生物特征数据纠错方法，其特征在于：所述元函数的数学表达式如下：

；

3.如权利要求2所述的基于U-Sketch的生物特征数据纠错方法，其特征在于：构造出的生成函数中，元函数组共包含n×k个元函数；每个元函数均由不同的单位法向量v_i构造而成。

4.如权利要求3所述的基于U-Sketch的生物特征数据纠错方法，其特征在于：所述排列秘钥x是一个随机排列后的包含从1至n的n个整数的数组；

；

基于所述排列秘钥x的排列操作的表达式如下：

。

5.如权利要求4所述的基于U-Sketch的生物特征数据纠错方法，其特征在于：注册码字集C和查询码字集C'中的每个码字的生成公式如下：

。

6.如权利要求5所述的基于U-Sketch的生物特征数据纠错方法，其特征在于：查询码字集C'中任意码字c'的位置索引的计算公式如下：

；

7.如权利要求5所述的基于U-Sketch的生物特征数据纠错方法，其特征在于，在编码和解码阶段，排列生成函数分别根据注册模板w和查询模板w'生成其在哈希域中的码字；

注册模板w和查询模板w'在同一个元函数中生成的码字的差异概率表示如下：

；

和方差为。

8.如权利要求7所述的基于U-Sketch的生物特征数据纠错方法，其特征在于：在验证系统的秘钥恢复过程中，秘钥每一位上的秘钥值都与其中一个注册码字的位置有内在关联；配对过程中，单个查询码字在最多n步骤中恢复出一个秘钥值；对于长度为 n的查询码字集，则整个秘钥可以在最多n²步骤中恢复；将秘钥值与注册码字的位置关联起来后，长度为n的秘钥的信号容量为达到n!。

9.一种基于U-Sketch的生物特征数据纠错系统，其应用于采用生物识别特征的验证系统中，用于对验证阶段采集到的用户生物识别特征的查询模板进行自动纠错；其特征在于，所述生物特征数据纠错系统包括：

生成函数构造模块，其用于采用基于余弦距离的局部敏感哈希作为元函数，并对元函数中的单位法向量进行逐次调整，分别得到由k个元函数构成元函数组；然后将多个相互独立的原函数组按指定顺序排列，构成所需的生成函数；

排列秘钥生成模块，其用于生成一个随机排列的包含从1至n的n个整数的数组，并将其作为排列秘钥；

排列生成函数构造模块，其用于将所述排列秘钥作为位置索引，将所述生成函数中的每个元函数组的位置进行重新排列，得到一个所需的排列生成函数；

辅助数据生成模块，其用于获取任意注册用户在注册阶段提交的注册模板，并输入到所述排列生成函数中，输出一个对应的注册码字集，然后将注册码字集和所述排列生成函数共同作为注册用户的辅助数据；

信息查询模块，其用于获取用户在验证阶段提交的查询模板，以及注册阶段生成的辅助数据；并将查询模板输入到辅助数据中的排列生成函数中，得到对应的查询码字集；以及

秘钥恢复模块，其用于计算查询码字集与注册码字集中的各个码字之间的汉明距离，最后记录与查询码字集中各个码字的汉明距离最近的注册码字在注册码字集中的位置，即为对应的位置索引；按序排列所述位置索引得到恢复出的排列秘钥。

10.一种基于U-Sketch的生物特征数据纠错工具，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，创建出如权利要求9所述的基于U-Sketch的生物特征数据纠错系统，进而在注册阶段根据注册用户输入的注册模板生成相应的辅助数据，并在验证阶段利用辅助数据以及注册用户输入的查询模板恢复出纠错后的秘钥。