CN117576763A

CN117576763A - 云环境下基于声纹信息和人脸信息的身份识别方法及系统

Info

Publication number: CN117576763A
Application number: CN202410043109.7A
Authority: CN
Inventors: 张亮; 曹晓光; 李艾功; 郝春辉; 李娇娇; 刘涛; 吴志刚; 徐建忠; 卓艺暖
Original assignee: Hangzhou Shiping Information & Technology Co ltd
Current assignee: Hangzhou Shiping Information & Technology Co ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-02-20

Abstract

一种云环境下基于声纹信息和人脸信息的身份识别方法及系统，方法包括采集声纹信号与人脸图像信息；从声纹信号与人脸图像信息中提取声纹信号特征以及人脸图像特征；将声纹信号特征以及人脸图像特征按顺序拼接在一起，组成拼接特征向量；对拼接特征向量进行加密，将加密向量发送给云端服务器；云端服务器对接收到的加密向量进行比对验证，根据比对验证的结果进行决策。本发明将声纹信号特征与人脸图像特征按顺序拼接在一起，组成拼接特征向量，作为身份识别标准，提供更多的生物特征互为补充，从而提高了身份认证的稳定性和鲁棒性。本发明将声纹信号与人脸图像信息进行特征级别的融合，步骤简单，在进行身份识别的同时实现对用户数据的隐私保护。

Description

云环境下基于声纹信息和人脸信息的身份识别方法及系统

技术领域

本发明属于数据隐私与安全技术领域，具体涉及一种云环境下基于声纹信息和人脸信息的身份识别方法及系统。

背景技术

云环境下的云服务器提供强大的运算服务，可以进行高效率的特征比对任务。在云环境下进行身份识别时，有三个基本步骤：客户端采集用户信息；客户端对信息进行预处理，并将处理好的信息上传给云服务器；云服务器将接收到的信息与存储在云数据库中的信息进行特征比对，返回结果给客户端。

在客户端采集用户信息时，现有技术通常采集的是单模态生理特征信息，如人脸信息、指纹信息、虹膜信息、声音信息等或单一动作特征如笔迹、步态等。这样采集到的信息不仅容易通过重放攻击被伪造从而导致身份识别系统安全性不足，而且在实际应用中容易受到外界环境或自身不同状态干扰，导致身份识别准确率降低。

此外，用户隐私数据需要上传到不可信云服务器进行特征比对，存在隐私泄露风险。现有方式通常对单模态身份信息进行简单处理之后上传云端服务器和特征数据库，容易受到生成对抗网络攻击，攻击者仅通过截获特征向量就能还原出有效的原始信息。

发明内容

本发明的目的在于针对上述现有技术中的问题，提供一种云环境下基于声纹信息和人脸信息的身份识别方法及系统，将声纹信息和人脸信息在特征级别进行融合，既提供更多的生物特征互为补充，从而增加验证系统的稳定性和准确性，又在一定程度上提高个体身份的隐私保护，即使某一模态的信息受到泄露，攻击者仍然需要获取另一模态的信息才能进行成功的欺骗或入侵，该识别方法操作简单、稳定性好、准确率高且安全性强。

为了实现上述目的，本发明有如下的技术方案：

第一方面，提供一种云环境下基于声纹信息和人脸信息的身份识别方法，包括：

采集声纹信号与人脸图像信息；

从声纹信号与人脸图像信息中提取声纹信号特征以及人脸图像特征；

将声纹信号特征以及人脸图像特征按顺序拼接在一起，组成拼接特征向量；

对拼接特征向量进行加密，将得到的加密向量发送给云端服务器；

云端服务器对接收到的加密向量进行比对验证，根据比对验证的结果进行决策。

作为一种优选的方案，采集声纹信号的步骤，对采集到的声纹信号使用话音激活检测（VAD）算法检测出活动分段，再通过对活动分段进行组合和筛选，得到有效语音片段；

按下式使用信噪比SNR对活动分段进行组合和筛选：

SNR=10*lg(语音信号的能量/背景噪音能量)

根据背景噪音能量的大小情况确定信噪比SNR的标准对活动分段进行组合和筛选。

作为一种优选的方案，采集人脸图像信息的步骤，采集到的人脸图像大小为160*160像素，使用将像素值减去像素均值并除以标准差的方式对采集到的人脸图像进行归一化预处理。

作为一种优选的方案，使用梅尔频率倒谱系数（MFCC）从声纹信号中提取声纹信号特征，选择若干个滤波器、若干个离散余弦变换（DCT）系数，并考虑一阶和二阶差分动态特征个数，以滤波器系数、离散余弦变换（DCT）系数以及一阶和二阶差分动态特征个数总和为维数，将各帧声纹信号特征向量组合在一起，得到相应维数的声纹信号特征。

作为一种优选的方案，使用预训练好的人脸特征提取网络（FaceNet）从人脸图像信息中提取人脸图像特征。

作为一种优选的方案，所述对拼接特征向量进行加密的步骤，由客户端服务器通过密钥生成函数KeyGen(1^λ,s)，生成公钥pk、安全密钥sk、辅助计算密钥ek和旋转密钥rk，完成对拼接特征向量的加密。

作为一种优选的方案，所述云端服务器对接收到的加密向量进行比对验证的步骤包括：

客户端服务器对拥有系统权限的n个人员依次执行信息采集、特征提取、特征融合、特征加密四个步骤，得到n个加密的特征向量Y₁、Y₂、Y₃、……、Y_n，存储于云端数据库；

按下式分别计算加密向量与云端数据库中存储的n个加密的特征向量Y₁、Y₂、Y₃、……、Y_n之间的余弦相似度C₁、C₂、C₃、……、C_n：

C_i=Y_i /(||Y_i||*||/>||)

式中，Y_i 为特征向量Y_i与加密向量/>的点积，||Y_i||为特征向量Y_i的范数，||/>||为加密向量/>的范数；

将得到的余弦相似度C₁、C₂、C₃、……、C_n分别与阈值进行比较，若低于阈值，则判定比对成功，向客户端服务器发送比对成功信息；否则，向客户端服务器发送比对失败信息。

第二方面，提供一种云环境下基于声纹信息和人脸信息的身份识别系统，包括：

采集模块，用于采集声纹信号与人脸图像信息；

特征提取模块，用于从声纹信号与人脸图像信息中提取声纹信号特征以及人脸图像特征；

特征向量拼接模块，用于将声纹信号特征以及人脸图像特征按顺序拼接在一起，组成拼接特征向量；

加密模块，用于对拼接特征向量进行加密，将得到的加密向量发送给云端服务器；

比对验证模块，用于云端服务器对接收到的加密向量进行比对验证，根据比对验证的结果进行决策。

第三方面，提供一种电子设备，包括：

存储器，存储至少一个指令；及处理器，执行所述存储器中存储的指令以实现所述云环境下基于声纹信息和人脸信息的身份识别方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述云环境下基于声纹信息和人脸信息的身份识别方法。

相较于现有技术，本发明至少具有如下的有益效果：

单模态身份认证系统容易受到各种攻击，如仿冒、欺骗和攻击性算法，且对环境条件的敏感性较高。而现有的多模态身份认证系统步骤较为繁琐，系统效率上存在缺陷，并且较少考虑对用户数据隐私进行保护。本发明将声纹信号特征以及人脸图像特征按顺序拼接在一起，组成拼接特征向量，作为身份识别标准，提供了更多的生物特征互为补充，从而提高了身份认证的稳定性和鲁棒性。本发明将声纹信号与人脸图像信息进行特征级别的融合，步骤简单，在进行身份识别的同时实现了对用户数据的隐私保护，通过对拼接特征向量进行加密，将得到的加密向量发送给云端服务器，云端服务器对接收到的加密向量进行比对验证，根据比对验证的结果进行决策，即使某一模态的信息受到泄露，攻击者仍然需要获取另一模态的信息才能进行成功的欺骗或入侵，相比现有技术，本发明的效果更好、实用性更强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1 本发明实施例云环境下的云服务器之间数据交互示意图；

图2 本发明实施例客户端服务器对拥有系统权限的人员进行初始信息采集的流程图；

图3 本发明实施例云环境下基于声纹信息和人脸信息的身份识别方法流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

请参阅图1，本发明实施例提出一种云环境下基于声纹信息和人脸信息的身份识别方法，在云环境下涉及到三个实体：客户端服务器1、云端服务器2、云端数据库。其中，客户端服务器1执行信息采集、特征提取、特征融合、特征加密四个步骤，将处理后得到的加密特征向量交给云端服务器2进行特征比对，最后返回认证结果给客户端服务器1。

身份识别在许多领域和应用中都发挥着关键作用，提供了安全、便捷和高效的身份验证手段。身份识别可以分为单模态身份识别和多模态身份识别。单模态身份识别是指通过一种单一类型的生物特征或信息来识别和验证个体身份。常见的单模态身份识别方式包括人脸识别、指纹识别、虹膜识别、声纹识别等。每种方法都依赖于相应的生物特征。多模态身份识别是一种利用多种生物特征或传感器信息结合的方法，为提高系统性能、鲁棒性和安全性提供了关键的解决方案。多模态身份识别结合了多种生物特征或传感器信息，可以提高系统识别的准确性。通过综合考虑多个模态的信息，系统能够更全面地描述个体的身份特征，减少因单一模态受到影响而导致的误识别。其次，单一模态的身份识别系统可能受到环境变化、光照条件、姿态变化等因素的影响。多模态身份识别通过使用多个模态的信息，对抗单一模态的局限性，提高系统在复杂环境下的鲁棒性。多模态身份识别对于应对攻击和伪装具有一定的抵抗能力。攻击者难以同时伪装多个生物特征，因此，综合多个模态的信息可以增加系统对欺骗的防范能力。此外，多模态身份识别可以通过多种传感器或信息源进行身份验证，提高用户体验。用户无需过多的交互步骤，即可在不同情境下轻松完成身份验证。

在多模态身份识别中，融合不同模态的信息可以通过以下方式实现：

特征级融合：在特征级别，分别从不同模态的信息中提取特征，然后将这两组特征进行拼接或合并。这可以通过简单的向量拼接、加权求和等方式实现。

决策级融合：在决策级别，分别使用不同模态的信息进行独立的决策，然后将这两个决策结果进行融合。融合可以通过加权求和、逻辑运算等方式实现。

模型级融合：在模型级别，可以设计一个整合了不同模态信息的混合模型。这个混合模型可以同时处理不同模态的信息输入，并在混合模型的不同层次进行融合。

深度融合：利用深度学习方法，设计一个联合训练的神经网络，同时接受声纹信号与人脸图像信息输入，并在神经网络中进行多模态信息的融合。这可以通过共享层或使用多个分支来实现。

对于特征隐私保护，目前有基于同态加密、安全多方计算、差分隐私的隐私保护方案。同态加密旨在解决在不接触数据的前提下，对数据进行加工处理的问题。使用同态加密将数据加密后，对加密数据进行运算处理，之后对数据进行解密，解密结果等同于数据未进行加密，并进行同样的运算处理。同态加密（CKKS）方案是一种基于多项式环的全同态加密方案，支持加法和乘法运算，主要应用于处理实数或复数的同态计算。安全多方计算旨在允许多个参与方在不揭示私有输入的情况下进行合作计算。差分隐私的核心思想是通过在计算中引入噪音，以保护个体的隐私，同时保持对整体趋势的可靠分析。

公开号为CN109711350A的专利申请提出一种基于唇部运动和语音融合的身份认证方法，解决现有单模态身份认证技术的缺陷，通过利用用户说话时的唇部运动和声音构建多模态身份认证系统，可以为用户提供更加安全、可靠、高效的保护。但该方法在实际应用中唇部运动特征在稳定性和标识性上不如像声音、人脸等生理特征，在稳定性和准确率上存在缺陷。

公开号为CN112766197A的专利申请提出一种基于隐私保护的人脸识别方法及装置，通过将脱敏后的平面人脸图像和深度人脸图像进行组合得到目标人脸图像进行人脸识别。但该方法需要对图像进行脱敏、组合等操作，步骤较为繁琐，系统效率上存在缺陷。

公开号为CN117197851A的专利申请提出了一种多模态人脸识别的方法、装置及智能门锁，在多模态人脸识别的方法中，人脸识别装置包括多通道摄像头，红外摄像头和数据处理模块，通过将人脸图像和红外图像进行匹配得到深度图像，从而实现人脸识别身份认证。该方法未对隐私数据采取保护措施，存在隐私信息泄露的安全隐患。

综上所述，现有的身份识别方案主要存在以下问题：单模态身份认证系统容易受到各种攻击如仿冒、欺骗和攻击性算法，且对环境条件的敏感性较高。而现有的多模态身份认证方法步骤较为繁琐，系统效率上存在缺陷，并且较少考虑对用户数据隐私进行保护。

本发明实施例提出一种云环境下基于声纹信息和人脸信息的身份识别方法，针对于解决以上现有技术存在的问题，具有操作简单、稳定性好、准确率高、安全性强的特点。

本发明基于同态加密（CKKS）方案，首先进行系统初始化，即客户端服务器1对拥有系统权限的人员进行初始信息采集，具体过程如图2所示，包括以下步骤：

客户端服务器1通过密钥生成函数KeyGen(1^λ,s)，生成公钥pk，安全密钥sk，辅助计算密钥ek和旋转密钥rk。其中，1^λ是安全参数，s是密文的时隙数。客户端服务器1对拥有系统权限的n个人员依次执行信息采集、特征提取、特征融合、特征加密四个步骤，得到n个加密的特征向量Y₁、Y₂、Y₃、……、Y_n，存储于云端数据库。

其中，对拥有系统权限的n个人员依次执行信息采集、特征提取、特征融合、特征加密的具体过程与下文客户端服务器1和云端服务器2之间进行身份识别时一致。

进行身份识别时，客户端服务器1和云端服务器2之间执行两次数据传输，包括：

第一部分、首先由客户端服务器1执行操作：

1、信息采集。

a)声纹信号采集。使用麦克风采集用户的声音信号，使用话音激活检测（VAD）算法检测出可能的活动分段，对这些活动分段进行组合和筛选，得到有效语音片段。

具体来说，使用信噪比SNR进行活动分段的组合和筛选。计算公式为：

SNR=10*lg(语音信号的能量/背景噪音能量)（1）

在室内静音环境下，信噪比SNR应该至少在10dB到15dB以上，以确保语音信号相对较清晰。在嘈杂的环境中，可能需要更高的信噪比SNR。

b)人脸图像信息采集。使用摄像头采集用户的人脸图像信息，人脸图像大小为160*160像素，使用将像素值减去像素均值并除以标准差的方式对采集到的人脸图像进行归一化预处理。

2、特征提取。

a)使用梅尔频率倒谱系数（MFCC）进行声纹信号特征提取。

选择20个滤波器，保留13个离散余弦变换（DCT）系数，并考虑一阶和二阶差分动态特征个数，则每个帧的特征向量包括20个滤波器系数、13个离散余弦变换（DCT）系数和 26个动态特征（一阶和二阶差分），共59维。将各帧声纹信号特征向量组合在一起，得到59维的嵌入特征X₁。

b)使用预训练好的人脸特征提取网络（FaceNet）从人脸图像信息中提取人脸图像特征，得到128维的嵌入特征X₂。

3、特征融合。

将声纹信息和人脸信息的两个特征向量按顺序拼接在一起，形成一个187维的特征向量X={ X₁, X₂}。

4、特征加密。

通过加密算法Enc(pk,X)，使用密钥k加密向量X，将结果记为。

5、发送加密后的特征向量给云端服务器2。

第二部分、云端服务器2执行操作：

1、向量余弦相似度计算。分别计算向量与云端数据库中存储的n个加密的特征向量Y₁、Y₂、Y₃、……、Y_n的余弦相似度C₁、C₂、C₃、……、C_n，计算公式为：

C_i=Y_i /(||Y_i||*||/>||)（2）

其中，Y_i 为向量Y_i与向量/>的点积，||Y_i||为向量Y_i的范数，||/>||为向量/>的范数。

2、阈值比较。

将得到的余弦相似度C₁、C₂、C₃、……、C_n分别与阈值进行比较，若低于阈值，则比对成功，向客户端服务器1发送比对成功信息；否则，向客户端服务器1发送比对失败信息。

第三部分、客户端服务器1根据接收到的比对结果进行决策。

本发明另一实施例还提出一种云环境下基于声纹信息和人脸信息的身份识别系统，包括：

采集模块，用于采集声纹信号与人脸图像信息；

本发明另一实施例还提出一种电子设备，包括：

本发明另一实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述云环境下基于声纹信息和人脸信息的身份识别方法。

示例性的，所述存储器中存储的指令可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在计算机可读存储介质中，并由所述处理器执行，以完成本发明云环境下基于声纹信息和人脸信息的身份识别方法。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机程序在服务器中的执行过程。

所述电子设备可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述电子设备还可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(CentraL Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitaL SignaL Processor，DSP)、专用集成电路(AppLication Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieLd-ProgrammabLe Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可以是所述服务器的内部存储单元，例如服务器的硬盘或内存。所述存储器也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(Smart Media Card ,SMC) ，安全数字(Secure DigitaL ,SD)卡，闪存卡(FLashCard)等。进一步地，所述存储器还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述模块单元之间的信息交互、执行过程等内容，由于与方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种云环境下基于声纹信息和人脸信息的身份识别方法，其特征在于，包括：

采集声纹信号与人脸图像信息；

2.根据权利要求1所述云环境下基于声纹信息和人脸信息的身份识别方法，其特征在于，采集声纹信号的步骤，对采集到的声纹信号使用话音激活检测算法检测出活动分段，再通过对活动分段进行组合和筛选，得到有效语音片段；

按下式使用信噪比SNR对活动分段进行组合和筛选：

SNR=10*lg(语音信号的能量/背景噪音能量)

3.根据权利要求1所述云环境下基于声纹信息和人脸信息的身份识别方法，其特征在于，采集人脸图像信息的步骤，采集到的人脸图像大小为160*160像素，使用将像素值减去像素均值并除以标准差的方式对采集到的人脸图像进行归一化预处理。

4.根据权利要求1所述云环境下基于声纹信息和人脸信息的身份识别方法，其特征在于，使用梅尔频率倒谱系数从声纹信号中提取声纹信号特征，选择若干个滤波器、若干个离散余弦变换系数，并考虑一阶和二阶差分动态特征个数，以滤波器系数、离散余弦变换系数以及一阶和二阶差分动态特征个数总和为维数，将各帧声纹信号特征向量组合在一起，得到相应维数的声纹信号特征。

5.根据权利要求1所述云环境下基于声纹信息和人脸信息的身份识别方法，其特征在于，使用预训练好的人脸特征提取网络从人脸图像信息中提取人脸图像特征。

6.根据权利要求1所述云环境下基于声纹信息和人脸信息的身份识别方法，其特征在于，所述对拼接特征向量进行加密的步骤，由客户端服务器通过密钥生成函数KeyGen(1^λ,s)，生成公钥pk、安全密钥sk、辅助计算密钥ek和旋转密钥rk，完成对拼接特征向量的加密。

7.根据权利要求6所述云环境下基于声纹信息和人脸信息的身份识别方法，其特征在于，所述云端服务器对接收到的加密向量进行比对验证的步骤包括：

C_i=Y_i /(||Y_i||*||/>||)

8.一种云环境下基于声纹信息和人脸信息的身份识别系统，其特征在于，包括：

采集模块，用于采集声纹信号与人脸图像信息；

9.一种电子设备，其特征在于，包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述云环境下基于声纹信息和人脸信息的身份识别方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述云环境下基于声纹信息和人脸信息的身份识别方法。