CN117273747A

CN117273747A - 基于人脸图像识别的支付方法、装置、存储介质和设备

Info

Publication number: CN117273747A
Application number: CN202311279767.8A
Authority: CN
Inventors: 何新安; 陈声棉; 郑卫群; 郭文智
Original assignee: Guangzhou Jiaxin Intelligent Technology Co ltd
Current assignee: Guangzhou Jiaxin Intelligent Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-22
Anticipated expiration: 2043-09-28
Also published as: CN117273747B

Abstract

本发明公开了一种基于人脸图像识别的支付方法、装置、存储介质和设备，包括步骤：S1：红外摄像头捕捉人脸图像，提取红外光谱人脸图像特征信息，并提示客户发出已可以支付的语音信息；S2：支付装置内置麦克风收集语音信息，并进行声纹特征提取；S3：将红外光谱人脸图像特征信息A_face与声纹特征A_voice结合，形成一维待识别特征向量A；S4：形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断；S5：训练好的深度神经网络孪生网络输出是否支付成功；S6：结束。本申请红外光谱人脸图像与声纹特征相结合，采用深度学习技术实现双重验证，以提高支付系统的安全性和准确性。

Description

基于人脸图像识别的支付方法、装置、存储介质和设备

技术领域

本发明涉及图像识别领域，具体涉及一种基于人脸图像识别的支付方法、装置、存储介质和设备。

背景技术

人脸识别支付是一种快速发展的生物识别技术，已经广泛应用于各种支付和身份验证场景。传统的人脸识别支付系统通常依赖于可见光图像，这些系统容易受到光照、角度和遮挡等因素的干扰，从而降低了准确性和安全性。人脸识别支付是一种基于人脸特征进行身份验证和支付的技术。它通过分析用户的面部特征来确认其身份，并进一步授权支付交易。然而，传统的可见光图像人脸识别支付系统受到环境因素、光照变化和角度问题的制约，容易产生误识别，降低了系统的可靠性。声纹识别是一种使用声音特征进行身份验证的技术。它通过分析语音的声波模式来确认用户的身份。声纹识别通常被认为是一种可靠的生物特征识别方法，但也受到噪音和录音攻击等挑战的影响。

且现有神经网络模型进行人脸识别时，没有考虑到根据多模态特征进行融合训练识别，进一步的没有对损失函数训练时根据红外光谱图像和声纹特征进行结合判断的方法，且损失函数调节过程较为缓慢；且红外光谱图像是一种用于捕捉人脸特征的先进成像技术。与可见光图像相比，红外光谱图像具有更高的鲁棒性，因为它们不受光照和角度的影响。红外光谱图像中的热分布特征可用于唯一识别个体。

发明内容

针对现有技术中提到的上述问题，为解决上述技术问题，本发明提供了一种基于人脸图像识别的支付方法、装置、存储介质和设备，该方法通过提供一种创新的支付系统，将红外光谱人脸图像与声纹特征相结合，采用深度学习技术实现双重验证，以提高支付系统的安全性和准确性。引入了红外光谱人脸图像作为一种生物特征，具有出色的鲁棒性，不受光照和角度变化的影响。同时，声纹特征的结合使得支付系统更具安全性，同时训练深度神经网络孪生网络采用的损失函数L结合两个特征，并通过w_f、w_v分别表示人脸特征和声纹特征的权重因子，大大提升了模型预测准确性，提高了支付准确度。

一种基于人脸图像识别的支付方法，包括步骤：

S1：红外摄像头捕捉人脸图像，提取红外光谱人脸图像特征信息，并提示客户发出已可以支付的语音信息；

S2：支付装置内置麦克风收集语音信息，并进行声纹特征提取；

S3：将红外光谱人脸图像特征信息A_face与声纹特征A_voice结合，形成一维待识别特征向量A；

S4：形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断；训练深度神经网络孪生网络采用的损失函数L为：

其中，P为存储在数据库中的正样本特征向量，A_face,i表示输入的人脸特征的第i个元素，P_face,i表示数据库中存储的人脸特征的第i个元素，A_voice,i表示输入的声纹特征的第i个元素，P_voice,i表示数据库中存储的声纹特征的第i个元素，w_f、w_v分别表示人脸特征和声纹特征的权重因子，N_i表示负样本的第i个特征，N表示训练样本对的数量，y_i表示标签，m是边界参数，用于控制正样本与负样本之间的距离的参数；

其中，n是特征向量的维度，将提取的特征与数据库中存储的特征进行比较，如果匹配成功，则执行支付操作；

S5：训练好的深度神经网络孪生网络输出是否支付成功；

S6：结束。

优选地，所述支付装置内置麦克风手机语音信息，并进行声纹特征提取，声纹特征包括说话速度V_s、说话音节之间的时间间隔R_i、在时间t的基频F₀(t)、在时间t的声音振幅A(t)；

R_i＝t_i+1-t_i

其中，N_w是说话内容中的词或音节数量，T是说话的总时间；t_i+1、t_i

分别表示第i+1个和第i个音节的开始时间。

优选地，所述提取红外光谱人脸图像特征信息，包括提取图像的温度均值T_avr、提取图像的温度方差F_var，提取图像的灰度图灰度均值；

其中，T(x_i)是图像中像素点x_i的温度值，K是像素的总数量；

优选地，所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构，输入层分为两个部分，一个用于接收红外光谱人脸图像特征，另一个用于接收声纹特征；输出层用于判断是否允许支付操作。

本申请还提供一种基于人脸图像识别的支付装置，包括：

红外摄像头捕捉人脸图像，提取红外光谱人脸图像特征信息，并提示客户发出已可以支付的语音信息；

麦克风语音收集模块，支付装置内置麦克风收集语音信息，并进行声纹特征提取；

将红外光谱人脸图像特征信息A_face与声纹特征A_voice结合，形成一维待识别特征向量A；

训练好的深度神经网络孪生网络训练识别模块，将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断；训练深度神经网络孪生网络采用的损失函数L为：

是否支付成功判别模块，训练好的深度神经网络孪生网络输出是否支付成功；

结束模块。

R_i＝t_i+1-t_i

分别表示第i+1个和第i个音节的开始时间。

其中，T(x_i)是图像中像素点x_i的温度值，K是像素的总数量；

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的一种基于人脸图像识别的支付方法。

本申请还提供一种基于人脸图像识别的支付方法设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的一种基于人脸图像识别的支付方法。

本发明提供了一种基于人脸图像识别的支付方法、装置、存储介质和设备，所能实现的有益技术效果如下：

1、本申请通过将红外光谱人脸图像特征信息A_face与声纹特征A_voice结合，形成一维待识别特征向量A；将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断数，引入了红外光谱人脸图像作为一种生物特征，具有出色的鲁棒性，不受光照和角度变化的影响。同时，声纹特征的结合使得支付系统更具安全性，同时训练深度神经网络孪生网络采用的损失函数L结合两个特征，并通过w_f、w_v分别表示人脸特征和声纹特征的权重因子，大大提升了模型预测准确性，提高了支付准确度。

2、本发明形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断；训练深度神经网络孪生网络采用的损失函数L为：

其中，P为存储在数据库中的正样本特征向量，A_face,i表示输入的人脸特征的第i个元素，P_face,i表示数据库中存储的人脸特征的第i个元素，A_voice,i表示输入的声纹特征的第i个元素，P_voice,i表示数据库中存储的声纹特征的第i个元素，w_f、w_v分别表示人脸特征和声纹特征的权重因子，N_i表示负样本的第i个特征，N表示训练样本对的数量，y_i表示标签，m是边界参数，用于控制正样本与负样本之间的距离的参数，实现了景点的自动推荐，通过w_f、w_v分别表示人脸特征和声纹特征的权重因子的设置，进而对当前识别情况进行判断，权重因子的加入，大大提高了支付准确度及用户满意度。

3、本发明通过将红外光谱人脸图像特征信息A_face与声纹特征A_voice结合，形成一维待识别特征向量A；S4：将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断；通过采用孪生网络对每个样本对进行训练，孪生网络的使用结合红外人脸图像和声纹特征，大大增强了孪生网络模型的计算准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明的一种基于人脸图像识别的支付方法步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

针对现有技术中提到的上述问题，为解决上述技术问题，如附图1所示：一种基于人脸图像识别的支付方法，包括步骤：

基于人脸图像识别的支付方法，其特征在于，包括步骤：

S1：红外摄像头捕捉人脸图像，提取红外光谱人脸图像特征信息，并提示客户发出已可以支付的语音信息；红外摄像头：一种专门用于捕捉红外光谱图像的摄像头。它能够检测并记录人脸的红外辐射，提供红外光谱图像。计算机或嵌入式设备：用于图像处理和特征提取的计算平台，可以运行深度学习模型。

购买人员站在支付装置前，准备进行支付。支付装置已经显示了支付金额和收款商店的信息。按下支付装置上的支付按钮，启动了支付过程。

支付装置的内置麦克风开始录制的语音信息，包括她说出的特定口令或短语。这段语音信息以数字音频形式传输到后端计算机或嵌入式设备。

在计算机上运行的深度学习模型接收到录制的语音信息。这个模型经过预训练，具有提取声纹特征的能力。

模型对录制的语音信息进行处理，提取声纹特征。声纹特征可能包括声音频率、声波模式和语音特征。提取的特征被组合成一个向量表示的声纹特征信息。

系统进一步验证提取的声纹特征与在系统中的注册信息匹配度。如果匹配成功，系统确认的声纹特征，完成了双重验证。

S3：将红外光谱人脸图像特征信息A_face与声纹特征A_voice结合，形成一维待识别特征向量A；将红外光谱图像的强度分布向量I和频谱分布向量F连接起来，形成一个新的向量IF。这可以通过简单地将两个向量连接在一起来实现，得到IF＝[I,F]。

将声音频率f和声音模式向量P连接起来，形成一个新的向量FP。同样，这可以通过将标量f与向量P连接在一起来实现，得到FP＝[f,P]。

最后，将向量IF和向量FP连接起来，形成一维待识别特征向量A。这可以通过将向量IF和向量FP连接在一起，得到A＝[IF,FP]。

S4：形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断；在一些实施例中，一维特征向量A输入到孪生网络的两个分支中，分别用于处理红外光谱人脸图像特征和声纹特征。这两个分支具有相同的网络结构和参数，因此被称为孪生网络。每个分支的孪生网络将特征向量A分别映射到高维特征空间中，以提取更高级的特征表示。这些特征表示捕获了红外光谱人脸图像特征和声纹特征的重要信息。孪生网络的特征提取层(卷积层、池化层等)用于捕获输入数据的有用特征表示。孪生网络的全连接层将提取的特征表示映射到一个共享的特征向量空间，这是两个子网络的输出，分别记为O1和O2。我们将两个子网络的输出特征向量O1和O2进行融合，以形成最终的特征向量Z。融合可以采用简单的操作，如连接(concatenation)或逐元素相加，也可以采用更复杂的操作，具体取决于问题的性质。特征向量Z被输入到一个输出层，通常是一个全连接层，用于进行识别判断。这个输出层生成一个概率分布，表示输入数据属于不同类别的概率。

深度神经网络孪生网络包含两个子网络，通常称为Siamese子网络。这两个子网络的结构相同，包括若干卷积层、池化层和全连接层。它们具有相同的参数和权重，因此被称为"孪生"。输入数据I和V分别通过两个孪生网络子网络，每个子网络负责处理其中一个输入。每个子网络将输入数据映射到高维特征空间中。在一些实施例中，先将多个特征首尾相接形成一维特征向量，然后输入到深度神经网络孪生网络，深度神经网络孪生网络根据输入的一维特征向量自动进行分段，例如分成两部分然后进行训练。

训练深度神经网络孪生网络采用的损失函数L为：

S5：训练好的深度神经网络孪生网络输出是否支付成功；

S6：结束。

在一些实施例中，所述支付装置内置麦克风手机语音信息，并进行声纹特征提取，声纹特征包括说话速度V_s、说话音节之间的时间间隔R_i、在时间t的基频F₀(t)、在时间t的声音振幅A(t)；

R_i＝t_i+1-t_i

分别表示第i+1个和第i个音节的开始时间。

在一些实施例中，所述提取红外光谱人脸图像特征信息，包括提取图像的温度均值T_avr、提取图像的温度方差F_var，提取图像的灰度图灰度均值；

其中，T(x_i)是图像中像素点x_i的温度值，K是像素的总数量；

在一些实施例中，所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构，输入层分为两个部分，一个用于接收红外光谱人脸图像特征，另一个用于接收声纹特征；输出层用于判断是否允许支付操作。

本申请还提供一种基于人脸图像识别的支付装置，包括：

结束模块。

R_i＝t_i+1-t_i

分别表示第i+1个和第i个音节的开始时间。基频是指声音的基本频率，通常用于描述声音的音调。我们可以使用基频估算算法(如自相关法或快速傅里叶变换)来计算每个帧中的基频。声音振幅表示声音的强度或音量，通常通过振幅调制来计算。

有一段语音信号，包含多个帧。以下是一些示例数据：

第1帧：N_1＝5个音节，T_1＝0.03秒

第2帧：N_2＝6个音节，T_2＝0.03秒

第3帧：N_3＝4个音节，T_3＝0.02秒

第4帧：N_4＝7个音节，T_4＝0.03秒。

其中，T(x_i)是图像中像素点x_i的温度值，K是像素的总数量；

以上对一种基于人脸图像识别的支付方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想；同时，对于本领域的一般技术人员，依据本发明的思想和方法，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于人脸图像识别的支付方法，其特征在于，包括步骤：

其中，P为存储在数据库中的正样本特征向量，A_face，i表示输入的人脸特征的第i个元素，P_face，i表示数据库中存储的人脸特征的第i个元素，A_voice，i表示输入的声纹特征的第i个元素，P_voice，i表示数据库中存储的声纹特征的第i个元素，w_f、w_v分别表示人脸特征和声纹特征的权重因子，N_i表示负样本的第i个特征，N表示训练样本对的数量，y_i表示标签，m是边界参数，用于控制正样本与负样本之间的距离的参数；

S5：训练好的深度神经网络孪生网络输出是否支付成功；

S6：结束。

2.如权利要求1所述的一种基于人脸图像识别的支付方法，其特征在于，所述支付装置内置麦克风手机语音信息，并进行声纹特征提取，声纹特征包括说话速度V_s、说话音节之间的时间间隔R_i、在时间t的基频F₀(t)、在时间t的声音振幅A(t)；

R_i＝t_i+1-t_i

分别表示第i+1个和第i个音节的开始时间。

3.如权利要求1所述的一种基于人脸图像识别的支付方法，其特征在于，所述提取红外光谱人脸图像特征信息，包括提取图像的温度均值T_avr、提取图像的温度方差F_var，提取图像的灰度图灰度均值；

其中，T(x_i)是图像中像素点x_i的温度值，K是像素的总数量；

4.如权利要求1所述的一种基于人脸图像识别的支付方法，其特征在于，所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构，输入层分为两个部分，一个用于接收红外光谱人脸图像特征，另一个用于接收声纹特征；输出层用于判断是否允许支付操作。

5.一种基于人脸图像识别的支付装置，其特征在于，包括：

结束模块。

6.如权利要求5所述的一种基于人脸图像识别的支付装置，其特征在于，所述支付装置内置麦克风手机语音信息，并进行声纹特征提取，声纹特征包括说话速度V_s、说话音节之间的时间间隔R_i、在时间t的基频F₀(t)、在时间t的声音振幅A(t)；

R_i＝t_i+1-t_i

分别表示第i+1个和第i个音节的开始时间。

7.如权利要求5所述的一种基于人脸图像识别的支付装置，其特征在于，所述提取红外光谱人脸图像特征信息，包括提取图像的温度均值T_avr、提取图像的温度方差F_var，提取图像的灰度图灰度均值；

其中，T(x_i)是图像中像素点x_i的温度值，K是像素的总数量；

8.如权利要求5所述的一种基于人脸图像识别的支付装置，其特征在于，所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构，输入层分为两个部分，一个用于接收红外光谱人脸图像特征，另一个用于接收声纹特征；输出层用于判断是否允许支付操作。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-4任一所述的一种基于人脸图像识别的支付方法。

10.一种基于人脸图像识别的支付方法设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-4任一所述的一种基于人脸图像识别的支付方法。