CN117273747A - 基于人脸图像识别的支付方法、装置、存储介质和设备 - Google Patents

基于人脸图像识别的支付方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN117273747A
CN117273747A CN202311279767.8A CN202311279767A CN117273747A CN 117273747 A CN117273747 A CN 117273747A CN 202311279767 A CN202311279767 A CN 202311279767A CN 117273747 A CN117273747 A CN 117273747A
Authority
CN
China
Prior art keywords
face image
face
voiceprint
features
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311279767.8A
Other languages
English (en)
Other versions
CN117273747B (zh
Inventor
何新安
陈声棉
郑卫群
郭文智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jiaxin Intelligent Technology Co ltd
Original Assignee
Guangzhou Jiaxin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jiaxin Intelligent Technology Co ltd filed Critical Guangzhou Jiaxin Intelligent Technology Co ltd
Priority to CN202311279767.8A priority Critical patent/CN117273747B/zh
Publication of CN117273747A publication Critical patent/CN117273747A/zh
Application granted granted Critical
Publication of CN117273747B publication Critical patent/CN117273747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4014Identity check for transactions
    • G06Q20/40145Biometric identity checks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于人脸图像识别的支付方法、装置、存储介质和设备,包括步骤:S1:红外摄像头捕捉人脸图像,提取红外光谱人脸图像特征信息,并提示客户发出已可以支付的语音信息;S2:支付装置内置麦克风收集语音信息,并进行声纹特征提取;S3:将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;S4:形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;S5:训练好的深度神经网络孪生网络输出是否支付成功;S6:结束。本申请红外光谱人脸图像与声纹特征相结合,采用深度学习技术实现双重验证,以提高支付系统的安全性和准确性。

Description

基于人脸图像识别的支付方法、装置、存储介质和设备
技术领域
本发明涉及图像识别领域,具体涉及一种基于人脸图像识别的支付方法、装置、存储介质和设备。
背景技术
人脸识别支付是一种快速发展的生物识别技术,已经广泛应用于各种支付和身份验证场景。传统的人脸识别支付系统通常依赖于可见光图像,这些系统容易受到光照、角度和遮挡等因素的干扰,从而降低了准确性和安全性。人脸识别支付是一种基于人脸特征进行身份验证和支付的技术。它通过分析用户的面部特征来确认其身份,并进一步授权支付交易。然而,传统的可见光图像人脸识别支付系统受到环境因素、光照变化和角度问题的制约,容易产生误识别,降低了系统的可靠性。声纹识别是一种使用声音特征进行身份验证的技术。它通过分析语音的声波模式来确认用户的身份。声纹识别通常被认为是一种可靠的生物特征识别方法,但也受到噪音和录音攻击等挑战的影响。
且现有神经网络模型进行人脸识别时,没有考虑到根据多模态特征进行融合训练识别,进一步的没有对损失函数训练时根据红外光谱图像和声纹特征进行结合判断的方法,且损失函数调节过程较为缓慢;且红外光谱图像是一种用于捕捉人脸特征的先进成像技术。与可见光图像相比,红外光谱图像具有更高的鲁棒性,因为它们不受光照和角度的影响。红外光谱图像中的热分布特征可用于唯一识别个体。
发明内容
针对现有技术中提到的上述问题,为解决上述技术问题,本发明提供了一种基于人脸图像识别的支付方法、装置、存储介质和设备,该方法通过提供一种创新的支付系统,将红外光谱人脸图像与声纹特征相结合,采用深度学习技术实现双重验证,以提高支付系统的安全性和准确性。引入了红外光谱人脸图像作为一种生物特征,具有出色的鲁棒性,不受光照和角度变化的影响。同时,声纹特征的结合使得支付系统更具安全性,同时训练深度神经网络孪生网络采用的损失函数L结合两个特征,并通过wf、wv分别表示人脸特征和声纹特征的权重因子,大大提升了模型预测准确性,提高了支付准确度。
一种基于人脸图像识别的支付方法,包括步骤:
S1:红外摄像头捕捉人脸图像,提取红外光谱人脸图像特征信息,并提示客户发出已可以支付的语音信息;
S2:支付装置内置麦克风收集语音信息,并进行声纹特征提取;
S3:将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;
S4:形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;训练深度神经网络孪生网络采用的损失函数L为:
其中,P为存储在数据库中的正样本特征向量,Aface,i表示输入的人脸特征的第i个元素,Pface,i表示数据库中存储的人脸特征的第i个元素,Avoice,i表示输入的声纹特征的第i个元素,Pvoice,i表示数据库中存储的声纹特征的第i个元素,wf、wv分别表示人脸特征和声纹特征的权重因子,Ni表示负样本的第i个特征,N表示训练样本对的数量,yi表示标签,m是边界参数,用于控制正样本与负样本之间的距离的参数;
其中,n是特征向量的维度,将提取的特征与数据库中存储的特征进行比较,如果匹配成功,则执行支付操作;
S5:训练好的深度神经网络孪生网络输出是否支付成功;
S6:结束。
优选地,所述支付装置内置麦克风手机语音信息,并进行声纹特征提取,声纹特征包括说话速度Vs、说话音节之间的时间间隔Ri、在时间t的基频F0(t)、在时间t的声音振幅A(t);
Ri=ti+1-ti
其中,Nw是说话内容中的词或音节数量,T是说话的总时间;ti+1、ti
分别表示第i+1个和第i个音节的开始时间。
优选地,所述提取红外光谱人脸图像特征信息,包括提取图像的温度均值Tavr、提取图像的温度方差Fvar,提取图像的灰度图灰度均值;
其中,T(xi)是图像中像素点xi的温度值,K是像素的总数量;
优选地,所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构,输入层分为两个部分,一个用于接收红外光谱人脸图像特征,另一个用于接收声纹特征;输出层用于判断是否允许支付操作。
本申请还提供一种基于人脸图像识别的支付装置,包括:
红外摄像头捕捉人脸图像,提取红外光谱人脸图像特征信息,并提示客户发出已可以支付的语音信息;
麦克风语音收集模块,支付装置内置麦克风收集语音信息,并进行声纹特征提取;
将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;
训练好的深度神经网络孪生网络训练识别模块,将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;训练深度神经网络孪生网络采用的损失函数L为:
其中,P为存储在数据库中的正样本特征向量,Aface,i表示输入的人脸特征的第i个元素,Pface,i表示数据库中存储的人脸特征的第i个元素,Avoice,i表示输入的声纹特征的第i个元素,Pvoice,i表示数据库中存储的声纹特征的第i个元素,wf、wv分别表示人脸特征和声纹特征的权重因子,Ni表示负样本的第i个特征,N表示训练样本对的数量,yi表示标签,m是边界参数,用于控制正样本与负样本之间的距离的参数;
其中,n是特征向量的维度,将提取的特征与数据库中存储的特征进行比较,如果匹配成功,则执行支付操作;
是否支付成功判别模块,训练好的深度神经网络孪生网络输出是否支付成功;
结束模块。
优选地,所述支付装置内置麦克风手机语音信息,并进行声纹特征提取,声纹特征包括说话速度Vs、说话音节之间的时间间隔Ri、在时间t的基频F0(t)、在时间t的声音振幅A(t);
Ri=ti+1-ti
其中,Nw是说话内容中的词或音节数量,T是说话的总时间;ti+1、ti
分别表示第i+1个和第i个音节的开始时间。
优选地,所述提取红外光谱人脸图像特征信息,包括提取图像的温度均值Tavr、提取图像的温度方差Fvar,提取图像的灰度图灰度均值;
其中,T(xi)是图像中像素点xi的温度值,K是像素的总数量;
优选地,所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构,输入层分为两个部分,一个用于接收红外光谱人脸图像特征,另一个用于接收声纹特征;输出层用于判断是否允许支付操作。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的一种基于人脸图像识别的支付方法。
本申请还提供一种基于人脸图像识别的支付方法设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的一种基于人脸图像识别的支付方法。
本发明提供了一种基于人脸图像识别的支付方法、装置、存储介质和设备,所能实现的有益技术效果如下:
1、本申请通过将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断数,引入了红外光谱人脸图像作为一种生物特征,具有出色的鲁棒性,不受光照和角度变化的影响。同时,声纹特征的结合使得支付系统更具安全性,同时训练深度神经网络孪生网络采用的损失函数L结合两个特征,并通过wf、wv分别表示人脸特征和声纹特征的权重因子,大大提升了模型预测准确性,提高了支付准确度。
2、本发明形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;训练深度神经网络孪生网络采用的损失函数L为:
其中,P为存储在数据库中的正样本特征向量,Aface,i表示输入的人脸特征的第i个元素,Pface,i表示数据库中存储的人脸特征的第i个元素,Avoice,i表示输入的声纹特征的第i个元素,Pvoice,i表示数据库中存储的声纹特征的第i个元素,wf、wv分别表示人脸特征和声纹特征的权重因子,Ni表示负样本的第i个特征,N表示训练样本对的数量,yi表示标签,m是边界参数,用于控制正样本与负样本之间的距离的参数,实现了景点的自动推荐,通过wf、wv分别表示人脸特征和声纹特征的权重因子的设置,进而对当前识别情况进行判断,权重因子的加入,大大提高了支付准确度及用户满意度。
3、本发明通过将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;S4:将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;通过采用孪生网络对每个样本对进行训练,孪生网络的使用结合红外人脸图像和声纹特征,大大增强了孪生网络模型的计算准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的一种基于人脸图像识别的支付方法步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
针对现有技术中提到的上述问题,为解决上述技术问题,如附图1所示:一种基于人脸图像识别的支付方法,包括步骤:
基于人脸图像识别的支付方法,其特征在于,包括步骤:
S1:红外摄像头捕捉人脸图像,提取红外光谱人脸图像特征信息,并提示客户发出已可以支付的语音信息;红外摄像头:一种专门用于捕捉红外光谱图像的摄像头。它能够检测并记录人脸的红外辐射,提供红外光谱图像。计算机或嵌入式设备:用于图像处理和特征提取的计算平台,可以运行深度学习模型。
S2:支付装置内置麦克风收集语音信息,并进行声纹特征提取;
购买人员站在支付装置前,准备进行支付。支付装置已经显示了支付金额和收款商店的信息。按下支付装置上的支付按钮,启动了支付过程。
支付装置的内置麦克风开始录制的语音信息,包括她说出的特定口令或短语。这段语音信息以数字音频形式传输到后端计算机或嵌入式设备。
在计算机上运行的深度学习模型接收到录制的语音信息。这个模型经过预训练,具有提取声纹特征的能力。
模型对录制的语音信息进行处理,提取声纹特征。声纹特征可能包括声音频率、声波模式和语音特征。提取的特征被组合成一个向量表示的声纹特征信息。
系统进一步验证提取的声纹特征与在系统中的注册信息匹配度。如果匹配成功,系统确认的声纹特征,完成了双重验证。
S3:将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;将红外光谱图像的强度分布向量I和频谱分布向量F连接起来,形成一个新的向量IF。这可以通过简单地将两个向量连接在一起来实现,得到IF=[I,F]。
将声音频率f和声音模式向量P连接起来,形成一个新的向量FP。同样,这可以通过将标量f与向量P连接在一起来实现,得到FP=[f,P]。
最后,将向量IF和向量FP连接起来,形成一维待识别特征向量A。这可以通过将向量IF和向量FP连接在一起,得到A=[IF,FP]。
S4:形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;在一些实施例中,一维特征向量A输入到孪生网络的两个分支中,分别用于处理红外光谱人脸图像特征和声纹特征。这两个分支具有相同的网络结构和参数,因此被称为孪生网络。每个分支的孪生网络将特征向量A分别映射到高维特征空间中,以提取更高级的特征表示。这些特征表示捕获了红外光谱人脸图像特征和声纹特征的重要信息。孪生网络的特征提取层(卷积层、池化层等)用于捕获输入数据的有用特征表示。孪生网络的全连接层将提取的特征表示映射到一个共享的特征向量空间,这是两个子网络的输出,分别记为O1和O2。我们将两个子网络的输出特征向量O1和O2进行融合,以形成最终的特征向量Z。融合可以采用简单的操作,如连接(concatenation)或逐元素相加,也可以采用更复杂的操作,具体取决于问题的性质。特征向量Z被输入到一个输出层,通常是一个全连接层,用于进行识别判断。这个输出层生成一个概率分布,表示输入数据属于不同类别的概率。
深度神经网络孪生网络包含两个子网络,通常称为Siamese子网络。这两个子网络的结构相同,包括若干卷积层、池化层和全连接层。它们具有相同的参数和权重,因此被称为"孪生"。输入数据I和V分别通过两个孪生网络子网络,每个子网络负责处理其中一个输入。每个子网络将输入数据映射到高维特征空间中。在一些实施例中,先将多个特征首尾相接形成一维特征向量,然后输入到深度神经网络孪生网络,深度神经网络孪生网络根据输入的一维特征向量自动进行分段,例如分成两部分然后进行训练。
训练深度神经网络孪生网络采用的损失函数L为:
其中,P为存储在数据库中的正样本特征向量,Aface,i表示输入的人脸特征的第i个元素,Pface,i表示数据库中存储的人脸特征的第i个元素,Avoice,i表示输入的声纹特征的第i个元素,Pvoice,i表示数据库中存储的声纹特征的第i个元素,wf、wv分别表示人脸特征和声纹特征的权重因子,Ni表示负样本的第i个特征,N表示训练样本对的数量,yi表示标签,m是边界参数,用于控制正样本与负样本之间的距离的参数;
其中,n是特征向量的维度,将提取的特征与数据库中存储的特征进行比较,如果匹配成功,则执行支付操作;
S5:训练好的深度神经网络孪生网络输出是否支付成功;
S6:结束。
在一些实施例中,所述支付装置内置麦克风手机语音信息,并进行声纹特征提取,声纹特征包括说话速度Vs、说话音节之间的时间间隔Ri、在时间t的基频F0(t)、在时间t的声音振幅A(t);
Ri=ti+1-ti
其中,Nw是说话内容中的词或音节数量,T是说话的总时间;ti+1、ti
分别表示第i+1个和第i个音节的开始时间。
在一些实施例中,所述提取红外光谱人脸图像特征信息,包括提取图像的温度均值Tavr、提取图像的温度方差Fvar,提取图像的灰度图灰度均值;
其中,T(xi)是图像中像素点xi的温度值,K是像素的总数量;
在一些实施例中,所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构,输入层分为两个部分,一个用于接收红外光谱人脸图像特征,另一个用于接收声纹特征;输出层用于判断是否允许支付操作。
本申请还提供一种基于人脸图像识别的支付装置,包括:
红外摄像头捕捉人脸图像,提取红外光谱人脸图像特征信息,并提示客户发出已可以支付的语音信息;
麦克风语音收集模块,支付装置内置麦克风收集语音信息,并进行声纹特征提取;
将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;
训练好的深度神经网络孪生网络训练识别模块,将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;训练深度神经网络孪生网络采用的损失函数L为:
其中,P为存储在数据库中的正样本特征向量,Aface,i表示输入的人脸特征的第i个元素,Pface,i表示数据库中存储的人脸特征的第i个元素,Avoice,i表示输入的声纹特征的第i个元素,Pvoice,i表示数据库中存储的声纹特征的第i个元素,wf、wv分别表示人脸特征和声纹特征的权重因子,Ni表示负样本的第i个特征,N表示训练样本对的数量,yi表示标签,m是边界参数,用于控制正样本与负样本之间的距离的参数;
其中,n是特征向量的维度,将提取的特征与数据库中存储的特征进行比较,如果匹配成功,则执行支付操作;
是否支付成功判别模块,训练好的深度神经网络孪生网络输出是否支付成功;
结束模块。
在一些实施例中,所述支付装置内置麦克风手机语音信息,并进行声纹特征提取,声纹特征包括说话速度Vs、说话音节之间的时间间隔Ri、在时间t的基频F0(t)、在时间t的声音振幅A(t);
Ri=ti+1-ti
其中,Nw是说话内容中的词或音节数量,T是说话的总时间;ti+1、ti
分别表示第i+1个和第i个音节的开始时间。基频是指声音的基本频率,通常用于描述声音的音调。我们可以使用基频估算算法(如自相关法或快速傅里叶变换)来计算每个帧中的基频。声音振幅表示声音的强度或音量,通常通过振幅调制来计算。
有一段语音信号,包含多个帧。以下是一些示例数据:
第1帧:N_1=5个音节,T_1=0.03秒
第2帧:N_2=6个音节,T_2=0.03秒
第3帧:N_3=4个音节,T_3=0.02秒
第4帧:N_4=7个音节,T_4=0.03秒。
在一些实施例中,所述提取红外光谱人脸图像特征信息,包括提取图像的温度均值Tavr、提取图像的温度方差Fvar,提取图像的灰度图灰度均值;
其中,T(xi)是图像中像素点xi的温度值,K是像素的总数量;
在一些实施例中,所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构,输入层分为两个部分,一个用于接收红外光谱人脸图像特征,另一个用于接收声纹特征;输出层用于判断是否允许支付操作。
本发明提供了一种基于人脸图像识别的支付方法、装置、存储介质和设备,所能实现的有益技术效果如下:
1、本申请通过将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断数,引入了红外光谱人脸图像作为一种生物特征,具有出色的鲁棒性,不受光照和角度变化的影响。同时,声纹特征的结合使得支付系统更具安全性,同时训练深度神经网络孪生网络采用的损失函数L结合两个特征,并通过wf、wv分别表示人脸特征和声纹特征的权重因子,大大提升了模型预测准确性,提高了支付准确度。
2、本发明形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;训练深度神经网络孪生网络采用的损失函数L为:
其中,P为存储在数据库中的正样本特征向量,Aface,i表示输入的人脸特征的第i个元素,Pface,i表示数据库中存储的人脸特征的第i个元素,Avoice,i表示输入的声纹特征的第i个元素,Pvoice,i表示数据库中存储的声纹特征的第i个元素,wf、wv分别表示人脸特征和声纹特征的权重因子,Ni表示负样本的第i个特征,N表示训练样本对的数量,yi表示标签,m是边界参数,用于控制正样本与负样本之间的距离的参数,实现了景点的自动推荐,通过wf、wv分别表示人脸特征和声纹特征的权重因子的设置,进而对当前识别情况进行判断,权重因子的加入,大大提高了支付准确度及用户满意度。
3、本发明通过将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;S4:将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;通过采用孪生网络对每个样本对进行训练,孪生网络的使用结合红外人脸图像和声纹特征,大大增强了孪生网络模型的计算准确度。
以上对一种基于人脸图像识别的支付方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想和方法,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于人脸图像识别的支付方法,其特征在于,包括步骤:
S1:红外摄像头捕捉人脸图像,提取红外光谱人脸图像特征信息,并提示客户发出已可以支付的语音信息;
S2:支付装置内置麦克风收集语音信息,并进行声纹特征提取;
S3:将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;
S4:形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;训练深度神经网络孪生网络采用的损失函数L为:
其中,P为存储在数据库中的正样本特征向量,Aface,i表示输入的人脸特征的第i个元素,Pface,i表示数据库中存储的人脸特征的第i个元素,Avoice,i表示输入的声纹特征的第i个元素,Pvoice,i表示数据库中存储的声纹特征的第i个元素,wf、wv分别表示人脸特征和声纹特征的权重因子,Ni表示负样本的第i个特征,N表示训练样本对的数量,yi表示标签,m是边界参数,用于控制正样本与负样本之间的距离的参数;
其中,n是特征向量的维度,将提取的特征与数据库中存储的特征进行比较,如果匹配成功,则执行支付操作;
S5:训练好的深度神经网络孪生网络输出是否支付成功;
S6:结束。
2.如权利要求1所述的一种基于人脸图像识别的支付方法,其特征在于,所述支付装置内置麦克风手机语音信息,并进行声纹特征提取,声纹特征包括说话速度Vs、说话音节之间的时间间隔Ri、在时间t的基频F0(t)、在时间t的声音振幅A(t);
Ri=ti+1-ti
其中,Nw是说话内容中的词或音节数量,T是说话的总时间;ti+1、ti
分别表示第i+1个和第i个音节的开始时间。
3.如权利要求1所述的一种基于人脸图像识别的支付方法,其特征在于,所述提取红外光谱人脸图像特征信息,包括提取图像的温度均值Tavr、提取图像的温度方差Fvar,提取图像的灰度图灰度均值;
其中,T(xi)是图像中像素点xi的温度值,K是像素的总数量;
4.如权利要求1所述的一种基于人脸图像识别的支付方法,其特征在于,所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构,输入层分为两个部分,一个用于接收红外光谱人脸图像特征,另一个用于接收声纹特征;输出层用于判断是否允许支付操作。
5.一种基于人脸图像识别的支付装置,其特征在于,包括:
红外摄像头捕捉人脸图像,提取红外光谱人脸图像特征信息,并提示客户发出已可以支付的语音信息;
麦克风语音收集模块,支付装置内置麦克风收集语音信息,并进行声纹特征提取;
将红外光谱人脸图像特征信息Aface与声纹特征Avoice结合,形成一维待识别特征向量A;
训练好的深度神经网络孪生网络训练识别模块,将形成一维特征向量A输入至训练好的深度神经网络孪生网络进行识别判断;训练深度神经网络孪生网络采用的损失函数L为:
其中,P为存储在数据库中的正样本特征向量,Aface,i表示输入的人脸特征的第i个元素,Pface,i表示数据库中存储的人脸特征的第i个元素,Avoice,i表示输入的声纹特征的第i个元素,Pvoice,i表示数据库中存储的声纹特征的第i个元素,wf、wv分别表示人脸特征和声纹特征的权重因子,Ni表示负样本的第i个特征,N表示训练样本对的数量,yi表示标签,m是边界参数,用于控制正样本与负样本之间的距离的参数;
其中,n是特征向量的维度,将提取的特征与数据库中存储的特征进行比较,如果匹配成功,则执行支付操作;
是否支付成功判别模块,训练好的深度神经网络孪生网络输出是否支付成功;
结束模块。
6.如权利要求5所述的一种基于人脸图像识别的支付装置,其特征在于,所述支付装置内置麦克风手机语音信息,并进行声纹特征提取,声纹特征包括说话速度Vs、说话音节之间的时间间隔Ri、在时间t的基频F0(t)、在时间t的声音振幅A(t);
Ri=ti+1-ti
其中,Nw是说话内容中的词或音节数量,T是说话的总时间;ti+1、ti
分别表示第i+1个和第i个音节的开始时间。
7.如权利要求5所述的一种基于人脸图像识别的支付装置,其特征在于,所述提取红外光谱人脸图像特征信息,包括提取图像的温度均值Tavr、提取图像的温度方差Fvar,提取图像的灰度图灰度均值;
其中,T(xi)是图像中像素点xi的温度值,K是像素的总数量;
8.如权利要求5所述的一种基于人脸图像识别的支付装置,其特征在于,所述训练好的深度神经网络孪生网络包括两个相同的神经网络结构,输入层分为两个部分,一个用于接收红外光谱人脸图像特征,另一个用于接收声纹特征;输出层用于判断是否允许支付操作。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序执行权利要求1-4任一所述的一种基于人脸图像识别的支付方法。
10.一种基于人脸图像识别的支付方法设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-4任一所述的一种基于人脸图像识别的支付方法。
CN202311279767.8A 2023-09-28 2023-09-28 基于人脸图像识别的支付方法、装置、存储介质和设备 Active CN117273747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311279767.8A CN117273747B (zh) 2023-09-28 2023-09-28 基于人脸图像识别的支付方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311279767.8A CN117273747B (zh) 2023-09-28 2023-09-28 基于人脸图像识别的支付方法、装置、存储介质和设备

Publications (2)

Publication Number Publication Date
CN117273747A true CN117273747A (zh) 2023-12-22
CN117273747B CN117273747B (zh) 2024-04-19

Family

ID=89205915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311279767.8A Active CN117273747B (zh) 2023-09-28 2023-09-28 基于人脸图像识别的支付方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN117273747B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018113526A1 (zh) * 2016-12-20 2018-06-28 四川长虹电器股份有限公司 基于人脸识别和声纹识别的交互式认证系统及方法
WO2019205369A1 (zh) * 2018-04-28 2019-10-31 平安科技(深圳)有限公司 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质
WO2019209131A1 (ru) * 2018-04-23 2019-10-31 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ обучения нейронной сети распознаванию лиц людей
CN111723679A (zh) * 2020-05-27 2020-09-29 上海五零盛同信息科技有限公司 基于深度迁移学习的人脸和声纹认证系统及方法
WO2023000864A1 (zh) * 2021-07-19 2023-01-26 清华大学 一种人脸识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018113526A1 (zh) * 2016-12-20 2018-06-28 四川长虹电器股份有限公司 基于人脸识别和声纹识别的交互式认证系统及方法
WO2019209131A1 (ru) * 2018-04-23 2019-10-31 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ обучения нейронной сети распознаванию лиц людей
WO2019205369A1 (zh) * 2018-04-28 2019-10-31 平安科技(深圳)有限公司 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质
CN111723679A (zh) * 2020-05-27 2020-09-29 上海五零盛同信息科技有限公司 基于深度迁移学习的人脸和声纹认证系统及方法
WO2023000864A1 (zh) * 2021-07-19 2023-01-26 清华大学 一种人脸识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张国云;向灿群;罗百通;郭龙源;欧先锋;: "一种改进的人脸识别CNN结构研究", 计算机工程与应用, no. 17, 1 September 2017 (2017-09-01), pages 185 - 190 *

Also Published As

Publication number Publication date
CN117273747B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
RU2738325C2 (ru) Способ и устройство аутентификации личности
WO2019210796A1 (zh) 语音识别方法、装置、存储介质及电子设备
CN109146492B (zh) 一种车端移动支付的装置和方法
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
JP7148737B2 (ja) 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法
CN111881726A (zh) 一种活体检测方法、装置及存储介质
CN111401134A (zh) 活体检测方法、装置、电子设备及存储介质
CN111341350A (zh) 人机交互控制方法、系统、智能机器人及存储介质
CN112491844A (zh) 一种基于可信执行环境的声纹及面部识别验证系统及方法
WO2022268183A1 (zh) 一种基于视频的随机手势认证方法及系统
CN108880815A (zh) 身份验证方法、装置和系统
CN113241081A (zh) 一种基于梯度反转层的远场说话人认证方法及系统
CN113450806A (zh) 语音检测模型的训练方法以及相关方法、装置、设备
CN117273747B (zh) 基于人脸图像识别的支付方法、装置、存储介质和设备
Shen et al. Secure mobile services by face and speech based personal authentication
KR101208678B1 (ko) 다중 생체정보를 이용하는 점진적 개인인증 시스템 및 방법
Brunet et al. Speaker recognition for mobile user authentication: An android solution
CN114596609B (zh) 一种视听伪造检测方法及装置
CN116883900A (zh) 一种基于多维生物特征的视频真伪鉴别方法和系统
Bredin et al. Making talking-face authentication robust to deliberate imposture
Shenai et al. Fast biometric authentication system based on audio-visual fusion
Cheng et al. An efficient approach to multimodal person identity verification by fusing face and voice information
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Nhan Nguyen et al. Fuzzy logic weight estimation in biometric-enabled co-authentication systems
Bendris et al. Introduction of quality measures in audio-visual identity verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant