CN114898431A

CN114898431A - 一种刷脸支付意愿识别方法、装置以及设备

Info

Publication number: CN114898431A
Application number: CN202210504933.9A
Authority: CN
Inventors: 尹英杰; 丁菁汀; 李亮
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-12

Abstract

本说明书实施例公开了一种刷脸支付意愿识别方法、装置以及设备，属于电子支付技术领域。方案包括：获取刷脸2D图像；在刷脸2D图像中确定待识别的候选人，并根据各候选人在刷脸2D图像中的第一所处区域，分别生成对应的掩码图以区别第一所处区域和刷脸2D图像中的其他区域；提取刷脸2D图像的特征，并根据刷脸2D图像的特征和掩码图，得到第一融合特征；判断当前是否适用3D模态；若是，则获取刷脸2D图像对应的刷脸3D图像，提取刷脸3D图像的特征，根据第一融合特征与刷脸3D图像的特征，得到第二融合特征，并根据第二融合特征，识别各候选人是否具有刷脸支付意愿；否则，根据第一融合特征，识别各候选人是否具有刷脸支付意愿。

Description

一种刷脸支付意愿识别方法、装置以及设备

技术领域

本说明书涉及电子支付技术领域，尤其涉及一种刷脸支付意愿识别方法、装置以及设备。

背景技术

随着计算机和互联网技术的发展，很多业务都可以在线上进行，促进了各种线上业务平台的发展。其中，刷脸支付是指基于人工智能、机器视觉、3D传感、大数据等技术实现的新型支付方式，通过采用人脸识别作为身份验证的支付方式，给用户带来了极大的便利性，受到用户的普遍喜爱。

目前，在刷脸支付场景中，待支付用户开启刷脸支付后，需要站在刷脸支付设备的前方，进行人脸识别。但是，在刷脸的过程中，可能在设备的前方站着多个用户，将导致设备采集的刷脸图像中，出现多个用户。此时，设备对刷脸图像进行人脸识别时，难以判断哪个用户是当前的待支付用户，即，哪个用户具有刷脸支付意愿。换言之，只有当前的待支付用户具有刷脸支付意愿，而其他用户则不具有刷脸支付意愿。

基于此，刷脸支付意愿识别是对支付系统中刷脸安全保障的重要环节，有助于提升刷脸安全体验，但是，设备如果识别到其他用户，对其他用户进行识别，将出现误刷脸支付，从而降低刷脸支付的安全性，不仅如此，随着刷脸支付功能设备的应用普及，设备多样性和差异性对识别的影响也需要关注。

基于此，对于刷脸支付需要更安全且适用性更广的识别方案。

发明内容

本说明书一个或多个实施例提供一种刷脸支付意愿识别方法、装置、设备以及存储介质，用以解决如下技术问题：对于刷脸支付需要更安全且适用性更广的识别方案。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

本说明书一个或多个实施例提供的一种刷脸支付意愿识别方法，包括：

获取刷脸2D图像；

在所述刷脸2D图像中确定待识别的候选人，并根据各所述候选人在所述刷脸2D图像中的第一所处区域，分别生成对应的掩码图以区别所述第一所处区域和所述刷脸2D图像中的其他区域；

提取所述刷脸2D图像的特征，并根据所述刷脸2D图像的特征和所述掩码图，得到第一融合特征；

判断当前是否适用3D模态；

若是，则获取所述刷脸2D图像对应的刷脸3D图像，提取所述刷脸3D图像的特征，根据所述第一融合特征与所述刷脸3D图像的特征，得到第二融合特征，并根据所述第二融合特征，识别各所述候选人是否具有刷脸支付意愿；

否则，根据所述第一融合特征，识别各所述候选人是否具有刷脸支付意愿。

本说明书一个或多个实施例提供的一种刷脸支付意愿识别装置，包括：

2D图像获取模块，获取刷脸2D图像；

掩码图生成模块，在所述刷脸2D图像中确定待识别的候选人，并根据各所述候选人在所述刷脸2D图像中的第一所处区域，分别生成对应的掩码图以区别所述第一所处区域和所述刷脸2D图像中的其他区域；

2D模态融合模块，提取所述刷脸2D图像的特征，并根据所述刷脸2D图像的特征和所述掩码图，得到第一融合特征；

模态适应性判断模块，判断当前是否适用3D模态；

多模态融合模块，若是，则获取所述刷脸2D图像对应的刷脸3D图像，提取所述刷脸3D图像的特征，根据所述第一融合特征与所述刷脸3D图像的特征，得到第二融合特征，第一识别模块，根据所述第二融合特征，识别各所述候选人是否具有刷脸支付意愿；

第二识别模块，否则，根据所述第一融合特征，识别各所述候选人是否具有刷脸支付意愿。

本说明书一个或多个实施例提供的一种刷脸支付意愿识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取刷脸2D图像；

判断当前是否适用3D模态；

本说明书一个或多个实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取刷脸2D图像；

判断当前是否适用3D模态；

本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：能够通过为各候选人在刷脸2D图像中第一所处区域，分别生成对应的掩码图，能够将该候选人的特征信息更加鲜明化，增加了具有刷脸支付意愿与不具有刷脸支付意愿的差异性，通过第一融合特征，能够增强图像对比效果，从而实现了将注意力集中至具有刷脸支付意愿的候选人；相比于2D模态，3D模态在不同的刷脸支付设备中支持程度更差，因此，通过判断当前刷脸设备在当前识别场景下是否适用3D模态，在适用的情况下，优先基于多模态识别，通过第二融合特征，结合刷脸3D图像中相应候选人的特征与刷脸2D图像中该候选人的特征，两者相互补充同一候选人的人脸特征，能够进一步提升人脸识别的对象精准性，而在不适用的情况下，则可以单独基于2D模态识别，成本低，且有助于支持更多的设备实现刷脸支付；综上，也有助于将同一个刷脸图像中具有刷脸支付意愿的候选人与不具有刷脸支付意愿的候选人进行准确区分，从而能够提高刷脸支付安全性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种刷脸支付意愿识别方法的流程示意图；

图2为本说明书一个或多个实施例提供的一种刷脸支付意愿识别系统的框架示意图；

图3为本说明书一个或多个实施例提供的一种基于深度卷积神经网络端到端学习的刷脸支付意愿识别方法的流程示意图；

图4为本说明书一个或多个实施例提供的一种刷脸支付意愿识别装置的结构示意图；

图5为本说明书一个或多个实施例提供的一种刷脸支付意愿识别设备的结构示意图。

具体实施方式

本说明书实施例提供一种刷脸支付意愿识别方法、装置、设备以及存储介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

目前，不仅在个人终端上，刷脸支付功能在公共场合下的设备上也大量普及，这类设备主要包括线下IoT机具。在公共场合使用线下IoT机具刷脸支付场景下，大量存在着支付用户排队支付的情景。由于处在开放的公共场所，机具采集的图像中如果存在多人的情况，会存在用户A启用刷脸，误刷用户B的情况。在用户A启动刷脸支付时，若机具误针对用户B的脸进行了识别支付，会导致用户B的财产损失，影响了刷脸支付安全性。基于此，针对刷脸支付设备，尤其是线下的这种机具，本方案针对当前疑似要进行刷脸支付的用户们进行刷脸支付意愿识别，以找到正确的支付对象，避免误扣款。

本方案基于掩码图，分别将刷脸支付设备同一张图像中的多个疑似用户进行显著化处理，然后结合2D模态和3D模态，分别对各个疑似用户进行支付刷脸支付意愿识别，从而提高了刷脸支付的安全性。另一方面，线下IoT机具在不同的使用场景会提供不同的软硬件配置，比如，在商家可接受的机具成本较低等小店铺场景，低成本机具为降低成本，往往只包含主模态的2D视觉传感器，而不包含其他模态传感器。还有一些情况是3D模态的功能模块的使用条件较2D模态的功能模块严苛，因此使用寿命相对更短，更容易出现不可用的情况，为了解决以上问题，便于意愿算法不依赖软硬件条件影响，增强设备管理及高可用性，本方案旨在能够充分适应机具可用模态状态，在多模态下自动充分利用多模态信息，而在某些模态(主要包括3D模态)不适用的情况下，自动地单独利用2D模态信息，通过端到端学习的方式实现刷脸支付意愿安全识别，从而能够灵活应对不同场景，方案的适用性更广。

下面基于这样的思路，进一步地详细说明。

图1为本说明书一个或多个实施例提供的一种刷脸支付意愿识别方法的流程示意图。该方法可以应用于不同的业务领域中，比如，电商业务领域、金融业务领域、电子支付业务领域、即时通讯业务领域、机器人业务领域、视频服务业务领域、游戏业务领域、公务业务领域等。该流程可以由相应领域的计算设备(比如，电商业务对应的运维服务器等)执行，流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

图1中的流程可以包括以下步骤：

S102：获取刷脸2D图像。

刷脸2D图像由设备针对附近用户采集得到，一般情况下，在当前请求刷脸的某用户的触发下，设备才会采集刷脸2D图像。

在本说明书一个或多个实施例中，刷脸2D图像为平面图像，没有携带三维信息，没有立体感，相比较地，刷脸3D图像是携带有三维信息的，其可以直接或者间接地表现立体形象，一种典型的刷脸3D图像为深度图像，其结合2D和深度信息来表现3D，下面的一些实施例主要以深度图像为例进行说明。深度图像也被称为距离影像，是指将从图像采集器到场景中各点的实际距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。

对刷脸2D图像人进行人脸识别时，识别结果会受到光照、姿态、表情等外界因素干扰，影响人脸识别的准确性，从而影响刷脸支付意愿识别的准确性，而刷脸3D图像是更加立体的，因此，需要充分利用人脸的二维和三维信息进行多模态识别，基于多模态视觉信息(刷脸2D图像和刷脸3D图像等)，提高识别的准确率。

在本说明书一个或多个实施例中，若当前设备支持3D模态，在执行S102可以进一步获取各刷脸2D图像对应的刷脸3D图像。比如，设备在接收到刷脸支付指令后，通过预先安装的图像采集设备获取刷脸2D图像与刷脸3D图像，也可以是电子设备根据支付订单生成刷脸支付指令，通过图像采集设备获取刷脸2D图像与刷脸3D图像。

S104：在所述刷脸2D图像中确定待识别的候选人，并根据各所述候选人在所述刷脸2D图像中的第一所处区域，分别生成对应的掩码图以区别所述第一所处区域和所述刷脸2D图像中的其他区域。

在本说明书的一个或多个实施例中，待识别的候选人即上述的疑似用户，其中至少包括了需要通过当前设备支付相关费用的用户，这些用户可能想采用刷脸支付方式，也可能采用其他的支付方式，比如，密码支付、指纹支付等。待识别的候选人还可以包括被设备镜头拍到的一些无关人员，比如，从镜头前一晃而过的路人，站在较远处没有关注该设备的路人等。在理想情况下，希望刷脸2D图像中只有一位用户，则可以默认该用户就是当前要刷脸支付的用户，但实际应用中，刷脸2D图像有可能包含两位以上的用户，则只有其中一位是当前要进行刷脸支付(即具有刷脸支付意愿的用户)，而其他用户要么在排队等待支付，要么根本就没准备支付。

需要说明的是，假定刷脸支付自动触发的程度较高(比如，无需用户或者电源主动通过点击触发刷脸支付)，则即使刷脸2D图像中只有一位用户，安全起见，也可以对该用户进行刷脸支付意愿识别。

在本说明书的一个或多个实施例中，设备在执行单次刷脸支付指令时，是为了对当前开启刷脸支付的特定候选人进行身份认证，而该特定候选人当前具有刷脸支付意愿，即认为该特定候选人为支付意愿安全。而其他候选人当前不具有刷脸支付意愿，支付意愿非安全，哪怕是这其中的某个候选人是排队等待下一个刷脸支付的，也认为该候选人当前不具有刷脸支付意愿，而是等排队轮到他时他才具有刷脸支付意愿。

在本说明书的一个或多个实施例中，将候选人在刷脸2D图像中的所处的至少部分区域称为第一所处区域，第一所处区域包含候选人的外观特征信息，至少包含人脸信息，若有需要，还可以包含躯干信息、四肢信息等。可以通过在刷脸2D图像中进行人脸区域检测，确定第一所处区域。

由于刷脸2D图像中可能包含多张候选人的人脸，本方案有针对性地分别针对各张人脸进行刷脸支付意愿识别。可以通过掩码操作，来区别单个候选人在刷脸2D图像中的第一所处区域和刷脸2D图像中的其他区域。在掩码操作下，可以通过掩码核算子重新计算图像中各个像素的值，掩码核算子刻画领域像素点对新像素值得影响程度，同时根据掩码算子中权重因子对像素点进行加权平均，从而能够将重点关注的单张人脸区域显著化。

在本说明书的一个或多个实施例中，单个候选人在刷脸2D图像中的第一所处区域，对应单张掩码图，也就是说，如果刷脸2D图像中有多个候选人，则为每个候选人均生成一张对应的掩码图，最终得到多张掩码图。

在单张掩码图中，能够区分第一所处区域与其他区域，比如，将第一所处区域填充值作为1，将其他区域填充值作为0。即，通过生成每个候选人对应的掩码图，能够将该候选人的特征信息更加鲜明化，从而增加了具有刷脸支付意愿与不具有刷脸支付意愿的差异性。

S106：提取所述刷脸2D图像的特征，并根据所述刷脸2D图像的特征和所述掩码图，得到第一融合特征。

在本说明书的一个或多个实施例中，比如，通过预先训练的神经网络模型提取刷脸2D图像的特征。刷脸2D图像的特征可以包括人脸特征、躯干特征、四肢特征等。人脸特征可以是候选人的人脸的全局特征，通过全局特征识别人脸，能够提高识别结果的准确度。

可以为刷脸2D图像的特征新增加通道，通过新增加的通道来表现掩码图的特征，从而实现特征融合，这种方式既能够同时利用到这两类特征，而且又明确地区分了这两类特征，以便于有需要时进行分离，以及能够更有针对性地学习刷脸2D图像中本次关注的区域。

S108：判断当前是否适用3D模态。若是，则执行S110，否则，执行S112。

在本说明书的一个或多个实施例中，S108也可以提前执行，其与前面描述的几个步骤没有时间顺序依赖关系。

关于是否适用3D模态，这个问题可以进行多层次多粒度的分析。

在前面已经提到，线下IoT机具在不同的使用场景会提供不同的软硬件配置，若某机具配置相对低，则其配置可能根本不支持3D模态，那当然就属于不适用3D模态的情况。基于此，可以获取当前设备的软件状态信息和/或硬件状态信息，根据软件状态信息和/或硬件状态信息是否支持3D模态，判断当前是否适用3D模态，至少要支持才可能判断出适用。

在本说明书的一个或多个实施例中，之所以考虑结合3D模态，是为了提高安全性，当前安全性的提高也是有代价的，一方面软硬件成本相应提高，另一方面，也可能为识别效率带来不利影响。本方案基于实际应用场景，从另一个角度来更灵活地使用3D模态，以兼顾安全性和识别效率。下面进行分析说明。

在私人场合下，用户通常采用个人设备(比如，智能手机)进行刷脸支付，在这种情况下，若该用户想要作恶，比如，利用他人照片或者面具等手段，冒充另一客户进行刷脸以尝试欺骗设备，则由于场合相对私密，则该用户是比较容易实施作恶行为的。

但是，在公共场合下，用户是采用的公共设备进行刷脸支付的，比如，在超市排队刷脸结账等。在这类情况下，若用户想要作恶，则客观上需要更在意周围环境，周围环境可能该用户主动作恶带来的一定的障碍，这些障碍可能是故意的(比如，店里的监控摄像头、在背后排队等待注意着该用户结账进度的其他用户等)，也可能是无意的(比如，周围可能无意中瞥到该用户的其他用户等)。本方案考虑对这类障碍程度进行度量，将度量结果统一称之为公共监督程度，原因在于，这实质上是公共环境下的一些因素一定程度上制约着的用户作恶可能，相当于监督了该用户。

基于这样的思路，可以获取环境信息，根据环境信息，确定当前的公众监督程度，公众监督程度反映了周围环境给当前的刷脸支付对象主动作恶所带来的障碍程度，根据公众监督程度，判断当前是否适用3D模态，若公众监督程度超过设定程度，则表明当前作恶相对难，则可以判断当前不适用3D模态，比如采用单独采用2D模态即可，有助于提高识别效率，而安全性也比较有保障，反之，若公众监督程度未超过设定程度，则表明当前作恶相对容易，则可以判断当前适用3D模态，可以结合2D模态和3D模态，进行多模式识别，以保障安全性。

环境信息比如包括上述的一些因素的信息，可以从刷脸2D图像，或者诸如预先采集的环境图像等其他途径来获取。比如，能够从刷脸2D图像中检测出的用户数量，用户越多则公众监督程度相对更高；再比如，能够从环境图像中检测出是否有摄像头，有摄像头则公众监督程度相对更高；再比如，能够通过语音识别，检测出候选人之间可能存在的语音沟通信息等，这种情况相对复杂，如有沟通可能反而表示公众监督程度相对更低。

进一步地，由于当前的候选人相互之间距离较近，因此，更容易给作恶行为造成威慑感，基于此，将一部分候选人视为有力的公众代表，考虑根据当前的候选人状态，来更可靠地且更实时地度量公众监督程度。

具体比如，根据环境信息，确定各候选人之间的注意度，根据注意度，按照为公众监督程度和注意度之间设定的正相关关系，确定当前的公众监督程度。注意度反映了一个候选人当前对另一个候选人的关注程度，比如，是否在斜视或者直视对方，是否未注意对方而是在盯着自己的手机、是否在于对方沟通、是否与对方有肢体接触等。

对于大多数情况，注意度越高，则反映公众监督程度相对越高。需要说明的是，还要考虑另一种情况，即相互注意的两个候选人有可能为作恶同伙，比如上面提到的若候选人之间有沟通可能反而表示公众监督程度相对更低，这正是因为，如果是陌生人一般不会有沟通，除了语音沟通的形式，一些较亲密的动作甚至肢体接触动作(动作可以通过图像识别)，也可能表明作恶同伙。基于此，注意度高到某个程度(称为基本程度)，则可能反映公众监督程度相对高，而若高到某个不太寻常的程度(称为疑似熟人程度)，则可能反而反映公众监督程度相对低，可以对应地设定多个阈值来进行更可靠的判断。

在实际应用中，尤其是在公共场合下，由于往往有多个用户排队等待支付，因此，识别效率相比于在私人场合下更容易影响用户体验。则可以根据当前的实际情况，动态地调整安全性。比如，考虑当前全局的业务状态是否表现得足够紧急，用户是否能容忍等，本方案综合地考虑并度量列举的这些情况，称之为全局的业务紧急度。

这里的全局的意思是至少考虑了多个候选人的情况，除了之外还可以考虑了其他一些环境因素，比如，时间、天气等。这里的业务与多个候选人相关，比如，指这些候选人当前排队等待完成支付业务等。可以根据环境信息，确定全局的业务紧急度，根据业务紧急度，判断当前是否适用3D模态，若业务紧急度较高，则可以考虑判断当前不适用3D模态，优先保证识别效率。比如，假定候选人排队较长或者较密集，则反映全局的业务紧急度较高；再比如，在突发下雨天气，检测出要购买雨衣或者雨伞的多个候选人，则反映全局的业务紧急度较高。

S110：获取所述刷脸2D图像对应的刷脸3D图像，提取所述刷脸3D图像的特征，根据所述第一融合特征与所述刷脸3D图像的特征，得到第二融合特征，并根据所述第二融合特征，识别各所述候选人是否具有刷脸支付意愿。

在本说明书的一个或多个实施例中，可以通过预先训练的神经网络模型提取刷脸3D图像的特征。可以根据刷脸2D图像的检测结果在刷脸3D图像中提取对应的特征，比如，进行关键点映射、轮廓对齐等处理来确定对应关系，以方便就进行特征融合。

可以为第一融合特征的特征新增加了通道，用来来结合刷脸3D图像的特征，从而得到第二融合特征。在第二融合特征中，两类特征的互补使得对应的候选人被更准确地表示，有助于提升人脸识别准确率。

在本说明书的一个或多个实施例中，可以结合预设条件识别所对应的候选人是否具有刷脸支付意愿，在安全性要求较低，效率要求较高的情况下，可以设置较简单的条件。比如，识别到该候选人的人脸区域位于正中间区域，则认为该候选人具有刷脸支付意愿，或者，识别到该候选人的人脸区域占据刷脸图像的大部分区域，则认为该候选人具有刷脸支付意愿，或者识别到该候选人的人脸区域占据刷脸图像的大部分区域，并且人脸角度符合预设角度阈值，则认为该候选人具有刷脸支付意愿。

在实际应用中，为了确保安全性，本方案更倾向于与基于机器学习模型来识别。比如，可以将第二融合特征输入预先有监督学习过的支付意愿识别模型，通过支付意愿识别模型对候选人的特征信息进行高维度映射，输出映射结果，。然后，再将映射结果转换为刷脸支付意愿概率值，可以通过刷脸支付意愿概率值判断候选人是否具有刷脸支付意愿。

比如，若概率值大于预设概率阈值，则可以认为候选人具有刷脸支付意愿，即，电子设备的刷脸支付指令为该候选人开启刷脸支付之后，所生成的，若概率值小于或者等于预设概率阈值，则可以认为候选人不具有刷脸支付意愿。即，电子设备的刷脸支付指令不是该候选人开启刷脸支付之后，所生成的，而是其他候选人开启刷脸支付之后，所生成的。

在本说明书的一个或多个实施例中，若是概率值大于预设概率的候选人的数量为多个，则可以考虑本次刷脸支付意愿识别的结果不可信，可以提示认证失败。反之，若不存在概率值大于预设概率的候选人，则同样说明本次刷脸支付意愿识别的结果可能不可信，可以提示认证失败。

S112：根据所述第一融合特征，识别各所述候选人是否具有刷脸支付意愿。

在本说明书的一个或多个实施例中，若当前不适用3D模态，则可以基于更简单的单模态(比如，2D模态)，来进行识别，从而提高了识别效率，而且能够适用于更多的设备。

在S112的情况下，设备能够实现缺模态(比如，缺3D模态，单独采用2D模态)识别，不仅如此，即使在不缺模态的情况下，仍然能够根据现场的环境情况自带的安全程度，智能地动态地来选择采用多模态识别来弥补安全性，还是直接采用缺模态识别来提高效率。

通过图1的方法，能够通过为各候选人在刷脸2D图像中第一所处区域，分别生成对应的掩码图，能够将该候选人的特征信息更加鲜明化，增加了具有刷脸支付意愿与不具有刷脸支付意愿的差异性，通过第一融合特征，能够增强图像对比效果，从而实现了将注意力集中至具有刷脸支付意愿的候选人；相比于2D模态，3D模态在不同的刷脸支付设备中支持程度更差，因此，通过判断当前刷脸设备在当前识别场景下是否适用3D模态，在适用的情况下，优先基于多模态识别，通过第二融合特征，结合刷脸3D图像中相应候选人的特征与刷脸2D图像中该候选人的特征，两者相互补充同一候选人的人脸特征，能够进一步提升人脸识别的对象精准性，而在不适用的情况下，则可以单独基于2D模态识别，成本低，且有助于支持更多的设备实现刷脸支付；综上，也有助于将同一个刷脸图像中具有刷脸支付意愿的候选人与不具有刷脸支付意愿的候选人进行准确区分，从而能够提高刷脸支付安全性。

基于图1的方法，本说明书还提供了该方法的一些具体实施方案和扩展方案，下面继续进行说明。

在本说明书一个或多个实施例中，在确定出候选人之后，将提取刷脸2D图像中候选人的人脸区域，比如，首先通过人脸提取模型提取候选人在刷脸2D图像中的人脸，然后通过人脸的位置信息，确定出候选人的人脸区域。然后对人脸区域进行处理，确定人脸区域选择框。其中，人脸区域选择框可以有多种展示方式，比如，圆形框、矩形框、不规则多边形框等，但是，有一个前提条件，为了保证识别结果的准确性，人脸区域选择框至少包含当前候选人的全部人脸区域。

在得到人脸区域选择框之后，将根据候选人的人脸区域选择框，确定该候选人对应的的掩码图的第一填充区域，第一填充区域的形状可以有多种。为了保证识别结果的准确性，在确定第一填充区域时，可以使其尽可能贴合实际的人脸轮廓。

在确定第一填充区域之后，在刷脸图像中继续确定出除第一填充区域之外的第二填充区域，并且为第一填充区域与第二填充区域赋予不同的填充值。

为了掩码图中的第一填充区域尽可能与刷脸2D图像中的人脸区域相符，从而在为第一填充区域与第二填充区域赋予不同的填充值之后，生成分辨率与所述刷脸2D图像的分辨率一致的掩码图。

进一步地，由于人脸大部分是圆形或者椭圆形，因此为了使得第一填充区域更加贴合候选人的人脸区域，可以将第一填充区域确定为圆形区域或者椭圆形区域，圆形相对更好处理。

基于此，比如，在对人脸区域进行处理，确定人脸区域选择框时，将人脸区域选择框确定为矩形框。在得到矩形框的人脸区域之后，通过矩形框在刷脸图像中的位置，计算人脸框宽与人脸框高，通过人脸框宽与人脸框高计算圆形区域的半径。

其中，在计算圆形区域的半径时，由于人脸区域为圆形区域或者椭圆形区域，那么在最初生成矩形框时，人脸区域类似于矩形框的内切圆，因此为了最大可能还原人脸区域，同时保证第一填充区域尽可能包括全部的人脸区域，取矩形框宽一半长度与框高一半长度之间的最大值，作为圆形区域的半径。

因此，将矩形框的中心作为圆心，确定矩形框的最长边的一半长度，作为半径，然后基于圆心和半径构成的圆形区域，确定为该候选人对应的掩码图的第一填充区域。

例如，假设候选人的人脸矩形框在刷脸图像中的位置为(x₁,y₁,x₂,y₂)，其中，x₁与x₂分别为矩形框宽在x轴的位置坐标，y₁与y₂分别为矩形框高在y轴的位置坐标。

则计算人脸框宽的表达式为w＝x₂-x₁，其中，w为人脸框宽，x₁<x₂。

则计算人脸框高的表达式为h＝y₂-y₁，其中，h为人脸框高，y₁<y₂。

确定圆形区域半径的表达式为

则矩形框的中心的位置坐标为

比如，确定该圆形区域的填充值为1，其外的背景区域的填充值为0。

在本说明书一个或多个实施例中，预先构建了多预测头深度卷积神经网络，作为识别模型，识别系统至少包含该模型，多预测头深度卷积神经网络包括两个根据至少部分不同的模态训练的端到端网络预测通道，其中一个用于多模态识别，另一个用于缺模态识别，各通道分别对应于不同的一个或者多个预测头，这两个通道的相互独立有助于更好地训练以完成专属于自己的预测任务。预先对多预测头深度卷积神经网络，进行多模态信息(至少包括刷脸2D图像样本和刷脸3D图像样本)端到端学习，针对刷脸2D图像引入候选人区域注意力机制，以便将掩码图融入到学习中，使得模型更有针对性地识别刷脸2D图像中候选人的刷脸支付意愿。下面示例性地给出系统框架。

图2为本说明书一个或多个实施例提供的一种刷脸支付意愿识别系统的框架示意图。

在图2中，用一个大的实线框选中了部分结构，这部分结构是用于多模态识别的，还用了一个大的用一个大的实线框选中了部分结构，这部分结构是用于缺模态识别的。这两部分有共用部分，该共用部分用于单独针对2D模态进行处理，得到第一融合特征，之后基于是否适用3D模态的判断结果产生分支，一支属于上述的多模态识别预测通道，另一支属于上述的缺模态识别预测通道。刷脸2D图像、针对候选人对应生成的掩码图以及可选的刷脸3D图像作为系统的输入数据，输出为刷脸支付意愿概率值，即，意愿安全概率以及意愿非安全概率。对该系统的工作过程进行示例性说明。

对于2D模态方面，通过第一卷积网络，提取到刷脸2D图像的特征，图中简称为2D特征。将2D特征和当前的某候选人对应的掩码图输入注意力机制实施模块，输出第一融合特征。具体比如，可以对掩码图进行降分辨率处理，以适应于刷脸2D图像的特征，然后，按照通道维度，将2D特征和降分辨率后的掩码图进行连接，将连接得到的特征输入第二卷积网络进行融合处理。

基于当前是否适用3D模态，来进行预测通道的分支选择。

若适用3D模态，则相关业务逻辑可以执行。

由于深度图是指将从图像采集器到场景中各点的真实距离(深度)作为像素值的图像，因此，刷脸3D图像中各像素点距离(这里的距离也包括了深度)图像采集设备越远，则对应像素点的深度值越大。而候选人在进行刷脸支付意愿识别时，通常该候选人相对于其他候选人，距离图像采集设备最近。

因此，在刷脸3D图像中，包括多个候选人的情况下，此时，不具有刷脸支付意愿的候选人，通常是距离图像采集设备更远，那么该不具有刷脸支付意愿的候选人在刷脸3D图像中对应像素点的深度值，大于具有刷脸支付意愿的候选人在刷脸3D图像中对应像素点的深度值。则可以通过在提取刷脸3D图像的特征之前，对刷脸3D图像进行精细化处理，以将距离图像采集设备超过预设阈值的像素点进行过滤，需要说明的是，这里的过滤可以不是单纯地完全放弃这些像素点，而是可以将这些像素点进行统一的泛化处理，比如将用于表现这些像素点的值统一为一个指定的相同值。目的是减少这些像素点之间的区别，减少这些像素点对于模型训练和使用过程中的贡献，从而使得模型更专注于该预设阈值以内的像素点，将算力集中在更有价值的像素点上，提高了效率，降低了干扰。从而针对于开启本次刷脸支付的候选人，也有助于提高刷脸支付意愿识别的准确率。

通过第四卷积网络，从精细化处理后的刷脸3D图像中提取其特征，图中简称为3D特征。

将3D特征与第一融合特征输入多模态特征融合模块，多模态特征融合模块输对3D特征与第一融合特征进行处理，输出第二融合特征。具体比如，按照通道维度，将第一融合特征和3D特征进行连接，将连接得到的特征输入第五卷积网络进行融合处理。

再将第二融合特征输入第六卷积网络处理，得到刷脸支付意愿概率值，有意愿安全和意愿非安全两类可能的情况，分别用图中的全模态安全概率1和全模态非安全概率2来表示。

若不适用3D模态，则可以单独基于2D模态进行预测。

将第一融合特征输入第三卷积网络处理，得到刷脸支付意愿概率值，有意愿安全和意愿非安全两类可能的情况，分别用图中的缺模态安全概率1和缺模态非安全概率2来表示。

在本说明书一个或多个实施例中，第一卷积网络和第三卷积网络可以预先从同一个卷积网络拆分得到，第一卷积网络和第六卷积网络可以预先从同一个卷积网络拆分得到。第三卷积网络与第六卷积网络结构相同但不共享，是各自单独的模块。该同一个卷积网络比如采用resnet、ShuffleNetV2等。

拆分过程，比如包括：确定目标分辨率，以便作为刷脸2D图像的特征的分辨率，在同一个卷积网络中的卷积层中，确定与目标分辨率匹配的卷积层，以匹配的卷积层作为拆分点，将同一个卷积网络拆分为前一部分和后一部分，前一部分作为所述第一卷积网络，后一部分作为所需的另一个卷积网络。在确定目标分辨率时，比如，将2D特征的分辨率设定为刷脸2D图像的分辨率的

则目标分辨率为刷脸2D图像的分辨率的

进一步针对3D模态的相关业务逻辑补充说明。具体介绍提取刷脸3D图像的特征之前，如何对刷脸3D图像进行处理，以将距离图像采集设备超过预设阈值的像素点进行过滤。

计算各候选人在刷脸3D图像中的第二所处区域的深度值。将候选人在刷脸3D图像中所处区域称为第二所处区域。该第二所处区域包括人脸区域。

在第二所处区域中的所有像素点中，根据第二所处区域的深度值，将距离图像采集设备超过预设阈值的像素点进行过滤。其中，在设置预设阈值时，需要通过经验，有效保证具有刷脸支付意愿的候选人对应的像素点的深度值，要小于预设阈值。

进一步地，由于在计算各候选人在刷脸3D图像中的第二所处区域的深度值时，需要获取各候选人在刷脸3D图像中的第二所处区域，因此，由于刷脸支付意愿识别系统会获取刷脸2D图像，并提取刷脸2D图像的特征，因此，为了减少系统的计算压力，采用将刷脸2D图像的检测结果对应到刷脸3D图像中，获取到第二所处区域，而不是直接通过第二特征提取模型提取刷脸3D图像的特征。

具体地，首先根据各候选人在刷脸2D图像中的人脸区域选择框，确定各候选人在刷脸3D图像中的人脸区域。比如，提取人脸区域选择框在刷脸2D图像中的位置坐标，然后根据位置坐标，将人脸区域选择框对应到刷脸3D图像中，从而得到各候选人在刷脸3D图像中的人脸区域。

然后，计算人脸区域中的所有像素点具有的多个深度值，最后根据多个深度值的平均值，确定各候选人在刷脸3D图像中的人脸区域的深度值。比如，将多个深度值的平均值作为人脸区域的深度值。也就是说，将人脸区域中有深度测量值结果的值取平均值作为人脸的深度值。

更进一步地，在根据第二所处区域的深度值，将距离图像采集设备超过预设阈值的像素点进行过滤时，为了数据处理方便，以第二所处区域的深度值为基准，将所有像素点具有的多个深度值经过处理后，相应映射到需要的指定范围内，以更好地反应像素点之间的区别，以及便于后续计算，可以对处理后的多个深度值进行过滤处理，从而将距离图像采集设备超过预设阈值的像素点进行过滤。

具体地，首先分别计算所有像素点具有的多个深度值与人脸区域的深度值之间的比值，由于是根据所有像素点具有的多个深度值的平均值，得到人脸区域的深度值。因此，所有像素点具有的多个深度值与人脸区域的深度值均相差不大。也就是说，假如，多个深度值均为正数，那么比值结果的数据分布将大部分介于0-2。

然后，根据人脸区域的深度值的基准值与比值，将所有像素点具有的多个深度值分别处理为在所述基准值的附近范围内。其中，人脸区域的深度值的基准值可以根据实际需要进行设置，比如，将人脸区域的深度值的基准值设置为127，即，假如，多个深度值均为正数，那么处理后的所有像素点的多个深度值的数据分布比如大部分介于0-254。

比如，为了减少系统的计算压力，可以首先计算人脸区域的深度值的基准值与比值的乘积，然后根据乘积，将所有像素点具有的多个深度值分别处理为在基准值的附近范围内。

最后，将处理后的所有像素点的多个深度值大于预设基准阈值所对应的像素点进行过滤。其中，处理后的像素点的深度值越大表示像素点距离图像采集设备越远。其中，预设基准阈值可以根据实际需要进行设置，比如，将基准阈值设置为127+30＝157，这里的30是示例性的取值，可以根据实际需要进行调整，其取值越大，则对更远距离的像素点考虑得越多。

更进一步地，由于当候选人距离图像采集设备非常近的时候，可能导致候选人的人脸区域并不完整，也就是说，图像采集设备并未完全拍摄到候选人的人脸区域，从而也会影响候选人刷脸支付意愿识别的结果。因此，为了保证识别结果的准确性，可以将距离图像采集设备较远的像素点进行过滤的基础上，同时将距离图像采集设备非常近的像素点进行过滤。

具体地，预先设置第一预设基准阈值与第二预设基准阈值，其中，第一预设基准阈值小于基准值，第二预设阈值大于基准值。在设置第二预设阈值时，可以通过以基准值为标准，设置可调节区间。

则在将处理后的所有像素点的多个深度值大于预设基准阈值所对应的像素点进行过滤时，相当于将大于第二预设基准阈值所对应的像素点进行过滤时，则表示将距离图像采集设备非常远的像素点进行过滤，将小于第一预设基准阈值所对应的像素点进行过滤时，则表示将距离图像采集设备非常近的像素点进行过滤。即，可以认为将大于第一预设基准阈值且小于第二预设基准阈值所对应的像素点尽量真实地保留下来，其他的像素点则可以泛化或者忽略。

基于此，可以分别提取处理后的所有像素点的多个深度值与第一预设基准阈值之间的最大值，提取最大值与第二预设基准阈值之间的最小值，根据最大值和最小值，将深度值大于第二预设基准阈值的处理后的像素点进行过滤，以及深度值小于第一预设基准阈值的处理后的像素点进行过滤。

具体比如，采用下面的表达式，通过该最大值，将小于第一预设基准阈值所对应的像素点过滤，通过该最小，将大于第二预设基准阈值所对应的像素点过滤。

比如，表达式为

其中，D为刷脸3D图像中像素点的深度值，d为人脸区域的深度值，127为人脸区域的深度值的基准值，0为第一预设基准阈值，30为距离图像采集设备较远的像素点的可调节值，可以设置包含30的区间，作为上述可调节区间，127+30为第二预设基准阈值，min为取最小值，max为取最大值。

基于图2的系统，更直观地，对该系统的训练和上线使用的一些关键步骤进行示例性的概括，如图3所示。

S302：建立多模态训练数据集。

线下IoT机具，采集的刷脸2D图像和刷脸3D图像，假定图像中是用户A在刷脸支付。无论图像中是否存在多人，选中用户A标注为正样本(即，意愿安全)，若图像中存在多人，选中其他的用户B标注为负样本(即，意愿不安全)。

每个标注数据包括：采集的图像；可作为候选人的用户的人脸框在刷脸2D图像上的位置(x₁,y₁,x₂,y₂)；表示该用户是否有刷脸支付意愿的标签{1,0}，其中，1代表有，即意愿安全，0代表无，即非意愿安全。将人脸框在刷脸2D图像上的位置(x₁,y₁,x₂,y₂)对应到刷脸3D图像，以确定人脸区域，将刷脸3D图像中的该人脸区域中，有深度测量值结果的值取平均值作为人脸的深度值d。

S304：进行两阶段网络训练。

第一阶段进行多模态(2D模态和3D模态)信息端到端学习网络训练。从建立的多模态训练数据集中进行采样，获得训练batch及其对应的标签，输入到图2中的多模态信息端到端学习网络(实线大框部分)中，输出意愿相关的概率值。通过网络输出与训练batch对应的标签计算损失函数，并通过梯度下降法进行网络训练。

第二阶段进行缺模态(只采用2D模态)信息端到端学习网络训练。固定第一卷积网络和注意力机制实施模块网络权重不变，这部分是与多模态信息端到端学习网络共用的，已在第一阶段完成训练，从建立的多模态训练数据集中进行采样，获得训练batch及其对应的标签，输入到图2中的缺模态信息端到端学习网络(虚线大框部分)中，输出意愿相关的概率值。据此进行网络训练。

S306：模型部署推理。

上线实际使用时，可以判断当前设备在当前是否适用3D模态。若适用，则选择通过多模态信息端到端学习网络，预测意愿是否安全的概率值，然后跟设定阈值进行比较，从而得到识别结果。若不适用，则选择缺模态信息端到端学习网络进行预测，不再赘述。

基于同样的思路，本说明书一个或多个实施例还提供了上述方法对应的装置和设备，如图4、图5所示。

图4为本说明书一个或多个实施例提供的一种刷脸支付意愿识别装置的结构示意图，所述装置包括：

2D图像获取模块402，获取刷脸2D图像；

掩码图生成模块404，在所述刷脸2D图像中确定待识别的候选人，并根据各所述候选人在所述刷脸2D图像中的第一所处区域，分别生成对应的掩码图以区别所述第一所处区域和所述刷脸2D图像中的其他区域；

2D模态融合模块406，提取所述刷脸2D图像的特征，并根据所述刷脸2D图像的特征和所述掩码图，得到第一融合特征；

模态适应性判断模块408，判断当前是否适用3D模态；

多模态融合模块410，若是，则获取所述刷脸2D图像对应的刷脸3D图像，提取所述刷脸3D图像的特征，根据所述第一融合特征与所述刷脸3D图像的特征，得到第二融合特征，第一识别模块412，根据所述第二融合特征，识别各所述候选人是否具有刷脸支付意愿；

第二识别模块414，否则，根据所述第一融合特征，识别各所述候选人是否具有刷脸支付意愿。

可选地，所述模态适应性判断模块408，获取环境信息；

根据所述环境信息，确定当前的公众监督程度，所述公众监督程度反映了周围环境给当前的刷脸支付对象主动作恶所带来的障碍程度；

根据所述公众监督程度，判断当前是否适用3D模态。

可选地，所述模态适应性判断模块408，根据所述环境信息，确定各所述候选人之间的注意度；

根据所述注意度，按照为公众监督程度和所述注意度之间设定的正相关关系，确定当前的公众监督程度。

可选地，所述模态适应性判断模块408，根据所述环境信息，确定全局的业务紧急度，所述业务与多个所述候选人相关；

根据所述业务紧急度，判断当前是否适用3D模态。

可选地，所述模态适应性判断模块408，获取当前设备的软件状态信息和/或硬件状态信息；

根据所述软件状态信息和/或所述硬件状态信息是否支持3D模态，判断当前是否适用3D模态。

可选地，所述模态适应性判断模块408，判断当前是否适用3D模态之后，还执行：

确定预先构建的多预测头深度卷积神经网络，所述多预测头深度卷积神经网络包括两个根据至少部分不同的模态训练的端到端网络预测通道；

根据所述判断的结果，在所述两个端到端网络预测通道中，选择对应的一个端到端网络预测通道，用于识别各所述候选人是否具有刷脸支付意愿。

可选地，所述装置应用于线下的IoT刷脸机具，所述刷脸2D图像由IoT刷脸机具针对附近用户采集得到，所述刷脸2D图像中包含至少两张人脸。

图5为本说明书一个或多个实施例提供的一种刷脸支付意愿识别设备的结构示意图，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取刷脸2D图像；

判断当前是否适用3D模态；

基于同样的思路，本说明书一个或多个实施例还提供了对应于上述方法的一种刷脸支付意愿识别非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取刷脸2D图像；

判断当前是否适用3D模态；

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种刷脸支付意愿识别方法，包括：

获取刷脸2D图像；

判断当前是否适用3D模态；

2.如权利要求1所述的方法，所述判断当前是否适用3D模态，具体包括：

获取环境信息；

根据所述公众监督程度，判断当前是否适用3D模态。

3.如权利要求2所述的方法，所述根据所述环境信息，确定当前的公众监督程度，具体包括：

根据所述环境信息，确定各所述候选人之间的注意度；

4.如权利要求2或3所述的方法，所述判断当前是否适用3D模态，还包括：

根据所述环境信息，确定全局的业务紧急度，所述业务与多个所述候选人相关；

根据所述业务紧急度，判断当前是否适用3D模态。

5.如权利要求1～3任一项所述的方法，所述判断当前是否适用3D模态，具体包括：

获取当前设备的软件状态信息和/或硬件状态信息；

6.如权利要求1所述的方法，所述提取所述刷脸3D图像的特征之前，所述方法还包括：

根据各所述候选人在所述刷脸2D图像中的人脸区域选择框，确定各所述候选人在所述刷脸3D图像中的人脸区域；

计算所述人脸区域中的所有像素点具有的多个深度值；

根据所述多个深度值的平均值，确定所述各候选人在所述刷脸3D图像中的人脸区域的深度值；

在所述第二所处区域中的像素点中，根据所述第二所处区域的深度值，将距离图像采集设备超过预设阈值的像素点进行过滤。

7.如权利要求6所述的方法，所述根据所述第二所处区域的深度值，将距离图像采集设备超过预设阈值的像素点进行过滤，具体包括：

分别计算所述所有像素点具有的多个深度值与所述人脸区域的深度值之间的比值；

根据所述人脸区域的深度值的基准值与所述比值，将所述所有像素点具有的多个深度值分别处理为在所述基准值的附近范围内；

将处理后的所述所有像素点的多个深度值大于预设基准阈值所对应的像素点进行过滤；其中，所述处理后的像素点的深度值越大表示所述像素点距离所述图像采集设备越远。

8.如权利要求7所述的方法，设置有第一预设基准阈值与第二预设基准阈值，所述第一预设基准阈值小于所述基准值，所述第二预设基准阈值大于所述基准值；

所述将处理后的所述所有像素点的多个深度值大于预设基准阈值所对应的像素点进行过滤，具体包括：

分别提取处理后的所述所有像素点的多个深度值与第一预设基准阈值之间的最大值；

提取所述最大值与第二预设基准阈值之间的最小值；

根据所述最大值和所述最小值，将深度值大于所述第二预设基准阈值的处理后的所述像素点进行过滤，以及深度值小于所述第一预设基准阈值的处理后的所述像素点进行过滤。

9.如权利要求1所述的方法，所述提取所述刷脸2D图像的特征，并根据所述刷脸2D图像的特征和所述掩码图，得到第一融合特征，具体包括：

通过第一卷积网络，提取所述刷脸2D图像的特征；

对所述掩码图进行降分辨率处理，以适应于所述刷脸2D图像的特征；

通过第二卷积网络，融合所述刷脸2D图像的特征和所述降分辨率处理后的掩码图，得到第一融合特征。

10.如权利要求9所述的方法，所述根据所述第一融合特征，识别各所述候选人是否具有刷脸支付意愿，具体包括：

将所述第一融合特征输入对应于所述第一卷积网络的第三卷积网络进行处理，得到第一处理结果，其中，所述第一卷积网络和所述第三卷积网络是预先从同一个卷积网络拆分得到的；

根据所述第一处理结果生成概率值，以表示对应的所述候选人是否具有刷脸支付意愿。

11.如权利要求1所述的方法，所述提取所述刷脸3D图像的特征，并根据所述第一融合特征与所述刷脸3D图像的特征，得到第二融合特征，具体包括：

通过第四卷积网络，提取所述刷脸3D图像的特征；

按照通道维度，将所述第一融合特征和所述刷脸3D图像的特征进行连接；将所述连接得到的特征输入第五卷积网络进行处理，得到第二融合特征。

12.如权利要求11所述的方法，所述根据所述第二融合特征，识别各所述候选人是否具有刷脸支付意愿，具体包括：

将所述第二融合特征输入对应于所述第一卷积网络的第六卷积网络进行处理，得到第二处理结果，其中，所述第一卷积网络和所述第六卷积网络是预先从同一个卷积网络拆分得到的；

根据所述第二处理结果生成概率值，以表示对应的所述候选人是否具有刷脸支付意愿。

13.如权利要求1所述的方法，所述判断当前是否适用3D模态之后，所述方法还包括：

14.如权利要求1所述的方法，所述根据各所述候选人在所述刷脸2D图像中的第一所处区域，分别生成对应的掩码图，具体包括：

分别针对所述确定出的各所述候选人，执行：

根据该候选人的人脸区域选择框，确定该候选人对应的掩码图的第一填充区域，以及所述第一填充区域之外的第二填充区域；

通过为所述第一填充区域和所述第二填充区域赋予不同的填充值，生成分辨率与所述刷脸2D图像的分辨率一致的所述掩码图。

15.如权利要求14所述的方法，所述人脸区域选择框为矩形框；

所述根据该候选人的人脸区域选择框，确定该候选人对应的掩码图的第一填充区域，具体包括：

确定所述矩形框的中心作为圆心，确定所述矩形框的最长边的一半长度，作为半径；将基于所述圆心和所述半径构成的圆形区域，确定为该候选人对应的掩码图的第一填充区域。

16.如权利要求10或12所述的方法，所述拆分，具体包括：

确定目标分辨率，以便作为所述刷脸2D图像的特征的分辨率；

在所述同一个卷积网络中的卷积层中，确定与所述目标分辨率匹配的卷积层；

以所述匹配的卷积层作为拆分点，将同一个卷积网络拆分为前一部分和后一部分，所述前一部分作为所述第一卷积网络，所述后一部分作为所需的另一个卷积网络。

17.如权利要求1所述的方法，所述方法应用于线下的IoT刷脸机具，所述刷脸2D图像由IoT刷脸机具针对附近用户采集得到，所述刷脸2D图像中包含至少两张人脸。

18.一种刷脸支付意愿识别装置，包括：

2D图像获取模块，获取刷脸2D图像；

模态适应性判断模块，判断当前是否适用3D模态；

19.如权利要求18所述的装置，所述模态适应性判断模块，获取环境信息；

根据所述公众监督程度，判断当前是否适用3D模态。

20.如权利要求19所述的装置，所述模态适应性判断模块，根据所述环境信息，确定各所述候选人之间的注意度；

21.如权利要求19或20所述的装置，所述模态适应性判断模块，根据所述环境信息，确定全局的业务紧急度，所述业务与多个所述候选人相关；

根据所述业务紧急度，判断当前是否适用3D模态。

22.如权利要求18～20任一项所述的装置，所述模态适应性判断模块，获取当前设备的软件状态信息和/或硬件状态信息；

23.如权利要求18所述的装置，所述模态适应性判断模块，判断当前是否适用3D模态之后，还执行：

24.如权利要求18所述的装置，所述装置应用于线下的IoT刷脸机具，所述刷脸2D图像由IoT刷脸机具针对附近用户采集得到，所述刷脸2D图像中包含至少两张人脸。

25.一种刷脸支付意愿识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取刷脸2D图像；

判断当前是否适用3D模态；