CN109461003A

CN109461003A - 基于多视角的多人脸场景刷脸支付风险防控方法和设备

Info

Publication number: CN109461003A
Application number: CN201811459514.8A
Authority: CN
Inventors: 方涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-03-12
Anticipated expiration: 2038-11-30
Also published as: WO2020112262A1; TW202036417A; US20200175510A1; CN109461003B; SG11202012528RA; TWI759613B

Abstract

本公开涉及一种基于多视角的多人脸场景刷脸支付的系统，包括输入设备，用于接收用户发起刷脸支付的指令；至少一个人脸摄像头，用于拍摄用户发起刷脸支付时的人脸图像；至少一个监控摄像头，用于拍摄用户发起刷脸支付的动作的图像或视频；以及处理器，配置成在所述至少一个监控摄像头拍摄的图像或视频中识别做出发起刷脸支付的动作的用户；在所述至少一个人脸摄像头拍摄的人脸图像中识别一个或多个人脸；将在所述至少一个监控摄像头拍摄的图像或视频中识别出的做出发起刷脸支付的动作的用户与在所述至少一个人脸摄像头拍摄的人脸图像中识别出的一个或多个人脸进行比对以寻找匹配。本公开还涉及相应的方法。

Description

基于多视角的多人脸场景刷脸支付风险防控方法和设备

技术领域

本申请涉及人脸识别，尤其涉及多人脸场景刷脸支付。

背景技术

人脸识别是基于人的脸部特征信息进行身份认证的生物特征识别技术。该技术能采用非接触式的方式进行便捷、准确、卫生的身份认证。人脸识别在政府、公安、安全、海关、金融、军队、机场、边防口岸、安防、学校等各个行业和领域中具有广阔的应用和发展前景。基于人脸识别的刷脸支付是目前线下场景的新型支付手段。例如，在一现有技术场景中，消费者在收银台面对摄像头，系统自动扫描消费者面部，再将其与数据库中的信息进行比对。消费者面部信息与支付系统相关联。当比对成功，即验证了消费者的身份信息时，由消费者在触摸屏或按键上确认，支付即告成功。

刷脸支付无需用户扫码，也无需携带任何工具，因此用户体验好，具有非常好的发展前景。随着技术的发展，刷脸支付已逐渐不需要用户输入其他身份信息(例如，手机号、账号等)就可完成支付行为，而是仅需用户刷一下脸就可以直接完成支付行为。

然而，对于现有技术的刷脸流程而言，风险之一在于，当系统扫描消费者面部时，若画面中存在多个人脸，可能难以确定是哪个用户有意愿进行支付行为。若误判，则可能会发生误扣钱的情况。如果发生此类情况，则不但会发生资损，也会对用户刷脸支付的安全感和兴趣造成很大的负面影响。

一些现有技术通过要求用户在刷脸时摆出特定姿势/手势(例如，点赞)来表明确认自己有支付意愿，以免在画面中存在多个人脸时误判有支付意愿的对象而造成误扣钱。然而，此种方案需要用户摆出特定姿势/手势来确认支付意愿，牺牲了用户体验。不仅如此，当画面中碰巧有两个或更多个人摆出该特定姿势/手势时，仍然容易发生误扣钱的情况。

因此，本领域中需要改进的多人脸场景刷脸支付风险防控方案，以至少解决现有技术的上述问题中的一个或多个问题。

发明内容

本公开的一方面涉及一种基于多视角的多人脸场景刷脸支付的系统，包括输入设备，用于接收用户发起刷脸支付的指令；至少一个人脸摄像头，用于拍摄用户发起刷脸支付时的人脸图像；至少一个监控摄像头，用于拍摄用户发起刷脸支付的动作的图像或视频；以及处理器，配置成在所述至少一个监控摄像头拍摄的图像或视频中识别做出发起刷脸支付的动作的用户；在所述至少一个人脸摄像头拍摄的人脸图像中识别一个或多个人脸；将在所述至少一个监控摄像头拍摄的图像或视频中识别出的做出发起刷脸支付的动作的用户与在所述至少一个人脸摄像头拍摄的人脸图像中识别出的一个或多个人脸进行比对以寻找匹配。

根据一示例性而非限定性实施例，所述处理器被进一步配置成如果寻找到一个匹配，则基于匹配到的人脸进行人脸支付；或者如果寻找不到匹配或者寻找到不止一个匹配，则终止人脸支付和/或进入替换支付过程。

根据另一示例性而非限定性实施例，所述处理器被配置成在所述至少一个监控摄像头拍摄的图像或视频中识别做出发起刷脸支付的动作的用户进一步包括所述处理器被配置成在所述至少一个监控摄像头拍摄的图像或视频中识别一个或多个人体；以及识别所述一个或多个人体的姿态以寻找做出发起刷脸支付的动作的用户。

根据又一示例性而非限定性实施例，做出发起刷脸支付的动作包括以下至少一者：点击屏幕、点击按钮以及做出与刷脸支付相关联的预定义动作或手势。

根据再一示例性而非限定性实施例，所述处理器被配置成将在所述至少一个监控摄像头拍摄的图像或视频中识别出的做出发起刷脸支付的动作的用户与在所述至少一个人脸摄像头拍摄的人脸图像中识别的一个或多个人脸进行比对以寻找匹配进一步包括所述处理器被配置成对于在所述至少一个监控摄像头拍摄的图像或视频中识别出的做出发起刷脸支付的动作的用户，识别所述用户的脸部图像、身体信息或者上述各项的组合，其中所述身体信息包括衣着信息、体态信息、位置信息或上述各项的组合；以及基于在所述至少一个监控摄像头拍摄的图像或视频中所识别出的做出发起刷脸支付的动作的用户的所述脸部图像、身体信息或者上述各项的组合，与在所述至少一个人脸摄像头拍摄的人脸图像中识别的一个或多个人脸进行比对以寻找匹配。

根据另一示例性而非限定性实施例，所述匹配包括人脸匹配。

根据进一步的示例性而非限定性实施例，所述匹配进一步包括衣着匹配、体态匹配、位置匹配或上述各项的组合。

根据又一示例性而非限定性实施例，所述处理器还被配置成当所述输入设备接收到用户发起刷脸支付的指令时，指令所述至少一个人脸摄像头拍摄用户发起刷脸支付时的人脸图像并且同时指令所述至少一个监控摄像头拍摄用户发起刷脸支付的动作的图像或视频。

根据再一示例性而非限定性实施例，所述处理器还被配置成当所述输入设备接收到用户发起刷脸支付的指令时，指令所述至少一个人脸摄像头拍摄用户发起刷脸支付时的人脸图像并且记录相关联的人脸图像拍摄时间；以及基于所述人脸图像拍摄时间，从所述至少一个监控摄像头获得用户发起刷脸支付的动作的图像或视频。

根据又一示例性而非限定性实施例，所述处理器还被配置成从所述至少一个监控摄像头获得图像或视频；处理从所述至少一个监控摄像头获得的图像或视频以识别有可能做出了发起刷脸支付的动作的用户；将所识别出的可能做出了发起刷脸支付的动作的用户的用户识别信息与所述发起刷脸支付的动作的时间关联地记录；当所述输入设备接收到用户发起刷脸支付的指令时，指令所述至少一个人脸摄像头拍摄用户发起刷脸支付时的人脸图像并且记录相关联的人脸图像拍摄时间；搜索与所述人脸图像拍摄时间对应的发起刷脸支付的动作的时间；以及当搜索到与所述人脸图像拍摄时间对应的发起刷脸支付的动作的时间时，调取相关联的用户识别信息作为所识别出的做出发起刷脸支付的动作的用户。

本公开还涉及相应的方法。

附图说明

图1示出了根据本公开的一方面的一种多人脸场景刷脸支付风险防控方案。

图2示出根据本公开的一示例性方面的多视角相机布局。具体实施方式

图3示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付系统。

图4示出了根据本公开一示例性实施例的使用基于多视角的多人脸场景刷脸支付系统的方法。

图5示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付风险防控场景。

图6示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付风险防控场景。

图7示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付风险防控场景。

图8示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付风险防控场景。

具体实施方式

为了更好地理解本发明的技术方案，下面结合附图对本申请的实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例的罗列。基于本公开中描述的实施例，本领域普通技术人员在没有付出创造习惯劳动的情况下所获得的所有其他变化例都属于本申请的保护范围。

一般而言，用户可通过点击按键(例如，“开始”按键)来发起刷脸支付。因此，做出此点击动作的用户往往是有支付意愿的用户。若能检测到用户点击对应屏幕的行为，则即便画面中有多个人脸，也可以确定有支付意愿的用户对应于画面中的哪张脸。用户发起刷脸支付的方式并不限于此，例如，用户可以通过点击屏幕的特定位置/区域，通过做出与刷脸支付相关联的预定义动作/手势(例如，点赞、OK等)，发出特定声音等来发起刷脸支付。本公开在此方面不受限制，只要发起刷脸支付的行为是能从视频/画面/用户交互中识别的即可。

图1示出了根据本公开的一方面的一种多人脸场景刷脸支付风险防控方案。该方案涉及一种多视角相机布局方案。该多视角相机布局包括至少两个相机，该至少两个相机包括至少一个监控摄像头。该至少一个监控摄像头被安装并配置成能够拍摄到用户的人体姿态并且能够至少部分地拍摄到人脸区域。该至少一个监控摄像头可在监控过程中检测用户点击特定屏幕的行为，以确定特定时间与特定设备关联的潜在有支付意愿的用户。该至少两个相机还包括至少一个人脸摄像头。该至少一个人脸摄像头被安装并配置成采集与该特定设备关联的用户的人脸图像。

根据一示例性而非限定性的实施例，该特定设备可包括屏幕。例如，该屏幕可以是触摸屏。又如，该屏幕也可以是非触摸屏，而是设置了用户输入接口，例如按钮、按键、鼠标等。该特定设备还可包括例如处理器和与该处理器耦合的存储器。

该特定设备还可包括例如图像处理模块、用户接口模块等。例如，图像处理模块可接收该至少一个监控摄像头和/或该至少一个人脸摄像头拍摄的视频和/或图像。根据一示例性实施例，上述组件可被耦合到总线并通过总线来相互通信。根据另一示例性实施例，上述各个模块可以用软件来实现，从而它们驻留在存储器中并由处理器来执行。

根据一示例性而非限定性的实施例，图像处理模块可对例如来自该至少一个人脸摄像头的人脸图像进行处理。例如，图像处理模块可对例如来自该至少一个人脸摄像头的人脸图像进行处理，以检测该人脸图像中的一个或多个人脸。根据一示例，图像处理模块可确定并记录与该人脸图像的拍摄相关联的时间。

根据一示例性而非限定性的实施例，当用户通过例如点击该特定设备的屏幕或该特定设备的按钮或其他方式来发起支付时，该特定设备的处理器可指令该至少一个人脸摄像头拍摄用户的人脸图像，并可记录相关联的人脸拍摄时间。在发起支付时人脸摄像头立即拍摄用户的人脸图像的情形中，该相关联的时间可以是例如用户点击屏幕或按钮的时间(或作出特定姿势的时间、发出特定声音的时间等)和/或可以是该至少一个人脸摄像头拍摄人脸图像的时间。因为这两种时间之间的差非常小而可忽略不计，而可被认为是基本上相同的。而在发起支付之后，还需要用户确认后才拍摄人脸图像的情形中，该相关联的人脸拍摄时间可以是例如用户确认拍摄的时间和/或可以是该至少一个人脸摄像头拍摄人脸图像的时间，同样因为这两个时间之间的差非常小而可忽略不计，而可被认为是基本上相同的。

在该至少一个人脸摄像头拍摄了人脸图像之后，处理器将来自该至少一个人脸摄像头的人脸图像传送给图像处理模块。根据一示例性而非限定性的示例，处理器还可将所记录的相关联的人脸拍摄时间随该人脸图像一起传送给图像处理模块。

在接收到该人脸图像之后，图像处理模块识别该人脸图像中出现的人脸。例如，该人脸图像中可能出现一张或更多张人脸。图像处理模块可使用本领域目前或将来所知的任何人脸识别算法来识别人脸。根据一示例性而非限定性实施例，图像处理模块可在该人脸图像中所识别出的所有人脸之中，将例如离所述屏幕超过阈值距离的人脸确定为无效。根据另一示例性而非限定性实施例，图像处理模块可将例如偏离于正面面对屏幕的角度超过阈值(例如，根据一示例，超过90度)的人脸确定为无效。

当图像处理模块从接收自人脸摄像头的人脸图像中识别出至少一个或多个有效人脸之前、期间或之后，处理器指令图像处理模块获取来自该至少一个监控摄像头的视频并对其进行处理。

根据一示例，监控摄像头可保持视频拍摄。处理器可将带有与该人脸图像相关联的人脸拍摄时间的指示的指令发送给该至少一个监控摄像头。该至少一个监控摄像头根据与该人脸图像相关联的人脸拍摄时间，获取相应的一段视频并将其传送给图像处理器。图像处理器接收该段视频。图像处理模块可例如对接收自该至少一个监控摄像头的视频进行处理。例如，图像处理模块可识别出该段视频中的一个或多个人体，并对该段视频中的每个人体进行姿态识别，以搜索点击该特定设备的屏幕的动作。当找到该段视频中点击该特定设备的屏幕的动作时，即认为该人脸图像与该点击动作相对应。

根据另一示例，监控摄像头可保持视频拍摄。图像处理器模块可保持对接收自该至少一个监控摄像头的视频的实时处理，并且每当检测到可能的用户点击屏幕动作时就将相应的图像连同点击时间(以及还可能有其他信息，例如所识别出的作出点击动作的用户的脸部图像和/或身体信息。例如，身体信息可包括衣着信息、体态信息、位置信息等等。)一起记录下来。从而在图像处理模块从接收自人脸摄像头的人脸图像中识别出至少一个或多个有效人脸之后，可以立即根据相关联的人脸拍摄时间，从所记录的点击时间中搜索是否存在对应的点击时间。如果找到对应的点击时间，则认为该人脸图像与关联于该点击时间的点击动作相对应。

根据再一示例，监控摄像头可以仅在接收到用户发起支付和/或确认拍摄人脸图像的时候才采集视频并将其传送给图像处理器以进行与前述类似的处理。当找到人脸摄像头所拍摄的人脸图像与监控摄像头所拍摄的视频中的点击动作之间的对应时，处理器确定该人脸图像中所识别出的有效人脸是否与该视频中作出该点击动作的用户匹配。例如，可基于在视频中识别出的作出点击动作的用户的人脸信息、衣着信息、体态信息、位置信息等或其任何组合，来确认该用户对应于人脸图像中所识别出的哪个有效人脸。

无论使用哪种方案，当确定作出点击动作的用户对应于人脸图像中所识别出的特定有效人脸时，认为刷脸成功，用户的身份得到验证，并进行后续支付过程。当确定作出点击动作的用户不对应于人脸图像中所识别出的任何有效人脸时，或者当不能确定作出点击动作的用户对应于人脸图像中所识别出的任何有效人脸时，则认为刷脸失败，并且发起替换支付过程或退出支付。

图2示出根据本公开的一示例性方面的多视角相机布局。该多视角相机布局包括至少两个相机，该至少两个相机可包括至少一个监控摄像头和至少一个人脸摄像头。该至少一个监控摄像头被安装并配置成能够拍摄到用户的人体姿态并且能够至少部分地拍摄到人脸区域。例如，如图所示，该监控摄像头可安装在屏幕的正上方高于平均用户身高处，从而该至少一个监控摄像头可在监控过程中清楚地检测到用户点击特定屏幕的行为且不易被遮挡。但是本发明并不被限定于此。例如，该至少一个监控摄像头可被安装在屏幕的左上方和/或右上方、天花板的左上方、正上方、和/或右上方等等，也可被安装在用户站立位置的左侧或右侧等等，只要其可在监控过程中清楚地检测到用户点击特定屏幕的行为且不易被遮挡即可。另外，该至少一个人脸摄像头被安装并配置成采集与该特定设备关联的用户的人脸图像。例如，如图所示，该人脸摄像头可安装在屏幕上方正对或略高于平均身高用户人脸的高度。但是本发明并不被限定于此。例如，该人脸摄像头可安装在屏幕的左上角和/或右上角等等，只要其可清楚地采集到屏幕前的用户的至少人脸图像即可。根据一示例性而非限定性的实施例，监控摄像头和/或人脸摄像头可以是高度/角度可调节的，以便于分别更好地完成监控摄像和人脸拍摄的工作。例如，监控摄像头和/或人脸摄像头的上下、左右、前后和/或角度调节可以是人工的，和/或可以是自动调节的。这些均在本公开的范围之内。例如，在图2中，(a)示出了人脸摄像头在屏幕上方略高于平均身高用户人脸的高度，而监控摄像头在屏幕正上方高于人脸摄像头之处的布局；(b)示出了人脸摄像头在屏幕右上角，而监控摄像头在天花板的左上方的布局；以及(c)示出了人脸摄像头在屏幕上方，而监控摄像头在用户站立位置右侧的布局。然而这些仅是多视角相机布局的示例，本发明并不被限定于这些示例布局。例如，本发明还可包括具有多个监控摄像头和/或多个人脸摄像头的配置，以用于例如以更好的视角捕捉用户的画面和视频，增加交叉比对环节以提高识别准确性，和/或减小被遮挡的概率等等。

图3示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付系统300。系统300例如包括一个或多个监控摄像头302以及一个或多个人脸摄像头304。该一个或多个监控摄像头302以及一个或多个人脸摄像头304的布局例如可如结合图2所描述的那样。系统300还可包括屏幕306。屏幕306可以是触摸屏，也可以是非触摸屏。系统300还可包括按钮/按键等用户输入设备308。在屏幕306是触摸屏的情形中，用户输入设备308的至少一部分可由屏幕306实现。系统300还可包括例如处理器312和存储器314。系统300还可包括图像处理器模块316、以及用户接口模块318。上述各个组件可通过总线320耦合在一起，并通过总线320 来相互通信。替换地，图像处理模块316以及用户接口模板318等也可以通过软件来实现，从而其被存储在存储器314中并由处理器312执行。

图4示出了根据本公开一示例性实施例的使用基于多视角的多人脸场景刷脸支付系统的方法400。方法400包括在402，接收用户发起刷脸支付的指令。在404，获取来自监控摄像头的视频或图像以及来自人脸摄像头的图像。在406，识别来自监控摄像头的视频或图像中的一个或多个人体。在408，对于在406识别出的每一个人体，识别该人体的姿态以搜索用户发起刷脸支付的动作。例如，可搜索用户点击屏幕以发起刷脸支付的动作。在410，当搜索到用户发起刷脸支付的动作时，从来自监控摄像头的视频或图像确定与该动作相关联的用户识别信息。例如，识别信息可包括该用户的人脸信息和/或身体信息(例如，衣着信息、体态信息、位置信息等等)，或其任何组合。在412，识别来自人脸摄像头的图像中的一个或多个人脸。在414，对于在412识别出的每一个人脸，将来自人脸摄像头的与该人脸相关联的用户识别信息与在410从来自监控摄像头的视频或图像确定的用户识别信息进行比对以确定是否寻找到匹配。从来自监控摄像头的视频或图像确定的用户识别信息可包括例如用户的人脸信息和/或身体信息(例如，衣着信息、体态信息、位置信息等等)。在框416，如果寻找到一个匹配，则认为刷脸成功并进入后续支付动作。在框418，如果找不到匹配，或者找到多个匹配，则认为刷脸失败，并进入替换支付过程。例如，在替换支付过程中，可要求用户输入相关账户信息或扫码、刷卡等以进行支付。替换地，当在框418刷脸失败，该过程也可直接结束。

图5示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付风险防控场景。例如，在简单的场景中，有且仅有一个用户站在屏幕前。该用户发起刷脸支付的指令。例如，该用户点击屏幕上的相应区域或按钮来发起刷脸支付。又如，该用户点击屏幕附近的实体按钮/按键来发起刷脸支付。再如，该用户作出与刷脸支付相关联的预定义动作/手势来发起刷脸支付。在接收到用户发起刷脸支付的指令后，系统获取来自监控摄像头的视频或图像，并且基本上同时，系统还获取来自人脸摄像头的图像。然后，系统识别出来自监控摄像头的视频或图像中的一个人体，并识别出该人体的姿态与发起刷脸支付的动作相一致。例如，该人体的姿态与用户点击屏幕以发起刷脸支付的动作一致。又如，该人体的姿态与用户点击屏幕附近的实体按钮/按键来发起刷脸支付的动作一致。再如，该人体的姿态与用户作出与刷脸支付相关联的预定义动作/手势来发起刷脸支付的姿态一致。当搜索到用户发起刷脸支付的动作时，从来自监控摄像头的视频或图像确定与该动作相关联的用户识别信息。例如，识别信息可包括该用户的人脸信息和/或身体信息(例如，衣着信息、体态信息、位置信息等等)，或其任何组合。例如，识别信息可包括该用户的人脸识别信息、衣着颜色 /图案、该用户的姿势(例如，该用户的手与屏幕特定区域接触、该用户的站姿、该用户的脸所面向的方向等等或其任何组合)。系统随后在来自人脸摄像头的图像中识别出一个人脸，然后将与该人脸相关联的用户识别信息(例如，该用户的人脸识别信息、衣着颜色/图案、该用户的姿势(例如，该用户的手与屏幕特定区域接触、该用户的站姿、该用户的脸所面向的方向等等或其任何组合)等)与从来自监控摄像头的视频或图像确定的用户识别信息进行比对。在此情形中，系统可寻找到一个匹配，由此认为刷脸成功并进入后续支付动作。

图6示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付风险防控场景。例如，在此场景中，有两个用户站在屏幕前，其中一个用户发起刷脸支付的指令。例如，该用户点击屏幕上的相应区域或按钮来发起刷脸支付。又如，该用户点击屏幕附近的实体按钮/按键来发起刷脸支付。再如，该用户作出与刷脸支付相关联的预定义动作/手势来发起刷脸支付。在接收到用户发起刷脸支付的指令后，系统获取来自监控摄像头的视频或图像，并且基本上同时，系统还获取来自人脸摄像头的图像。然后，系统识别出来自监控摄像头的视频或图像中的两个人体，并识别出这两个人体中有一个人体的姿态与发起刷脸支付的动作相一致。例如，该人体的姿态与用户点击屏幕以发起刷脸支付的动作一致。又如，该人体的姿态与用户点击屏幕附近的实体按钮/按键来发起刷脸支付的动作一致。再如，该人体的姿态与用户作出与刷脸支付相关联的预定义动作/手势来发起刷脸支付的姿态一致。当搜索到用户发起刷脸支付的动作时，从来自监控摄像头的视频或图像确定与该动作相关联的用户识别信息。例如，识别信息可包括该用户的人脸信息和/或身体信息(例如，衣着信息、体态信息、位置信息等等)，或其任何组合。例如，识别信息可包括该用户的人脸识别信息、衣着颜色/图案、该用户的姿势(例如，该用户的手与屏幕特定区域接触、该用户的站姿、该用户的脸所面向的方向等等或其任何组合)。系统随后在来自人脸摄像头的图像中识别出两个人脸，然后将与这两个人脸相关联的用户识别信息(例如，该用户的人脸识别信息、衣着颜色/图案、该用户的姿势(例如，该用户的手与屏幕特定区域接触、该用户的站姿、该用户的脸所面向的方向等等或其任何组合)等)分别与从来自监控摄像头的视频或图像确定的用户识别信息进行比对。在此情形中，系统可寻找到一个匹配，由此认为刷脸成功并进入后续支付动作。

图7示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付风险防控场景。例如，在此场景中，有两个用户站在屏幕前，其中一个用户发起刷脸支付的指令。例如，该用户点击屏幕上的相应区域或按钮来发起刷脸支付。又如，该用户点击屏幕附近的实体按钮/按键来发起刷脸支付。再如，该用户作出与刷脸支付相关联的预定义动作/手势来发起刷脸支付。另外，还有第三用户站在该两个用户身后。在接收到用户发起刷脸支付的指令后，系统获取来自监控摄像头的视频或图像，并且基本上同时，系统还获取来自人脸摄像头的图像。然后，系统识别出来自监控摄像头的视频或图像中的三个人体，并识别出这三个人体中有一个人体的姿态与发起刷脸支付的动作相一致。例如，该人体的姿态与用户点击屏幕以发起刷脸支付的动作一致。又如，该人体的姿态与用户点击屏幕附近的实体按钮/按键来发起刷脸支付的动作一致。再如，该人体的姿态与用户作出与刷脸支付相关联的预定义动作/手势来发起刷脸支付的姿态一致。当搜索到用户发起刷脸支付的动作时，从来自监控摄像头的视频或图像确定与该动作相关联的用户识别信息。例如，识别信息可包括该用户的人脸信息和/ 或身体信息(例如，衣着信息、体态信息、位置信息等等)，或其任何组合。例如，识别信息可包括该用户的人脸识别信息、衣着颜色/图案、该用户的姿势(例如，该用户的手与屏幕特定区域接触、该用户的站姿、该用户的脸所面向的方向等等或其任何组合)。系统随后在来自人脸摄像头的图像中识别出三个人脸，然后将与这三个人脸相关联的用户识别信息(例如，该用户的人脸识别信息、衣着颜色/图案、该用户的姿势(例如，该用户的手与屏幕特定区域接触、该用户的站姿、该用户的脸所面向的方向等等或其任何组合)等)分别与从来自监控摄像头的视频或图像确定的用户识别信息进行比对。在此情形中，系统可寻找到一个匹配，由此认为刷脸成功并进入后续支付动作。

图8示出了根据本公开一示例性实施例的基于多视角的多人脸场景刷脸支付风险防控场景。例如，在此场景中，有两个用户站在屏幕前，其中一个用户发起刷脸支付的指令。例如，该用户点击屏幕上的相应区域或按钮来发起刷脸支付。又如，该用户点击屏幕附近的实体按钮/按键来发起刷脸支付。另一个用户碰巧作出了与该用户相似的动作/手势。在接收到用户发起刷脸支付的指令后，系统获取来自监控摄像头的视频或图像，并且基本上同时，系统还获取来自人脸摄像头的图像。然后，系统识别出来自监控摄像头的视频或图像中的两个人体，并识别出这两个人体的姿态均与发起刷脸支付的动作相一致。在此情形中，如果该系统包括两个或更多个监视摄像头，则系统可通过这两个或更多个监视摄像头所达到的立体视觉效果，来确定这两个用户的手分别可能与屏幕上的哪个区域，或与哪个实体按钮/按键相关联。如果该系统仅包括一个监视摄像头，则当该一个监视摄像头安装在用户前方(例如，屏幕上方)时，系统可确定这两个用户的手分别可能与屏幕上哪个纵向区域相关联，或当该一个监视摄像头安装在用户侧方时，系统可确定这两个用户的手距离监视摄像头的距离，并基于此确定这两个用户的手分别可能与屏幕上的哪个区域相关联。在此基础上，系统可确定这两个做出了发起刷脸支付的动作的用户，哪个可能是真正发起了刷脸支付的用户。

当确定了哪个用户发起了刷脸支付时，可记录从来自监控摄像头的视频或图像确定的与发起刷脸支付相关联的用户识别信息以供后续比对使用。系统随后在来自人脸摄像头的图像中识别出两个人脸，然后将与这两个人脸相关联的用户识别信息(例如，该用户的人脸识别信息、衣着颜色 /图案、该用户的姿势(例如，该用户的手与屏幕特定区域接触、该用户的站姿、该用户的脸所面向的方向等等或其任何组合)等)分别与从来自监控摄像头的视频或图像确定的用户识别信息进行比对。在此情形中，系统可寻找到一个匹配，由此认为刷脸成功并进入后续支付动作。

尽管以上示例结合用户点击屏幕来发起刷脸支付的场景进行了描述，但是本领域普通技术人员能够明了，用户发起刷脸支付的方式并不限于此，例如，用户可以通过点击按钮/按键，通过做出与刷脸支付相关联的预定义动作/手势，发出特定声音等来发起刷脸支付。本公开在此方面不受限制，只要发起刷脸支付的行为是能从视频/画面中识别的即可。

本领域普通技术人员应理解，本发明的有益效果并非由任何单个实施例来全部实现。各种组合、修改和替换均为本领域普通技术人员在本发明的基础上所易于明了。

此外，除非特别指出，否则术语“或”旨在表示包含性“或”而非排他性“或”。即，除非另外指明或从上下文能清楚地看出，否则短语“X 采用A或B”或类似短语旨在表示任何自然的可兼排列。即，短语“X采用A或B”藉由以下实例中的任何实例得到满足：X采用A；X采用B； X采用A和B两者。术语“连接”与“耦合”可表示相同含义，即两组件之间直接的或经由一个或多个居间组件的间接耦合。另外，本申请和所附权利要求书中所用的冠词“一”和“某”一般应当被理解为表示“一个或多个”，除非另外特别声明或从上下文中可以清楚地看出是指单数形式。

各个方面或特征以可包括数个设备、组件、模块及类似物等的系统的形式来呈现。应理解的时，各种系统可以包括附加的设备、组件、模块及类似物等，和/或可以并不包括所讨论的实施例中的设备、组件、模块及类似物的全体。

结合本文中所公开的实施例描述的各种说明性逻辑、逻辑块、模块和电路可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、门或晶体管逻辑、硬件组件。但在替换方案中，处理器可以是任何常规的处理器、控制器、微控制器或状态机。以上结合方法描述的实施例可以通过处理器和与之耦合的存储器来实现，其中处理器可被配置成执行前述任何方法的任何步骤或其组合。

结合本文中的实施例描述的方法或算法的步骤和/或动作可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。例如，以上结合各个方法描述的实施例可以通过存储有计算机程序代码的计算机可读介质来实现，其中该计算机程序代码在由处理器/计算机执行时执行前述任何方法的任何步骤或其任何组合。

本公开中通篇描述的各种方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上等效的方案均被本公开所覆盖。此外，本文中任何内容无论是否在权利要求书中被述及，均并非旨在贡献给公众。

Claims

1.一种基于多视角的多人脸场景刷脸支付的系统，包括：

输入设备，用于接收用户发起刷脸支付的指令；

至少一个人脸摄像头，用于拍摄用户发起刷脸支付时的人脸图像；

至少一个监控摄像头，用于拍摄用户发起刷脸支付的动作的图像或视频；以及

处理器，配置成：

在所述至少一个监控摄像头拍摄的图像或视频中识别做出发起刷脸支付的动作的用户；

在所述至少一个人脸摄像头拍摄的人脸图像中识别一个或多个人脸；

将在所述至少一个监控摄像头拍摄的图像或视频中识别出的做出发起刷脸支付的动作的用户与在所述至少一个人脸摄像头拍摄的人脸图像中识别出的一个或多个人脸进行比对以寻找匹配。

2.如权利要求1所述的系统，其特征在于，所述处理器被进一步配置成：

如果寻找到一个匹配，则基于匹配到的人脸进行人脸支付；或者

如果寻找不到匹配或者寻找到不止一个匹配，则终止人脸支付和/或进入替换支付过程。

3.如权利要求1所述的系统，其特征在于，所述处理器被配置成在所述至少一个监控摄像头拍摄的图像或视频中识别做出发起刷脸支付的动作的用户进一步包括所述处理器被配置成：

在所述至少一个监控摄像头拍摄的图像或视频中识别一个或多个人体；以及

识别所述一个或多个人体的姿态以寻找做出发起刷脸支付的动作的用户。

4.如权利要求1所述的系统，其特征在于，做出发起刷脸支付的动作包括以下至少一者：点击屏幕、点击按钮以及做出与刷脸支付相关联的预定义动作或手势。

5.如权利要求1所述的系统，其特征在于，所述处理器被配置成将在所述至少一个监控摄像头拍摄的图像或视频中识别出的做出发起刷脸支付的动作的用户与在所述至少一个人脸摄像头拍摄的人脸图像中识别的一个或多个人脸进行比对以寻找匹配进一步包括所述处理器被配置成：

对于在所述至少一个监控摄像头拍摄的图像或视频中识别出的做出发起刷脸支付的动作的用户，识别所述用户的脸部图像、身体信息或者上述各项的组合，其中所述身体信息包括衣着信息、体态信息、位置信息或上述各项的组合；以及

基于在所述至少一个监控摄像头拍摄的图像或视频中所识别出的做出发起刷脸支付的动作的用户的所述脸部图像、身体信息或者上述各项的组合，与在所述至少一个人脸摄像头拍摄的人脸图像中识别的一个或多个人脸进行比对以寻找匹配。

6.如权利要求5所述的系统，其特征在于，所述匹配包括人脸匹配。

7.如权利要求6所述的系统，其特征在于，所述匹配进一步包括：衣着匹配、体态匹配、位置匹配或上述各项的组合。

8.如权利要求1所述的系统，其特征在于，所述处理器还被配置成：

当所述输入设备接收到用户发起刷脸支付的指令时，指令所述至少一个人脸摄像头拍摄用户发起刷脸支付时的人脸图像并且同时指令所述至少一个监控摄像头拍摄用户发起刷脸支付的动作的图像或视频。

9.如权利要求1所述的系统，其特征在于，所述处理器还被配置成：

当所述输入设备接收到用户发起刷脸支付的指令时，指令所述至少一个人脸摄像头拍摄用户发起刷脸支付时的人脸图像并且记录相关联的人脸图像拍摄时间；以及

基于所述人脸图像拍摄时间，从所述至少一个监控摄像头获得用户发起刷脸支付的动作的图像或视频。

10.如权利要求1所述的系统，其特征在于，所述处理器还被配置成：

从所述至少一个监控摄像头获得图像或视频；

处理从所述至少一个监控摄像头获得的图像或视频以识别有可能做出了发起刷脸支付的动作的用户；

将所识别出的可能做出了发起刷脸支付的动作的用户的用户识别信息与所述发起刷脸支付的动作的时间关联地记录；

当所述输入设备接收到用户发起刷脸支付的指令时，指令所述至少一个人脸摄像头拍摄用户发起刷脸支付时的人脸图像并且记录相关联的人脸图像拍摄时间；

搜索与所述人脸图像拍摄时间对应的发起刷脸支付的动作的时间；以及

当搜索到与所述人脸图像拍摄时间对应的发起刷脸支付的动作的时间时，调取相关联的用户识别信息作为所识别出的做出发起刷脸支付的动作的用户。

11.一种基于多视角的多人脸场景刷脸支付的方法，包括：

接收用户发起刷脸支付的指令；

通过至少一个人脸摄像头拍摄用户发起刷脸支付时的人脸图像；

通过至少一个监控摄像头拍摄用户发起刷脸支付的动作的图像或视频；

12.如权利要求11所述的方法，其特征在于，进一步包括：

13.如权利要求11所述的方法，其特征在于，在所述至少一个监控摄像头拍摄的图像或视频中识别做出发起刷脸支付的动作的用户进一步包括：

14.如权利要求11所述的方法，其特征在于，做出发起刷脸支付的动作包括以下至少一者：点击屏幕、点击按钮以及做出与刷脸支付相关联的预定义动作或手势。

15.如权利要求11所述的方法，其特征在于，进一步包括：

16.如权利要求15所述的方法，其特征在于，所述匹配包括人脸匹配。

17.如权利要求16所述的方法，其特征在于，所述匹配进一步包括：衣着匹配、体态匹配、位置匹配或上述各项的组合。

18.如权利要求11所述的方法，其特征在于，还包括：

19.如权利要求11所述的方法，其特征在于，还包括：

20.如权利要求11所述的方法，其特征在于，还包括：

从所述至少一个监控摄像头获得图像或视频；