CN112562221A

CN112562221A - 一种支持人脸识别的终端以及方法

Info

Publication number: CN112562221A
Application number: CN202011393979.5A
Authority: CN
Inventors: 吕瑞
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-26

Abstract

本说明书实施例公开了一种支持人脸识别的终端以及方法。终端包括：图像传感器、用户检测模块、身份识别模块、迎宾决策模块、声音获取模块、音响；图像传感器采集终端附近的图像；用户检测模块，在图像中检测用户；迎宾决策模块，在用户检测模块在图像中检测到用户后，判定用户是否为目标用户；声音获取模块，若判定的结果为是，则获取针对目标用户的迎宾声音数据，并通过音响播放迎宾声音数据；身份识别模块，对图像传感器采集到的目标用户的人脸图像进行识别，以确定目标用户的身份。

Description

一种支持人脸识别的终端以及方法

技术领域

本说明书涉及图像识别技术领域，尤其涉及一种支持人脸识别的终端以及方法。

背景技术

互联网技术的迅速发展也促进了丰富多样的支付方式的发展。刷脸支付是近年来兴起并逐渐普及的一种支付方式，通过人脸识别用户身份进而完成支付，在商场、超市、自助售卖机等处都有广泛应用。

在商户的店内，刷脸支付通过专用的终端实现，目前一种常用的刷脸支付终端与立式的小型扫码机类似，通常置于收银台上使用，一般不移动，需要刷脸时，商户方输入应收金额，然后，用户将脸凑到终端面前进行扫描即可。

基于此，需要易用性和拓展性更好的刷脸支付方案。

发明内容

本说明书一个或多个实施例提供支持人脸识别的终端、方法、设备以及存储介质，用以解决如下技术问题：需要易用性和拓展性更好的刷脸支付方案。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

本说明书一个或多个实施例提供的一种支持人脸识别的终端，包括：图像传感器、用户检测模块、身份识别模块、迎宾决策模块、声音获取模块、音响；

所述图像传感器采集所述终端附近的图像；

所述用户检测模块，在所述图像中检测用户；

迎宾决策模块，在所述用户检测模块在所述图像中检测到用户后，判定所述用户是否为目标用户；

声音获取模块，若所述判定的结果为是，则获取针对所述目标用户的迎宾声音数据，并通过所述音响播放所述迎宾声音数据；

所述身份识别模块，对所述图像传感器采集到的所述目标用户的人脸图像进行识别，以确定所述目标用户的身份。

本说明书一个或多个实施例提供的一种支持人脸识别的方法，包括：

采集附近的图像；

在所述图像中检测用户；

在所述用户检测模块在所述图像中检测到用户后，判定所述用户是否为目标用户；

若所述判定的结果为是，则获取针对所述目标用户的迎宾声音数据，并通过所述音响播放所述迎宾声音数据；

对采集到的所述目标用户的人脸图像进行识别，以确定所述目标用户的身份。

本说明书一个或多个实施例提供的一种支持人脸识别的设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

采集附近的图像；

在所述图像中检测用户；

本说明书一个或多个实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

采集附近的图像；

在所述图像中检测用户；

本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：终端可以主动采集和分析附近的图像，而不是被动地在触发支付业务后，用户凑面前才采集人脸图像，并且终端可以更主动向附近一些基于分析结果判定出的目标用户播放迎宾声音数据，以积极促进用户互动与业务进行，而迎宾声音数据也可以多样化地有针对性地准备，这样的终端作为刷脸支付终端使用，易用性和拓展性都很好。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种支持人脸识别的终端的结构示意图；

图2为本说明书一个或多个实施例提供的一种支持人脸识别的方法的流程示意图；

图3为本说明书一个或多个实施例提供的图1中终端的一种应用场景示意图；

图4为本说明书一个或多个实施例提供的图2中方法的一种详细流程示意图；

图5为本说明书一个或多个实施例提供的一种支持人脸识别的设备的结构示意图。

具体实施方式

本说明书实施例提供支持人脸识别的终端、方法、设备以及存储介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在本说明书一个或多个实施例中，提供了具有主动迎宾功能的刷脸支付终端，其相比于已有的刷脸支付终端，能够在更大的区域内(比如，包括商户的店内，以及店门口的走廊或者街道等区域)更容易被消费用户发现和使用，有助于吸引其他用户，提高了促成交易的可能性，商户方可以根据自己的实际需求，对迎宾所使用的声音数据进行自定义，终端还可以检测用户身份，并据此智能地为用户自动定制个性化的迎宾声音数据。

下面基于这样的思路，具体进行说明。

图1为本说明书一个或多个实施例提供的一种支持人脸识别的终端的结构示意图。该终端的应用场景是多样的。比如，应用于商户处或者自动贩卖机处，为顾客和可能成为顾客的其他用户进行宣传和服务。再比如，应用于校园处，为家长和学生进行宣传和服务。为了便于描述，下面的一些实施例主要以应用于商户处为例具体说明。

图1中的终端包括：图像传感器102、用户检测模块104、身份识别模块106、迎宾决策模块108、声音获取模块110、音响112。简明起见，后面仅用这几个组成部分的名称称呼而省略标号。图像传感器和音响包含专用的硬件，比如，摄像头、喇叭等，其他几个组成部分以软硬结合的方式实现，或者，基于中央处理器(Central Processing Unit，CPU)通过软件方式实现，后一种方案的实施成本较低，能够在一些现有终端上通过软件升级实现，而无需增加额外的硬件，有助于方案的推广使用。

在本说明书一个或多个实施例中，终端至少具有人脸识别功能，还可以具有基于识别结果执行后续特定业务的功能，比如，支付业务、自动贩卖业务、导购业务、检票业务、安检业务、垃圾回收业务等。

在本说明书一个或多个实施例中，上述的终端在使用时一般无需人为移动。比如，其可能置于收银台上使用，或者，终端可能是带有行走轮的机器人，智能化地自动导航移动着使用，等等。这样的使用场景有别于现有的智能手机，智能手机在使用时常常随着用户移动使用(移动通话、发即时通讯消息、浏览网页等)，当然，若将智能手机位置固定地使用，则其通过改进可能实现为上述的终端，比如，将智能手机升级软件以支持本说明书的方案后，用手机支架置于收银台上，让其保持位置基本固定地进行自主工作，如此，该智能手机可以作为上述的终端。

终端上述的几个组成部分涉及的动作包括以下：

图像传感器采集终端附近的图像；用户检测模块，在图像中检测用户；迎宾决策模块，在用户检测模块在图像中检测到用户后，判定用户是否为目标用户；声音获取模块，若判定的结果为是，则获取针对目标用户的迎宾声音数据，并通过音响播放迎宾声音数据；身份识别模块，对图像传感器采集到的目标用户的人脸图像进行识别，以确定目标用户的身份。

在本说明书一个或多个实施例中，图像传感器保持主动采集终端附近的图像，而不是在实时触发后实时采集，之后，再等待下一次触发。后一种方案是目前的一些刷脸支付终端采用的，一般通过用户或者商户指示开始支付(比如，点击订单页面上展示的“支付”按钮)而触发图像采集。

在本说明书一个或多个实施例中，上述的“附近”所代表的地域范围，要大于目前刷脸支付时在机器的“面前”所代表的地域范围。“面前”一般指要将人脸主动置于镜头前1米甚至更近的范围以内，而“附近”则可能包括镜头前10米甚至更远的范围以内，由于后续要播放迎宾声音数据，则比如按照能够效果较好地听到来自终端的声音作为标准，预先定义“附近”的范围，并可以适应性地对图像传感器的参数调整，使其能够更高效清晰地采集终端附近的图像。

进一步地，在图像传感器采集到的终端附近的图像中，如果存在用户，此时的图像即使不足以进行人脸识别(人脸识别是为了识别出用户身份)，也不影响后续步骤的继续执行，因为，后续是否播放迎宾声音数据的依据是用户是否为目标用户，而目标用户未必要依据用户身份确定，比如，目标用户可能定义为指定的一种性别的用户，在这种情况下，即使不确定用户身份，仍然可能识别出用户的性别。基于此，此刻人脸识别并不是必须的，之后，目标用户若继续走近，则可能利用再采集的图像进行人脸识别。从而，终端即使未能成功进行人脸识别，仍然实现了智能化的声音迎宾，无论是对于用户还是商户，体验都比较好，也有效利用了终端的处理资源，有助于扩展终端的应用场景。

在本说明书一个或多个实施例中，用户检测模块尝试在图像传感器采集的图像中检测用户，这里的“用户”广义上指人，狭义上可以指确定了身份的人。用户检测模块检测到用户后，根据需求，还可以根据继续采集的包含该用户的图像，在一定时间内对该用户持续跟踪。为了实现跟踪，可以基于图像处理手段，在时序上对对象的检测框进行关联，获取检测对象的时序信息。

进一步地，若在图像中同时检测到多个用户，则可以从中筛选用户进行跟踪，以便更有针对性地进行迎宾，而且能够提高效率。比如，根据用户在图像中占据区域的大小，筛选出距离镜头相对近的用户进行跟踪。再比如，根据用户间的协同行动模式，比如，并肩行走、挽手、牵孩子、勾肩搭背等行动模式，筛选出可能具有亲密关系的两个或者更多个用户进行跟踪。

在本说明书一个或多个实施例中，按照预定策略，从检测出的用户中确定特定的用户作为目标用户，针对目标用户迎宾，如此，有助于节省处理资源，提高效果，促进用户业务。比如，将当前对终端所属商户具有趋向性的用户(如，持续接近镜头的用户、在商户前驻足片刻的用户等)判定为目标用户。再比如，假定商户为女装贩卖店，则将女士用户判定为目标用户，可以通过服饰形状(如裙子)、发型(如长发)等特征甄别女士用户。

在本说明书一个或多个实施例中，迎宾声音数据由商户方预先定义，灵活性较好，有助于适应商户方的具体需求，比如，直接录入语音、自动合成语音或者其他效果音、选取服务端提供的声音等。若终端本身具有屏幕，或者连接有屏幕，则还支持针对目标用户播放迎宾图像数据，这种方式更为直观，方便有兴趣的用户进一步地了解商户能够提供的服务。

更智能地，由终端自动检测目标用户的特征，适应于特征，向目标用户播放相应的迎宾数据，从而更容易引起用户共鸣，事半功倍。

在本说明书一个或多个实施例中，迎宾声音数据的具体内容也是多样的，对于商户方而言，可以定义声音形式的广告作为迎宾声音数据，用于宣传店内服务，招揽顾客。还可以定义一些具有温度的人文关怀语音(适应于目标用户的特征选择相应的语音效果更好)、文艺作品语音、指导语音等，以更泛地尝试吸引用户，这种方案比较自然，不宜引起用户反感。

在本说明书一个或多个实施例中，前面已经提到，迎宾声音数据的播放未必要依赖于人脸识别结果。在实际应用中，若已经通过人脸识别成功确定目标用户的身份，则可以根据身份，适应性地播放更适合目标用户的迎宾声音数据。比如，可以在迎宾声音数据中加上目标用户的姓，用来称呼目标用户。再比如，若目标用户是一名游戏玩家，可以在迎宾声音数据中加上一些熟悉游戏的背景音乐，等等。

通过图1的终端，可以主动采集和分析附近的图像，而不是被动地在触发支付业务后，用户凑面前才采集人脸图像，并且终端可以更主动向附近一些基于分析结果判定出的目标用户播放迎宾声音数据，以积极促进用户互动与业务进行，而迎宾声音数据也可以多样化地有针对性地准备，这样的终端作为刷脸支付终端使用，易用性和拓展性都很好。

基于图1的终端，本说明书还提供了该终端的一些具体实施方案和扩展方案，下面继续进行说明。

在本说明书一个或多个实施例中，若终端作为刷脸支付终端使用，则还包括支付模块。身份识别模块，响应于目标用户的指令，对图像传感器采集到的目标用户的人脸图像进行识别；支付模块，根据身份识别模块识别出的目标用户的身份，从目标用户的账户中扣款，以完成支付。

这种方式由目标用户主动触发人脸识别和扣款过程，以防止误扣款带来不便。更便利地，人脸识别过程可以不由目标用户触发，而是无感地预先自动进行，用户只按照自己的实际消费情况触发扣款过程，在这种情况下，无需用户特别地关注终端的所在位置，也未必要主动将脸凑到终端面来摆出人脸识别的姿势，体验更好。

在本说明书一个或多个实施例中，将当前对终端所在商户具有趋向性的用户作为目标用户，典型的是向商户走来想要进店的用户。针对这类用户进行迎宾，效果好，还能避免声音播放打扰到一些无关用户，比如，仅仅是快速经过店门口的用户，或者离店门口较远的用户等。

可以通过靠近检测，实现对这类用户的甄别。基于此，用户检测模块比如包括有靠近检测子模块，在图像中先检测到用户，再进一步地通过靠近检测子模块，基于预定的判定阈值(比如，在5米的范围内，3秒钟内持续靠近；再比如，在10米的范围内，相对角度基本不变地持续靠近等；再比如，在10米的范围内，离远之后又再次靠近等；再比如，在5米的范围内，靠近几米后驻足；等等)，对用户进行靠近运动检测，迎宾决策模块根据靠近运动检测的结果，判定用户是否为目标用户。

在实际应用中，对用户的检测的准确性会直接影响到迎宾效果，为了提高准确性，在检测用户时，对一些可能的干扰进行过滤。基于此，用户检测模块比如包括有干扰过滤子模块，干扰过滤子模块，确定在图像中检测到的对象，判断对象的行为模式，根据行为模式，过滤掉非人的对象，以防止误判用户。

行为模式比如包括震荡运动行为，在实际应用中，有些物体比如树木、货物与人的大小接近，由于受到风或者人的影响，可能会出现震荡运动(抖动或者晃动等)，运动幅度虽然一般不大，但是可能会被终端误判定为人。而人一般不会长时间进行震荡运动，即使进行震荡运动一般运动幅度也会更大，干扰过滤子模块可以基于这样的特征，过滤掉做微震荡运动的非人的对象。

行为模式比如包括滞留行为，一些类似人型的物体比如塑料模特、布偶、立式的人型看板等，也可能被终端误判定为人。这类物体一般会长时间滞留在某个位置不动，那么，干扰过滤子模块可以基于这样的特征，过滤长时间滞留在原地的非人的对象。

在本说明书一个或多个实施例中，一些特定的人未必需要作为目标用户，比如，店员、商场内的保安等，这类人往往身着制服，可以通过预先的有监督训练，使得干扰过滤子模块能够识别制服，进而据此将检测出的这类人过滤掉。类似的，若商户的商品并不适合某类人，也可以将检测出的这类人过滤掉，比如，假定商户的商品是老人服装，老人服装不适合学生这个年龄段的人，因此，将检测出的学生过滤掉，不作为目标用户。

在本说明书一个或多个实施例中，前面已经提到，商户方可以自行录入语音作为迎宾声音数据，在实际应用中，由于商户方未必是专业的媒体从业人员，因此，录入的迎宾声音数据的效果由于文案、普通话、音效、背景音乐等因素可能不尽人意，针对这个问题，通过声音合成和场景自动识别等方案，来辅助或者代替商户方，获得更合适的迎宾声音数据。

例如，上述的终端还包括语音合成模块，根据商户方提供的文案或者适应于场景自动生成的文案，自动合成语音，作为迎宾声音数据。更泛地，除了语音以外的声音，比如，声效音、背景音乐、动物叫声等，也可以采用类似的声音合成模块进行合成。如此，减轻了商户方的负担，而且又有助于获得更好更专业的迎宾效果。

上述的场景识别，包括对周围环境的识别，还包括对用户本身的识别。比较而言，周围环境一般是相对固定的，而来往的用户是频繁变化的，因此，用户本身的识别尤其有意义。基于此，终端比如包括声音合成模块，由用户检测模块从图像中提取用户的特征，声音合成模块根据特征为用户定制并合成得到迎宾声音数据。这里的特征包括用户的外观、用户的身份，以及根据用户的身份和授权可能查询到的用户的其他相关数据，比如，交易数据、行程数据等。

在实际应用中，一些复杂的计算(比如，定制合成迎宾声音数据等)可以在服务端执行，终端获得并应用执行结果即可，从而，有助于简化终端的配置，降低方案实施成本。

在本说明书一个或多个实施例中，诸如刷脸支付终端这样互联网产品，对于老年人等一些用户群体具有使用门槛，在操作上往往存在困难，通过本说明书提供的终端，降低了操作困难，还可以通过播放迎宾声音数据，提示这些用户如何继续操作，在需要用户配合终端时，给予这些用户更详细更友好可行的声音提示，从而提高了易用性。

在本说明书一个或多个实施例中，考虑到对用户检测失误的可能性，为了防止失误导致播放出不合适的迎宾声音数据，对用户的检测结果生成相应的置信度，根据置信度的高低，获取不同程度或者不同类型的迎宾声音数据。比如，置信度较高时，认为对用户的检测结果无误，则可以获取更具体的很适用于该用户的迎宾声音数据，而置信度较低时，认为对用户的检测结果有可能有误，则可以获取相对泛的，适用范围更广(比如，不针对身份、性别等)的迎宾声音数据，从而提高了容错性，使得即使检测结果确实有误，播放的迎宾声音数据也不会引起用户不快，感受仍然良好。

在本说明书一个或多个实施例中，用户检测模块根据历史检测数据，确定与当前用户有关联或者有足够多相似特征的用户，声音获取模块根据这些用户的身份或者行为，生成个性化的迎宾数据，用于向当前用户播放，以提高当前客户对店铺的亲切感和认同感。比如，若根据检测到的当前用户的身份信息，确定当前用户所就读的大学或者工作的公司，而以往有该大学的若干校友或者该公司的若干同事也在当前店铺消费过，则比如向用户播报这样的情况，并对该大学或者该公司的近况进行简短介绍和宣传。

前面对终端的组成和工作原理进行了示例性说明，在实际应用中，对组成部分的划分方案是多样的，并不限于上面的例子，只要能够执行相应的步骤即可，比如，用户检测模块和迎宾决策模块可以融合为同一个模块、声音合成模块可以包括语音合成模块，等等。基于同样的思路，本说明书一个或多个实施例还提供了一种支持人脸识别的方法的流程示意图，如图2所示。

图2中的流程可以包括以下步骤：

S202：采集附近的图像。

S204：在所述图像中检测用户。

S206：在所述用户检测模块在所述图像中检测到用户后，判定所述用户是否为目标用户。

S208：若所述判定的结果为是，则获取针对所述目标用户的迎宾声音数据，并通过所述音响播放所述迎宾声音数据。

S210：对采集到的所述目标用户的人脸图像进行识别，以确定所述目标用户的身份。

所述对采集到的所述目标用户的人脸图像进行识别，具体包括：

响应于所述目标用户的指令，对采集到的所述目标用户的人脸图像进行识别；

所述对采集到的所述目标用户的人脸图像进行识别之后，还执行：

根据识别出的所述目标用户的身份，从所述目标用户的账户中扣款，以完成支付。

所述判定所述用户是否为目标用户，具体包括：对所述用户进行靠近运动检测；

根据所述靠近运动检测的结果，判定所述用户是否为目标用户。

所述在所述图像中检测用户，具体包括：

确定在所述图像中检测到的对象；

判断所述对象的行为模式；

根据所述行为模式，过滤掉非人的对象。

所述行为模式包括以下至少一种：震荡运动行为、滞留行为。

该方法应用于商户方；

所述若所述判定的结果为是，则获取针对所述目标用户的迎宾声音数据，具体包括：

若所述判定的结果为是，则获取所述商户方自定义的所述迎宾声音数据。

所述获取针对所述目标用户的迎宾声音数据之前，还执行：

根据所述商户方的指示，通过语音合成，合成得到所述迎宾声音数据。

所述在所述用户检测模块在所述图像中检测到用户后，还执行：

从所述图像中提取所述用户的特征；

根据所述特征，为所述用户定制并合成得到所述迎宾声音数据。

所述迎宾声音数据包括声音形式的广告。

根据前面的说明，本说明书一个或多个实施例提供的图1中终端的一种应用场景示意图，如图3所示。

在图3中，支持迎宾和刷脸支付的终端属于商户方的店铺，检测附近的目标用户，示出了两名用户正在距离店铺相对更近的虚线区域内向店铺靠近，因此被判定为目标用户，另三名用户由于距离店铺相对远，也没有靠近趋势，因此被判定为非目标用户，终端向目标用户播放迎宾声音数据。

图4为本说明书一个或多个实施例提供的图2中方法的一种详细流程示意图。在图4的场景下，上述的终端置于商户的店门口或者收银台上，终端的摄像头朝向店外或者用户经常经过的其他区域，作为刷脸支付终端使用，迎宾声音数据至少包括声音形式的广告。

图4中的流程包括以下步骤：

S402：终端根据商户方的自定义操作，预先合成并存储迎宾声音数据。

S404：采集附近的图像。

S406：在图像中检测用户。

S408：在图像中检测到用户后，继续对用户进行追踪，并尝试对用户进行人脸识别，以确定用户身份。

S410：追踪过程中对用户进行靠近运动检测。

S412：若检测到用户靠近的行为符合预期，则将用户判定为目标用户。

S414：读取与目标用户相适应的迎宾声音数据，并适时地(比如，在目标用户靠近至预定区域以内时)播放迎宾声音数据。

S416：在人脸识别出目标用户的身份后，若确定目标用户在商户处的消费行为发生，则对目标用户进行扣款。

基于同样的思路，本说明书一个或多个实施例还提供了上述方法对应的设备，如图5所示。

图5为本说明书一个或多个实施例提供的一种支持人脸识别的设备的结构示意图，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

采集附近的图像；

在所述图像中检测用户；

处理器与存储器之间可以通过总线通信，设备还可以包括与其他设备通信的输入/输出接口。

基于同样的思路，本说明书一个或多个实施例提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

采集附近的图像；

在所述图像中检测用户；

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种支持人脸识别的终端，包括：图像传感器、用户检测模块、身份识别模块、迎宾决策模块、声音获取模块、音响；

所述图像传感器采集所述终端附近的图像；

所述用户检测模块，在所述图像中检测用户；

2.如权利要求1所述的终端，还包括：支付模块；

所述身份识别模块，响应于所述目标用户的指令，对所述图像传感器采集到的所述目标用户的人脸图像进行识别；

所述支付模块，根据所述身份识别模块识别出的所述目标用户的身份，从所述目标用户的账户中扣款，以完成支付。

3.如权利要求1所述的终端，所述用户检测模块包括靠近检测子模块；所述靠近检测子模块，在所述图像中检测出用户后，对所述用户进行靠近运动检测；

所述迎宾决策模块，根据所述靠近运动检测的结果，判定所述用户是否为目标用户。

4.如权利要求1所述的终端，所述用户检测模块包括干扰过滤子模块；

所述干扰过滤子模块，确定在所述图像中检测到的对象；

判断所述对象的行为模式；

根据所述行为模式，过滤掉非人的对象。

5.如权利要求4所述的终端，所述行为模式包括以下至少一种：震荡运动行为、滞留行为。

6.如权利要求1所述的终端，应用于商户方；

所述声音获取模块，若所述判定的结果为是，则获取所述商户方自定义的所述迎宾声音数据。

7.如权利要求6所述的终端，还包括：语音合成模块；

所述语音合成模块，根据所述商户方的指示，通过语音合成，合成得到所述迎宾声音数据。

8.如权利要求1所述的终端，还包括：声音合成模块；

所述用户检测模块，从所述图像中提取所述用户的特征；

所述声音合成模块，根据所述特征，为所述用户定制并合成得到所述迎宾声音数据。

9.如权利要求1～8任一项所述的终端，所述迎宾声音数据包括声音形式的广告。

10.一种支持人脸识别的方法，包括：

采集附近的图像；

在所述图像中检测用户；

11.如权利要求10所述的方法，所述对采集到的所述目标用户的人脸图像进行识别，具体包括：

所述对采集到的所述目标用户的人脸图像进行识别之后，所述方法还包括：

12.如权利要求10所述的方法，所述判定所述用户是否为目标用户，具体包括：

对所述用户进行靠近运动检测；

13.如权利要求10所述的方法，所述在所述图像中检测用户，具体包括：

确定在所述图像中检测到的对象；

判断所述对象的行为模式；

根据所述行为模式，过滤掉非人的对象。

14.如权利要求13所述的方法，所述行为模式包括以下至少一种：震荡运动行为、滞留行为。

15.如权利要求10所述的方法，应用于商户方；

16.如权利要求15所述的方法，所述获取针对所述目标用户的迎宾声音数据之前，所述方法还包括：

17.如权利要求10所述的方法，所述在所述用户检测模块在所述图像中检测到用户后，所述方法还包括：

从所述图像中提取所述用户的特征；

18.如权利要求10～17任一项所述的方法，所述迎宾声音数据包括声音形式的广告。