CN110770742A

CN110770742A - 基于面部特征点的摇动动作识别系统和方法

Info

Publication number: CN110770742A
Application number: CN201880040472.6A
Authority: CN
Inventors: 张修宝
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2020-02-07
Anticipated expiration: 2038-04-25
Also published as: AU2018420579A1; EP3707644A4; CN110770742B; JP2021511607A; US20200302618A1; US10929984B2; WO2019205015A1; EP3707644A1

Abstract

本申请涉及动作识别的系统和方法。该系统和方法可以获取与对象的面部信息相关联的至少两个连续目标图像帧，每个所述至少两个连续目标图像帧包括与面部信息相关联的至少两个特征点；对于至少两个连续目标图像帧中的每一个，该系统和方法可以基于至少两个特征点确定第一区域和第二区域；对于至少两个连续目标图像帧中的每一个，该系统和方法可以基于第一区域和第二区域确定非对称参数；该系统和方法可以响应于非对称参数满足预设条件，识别摇动动作。

Description

基于面部特征点的摇动动作识别系统和方法

技术领域

本申请涉及用于动作识别的系统和方法，尤其涉及用于基于面部特征点的摇动动作识别的系统和方法。

背景技术

基于动作识别(例如，摇动头动作识别)的活体检测在许多场景(例如，系统登录、身份认证和人机交互)中变得越来越重要。以“系统登录”为例，当用户打算通过人脸识别登录系统时，可能需要验证“用户”是生物体而不是假体(例如图片)。在当前的摇动头部运动识别中，三维信息主要由微软的Kinect获取，然后用于基于隐马尔可夫模型类别的机器学习。该系统涉及复杂的算法，该算法需要高计算能力，导致系统负载繁重且无法满足实时需求。因此，期望提供有效且快速的系统和方法，其需要较低的计算能力来识别用户的动作。

发明内容

本申请的一个方面涉及一种用于动作识别的系统。该系统可以包括包含指令组的至少一个存储介质，和与所述至少一个存储介质通信的至少一个处理器。当至少一个处理器执行所述指令组时，可以指示所述至少一个处理器使系统执行一个或以上以下操作。所述至少一个处理器可以获取与对象的面部信息相关联的至少两个连续目标图像帧。至少两个连续目标图像帧中的每一个图像帧可以包括与面部信息相关联的至少两个特征点。基于所述至少两个连续目标图像帧中的每一个图像帧中的至少两个特征点，所述至少一个处理器可以确定第一区域和第二区域。基于所述第一区域和所述第二区域，所述至少一个处理器可以确定所述至少两个连续目标图像帧中的每一个图像帧中的非对称参数。响应于非对称参数满足预设条件，至少一个处理器可以识别摇动动作。

本申请的另一方面涉及一种用于在计算设备上实现的动作识别的方法，该计算设备具有至少一个处理器、至少一个存储设备和连接到网络的通信平台。所述方法可以包括一个或以上下述操作。所述至少一个处理器可以获取与对象的面部信息相关联的至少两个连续目标图像帧。至少两个连续目标图像帧中的每一个图像帧可以包括与面部信息相关联的至少两个特征点。基于所述至少两个连续目标图像帧中的每一个图像帧中的至少两个特征点，所述至少一个处理器可以确定第一区域和第二区域。基于所述第一区域和所述第二区域，所述至少一个处理器可以确定所述至少两个连续目标图像帧中的每一个图像帧中的非对称参数。响应于非对称参数满足预设条件，至少一个处理器可以识别摇动动作。

本申请的另一方面涉及一种非暂时性计算机可读介质，其包括至少一组用于动作识别的指令。当至少一组指令由至少一个处理器执行时，至少一组指令可以使至少一个处理器实现方法。所述方法可以包括一个或以上下述操作。所述至少一个处理器可以获取与对象的面部信息相关联的至少两个连续目标图像帧。至少两个连续目标图像帧中的每一个图像帧可以包括与面部信息相关联的至少两个特征点。基于所述至少两个连续目标图像帧中的每一个图像帧中的至少两个特征点，所述至少一个处理器可以确定第一区域和第二区域。基于所述第一区域和所述第二区域，所述至少一个处理器可以确定所述至少两个连续目标图像帧中的每一个图像帧中的非对称参数。响应于非对称参数满足预设条件，至少一个处理器可以识别摇动动作。

在一些实施例中，至少两个特征点可以包括第一特征点、第二特征点、第三特征点、第四特征点和第五特征点。在一些实施例中，第一特征点和第二特征点可以相对于与面部信息相关联的垂直中心线对称；第四特征点和第五特征点可以相对于与面部信息相关的垂直中心线对称；第三特征点可以位于与面部信息相关的垂直中心线上。

在一些实施例中，第一特征点可以是左眼的中心点；第二特征点可能是右眼的中心点；第三特征点可能是鼻尖点；第四特征点可能是嘴唇的左端点；第五特征点可能是嘴唇的右端点。

在一些实施例中，基于第一特征点、第三特征点和第四特征点，至少一个处理器可以确定第一区域。基于第二特征点、第三特征点和第五特征点，所述至少一个处理器可以确定第二区域。

在一些实施例中，至少一个处理器可以确定第一区域与第二区域的第一比率。至少一个处理器可以确定第二区域与第一区域的第二比率。至少一个处理器可以将第一比率和第二比率中较大的一个确定为非对称参数。

在一些实施例中，所述至少一个处理器可以获取与所述对象的面部信息相关联的至少两个连续候选图像帧，其中，对于每个连续候选图像帧，所述第三特征点位于基于第一特征点、第二特征点、第四特征点和第五特征点所确定的四边形内。所述至少一个处理器可以从至少两个连续候选图像帧识别至少两个连续目标图像帧的开始图像帧，其中对应于开始图像帧的非对称参数小于最小非对称比率阈值。所述至少一个处理器可以从至少两个连续候选图像帧识别至少两个连续目标图像帧的结束图像帧，其中对应于结束图像帧的非对称参数小于最小非对称比率阈值。

在一些实施例中，至少一个处理器可以识别至少两个连续目标图像帧中的最大非对称参数对应的中间图像帧。所述至少一个处理器可以确定从开始图像帧到中间图像帧的连续目标图像帧的第一数量和从中间图像帧到结束图像帧的连续目标图像帧的第二数量。所述至少一个处理器可以通过拟合所述至少两个连续目标图像帧中的所述第三特征点确定预估线。响应于中间图像帧的非对称参数大于最大非对称比率阈值、第一数量大于第一数量阈值、第二数量大于第二数量阈值、预估线与水平线之间的角度小于角度阈值，所述至少一个处理器可识别摇动动作。

在一些实施例中，最小非对称比率阈值可以在1.01-1.02范围内。

在一些实施例中，最大非对称比率阈值可以在1.2-1.3范围内。

在一些实施例中，第一数量阈值可以在2-10范围内，并且第二数量阈值可以在2-10范围内。

在一些实施例中，角度阈值可以在5°-20°范围内。

在一些实施例中，响应于摇动动作的识别，至少一个处理器可以向与对象相关联的终端设备提供认证。

在一些实施例中，系统可以进一步包括摄像机，所述摄像机可以被配置用于提供视频数据，从所述视频数据中可以获取至少两个连续目标图像帧。

在一些实施例中，至少一个处理器可以从由摄像机提供的视频数据获取至少两个目标图像帧。

本申请的一部分附加特性可以在下面的描述中进行说明，通过对以下描述和相应附图的检查或者对实施例的生产或操作的了解，本申请的一部分附加特性对于本领域技术人员是明显的。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。

附图说明

本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。附图不按比例绘制。这些实施例是非限制性的示意性实施例，其中相同的附图标记在附图的若干视图中表示类似的结构，并且其中：

图1是根据本申请的一些实施例所示的示例性动作识别系统的示意图；

图2是根据本申请的一些实施例所示的计算设备的示例性硬件和/或软件组件的示意图；

图3是根据本申请的一些实施例所示的移动设备的示例性硬件组件和/或软件组件的示意图；

图4是根据本申请的一些实施例所示的示例性处理引擎的框图；

图5是说明根据本申请的一些实施例的用于识别摇动动作的示例性过程的流程图。

图6-A是根据本申请的一些实施例所示的面部上的示例性特征点的示意图；

图6-B是根据本申请的一些实施例所示的基于特征点确定示例性第一区域和示例性第二区域的示意图；

图7是根据本申请的一些实施例所示的用于确定与对象的面部信息相关联的至少两个连续目标图像帧的示例性过程的流程图。

图8是根据本申请的一些实施例所示的用于识别摇动动作的示例性过程的流程图；以及，

图9是根据本申请的一些实施例所示的在摇动动作期间非对称参数的变化过程的示例性曲线的示意图。

具体实施方式

以下描述是为了使本领域的普通技术人员能够实施和利用本申请，并且该描述是在特定的应用场景及其要求的环境下提供的。对于本领域的普通技术人员来讲，显然可以对所公开的实施例作出各种改变，并且在不偏离本申请的原则和范围的情况下，本申请中所定义的普遍原则可以适用于其他实施例和应用场景。因此，本申请并不限于所描述的实施例，而应该被给予与权利要求一致的最广泛的范围。

本申请中所使用的术语仅用于描述特定的示例性实施例，并不限制本申请的范围。如本申请使用的单数形式“一”、“一个”及“该”可以同样包括复数形式，除非上下文明确提示例外情形。还应当理解，如在本申请说明书中，术语“包括”、“包含”仅提示存在所述特征、整体、步骤、操作、组件和/或部件，但并不排除存在或添加一个或以上其他特征、整体、步骤、操作、组件、部件和/或其组合的情况。

根据以下对附图的描述，本申请的这些和其他的特征、特点以及相关结构元件的功能和操作方法，以及部件组合和制造经济性，可以变得更加显而易见，这些附图都构成本申请说明书的一部分。然而，应当理解的是，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例绘制的。

本申请中使用了流程图用来说明根据本申请的一些实施例的系统所执行的操作。应当理解的是，流程图中的操作可以不按顺序执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将一个或以上其他操作添加到这些流程图中。一个或以上操作也可以从流程图中删除。

此外，虽然本申请中公开的系统和方法主要是关于摇动动作识别来描述的，但是还应该理解，这仅是一个示例性实施例。本申请的系统和方法可以应用于任何其他类型的动作识别。例如，本申请的系统和方法可以应用于其他动作识别，包括眼球运动、眨眼动作、点头动作、抬头动作、张嘴动作等，或其任何组合。动作识别系统可以应用于许多应用场景，例如系统登录、身份认证、人机交互(HCl)等。本申请的系统和方法的应用可以包括网页、浏览器的插件、客户终端、定制系统、内部分析系统、人工智能机器人等，或者它们任何组合。

本申请中的术语“对象”、“人”或“用户”可互换使用，指的是要识别其行为的活体。此外，本申请中的术语“图像帧”、“图像”、“候选图像帧”和“目标图像帧”用于表示视频数据中的帧或由摄像机设备捕获的图像。本申请中的术语“摄像机”、“相机设备”和“捕获设备”可以互换使用，以指代可以捕获视频数据或图像数据的设备。

本申请的一个方面涉及用于动作识别的系统和方法(例如，活体识别中的动作识别)。以摇动动作为例，在摇动动作期间，与物体的脸部的左侧相关联的区域和与脸部的右侧相关联的区域可以动态地改变。因此，与左侧和右侧相关联的非对称参数也可以在摇动动作期间动态地改变。本申请中的系统和方法可以基于非对称参数的变化来识别摇动动作。例如，系统和方法可以获取与对象的面部信息相关联的至少两个连续目标图像帧。至少两个连续目标图像帧中的每一个图像帧包括与面部信息相关联的至少两个特征点。对于至少两个连续目标图像帧中的每一个图像帧，系统和方法可以基于至少两个特征点确定与左侧相关联的第一区域和与右侧相关联的第二区域，并且基于第一区域和第二区域确定非对称参数。此外，基于至少两个连续目标图像帧的非对称参数，系统和方法可以识别摇动动作。

图1是根据本申请的一些实施例所示的示例性动作识别系统的示意图。例如，动作识别系统100可以是用于基于对象(例如，人)的面部信息的摇动动作识别的在线动作识别平台。

在一些实施例中，动作识别系统100可以用在各种应用场景中，例如人机交互(HCl)、系统登录、身份认证等，或其任何组合。在HCI的应用场景中，响应于动作的识别，动作识别系统100可以执行指令以执行由用户定义的操作。例如，在提取用户的面部信息并识别用户的动作(例如，摇动动作)之后，动作识别系统100可以执行指令以执行定义的操作，例如翻动电子书的页面、添加动画视频聊天期间的效果、控制机器人执行操作(例如，拖地)、请求服务(例如，出租车服务)等。在系统登录的应用场景(例如，银行系统、在线考试系统、安全和保护系统)中，在提取用户的面部信息并识别用户的动作(例如，摇动动作)之后，动作识别系统100可以确定登录许可并允许与用户相关联的用户帐户登录系统。在身份认证的应用场景中，在提取用户的面部信息并识别用户的动作(例如，摇动动作)之后，动作识别系统100可以确定用户的身份并提供访问账户的许可(例如，终端设备、支付账户、会员账户)或进入保密场所的许可(例如，公司、图书馆、医院、公寓)。

在一些实施例中，动作识别系统100可以是在线平台，包括服务器110、网络120、摄影设备130、用户终端140和存储器150。

服务器110可以是单一服务器或服务器组。所述服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式的系统)。在一些实施例中，服务器110可以是本地的，也可以是远程的。例如，服务器110可以通过网络120访问存储在摄影设备130、用户终端140和/或存储器150中的信息和/或数据。又例如，服务器110可以直接连接到摄影设备130、用户终端140和/或存储器150，以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实施。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等，或其任意组合。在一些实施例中，服务器110可以在图2中描述的包含了一个或者多个组件的计算设备200上执行。

在一些实施例中，服务器110可以包括处理引擎112。处理引擎112可以处理与动作识别有关的信息和/或数据，以执行本申请中描述的一个或以上的功能。例如，基于与对象(例如，对象160)的面部信息相关联的至少两个连续目标图像帧，处理引擎112可以识别摇动动作。在一些实施例中，所述处理引擎112可包括一个或以上处理引擎(例如，单芯片处理引擎或多芯片处理引擎)。仅作为示例，处理引擎112可以包括一个或以上硬件处理器，例如中央处理单元(CPU)、特定应用集成电路(ASIC)、特定应用一组指令处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、控制器、微控制器单元、精简一组指令计算机(RISC)、微处理器等或其任意组合。

在一些实施例中，服务器110可以是不必要的，并且服务器110的全部或部分功能可以由动作识别系统100的其他组件(例如，摄影设备130、用户终端140)实现。例如，处理引擎112可以集成在摄影设备130或用户终端140中，并且处理引擎112的功能(例如，基于与对象的面部信息相关联的图像帧识别对象的动作)可以由摄影设备130或用户终端140实现。

网络120可以促进信息和/或数据的交换。在一些实施例中，动作识别系统100的一个或以上组件(例如，服务器110、摄影设备130、用户终端140、存储器150)可以通过网络120与动作识别系统100其他组件交换信息和/或数据。例如，服务器110可以通过网络120从摄影设备130获取信息和/或数据(例如，图像帧)。在一些实施例中，网络120可以是任何类型的有线或无线网络，或其组合。仅作为示例，网络120可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络等或其任意组合。在一些实施例中，网络120可以包括一个或以上网络接入点。例如，网络120可以包括有线或无线网络接入点，例如基站和/或互联网交换点120-1、120-2……，动作识别系统100的一个或以上组件通过它们可以将连接到网络120交换数据和/或信息。

摄影设备130可以捕获与对象相关联的图像数据或视频数据。例如，摄影设备130可以捕获包括与对象的面部信息相关联的至少两个图像帧的视频。在一些实施例中，摄影设备130可以包括黑白相机、彩色相机、红外相机、X射线相机等。在一些实施例中，摄影设备130可包括单目相机、双目相机、多相机等。在一些实施例中，摄影设备130可以是包括或连接到相机的智能设备。智能设备可以包括智能家居设备(例如，智能照明设备、智能电视)，智能机器人(例如，扫地机器人、拖地机器人、聊天机器人、工业机器人等)。在一些实施例中，摄影设备130可以是监视相机。监视相机可以包括无线彩色相机、低光相机、防破坏相机、子弹相机、针孔相机、隐藏间谍相机、固定盒相机等，或其任何组合。在一些实施例中，摄影设备130可以是IP相机，其可以通过网络120将捕获的图像数据或视频数据发送到动作识别系统100的任何组件(例如，服务器110、用户终端140、存储器150)。

在一些实施例中，基于捕获的图像帧，摄影设备130可以独立地识别对象的动作。在一些实施例中，摄影设备130可以将捕获的图像帧发送到服务器110或用户终端140以进一步处理。在一些实施例中，摄影设备130可以将捕获的图像帧发送到存储器150以进行存储。在一些实施例中，摄影设备130可以集成在用户终端140中。例如，摄影设备130可以是用户终端140的一部分，诸如移动电话的相机、计算机的相机等。

在一些实施例中，用户终端140可以包括移动设备、平板计算机、膝上型计算机等，或其任何组合。在一些实施例中，移动设备可以包括可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等，或其任何组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能服装、智能背包、智能配件等，或其任何组合。在一些实施例中，智能移动设备可以包括移动电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)设备等，或其任何组合。在一些实施例中，虚拟现实设备和/或增强型虚拟现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括Google Glass^TM、RiftCon^TM、Fragments^TM、Gear VR^TM等。

在一些实施例中，用户终端140可以直接或通过网络120与动作识别系统100的其他组件(例如，服务器110、摄影设备130、存储器150)交换信息和/或数据。例如，用户终端140可以从摄影设备130或存储器150获取图像帧以基于图像帧，识别对象的动作。又例如，用户终端140可以从服务器110接收消息(例如，认证)。

存储器150可以存储数据和/或指令。在一些实施例中，存储器150可以存储从摄影设备130和/或用户终端140获取的数据。在一些实施例中，存储器150可以储存服务器110用来执行或使用来完成本申请中描述的示例性方法的数据及/或指令。在一些实施例中，储存器150可包括大容量储存器、可移动储存器、易失性读写内存、只读存储器(ROM)等，或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性易失性读写内存可以包括随机存取存储器(RAM)。示例性RAM可包括动态随机存取存储器(DRAM)、双倍数据速率同步动态随机存取存储器(DDR SDRAM)、静态随机存取存储器(SRAM)、晶闸管随机存取存储器(T-RAM)和零电容随机存取存储器(Z-RAM)等。示例性只读存储器可以包括掩模型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)和数字多功能磁盘只读存储器等。在一些实施例中，所述存储器150可在云平台上实现。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等，或其任意组合。

在一些实施例中，存储器150可以连接到网络120以与动作识别系统100的一个或以上组件(例如，服务器110、摄影设备130、用户终端140等)通信。动作识别系统100的一个或以上组件可以通过网络120访问存储在存储器150中的数据或指令。在一些实施例中，存储器150可以直接连接到动作识别系统100的一个或以上组件(例如，服务器110、摄影设备130、用户终端140等)或与之通信。在一些实施例中，存储器150可以是服务器110的一部分。

在一些实施例中，动作识别系统100的一个或以上组件(例如，服务器110、摄影设备130、用户终端140)可以具有访问存储器150的许可。例如，用户终端140可以从存储器150访问信息/数据(例如，与对象的面部信息相关联的图像帧)。

该描述旨在说明，而不是限制本申请的范围。许多替代、修改和变化对于本领域普通技术人员来说是显而易见的。可以以各种方式组合本文描述的示例性实施例的特征、结构、方法和其他特征，以获取另外的和/或替代的示例性实施例。例如，存储器150可以是包括云计算平台的数据存储器，例如公共云、私有云、社区和混合云等。但是，那些变化与修改不会脱离本申请的范围。

图2是根据本申请的一些实施例所示的计算设备200的示例性硬件和软件组件的示意图，在该计算设备200上可以实现服务器110、摄影设备130和/或用户终端140。例如，处理引擎112可以在计算设备200上实施并执行本申请所披露的处理引擎112的功能。

计算设备200可用于实现如本文所述的动作识别系统100的任何组件。例如，处理引擎112可以在计算设备上通过其硬件、软件程序、固件或其组合实现。尽管仅示出了一个这样的计算机，但是为了方便，与这里描述的动作识别服务有关的计算机功能可以在多个类似平台上以分布式方式实现，以分配处理负荷。

例如，计算设备200可以包括连接到和/或连接到其的网络的通信端口250，以便于数据通信。计算设备200还可以包括处理器(例如，处理器220)，其形式为一个或以上处理器(例如，逻辑电路)，用于执行程序指令。例如，处理器可以包括接口电路和其中的处理电路。接口电路可以被配置为从总线210接收电信号，其中电信号编码用于处理电路的结构化数据和/或指令。处理电路可以进行逻辑计算，然后将结论、结果和/或指令编码确定为电信号。然后，接口电路可以通过总线210从处理电路发出电信号。

计算设备200还可以包括不同形式的程序存储和数据存储，例如，磁盘270、以及只读存储器(ROM)230或随机存取存储器(RAM)240，用于存储由计算机处理和/或发送的各种数据文件。计算设备200还可以包括存储在ROM230、RAM240和/或由处理器220执行的其他类型的非暂时性存储介质中的程序指令。本申请的方法和/或过程可以实现为程序指令。计算设备200还包括输入/输出组件260，支持计算机和其他组件之间的输入/输出。计算设备200也可以通过网络通信接收编程和数据。

仅仅为了说明，计算设备200只描述了一个中央处理单元和/或处理器。然而，需要注意的是，本申请中的计算设备200可以包括多个CPU和/或处理器，因此本申请中描述的由一个CPU和/或处理器实现的操作和/或方法也可以共同地或独立地由多个CPU和/或处理器实现。例如，如果在本申请中，计算设备200的CPU和/或处理器执行步骤A和步骤B，应当理解的是，步骤A和步骤B也可以由计算设备200的两个不同的CPU和/或处理器共同地或独立地执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同地执行步骤A和步骤B)。

图3是根据本申请的一些实施例所示的可以在其上实现摄影设备130、用户终端140或摄影设备130或用户终端140的一部分的移动设备300的示例性硬件和/或软件组件的示意图。如图3所示，移动设备300可以包括通信模块310、显示器320、图像处理单元(GPU)330、中央处理单元(CPU)340、输入/输出350、内存360和存储器390。CPU 340可以包括接口电路和类似于处理器220的处理电路。

在一些实施例中，任何其他合适的组件，包括但不限于系统总线或控制器(未示出)，也可包括在移动设备300内。在一些实施例中，移动操作系统370(例如，iOS^TM、Android^TM、Windows Phone^TM等)和一个或以上应用程序380可以从存储器390加载到内存360中，以便由CPU 340执行。应用程序380可以包括浏览器或任何其他合适的移动应用程序，用于从移动设备300上的动作识别系统100接收和呈现信息。用户与信息流的交互可以通过输入/输出设备350实现，并通过网络120提供给处理引擎112和/或动作识别系统100的其他组件。

为了实施本申请描述的各种模块、单元及其功能，计算机硬件平台可用作本文中描述的一个或以上组件的硬件平台。具有用户接口组件的计算机可用于实现个人计算机(PC)或任何其他类型的工作站或终端设备。如果适当编程，计算机也可以充当系统。

图4是根据本申请的一些实施例所示的示例性处理引擎的框图。处理引擎112可包括获取模块410、区域确定模块420、非对称参数确定模块430和动作识别模块440。

获取模块410可以被配置用于获取与对象(例如，人、动物)的面部信息相关联的至少两个连续目标图像帧。获取模块410可以从本申请中其他地方公开的摄影设备130、用户终端140或存储设备(例如，存储器150)获取至少两个连续目标图像帧。

如这里所使用的，“图像帧”可以指视频中的帧，“连续”可以指的是图像帧沿着视频中的序列排序。例如，摄影设备130可以按时间顺序捕获视频。该视频包括分别对应于至少两个捕获时间点的至少两个图像帧。因此，基于捕获时间点按时间顺序排序图像帧。

在一些实施例中，至少两个连续目标图像帧中的每一个图像帧可以包括与对象的面部信息相关联的至少两个特征点。物体的面部信息可包括面部器官的几何信息(例如，位置、大小、形状)、颜色信息(例如，肤色)、亮度信息等。面部器官可包括前额、眉毛、眼睛、鼻子、嘴唇、耳朵、下巴等。如这里所使用的，与面部信息相关联的“特征点”可以指位于面部上的可识别的点，例如，眼睛末端上的点、眉毛上的点、鼻子上的点等等。在一些实施例中，获取模块410可以基于面部特征点提取方法提取至少两个特征点。面部特征点提取方法可以包括基于活动形状模型的方法、基于活动外观模型的方法、基于回归分析的方法、基于深度学习的方法、基于分类器的方法等，或者任何组合。

基于至少两个连续目标图像帧中的每一个图像帧中的至少两个特征点，区域确定模块420可以被配置用于确定第一区域和第二区域。如这里所使用的，第一区域可以对应于与脸部的左侧相关联的区域，并且第二区域可以对应于与脸部的右侧相关联的区域。这里的区域可以是任何形状的区域(例如，三角形、矩形、多边形、不规则形状)。

基于第一区域和第二区域，非对称参数确定模块430可以被配置用于确定至少两个连续目标图像帧中的每一个图像帧中的非对称参数。如这里所使用的，“非对称参数”可以指代表示面部左侧和面部右侧之间的非对称性的参数。如上所述，第一区域和第二区域分别对应于与左侧相关联的区域和与右侧相关联的区域，因此，与第一区域和第二区域相关联的比率可以指示左侧和右侧之间非对称性。

响应于非对称参数满足预设条件，动作识别模块440可以被配置用于识别摇动动作。众所周知，在摇动动作期间，物体的表面随着摇动动作而移动。因此，在摇动动作期间，与面部左侧相关联的第一区域和与面部右侧相关联的第二区域在至少两个连续目标图像帧中动态地改变。因此，表示左侧和右侧之间的非对称性的非对称参数在摇动动作期间动态地改变。因此，动作识别模块440可以基于非对称参数来识别摇动动作。

处理引擎112中的模块可以通过有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合电缆等，或其任意组合。无线连接可以包括局域网络(LAN)、广域网络(WAN)、蓝牙、紫蜂网络、近场通讯(NFC)等，或其任意组合。两个或以上模块可以合并成一个模块，以及任意一个模块可以被拆分成两个或以上单元。例如，获取模块410和区域确定模块420可以组合为单个模块，其可以获取至少两个连续目标图像帧，并且基于目标图像帧中包括的特征点确定第一区域和第二区域。又例如，处理引擎112可以包括存储模块(图4中未示出)，其可以被配置用于存储与对象的面部信息相关联的任何信息和/或数据。

图5是根据本申请的一些实施例所示的用于识别摇动动作的示例性过程的流程图。过程500可以实现为存储在存储ROM 230或RAM 240中的一组指令(例如，应用程序)。处理器220和/或图4中所示的模块可以执行一组指令，并且当执行指令时，处理器220和/或模块可以被配置以执行处理500。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程500在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图5所示和下面描述的过程操作的顺序不是限制性的。

在502中，处理引擎112(例如，获取模块410)(例如，处理器220的接口电路)可以获取与对象(例如，人、动物)相关联的至少两个连续目标图像帧。处理引擎112可以从本申请中其他地方公开的摄影设备130、用户终端140或存储设备(例如，存储器150)获取至少两个连续目标图像帧。

在一些实施例中，至少两个连续目标图像帧可以表示为下面示出的有序集：

F＝[F₁,F₂,F_i,...，F_m]， (1)

其中，F_i指的是第i个目标图像帧，m指的是至少两个目标图像帧的数量。在有序集中，至少两个连续目标图像帧是基于至少两个目标图像帧的捕获时间点按时间顺序排序的。例如，目标图像帧F₁对应于第一捕获时间点，目标图像帧F₂对应于第二捕获时间点，其中第二捕获时间点晚于第一捕获时间点。第一捕获时间点和第二捕获时间点之间的时间间隔可以变化，并且也可以是摄影设备130的默认参数。

在一些实施例中，至少两个连续目标图像帧中的每一个图像帧可以包括与对象的面部信息相关联的至少两个特征点。物体的面部信息可包括面部器官的几何信息(例如，位置、大小、形状)、颜色信息(例如，肤色)、亮度信息等。面部器官可包括前额、眉毛、眼睛、鼻子、嘴唇、耳朵、下巴等。如这里所使用的，与面部信息相关联的“特征点”可以指位于面部上的可识别的点，例如，眼睛末端上的点、眉毛上的点、鼻子上的点等等。在一些实施例中，基于面部特征点提取方法，处理引擎112可以提取至少两个特征点。面部特征点提取方法可以包括基于活动形状模型的方法、基于活动外观模型的方法、基于回归分析的方法、基于深度学习的方法、基于分类器的方法等，或者任何组合。

在一些实施例中，至少两个特征点可以包括第一特征点、第二特征点、第三特征点、第四特征点和第五特征点。第一特征点和第二特征点可以相对于与面部信息相关联的垂直中心线对称，第四特征点和第五特征点可以相对于与面部信息相关联的垂直中心线对称，并且第三特征点位于与面部信息相关联的垂直中心线上。例如，如图6-A所示，第一特征点可以是左眼的中心点，第二特征点可以是右眼的中心点，第三特征点可以是鼻尖，第四特征点可以是唇的左端点，第五特征点可以是唇的右端点。

在504中，对于至少两个连续目标图像帧中每个，处理引擎112(例如，区域确定模块420)(例如，处理器220的处理电路)可以基于至少两个特征点，确定第一区域和第二区域。如这里所使用的，第一区域可以对应于与脸部的左侧相关联的区域，并且第二区域可以对应于与脸部的右侧相关联的区域。这里的区域可以是任何形状的区域(例如，三角形、矩形、多边形、不规则形状)。

如上所述，以“五个特征点”为例，第一区域对应于基于第一特征点、第二特征点和第三特征点确定的区域，第二区域对应于基于第四特征点、第五特征点和第三特征点确定的区域(细节可以在图6-B及其描述中找到)。

在一些实施例中，基于至少两个特征点的坐标，处理引擎112可以确定第一区域和第二区域。另外以“五个特征点”为例，特征点的坐标可表示如下：

P(x_i，y_i)，(i＝1，2，3，4，5) (2)

其中P(x_i,y_i)是指第i个特征点的坐标，x_i是第i个特征点的水平坐标，y_i是指第i个特征点的垂直坐标。为了便于说明，本发明以直角坐标系为例，应当注意，多个特征点的坐标可以在任何坐标系(例如，极坐标系)中表示，并且坐标系的原点可以是图像帧中的任何点。

此外，处理引擎112可以分别根据下面的公式(3)和公式(4)基于五个特征点的坐标确定第一区域和第二区域：

T_l＝(x₁*y₃+x₃*y₄+x₄*y₁-x₁*y₄-x₃*y₁-x₄*y₃)/2， (3)

T_r＝(x₂*y₅+x₅*y₃+x₃*y₂-x₂*y₃-x₅*y₂-x₃*y₅)/2， (4)

其中，T_l指第一区域，T_r指第二区域。

应注意，上述式(3)和式(4)是出于说明目的而提供的，并非旨在限制本申请的范围。本领域的普通人应该理解，用于确定三角形区域的任何方法都可以应用于本申请中。例如，如图6-B所示，处理引擎112可以确定第一特征点和第四特征点之间的第一距离、第一特征点和第三特征点之间的第二距离，以及第一距离和第二距离之间的角度。此外，处理引擎112可以根据下面的公式(5)确定第一区域：

T_l＝d₁*d₂*sinα/2 (5)

其中，d₁指的是第一距离，d₂指的是第二距离，而α指的是第一距离和第二距离之间的角度。

类似地，处理引擎112可以根据下面的公式(6)确定第二区域：

T_r＝d₃*d₄*sinβ/2 (6)

其中，d₃指第二特征点与第五特征点之间的第三距离，d₄指第二特征点与第三特征点之间的第四距离，β指的是第三距离与第四距离之间的角度。

在506中，基于第一区域和第二区域，处理引擎112(例如，非对称参数确定模块330)(例如，处理器220的处理电路)可以确定至少两个连续目标图像帧中的每一个图像帧中的非对称参数。如这里所使用的，“非对称参数”可以指代表示面部左侧和面部右侧之间的非对称性的参数。如上所述，第一区域和第二区域分别对应于与左侧相关联的区域和与右侧相关联的区域，因此，与第一区域和第二区域相关联的比率可以指示左侧和右侧之间非对称性。

在一些实施例中，分别根据下面的公式(7)和公式(8)，处理引擎112可以确定第一区域与第二区域的第一比率和第二区域与第一区域的第二比率：

R₁＝T_l/T_r (7)

R₂＝T_r/T_l (8)其中，R₁指第一比率，R₂指第二比率。

此外，根据下面的公式(9)，处理引擎112可以确定第一比率和第二比率中较大的一个作为非对称参数：

Asy＝max(R₁，R₂) (9)

其中Asy指的是非对称参数。

在508中，响应于非对称参数满足预设条件，处理引擎112(例如，动作识别模块440)(例如，处理器220的处理电路)可以识别摇动动作。众所周知，在摇动动作期间，物体的表面随着摇动动作而移动。因此，在摇动动作期间，与面部左侧相关联的第一区域和与面部右侧相关联的第二区域在至少两个连续目标图像帧中动态地改变。因此，表示左侧和右侧之间的非对称性的非对称参数在摇动动作期间动态地改变。

假设摇动动作的起始位置和结束位置都对应于物体的面部朝向或基本上朝向摄像设备130的时间点，在理想条件下，对应于起始位置的非对称参数和对应于结束位置的非对称参数都小于最小非对称比率阈值(或两者都接近1)。因此，处理引擎112可识别对应于或基本上对应于开始位置的至少两个连续目标图像帧的开始图像帧、对应于或基本上对应于结束位置的至少两个连续目标图像帧的结束图像帧和对应于或基本上对应于中间位置的中间图像帧，并且基于开始图像帧、结束图像帧和中间图像帧的非对称参数来识别摇动动作。摇动动作的识别的更多描述可以在本申请的其他地方找到(例如，图7-8及其描述)。

应当注意，这里使用的“基本上对应于”是指捕获图像帧的捕获时间点与对应于该位置的时间点之间的时间间隔小于普通人在本领域的时间阈值。根据帧速率(可以是默认参数)，已知摄影设备130捕获图像帧，即，两个相邻图像帧的捕获时间点不连续(即，两个捕获时间点之间存在时间间隔)。因此，以“开始位置”为例，开始图像帧可能不严格对应于开始位置的时间点，但是开始图像帧的捕获时间点可以是非常接近于开始位置时间点的时间点。在理想条件下，我们可以认为两个时间点是相同的。

在一些实施例中，响应于摇动动作的识别，处理引擎112还可以向与对象相关联的终端设备(例如，用户终端140)提供认证。在接收到认证之后，该对象可以具有对终端设备的访问权限。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，根据本申请的教导可以做出多种变化和修改。然而，变化和修改不会背离本申请的范围。例如，可以在过程500中的操作502之前添加一个或以上其他可选操作(例如，特征点提取操作)。在特征点提取操作中，处理引擎112可以在至少两个连续帧图像中的每一个图像帧中提取至少两个特征点，并且还可以基于至少两个提取的特征点执行人脸识别。

图6-A是根据本申请的一些实施例所示的面部上的示例性特征点的示意图。如结合502所述，至少两个连续目标图像帧中的每一个图像帧可包括至少两个特征点。如图6-A所示，至少两个特征点可包括第一特征点601、第二特征点602、第三特征点603、第四特征点604和第五特征点605。第一特征点601是左眼的中心点；第二特征点602是右眼的中心点；第三特征点603是鼻尖点；第四特征点604是唇的左端点；第五特征点605是唇的右端点。

应当注意图6-A中所示的特征点的示例是出于说明目的而提供的，并非旨在限制本申请的范围。在一些替代实施例中，第三特征点603可以是面部的垂直中心线上的任何点(例如，鼻根点603')。第一特征点601和第二特征点602可以是相对于垂直线对称的两个点(例如，点601'和点602')。第四特征点604和第五特征点605可以是相对于垂直线对称的两个点(例如，点604'和点605')。

图6-B是根据本申请的一些实施例所示的基于特征点确定的示例性第一区域和示例性第二区域的示意图。如结合504所述，基于至少两个连续目标图像帧中的每一个图像帧中的至少两个特征点，处理引擎112可以确定第一区域和第二区域。如图6-B所示，处理引擎112可以基于第一特征点601、第三特征点603和第四特征点604确定三角形区域T_l(即，第一区域)，基于第二特征点602、第三特征点603和第五特征点605确定三角形区域T_r(即，第二区域)。

图7是根据本申请的一些实施例所示的用于确定与对象的面部信息相关联的至少两个连续目标图像帧的示例性过程的流程图。过程700可以实现为存储在存储ROM 230或RAM 240中的一组指令(例如，应用程序)。处理器220和/或图4中所示的模块可以执行一组指令，并且当执行指令时，处理器220和/或模块可以被配置用于执行处理700。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程700在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图7所示和下面描述的过程操作的顺序不是限制性的。在一些实施例中，可以基于过程700来执行操作502。

在702中，处理引擎112(例如，获取模块410)(例如，处理器220的接口电路)可以获取与对象的面部信息相关联的至少两个连续候选图像帧。如这里所使用的，对于至少两个连续候选图像帧中的每一个图像帧，第三特征点在基于第一特征点、第二特征点、第四特征点和第五特征点确定的四边形内。

在704中，处理引擎112(例如，获取模块410)(例如，处理器220的处理电路)可以从至少两个连续候选图像帧识别至少两个连续目标图像帧的开始图像帧。在一些实施例中，处理引擎112可以识别非对称参数小于最小非对称比率阈值的候选图像帧作为开始图像帧。在一些实施例中，最小非对称比率阈值可以是动作识别系统100的默认设置，或者可以在不同情况下是可调节的。例如，最小非对称比率阈值可以是1.01至1.1范围内的任何值(例如，1.02)。

在706中，处理引擎112(例如，获取模块410)(例如，处理器220的处理电路)可以从至少两个连续候选图像帧识别至少两个连续目标图像帧的结束图像帧。在一些实施例中，处理引擎112可以识别非对称参数小于最小非对称比率阈值的候选图像帧作为结束图像帧。如结合502所述，基于目标图像帧的捕获时间点，至少两个连续目标图像帧按时间顺序排序。沿着时间顺序，对于开始图像帧和结束图像帧之间的任何目标图像帧，非对称参数大于或等于最小非对称比率阈值。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，根据本申请的教导可以做出多种变化和修改。然而，变化和修改不会背离本申请的范围。例如，可以在过程700中的其他地方添加一个或以上其他可选操作(例如，存储操作)。在存储操作中，处理引擎112可以存储与图像帧相关联的任何信息和/或数据。

图8是根据本申请的一些实施例所示的用于识别摇动动作的示例性过程的流程图。过程800可以实现为存储在存储ROM 230或RAM 240中的一组指令(例如，应用程序)。处理器220和/或图4中所示的模块可以执行一组指令，并且当执行指令时，处理器220和/或模块可以被配置以执行处理800。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程800在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图8所示和下面描述的过程操作的顺序不是限制性的。在一些实施例中，可以基于过程800来执行操作508。

在802中，处理引擎112(例如，动作识别模块410)(例如，处理器220的处理电路)可以从至少两个连续目标图像帧中识别具有最大非对称参数的中间图像帧。

在804中，处理引擎112(例如，动作识别模块410)(例如，处理器220的处理电路)可以确定从开始图像帧到中间图像帧的连续目标图像帧的第一数量和从中间图像帧到结束图像帧的连续目标图像帧的第二数量。

在806中，处理引擎112(例如，动作识别模块440)(例如，处理器220的处理电路)可以通过拟合至少两个连续目标图像帧中的第三特征点(例如，鼻子的尖端点)来确定预估线。处理引擎112可以基于拟合方法拟合第三特征点，例如，最小二乘法、内插法、积分方法等。

在808中，响应于中间图像帧的非对称参数大于最大非对称比率阈值、第一数量大于第一数量阈值、第二数量大于第二数量阈值和预估线与水平线之间的角度小于角度阈值，处理引擎112(例如，动作识别模块440)(例如，处理器220的处理电路)可以识别摇动动作。

在一些实施例中，最大非对称比率阈值可以是动作识别系统100的默认设置，或者可以在不同情况下是可调节的。例如，最大非对称比率阈值可以是1.2至1.4范围内的任何值(例如，1.2)。

在一些实施例中，第一数量阈值和第二数量阈值可以是动作识别系统100的默认设置。例如，第一数量阈值或第二数量阈值可以是2到10范围内的任何值(例如，4)。在一些实施例中，第一数量阈值和第二数量阈值可以根据摄影设备130的帧速率来调整。帧速率可以指每单位时间(例如，每秒)由摄影设备130捕获的多个图像帧。摄影设备130的帧速率越大，第一数量阈值或第二数量阈值可以越大。在一些实施例中，第一数量和第二数量可以相同或不同。

在一些实施例中，基于第三特征点拟合的预估线可以是直线。预估线和水平线之间的角度可以是两条直线之间的角度。在一些实施例中，预估线可以是曲线。预估线与水平线之间的角度可以是曲线上的点的切线与水平线之间的角度。角度阈值可以是动作识别系统100的默认设置，或者可以在情况下是可调节的。例如，角度阈值可以是5°至20°范围内的任何值(例如，10°)。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，根据本申请的教导可以做出多种变化和修改。然而，变化和修改不会背离本申请的范围。例如，处理引擎112可以在确定中间图像帧之前执行操作806以确定预估线。又如在确定中间帧之后，处理引擎112可以在确定第一数量和第二数量之前确定中间帧的非对称参数是否大于最大非对称比率阈值。

图9是根据本申请的一些实施例所示的在摇动动作期间非对称参数的变化过程的示例性曲线的示意图。如图9所示，横轴表示“图像帧”，纵轴表示“非对称参数”。

如本申请中其他地方所述，处理引擎112可以获取与对象的面部信息相关联的至少两个连续目标图像帧。至少两个连续目标图像帧包括具有小于最小非对称比率阈值的非对称参数的开始图像帧F₁，具有最大非对称参数的中间图像帧F_mid，以及具有小于最小非对称比率阈值的非对称参数的结束图像帧F_m。如图9所示，点a对应于开始图像帧，点c对应于中间图像帧，点e对应于结束图像帧。

在结合动作期间，如结合508所述，开始图像帧可以对应于或基本上对应于与对象的面部面向摄像设备130的右侧或基本上右侧的时间点相对应的开始位置。如这里所使用的，“基本上对应于”指的是物体的面部朝向的方向与指向摄像设备130的方向之间的角度小于普通人在本领域的阈值。如面部示例910中所示，开始图像帧的非对称参数近似于1.0，其小于最小非对称比率阈值(例如，1.02)。当对象摇动他/她的头部时，如面部示例920所示，与面部左侧相关联的三角形区域T_l(即，第一区域)逐渐增加并且与脸部右侧相关的三角形区域T_r(即，第二区域)的面积逐渐减少。因此，左侧和右侧之间的非对称参数逐渐增加。

此外，如面部示例930所示，中间图像帧对应于或基本上对应于与左侧和右侧之间的非对称性最大(例如，1.4)的时间点对应的中间位置，其大于最大非对称比率阈值(例如，1.2)。中间位置可以对应于物体的面停止移动(或开始向后移动)的停止位置。

顺序地，对象将从中间位置移动到结束位置，其与起始位置相同或基本相同。如本文所用，“与…基本相同”是指物体在结束位置面向的方向与物体在开始位置面对的方向之间的角度小于本领域普通人的角度阈值。如面部示例940所示，与面部左侧相关联的三角形区域T_l(即，第一区域)逐渐减小，并且与脸部右侧相关联的三角形区域T_r(即，第二区域)逐渐增加。因此，左侧和右侧之间的非对称参数逐渐减小。最后，如面部示例950所示，对象移动到对应于结束图像帧的结束位置，结束图像帧的非对称参数是1.018，其小于最小非对称比率阈值(例如，1.02)。

此外，可以看出通过拟合至少两个连续目标图像帧中的第三特征点(例如，鼻子的尖端点)确定的预估线960。众所周知，在摇动动作期间，物体可能不会严格地沿着水平线摇动他/她的头部，也就是说，鼻子的尖端点可能并不总是严格地在水平线上。因此，处理引擎112定义角度阈值(例如，5°-20°)，假设预估线与水平线之间的角度小于角度阈值，则认为摇动动作的识别是正确。

从图9还可以看出，点a和点c之间的范围对应于所述的第一数量，点c和点e之间的范围对应于所述的第二数量。如本申请中其他地方所述，这两个数字也用于识别摇动动作。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改良。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括韧体、常驻软件、微代码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本申请的各方面可以采取体现在一个或以上计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

计算机可读信号介质可能包含一个内含有计算机程序代码的传播数据信号，例如在基带上或作为载波的一部分。此类传播信号可以有多种形式，包括电磁形式、光形式等或任何合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通信、传播或传输供使用的程序。位于计算机可读信号介质上的程序代码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF等，或任何上述介质的组合。

本申请各方面操作所需的计算机程序码可以用一种或多种程序语言的任意组合编写，包括面向对象程序设计，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python或类似的常规程序编程语言，如"C"编程语言，Visual Basic、Fortran2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy或其它编程语言。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所声称的待扫描对象物质需要比每个权利要求中明确记载的更多特征的意图。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种动作识别系统，包括：

包含指令组的至少一个存储介质；

与所述至少一个存储介质通信的至少一个处理器，其中当执行所述指令组时，所述至少一个处理器被配置为使所述系统：

获取与对象的面部信息相关联的至少两个连续目标图像帧，所述至少两个连续目标图像帧的每一个均包括与所述面部信息相关联的至少两个特征点；

对于所述至少两个连续目标图像帧的每一个，基于所述至少两个特征点确定第一区域和第二区域；

对于所述至少两个连续目标图像帧的每一个，基于所述第一区域和所述第二区域确定非对称参数；以及

响应于所述非对称参数满足预设条件，识别摇动动作。

2.根据权利要求1所述的系统，其特征在于，所述至少两个特征点包括第一特征点、第二特征点、第三特征点、第四特征点和第五特征点，其中，

所述第一特征点和所述第二特征点相对于与所述面部信息相关的垂直中心线对称；

所述第四特征点和所述第五特征点相对于与所述面部信息相关的所述垂直中心线对称；以及

所述第三特征点位于与所述面部信息相关的所述垂直中心线上。

3.根据权利要求2所述的系统，其特征在于，

所述第一特征点是左眼的中心点；

所述第二特征点是右眼的中心点；

所述第三特征点是鼻尖点；

所述第四特征点是唇的左端点；

所述第五特征点是所述唇的右端点。

4.根据权利要求2或3所述的系统，其特征在于，对于所述至少两个连续目标图像帧的每一个，为了基于所述至少两个特征点确定第一区域和第二区域，所述至少一个处理器被配置为使所述系统进一步：

基于所述第一特征点、所述第三特征点和所述第四特征点，确定所述第一区域；以及

基于所述第二特征点、所述第三特征点和所述第五特征点，确定所述第二区域。

5.根据权利要求1-4任一项所述的系统，其特征在于，对于所述至少两个连续目标图像帧的每一个，为了基于所述第一区域和所述第二区域确定非对称参数，所述至少一个处理器被配置为使所述系统进一步：

确定所述第一区域与所述第二区域的第一比率；

确定所述第二区域与所述第一区域的第二比率；以及

确定所述第一比率和所述第二比率中较大的一个为所述非对称参数。

6.根据权利要求2-4任一项所述的系统，其特征在于，为了获取与对象的面部信息相关联的至少两个连续目标图像帧，所述至少一个处理器被配置为使所述系统进一步：

获取与所述对象的所述面部信息相关联的至少两个连续候选图像帧，其中对于每个连续候选图像帧，所述第三特征点在基于所述第一特征点、所述第二特征点、所述第四特征点、及所述第五特征点确定的四边形内；

从所述至少两个连续候选图像帧中识别所述至少两个连续目标图像帧的开始图像帧，其中对应于所述开始图像帧的所述非对称参数小于最小非对称比率阈值；以及

从所述至少两个连续候选图像帧中识别所述至少两个连续目标图像帧的结束图像帧，其中对应于所述结束图像帧的所述非对称参数小于所述最小非对称比率阈值。

7.根据权利要求6所述的系统，其特征在于，为了响应于所述非对称参数满足预设条件，识别摇动动作，所述至少一个处理器被配置为使所述系统进一步：

从所述至少两个连续目标图像帧中识别具有最大非对称参数的中间图像帧；

从所述开始图像帧到所述中间图像帧确定连续目标图像帧的第一数量，并且从所述中间图像帧到所述结束图像帧确定所述连续目标图像帧的第二数量；

通过拟合在所述至少两个连续目标图像帧中的所述第三特征点确定预估线；以及

响应于所述中间图像帧的非对称参数大于最大非对称比率阈值、所述第一数量大于第一数量阈值、所述第二数量大于第二数量阈值、所述预估线与水平线之间的角度小于角度阈值，识别所述摇动动作。

8.根据权利要求7所述的系统，其特征在于，所述最小非对称比率阈值在1.01-1.02范围内。

9.根据权利要求7或8所述的系统，其特征在于，所述最大非对称比率阈值在1.2-1.3范围内。

10.根据权利要求7-9任一项所述的系统，其特征在于，所述第一数量阈值在2-10范围内，以及所述第二数量阈值在2-10范围内。

11.根据权利要求7-10任一项所述的系统，其特征在于，所述角度阈值在5°-20°范围内。

12.根据权利要求1-11任一项所述的系统，其特征在于，所述至少一个处理器被配置以使所述系统进一步：

响应于所述摇动动作的识别，向与所述对象相关联的终端设备提供认证。

13.根据权利要求1-12任一项所述的系统，其特征在于，还包括摄像机，所述摄像机被配置为提供视频数据，从所述视频数据可获取所述至少两个连续目标图像帧。

14.一种用于在计算设备上实现动作识别的方法，所述计算设备包括至少一个处理器、至少一个存储设备和连接到网络的通信平台，所述方法包括：

响应于所述非对称参数满足预设条件，识别摇动动作。

15.根据权利要求14所述的方法，其特征在于，所述至少两个特征点包括第一特征点、第二特征点、第三特征点、第四特征点和第五特征点，其中，

16.根据权利要求15所述的方法，其特征在于，

所述第一特征点是左眼的中心点；

所述第二特征点是右眼的中心点；

所述第三特征点是鼻尖点；

所述第四特征点是唇的左端点；

所述第五特征点是所述唇的右端点。

17.根据权利要求15或16所述的方法，其特征在于，所述对于所述至少两个连续目标图像帧的每一个，基于所述至少两个特征点确定第一区域和第二区域包括：

18.根据权利要求14-17任一项所述的方法，其特征在于，所述对于所述至少两个连续目标图像帧的每一个，基于所述第一区域和所述第二区域确定非对称参数包括：

确定所述第一区域与所述第二区域的第一比率；

确定所述第二区域与所述第一区域的第二比率；以及

19.根据权利要求15-17任一项所述的方法，其特征在于，所述获取与对象的面部信息相关联的至少两个连续目标图像帧包括：

20.根据权利要求19所述的方法，其特征在于，所述响应于非对称参数满足预设条件，识别摇动动作包括：

从所述开始图像帧到所述中间图像帧，确定连续目标图像帧的第一数量，并从所述中间图像帧到所述结束图像帧，确定所述连续目标图像帧的第二数量；

21.根据权利要求20所述的方法，其特征在于，所述最小非对称比率阈值在1.01-1.02范围内。

22.根据权利要求20或21所述的方法，其特征在于，所述最大非对称比率阈值在1.2-1.3范围内。

23.根据权利要求20-22任一项所述的方法，其特征在于，所述第一数量阈值在2-10范围内，以及所述第二数量阈值在2-10范围内。

24.根据权利要求20-23任一项所述的方法，其特征在于，所述角度阈值在5°-20°范围内。

25.根据权利要求14-24任一项所述的方法，其特征在于，所述方法还包括：

26.根据权利要求14-25任一项所述的方法，其特征在于，所述方法还包括：

从摄像机提供的视频数据中获取所述至少两个连续目标图像帧。

27.一种非暂时性计算机可读介质，包括至少一组用于动作识别的指令，当由至少一个处理器执行时，使得所述至少一个处理器实现方法，所述方法包括：

响应于所述非对称参数满足预设条件，识别摇动动作。