CN111274846B

CN111274846B - 一种张闭动作识别的方法和系统

Info

Publication number: CN111274846B
Application number: CN201811474038.7A
Authority: CN
Inventors: 张修宝; 沈海峰
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2023-09-19
Anticipated expiration: 2038-12-04
Also published as: CN111274846A

Abstract

本发明公开了一种张闭动作识别的方法和系统。该方法包括：获取多帧人脸图像，所述多帧人脸图像拍摄于不同时刻；在所述多帧人脸图像中：定位出至少一个面部器官区域，并获取反映所述至少一个面部器官区域面积大小的参数；基于所述多帧人脸图像对应的多个参数，确定位于一个时间周期中的人脸图像及其对应的参数；基于所述时间周期中的人脸图像对应的参数，确定所述至少一个面部器官是否存在张闭动作。本发明提供的方法可以利用人脸检测过程中获得的人脸特征点进行张闭动作的识别，仅需要一个普通的摄像头，不需要额外的装置，成本较低且速度快、准确率高。

Description

一种张闭动作识别的方法和系统

【技术领域】

本申请涉及人脸活体检测领域，特别涉及一种张闭动作识别的方法和系统。

【背景技术】

目前很多领域在进行人脸识别中需要进行人脸活体检测，以防止欺骗行为，如系统登录、安防、金融等。而基于人脸动作的识别是其中非常重要的组成部分，比如，张嘴动作、眨眼动作等。张嘴、眨眼动作的识别还可以应用于人机交互领域，从而使机器能够更好的理解人类的动作。

以张嘴动作识别为例，当前的张嘴动作识别主要是捕捉嘴部上下点坐标，判断坐标的变化，超过一定数值判定为张嘴。但是，由于不同人嘴部的大小差异，上述阈值的选取非常困难，而且视频帧率的差异以及嘴部上下点坐标的误差，都会造成识别的不准确或需要多次张嘴，用户体验差。

【发明内容】

本发明的一个方面提供了一种张闭动作识别的方法，可以利用人脸检测过程中获得的人脸特征点进行张闭动作的识别，仅需要一个普通的摄像头，不需要额外的装置，成本较低且速度快、准确率高。该方法包括：获取多帧人脸图像，所述多帧人脸图像拍摄于不同时刻；在所述多帧人脸图像中：定位出至少一个面部器官区域，并获取反映所述至少一个面部器官区域面积大小的参数；基于所述多帧人脸图像对应的多个参数，确定位于一个时间周期中的人脸图像及其对应的参数；其中，所述时间周期与所述至少一个面部器官的至少一次张闭过程匹配；基于所述时间周期中的人脸图像对应的参数，确定所述至少一个面部器官是否存在张闭动作。

本发明的另一个方面提供了一种张闭动作识别的系统。该系统包括：获取模块、器官定位模块、参数确定模块、时间周期确定模块和张闭动作确定模块。所述获取模块用于获取多帧人脸图像。所述多帧人脸图像拍摄于不同时刻。所述器官定位模块用于在所述多帧人脸图像中定位出至少一个面部器官区域。所述参数确定模块用于获取反映所述至少一个面部器官区域面积大小的参数。所述时间周期确定模块用于基于所述多帧人脸图像对应的多个参数，确定位于一个时间周期中的人脸图像及其对应的参数。其中，所述时间周期与所述至少一个面部器官的至少一次张闭过程匹配。所述张闭动作确定模块用于基于所述时间周期中的人脸图像对应的参数，确定所述至少一个面部器官是否存在张闭动作。

本发明的又一个方面提供了一种张闭动作的识别装置。所述张闭动作的识别装置包括至少一个存储介质及至少一个处理器；其中，存储介质用于存储计算机指令；所述计算机指令由所述至少一个处理器执行，导致所述张闭动作的识别装置实现所述张闭动作识别方法。

本发明的又一个方面提供了一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行所述张闭动作识别方法。

【附图说明】

图1是根据本发明一些实施例所示的一种示例性的张闭动作识别系统的配置示意图。

图2是用于实现本发明技术方案的系统的示例性计算设备的框图。

图3是用于实现本发明技术方案的系统的示例性移动设备的框图。

图4是用于实现本发明技术方案的一种示例性张闭动作识别方法的流程图。

图5是根据本发明一些实施例所示的一种示例性的张闭动作识别装置的框图。

图6是根据本发明一些实施例所示的一种示例性的多个帧的嘴部区域面积对应的脉冲图。

【具体实施方式】

在下面的详细说明中，通过举例说明了许多具体细节，以便对有关的发明有透彻的了解。然而，对于本领域技术人员来说，本发明可以在没有这些细节的情况下进行实践，这一点应该是显而易见的。在其他情况下，众所周知的方法、过程、系统、组件和/或电路在相对高级的情况下没有详细描述，以避免不必要地模糊本发明的一些方面。对本领域技术人员来说，显然可以对所披露的实施例进行各种修改。另外，在不偏离本发明的原则和范围的情况下，本发明中所定义的普遍原则可以适用于其他实施例和应用场景。因此，本发明并不限于所披露的实施例，而应被给予与权利要求一致的最宽泛的范围。

此处使用的术语仅用于描述特定的示例性实施例，而不具有限定性。如本发明和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的特征、整数、步骤、操作、元素、组件和/或组。

在这里“系统”、“引擎”、“单元”、“模块”和/或“块”可以理解为是用来以升序排列的方法区分不同部件、元件、部件、截面或装配。然而，如果他们达到相同的目的，该术语可能被其他表达式取代。

通常，这里所使用的“模块”、“单元”、“模块”或“块”一词指的是硬件或固件中所体现的逻辑，或指软件指令集。本发明中所描述的模块、单元或块可以作为软件和/或硬件被实现，并且可以存储在任何类型的非临时计算机可读介质或其它存储设备中。在一些实施例中，可以将软件模块/单元/块编译并链接到可执行程序中。可以理解的是，软件模块可以从其他模块/单元/块或自身调用，并且/或可以响应检测到的事件或中断调用。在计算设备(例如，如图3所示的中央处理器320)上执行的软件模块/单元/模块可以在计算机可读介质，如光盘、数字视频光盘、闪存驱动器、磁盘或其他任何有形媒介上提供，或作为数字下载(可最初存储在压缩或安装的格式，需要安装、解压或解密之前执行)。这样的软件代码可以部分或全部地存储在计算机的存储设备中，被计算机执行。软件指令可以嵌入在固件中，如可擦可编程只读存储器。将进一步理解的是，硬件模块/单元/块可以包括在连接的逻辑组件中，例如门和触发器，和/或可以包括可编程单元，例如可编程门阵列或处理器。本发明中所描述的模块/单元/块或计算设备功能可以作为软件模块/单元/块被实现，但可以用硬件或固件来表示。一般来说，这里所描述的模块/单元/块指的是与其他模块/单元/块相结合的逻辑模块/单元/块，或者尽管它们的物理结构或存储被划分为子模块/子单元/子块。所述描述可适用于系统、引擎或其部分。

可以理解的是，当单元、引擎、模块或块被称为“在”、“连接到”或“耦合到”另一个单元、引擎、模块或块时，它可以直接在、连接到、耦合到或者与其他单元、引擎、模块、或块、或中间可能是存在的单元、引擎、模块或块通信，除非上下文另有明确指示。如本发明所用，术语“和/或”包括至少一个相关的所列元素的所有组合。

在考虑了作为本发明一部分的附图的描述内容后，本发明的特征和特点以及操作方法、结构的相关元素的功能、各部分的组合、制造的经济性变得显而易见。然而，应该理解的是，附图是不按比例的，并且以上附图是示意性的，不对本发明的范围加以限制。

图1是根据本发明一些实施例所示的一种示例性的张闭动作识别系统的配置示意图。示例性张闭动作识别系统100可以包括服务器110、网络120、终端130和存储器150。

服务器110可以是本地的，也可以是远程的。服务器110可以处理信息和/或数据。在一些实施例中，服务器110可以用于对收集的信息进行分析加工以生成分析结果的系统。例如，服务器可以基于终端130的张闭动作识别请求接收终端130传输的待识别数据(例如，包含人脸的一系列的视频帧、包含人脸的一系列图像帧)，并将识别数据(例如，识别结果)传输给终端130。示例性的识别结果可以为包含张嘴动作、不包含张嘴动作、包含眨眼动作、不包含眨眼动作等)。服务器110可以是一个终端设备，也可以是一个服务器，还可以是服务器群组。所述服务器群组可以是集中式的，例如数据中心。所述服务器群组也可以是分布式的，例如分布式系统。

网络120可以提供信息交换的渠道。张闭动作识别系统100中的一个或多个部件可以通过网络120进行通信。例如，服务器110可以与终端130进行通信。网络120可以是单一网络，也可以是多种网络组合的。网络120可以包括但不限于局域网、广域网、公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开关电话网络等中的一种或几种的组合。网络120可以包括多种网络接入点，如有线或无线接入点、基站(如120-1，120-2)或网络交换点，通过以上接入点使数据源连接网络120并通过网络发送信息。

终端130可以是待识别数据的获取端(例如，拍摄端)或识别数据的接收端，也指发布张闭动作识别请求的个人、工具或者其他实体。在一些实施例中，终端130包括但不限于台式电脑130-1、笔记本电脑130-2、机动车的内置设备130-3、移动设备130-4、摄像机130-5等中的一种或几种的组合。终端130可以处理信息和/或数据。在一些实施例中，终端130可以用于对收集的信息进行分析加工以生成分析结果的系统。例如，终端130可以获取待识别的数据发送给服务器110处理，也可以对本地存储的待识别数据进行分析加工。又例如，终端130可以获取多帧人脸图像(即待识别数据)，并且所述多帧人脸图像拍摄于不同时刻。对于所述多帧人脸图像或其中的每一帧，终端130可以定位出至少一个面部器官区域(例如，眼部、嘴部)，并获取反映所述至少一个面部器官区域面积大小的参数。终端130可以基于所述多帧人脸图像对应的多个参数，确定位于一个时间周期中的人脸图像及其对应的参数。其中，所述时间周期与所述至少一个面部器官的至少一次张闭过程(比如，张嘴闭嘴、眨眼等)匹配。终端130可以基于所述时间周期中的人脸图像对应的参数，确定所述至少一个面部器官是否存在张闭动作。

在一些实施例中，存储器150可以泛指具有存储功能的设备。存储器150主要用于存储从终端130收集的数据和服务器110工作中产生的各种数据。存储器150可以是本地的，也可以是远程的。系统数据库与系统其他模块间的连接或通信可以是有线的，也可以是无线的。

图2是用于实现本发明技术方案的系统的示例性计算设备的框图。如图2所示，计算设备200可以包括处理器210、存储器220、输入/输出接口230和通信端口240。

处理器210可以执行计算指令(程序代码)并执行本发明描述的张闭动作识别系统100的功能。所述计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(所述功能指本发明中描述的特定功能)。例如，处理器210可以处理从张闭动作识别系统100的其他任何组件获得的图像或文本数据。在一些实施例中，处理器210可以包括微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、应用特定指令集处理器(ASIP)、中央处理器(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(ARM)、可编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等，或其任意组合。仅为了说明，图2中的计算设备200只描述了一个处理器，但需要注意的是本发明中的计算设备200还可以包括多个处理器。

存储器220可以存储从张闭动作识别系统100的任何其他组件获得的数据/信息。在一些实施例中，存储器220可以包括大容量存储器、可移动存储器、易失性读取和写入存储器和只读存储器(ROM)等，或其任意组合。示例性大容量存储器可以包括磁盘、光盘和固态驱动器等。可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘和磁带等。易失性读取和写入存储器可以包括随机存取存储器(RAM)。RAM可以包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容(Z-RAM)等。ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用盘ROM等。

输入/输出接口230可以用于输入或输出信号、数据或信息。在一些实施例中，输入/输出接口230可以使用户与张闭动作识别系统100进行联系。在一些实施例中，输入/输出接口230可以包括输入装置和输出装置。示例性输入装置可以包括键盘、鼠标、触摸屏和麦克风等，或其任意组合。示例性输出设备可以包括显示设备、扬声器、打印机、投影仪等，或其任意组合。示例性显示装置可以包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(CRT)等，或其任意组合。

通信端口240可以连接到网络以便数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等，或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、WLAN、ZigBee、移动网络(例如，3G、4G或5G等)等，或其任意组合。在一些实施例中，通信端口240可以是标准化端口，如RS232、RS485等。在一些实施例中，通信端口240可以是专门设计的端口。例如，通信端口240可以根据数字成像和医学通信协议(DICOM)进行设计。

图3是用于实现本发明技术方案的系统的示例性移动设备的框图。如图3所示，所述移动设备300可以包括通信平台310、显示器320、图形处理器(GPU)330、中央处理器(CPU)340、输入/输出接口350、内存360、存储器370等。在一些实施例中，操作系统361(如，iOS，Android，Windows Phone等)和应用程序362可以从存储器370加载到内存360中，以便由CPU340执行。应用程序362可以包括浏览器或用于从张闭动作识别系统100接收成像、图形处理、音频或其他相关信息的应用程序。

移动设备300还可以包括拍摄模块(图中未示出)。所述拍摄模块可以是移动设备300的前置拍摄模块或后置拍摄模块。在一些实施例中，所述拍摄模块可以对人脸实时拍摄以获取一系列包含人脸的视频帧或图像帧。

为了实现在本发明中描述的各种模块、单元及其功能，计算设备或移动设备可以用作本发明所描述的一个或多个组件的硬件平台。这些计算机或移动设备的硬件元件、操作系统和编程语言本质上是常规的，并且本领域技术人员熟悉这些技术后可将这些技术适应于本发明所描述的张闭动作识别系统。具有用户界面元件的计算机可以用于实现个人计算机(PC)或其他类型的工作站或终端设备，如果适当地编程，计算机也可以充当服务器。

图4是用于实现本发明技术方案的一种示例性张闭动作识别方法的流程图。在一些实施例中，该张闭动作识别方法400由用户端130或移动设备300等具有处理、运算能力的设备执行。在一些实施例中，该张闭动作识别方法400可以由服务器110或计算设备200等具有处理、运算能力的设备执行。

步骤410，获取多帧人脸图像，所述多帧人脸图像拍摄于不同时刻。

终端130可以获取多帧人脸图像，所述多帧人脸图像拍摄于不同时刻。在一些实施例中，所述多帧人脸图像可以是终端130实时拍摄的，所述多帧人脸图像可以按照时序排列。在一些实施例中，所述多帧人脸图像也可以是预存在终端130或存储器150中的。

步骤420，在所述多帧人脸图像中：定位出至少一个面部器官区域，并获取反映所述至少一个面部器官区域面积大小的参数。

对于所述多帧人脸图像或其中的每一帧，终端130可以定位出至少一个面部器官区域。所述至少一个面部器官包括但不限于嘴部、眼部、鼻子等。在一些实施例中，终端130可以对一帧或多帧人脸图像中的面部器官进行定位，得到面部器官的区域(坐标位置)。具体地，终端130可以对一帧或多帧人脸图像进行人脸检测，得到面部坐标矩形框，根据该面部坐标矩形框进行人脸关键点定位。得到人脸关键点后，终端130可以根据人脸关键点确定具体面部器官的坐标位置。其中，人脸关键点，也称为人脸关键特征点，指的是人脸中具有特质特征的区域，比如眼角、嘴角、鼻尖等。根据面部坐标矩形框进行人脸关键点定位，得到人脸关键点的方式可以有多种，具体可以根据实际应用需求而定。比如，可以将人脸鼻子区域的关键点确定为两个鼻孔中心连线的中点处，即鼻唇中心点。嘴部区域的关键点，则可以通过两个嘴角点的定位方式来确定。眼部区域的关键点，则可以通过四个眼角点的定位方式来确定，等等。

在终端130对一帧或多帧人脸图像中的面部器官进行定位，确定面部器官区域后，进一步地，终端130可以获取所述面部器官的轮廓点坐标。以嘴部区域为例，终端130可以基于嘴部区域的坐标位置确定嘴部区域中嘴唇内侧的轮廓点坐标位置。示例性的方法可以包括边缘检测、阈值化分割、基于聚类的图像分割、数学形态学梯度、主动形状模型及水平集分割方法。

在终端130获取所述面部器官的轮廓点坐标之后，进一步地，终端130可以获取反映所述至少一个面部器官区域面积大小的参数。所述参数可以包括面部器官区域的面积值、面部器官区域的面积值与该面部器官某一方向上长度的比值或面部器官至少两个方向上的长度比值。以嘴部区域为例，所述参数可以包括嘴部内侧区域的面积值、嘴部内侧区域的面积值与两嘴角之间的距离的比值、两嘴角之间的距离与上下嘴唇最高点与最低点之间的距离的比值。所述嘴部内侧区域为嘴唇内侧轮廓点包围的区域。以眼部区域为例，所述参数可以包括眼部部内侧区域的面积值、眼部内侧区域的面积值与两眼角之间的距离的比值、两眼角之间的距离与上下眼皮最高点与最低点之间的距离的比值。所述眼部内侧区域为眼皮内侧轮廓点包围的区域。

以下以嘴部作为示例介绍，本领域普通技术人员可以知晓，类似的方法/系统可以同样应用到眼部等会产生张闭动作的器官。

终端130可以基于嘴部区域中嘴唇内侧的轮廓点坐标位置确定所述嘴部内侧区域的面积值。具体地，逆时针连接嘴唇内侧轮廓点，使得嘴部内侧区域为一个多边形。假设嘴唇内侧和唇角的坐标分别为(x₁,y₁)，(x₂，y₂)，…，(x_n，y_n)，可以按照公式(1)和(2)计算其重心坐标(g_x，g_y)。该重心坐标位于多边形内。在其他实施例中，可以不选用多边形的重心，而可以从多边形区域中任选一点，其选取方式多样。

g_x＝(x₁+x₂+…+x_n)/n， (1)

g_y＝(y₁+y₂+…+y_n)/n。 (2)

多边形内的点与多边形中的相邻两点构成了n-1个三角形，按照公式(3)分别计算全部三角形的图像区域面积Area₁，Area₂，…，Area_n-1。公式(3)可以计算任意第m个三角形的图像区域面积Area_m。其中，m为整数，大于等于1且小于等于n-1。

Area_m＝(x_m*y_m+1+x_m+1*y_g+x_g*y_m–x_m*y_g–x_m+1*y_m–x_g*y_m+1)/2，(3)

其中(x_m，y_m)，(x_m+1，y_m+1)，(x_g，y_g)按照逆时针方向分布。

计算所有三角形的图像区域面积之和，即可得到多边形的图像区域面积Area_p，

Area_p＝Area₁+Area₂+…+Area_n-1。 (4)

以上对于一帧或多帧中嘴部内侧区域面积的计算仅为示例性的，也可以采用其他方法计算多边形的区域面积，在此不加以限制。在一些实施例中，可以利用图像处理的方法确定器官区域面积。例如，终端130可以确定器官区域，然后统计器官区域中的像素个数进而确定器官区域面积的大小。

进一步地，终端130可以获取嘴部内侧区域的面积值与两嘴角之间的距离的比值。在一些实施例中，两嘴角之间的距离可以基于终端130的人脸关键点定位获取。在一些实施例中，两嘴角之间的距离可以基于嘴部内侧区域的面积值获得，相关描述可以参考步骤430的内容。

进一步地，终端130可以获取两嘴角之间的距离与上下嘴唇最高点与最低点之间的距离的比值。在一些实施例中，上下嘴唇最高点与最低点之间的距离可以基于嘴唇内侧轮廓点的坐标位置确定。

步骤430，基于所述多帧人脸图像对应的多个参数，确定位于一个时间周期中的人脸图像及其对应的参数；其中，所述时间周期与所述至少一个面部器官的至少一次张闭过程匹配。

终端130可以基于每一个当前帧的前n帧人脸图像及其对应的多个参数，确定时间周期的起始点和结束点，进而终端130可以确定位于一个时间周期中的人脸图像及其对应的参数。其中，所述时间周期与所述至少一个面部器官的至少一次张闭过程匹配。以嘴部为例，所述时间周期与嘴部的至少一次张闭过程匹配。所述匹配可以指所述时间周期的长度与嘴部的至少一次张闭过程的时间长度一致。所述匹配还可以指所述时间周期的起始点对应于张嘴的时刻，所述时间周期的终端对应于闭嘴的时刻。

具体地，终端130可以取当前帧p_n之前的n帧人脸图像进行处理(包含当前帧)，仅仅作为示例，n＝11。终端130进而可以获取当前帧p_n之前的n帧人脸图像中嘴部区域的面积Area_p1，Area_p2，…Area_pn。根据欧几里德距离公式，计算嘴部的两个嘴角的距离为D，则嘴部区域面积与D的比值记为：

ratio＝Area_p/D。 (5)

根据公式(5)依次类推，终端130可以得到ratio₁＝Area_p1/D₁，ratio₂＝Area_p2/D₂，...，ratio_n＝Area_pn/D_n。以上对于嘴部的两个嘴角的距离D的计算仅为示例性的，也可以采用其他方法计算两个嘴角的距离D。例如，可以通过计算标准欧氏距离、马氏距离、夹角余弦距离、曼哈顿距离等方法来得到所述嘴部的两个嘴角的距离D。

按照以下公式，计算上述n帧的中间帧，例如p_(n+1)/2，的前(n-1)/2帧的平均值S_p和后(n-1)/2帧的平均值S_n，

按照公式(6)和(7)，计算上述n帧的中间帧p_(n+1)/2的前(n-1)/2帧的平均值S_p和后(n-1)/2帧的平均值S_n，

S_p＝(ratio₁+ratio₂+…+ratio_(n-1)/2)/((n-1)/2)， (6)

S_n＝(ratio_(n+1)/2+1+ratio_(n+1)/2+2+…+ratio_n)/((n-1)/2)。 (7)

当以下条件(a)和(b)均满足时，从对应于ratio_(n+1)/2的帧开始连续存储后续视频帧的ratio，即将对应于ratio_(n+1)/2的帧的时刻作为所述时间周期的起始点，并记录下S_p为meanRatio_p，

(a)S_n>S_p，

(b)ratio_(n+1)/2+1，ratio_(n+1)/2+2，…，ratio_n均大于ratio_(n+1)/2。

图6是多个帧的嘴部区域面积对应的脉冲图，横坐标是时间，纵坐标是每一帧或多帧对应的嘴部区域面积与两个嘴角的距离D的比值ratio。如图6所示，假设当前帧p_n位于图示的位置，对应于ratio_n。取当前帧p_n(包括当前帧)前11帧人脸图像进行处理。p₁为前11帧人脸图像中的第一帧，在脉冲曲线L上的位置如图所示，对应于ratio₁。对应于ratio_(n+1)/2的中间帧p_(n+1)/2恰好位于脉冲曲线L上的A点。由图可知，中间帧p_(n+1)/2的前(n-1)/2帧(对应于p₁到A)的平均值S_p小于后(n-1)/2帧(对应于A到p_n)的平均值S_n，满足条件(a)。且对应于A到p_n的帧在脉冲曲线上表现为递增，即满足条件(b)ratio_(n+1)/2+1，ratio_(n+1)/2+2，…，ratio_n均大于ratio_(n+1)/2。则对应于ratio_(n+1)/2的帧的时刻可以作为所述时间周期的起始点，并记录下S_p为meanRatio_p。对应于ratio_(n+1)/2的帧的人脸图像表现为刚好张嘴或刚要张嘴。

终端130会对接收的多个视频帧不断进行上述处理，直到找到时间周期的起始点为止。可以理解为，终端130在接收到的多个视频帧上设置了一个长度为n帧的滑动窗口，作为示例n＝11，每当滑动窗口向后滑动一个步进时，进行一次上述处理寻找时间周期的起始点。所述步进可以设为1帧、2帧、3帧或5帧不等。当确定时间周期的起始点之后，终端130可以从对应于ratio_(n+1)/2的帧开始连续存储后续视频帧的ratio。

按时序存储后续视频帧的ratio，终端130需要确定所述时间周期的结束点。同样的，在接收到的视频帧上设置所述滑动窗口。当窗口内视频帧满足条件(c)、(d)、(e)和(f)时，将该窗口中对应于ratio_(n+1)/2’的帧的时刻作为所述时间周期的结束点，并结束一个周期ratio的存储，记录下S_n’为meanRatio_n，

(c)S_n’<S_p’，

(d)ratio₁’，ratio₂’，…，ratio_(n-1)/2’均大于等于ratio_(n+1)/2’，

(e)ratio_(n+1)/2+1’大于等于ratio_(n+1)/2’，

(f)max(meanRatio_n/meanRatio_p，meanRatio_p/meanRatio_n)小于设定的阈值meanRatioThresh，一般设定为1.1。

如图6所示，随着存储时间的推移，假设当前帧p_n’位于图示的位置，对应于ratio_n’。取当前帧p_n’(包括当前帧)前11帧人脸图像进行处理。p₁’为前11帧人脸图像中的第一帧，在脉冲曲线L上的位置如图所示，对应于ratio₁’。对应于ratio_(n+1)/2’的中间帧p_(n+1)/2’恰好位于脉冲曲线L上的B点。由图可知，中间帧p_(n+1)/2’的前(n-1)/2帧(对应于p₁’到B)的平均值S_p’大于后(n-1)/2帧(对应于B到p_n’)的平均值S_n’，满足条件(c)。对应于p₁’到B的帧在脉冲曲线上表现为递减，即满足条件(d)ratio₁’，ratio₂’，…，ratio_(n-1)/2’均大于等于ratio_(n+1)/2’。对应于B到p_n’的帧在脉冲曲线上表现为递增，即满足条件(e)ratio_(n+1)/2+1’大于等于ratio_(n+1)/2’。此时，meanRatio_n/meanRatio_p＝S_n’/S_p，meanRatio_p/meanRatio_n＝S_p/S_n’，若两者之间的最大值小于设定的阈值meanRatioThresh，则终端130可以将对应于ratio_(n+1)/2’的帧的时刻作为所述时间周期的结束点，并结束一个周期ratio的存储。在一些实施例中，阈值meanRatioThresh可以设置为1.1。对应于ratio_(n+1)/2’的帧的人脸图像表现为刚好闭嘴或刚要闭嘴。

终端130会对存储起始点之后的多个视频帧不断进行上述处理，直到找到时间周期的结束点为止。可以理解为，终端130会在同样的滑动窗口中同时进行上述处理寻找时间周期的结束点。确定时间周期的起始点和结束点之后，终端130可以确定位于一个时间周期中的人脸图像及其对应的参数。在一些实施例中，终端130可以将位于一个时间周期中的人脸图像及其对应的参数保存至存储器150。

需要说明的是，在其他实施例中，终端130取当前帧p_n之前的n帧人脸图像进行处理(包含当前帧)，n可以为偶数，例如，n＝10。在这种情况下，终端130可以将n/2帧或n/2+1帧中的任意一帧选为中间帧，同样适用前述方法。在一些实施例中，终端130也可以基于n/2帧和n/2+1帧计算得到中间帧。例如，所述中间帧对应的时刻可以是n/2帧和n/2+1帧各自对应的时刻之和的二分之一，所述中间帧对应的Ratio可以是n/2帧和n/2+1帧各自对应的Ratio之和的二分之一，同样适用前述方法。

步骤440，基于所述时间周期中的人脸图像对应的参数，确定所述至少一个面部器官是否存在张闭动作。在一些实施例中，终端130可以基于位于所述时间周期中的人脸图像对应的参数确定张闭动作幅度和/或张闭动作速度。进一步地，终端130可以基于所述张闭动作幅度和/或张闭动作速度确定所述至少一个面部器官是否存在张闭动作。

以张闭嘴动作为例，所述张闭动作幅度可以基于位于所述时间周期内的多帧人脸图像的嘴部区域面积Area与其两个嘴角的距离D的比值ratio得到。在一些实施例中，所述张闭动作幅度与位于所述时间周期内的多帧人脸图像的嘴部区域面积Area与其两个嘴角的距离D的比值ratio中的最大值与最小值的比值正相关。在其他实施例中，所述张闭动作幅度也可以是与位于所述时间周期内的多帧人脸图像的嘴部区域面积Area与其两个嘴角的距离D的比值ratio中的最大值与最小值的差值正相关。当终端130确定位于所述时间周期中的人脸图像及其对应的嘴部区域面积Area与其两个嘴角的距离D的比值ratio后，终端130可以自动检索出该时间周期中的ratio的最大值为maxRatio(如图6所示)，最小值为minRatio(如图6中B点对应的帧)。在一些实施例中，最小值为minRatio可以等于时间周期的起始点及结束点对应的帧的Ratio之和的二分之一。即最小值可以为minRatio＝[ratio_(n+1)/2+ratio_(n+1)/2’]/2。则张闭动作幅度可以由公式(8)得到：

asymmetry＝maxRatio/minRatio。 (8)

asymmetry的值较大，则表示张闭动作幅度较大；asymmetry的值较小，则表示张闭动作幅度较大小。即张闭动作幅度与位于所述时间周期内的多帧人脸图像的嘴部区域面积Area与两个嘴角的距离D的比值ratio中的最大值与最小值的比值正相关。

所述张闭动作速度可以基于所述时间周期内的多帧人脸图像的ratio的最大值为maxRatio得到。在一些实施例中，所述张闭动作速度可以基于所述时间周期中，maxRatio对应的人脸图像前和/或后的人脸图像帧数确定。例如，如图6所示，A点对应的人脸图像到maxRatio对应的人脸图像之间的帧数可以表示张嘴动作速度，maxRatio对应的人脸图像到B点对应的人脸图像之间的帧数可以表示闭嘴动作速度。所述张闭动作速度与所述时间周期中，maxRatio对应的人脸图像前和/或后的人脸图像帧数负相关。A点对应的人脸图像到maxRatio对应的人脸图像可以表示张嘴过程，maxRatio对应的人脸图像到B点对应的人脸图像可以表示闭嘴过程。例如，A点对应的人脸图像到maxRatio对应的人脸图像之间的帧数越多表示张嘴动作越慢，A点对应的人脸图像到maxRatio对应的人脸图像之间的帧数越大少表示张嘴动作越块。又例如，maxRatio对应的人脸图像到B点对应的人脸图像之间的帧数越多则表示闭嘴动作越慢，maxRatio对应的人脸图像到B点对应的人脸图像之间的帧数越少则表示闭嘴动作越块。

在一些实施例中，终端130可以将张闭动作幅度和/或张闭动作速度与第一阈值和/或第二阈值进行比较，以确定人脸图像中的嘴部是否存在张闭动作。例如，终端130可以判断张闭动作幅度是否大于第一阈值。终端130也可以判断张闭动作速度是否小于第二阈值。当终端130判断张闭动作幅度大于第一阈值，且张闭动作速度小于第二阈值时，确定所述面部器官存在张闭动作。

以嘴部为例，所述第一阈值和第二阈值可以基于获取多帧人脸图像时的帧率确定。当终端130判断张闭嘴动作幅度大于第一阈值，且张嘴动作速度和闭嘴动作速度均小于第二阈值时，确定所述嘴部存在张闭动作。在一些实施例中，当终端130判断张闭嘴动作幅度大于第一阈值，且张嘴动作速度和闭嘴动作速度之和均小于第三阈值时，确定所述嘴部存在张闭动作。所述第三阈值也可以基于获取多帧人脸图像时的帧率确定。

以上为便于理解，仅以识别嘴巴张闭为例阐述了本发明的技术构思。本领域技术人在本发明具体实施例的指导下，无需创造性劳动即可将本发明方法应用于人眼等其他能够进行张闭活动器官的张闭动作识别上。因此，不应将识别嘴巴的张闭过程作为本发明保护范围的限制。

图5是根据本发明一些实施例所示的一种示例性的张闭动作识别装置的框图。在一些实施例中，该张闭动作识别装置500可以包括获取模块510、器官定位模块520、参数确定模块530、时间周期确定模块540和张闭动作确定模块550。

获取模块510可以获取多帧人脸图像，所述多帧人脸图像拍摄于不同时刻。在一些实施例中，所述多帧人脸图像可以是获取模块510获取的实时拍摄的视频帧，所述多帧人脸图像可以按照时序排列。在一些实施例中，所述多帧人脸图像也可以是预存在存储器150中的。

器官定位模块520可以定位出至少一个面部器官区域。所述至少一个面部器官包括但不限于嘴部、眼部、鼻子等。在一些实施例中，终端130可以对一帧或多帧人脸图像中的面部器官进行定位，得到面部器官的区域(坐标位置)。进一步地，器官定位模块520可以获取所述面部器官的轮廓点坐标。以嘴部区域为例，器官定位模块520可以基于嘴部区域的坐标位置确定嘴部区域中嘴唇内侧的轮廓点坐标位置。示例性的方法可以包括边缘检测、阈值化分割、基于聚类的图像分割、数学形态学梯度、主动形状模型及水平集分割方法。

参数确定模块530可以确定反映所述至少一个面部器官区域面积大小的参数。所述参数可以包括面部器官区域的面积值、面部器官区域的面积值与该面部器官某一方向上长度的比值或面部器官至少两个方向上的长度比值。以嘴部区域为例，所述参数可以包括嘴部内侧区域的面积值、嘴部内侧区域的面积值与两嘴角之间的距离的比值、两嘴角之间的距离与上下嘴唇最高点与最低点之间的距离的比值。所述嘴部内侧区域为嘴唇内侧轮廓点包围的区域。

时间周期确定模块540可以基于所述多帧人脸图像对应的多个参数，确定位于一个时间周期中的人脸图像及其对应的参数；其中，所述时间周期与所述至少一个面部器官的至少一次张闭过程匹配。在一些实施例中，时间周期确定模块540可以基于每一个当前帧的前n帧人脸图像及其对应的多个参数，确定时间周期的起始点和结束点，进而终端130可以确定位于一个时间周期中的人脸图像及其对应的参数。其中，所述时间周期与所述至少一个面部器官的至少一次张闭过程匹配。以嘴部为例，所述时间周期与嘴部的至少一次张闭过程匹配。所述匹配可以指所述时间周期的长度与嘴部的至少一次张闭过程的时间长度一致。所述匹配还可以指所述时间周期的起始点对应于张嘴的时刻，所述时间周期的终端对应于闭嘴的时刻。

张闭动作确定模块550可以基于所述时间周期中的人脸图像对应的参数，确定所述至少一个面部器官是否存在张闭动作。在一些实施例中，张闭动作确定模块550可以基于位于所述时间周期中的人脸图像对应的参数确定张闭动作幅度和/或张闭动作速度。进一步地，张闭动作确定模块550可以基于所述张闭动作幅度和/或张闭动作速度确定所述至少一个面部器官是否存在张闭动作。所述张闭动作幅度与位于一个时间周期内的多帧人脸图像的嘴部区域面积Area与其两个嘴角的距离D的比值ratio中的最大值maxRatio与最小值minRatio的比值正相关。所述张闭动作速度与一个时间周期中的最大值maxRatio对应的人脸图像前和/或后的人脸图像帧数负相关。

需要说明的是，上述各个模块可以是通过计算机指令实现的软件模块。上文所述的各个模块和单元并不是必须的。对于本领域的专业人员来说，在了解本申请内容和原理后，都可能在不背离本技术原理、结构的情况下，对该系统进行形式和细节上的各种修正和改变。模块可以删减或添加，各个模块可以任意组合，或者构成子系统与其它模块连接。这些修正和改变仍在本申请的权利要求保护范围之内。

本申请实施例可能带来的有益效果包括但不限于：利用人脸检测过程中获得的人脸特征点进行张闭动作的识别，仅需要一个普通的摄像头，不需要额外的装置，具有准确率高、速度快、成本低的优点。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述发明披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种张闭动作的识别方法，其特征在于，包括：

获取多帧人脸图像，所述多帧人脸图像拍摄于不同时刻；

在所述多帧人脸图像中：定位出至少一个面部器官区域，并获取反映所述至少一个面部器官区域面积大小的参数；

基于所述多帧人脸图像对应的多个所述参数，确定位于一个时间周期中的人脸图像及其对应的所述参数；其中，所述时间周期包括起始点和结束点，所述时间周期与所述至少一个面部器官的至少一次张闭过程匹配，以及所述匹配包括所述时间周期的起始点和结束点分别对应于所述张闭过程的张开时刻和闭合时刻；

基于所述时间周期中的人脸图像对应的所述参数确定张闭动作速度，基于所述张闭动作速度确定所述至少一个面部器官是否存在张闭动作；其中，所述张闭动作速度基于所述时间周期内的多帧人脸图像得到。

2.如权利要求1所述的方法，其特征在于，至少一个面部器官的所述参数包括以下中的至少一种：面部器官区域的面积值、面部器官区域的面积值与该面部器官某一方向上长度的比值或面部器官至少两个方向上的长度比值。

3.如权利要求2所述的方法，其特征在于，所述基于所述时间周期中的人脸图像对应的所述参数确定张闭动作速度，基于所述张闭动作速度确定所述至少一个面部器官是否存在张闭动作，还包括：

基于位于所述时间周期中的人脸图像对应的所述参数确定张闭动作幅度；以及

基于所述张闭动作幅度和张闭动作速度确定所述至少一个面部器官是否存在张闭动作。

4.如权利要求3所述的方法，其特征在于，所述张闭动作幅度与位于所述时间周期内的所述参数中的最大值与最小值的比值正相关。

5.如权利要求3所述的方法，其特征在于，所述张闭动作速度与所述时间周期中，所述参数中最大值对应的人脸图像前和/或后的人脸图像帧数负相关。

6.如权利要求3所述的方法，其特征在于，所述基于所述张闭动作幅度和张闭动作速度确定所述至少一个面部器官是否存在张闭动作，包括：

判断所述张闭动作幅度是否大于第一阈值；

判断所述张闭动作速度是否小于第二阈值；

当所述张闭动作幅度大于第一阈值且所述张闭动作速度小于第二阈值时，确定存在张闭动作。

7.如权利要求1所述的方法，其特征在于，所述基于所述多帧人脸图像对应的多个所述参数，确定位于一个时间周期中的人脸图像及其对应的参数，包括：

在所述多帧人脸图像上建立滑动窗口；所述滑动窗口的长度小于所述多帧人脸图像的帧数；

对于每个滑动窗口，

判断滑动窗口中的人脸图像对应的多个所述参数是否满足第一组预设条件，响应于所述多个所述参数满足第一组预设条件，确定该滑动窗口中存在一次张闭过程的起始点；或

判断滑动窗口中的人脸图像对应的多个所述参数是否满足第二组预设条件，响应于所述多个所述参数满足第二组预设条件，确定该滑动窗口中存在一次张闭过程的结束点。

8.如权利要求7所述的方法，其特征在于，所述第一组预设条件用于检测滑动窗口中的人脸图像对应的多个所述参数中单调递增的起始点。

9.如权利要求7所述的方法，其特征在于，所述第二组预设条件用于检测滑动窗口中的人脸图像对应的多个所述参数中的极小值点。

10.一种张闭动作的识别系统，包括：

获取模块，用于获取多帧人脸图像，所述多帧人脸图像拍摄于不同时刻；

器官定位模块，用于在所述多帧人脸图像中定位出至少一个面部器官区域；

参数确定模块，用于获取反映所述至少一个面部器官区域面积大小的参数；

时间周期确定模块，用于基于所述多帧人脸图像对应的多个所述参数，确定位于一个时间周期中的人脸图像及其对应的所述参数；其中，所述时间周期包括起始点和结束点，所述时间周期与所述至少一个面部器官的至少一次张闭过程匹配，以及所述匹配包括所述时间周期的起始点和结束点分别对应于所述张闭过程的张开时刻和闭合时刻；

张闭动作确定模块，用于基于所述时间周期中的人脸图像对应的所述参数，确定张闭动作速度，基于所述张闭动作速度确定所述至少一个面部器官是否存在张闭动作；其中，所述张闭动作速度基于所述时间周期内的多帧人脸图像得到。

11.权利要求10所述的系统，其特征在于，至少一个面部器官的所述参数包括以下中的至少一种：面部器官区域的面积值、面部器官区域的面积值与该面部器官某一方向上长度的比值或面部器官至少两个方向上的长度比值。

12.如权利要求11所述的系统，其特征在于，所述张闭动作确定模块还用于：

13.如权利要求12所述的系统，其特征在于，所述张闭动作幅度与位于所述时间周期内的所述参数中的最大值与最小值的比值正相关。

14.如权利要求12所述的系统，其特征在于，所述张闭动作速度与所述时间周期中，所述参数中最大值对应的人脸图像前和/或后的人脸图像帧数负相关。

15.如权利要求12所述的系统，其特征在于，所述张闭动作确定模块用于：

判断所述张闭动作幅度是否大于第一阈值；

判断所述张闭动作速度是否小于第二阈值；

16.如权利要求10所述的系统，其特征在于，所述时间周期确定模块用于：

对于每个滑动窗口，

17.如权利要求16所述的系统，其特征在于，所述第一组预设条件用于检测滑动窗口中的人脸图像对应的多个所述参数中单调递增的起始点。

18.如权利要求16所述的系统，其特征在于，所述第二组预设条件用于检测滑动窗口中的人脸图像对应的多个所述参数中的极小值点。

19.一种张闭动作的识别装置，包括：至少一个存储介质及至少一个处理器；其中，存储介质用于存储计算机指令；其特征在于，所述处理器用于执行所述计算机指令以实现权利要求1～9中任一项所述的张闭动作的识别方法。

20.一种计算机可读存储介质，所述存储介质存储有计算机指令，当所述计算机指令被计算机执行时，计算机实现如权利要求1～9任一项所述的张闭动作的识别方法。