CN117095448A

CN117095448A - 人机识别方法、装置、系统、设备和计算机存储介质

Info

Publication number: CN117095448A
Application number: CN202210523424.0A
Authority: CN
Inventors: 卢兴沄; 龙超; 刘纪文
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-11-21

Abstract

本申请提供一种人机识别方法、装置、系统、电子设备和计算机存储介质，该方法应用于人机识别技术领域，该方法包括：从视觉传感器采集到的视频流图像中提取多张包括当前用户头部的关键图像帧；基于多张关键图像帧中的用户头部姿态信息，确定当前用户的注视点数据集；注视点数据集包括多个人眼注视点；获取显示屏显示的关键内容的分布方位数据，确定关键内容的分布方位数据与多个人眼注视点的初始匹配度；关键内容是根据业务活动预先设置好的；根据初始匹配度与设定值的比较结果，确定人机识别结果；人机识别结果包括用户行为和机器行为中的其中一项。

Description

人机识别方法、装置、系统、设备和计算机存储介质

技术领域

本申请涉及人机识别技术领域，尤其涉及一种人机识别方法、装置、系统、电子设备和计算机存储介质。

背景技术

目前，网络营销活动中很多场景，需要用户参与活动来提高用户粘黏性和活跃度，比如用户打卡、线上抢购等。但是，在实际活动场景中，往往有人通过爬取活动接口，直接暴力请求接口，或者利用人工智能(Artificial Intelligence，AI)技术模拟人类行为，达到骗取活动官方信任，实现获取不当利益的目的。

相关技术中，针对这些非法手段，技术方一般采用各种人机识别技术的方案将真实的用户行为和机器行为进行区分，以实现筛选出真实用户的目的。例如，在计算机端利用鼠标运动轨迹进行区分，在移动端中利用用户触感信息进行区分，但这些区分方式需要高度依赖特定的输入设备，导致通用性较差。

发明内容

本申请提供一种人机识别方法、装置、系统、电子设备和计算机存储介质，能够通过终端设备中已有的视觉传感器对用户行为和机器行为进行区分，有效解决通用性差的问题。

本申请的技术方案是这样实现的：

本申请提供了一种人机识别方法，应用于终端设备，所述终端设备包括视觉传感器和显示屏，所述方法包括：

从所述视觉传感器采集到的视频流图像中提取多张包括当前用户头部的关键图像帧；基于多张关键图像帧中的用户头部姿态信息，确定所述当前用户的注视点数据集；所述注视点数据集包括多个人眼注视点；

获取所述显示屏显示的关键内容的分布方位数据，确定所述关键内容的分布方位数据与所述多个人眼注视点的初始匹配度；所述关键内容是根据业务活动预先设置好的；

根据所述初始匹配度与设定值的比较结果，确定人机识别结果；所述人机识别结果包括用户行为和机器行为中的其中一项。

在一些实施例中，所述根据所述初始匹配度与设定值的比较结果，确定人机识别结果，包括：

在确定所述初始匹配度大于或等于所述设定值的情况下，获取所述当前用户的姿态相关数据；所述姿态相关数据包括所述当前用户的人眼注视点数据、人脸数据和关键图像帧中的至少一项；

对所述当前用户的姿态相关数据与数据库中预先存储的每一用户的姿态相关数据进行重复度校验，得到校验结果；

根据所述校验结果，确定所述人机识别结果。

在一些实施例中，所述根据所述校验结果，确定所述人机识别结果，包括：

在确定所述校验结果为校验未通过的情况下，获取所述显示屏上随机生成的第一兴趣点集合，所述第一兴趣点集合包括多个连续兴趣点；

根据所述第一兴趣点集合中多个连续兴趣点的分布方位数据和生成时间数据，确定第一兴趣点运动轨迹；根据所述第一兴趣点运动轨迹，确定所述当前用户的第一人眼运动轨迹；

基于所述第一兴趣点运动轨迹以及所述当前用户的第一人眼运动轨迹，进行人机识别处理，确定所述人机识别结果。

在一些实施例中，所述根据所述第一兴趣点运动轨迹，确定所述当前用户的第一人眼运动轨迹，包括：

根据所述第一兴趣点运动轨迹，再次确定所述当前用户的注视点数据集；

按照时间先后顺序对再次确定的注视点数据集中包括的每一人眼注视点进行融合，得到所述当前用户的第一人眼运动轨迹。

在一些实施例中，所述方法还包括：

在确定所述人机识别结果为校验通过的情况下，将所述当前用户的姿态相关数据保存在所述数据库中。

在确定所述初始匹配度小于所述设定值的情况下，获取所述显示屏上随机生成的第二兴趣点集合，所述第二兴趣点集合包括多个连续兴趣点；

根据所述第二兴趣点集合中多个连续兴趣点的分布方位数据和生成时间数据，确定第二兴趣点运动轨迹；根据所述第二兴趣点运动轨迹，确定所述当前用户的第二人眼运动轨迹；

基于所述第二兴趣点运动轨迹以及所述当前用户的第二人眼运动轨迹，进行人机识别处理，确定所述人机识别结果。

在一些实施例中，所述基于多张关键图像帧中的用户头部姿态信息，确定所述当前用户的注视点数据集，包括：

基于所述多张关键图像帧中的用户头部姿态信息，对所述多张关键图像帧中每张关键图像帧进行分割处理，得到多张待检测图像；所述待检测图像包括头部姿态图像、人脸图像、左眼图像和右眼图像。

将所述多张待检测图像输入到预先训练的视线点估计模型，得到所述多个人眼注视点；

基于所述多个人眼注视点，确定所述当前用户的注视点数据集。

本申请提供一种人机识别装置，应用于终端设备，所述终端设备包括视觉传感器和显示屏，所述装置包括确定模块、匹配模块和识别模块，其中，

确定模块，用于从所述视觉传感器采集到的视频流图像中提取多张包括当前用户头部的关键图像帧；基于多张关键图像帧中的用户头部姿态信息，确定所述当前用户的注视点数据集；所述注视点数据集包括多个人眼注视点；

匹配模块，用于获取所述显示屏显示的关键内容的分布方位数据，确定所述关键内容的分布方位数据与所述多个人眼注视点的初始匹配度；所述关键内容是根据业务活动预先设置好的；

识别模块，用于根据所述初始匹配度与设定值的比较结果，确定人机识别结果；所述人机识别结果包括用户行为和机器行为中的其中一项。

本申请提供一种电子设备，所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述一个或多个技术方案提供的人机识别方法。

本申请实施例提供一种人机识别系统，所述人机识别系统包括前述的人机识别装置或前述的电子设备。

本申请提供一种计算机存储介质，所述计算机存储介质存储有计算机程序；所述计算机程序被执行后能够实现前述一个或多个技术方案提供的人机识别方法。

本申请实施例提供一种人机识别方法、装置、系统、电子设备和计算机存储介质，该方法应用于终端设备，所述终端设备包括视觉传感器和显示屏，所述方法包括：从所述视觉传感器采集到的视频流图像中提取多张包括当前用户头部的关键图像帧；基于多张关键图像帧中的用户头部姿态信息，确定所述当前用户的注视点数据集；所述注视点数据集包括多个人眼注视点；获取所述显示屏显示的关键内容的分布方位数据，确定所述关键内容的分布方位数据与所述多个人眼注视点的初始匹配度；所述关键内容是根据业务活动预先设置好的；根据所述初始匹配度与设定值的比较结果，确定人机识别结果；所述人机识别结果包括用户行为和机器行为中的其中一项。

可以看出，本申请实施例提供的人机识别方法在图像数据采集过程中，使用视觉传感器获取用户图像数据，由于视觉传感器是终端设备中必备的硬件设备，因而与相关技术中需要终端设备基于其他特定硬件设备获取用户信息的人机识别方法相比，本申请实施例具有更好的通用性；另外，本申请实施例能够在用户无感知的情况下，利用视觉传感器采集的用户图像数据，确定用户的注视点数据集，并对注视点数据集中的人眼注视点与关键内容的分布方位数据进行匹配，即，上述识别过程不需要引导用户进行任何操作，如此，可以降低人机识别的复杂度，更好地满足应用需求。

附图说明

图1A为本申请实施例的一种人机识别方法的流程图；

图1B为本申请实施例的一种用户头部图像的示意图；

图2为本申请实施例的另一种人机识别方法的流程图；

图3为本申请实施例的人机识别装置的组成结构示意图；

图4为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述。

以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本申请，并不用于限定本申请。另外，以下所提供的实施例是用于实施本申请的部分实施例，而非提供实施本申请的全部实施例，在不冲突的情况下，本申请记载的技术方案可以任意组合的方式实施。

需要说明的是，在本申请中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其它要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分处理器、部分程序或软件等等)。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，C和/或D，可以表示：单独存在C，同时存在C和D，单独存在D这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括C、D、E中的至少一种，可以表示包括从C、D和E构成的集合中选择的任意一个或多个元素。

例如，本申请提供的人机识别方法包含了一系列的步骤，但是本申请提供的人机识别方法不限于所记载的步骤，同样地，本申请提供的人机识别装置包括了一系列模块，但是本申请提供的人机识别装置不限于包括所明确记载的模块，还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。

本申请可以基于电子设备实现，这里，电子设备可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统，等等。

终端设备、服务器等电子设备可以通过程序模块的执行实现相应的功能。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等。它们执行特定的任务或者实现特定的抽象数据类型。计算机系统可以在分布式云计算环境中实施，在分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

相关技术中，在各个终端也有采用图片验证码的方式进行人机识别；然而，对于图片验证码这类技术，由于机器学习的飞速发展，出现了大量算法可以快速识别一些较为简单的图片，因此较为简单的图片验证码并不能达到区分用户行为和机器行为的目的。虽然有些图片验证码技术方案能够将AI挡在系统外，但是普通用户需要大量、繁琐的与人机识别系统进行互动，并且用户个体对事物识别能力或者对描述理解能力的差异也会成为较大的干扰因素，可见，该方法并非是一种无感知的人机识别方法，采用该方法进行人机识别会降低识别结果的准确性。

针对上述问题，提出以下各实施例。

在本申请的一些实施例中，人机识别方法可以利用人机识别装置中的处理器实现，上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(DigitalSignal Processing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、中央处理器(CentralProcessing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。

图1A为本申请实施例的一种人机识别方法的流程图，如图1A所示，该流程可以包括：

步骤100：从视觉传感器采集到的视频流图像中提取多张包括当前用户头部的关键图像帧；基于多张关键图像帧中的用户头部姿态信息，确定当前用户的注视点数据集。

示例性地，人机识别方法可以应用于终端设备中，该终端设备可以包括视觉传感器和显示屏；其中，视觉传感器可以包括摄像头，其主要功能是获取足够的人机识别系统需要处理的原始图像；显示屏是一种可以将电子文件通过特定的传输设备显示到显示屏上再反射到人眼的显示工具。

本申请实施例中，首先利用终端设备中的视觉传感器采集视频流图像，然后从采集到的视频流图像中提取多张关键图像帧；其中，关键图像帧可以是包括当前用户头部的图像帧，具体地，可以是具有较为理想的用户头部姿态信息且背景干扰较小的图像帧；这里，当前用户指的是当前正在使用终端设备的用户。

这里，对于提取关键图像帧的方式不作限定，示例性地，可以通过基于图像内容的算法进行提取，也可以通过其他方式进行提取。

可以理解地，视频流图像是一个图像序列，视频流图像中冗余内容过多，逐帧进行图像分析会导致工作量太大，而关键图像帧是图像序列中的一张静态图像，通过从视频流图像提取多张包括当前用户头部的关键图像帧，可以减少一定的图像分析工作量，提高图像处理效率。

示例性地，在提取到多张包括当前用户头部的关键图像帧后，对于多张关键图像帧中的每张关键图像帧，获取用户头部姿态信息。

这里，用户头部姿态信息可以包括人脸信息、左眼信息、右眼信息和头部空间信息；本申请实施例中，在获取每张关键图像帧的用户头部姿态信息之前，先获取每张关键图像帧中的用户头像图像；其中，用户头像图像可以理解为一张标准证件照尺寸的头部图像。

示例性地，对于获取每张关键图像帧中的用户头像图像的方式不作限定，例如，可以将提取到的每张关键图像帧输入到YOLO模型中，得到用户头像图像，也可以通过其他方式获取。其中，YOLO模型的目的是对关键图像帧进行图像分割，将用户头部图像分割出来。

示例性地，因为大多数情况下用户头部图像并非标准正向面对镜头的图像，所以存在姿态角；三维(3-dimension，3D)空间中，物体的旋转可以由三个欧拉角进行表示：分别为pitch(围绕X轴旋转)，yaw(围绕Y轴旋转)和roll(围绕Z轴旋转)，也称俯仰角、偏航角和滚转角；对应于用户头部图像即为抬头、摇头和转头，参见图1B。

本申请实施例中，在获取到多张关键图像帧中每张关键图像帧中的用户头像图像后，分别从多张用户头像图像中获取用户头部姿态信息；进而，基于多张关键图像帧中的用户头部姿态信息，确定当前用户的注视点数据集；其中，注视点数据集包括多个人眼注视点。

在一些实施例中，基于多张关键图像帧中的用户头部姿态信息，确定当前用户的注视点数据集，可以包括：基于多张关键图像帧中的用户头部姿态信息，对多张关键图像帧中每张关键图像帧进行分割处理，得到多张待检测图像；将多张待检测图像输入到预先训练的视线点估计模型，得到多个人眼注视点；基于多个人眼注视点，确定当前用户的注视点数据集。

这里，因为不同头部姿态的人眼视线的落点是不同的，比如用户眼睛盯着正前方，但是头部旋转到不同角度，上下摆动不同角度，正前方看到的东西是不同的。本申请实施例中，在得到多张关键图像帧中的用户头部姿态信息后，对多张关键图像帧中每张关键图像帧进行分割处理，具体地，会对每张关键图像帧中的用户头部图像作进一步分割处理，得到待检测图像。

示例性地，待检测图像可以包括头部姿态图像、人脸图像、左眼图像和右眼图像；其中，头部姿态图像是通过映射公式转化生成的图像，可以理解为用户头部被一块阴影覆盖，看不清脸部，看不清眼睛，但是能够看清头部朝着哪个方向；而头部朝着的方向和参照物之间的空间关系，是头部姿态图像包含的重要信息。

进一步地，在得到多张关键图像帧的待检测图像后，将多张待检测图像输入预先训练的视线点估计模型，可以得到当前用户的人眼视线在二维坐标上的各个落点，即多个人眼注视点，并根据多个人眼注视点生成注视点数据集；这里，还可以按时间先后顺序将多个人眼注视点进行融合，生成人眼运动轨迹。

这里，视线点估计模型的作用是将输入图像转化为人眼注视点，该转换模型的应用是人机识别系统能够运转的前提；目前，人眼视线点估计的实现方法大体上分为两类：基于模型(Model-based)的方法和基于外观(Appearance-based)的方法。基于模型的方法主要是根据眼球和瞳孔建立模型，以获取瞳孔在二维平面的坐标，再映射出3D模型参数，估计视线数据。基于外观的方法是找到输入图片和视线数据之间的映射函数，最后做到输入图片输出结果；本申请实施例可以采用基于外观的方法建立视线点估计模型并进行训练得到训练完成的模型。虽然最后训练完成的模型在人眼视线落点的估计值和真实值上有一定误差，但是考虑到本申请实施例并不需要精确的人眼落点，而是根据人眼大致的落点分布来进行匹配，所以该模型完全足以使用。

步骤101：获取显示屏显示的关键内容的分布方位数据，确定关键内容的分布方位数据与多个人眼注视点的初始匹配度。

这里，关键内容可以是根据业务活动预先设置好的；例如，可以是显示屏承载内容提供方根据业务活动设定的；示例性地，在业务活动为秒杀活动的情况下，关键内容可以是秒杀价格，秒杀倒计时以及活动规则等内容。可以理解地，在显示屏显示的能够引起用户关注的内容，均可称为关键内容。

本申请实施例中，可以获取显示屏显示的关键内容的分布方位数据；这里，分布方位数据可以包括关键内容在显示屏的位置信息和方向信息；在获取显示屏显示的关键内容的分布方位数据后，会将注视点数据集中的每个人眼注视点与关键内容的分布方位数据进行匹配，得到初始匹配度。

这里，初始匹配度为0到1之间的数值，可以通过百分比进行表示；例如，可以为50％、60％等。若初始匹配度为50％，则说明多个人眼注视点中有一半人眼注视点与关键内容的分布方位数据匹配，也就是说，当前用户的视线落点有一半是落在关键内容上的。

步骤102：根据初始匹配度与设定值的比较结果，确定人机识别结果；人机识别结果包括用户行为和机器行为中的其中一项。

这里，对于设定值的取值可以是内容提供方根据实际场景进行设置，本申请实施例不作限定，例如，可以取值为60％。

本申请实施例中，在根据上述步骤得到初始匹配度后，会将该初始匹配度与设定值进行比较，得到两者的比较结果，进而，根据两者的比较结果，确定人机识别结果。

在一些实施例中，根据初始匹配度与设定值的比较结果，确定人机识别结果，可以包括：在确定初始匹配度大于或等于设定值的情况下，获取当前用户的姿态相关数据；对当前用户的姿态相关数据与数据库中预先存储的每一用户的姿态相关数据进行重复度校验，得到校验结果；根据校验结果，确定人机识别结果。

这里，姿态相关数据可以包括当前用户的人眼注视点数据、人脸数据和关键图像帧中的至少一项。示例性地，若根据两者的比较结果，确定初始匹配度大于或等于设定值，则说明当前用户的视线落点和关键内容分布的匹配程度较高；此时，可以获取当前用户的姿态相关数据；并将当前用户的姿态相关数据与数据库中预先存储的每一用户的姿态相关数据进行重复度校验，即，判断数据库中是否存在与当前用户的姿态相关数据重复的数据，可以得到判断结果；基于判断结果，可以确定校验结果。

示例性地，校验结果可以包括校验通过和校验未通过中的其中一项；这里，若判断结果为否，说明数据库中不存在与当前用户的姿态相关数据重复的数据，则确定校验结果为校验通过，此时，可以确定人机识别结果为用户行为，本次人机识别流程结束；反之，若判断结果为是，说明数据库中存在与当前用户的姿态相关数据重复的数据，则确定校验结果为校验未通过，此时，需要作进一步识别处理，再确定人机识别结果；下面将进行具体说明。

在一些实施例中，上述方法还可以包括：在确定人机识别结果为校验通过的情况下，将当前用户的姿态相关数据保存在数据库中。

可以理解地，重复度校验就是把当前用户的姿态相关数据和数据库中存储的数据进行比对，判断当前用户的人眼注视点数据、人脸数据和关键图像帧是否与数据库中已存储数据重复，如果存在重复情况，则说明获取的图像视频流有可能是一段被反复使用的视频，本申请实施例通过将存在重复情况的校验结果确定为校验未通过，并需要作进一步识别处理，如此，可以有效降低在得到内容提供方提供的关键内容分布信息后，AI通过预先设置视频，绕过步骤100输入人机识别系统的可能性，进而，提高人机识别结果的准确性。

在一些实施例中，根据校验结果，确定人机识别结果，可以包括：在确定校验结果为校验未通过的情况下，获取显示屏上随机生成的第一兴趣点集合，第一兴趣点集合包括多个连续兴趣点；根据第一兴趣点集合中多个连续兴趣点的分布方位数据和生成时间数据，确定第一兴趣点运动轨迹；根据第一兴趣点运动轨迹，确定当前用户的第一人眼运动轨迹；基于第一兴趣点运动轨迹以及当前用户的第一人眼运动轨迹，进行人机识别处理，确定人机识别结果。

示例性地，在确定校验结果为校验未通过的情况下，终端设备会提示当前用户将进入人机校验过程；人机校验过程中，显示屏上随机生成包括多个连续兴趣点的第一兴趣点集合，此时，可以获取到第一兴趣点集合。

这里，随机生成第一兴趣点集合可以指按照时间顺序按照随机方向连续生成吸引当前用户关注的多个兴趣点，并根据多个兴趣点在显示屏上的分布方位数据和生成时间数据确定兴趣点的运动轨迹，即第一兴趣点运动轨迹；同时根据第一兴趣点运动轨迹，确定当前用户的第一人眼运动轨迹。

在一些实施例中，根据第一兴趣点运动轨迹，确定当前用户的第一人眼运动轨迹，可以包括：根据第一兴趣点运动轨迹，再次确定当前用户的注视点数据集；按照时间先后顺序对再次确定的注视点数据集中包括的每一人眼注视点进行融合，得到当前用户的第一人眼运动轨迹。

本申请实施例中，在确定第一兴趣点运动轨迹的同时视觉传感器开始工作，再次执行上述步骤100，以确定当前用户的注视点数据集；再按照时间先后顺序对再次确定的注视点数据集中包括的每一人眼注视点进行融合，得到当前用户的第一人眼运动轨迹。

这里，对于再次确定注视点数据集的实现方式与上述首次确定当前用户的注视点数据集的实现方式类似，此处不再赘述。

在一些实施例中，基于第一兴趣点运动轨迹以及当前用户的第一人眼运动轨迹，进行人机识别处理，确定人机识别结果，可以包括：对第一兴趣点运动轨迹与第一人眼运动轨迹进行匹配，得到最终匹配度；对最终匹配度进行人机识别处理，确定人机识别结果。

示例性地，在得到最终匹配度后，将最终匹配度与设定值进行比较，若确定最终匹配度大于或等于设定值，则确定人机识别结果为用户行为，反之，则确定人机识别结果为机器行为，此时，本次人机识别流程结束。

可以理解地，随机生成兴趣点的目的是防止黑客分析得到生成规律，连续生成兴趣点的目的是用户的视线是连续的；本申请实施例，在进入人机校验过程后，通过随机连续生成多个兴趣点，可以达到与AI对抗的效果，提高人机识别结果的可靠性。

需要说明的是，不同用户在人机校验过程中生成的兴趣点不同，同一用户在两次人机校验过程中生成的兴趣点也应该不同。

在一些实施例中，根据初始匹配度与设定值的比较结果，确定人机识别结果，可以包括：在确定初始匹配度小于设定值的情况下，获取显示屏上随机生成的第二兴趣点集合，第二兴趣点集合包括多个连续兴趣点；根据第二兴趣点集合中多个连续兴趣点的分布方位数据和生成时间数据，确定第二兴趣点运动轨迹；根据第二兴趣点运动轨迹，确定当前用户的第二人眼运动轨迹；基于第二兴趣点运动轨迹以及当前用户的第二人眼运动轨迹，进行人机识别处理，确定人机识别结果。

示例性地，若根据初始匹配度与设定值的比较结果，确定初始匹配度小于设定值，则说明当前无法确定人机识别结果；此时，终端设备会提示当前用户将进入人机校验过程。类似地，人机校验过程中，显示屏上随机生成包括多个连续兴趣点的第二兴趣点集合，此时，可以获取到第二兴趣点集合。之后，根据第二兴趣点集合，确定第二兴趣点运动轨迹以及第二人眼运动轨迹，最终确定人机识别结果。

需要说明的是，根据第二兴趣点运动轨迹以及当前用户的第二人眼运动轨迹确定人机识别结果的实现方式与上述根据第一兴趣点运动轨迹以及当前用户的第一人眼运动轨迹确定人机识别结果的实现方式类似，此处不再赘述。

本申请实施例提供一种人机识别方法、装置、系统、电子设备和计算机存储介质，该方法应用于终端设备，终端设备包括视觉传感器和显示屏，该方法包括：从视觉传感器采集到的视频流图像中提取多张包括当前用户头部的关键图像帧；基于多张关键图像帧中的用户头部姿态信息，确定当前用户的注视点数据集；注视点数据集包括多个人眼注视点；获取显示屏显示的关键内容的分布方位数据，确定关键内容的分布方位数据与多个人眼注视点的初始匹配度；关键内容是根据业务活动预先设置好的；根据初始匹配度与设定值的比较结果，确定人机识别结果；人机识别结果包括用户行为和机器行为中的其中一项。

为了能够更加体现本申请的目的，在本申请上述实施例的基础上，作进一步的说明。

图2为本申请实施例的另一种人机识别方法的流程图，如图2所示，该流程可以包括：

步骤200：采集视频流图像。

示例性地，视觉传感器采集视频流图像，然后从采集到的视频流图像中提取多张当前用户头部的关键图像帧。

步骤201：获取包括用户头部姿态信息的四路输入图像。

示例性地，四路输入图像对应上述待检测图像，即头部姿态图像、人脸图像、左眼图像和右眼图像；在提取到多张包括当前用户头部的关键图像帧后，获取每张关键图像帧中的用户头部姿态信息；基于用户头部姿态信息，对关键图像帧进行分割，得到包括用户头部姿态信息的四路输入图像。

步骤202：根据视线点估计模型确定注视点数据集。

示例性地，在获取到包括用户头部姿态信息的四路输入图像后，将这些输入图像输入到预先训练的视线点估计模型，可以得到包括多个人眼注视点的注视点数据集。

步骤203：判断是否符合设定条件。如果是，执行步骤204，反之，执行步骤206。

示例性地，在得到注视点数据集后，将注视点数据集与终端设备显示屏显示的关键内容的分布方位数据进行匹配，得到初始匹配度，进而，判断初始匹配度是否符合设定条件。这里，若初始匹配度大于或等于设定值则为符合设定条件，反之，若初始匹配度小于设定值则为不符合设定条件。

步骤204：重复度校验。

示例性地，对根据上述步骤获取的人眼注视点数据、人脸数据和关键图像帧分别与数据库中已登记数据进行重复度校验，得到校验结果；相当于初次人机识别。

步骤205：判断校验是否通过。

示例性地，若根据步骤204确定在进行重复度校验时，未发现重复情况，则确定校验结果为校验通过，此时，可以确定人机识别结果为用户行为，本次人机识别流程结束；反之，如果发现重复情况，则确定校验结果为校验未通过，执行步骤206。

步骤206：再次进行人机识别。

示例性地，终端设备提示用户将进入人机校验过程，人机校验过程中将在显示屏上按照时间顺序按照随机方向连续生成吸引用户关注的兴趣点，并将该兴趣点在显示屏分布的方位信息和生成的时间信息生成校验数据集，形成兴趣点运动轨迹(对应上述第一兴趣点运动轨迹或第二兴趣点运动轨迹)，同时视觉传感器开始工作；再次进行上述步骤200至步骤202，将生成的人眼运动轨迹与校验数据集生成的兴趣点运动轨迹(即模拟人眼运动轨迹)进行匹配，从而进行最后的人机识别，得到识别结果；相当于第二次人机识别。

步骤207：判断校验是否通过。

示例性地，根据上述步骤得到的识别结果判断校验是否通过，如果校验通过，则确定人机识别结果为用户行为，反之，如果校验未通过，则确定人机识别结果为机器行为。

可以看出，本申请实施例的人机识别过程分为初次人机识别和第二次人机识别；其中，初次人机识别主要是根据人眼注视点与内容兴趣的匹配程度进行人机判断，该识别过程可以完全做到用户无感知。当用户进入显示屏显示的活动页面时，人机识别系统开始运作，利用视线点估计模型收集用户对于活动页面的人眼注视点，根据多张关键图像帧的人眼注视点数据统计出用户对活动页面的兴趣点分布情况；将得到的兴趣点分布数据与内容提供方提供的关键内容的分布方位数据进行匹配即可计算出两者的匹配度，技术方可灵活调整匹配度来决定识别结果。考虑到内容提供方和用户本身对活动页面内容兴趣点的理解差异，这种差异会显著降低初次识别的效果，人机识别系统可以在每次校验过程中收集用户的兴趣点，实时的对内容提供方提供的兴趣点分布数据进行优化，最后得到能够符合大多数用户理解的兴趣点分布数据，这样可以使初步人机校验的效果越来越好。

进一步地，考虑到初次人机识别是完全无感知的校验，用户并不知道正在进行人机识别，所以可能出现用户头部离开视觉传感器工作范围或者视觉传感器未有效收集到用户的人眼注视点数据的情况，该情况将导致初次人机识别失效，此时将初次人机识别视为不通过，进入第二次人机识别。

示例性地，人眼运动轨迹和模拟人眼运动轨迹匹配算法为本申请实施例提出的用于第二次校验的人机识别算法，第二次校验过程是有感知的校验过程，该过程基于用户能够理解校验的提示语并主动配合的情形，利用连续时间人眼注视点描绘出用户的人眼运动轨迹，用该轨迹与显示屏上生成兴趣点描绘模拟人眼运动轨迹进行匹配。模拟人眼运动轨迹是根据一段二维平面上实时连续且随机的数据描绘得到，二次校验可以避免黑客在通关校验后，反复利用此数据进行通关校验。也正是因为模拟人眼运动轨迹数据是实时随机生成的，所以很难通过AI实时的合成一段用于校验的视频，因此可以达到与AI对抗的效果，提高人机识别的准确性。

图3为本申请实施例的人机识别装置的组成结构示意图，如图3所示，该装置包括：确定模块300、匹配模块301和识别模块302，其中：

确定模块300，用于从所述视觉传感器采集到的视频流图像中提取多张包括当前用户头部的关键图像帧；基于多张关键图像帧中的用户头部姿态信息，确定所述当前用户的注视点数据集；所述注视点数据集包括多个人眼注视点；

匹配模块301，用于获取所述显示屏显示的关键内容的分布方位数据，确定所述关键内容的分布方位数据与所述多个人眼注视点的初始匹配度；所述关键内容是根据业务活动预先设置好的；

识别模块302，用于根据所述初始匹配度与设定值的比较结果，确定人机识别结果；所述人机识别结果包括用户行为和机器行为中的其中一项。

在一些实施例中，所述识别模块302，用于根据所述初始匹配度与设定值的比较结果，确定人机识别结果，包括：

根据所述校验结果，确定所述人机识别结果。

在一些实施例中，所述识别模块302，用于根据所述校验结果，确定所述人机识别结果，包括：

在一些实施例中，所述识别模块302，用于根据所述第一兴趣点运动轨迹，确定所述当前用户的第一人眼运动轨迹，包括：

在一些实施例中，所述装置还包括存储模块，所述存储模块，用于：

在一些实施例中，所述确定模块300，用于基于多张关键图像帧中的用户头部姿态信息，确定所述当前用户的注视点数据集，包括：

在实际应用中，上述确定模块300、匹配模块301、识别模块302和存储模块均可以由位于电子设备中的处理器实现，该处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质。

具体来讲，本实施例中的一种人机识别方法对应的计算机程序指令可以被存储在光盘、硬盘、U盘等存储介质上，当存储介质中的与一种人机识别方法对应的计算机程序指令被一电子设备读取或被执行时，实现前述实施例的任意一种人机识别方法。

基于前述实施例相同的技术构思，参见图4，其示出了本申请实施例提供的电子设备400，可以包括：存储器401和处理器402；其中，

存储器401，用于存储计算机程序和数据；

处理器402，用于执行存储器中存储的计算机程序，以实现前述实施例的任意一种人机识别方法。

在实际应用中，上述存储器401可以是易失性存储器(volatile memory)，例如RAM；或者非易失性存储器(non-volatile memory)，例如ROM、快闪存储器(flash memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器402提供指令和数据。

上述处理器402可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的医疗系统，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种人机识别方法，应用于终端设备，所述终端设备包括视觉传感器和显示屏，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述初始匹配度与设定值的比较结果，确定人机识别结果，包括：

根据所述校验结果，确定所述人机识别结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所述校验结果，确定所述人机识别结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一兴趣点运动轨迹，确定所述当前用户的第一人眼运动轨迹，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述初始匹配度与设定值的比较结果，确定人机识别结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于多张关键图像帧中的用户头部姿态信息，确定所述当前用户的注视点数据集，包括：

基于所述多张关键图像帧中的用户头部姿态信息，对所述多张关键图像帧中每张关键图像帧进行分割处理，得到多张待检测图像；所述待检测图像包括头部姿态图像、人脸图像、左眼图像和右眼图像；

8.一种人机识别装置，应用于终端设备，所述终端设备包括视觉传感器和显示屏，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7任一项所述的方法。

10.一种人机识别系统，其特征在于，其特征在于，所述人机识别系统包括权利要求8所述的装置或权利要求9所述的电子设备。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。