CN112446360A

CN112446360A - 目标行为检测方法、装置及电子设备

Info

Publication number: CN112446360A
Application number: CN202011479424.2A
Authority: CN
Inventors: 蔡红; 王岩; 杨森; 安�晟
Original assignee: Zuoyebang Education Technology Beijing Co Ltd
Current assignee: Zuoyebang Education Technology Beijing Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-05

Abstract

本发明属于计算机信息处理领域，提供一种目标行为检测方法、装置、电子设备和计算机可读介质，该方法包括：实时获取目标对象的视频数据；由所述视频数据中提取目标视频帧；基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；基于所述目标对象的三维模型确定所述目标对象的姿态波动率；在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为。本发明能够对正在通过网络进行实时在线学习的用户的行为进行检测，并确定用户是否存在目标行为，从而能对用户的学习效果、学习情况进行评估，并在用户存在不良行为时，进行提醒以辅助用户的提高学习效果。

Description

目标行为检测方法、装置及电子设备

技术领域

本发明属于计算机信息处理领域，特别适用于视频识别领域，更具体的是涉及目标行为检测方法、装置、电子设备及计算机可读介质。

背景技术

随着技术的发展和现在日常生活的需要，越来越多的用户把生活重心转移到了网络中，各种网络应用由此而生。能够辅助用户进行学习的视频学习类的应用也越来越多。在辅助用户进行学习的应用中，有一类是通过播放视频课程的形式来辅助用户学习。在这类应用中，视频中播放教师公开课的内容，用户通过各自的手机终端进行观看并学习。

这类辅助学习的应用极大的提高了用户的学习便捷性和学习效率，但是，由于同时有大量的用户在共同进行学习，而每个用户又处于不同的位置中，网络学习手段在提供了便捷性的情况下，却无法像在学校学习那样，由老师对用户的学习情况进行督导。这种情况下，用户的学习效率和用户的专注力只能依靠用户自觉或者家长监督实现。这两种方式中，对于年龄较小的用户而言，在依靠用户自觉实现自我监督时，没有监督的网络学习经常收不到满意的效果；在依靠家长进行监督时，又往往占用了家长们大量的时间和精力，用户的满意度较低。

因此，需要一种新的目标行为检测方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明旨在解决现有技术中，网络学习方式中存在的弊端，如上文所述，在进行网络学习时，对于年龄较小的用户而言，在依靠用户自觉实现自我监督时，没有监督的网络学习经常收不到满意的效果；在依靠家长进行监督时，又往往占用了家长们大量的时间和精力，用户的满意度较低。本发明实时获取的目标对象的视频数据确定目标对象是否存在目标行为的方式，能够对正在通过网络进行实时在线学习的用户的行为进行检测，并确定用户是否存在目标行为，从而能对用户的学习效果、学习情况进行评估，并在用户存在不良行为时，进行提醒以辅助用户的提高学习效果。

根据本发明的一方面，提出一种目标行为检测方法，该方法包括：实时获取目标对象的视频数据；由所述视频数据中提取目标视频帧；基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；基于所述目标对象的三维模型确定所述目标对象的姿态波动率；在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为。

根据本发明的优选实施方式，还包括：基于带有目标对象的视频帧对人脸检测模型进行训练以生成所述目标对象检测模型；基于带有关键点标注的视频帧对人脸关键点检测模型进行训练以生成所述关键点检测模型。

根据本发明的优选实施方式，还包括：通过多个带有标签的视频数据生成多个姿态波动率；将所述多个姿态波动率和多个阈值进行比较以由所述多个阈值中集合确定所述姿态阈值。

根据本发明的优选实施方式，实时获取目标对象的视频数据，包括：通过移动端的摄像装置实时获取所述目标对象的头部的视频数据。

根据本发明的优选实施方式，，由所述视频数据中提取目标视频帧，包括：在预设时间点由所述视频数据中提取所述目标视频帧。

根据本发明的优选实施方式，在预设时间点由所述视频数据中提取所述目标视频帧，包括：在预设时间点由所述视频数据中提取当前时间点对应的当前视频帧；提取所述当前时间点的前一个时间点对应的前视频帧；提取所述当前时间点的后一个时间点对应的后视频帧；通过所述前视频帧、所述当前视频帧、所述后视频帧生成所述目标视频帧。

根据本发明的优选实施方式，基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型，包括：将所述目标视频帧输入所述目标对象检测模型生成人脸检测框和头部姿态角度；将所述目标视频帧输入所述关键点检测模型生成人脸关键点；基于所述人脸检测框、头部姿态角度、人脸关键点构建目标对象的头部的三维模型。

根据本发明的优选实施方式，基于所述目标对象的三维模型确定所述目标对象的姿态波动率，包括：基于所述前视频帧、所述当前视频帧、所述后视频帧和所述头部的三维模型分别获取所述前视频帧的前角度参数，所述当前视频帧的当前角度参数，所述后视频帧的后角度参数；基于所述前角度参数、当前角度参数、当前角度参数确定所述头部三维模型的姿态波动率。

根据本发明的优选实施方式，通过多个带有标签的视频数据生成多个姿态波动率，包括：将多个带有标签的视频数据生成测试数据；将所述测试数据输入所述目标对象检测模型和关键点检测模型，生成多个目标对象的三维模型；基于所述多个目标对象的三维模型生成所述目标对象的多个姿态波动率。

根据本发明的优选实施方式，将所述多个姿态波动率和多个阈值进行比较以由所述多个阈值中集合确定所述姿态阈值，包括：将所述多个姿态波动率分别和每一个阈值进行比较，根据比较结果确定所述目标对象是否具有所述目标行为；将所述比较结果和所述目标对象的标签进行比较以确定每一个阈值对应的准确率；将准确率最大的阈值作为所述姿态阈值。

本发明第二方面提出一种目标行为检测装置，该装置包括：实时视频模块，用于实时获取目标对象的视频数据；视频帧模块，用于由所述视频数据中提取目标视频帧；三维模型模块，用于基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；波动率模块，用于基于所述目标对象的三维模型确定所述目标对象的姿态波动率；判断模块，用于在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为。

根据本发明的优选实施方式，还包括：模型生成模块，用于基于带有目标对象的视频帧对人脸检测模型进行训练以生成所述目标对象检测模型；还用于基于带有关键点标注的视频帧对人脸关键点检测模型进行训练以生成所述关键点检测模型。

根据本发明的优选实施方式，其特征在于，还包括：阈值生成模块，用于通过多个带有标签的视频数据生成多个姿态波动率；将所述多个姿态波动率和多个阈值进行比较以由所述多个阈值中集合确定所述姿态阈值。

本发明第三方面提出一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行所述的方法。

本发明第四方面还提出一种计算机可读介质，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现所述的方法。

根据本发明的目标行为检测方法，通过由实时获取的目标对象的视频数据中提取目标视频帧；并基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；并基于所述目标对象的三维模型确定所述目标对象的姿态波动率；并基于所述姿态波动率确定所述目标对象是否存在所述目标行为的方式，能够对正在通过网络进行实时在线学习的用户的行为进行检测，并确定用户是否存在目标行为，从而能对用户的学习效果、学习情况进行评估，并在用户存在不良行为时，进行提醒以辅助用户的提高学习效果。

附图说明

图1是本发明的一个实施例的目标行为检测方法及装置的系统框图。

图2是本发明的一个实施例的目标行为检测方法的流程图。

图3是本发明的一个实施例的目标行为检测方法的流程图。

图4是本发明的一个实施例的目标行为检测方法的示意图。

图5是本发明的一个实施例的目标行为检测方法的流程图。

图6是本发明的一个实施例的目标行为检测装置的框图。

图7是本发明的一个实施例的电子设备的结构示意图；

图8是本发明的一个实施例的计算机可读记录介质的示意图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1是根据一示例性实施例示出的一种目标行为检测方法及装置的系统框图。

如图1所示，系统架构10可以包括用户终端设备101、102、103，网络104和服务器105、教师终端设备106。网络104用以在用户终端设备101、102、103和服务器105、教师终端设备106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

学生用户可以使用用户终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。教师用户可以使用教师终端设备106通过网络104与服务器105交互，以接收或发送消息等。用户终端设备101、102、103和教师终端设备106上可以安装有各种通讯客户端应用，例如视频学习类应用、即时通信工具、邮箱客户端、社交平台软件等。

用户终端设备101、102、103和教师终端设备106可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用用户终端设备101、102、103所浏览的视频学习类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户实时视频进行分析等处理，并将处理结果(例如该用户是否存在目标行为)反馈给管理员和/或教师用户。

值得一提的是，在本方案中，教师终端设备106不是必须的，可以理解的是，在视频学习应用中，可通过实时直播教师的讲课内容来辅助用户进行学习，还可通过服务器中预存的其他教学内容辅助用户进行学习，本发明不以此为限。

在一些应用场景中，用户终端设备101、102、103可例如实时获取目标对象的视频数据；用户终端设备101、102、103可例如由所述视频数据中提取目标视频帧；用户终端设备101、102、103可例如基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；用户终端设备101、102、103可例如基于所述目标对象的三维模型确定所述目标对象的姿态波动率；用户终端设备101、102、103可例如在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为。

在另一些应用场景中，用户终端设备101、102、103可例如实时获取目标对象的视频数据；用户终端设备101、102、103或服务器105可例如由所述视频数据中提取目标视频帧；服务器105可例如基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；服务器105可例如基于所述目标对象的三维模型确定所述目标对象的姿态波动率；服务器105可例如在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为。

服务器105还可例如基于带有目标对象的视频帧对人脸检测模型进行训练以生成所述目标对象检测模型；服务器105还可例如基于带有关键点标注的视频帧对人脸关键点检测模型进行训练以生成所述关键点检测模型。

服务器105还可例如通过多个带有标签的视频数据生成多个姿态波动率；服务器105还可例如将所述多个姿态波动率和多个阈值进行比较以由所述多个阈值中集合确定所述姿态阈值。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，服务器105中的一部分可例如作为本发明中的模型训练系统，用于基于带有目标对象的视频帧对人脸检测模型进行训练以生成所述目标对象检测模型；基于带有关键点标注的视频帧对人脸关键点检测模型进行训练以生成所述关键点检测模型；以及服务器105中的一部分还可例如作为本发明中的阈值生成系统，用于通过多个带有标签的视频数据生成多个姿态波动率；将所述多个姿态波动率和多个阈值进行比较以由所述多个阈值中集合确定所述姿态阈值。

需要说明的是，本发明实施例所提供的目标行为检测方法可以由服务器105或用户终端设备101、102、103执行，相应地，目标行为检测装置可以设置于服务器105或用户终端设备101、102、103中。而提供给用户进行视频学习应用浏览的应用端一般位于用户终端设备101、102、103中。

图2是根据一示例性实施例示出的一种目标行为检测方法的流程图。目标行为检测方法20至少包括步骤S202至S210。

如图2所示，在S202中，实时获取目标对象的视频数据。可例如，通过移动端的摄像装置实时获取所述目标对象的头部的视频数据。在如上文所述的应用场景中，学生用户可通过设置在移动终端上的视频学习应用观看视频课程，在这个过程中，移动终端上的摄像头实时获取学生用户的视频数据。

在S204中，由所述视频数据中提取目标视频帧；移动终端上的摄像头获取到学生用户的视频数据后，可在本地进行视频数据的初步处理，还可将视频数据直接转发到远端服务器上进行处理，本发明不以此为限。

在一个实施例中，移动终端或远端服务器可例如在预设时间点由所述视频数据中提取所述目标视频帧。预设时间可为60秒或者100秒或者其他时间。

在一个实施例中，在预设时间点由所述视频数据中提取所述目标视频帧，包括：在预设时间点由所述视频数据中提取当前时间点对应的当前视频帧；提取所述当前时间点的前一个时间点对应的前视频帧；提取所述当前时间点的后一个时间点对应的后视频帧；通过所述前视频帧、所述当前视频帧、所述后视频帧生成所述目标视频帧。

在一个实施例中，在预设时间间隔为60秒的周期的时候，周期最初始的第一秒对应的图像可计数为第一帧，以此类推，提取第60帧的图像作为当前帧数据，还需提取第59帧的图像作为前视频帧，第61帧(下一个周期的第一帧)的图像作为后视频帧。

在S206中，基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型。包括：将所述目标视频帧输入所述目标对象检测模型生成人脸检测框和头部姿态角度；将所述目标视频帧输入所述关键点检测模型生成人脸关键点；基于所述人脸检测框、头部姿态角度、人脸关键点构建目标对象的头部的三维模型。

其中，目标视频帧输入所述目标对象检测模型后可生成人脸检测框和头部姿态角度，目标视频帧输入关键点检测模型后可生成人脸关键点，基于人脸关键点可生成辅助头部姿态角度。通过头部姿态角度和辅助头部姿态角度进行共同判断，以确定最终用于构建三维模型的头部姿态角度。

根据头部姿态角度和标准的用户三维模型初始模型生成目标对象的三维模型。

在S208中，基于所述目标对象的三维模型确定所述目标对象的姿态波动率。基于所述前视频帧、所述当前视频帧、所述后视频帧和所述头部的三维模型分别获取所述前视频帧的前角度参数，所述当前视频帧的当前角度参数，所述后视频帧的后角度参数；基于所述前角度参数、当前角度参数、当前角度参数确定所述头部三维模型的姿态波动率。

基于目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型并确定目标对象的姿态波动率的相关内容将在图3对应的实施例中进行详细描述。

在S210中，在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为。其中，目标行为可为注意力不集中行为，如果在一段时间内用户的头部姿态波动很大说明用户专注力不够。或者其他影响用户学习的行为，目标行为可包括多种，本领域技术人员容易想到的是，不同的目标行为可通过不同的姿态阈值来区分。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施例。

在一个实施例中，还包括：基于带有目标对象的视频帧对人脸检测模型进行训练以生成所述目标对象检测模型；基于带有关键点标注的视频帧对人脸关键点检测模型进行训练以生成所述关键点检测模型。

人脸识别(Facial Recognition)，是通过视频采集设备获取用户的面部图像，再利用人脸检测模型对其脸部的五官位置、脸型和角度进行计算分析，进而和自身数据库里已有的范本进行比对，然后判断出用户的真实身份。

在本发明中，为了使得后续对用户的姿态的识别更加精准，在人脸检测模型的训练时，输入的是带有不同人脸的视频帧，首先，需要对图像中的局部区域进行定义，不同的视频帧还需标注人脸对应的姿态参数。然后，人脸局部区域特征的提取，依据经过样本训练后得到的变换矩阵将人脸图像向量映射为人脸特征向量；再之后，局部特征选择(可选)；最后进行分类。分类器可采用组合分类器的形式，每个局部特征对应一个分类器，后可用投票或线性加权等方式得到终识别结果，在本发明中，最终的识别结果包括人脸检测框和头部姿态角度。人脸检测模型可包括4种：基于人脸特征点的识别算法、基于整幅人脸图像的识别算法、基于模板的识别算法、利用神经网络进行识别的算法。本发明中的目标对象检测模型可为通过上述一种或多种组合的人脸检测模型训练后的结果。

人脸关键点检测也称为人脸关键点检测、定位或者人脸对齐，是指给定人脸图像，定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。与上文中的人脸识别算法相似，在人脸关键点检测算法中也需要先进行模型训练，最后得到训练完备的模型作为本发明中的关键点检测模型。

图3是根据另一示例性实施例示出的一种目标行为检测方法的流程图。图3所示的流程30是对图2所示的流程中“基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；基于所述目标对象的三维模型确定所述目标对象的姿态波动率”的详细描述。

如图3所示，在S302中，将所述目标视频帧输入所述目标对象检测模型生成人脸检测框和头部姿态角度。可将当前用户的前视频帧、当前视频帧、后视频帧数据输入目标对象检测模型，经过计算输出该用户的人脸检测框和头部姿态角度。

在S304中，将所述目标视频帧输入所述关键点检测模型生成人脸关键点。可将当前用户的前视频帧、当前视频帧、后视频帧数据输入关键点检测模型，经过计算输入该用户的人脸的关键点。

在S306中，基于所述人脸检测框、头部姿态角度、人脸关键点构建目标对象的头部的三维模型。可以通过定位人脸的二维关键点来生成头部姿态的三维模型，更具体的，可通过一幅面部图像来获得头部的姿态角，即计算pitch、yaw、roll三个欧拉角，分别学名俯仰角、偏航角和滚转角，可理解为抬头、摇头和转头。其中pitch表示仰视俯视的角度，roll是水平面的旋转角度，yaw是左右转头的角度，具体可以参考图4。

在S308中，基于所述前视频帧、所述当前视频帧、所述后视频帧和所述头部的三维模型分别获取所述前视频帧的前角度参数，所述当前视频帧的当前角度参数，所述后视频帧的后角度参数。

在S310中，基于所述前角度参数、当前角度参数、当前角度参数确定所述头部三维模型的姿态波动率。根据三个时间点用户的头部各个角度的变化，能够计算出用户的头部姿态变化率。

图5是根据另一示例性实施例示出的一种目标行为检测方法的流程图。图5所示的流程50是对“确定姿态阈值”的详细描述。

如图5所示，在S502中，通过多个带有标签的视频帧生成测试数据。其中，带有标签的视频帧可为多个其他用户在进行视频学习时获取的视频帧，如上文所述，视频帧可具体包括由前视频帧、当前视频帧、后视频帧构成的一组视频帧。视频帧的标签可包括存在目标行为和不存在目标行为两种。

在S504中，将所述测试数据输入所述目标对象检测模型和关键点检测模型，生成多个目标对象的三维模型。每组视频帧输入目标对象检测模型和关键点检测模型后，通过如上文所述的方法进行计算，每组视频帧都对应获取一个用户的头部三维模型。

在S506中，基于所述多个目标对象的三维模型生成所述目标对象的多个姿态波动率。根据多个用户的头部三维模型计算获得多个姿态波动率。

在S508中，将所述多个姿态波动率分别和每一个阈值进行比较，根据比较结果确定所述目标对象是否具有所述目标行为。

更具体的，首先，获取多个阈值中的第一个阈值，将多个姿态波动率分别和第一阈值进行比较，以确定多个姿态波动率对应的用户是否存在目标行为。然后，获取多个阈值中的第二个阈值，将多个姿态波动率分别和第二阈值进行比较，以确定多个姿态波动率对应的用户是否存在目标行为。再之后依次类推，直至多个波动率分别和每个阈值均比较完毕为止。

在S510中，将所述比较结果和所述目标对象的标签进行比较以确定每一个阈值对应的准确率。将比较得到的用户是否存在目标行为的结论和原始视频帧的标签进行比较，在比较结论和标签中的属性一致时，认为比较正确，否则确定为比较失败。

在S512中，将准确率最大的阈值作为所述姿态阈值。计算每一个阈值对应的准确率，在遍历所有阈值的比较情况后，把在测试集上得分最高的阈值作为最终的阈值，指的一提的是，本发明中的阈值可为一个确定的数值，还可为一个数据范围。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图6是根据一示例性实施例示出的一种目标行为检测装置的框图。如图6所示，目标行为检测装置60包括：目标行为检测装置60还可包括：实时视频模块602，视频帧模块604，三维模型模块606，波动率模块608，判断模块610，模型生成模块612，阈值生成模块614。

实时视频模块602用于实时获取目标对象的视频数据；实时视频模块602可设置在移动端，进而通过移动端的摄像装置实时获取所述目标对象的头部的视频数据。

视频帧模块604用于由所述视频数据中提取目标视频帧；视频帧模块604可设置在移动端或远端服务器中，视频帧模块604还用于在预设时间点由所述视频数据中提取所述目标视频帧。

三维模型模块606用于基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；三维模型模块606还可用于将所述目标视频帧输入所述目标对象检测模型生成人脸检测框和头部姿态角度；将所述目标视频帧输入所述关键点检测模型生成人脸关键点；基于所述人脸检测框、头部姿态角度、人脸关键点构建目标对象的头部的三维模型。

波动率模块608用于基于所述目标对象的三维模型确定所述目标对象的姿态波动率；更具体的，可例如基于所述前视频帧、所述当前视频帧、所述后视频帧和所述头部的三维模型分别获取所述前视频帧的前角度参数，所述当前视频帧的当前角度参数，所述后视频帧的后角度参数；基于所述前角度参数、当前角度参数、当前角度参数确定所述头部三维模型的姿态波动率。

判断模块610用于在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为。

模型生成模块612用于基于带有目标对象的视频帧对人脸检测模型进行训练以生成所述目标对象检测模型；还用于基于带有关键点标注的视频帧对人脸关键点检测模型进行训练以生成所述关键点检测模型。

阈值生成模块614用于通过多个带有标签的视频数据生成多个姿态波动率；将所述多个姿态波动率和多个阈值进行比较以由所述多个阈值中集合确定所述姿态阈值。

根据本发明的目标行为检测装置，实时获取目标对象的视频数据；由所述视频数据中提取目标视频帧；基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；基于所述目标对象的三维模型确定所述目标对象的姿态波动率；在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为的方式，能够对正在通过网络进行实时在线学习的用户的行为进行检测，并确定用户是否存在目标行为，从而能对用户的学习效果、学习情况进行评估，并在用户存在不良行为时，进行提醒以辅助用户的提高学习效果。

图7是本发明的一个实施例的电子设备的结构示意图，该电子设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行基于旋转角监测的车辆智能助力推行方法。

如图7所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图7显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

图8是本发明的一个实施例的计算机可读记录介质的示意图。如图8所示，计算机可读记录介质中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明上述的基于旋转角监测的车辆智能助力推行方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的系统，以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等，本发明也可以由包含上述系统或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现，例如由机车端的微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现，例如计算机程序执行的某些方法步骤可以在机车端执行，另一部分可以在移动终端或智能头盔等中执行。对于计算机软件，软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中，也可以分布式存储于网络上，只要其能使得电子设备执行根据本发明的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标行为检测方法，其特征在于，包括：

实时获取目标对象的视频数据；

由所述视频数据中提取目标视频帧；

基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型；

基于所述目标对象的三维模型确定所述目标对象的姿态波动率；

在所述姿态波动率大于姿态阈值时，确定所述目标对象存在所述目标行为。

2.根据权利要求1所述的目标行为检测方法，其特征在于，还包括：

基于带有目标对象的视频帧对人脸检测模型进行训练以生成所述目标对象检测模型；

基于带有关键点标注的视频帧对人脸关键点检测模型进行训练以生成所述关键点检测模型。

3.根据权利要求1或2所述的目标行为检测方法，其特征在于，还包括：

通过多个带有标签的视频数据生成多个姿态波动率；

将所述多个姿态波动率和多个阈值进行比较以由所述多个阈值中集合确定所述姿态阈值。

4.根据权利要求1-3任一所述的目标行为检测方法，其特征在于，实时获取目标对象的视频数据，包括：

通过移动端的摄像装置实时获取所述目标对象的头部的视频数据。

5.根据权利要求1-4任一所述的目标行为检测方法，其特征在于，由所述视频数据中提取目标视频帧，包括：

在预设时间点由所述视频数据中提取所述目标视频帧。

6.根据权利要求1-5任一所述的目标行为检测方法，其特征在于，在预设时间点由所述视频数据中提取所述目标视频帧，包括：

在预设时间点由所述视频数据中提取当前时间点对应的当前视频帧；

提取所述当前时间点的前一个时间点对应的前视频帧；

提取所述当前时间点的后一个时间点对应的后视频帧；

通过所述前视频帧、所述当前视频帧、所述后视频帧生成所述目标视频帧。

7.根据权利要求1-6任一所述的目标行为检测方法，其特征在于，基于所述目标视频帧、目标对象检测模型和关键点检测模型生成所述目标对象的三维模型，包括：

将所述目标视频帧输入所述目标对象检测模型生成人脸检测框和头部姿态角度；

将所述目标视频帧输入所述关键点检测模型生成人脸关键点；

基于所述人脸检测框、头部姿态角度、人脸关键点构建目标对象的头部的三维模型。

8.根据权利要求1-7任一所述的目标行为检测方法，其特征在于，基于所述目标对象的三维模型确定所述目标对象的姿态波动率，包括：

基于所述前视频帧、所述当前视频帧、所述后视频帧和所述头部的三维模型分别获取所述前视频帧的前角度参数，所述当前视频帧的当前角度参数，所述后视频帧的后角度参数；

基于所述前角度参数、当前角度参数、当前角度参数确定所述头部三维模型的姿态波动率。

9.根据权利要求1-8任一所述的目标行为检测方法，其特征在于，通过多个带有标签的视频数据生成多个姿态波动率，包括：

通过多个带有标签的视频帧生成测试数据；

将所述测试数据输入所述目标对象检测模型和关键点检测模型，生成多个目标对象的三维模型；

基于所述多个目标对象的三维模型生成所述目标对象的多个姿态波动率。

10.根据权利要求1-9任一所述的目标行为检测方法，其特征在于，将所述多个姿态波动率和多个阈值进行比较以由所述多个阈值中集合确定所述姿态阈值，包括：

将所述多个姿态波动率分别和每一个阈值进行比较，根据比较结果确定所述目标对象是否具有所述目标行为；

将所述比较结果和所述目标对象的标签进行比较以确定每一个阈值对应的准确率；

将准确率最大的阈值作为所述姿态阈值。