CN110674664A

CN110674664A - 视觉注意力的识别方法及系统、存储介质、处理器

Info

Publication number: CN110674664A
Application number: CN201810623500.9A
Authority: CN
Inventors: 郑魁; 刘林岩; 沈宇峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Banma Zhixing Network Hongkong Co Ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2020-01-10

Abstract

本发明公开了一种视觉注意力的识别方法及系统、存储介质、处理器。其中，该方法包括：通过第一摄像头采集目标区域的第一图像信息；从第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对面部预定区域进行分析，得到第一目标对象的面部特征点后，根据面部特征点，确定第一目标对象的头部姿态及视觉方向，其中，第一模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据头部姿态及视觉方向，确定第一目标对象的视觉注意力的对象。本发明解决了现有技术无法准确识别用户的注意力的技术问题。

Description

视觉注意力的识别方法及系统、存储介质、处理器

技术领域

本发明涉及人工智能领域，具体而言，涉及一种视觉注意力的识别方法及系统、存储介质、处理器。

背景技术

近年来，随着人工智能技术不断深入，人工智能正快速的改变着各产业。

在教育行业内，课堂教学是教育行业的核心，通过引入人工智能技术，可以让教育大数据和人工智能紧密联系起来。例如，可以在课堂教学的录播过程中引入人工智能技术。

需要说明的是，录播指的是通过摄像装置记录课堂教学内容，将录播与人工智能技术结合，使录播课程不仅可以成为教育的记录者、观察者，更可以成为教育的研究者。例如，可以通过人工智能技术对录播的课堂内容进行分析，进而根据分析结果反映当前课堂的教育情况。

但是，目前录播行业智能程度还不高，主要的应用在对学生的动作行为进行识别，或学生的情绪特征进行识别。

在对学生的动作行为进行识别的情况下，可以将学生个体为目标，识别学生举手/低头/抬头等行为，然后再根据学生各行为出现的概率来反映当前课堂教学的教学情况。但是，学生的动作行为与当前课堂的教学内容并不存在必然联系。例如，学生低头的行为不一定走神，也可能是在看书，故根据学生的动作行为并不能准确表示学生的注意力，进而也无法准确反映教学情况。

在对学生的情绪特征进行识别的情况下，可以通过识别学生的情绪特征，确定学生高兴、悲伤的情绪，然后根据学生的情绪获得学生对教学内容的反馈，进而可以根据学生的情绪反映教学情况。但是，学生的情绪特征和教学内容也不具备直接的关联关系。例如，学生出现悲伤的表情，可能因为课堂上悲伤的故事，还可能是因为自身身体不舒服，故根据学生的动作行为也并不能准确表示学生的注意力，进而也无法准确反映教学情况。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视觉注意力的识别方法及系统、存储介质、处理器，以至少解决现有技术无法准确识别用户的注意力的技术问题。

根据本发明实施例的一个方面，提供了一种视觉注意力的识别方法，包括：通过第一摄像头采集目标区域的第一图像信息；从所述第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象。

根据本发明实施例的另一方面，还提供了一种视觉注意力的识别系统，包括：第一摄像头，用于采集目标区域的第一图像信息；处理器，与所述第一摄像头连接，用于从所述第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行以下步骤：通过第一摄像头采集目标区域的第一图像信息；从所述第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行以下步骤：通过第一摄像头采集目标区域的第一图像信息；从所述第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象。

根据本发明实施例的另一方面，还提供了一种视觉注意力的识别方法，包括：通过第一摄像头采集课堂的第一图像信息；从所述第一图像信息中识别出学生的面部预定区域；基于第一神经网络模型对所述面部预定区域进行分析，得到所述学生的面部特征点后，根据所述面部特征点，确定所述学生的头部姿态及视觉方向，其中，所述第一神经网络模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述学生视觉关注的教学器具。

在本发明实施例中，通过第一摄像头采集目标区域的第一图像信息，并从第一图像信息中识别出第一目标对象的面部预定区域，再通过机器学习的方式可以根据该面部预定区域确定第一目标对象的头部姿态和视觉方向，然后根据第一目标对象的头部姿态和视觉方向便可以达到准确确定第一目标对象的视觉注意力的对象，实现了准确识别第一目标对象的注意力的技术效果，进而解决了现有技术无法准确识别用户的注意力的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现视觉注意力的识别方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的一种可选的视觉注意力的识别方法的示意图；

图3是根据本发明实施例的一种可选的视觉注意力的识别方法的示意图；

图4是根据本发明实施例的一种可选的视觉注意力的识别方法的示意图；

图5是根据本发明实施例的一种可选的视觉注意力的识别方法的示意图；

图6是根据本发明实施例的一种可选的视觉注意力的识别方法的示意图；

图7是根据本发明实施例的一种可选的视觉注意力的识别方法的示意图；

图8是本发明的一种课堂教学质量评估系统的示意图；

图9是本发明的一种课堂教学质量评估方案的示意图；

图10是本发明的一种课堂注意力估计的CNN级联的网络结构示意图；

图11是根据本申请实施例的一种可选的视觉注意力的识别系统的示意图；

图12是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

SVM：英文全称为Support Vector Machine，指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。

CNN：英文全称为Convolutional Neural Network，中文名卷积神经网络，在机器学习中，是一种深度前馈人工神经网络，常用于图像识别。

实施例1

根据本发明实施例，还提供了一种视觉注意力的识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现视觉注意力的识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的视觉注意力的识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的视觉注意力的识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

图1示出的硬件结构框图，不仅可以作为上述计算机终端10(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，上述图1所示的计算机终端10(或移动设备)作为发送端和/或接收端。计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器，例如安全服务器、资源服务器、游戏服务器等。一种可选实施例中，上述计算机终端10(或移动设备)可以是任意移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接，或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务，诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。

在上述运行环境下，本申请提供了如图2所示的视觉注意力的识别方法。

此处需要说明的是，视觉注意力的识别方法，可以应用在教学领域，用于识别学生的注意力，并根据学生的注意力对教学质量的评估；可以应用在晚会现场中，用于识别观众的注意力，并根据观众的注意力对晚会质量进行评估；还可以应用在眼动控制领域，可以确定用户的视觉注意力集中的对的对象，并进一步生成控制该对象的指令。

需要注意的是，上述所列示例仅作示例性说明，本发明所提供的视觉注意力的识别方法，还可以用于除上述示例以外的其他领域，此处不再赘述。

实施例1部分将根据教学中对视觉注意力的识别方法的应用为例，进行详细说明。

图2是根据本发明实施例1的视觉注意力的识别方法的流程图，如图2所示的方法可以包括如下步骤：

步骤S21，通过第一摄像头采集目标区域的第一图像信息。

在上述步骤S21中，第一摄像头可以是摄影机等图像采集设备，以教学场景为例，将第一摄像头布置在教学课堂内，并将教学课堂作为目标区域，可以通过第一摄像头采集教学课堂的图片，得到用于表示学生的第一图像信息。

此处需要说明的是，第一图像信息可以是目标区域内部分区域的图像，例如，教学课堂中学生区域的图像。

需要注意的是，第一图像信息可以是通过第一摄像头按照预定时间间隔采集的至少一幅图片，也可以是通过第一摄像头连续采集的视频图像信息。

步骤S23，从第一图像信息中识别出第一目标对象的面部预定区域。

在上述步骤S23中，第一目标对象可以是学生，通过对第一图像信息进行识别，可以在第一图像信息中识别出学生，并确定每个学生的面部预定区域。

可选地，可以采用人脸检测技术对第一图像信息进行识别，可以识别出第一图像信息中各第一目标对象的面部。

可选地，面部预定区域可以是具有预定尺寸或形状的区域。例如，面部预定区域可以是预定尺寸的矩形区域。

作为一种可选的示例，在使用人脸检测技术对第一图像信息进行识别的过程中，可以在第一图像信息中识别出每个第一目标对象的五官或脸部轮廓，并通过预定尺寸的矩形区域对第一目标对象进行标注，使五官位于面部区域的中央部分，则预定区域的矩形区域即为第一目标对象的面部预定区域。

步骤S25，使用第一模型对面部预定区域进行分析，得到第一目标对象的面部特征点后，根据面部特征点，确定第一目标对象的头部姿态及视觉方向，其中，第一模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点。

在上述步骤S25中，可以预先采集多幅第一目标对象的图像作为训练图像，并在训练图像中预先标识出面部特征点，然后将训练图像，以及训练图像中已标识出的面部特征点作为训练数据，再使用训练数据通过机器学习的方式进行训练，得到第一模型，进而在得到面部预定区域后，可以通过对第一模型对面部预定区域进行识别，在该面部预定区域中提取第一目标对象的面部特征点。

可选地，在上述步骤S25中，第一模型可以通过卷积神经网络CNN结构得出，使用卷积神经网络CNN结构对标识出面内特征点的图像进行训练，即可得到第一模型。

此处需要注意的是，标识出的面部特征点的图片即为训练数据，将多组训练数据输入卷积神经网络CNN结构后，可以训练得出模型参数，然后将卷积神经网络CNN结构按照模型参数设置后，即可得到第一模型。

此处需要说明的是，在识别出面部特征点后，还可以通过机器学习的方式进一步确定第一目标对象的头部姿态，以及第一目标对象的视觉方向，具体实现方式如下：

作为一种可选的实施例，在步骤S25中的第一模型包括第一子模型及第二子模型；使用第一模型对面部预定区域进行分析，得到第一目标对象的面部特征点后，根据面部特征点，确定第一目标对象的头部姿态及视觉方向可以包括如下步骤：

步骤S251：使用第一子模型对面部预定区域进行分析，得到第一目标对象的面部特征点，其中，第一子模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；

步骤S253：根据面部特征点，确定第一目标对象的头部姿态；

步骤S255：从面部特征点中提取眼部特征信息；

步骤S257：使用第二子模型对眼部特征信息进行分析，得到第一目标对象的视觉方向，其中，第二子模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：眼部特征信息和眼部特征信息中标识出视觉方向。

本申请上述步骤S251至步骤S257中，第一子模型可以是用于在第一图像信息中识别出第一目标对象的面部特征点的模型；第二子模型可以是用于根据眼部特征信息识别出视觉方向的模型，在通过第一子模型得到第一目标对象的面部特征点后，可以从面部特征点中提取第一目标对象的眼部特征信息，再通过第二子模型使用该眼部特征信息，得出第一目标对象的视觉方向。

需要说明的是，在上述步骤S251至步骤S257中，先后使用第一子模型和第二子模型分别第一目标对象的面部特征点，以及第一目标对象的视觉方向，可以在第二子模型无法满足使用条件的情况下，根据第一目标对象的面部特征点确定头部姿态，进一步可以单独根据头部姿态确定第一目标对象的视觉注意力的对象。例如，在无法提取第一目标对象的眼部特征信息的情况下，可以直接根据第一目标对象的头部姿态确定第一目标对象的视觉注意力的对象。

作为一种可选的示例，当学生A处于强光照的环境下，或学生A的眼部有遮挡(如学生A的佩戴眼镜)的情况下，第一摄像头无法清晰采集眼部图像，因此，从第一图像信息中的面部特征点将无法提取眼部特征信息，也无法进一步根据第二子模型确定第一目标对象的视觉方向。在上述情况下，可以根据提取出的面部特征点所确定的头部姿态直接确定学生A的视觉注意力的对象。

此处需要说明的是，上述步骤S253与步骤S255的执行顺序不存在先后关系，可以先执行步骤S253；也可以先执行步骤S255；还可以同时执行步骤S253和步骤S255。

需要注意的是，在上述步骤S255中，用于提取眼部特征信息的面部特征点是同一个对象的面部特征点，如从第一目标对象的面部特征点中提取第一目标对象的眼部特征信息。

作为一种可选的示例，在通过第一子模型确定学生A的面部特征点后，可以从学生A的面部特征点中提取学生A的眼部特征信息，进一步，可以根据学生A的面部特征点确定学生A的头部姿态，还可以从学生A的面部特征点中提取眼部特征信息来确定学生A的视觉方向。

需要注意的是，上述用于训练第一模型的卷积神经网络CNN结构可以包括两个CNN级联的网络结构，其中，第一子模型对应第一层卷积神经网络CNN结构，第二子模型对应第二层卷积神经网络CNN结构，通过多组已标识出面部特征点的图像对第一层卷积神经网络CNN结构进行训练即可得到第一子模型；通过多组已标识出视觉方向的眼部特征信息对第二卷积神经网络CNN结构进行训练即可得到第二子模型。

需要说明的是，在上述步骤S253中确定第一目标对象的头部姿态可以包括如下步骤：

步骤S2531：获取面部特征点的坐标及预先存储的标准特征点的坐标；

步骤S2533：将面部特征点的坐标及标准特征点的坐标进行匹配，得到头部姿态。

本申请上述步骤S2531和步骤S2533中，在根据面部特征点确定第一目标对象的头部姿态的情况下，可以获取面部特征点的坐标，并将面部特征点的坐标与预先存储的标准特征点的坐标进行匹配，再根据匹配结果确定第一目标对象的头部姿态。

可选地，可以预先存储多个标准特征点的坐标所对应的头部姿态。在面部特征点的坐标与标准特征点的坐标匹配的情况下，可以将该标准特征点的坐标所对应的头部姿态作为该面部特征点的坐标代表的第一目标对象的头部姿态。

此处需要说明的是，头部姿态可以通过欧拉角表示，其中，欧拉角包括roll、yaw、pitch三维角度。需要说明的是，在三维空间的右手笛卡尔坐标系中，roll为自转角或翻滚角，用于表示围绕Z轴旋转的角度；yaw为旋进角或偏航角，用于表示围绕Y轴旋转的角度；pitch为章动角或俯仰角，用于表示围绕X轴旋转的角度。

在上述步骤S2533中，获取面部特征点以及标准特征点后，可以利用PNP方法得到用于表示头部姿态的欧拉角。此处需要说明的是，PNP全称为perspective-n-point，即多点透视，又被称为基于点特征的定位，用于根据观察到的物体上的多个特征点来确定被观察物体性对于摄像头的三维运动参数。在本申请中，可以根据第一目标对象的面部特征点来确定第一目标对象的头部相对于第一摄像头的三维运动参数，从而得到第一目标对象的头部姿态。

此处需要说明的是，在步骤S25得到第一目标对象的面部特征点后，还可以包括如下步骤：

步骤S31：对面部特征点进行归一化处理；

步骤S33：根据归一化处理后的面部特征点，生成面部特征信息，面部特征信息包括以下至少之一：眼部闭合角度、嘴部闭合角度。

本申请上述步骤S31和步骤S33中，可以对通过第一模型得到的面部特征点进行归一化处理，将旋转的第一目标对象归一化到正面，得到第一目标对象的正面面部特征信息，并确定第一目标对象的眼部闭合角度和嘴部闭合角度，可以进一步根据第一目标对象的眼部闭合角度和嘴部闭合角度确定第一目标对象的视觉注意力的对象。

此处需要说明的是，通过第一模型得到的面部特征点是第一目标对象在当前姿态下的面部特征点。例如，学生A处于低头姿态，则第一摄像头采集的是学生A处于低头状态的第一图像信息，进而通过第一模型对第一图像信息进行分析所得出的面部特征点为学生A处于低头姿态情况下的面部特征点。在学生A处于低头姿态的情况下，直接根据当前姿态的面部特征点无法准确确定学生A的眼部和嘴部的闭合角度(例如无法确定学生A是否在睡觉，或聊天)，因此，对当前姿态的面部特征点进行归一化处理，可以得到学生A面部的正面特征，即得到面部特征信息，然后根据该面部特征信息即可完成对学生A的眼部闭合角度，以及嘴部闭合角度的确定，进而根据眼部闭合角度，以及嘴部闭合角度可以确定学生A的学习状态(如学生A是否在睡觉，或聊天)，从而确定学生A的视觉注意力的对象。

步骤S27，根据头部姿态及视觉方向，确定第一目标对象的视觉注意力的对象。

此处需要说明的是，上述步骤S27中，第一目标对象的视觉注意力的对象可以是第一目标对象所注视的对象。

例如，教师在黑板上书写板书，且学生A在注视该板书的情况下，则根据学生A的头部姿态和视觉方向，便可确定学生的视觉注意力的对象为该板书。

在一种可选实施例中，步骤S27根据头部姿态及视觉方向，确定第一目标对象的视觉注意力的对象包括如下步骤：

步骤S271：将面部特征点、头部姿态、面部特征信息及视觉方向输入注意力分类器；

步骤S273：获取注意力分类器根据面部特征点、头部姿态、面部特征信息及视觉方向确定的第一目标对象的视觉注意力的对象。

本申请上述步骤S271和步骤S273中，注意力分类器可以根据面部特征点、头部姿态、面部特征信息及视觉方向准确确定第一目标对象的视觉注意力的对象。

此处需要说明的是，上述步骤S271和步骤S273中的注意力分类器可以是SVM分类器，用于根据面部特征点、头部姿态、面部特征信息、以及视觉方向，对第一目标对象的视觉注意力进行分类，确定第一目标对象的视觉注意力的对象。

作为一种可选的示例，注意力分类器输出的视觉注意力的对象可以包括：黑板、课桌、讲桌、显示屏、教学投影区域、以及其他区域。当学生A注视黑板的情况下，将学生A的面部特征点、头部姿态、面部特征信息、以及视觉方向输入注意力分类器后，即可通过注意力分类器确定学生A的视觉注意力的对象为黑板。

在本申请提供的一种可选实施例中，该实施还包括如下步骤：

步骤41：通过第二摄像头采集目标区域的第二图像信息；

步骤43：从第二图像信息中识别出第二目标对象的人体预定区域；

步骤45：使用第二模型对人体预定区域进行分析，得到第二目标对象的人体特征点，其中，第二模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出人体特征点；

步骤47：根据人体特征点，确定第二目标对象的行为特征。

本申请上述步骤S41至步骤S47中，可以通过第二摄像头采集包括第二目标对象的第二图像信息，通过机器学习的方式，可以从第二图像信息中提取第二目标对象在人体预定区域内的人体特征点，进一步可以根据上述人体特征点确定第二目标对象的行为特征。

此处需要说明的是，可以根据第二目标对象的行为特征与第一目标对象的视觉注意力的对象结合，确定第一目标对象与第二目标对象的互动。例如，第二目标对象为教师，第一目标对象为学生，在确定教师的行为特征为书写板书的情况下，若可以确定学生的视觉注意力的对象为黑板，则可以确定目标对象与第二对象之间存在互动。

进一步地，在教学领域中，可以根据学生与教师直接的互动行为，进行教学质量的评估。

在上述步骤S43中，人体预定区域可以是预定尺寸的矩形区域，在第二目标对象的肢体位于人体预定区域内。

在上述步骤S47中，可以预先根据多组已确定的第二目标对象的人体特征点与行为特征之间的对应关系对教师行为分类器进行训练，得到预先训练好的教师行为分类器。进而，可以将第二目标对象的人体特征点输入预先训练好的教师行为分类器中，以获得该人体特征点所对应的行为特征。

作为一种可选的示例，在第二目标对象在黑板上书写板书的情况下，可以根据第二摄像头所采集的第二图像信息中识别出第二目标对象的人体特征点，进而预先训练好的教师行为分类器可以根据该人体特征点，确定第二目标对象正在书写板书。

在本申请提供的一种可选实施例中，该实施还包括：获取当前教学内容的辅助信息，辅助信息包括以下至少之一：教学音频信息、教学文字信息。

本申请上述实施例中，可以通过多种形式获取当前教学内容的辅助信息，使通过第一摄像头采集的第一图像信息、以及通过第二摄像头采集的第二图像信息与当前教学内容的辅助信息结合。

需要说明的是，当前教学内容的辅助信息可以通过多种方式获取，例如，可以通过音频设备采集教师讲课时所发出的语音信息；通过摄像头采集教师的板书图片；通过图像识别技术提取板书图片中的文字信息；通过数据传输技术获取投影仪所播放的文件等。

在本申请提供的一种可选实施例中，在获取当前教学内容的辅助信息之后，该实施例还可以包括：基于第一目标对象的视觉注意力的对象、第二目标对象的行为特征以及辅助信息，得到注意力评估结果，注意力评估结果用于指示教学质量。

本申请上述实施例中，可以根据第一目标对象的视觉注意力的对象、第二目标对象的行为特征、以及当前教学内容的辅助信息进行综合评估，从而得到准确的评估结果。

本实施例还提供了一种视觉注意力的识别方法，该方法包括：通过第一摄像头采集课堂的第一图像信息；从所述第一图像信息中识别出学生的面部预定区域；基于第一神经网络模型对所述面部预定区域进行分析，得到所述学生的面部特征点后，根据所述面部特征点，确定所述学生的头部姿态及视觉方向，其中，所述第一神经网络模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述学生视觉关注的教学器具。

可选地，本实施例的方法还包括：通过第二摄像头采集所述课堂的第二图像信息；从所述第二图像信息中识别出教师的人体预定区域；基于第二神经网络模型对所述人体预定区域进行分析，得到所述教师的人体特征点，其中，所述第二神经网络模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出人体特征点；根据所述人体特征点，确定所述教师的行为特征。

可选地，本实施例的方法还包括：基于所述学生视觉关注的教学器具、所述教师的行为特征以及所述课堂的教学内容，得到用于指示教学质量的评估结果。

作为一种可选的示例，在教学领域中，根据学生的视觉注意力的对象、教师的行为特征，以及当前教学课堂的教学内容，可以综合评估当前教学课堂的教学质量。

具体地，设置在课堂前排的第一摄像头拍摄学生的图像，通过目标检测在图像中定位学生面部的矩形区域，并针对每个学生面部矩形区域，利用神经网络检测出人脸的关键点，然后，以学生人脸矩形坐标和关键点特征为输入，通过训练好的注意力分类器，得到学生注意力的教学器具；设置在后排的第二摄像头拍摄教师的图像，通过目标检测在图像中定位教师人体的矩形区域，并针对教师的人体矩形区域，利用神经网络检测出人体骨骼的关键点，得到教师行为特征(比如：写板书、做实验、走动等)。

进而，对学生视觉关注的教学器具、教师的行为特征和课堂的教学内容进行融合，量化教育领域中“教”和“学”之间的关系，突破了传统方法仅识别个体行为(低头/抬头，表情)来评估教学质量的局限性，提高了教学质量评估的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

下面通过一种更为详细的实施例来说明本发明，在下述实施例中，详细介绍一种课堂教学质量评估系统，其中，该课堂教学质量评估系统的示意图如图8所示，具体步骤如下：

步骤S1：前排摄像头的视频信息作为输入。

步骤S2：基于人脸特征进行视线预测。其中，进行视线预测的包括：进行人脸检测、标注脸部特征点、计算头部朝向以及眼睛方向，并最终得到视觉注意力方向。

步骤S3：由于步骤S2中所根据面部特征点确定视觉注意力方向的方法通常不能准确得到所有学生的特征点，比如受到光线，或眼镜的影响，使脸部图像模糊、甚至脸部收到遮挡，则可以根据周围同学的注意力特征值结合自身身体的姿态特征进行视觉注意力的估计。

此处需要说明的是，可以基于合作学校收集的数据集，采用神经网络模型对不满足步骤S83中使用条件的同学进行视觉注意力的估计。

步骤S4：将上述步骤S2和步骤S3的结果融合，得到学生的视觉注意力的方向，以及视觉焦点物体的分类(比如教师，黑板，教学器具等)。

步骤S5：基于步骤S4的结果，可以将课堂注意力方向和注视焦点物体的注意力个数，图形化成热度图显示在录播大屏上。

需要说明的是，在图8，以及上述步骤S1至S5中，前排摄像头即为实施例1中的第一摄像头；视觉注意力焦点即为实施例1中的视觉注意力的对象；头部姿态估计即为实施例1中的确定第一目标对象的头部姿态；眼部姿态估计即为实施例1中的确定第一目标对象的视觉方向。

本发明提供的课堂教学质量评估系统，以学生视觉注意力(visual focus ofattention)为识别目标，把注意力作为教师与学生，课堂内容与学生之间交互的信息载体，通过分析注意力的热度来反映当前学生的专注程度，评估教学内容的吸引力，并将注意力的热度图反映在相关教学场景上(如黑板某内容区域、教师身上或试验器具等)。

本发明提供的课堂教学质量评估系统，利用神经网络对学生注意力估计，降低了复杂课堂教学环境对识别准确率的影响。

本发明提供的课堂教学质量评估系统，可以在云端结合课堂注意力的统计信息和当前教学内容上下文(比如声音，或教师的行为识别)。

需要说明的是，本发明提供的课堂教学质量评估方案可以是基于学生注意力信息、教师行为信息及教学内容信息的融合系统。图9是本发明的一种课堂教学质量评估方案的示意图，如图9所示。

在进行课堂注意力估计的过程中，以课堂前置摄像头(即第一摄像头)的视频流为输入，通过目标检测在图像中定位学生面部的矩形区域；并针对每个学生面部矩形区域，利用神经网络检测出人脸的关键点；然后以学生人脸矩形坐标和关键点特征为输入，再通过训练好的注意力分类器，得到学生注意力的分类(比如黑板、教师、投影仪、课桌、其它教学器具等)。最后基于所有学生的信息得到课堂注意力的统计信息。

在进行教师行为分析的过程中，以课堂后置摄像头(即第二摄像头)的视频流为输入，通过目标检测在图像中定位教师人体的矩形区域；并针对教师人体矩形区域，利用神经网络检测出人体骨骼的关键点；然后以教师人体关键点特征为输入，通过训练好的教师行为分类器，得到教师行为的分类(比如写板书、做实验、走动等)。

在获取教学内容信息的过程中，可以利用音频、激光笔等输入信息，提供当前教学内容的辅助信息。.

本发明提供的课堂教学质量评估方案，融合课堂注意力信息、教师行为信息和其它辅助信息，以注意力信息来量化教育领域中“教”和“学”之间的关系，突破了传统方法仅识别个体行为(如个体低头或抬头的行为、以及个体表情)来评估教学质量的局限性.

需要说明的是，基于神经网络的课堂注意力估计采用两个CNN级联的网络结构，其中，第一层CNN网络用于定位人脸特征点，第二层CNN网络用于实现人眼的视线估计。使用公开数据集和自己采集课堂教学数据集训练得到模型参数，使CNN网络可以实现定位人脸特征点、以及人眼的视线估计。

图10是本发明的一种课堂注意力估计的CNN级联的网络结构示意图，如图10所示。

由前置摄像头输入的图像信息，进行人脸检测，识别出学生的人脸矩形区域；然后将该人脸矩形区域作为第一层CNN网络的输入，得到人脸特征点的信息。其中，第一层CNN网络最后输出内容包括:头部姿态和面部信息。

其中，头部姿态包括ROLL、YAW、PITCH三维角度，是利用第一层CNN输出的面部特征点坐标，和标准人脸特征点坐标利用PNP(PERSPECTIVE-N-POINT，即多点透视、或基于点特征的定位)方法计算所得。然后将头部姿态作为特征输入注意力方向分类器。

其中，面部信息，可以利用头部姿态进行归一化处理，将旋转的人脸归一化到正面，也就是将第一层CNN输出的面部特征点归一化处理。然后根据人脸特征点计算人眼闭合角度、嘴部闭合角度，并将人眼闭合角度、嘴部闭合角度作为特征输入注意力方向分类器

基于第一层CNN网络得到的人脸特征点，选择眼部区域特征利用第二层CNN网络得出视线估计。并将视线估计结果作为特征输入注意力方向分类器

需要注意的是，注意力分类器采用一个SVM的分类器，输入头部姿态、人眼闭合角度、嘴部闭合角度、以及视线估计结果可以输出学生注意力的多个区域。其中，注意力的多个区域包括：黑板、课桌、讲桌、显示屏、教学投影区域、其他区域。

本发明采用两个CNN级联的网络结构，可以降低环境对注意力估计的影响，其中，CNN网络模型对比传统的视觉识别方法具备更高的精度，并且由于两级网络级联,在环境好的条件下，注意力估计是基于头部姿态和视线方向两个特征；对于环境差的条件(比如强光照，面部有遮挡等)仍可以基于头部姿态进行估计。

本发明提供的课堂教学质量评估方案，可以考虑到较大的空间里，个体座位对注意力方向的影响，因此，开可以将个体人脸矩形区域也作为注意力估计的一个输入特征。

本发明提供的课堂教学质量评估方案，结合教育行业特性，分类器可以针对高频的注意力目标进行分类，比如黑板、课桌、讲桌、显示屏等。

实施例3

根据本发明实施例，还提供了一种用于实施上述视觉注意力的识别方法的系统，如图11所示，该系统包括：

第一摄像头1101，用于采集目标区域的第一图像信息；

处理器1103，与第一摄像头连接，用于从第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对面部预定区域进行分析，得到第一目标对象的面部特征点后，根据面部特征点，确定第一目标对象的头部姿态及视觉方向，其中，第一模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据头部姿态及视觉方向，确定第一目标对象的视觉注意力的对象。

此处需要说明的是，上述第一摄像头1101对应于实施例1中的步骤S21；上述处理器1103对应与实施例1中的步骤S23至步骤S27，第一摄像头和处理器对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在上述系统中，通过第一摄像头采集目标区域的第一图像信息，并从第一图像信息中识别出第一目标对象的面部预定区域，再通过机器学习的方式可以根据该面部预定区域确定第一目标对象的头部姿态和视觉方向，然后根据第一目标对象的头部姿态和视觉方向便可以达到准确确定第一目标对象的视觉注意力的对象，实现了准确识别第一目标对象的注意力的技术效果，进而解决了现有技术无法准确识别用户的注意力的技术问题。

作为一种可选的实施例，该实施例还可以包括：第二摄像头，用于采集目标区域的第二图像信息；处理器，与第二摄像头连接，还用于从第二图像信息中识别出第二目标对象的人体预定区域；使用第二模型对人体预定区域进行分析，得到第二目标对象的人体特征点，其中，第二模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出人体特征点；根据人体特征点，确定第二目标对象的行为特征。

作为一种可选的实施例，该实施例还可以包括：输入设备，用于获取当前教学内容的辅助信息，辅助信息包括以下至少之一：教学音频信息、教学文字信息；处理器，与输入设备连接，还用于基于第一目标对象的视觉注意力的对象、第二目标对象的行为特征以及辅助信息，得到注意力评估结果，注意力评估结果用于指示教学质量。

实施例4

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的视觉注意力的识别方法中以下步骤的程序代码：通过第一摄像头采集目标区域的第一图像信息；从第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对面部预定区域进行分析，得到第一目标对象的面部特征点后，根据面部特征点，确定第一目标对象的头部姿态及视觉方向，其中，第一模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据头部姿态及视觉方向，确定第一目标对象的视觉注意力的对象。

可选地，图12是根据本发明实施例的一种计算机终端的结构框图。如图12所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器102、存储器104、以及传输装置106。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的视觉注意力的识别方法和系统对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视觉注意力的识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过第一摄像头采集目标区域的第一图像信息；从第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对面部预定区域进行分析，得到第一目标对象的面部特征点后，根据面部特征点，确定第一目标对象的头部姿态及视觉方向，其中，第一模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据头部姿态及视觉方向，确定第一目标对象的视觉注意力的对象。

可选的，上述处理器还可以执行如下步骤的程序代码：使用第一子模型对面部预定区域进行分析，得到第一目标对象的面部特征点，其中，第一子模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据面部特征点，确定第一目标对象的头部姿态；从面部特征点中提取眼部特征信息；使用第二子模型对眼部特征信息进行分析，得到第一目标对象的视觉方向，其中，第二子模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：眼部特征信息和眼部特征信息中标识出视觉方向。

可选的，上述处理器还可以执行如下步骤的程序代码：获取面部特征点的坐标及预先存储的标准特征点的坐标；将面部特征点的坐标及标准特征点的坐标进行匹配，得到头部姿态。

可选的，上述处理器还可以执行如下步骤的程序代码：对面部特征点进行归一化处理；根据归一化处理后的面部特征点，生成面部特征信息，面部特征信息包括以下至少之一：眼部闭合角度、嘴部闭合角度。

可选的，上述处理器还可以执行如下步骤的程序代码：将面部特征点、头部姿态、面部特征信息及视觉方向输入注意力分类器；获取注意力分类器根据面部特征点、头部姿态、面部特征信息及视觉方向确定的第一目标对象的视觉注意力的对象。

可选的，上述处理器还可以执行如下步骤的程序代码：通过第二摄像头采集目标区域的第二图像信息；从第二图像信息中识别出第二目标对象的人体预定区域；使用第二模型对人体预定区域进行分析，得到第二目标对象的人体特征点，其中，第二模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出人体特征点；根据人体特征点，确定第二目标对象的行为特征。

可选的，上述处理器还可以执行如下步骤的程序代码：获取当前教学内容的辅助信息，辅助信息包括以下至少之一：教学音频信息、教学文字信息。

可选的，上述处理器还可以执行如下步骤的程序代码：基于第一目标对象的视觉注意力的对象、第二目标对象的行为特征以及辅助信息，得到注意力评估结果，注意力评估结果用于指示教学质量。

采用本发明实施例，提供了一种视觉注意力的识别的方案。通过第一摄像头采集目标区域的第一图像信息，并从第一图像信息中识别出第一目标对象的面部预定区域，再通过机器学习的方式可以根据该面部预定区域确定第一目标对象的头部姿态和视觉方向，然后根据第一目标对象的头部姿态和视觉方向便可以达到准确确定第一目标对象的视觉注意力的对象，实现了准确识别第一目标对象的注意力的技术效果，进而解决了现有技术无法准确识别用户的注意力的技术问题。

本领域普通技术人员可以理解，图12所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，计算机终端12还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的视觉注意力的识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过第一摄像头采集目标区域的第一图像信息；从第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对面部预定区域进行分析，得到第一目标对象的面部特征点后，根据面部特征点，确定第一目标对象的头部姿态及视觉方向，其中，第一模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据头部姿态及视觉方向，确定第一目标对象的视觉注意力的对象。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：使用第一子模型对面部预定区域进行分析，得到第一目标对象的面部特征点，其中，第一子模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据面部特征点，确定第一目标对象的头部姿态；从面部特征点中提取眼部特征信息；使用第二子模型对眼部特征信息进行分析，得到第一目标对象的视觉方向，其中，第二子模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：眼部特征信息和眼部特征信息中标识出视觉方向。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取面部特征点的坐标及预先存储的标准特征点的坐标；将面部特征点的坐标及标准特征点的坐标进行匹配，得到头部姿态。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对面部特征点进行归一化处理；根据归一化处理后的面部特征点，生成面部特征信息，面部特征信息包括以下至少之一：眼部闭合角度、嘴部闭合角度。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将面部特征点、头部姿态、面部特征信息及视觉方向输入注意力分类器；获取注意力分类器根据面部特征点、头部姿态、面部特征信息及视觉方向确定的第一目标对象的视觉注意力的对象。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过第二摄像头采集目标区域的第二图像信息；从第二图像信息中识别出第二目标对象的人体预定区域；使用第二模型对人体预定区域进行分析，得到第二目标对象的人体特征点，其中，第二模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据包括以下至少之一：图像和图像中标识出人体特征点；根据人体特征点，确定第二目标对象的行为特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取当前教学内容的辅助信息，辅助信息包括以下至少之一：教学音频信息、教学文字信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于第一目标对象的视觉注意力的对象、第二目标对象的行为特征以及辅助信息，得到注意力评估结果，注意力评估结果用于指示教学质量。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视觉注意力的识别方法，其特征在于，包括：

通过第一摄像头采集目标区域的第一图像信息；

从所述第一图像信息中识别出第一目标对象的面部预定区域；

使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；

根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象。

2.根据权利要求1所述的方法，其特征在于，所述第一模型包括第一子模型及第二子模型；其中，所述使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向包括：

使用所述第一子模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点，其中，所述第一子模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；

根据所述面部特征点，确定所述第一目标对象的头部姿态；

从所述面部特征点中提取眼部特征信息；

使用所述第二子模型对眼部特征信息进行分析，得到所述第一目标对象的所述视觉方向，其中，所述第二子模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：眼部特征信息和眼部特征信息中标识出视觉方向。

3.根据权利要求2所述的方法，其特征在于，所述根据所述面部特征点，确定所述第一目标对象的头部姿态包括：

获取所述面部特征点的坐标及预先存储的标准特征点的坐标；

将所述面部特征点的坐标及所述标准特征点的坐标进行匹配，得到所述头部姿态。

4.根据权利要求1所述的方法，其特征在于，在得到所述第一目标对象的面部特征点后，所述方法还包括：

对所述面部特征点进行归一化处理；

根据归一化处理后的面部特征点，生成面部特征信息，所述面部特征信息包括以下至少之一：眼部闭合角度、嘴部闭合角度。

5.根据权利要求4所述的方法，其特征在于，所述根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象包括：

将所述面部特征点、所述头部姿态、面部特征信息及所述视觉方向输入注意力分类器；

获取所述注意力分类器根据所述面部特征点、所述头部姿态、面部特征信息及所述视觉方向确定的所述第一目标对象的视觉注意力的对象。

6.根据权利要求1至5中任一项所述的方法，其特征在于，还包括：

通过第二摄像头采集所述目标区域的第二图像信息；

从所述第二图像信息中识别出第二目标对象的人体预定区域；

使用第二模型对所述人体预定区域进行分析，得到所述第二目标对象的人体特征点，其中，所述第二模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出人体特征点；

根据所述人体特征点，确定所述第二目标对象的行为特征。

7.根据权利要求6所述的方法，其特征在于，还包括：

获取当前教学内容的辅助信息，所述辅助信息包括以下至少之一：教学音频信息、教学文字信息。

8.根据权利要求7所述的方法，其特征在于，还包括：

基于所述第一目标对象的视觉注意力的对象、所述第二目标对象的行为特征以及所述辅助信息，得到注意力评估结果，所述注意力评估结果用于指示教学质量。

9.一种视觉注意力的识别系统，其特征在于，包括：

第一摄像头，用于采集目标区域的第一图像信息；

处理器，与所述第一摄像头连接，用于从所述第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象。

10.根据权利要求9所述的系统，其特征在于，还包括：

第二摄像头，用于采集所述目标区域的第二图像信息；

所述处理器，与所述第二摄像头连接，还用于从所述第二图像信息中识别出第二目标对象的人体预定区域；使用第二模型对所述人体预定区域进行分析，得到所述第二目标对象的人体特征点，其中，所述第二模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出人体特征点；根据所述人体特征点，确定所述第二目标对象的行为特征。

11.根据权利要求10所述的系统，其特征在于，还包括：

输入设备，用于获取当前教学内容的辅助信息，所述辅助信息包括以下至少之一：教学音频信息、教学文字信息；

所述处理器，与所述输入设备连接，还用于基于所述第一目标对象的视觉注意力的对象、所述第二目标对象的行为特征以及所述辅助信息，得到注意力评估结果，所述注意力评估结果用于指示教学质量。

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行以下步骤：通过第一摄像头采集目标区域的第一图像信息；从所述第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象。

13.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行以下步骤：通过第一摄像头采集目标区域的第一图像信息；从所述第一图像信息中识别出第一目标对象的面部预定区域；使用第一模型对所述面部预定区域进行分析，得到所述第一目标对象的面部特征点后，根据所述面部特征点，确定所述第一目标对象的头部姿态及视觉方向，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；根据所述头部姿态及所述视觉方向，确定所述第一目标对象的视觉注意力的对象。

14.一种视觉注意力的识别方法，其特征在于，包括：

通过第一摄像头采集课堂的第一图像信息；

从所述第一图像信息中识别出学生的面部预定区域；

基于第一神经网络模型对所述面部预定区域进行分析，得到所述学生的面部特征点后，根据所述面部特征点，确定所述学生的头部姿态及视觉方向，其中，所述第一神经网络模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出面部特征点；

根据所述头部姿态及所述视觉方向，确定所述学生视觉关注的教学器具。

15.根据权利要求14所述的方法，其特征在于，还包括：

通过第二摄像头采集所述课堂的第二图像信息；

从所述第二图像信息中识别出教师的人体预定区域；

基于第二神经网络模型对所述人体预定区域进行分析，得到所述教师的人体特征点，其中，所述第二神经网络模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据包括以下至少之一：图像和图像中标识出人体特征点；

根据所述人体特征点，确定所述教师的行为特征。

16.根据权利要求15所述的方法，其特征在于，还包括：

基于所述学生视觉关注的教学器具、所述教师的行为特征以及所述课堂的教学内容，得到用于指示教学质量的评估结果。