CN111914811B

CN111914811B - 图像数据处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN111914811B
Application number: CN202010842702.XA
Authority: CN
Inventors: 贺思颖; 张亚彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2021-09-28
Anticipated expiration: 2040-08-20
Also published as: CN111914811A

Abstract

本申请实施例提供了一种图像数据处理方法、装置、计算机设备以及存储介质，该方法可以采用人工智能技术对视频帧图像进行图像分类处理；该方法包括：获取视频帧图像，从视频帧图像中获取目标区域所覆盖的像素点，作为区域图像；目标区域用于指示人脸在视频帧图像中的有效位置，目标区域对应的区域尺寸小于视频帧图像对应的图像尺寸；获取区域图像对应的区域属性特征，根据区域属性特征识别区域图像对应的人脸分类结果；若人脸分类结果属于人脸异常检测结果，则生成针对区域图像的异常提示信息。采用本申请实施例，可以提高人脸位置的检测效率。

Description

图像数据处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种图像数据处理方法、装置、计算机设备以及存储介质。

背景技术

随着视频技术的发展和移动互联网的普及，视频会议成为人们日常工作中必不可少的提升工作效率的方式。在视频会议过程中，与会人员通常不太注意到摄像头跟自己头像的相对位置关系，于是经常出现只有半边人脸甚至人像离开镜头的情况，人脸位置异常会影响视频会议的展示效果。

现有技术中，可以通过人脸检测的方法对视频帧图像进行检测，首先需要检测视频帧图像中是否包含人脸，当检测到视频帧图像中包含人脸时，还需要检测人脸在视频帧图像中的具体位置，并确定人脸的中心点位置；当人脸的中心点位置与屏幕视频画面的中心位置接近时，可以确定与会人员的人脸位置是正常的。可见，基于人脸检测方法检测人脸位置，容易造成过多的计算耗时，进而导致人脸位置的检测效率过低。

发明内容

本申请实施例提供一种图像数据处理方法、装置、计算机设备以及存储介质，可以提高人脸位置的检测效率。

本申请实施例一方面提供了一种图像数据处理方法，包括：

获取视频帧图像，从视频帧图像中获取目标区域所覆盖的像素点，作为区域图像；目标区域用于指示人脸在视频帧图像中的有效位置，目标区域对应的区域尺寸小于视频帧图像对应的图像尺寸；

获取区域图像对应的区域属性特征，根据区域属性特征识别区域图像对应的人脸分类结果；

若人脸分类结果属于人脸异常检测结果，则生成针对区域图像的异常提示信息。

其中，上述从视频帧图像中获取目标区域所覆盖的像素点，作为区域图像，包括：

获取与视频帧图像相关联的分割参数，根据分割参数与视频帧图像的图像尺寸确定区域尺寸；

获取视频帧图像中的中心位置点的坐标信息，根据坐标信息和区域尺寸，在视频帧图像中确定目标区域；

根据目标区域对视频帧图像进行分割，得到包含目标区域所覆盖的像素点的区域图像。

其中，上述获取区域图像中的区域属性特征，根据区域属性特征识别区域图像对应的人脸分类结果，包括：

将区域图像输入至图像识别模型，在图像识别模型中获取区域图像对应的区域属性特征；

将区域属性特征输入至第一分类器，在第一分类器中识别区域属性特征的人脸分类结果。

其中，上述将区域图像输入至图像识别模型，在图像识别模型中获取区域图像对应的区域属性特征，包括：

将区域图像输入至图像识别模型，根据图像识别模型中的卷积层，对区域图像进行卷积，得到区域图像特征信息；

根据图像识别模型中的N个残差层，对区域图像特征信息进行残差卷积处理，得到区域图像的残差卷积特征；

根据区域图像特征信息和区域图像残差信息，生成区域图像对应的区域属性特征。

其中，上述将区域属性特征输入至第一分类器，在第一分类器中识别区域属性特征的人脸分类结果，包括：

将区域属性特征输入至第一分类器，在第一分类器中识别区域属性特征分别与至少两个人脸状态特征之间的第一匹配度；

将最大的第一匹配度所属的人脸状态特征对应的类别，作为区域属性特征的人脸分类结果。

将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征的第一分类结果；

将区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征的第二分类结果；

根据第一分类结果和第二分类结果，确定区域图像对应的人脸分类结果。

其中，上述将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征的第一分类结果，包括：

将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征与人脸属性特征之间的第二匹配度，以及区域属性特征与非人脸属性特征之间的第三匹配度；

当第二匹配度大于第三匹配度时，将人脸属性特征对应的人脸类别作为第一分类结果；

当第二匹配度小于第三匹配度时，将非人脸属性特征对应的非人脸类别作为第一分类结果。

其中，上述将区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征的第二分类结果，包括：

将区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征与全脸属性特征之间的第四匹配度，以及区域属性特征与半脸属性特征之间的第五匹配度；

当第四匹配度大于第五匹配度时，将全脸属性特征对应的全脸类别作为第二分类结果；

当第四匹配度小于第五匹配度时，将半脸属性特征对应的半脸类别作为第二分类结果。

其中，上述若人脸分类结果属于人脸异常检测结果，则生成针对区域图像的异常提示信息，包括：

若人脸分类结果为半脸类别或者非人脸类别，则将人脸分类结果确定为人脸异常检测结果；

生成与人脸异常检测结果相关联的异常提示信息，在视频帧图像的展示页面中显示异常提示信息。

其中，该方法还包括：

统计视频会议应用中与互动用户相关联的异常提示信息的显示次数；

当显示次数达到异常显示条件时，在视频会议应用中移除互动用户。

其中，该方法还包括：

获取样本图像集合；样本图像集合包括属于全脸类别的样本图像、属于半脸类别的样本图像以及属于非人脸类别的样本图像；

将样本图像集合中所包含的样本图像输入至初始图像识别模型，在初始图像识别模型中获取样本图像对应的初始图像属性特征；

根据初始图像属性特征识别样本图像对应的预测分类结果，获取样本图像的初始类别标签信息；

根据预测分类结果与初始类别标签之间的误差，对初始图像识别模型的模型参数进行调整，将调整参数后的初始图像识别模型确定为图像识别模型。

本申请实施例一方面提供了一种图像数据处理装置，包括：

获取模块，用于获取视频帧图像，从视频帧图像中获取目标区域所覆盖的像素点，作为区域图像；目标区域用于指示人脸在视频帧图像中的有效位置，目标区域对应的区域尺寸小于视频帧图像对应的图像尺寸；

识别模块，用于获取区域图像对应的区域属性特征，根据区域属性特征识别区域图像对应的人脸分类结果；

信息生成模块，用于若人脸分类结果属于人脸异常检测结果，则生成针对区域图像的异常提示信息。

其中，获取模块包括：

参数获取单元，用于获取与视频帧图像相关联的分割参数，根据分割参数与视频帧图像的图像尺寸确定区域尺寸；

区域确定单元，用于获取视频帧图像中的中心位置点的坐标信息，根据坐标信息和区域尺寸，在视频帧图像中确定目标区域；

分割单元，用于根据目标区域对视频帧图像进行分割，得到包含目标区域所覆盖的像素点的区域图像。

其中，识别模块包括：

特征提取单元，用于将区域图像输入至图像识别模型，在图像识别模型中获取区域图像对应的区域属性特征；

第一分类单元，用于将区域属性特征输入至第一分类器，在第一分类器中识别区域属性特征的人脸分类结果。

其中，特征提取单元包括：

卷积子单元，用于将区域图像输入至图像识别模型，根据图像识别模型中的卷积层，对区域图像进行卷积，得到区域图像特征信息；

残差子单元，用于根据图像识别模型中的N个残差层，对区域图像特征信息进行残差卷积处理，得到区域图像的残差卷积特征；

特征生成子单元，用于根据区域图像特征信息和区域图像残差信息，生成区域图像对应的区域属性特征。

其中，第一分类单元包括：

第一匹配子单元，用于将区域属性特征输入至第一分类器，在第一分类器中识别区域属性特征分别与至少两个人脸状态特征之间的第一匹配度；

结果确定子单元，用于将最大的第一匹配度所属的人脸状态特征对应的类别，作为区域属性特征的人脸分类结果。

其中，识别模块包括：

第二分类单元，用于将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征的第一分类结果；

第三分类单元，用于将区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征的第二分类结果；

分类结果确定单元，用于根据第一分类结果和第二分类结果，确定区域图像对应的人脸分类结果。

其中，第二分类单元包括：

第二匹配子单元，用于将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征与人脸属性特征之间的第二匹配度，以及区域属性特征与非人脸属性特征之间的第三匹配度；

第一比较子单元，用于当第二匹配度大于第三匹配度时，将人脸属性特征对应的人脸类别作为第一分类结果；

上述第一比较子单元，还用于当第二匹配度小于第三匹配度时，将非人脸属性特征对应的非人脸类别作为第一分类结果。

其中，第三分类单元包括：

第三匹配子单元，用于将区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征与全脸属性特征之间的第四匹配度，以及区域属性特征与半脸属性特征之间的第五匹配度；

第二比较子单元，用于当第四匹配度大于第五匹配度时，将全脸属性特征对应的全脸类别作为第二分类结果；

上述第二比较子单元，还用于当第四匹配度小于第五匹配度时，将半脸属性特征对应的半脸类别作为第二分类结果。

其中，信息生成模块包括：

异常结果确定单元，用于若人脸分类结果为半脸类别或者非人脸类别，则将人脸分类结果确定为人脸异常检测结果；

提示信息显示单元，用于生成与人脸异常检测结果相关联的异常提示信息，在视频帧图像的展示页面中显示异常提示信息。

其中，该装置还包括：

统计模块，用于统计视频会议应用中与互动用户相关联的异常提示信息的显示次数；

用户移除模块，用于当显示次数达到异常显示条件时，在视频会议应用中移除互动用户。

其中，该装置还包括：

样本获取模块，用于获取样本图像集合；样本图像集合包括属于全脸类别的样本图像、属于半脸类别的样本图像以及属于非人脸类别的样本图像；

样本识别模块，用于将样本图像集合中所包含的样本图像输入至初始图像识别模型，在初始图像识别模型中获取样本图像对应的初始图像属性特征；

样本预测模块，用于根据初始图像属性特征识别样本图像对应的预测分类结果，获取样本图像的初始类别标签信息；

参数调整模块，用于根据预测分类结果与初始类别标签之间的误差，对初始图像识别模型的模型参数进行调整，将调整参数后的初始图像识别模型确定为图像识别模型。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请实施例中一方面中方法的步骤。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行如本申请实施例中一方面中方法的步骤。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面的各种可选方式中提供的方法。

本申请实施例可以通过获取视频帧图像，从视频帧图像中获取目标区域所覆盖的像素点，作为区域图像，其中，该目标区域用于指示人脸在视频帧图像中的有效位置，该目标区域对应的区域尺寸小于视频帧图像对应的图像尺寸，进而获取区域图像对应的区域属性特征，根据该区域属性特征识别区域图像对应的人脸分类结果，若人脸分类结果属于人脸异常检测结果，则可以生成针对区域图像的异常提示信息。可见，从视频帧图像中确定用于指示人脸有效位置的目标区域，根据目标区域从视频帧图像中分割出区域图像，通过对区域图像进行三元人脸分类，得到区域图像的人脸分类结果，无需对区域图像进行人脸检测，仅通过图像分类即可确定用户人脸在视频帧图像中的位置，进而可以提高人脸位置的检测效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构图；

图2是本申请实施例提供的一种图像数据处理场景示意图；

图3是本申请实施例提供的一种图像数据处理方法的流程示意图；

图4是本申请实施例提供的一种对区域图像进行分类的示意图；

图5a至图5c是本申请实施例提供的一种人脸分类结果的示意图；

图6是本申请实施例提供的一种对区域图像进行分类的示意图；

图7是本申请实施例提供的一种视频帧图像中人脸位置检测的流程示意图；

图8是本申请实施例提供的一种异常提示信息的显示界面图；

图9是本申请实施例提供的一种图像数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能云服务，一般也被称作为“AI即服务”(AI as a Service，AIaaS)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI(人工智能，Artificial Intelligence)服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API(Application ProgramInterface)接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务。

本申请实施例提供的图像数据处理方案涉及人工智能云服务中的AI图像识别服务，本申请实施例中可以通过API接口的方式接入AI图像识别服务，通过AI图像识别服务对用户的视频帧图像进行图像分类处理，以提高人脸位置的检测效率。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

本申请实施例提供的图像数据处理方案属于人工智能领域下属的计算机视觉(Computer Vision，CV)。

计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

请参见图1，图1是本申请实施例提供的一种网络架构图。如图1所示，该网络架构可以包括服务器10d和用户终端集群，用户终端集群可以包括一个或者多个用户终端，此处对于用户终端的数量不做具体限制。如图1所示，多个用户终端具体可以包括用户终端10a、用户终端10b以及用户终端10c等。用户终端10a、用户终端10b以及用户终端10c等均可以分别与服务器10d进行网络连接，以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。

其中，如图1所示的服务器10d可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请在此不做限制。

其中，用户终端10a、用户终端10b以及用户终端10c等均可以包括：智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等具备视频数据处理功能(如图像数据处理功能)的智能终端等。例如，以图1所示的用户终端10a为例，该用户终端10a中可以安装有具备图像数据处理功能的客户端，该客户端可以包括社交客户端(如即时通讯应用客户端)、多媒体客户端(如直播客户端)、视频会议客户端、教育客户端等具有视频连线和视频画面显示功能的客户端。其中，用户终端10a可以为参与视频的任一用户所使用的用户终端。为便于理解，本申请实施例可以将使用用户终端10a的用户称为互动用户(例如用户A)，将互动用户的连线视频画面统称为视频帧图像，即此处的视频帧图像可以为用户A(即互动用户)在用户终端10a的终端屏幕中所展示的视频画面。

应当理解，当互动用户需要参与视频与其余用户进行交流互动时，可以在用户终端10a中开启摄像设备功能，通过摄像设备实时采集互动用户对应的视频数据内容，进而可以采用开放式图形库(如OpenGL)对采集到的互动用户的视频数据内容进行渲染，生成互动用户对应的视频画面，并在用户终端10a的客户端中显示互动用户对应的视频画面，此处视频画面是由互动用户对客户端中的视频连线控件进行触发操作后所显示的。其中，此处的摄像设备可以是指用户终端10a中的硬件组件，也可以是指与用户终端10a具有通信连接的硬件装置，可以用于为用户终端10a提供视频数据内容，该摄像设备可以包括普通摄像头、立体摄像头、光场摄像头等。

在视频过程中，互动用户常常不注意摄像设备与自己头像的相对位置关系，造成摄像设备无法采集到互动用户的全脸，因此在客户端中所显示的互动用户的视频画面可能只有半边人脸，或者根本没有出现人脸，这会使得参与视频的其余用户无法与该互动用户进行远程面对面交流，进而影响互动用户与其与用户之间的互动效果。因此，本申请实施例提供的图像数据处理方法可以获取互动用户的视频帧图像，通过对视频帧图像进行分割、分类等操作，可以快速判断出互动用户的人脸是否在视频画面的中心位置，若互动用户的人脸没有在视频画面的中心位置，可以在客户端中显示提示信息，以提示互动用户调整自己在摄像设备前的位置和角度，使得互动用户的人脸位于视频画面的中心位置。需要说明的是，上述视频帧图像可以为互动用户对应的视频画面的一个或多个视频帧图像，如检测到连续多个视频帧图像中，互动用户的人脸均未在视频画面的中心位置，可以表明该互动用户需要调整自己与摄像设备之间的位置或角度。

应当理解，本申请实施例可以利用图像分割技术以及图像分类技术等，从互动用户的视频画面(如视频帧图像)中得到互动用户的人脸分类结果，根据人脸检测结果确定互动用户的人脸位置，以提高人脸位置的检测效率，且可以提升用户的互动交流体验。

进一步地，请参见图2，图2是本申请实施例提供的一种图像数据处理场景示意图。如图2所示的用户终端20a可以为上述图1所对应实施例的用户终端集群中的任一用户终端，本申请实施例以视频会议场景为例，对视频帧图像中的人脸位置的确定过程进行具体说明。

如图2所示，用户终端20a安装有视频会议类应用(如会议应用A)，当用户A需要与处于不同地域的用户进行面对面交流时，可以在用户终端20a的会议应用A中创建会议(创建该会议的用户A也可以称为会议创建人)，在会议创建成功后，用户A可以向其余用户发送邀请信息，以邀请其余用户加入该会议，其中，邀请信息可以包括会议时间、会议链接以及会议号等信息，其余用户可以通过用户A所发送的邀请信息加入该会议，加入该会议的所有用户均可以称为参与用户(或者互动用户)。可以理解的是，用户A可以在用户终端20a的会议应用A中创建会议，进而成为该会议中的参与用户；或者用户A可以通过邀请信息启动用户终端20a中的会议应用A加入该会议，进而成为该会议中的参与用户。

在用户A加入该会议后，可以在用户终端20a的会议应用A中显示该会议的会话页面，在会话页面中可以显示该会议的会议号、用户信息(可以包括视频画面和用户昵称等信息)以及会议应用中的功能选项(例如，语音功能选项、视频功能选项、邀请功能选项、聊天功能选项、表情功能选项以及设置功能选项等)等；用户A在申请加入会议时，用户终端20a可以开启摄像设备20b，通过摄像设备20a采集用户A的视频帧数据内容，进而用户终端20a可以对摄像设备20a所采集的视频帧图像内容进行渲染，在会话页面中绘制该用户A的视频画面，其中，用户终端20a和摄像设备20b之间可以进行通信连接。应当理解，在会话页面中可以显示该会议中所有参与用户的视频画面，每个参与用户的视频画面的尺寸可以是相同的，也可以是不同的(如该会议中正在发言的用户所对应的视频画面的尺寸可以大于其余用户所对应的视频画面的尺寸)。例如，加入该会议的参与用户为：用户A、用户B、用户C以及用户D，则在会议应用A的会话页面中可以显示用户A、用户B、用户C以及用户D分别对应的视频画面和昵称等信息，且用户A、用户B、用户C以及用户D的视频画面所显示的尺寸可以是相同的。

需要说明的是，对于该会议中每个参与用户分别对应的视频画面，每个参与用户所使用的用户终端均可以对各自视频帧图像进行图像处理，得到每个参与用户分别对应的人脸分类结果。例如，用户终端20a可以对用户A对应的视频帧图像进行图像处理，得到用户A的人脸分类结果；用户B所使用的用户终端可以对用户B对应的视频帧图像进行图像处理，得到用户B的人脸分类结果；用户C所使用的用户终端可以对用户C对应的视频帧图像进行图像处理，得到用户C的人脸分类结果；用户D所使用的用户终端可以对用户D对应的视频帧图像进行图像处理，得到用户D的人脸分类结果。其中，人脸分类结果可以包括全脸类别(full face)、半脸类别(full face)以及非人脸类别(no person)，全脸类别可以用于表示视频帧图像中包含用户的全脸，半脸类别可以用于表示视频帧图像中包含了用户的人脸，但视频帧图像中所包含的人脸仅为半张人脸，非人脸类别可以用于表示视频帧图像中未包含用户的人脸，即用户偏离了摄像设备20b的镜头，摄像设备20b没拍到用户的人脸。每个用户终端对视频帧图像的处理过程是相同的，下面以用户终端20a为例，对用户A的视频帧图像的处理过程进行具体描述。

用户终端20a可以从用户A的视频画面中获取视频帧图像20c，该视频帧图像20c的图像尺寸可以表示为w*h，其中，w可以表示为视频帧图像20c的宽度，h可以表示为视频帧图像20c的高度。用户终端20a可以获取视频帧图像20c对应的分割参数a和b，分割参数a和b可以用于确定视频帧图像20c中的目标区域20e(也可以称为中心区域)，该目标区域用于指示用户A在视频画面(即视频帧图像20c)中的有效位置，此处的分割参数a和b可以根据人为经验来设置，或者可以在会议应用A中设置不同的参数值，根据用户反馈来确定最终的分割参数a和b，本申请实施例不做具体限定。例如，当最终确定的分割参数a为0.6，分割参数b为0.8时，目标区域20e的区域尺寸可以表示为：0.6w*0.8h，目标区域20e的中心点与视频帧图像20c的中心点可以是重合的，即目标区域20e的左右两侧离视频帧图像20c的左右边缘距离是相同的，目标区域20e的上下两侧离视频帧图像20c的上下边缘距离也是相同的。

用户终端20a可以根据目标区域20e对视频帧图像20c进行分割，得到区域图像20f，即将视频帧图像20c中该目标区域20e所覆盖的像素点确定为区域图像20f。用户终端20c可以获取图像识别模型20g和分类器20i，该图像识别模型20g和分类器20i均已经基于全脸图像、半脸图像以及非人脸图像完成了训练，已经具有较好的图像识别性能。其中，该图像识别模型可以包括但不限于：深度神经网络、resnet(Residual Neural Network，一种卷积神经网络模型)，mobilenet(一种轻量级的深层神经网络)。

用户终端20a可以将区域图像20f输入图像识别模型20f中，根据该图像识别模型20g提取区域图像20f中的区域属性特征20h(该区域属性特征用于表征区域图像中所包含的区域信息)，将区域属性特征20h输入分类器20i中，通过分类器20i可以识别区域属性特征对应的人脸分类结果为：半脸类别。此时的用户终端20c可以将半脸类别确定为人脸异常检测结果，可以生成针对用户A的提示信息20j(例如，该提示信息20j为“你已偏移摄像头，请调整摄像头角度和角度”)，并在会话页面的用户A的视频画面中显示20j，以提醒用户A调整摄像头或者调整自己的位置和角度，后续用户终端20a可以实时获取用户A的视频帧图像，并对所获取到的视频帧图像进行图像分类，实时识别视频帧图像中人脸分类结果，当确定用户A的人脸偏离视频画面时，可以显示提示信息提醒用户A调整位置，使得用户A保持自己的人脸位于视频画面的目标区域。

在本实施例中，可以通过对用户A的视频帧图像进行分割，得到位于视频帧图像中心位置的目标区域，根据目标区域所对应是区域图像的人脸分类结果，可以减少计算量，进而快速判断用户A的人脸在视频帧图像中的位置。

请参见图3，图3是本申请实施例提供的一种图像数据处理方法的流程示意图。可以理解地，本申请提出的图像数据处理方案可以由计算机设备执行，该计算机设备可以为用户终端(如上述图1所对应实施例中的用户终端10a)，或者为服务器(如上述图1所对应实施例中的服务器10d)，或者为用户终端和服务器组成的系统，或者为计算机设备中的一个计算机程序应用(包括程序代码)，这里不做具体限定。如图3所示，该图像数据处理方法可以包括以下步骤S101-步骤S103：

步骤S101，获取视频帧图像，从视频帧图像中获取目标区域所覆盖的像素点，作为区域图像；目标区域用于指示人脸在视频帧图像中的有效位置，目标区域对应的区域尺寸小于视频帧图像对应的图像尺寸。

具体的，当互动用户(如上述图2所对应实施例中的用户A)需要与其余用户进行视频互动时，该互动用户可以在计算机设备的客户端中开启视频，即开启计算机设备中集成的摄像头，或者与计算机设备具有通信连接的摄像头，用于实时采集互动用户的视频数据内容，进而对摄像头实时采集到的视频数据内容进行渲染，生成互动用户对应的视频画面，并在计算机设备的客户端中显示该互动用户对应的视频画面。

互动用户在视频过程中，为了确保互动用户的人脸位于视频画面的中心区域，以增强互动用户与其余用户之间的互动交流效果，计算机设备可以实时监测互动用户的人脸在视频画面中的位置，当检测到互动用户的人脸未处于视频画面的中心区域时，可以在客户端中显示提示信息，以提醒互动用户调整摄像头位置和角度，或者调整自己的位置和角度。计算机设备在检测互动用户的人脸在视频画面中的位置时，计算机设备可以实时获取互动用户的视频帧图像，可以获取与该视频帧图像相关联的分割参数，根据分割参数与视频帧图像对应的图像尺寸确定区域尺寸，进而可以获取视频帧图像中的中心位置点的坐标信息，根据坐标信息和区域尺寸，在视频帧图像中确定目标区域(也可以称为中心区域)，根据目标区域对视频帧图像进行分割，得到包含目标区域所覆盖的像素点的区域图像。

计算机设备可以获取互动用户在视频过程中的多个视频帧图像，可以对每个视频帧图像进行分割，得到每个视频帧图像分别对应的区域图像，其中，对于每个视频帧图像的分割处理过程是相同的，下面以任一视频帧图像为例，对视频帧图像的分割处理过程进行描述。计算机设备在对视频帧图像进行分割处理之前，首先需要确定视频帧图像中需要进行分割的区域尺寸和区域位置，区域尺寸可以由视频帧图像对应的图像尺寸和分割参数所确定，区域位置可以由视频帧图像中的中心位置点所确定，根据区域尺寸和区域位置可以从视频帧图像中确定目标区域，进而可以根据目标区域对视频帧图像进行分割，得到区域图像，该区域图像可以由目标区域所覆盖的像素点构成。其中，目标区域可以用于指示视频帧图像中互动用户人脸的有效位置，即在视频过程中互动用户的人脸位于目标区域中时，表明目标用户的人脸处于视频帧图像中的有效位置，该目标区域的中心位置点与视频帧图像的中心位置点可以是重合的，目标区域的区域尺寸小于视频帧图像的图像尺寸。

需要说明的是，分割参数可以由客户端的开发技术人员根据人为经验进行设置，或者可以通过设置不同的分割参数，在线上进行灰度发布后根据用户反馈来确定最优的分割参数。其中，灰度发布是指在客户端中可以设置不同的分割参数，不同的用户可以使用不同的分割参数，通过获取用户对不同分割参数的反馈信息，并根据反馈信息中对分割参数的反对意见和认可意见来确定最优的分割参数。

例如，分割参数可以包括a和b，在客户端中可以设置4组分割参数，分别表示为(a＝0.9，b＝0.9)、(a＝0.8，b＝0.8)、(a＝0.8，b＝0.9)以及(a＝0.6，b＝0.8)，将上述4组分割参数在客户端中进行灰度发布，将客户端中的用户分为四部分，分别为第一部分用户、第二部分用户、第三部分用户以及第四部分用户，可以在第一部分用户的视频过程中使用分割参数(a＝0.9，b＝0.9)，在第二部分用户的视频过程中使用分割参数(a＝0.8，b＝0.8)，在第三部分用户的视频过程中使用分割参数(a＝0.8，b＝0.9)，在第四部分用户的视频过程中使用分割参数(a＝0.6，b＝0.8)，计算机设备可以获取用户在使用分割参数后，对分割参数的反馈信息，如用户A在视频过程中使用分割参数(a＝0.6，b＝0.8)对视频帧图像进行分割处理，进而判断用户A的人脸是否位于视频画面的中心区域，若用户A的人脸一直位于视频画面的中心区域，但是总是在客户端中显示如“调整镜头位置”之类的提示信息，则用户A针对分割参数(a＝0.6，b＝0.8)的反馈信息可以为：反对意见；计算机设备可以根据用户针对不同分割参数的反馈信息中所包含的反对意见，以及使用不同分割参数的用户人数，从上述4组分割参数中确定最优的分割参数。当上述4组分割参数对应的反馈信息中，针对分割参数(a＝0.8，b＝0.8)的反对意见相对最小时，可以将分割参数(a＝0.8，b＝0.8)作为最优的分割参数，在视频帧图像的图像尺寸为w*h，此时该视频帧图像中目标区域的区域尺寸可以表示为0.8w*0.8h。

在本申请实施例中，对视频帧图像进行分割处理所得到的区域图像的尺寸小于视频帧图像，相较于直接对视频帧图像进行图像处理，区域图像的后续图像处理过程可以降低计算复杂度，加快计算速度。

步骤S102，获取区域图像对应的区域属性特征，根据区域属性特征识别区域图像对应的人脸分类结果。

具体的，计算机设备可以获取图像识别模型，将区域图像输入至该图像识别模型，在该图像识别模型中获取区域图像对应的区域属性特征，进而可以将区域属性特征输入至第一分类器中，可以在第一分类器中识别该区域属性特征对应的人脸分类结果。其中，图像识别模型可以是指用于对区域图像进行特征提取的深度神经网络模型(包括卷积神经网络模型)，该图像识别模型是通过包含半脸的图像、包含全脸的图像以及没有人脸的图像训练得到的；该第一分类器可以用于识别区域属性特征对应的人脸分类结果，该人脸分类结果可以包括全脸类别、半脸类别以及非人脸类别，即该第一分类器可以表示为一个多分类器，用于识别上述3种人脸结果类别，该第一分类器和图像识别模型可以使用相同的图像进行训练，该第一分类器与图像识别模型可以看成是一个整体模型，可以一起进行训练。当然，上述图像识别模型和第一分类器也可以独立进行训练，本申请不做具体限定。

在图像识别模型的训练过程中，终端设备可以获取样本图像集合，该样本图像集合中可以包括属于全脸类别的样本图像、属于半脸类别的样本图像以及属于非人脸类别的样本图像；计算机设备可以对图像识别模型进行参数初始化，即初始图像识别模型，将样本图像集合中所包含的样本图像分别输入至初始图像识别模型，在初始图像识别模型中获取每个样本图像分别对应的初始图像属性特征，通过对初始图像属性特征进行识别，得到样本图像对应的预测分类结果，根据预测分类结果与样本图像的初始类别标签信息(如全脸类别对应的标签信息、半脸类别对应的标签信息以及非人脸类别对应的标签信息)之间的误差，对初始图像识别模型的模型参数进行调整，将调整参数后的初始图像识别模型确定为训练好的图像识别模型。其中，样本图像集合中所包含的每个样本图像均可以携带初始类别标签信息，可以从客户端中采集大量的视频帧图像，并对采集到的视频帧图像进行剪裁，得到固定尺寸的样本图像，进而可以为每个样本图像进行人工标注，确定每个样本图像分别对应的初始类别标签信息。例如，计算机设备从客户端中采集到的视频帧图像为视频帧1，该视频帧1中包括用户A的完整人脸，计算机设备可以对该视频帧1进行剪裁，得到包含完整人脸的剪裁图像，为该剪裁图像标注初始类别标签信息“全脸”。

计算机设备通过初始图像识别模型可以提取样本图像对应的初始图像属性特征，进而对初始图像属性特征进行识别，可以得到样本图像对应的预测分类结果，而样本图像的初始类别标签信息是已知的，即样本图像的真实类别结果是已知的，模型训练的目的在于减小真实类别结果与预测分类结果之间的差异，即让样本图像的预测分类结果无限接近真实类别结果，因此可以通过真实类别结果与预测分类结果之间的误差，不断迭代更新初始图像识别模型的模型参数，当训练迭代次数达到预设的数值，或者真实类别结果与预测分类结果之间的误差达到收敛时，可以保存此时的模型参数，此时的初始图像识别模型即为训练完成的图像识别模型。训练完成的图像识别模型可以用于对区域图像进行特征提取。同样地，基于样本图像集合中所包含的样本图像，还可以对第一分类器进行训练，训练完成的第一分类器可以用于识别区域图像对应的人脸分类结果。

当图像识别模型包括卷积层和残差层时，计算机设备将区域图像输入图像识别模型中，根据图像识别模型中的卷积层，对区域图像进行卷积运算，得到区域图像特征信息，图像识别模型可以包括一个或者多个卷积层，每个卷积层可以对应一个或多个卷积核(kernel，也可以称为滤波器，或者成为感受野)，卷积运算是指卷积核与位于区域图像不同位置的局部图像进行矩阵乘法运算，卷运算后输出后的特征矩阵(即区域图像中的特征信息)的行数H_out和列数W_out是由输入区域图像的尺寸、卷积核的尺寸、步长(stride)以及边界填充值(padding)共同决定的，即H_out＝(H_in-H_kernel+2*padding)/stride+1，W_out＝(W_in-W_kernel+2*padding)/stride+1。其中，H_in表示为输入区域图像的高度，H_kernel表示为卷积核的高度，W_in表示为输入区域图像的宽度，W_kernel表示为卷积核的宽度。通过一个或多个卷积层后，可以提取到区域图像特征信息。

进一步地，计算机设备可以根据图像识别中的N个残差层(N为正整数)，对区域图像特征信息进行残差卷积处理，得到区域图像的残差卷积特征。其中，残差卷积处理可以是指两次连续卷积运算后，激活函数的作用域是卷积运算后的输出与卷积运算前的输入之和，残差连接的计算公式为下述公式(1)：

其中，R_out是残差层的输出；x是残差层的输入；W₁和W₂分别表示第一次卷积运算中的权重和第二次卷积运算中的权重；σ表示激活函数。

基于上述公式(1)，可以得到区域图像的残差卷积特征，根据区域图像特征信息与残差卷积特征，可以生成区域图像对应的区域属性特征信息，如将区域图像特征信息与残差卷积特征进行特征融合处理，得到上述区域属性特征信息。

计算机设备可以将区域属性特征输入至第一分类器，在第一分类器中识别区域属性特征分别与至少两个人脸状态特征之间的第一匹配度，将最大的第一匹配度所属的人脸状态特征对应的类别，作为区域属性特征的人脸分类结果。例如，至少两个人脸状态特征可以包括：全脸状态特征、半脸状态特征以及非人脸状态特征，在第一分类器中计算得到区域属性特征与全脸状态特征之间的第一匹配度为a1，区域属性特征与半脸状态特征之间的第一匹配度为a2，区域属性特征与非人脸状态特征之间的第一匹配度为a3，当a1、a2以及a3中最大的数值为a1时，可以将a1所属的全脸状态特征对应的全脸类别，作为区域属性特征对应的人脸分类结果。

请一并参见图4，图4是本申请实施例提供的一种对区域图像进行分类的示意图。如图4所示，计算机设备可以将区域图像输入基干网络30a(即上述图像识别模型)中，通过基干网络30a可以从区域图像中提取区域属性特征，其中区域属性特征的具体提取过程可以参见前述描述，这里不再赘述；将区域属性特征输入分类器30b中，此时的分类器30b是指上述第一分类器，通过分类器30b可以对区域属性特征进行分类，得到区域图像的人脸分类结果。分类器30b作为一个多分类器，可以用于识别全脸类别的区域图像、半脸类别的区域图像以及非人脸类别的区域图像，其中，全脸类别和半脸类别可以统称为人脸类别，即全脸类别的区域图像和半脸类别的区域图像中均包含互动用户的人脸，只是区域图像中所显示的比例不相同。

请一并参见图5a至图5c，图5a至图5c是本申请实施例提供的一种人脸分类结果的示意图。如图5a所示，视频帧图像的图像尺寸为w*h，若分割参数为a和b，则区域图像的尺寸可以表示为(a*w)*(b*h)。当互动用户的完整人脸位于视频帧图像中的(a*w)*(b*h)区域时，此时的视频帧图像对应的人脸分类结果为全脸类别；如图5b所示，当互动用户的人脸存在部分位于视频帧图像中的(a*w)*(b*h)区域时，此时的视频帧图像对应的人脸分类结果为半脸类别；如图5c所示，当互动用户的人脸未位于视频帧图像中的(a*w)*(b*h)区域时，此时的视频帧图像对应的人脸分类结果为非人脸类别。由图5a至图5c可知，视频帧图像中的(a*w)*(b*h)区域可以表示为互动用户的人脸在视频帧图像中的有效位置，从视频帧图像中分割得到(a*w)*(b*h)区域对应的区域图像，对区域图像进行图像处理，通过分类问题的处理方式可以快速确定人脸在视频帧图像中的位置(是否处于(a*w)*(b*h)区域)，可以提高人脸位置的检测效率。

可选的，计算机设备可以构建一个双通道的分类网络对区域图像进行分类，即在通过图像识别模型提取到区域属性特征后，可以引入两个分类器，分别为第二分类器和第三分类器，该第二分类器仅用于识别非人脸类别的区域图像和人脸类别的区域图像，第三分类器仅用于识别全脸类别的区域图像和半脸类别的区域图像。计算机设备在图像识别模型中获取到区域图像对应的区域属性特征后，可以将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征的第一分类结果(包括非人脸类别和人脸类别)；与此同时，计算机设备还可以将区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征的第二分类结果(包括全脸类别和半脸类别)；根据第一分类结果和第二分类结果，可以确定区域图像对应的人脸分类结果(包括全脸类别、半脸类别以及非人脸类别)。其中，第二分类器和第三分类器均为二分类器，由于第二分类器用于识别区域图像中存在人脸或不存在人脸，第三分类器用于识别区域图像中包含全脸或包含半脸；理论上来说，当第二分类器识别得到区域图像的第一分类结果为人脸类别时，第三分类器才会输出区域图像对应的第二分类结果为全脸类别，或者第二分类结果为半脸类别；当第二分类器识别得到区域图像的第一分类结果为非人脸类别时，第三分类器输出的第二分类结果不管是什么类别，都表示区域图像中不包含人脸。

进一步地，计算机设备可以将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征与人脸属性特征(即人脸类别对应的属性特征)之间的第二匹配度，以及区域属性特征与非人脸属性特征(即非人脸类别对应的属性特征)之间的第三匹配度；当第二匹配度大于第三匹配度时，将人脸属性特征对应的人脸类别作为第一分类结果；当第二匹配度小于第三匹配度时，将非人脸属性特征对应的非人脸类别作为第一分类结果。计算机设备同时可以区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征与全脸属性特征(即全脸类别对应的属性特征)之间的第四匹配度，以及区域属性特征与半脸属性特征(即半脸类别对应的属性特征)之间的第五匹配度；当第四匹配度大于第五匹配度时，将全脸属性特征对应的全脸类别作为第二分类结果；当第四匹配度小于第五匹配度时，将半脸属性特征对应的半脸类别作为第二分类结果。

例如，在第二分类器中，获取区域属性特征与人脸属性特征之间的第二匹配度为0，区域属性特征与非人脸属性特征之间的第三匹配度为1，则可以不用管第三分类器的输出结果，可以确定区域属性特征的人脸分类结果为非人脸类别；在第二分类器中，获取区域属性特征与人脸属性特征之间的第二匹配度为1，区域属性特征与非人脸属性特征之间的第三匹配度为0，在第三分类器中，获取区域属性特征与全脸属性特征之间的第四匹配度为1，区域属性特征与半脸属性特征之间的第五匹配度为0，则可以确定区域属性特征的人脸分类结果为全脸类别。

请一并参见图6，图6是本申请实施例提供的一种对区域图像进行分类的示意图。如图6所示，计算机设备可以将区域图像输入基干网络30a(即上述图像识别模型)中，通过基干网络30a可以从区域图像中提取区域属性特征，其中区域属性特征的具体提取过程可以参见前述描述，这里不再赘述；计算机设备可以将区域属性特征输入分类器0(此时的分类器0可以是指上述第二分类器)中，通过分类器0可以对区域属性特征进行分类，得到区域图像的第一分类结果，其中，第一分类结果包括有人脸类别(即上述人脸类别)和无人脸类别(即上述非人脸类别)；与此同时，计算机设备可以将区域属性特征输入分类器1(此时的分类器1可以是指上述第三分类器)中，通过分类器1可以对区域属性特征进行分类，得到区域图像的第二分类结果，其中，第二分类结果包括全脸类别和半脸类别。计算机设备可以将第一分类结果和第二分类结果进行相乘，得到区域图像对应的人脸分类结果(包括无人脸类别、半脸类别以及全脸类别)。本申请实施例通过两个分类器对区域图像分别进行分类，将两个分类器的分类结果相乘，作为最终的人脸分类结果，可以提高区域图像中人脸位置检测的准确性。

请一并参见图7，图7是本申请实施例提供的一种视频帧图像中人脸位置检测的流程示意图。如图7所示，视频帧图像中人脸位置的检测过程可以包括：计算机设备可以从互动用户的视频画面中获取若干原始视频帧40a(此处的原始视频帧可以为上述视频帧图像)，将若干原始视频帧输入画面分割模块40b，该画面分割模块40b可以用于对原始视频帧进行画面分割，得到中心画面区域40c，此处的中心画面40c可以是指上述区域图像，具体的画面分割过程可以参见上述图3所对应实施例中的步骤S101，这里不再赘述。计算机设备可以将中心画面区域40c输入三元人脸分类模块40d中，该三元人脸分类模块40d可以包括图像识别模型和第一分类器，或者三元人脸分类模块40d可以包括图像识别模型、第二分类器以及第三分类器，该三元人脸分类模块40d用于对中心画面区域40c进行分类，得到中心画面区域40c对应的人脸分类结果，本申请实施例中的三元人脸是指该三元人脸分类模块40d可以识别三种人脸类别，分别为全脸类别、半脸类别以及无人脸类别。当三元人脸分类模块40d针对中心画面区域40c的分类结果为全脸类别时，表明互动用户的人脸在视频画面的中心区域；当三元人脸分类模块40d针对中心画面区域40c的分类结果为半脸类别时，表明互动用户的人脸不在视频画面的中心区域；当三元人脸分类模块40d针对中心画面区域40c的分类结果为非人脸类别时，表明互动用户已经完全偏离摄像头。

步骤S103，若人脸分类结果属于人脸异常检测结果，则生成针对区域图像的异常提示信息。

具体的，若人脸分类结果为半脸类别或者人脸分类结果为非人脸类别，则可以将该人脸分类结果确定为人脸异常检测结果，此时计算机设备可以生成与该人脸异常检测结果相关联的异常提示信息，在视频帧图像的展示页面中显示该异常提示信息，该异常提示信息用于提醒互动用户及时调整自己与摄像头之间的距离和角度，可以增强客户端中的视频画面展示效果。可以理解的是，对于展示页面中所显示的异常提示信息，互动用户可以对该异常提示信息执行关闭操作，以在展示页面中关闭该异常提示信息；当互动用户未对异常提示信息执行关闭操作时，计算机设备在检测到该异常提示信息的显示时长达到时长阈值(例如，3秒钟)时，在展示页面中自动关闭该异常提示信息。

可选的，在视频会议场景中，互动用户在与其余用户进行视频会议时，计算机设备可以实时检测互动用户在视频画面中的位置，当互动用户的人脸偏离摄像头，即互动用户的视频帧图像所对应的人脸分类结果为人脸异常检测结果时，可以在互动用户的视频会议应用中显示异常提示信息，计算机设备可以统计互动用户在本次会议中异常提示信息的显示次数，当显示次数达到异常显示条件(如异常提示信息的显示次数大于5次)时，可以在视频会议应用中移除该互动用户。如用户A在某次会议中显示了5次异常提示信息，表示用户A在接收到异常提示信息后，仍然未将自己调整至视频画面的中心区域，则计算机设备可以将该用户A强制移除该会议。

可选的，当显示次数达到异常显示条件时，计算机设备还可以在目标时间范围内(如5分钟)暂时停止检测该互动用户在视频画面中的位置，并生成针对该互动用户的暂停提示信息(如“您已偏移镜头很久了，调整一下位置吧(5分钟之内不再提醒)”)，在视频会议中可以显示上述暂停提示信息。

可选的，在线上考试场景中，若用户的人脸分类结果属于人脸异常检测结果，则生成针对区域图像的异常提示信息，在答题页面中显示该异常提示信息，以提醒该用户调整自己与摄像头之间的位置。当计算机设备统计得到该用户在线上考试中显示异常提示信息的次数达到异常显示条件(如常提示信息的显示次数大于5次)时，表示该用户在一段时间内一直偏离镜头，及该用户的人脸位置未处于视频画面的中心区域，可以判定该用户可能存在作弊行为，进而可以禁止该用户参与后续线上考试，或者强制该用户提交答卷并退出该次线上考试。

请一并参见图8，图8是本申请实施例提供的一种异常提示信息的显示界面图。如图8所示，以视频会议场景为例，在用户终端50a(即上述计算机设备)的视频会议应用中可以显示会议号为7234567的会议展示页面50b，参与该会议的用户包括用户A、用户B以及用户C，因此在会议展示页面50b中可以显示用户A的视频画面50c、用户B的视频画面50d以及用户C的视频画面50e，其中，用户终端50a为用户A所使用的终端设备。

在用户A参与视频会议的过程中，用户终端50a可以实时获取视频画面50c中的视频帧图像，通过对视频帧图像进行分割，可以得到该视频帧图像中的区域图像(也可以称为中心画面区域)，进而可以对区域图像进行分类，得到该区域图像对应的人脸分类结果，当用户A的视频帧图像所对应的人脸分类结果为半脸类别时，可以确定用户A的人脸未处于视频画面50c的中心区域，因此可以生成针对用户A的异常提示信息50f(如“您已偏离镜头，请调整与摄像头的距离和角度”)，并在会议展示页面50b中显示该异常提示信息50f，以提醒用户A调整摄像头，使自己的人脸处于视频画面50c的中心区域。用户A可以点击异常提示信息50f中的“确定”控件，或者点击异常提示信息50f中的关闭控件，以在会议展示页面50b中关闭该异常提示信息50f，并及时调整自己与镜头之间的距离和角度。

在会议展示页面50b中每显示一次异常提示信息50f，用户终端50a可以对用户A在本次会议中的异常信息显示次数加1，当针对用户A的异常提示信息50f的显示次数过多时，表明用户A在本次会议中总是偏移摄像头，或者一直处于偏移镜头的状态(即该用户A在接收到异常提示信息后仍然未调整自己与摄像头之间的位置和角度)，此时的用户终端50a可以在目标时间范围内(例如5分钟)暂时停止对用户A的视频帧图像进行人脸位置判定，并生成针对该用户A的暂停提示信息50g：您已偏移镜头很久了，调整一下位置吧(5分钟之内不再提醒)，即在未来5分钟内，用户终端50a均不会对该用户A的视频帧图像进行人脸位置判定。

本申请实施例中，可以通过获取视频帧图像，从视频帧图像中获取目标区域所覆盖的像素点，作为区域图像，其中，该目标区域用于指示人脸在视频帧图像中的有效位置，该目标区域对应的区域尺寸小于视频帧图像对应的图像尺寸，进而获取区域图像对应的区域属性特征，根据该区域属性特征识别区域图像对应的人脸分类结果，若人脸分类结果属于人脸异常检测结果，则可以生成针对区域图像的异常提示信息。可见，从视频帧图像中确定用于指示人脸有效位置的目标区域，根据目标区域从视频帧图像中分割出区域图像，通过对区域图像进行三元人脸分类，得到区域图像的人脸分类结果，无需对区域图像进行人脸检测，仅通过图像分类即可确定用户人脸在视频帧图像中的位置，进而可以提高人脸位置的检测效率。

请参见图9，图9是本申请实施例提供的一种图像数据处理装置的结构示意图。如图9所示，该图像数据处理装置1可以包括：获取模块11，识别模块12，信息生成模块13；

获取模块11，用于获取视频帧图像，从视频帧图像中获取目标区域所覆盖的像素点，作为区域图像；目标区域用于指示人脸在视频帧图像中的有效位置，目标区域对应的区域尺寸小于视频帧图像对应的图像尺寸；

识别模块12，用于获取区域图像对应的区域属性特征，根据区域属性特征识别区域图像对应的人脸分类结果；

信息生成模块13，用于若人脸分类结果属于人脸异常检测结果，则生成针对区域图像的异常提示信息。

其中，获取模块11，识别模块12，信息生成模块13的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103，这里不再进行赘述。

请一并参见图9，获取模块11可以包括：参数获取单元111，区域确定单元112，分割单元113；

参数获取单元111，用于获取与视频帧图像相关联的分割参数，根据分割参数与视频帧图像的图像尺寸确定区域尺寸；

区域确定单元112，用于获取视频帧图像中的中心位置点的坐标信息，根据坐标信息和区域尺寸，在视频帧图像中确定目标区域；

分割单元113，用于根据目标区域对视频帧图像进行分割，得到包含目标区域所覆盖的像素点的区域图像。

其中，参数获取单元111，区域确定单元112，分割单元113的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101，这里不再进行赘述。

请一并参见图9，识别模块12可以包括：特征提取单元121，第一分类单元122；

特征提取单元121，用于将区域图像输入至图像识别模型，在图像识别模型中获取区域图像对应的区域属性特征；

第一分类单元122，用于将区域属性特征输入至第一分类器，在第一分类器中识别区域属性特征的人脸分类结果。

其中，特征提取单元121，第一分类单元122的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

请一并参见图9，特征提取单元121可以包括：卷积子单元1211，残差子单元1212，特征生成子单元1213；

卷积子单元1211，用于将区域图像输入至图像识别模型，根据图像识别模型中的卷积层，对区域图像进行卷积，得到区域图像特征信息；

残差子单元1212，用于根据图像识别模型中的N个残差层，对区域图像特征信息进行残差卷积处理，得到区域图像的残差卷积特征；

特征生成子单元1213，用于根据区域图像特征信息和区域图像残差信息，生成区域图像对应的区域属性特征。

其中，卷积子单元1211，残差子单元1212，特征生成子单元1213的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

请一并参见图9，第一分类单元122可以包括：第一匹配子单元1221，结果确定子单元1222；

第一匹配子单元1221，用于将区域属性特征输入至第一分类器，在第一分类器中识别区域属性特征分别与至少两个人脸状态特征之间的第一匹配度；

结果确定子单元1222，用于将最大的第一匹配度所属的人脸状态特征对应的类别，作为区域属性特征的人脸分类结果。

其中，第一匹配子单元1221，结果确定子单元1222的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

请一并参见图9，识别模块12可以包括：特征提取单元121，第二分类单元123，第三分类单元124，分类结果确定单元125；

第二分类单元123，用于将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征的第一分类结果；

第三分类单元124，用于将区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征的第二分类结果；

分类结果确定单元125，用于根据第一分类结果和第二分类结果，确定区域图像对应的人脸分类结果。

其中，特征提取单元121，第二分类单元123，第三分类单元124，分类结果确定单元125的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。其中，当第一分类单元122在执行相应操作时，第二分类单元123，第三分类单元124，分类结果确定单元125均暂停执行操作；当第二分类单元123，第三分类单元124，分类结果确定单元125在执行相应操作时，第一分类单元122暂停执行操作。

请一并参见图9，第二分类单元123可以包括：第二匹配子单元1231，第一比较子单元1232；

第二匹配子单元1231，用于将区域属性特征输入至第二分类器，在第二分类器中识别区域属性特征与人脸属性特征之间的第二匹配度，以及区域属性特征与非人脸属性特征之间的第三匹配度；

第一比较子单元1232，用于当第二匹配度大于第三匹配度时，将人脸属性特征对应的人脸类别作为第一分类结果；

上述第一比较子单元1232，还用于当第二匹配度小于第三匹配度时，将非人脸属性特征对应的非人脸类别作为第一分类结果。

其中，第二匹配子单元1231，第一比较子单元1232的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

请一并参见图9，第三分类单元124可以包括：第三匹配子单元1241，第二比较子单元1242；

第三匹配子单元1241，用于将区域属性特征输入至第三分类器，在第三分类器中识别区域属性特征与全脸属性特征之间的第四匹配度，以及区域属性特征与半脸属性特征之间的第五匹配度；

第二比较子单元1242，用于当第四匹配度大于第五匹配度时，将全脸属性特征对应的全脸类别作为第二分类结果；

上述第二比较子单元1242，还用于当第四匹配度小于第五匹配度时，将半脸属性特征对应的半脸类别作为第二分类结果。

其中，第三匹配子单元1241，第二比较子单元1242的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

请一并参见图9，信息生成模块13可以包括：异常结果确定单元131，提示信息显示单元132；

异常结果确定单元131，用于若人脸分类结果为半脸类别或者非人脸类别，则将人脸分类结果确定为人脸异常检测结果；

提示信息显示单元132，用于生成与人脸异常检测结果相关联的异常提示信息，在视频帧图像的展示页面中显示异常提示信息。

其中，异常结果确定单元131，提示信息显示单元132的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103，这里不再进行赘述。

请一并参见图9，该图像数据处理装置1还可以包括：统计模块14，用户移除模块15；

统计模块14，用于统计视频会议应用中与互动用户相关联的异常提示信息的显示次数；

用户移除模块15，用于当显示次数达到异常显示条件时，在视频会议应用中移除互动用户。

其中，统计模块14，用户移除模块15的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103，这里不再进行赘述。

请一并参见图9，该图像数据处理装置1还可以包括：样本获取模块16，样本识别模块17，样本预测模块18，参数调整模块19；

样本获取模块16，用于获取样本图像集合；样本图像集合包括属于全脸类别的样本图像、属于半脸类别的样本图像以及属于非人脸类别的样本图像；

样本识别模块17，用于将样本图像集合中所包含的样本图像输入至初始图像识别模型，在初始图像识别模型中获取样本图像对应的初始图像属性特征；

样本预测模块18，用于根据初始图像属性特征识别样本图像对应的预测分类结果，获取样本图像的初始类别标签信息；

参数调整模块19，用于根据预测分类结果与初始类别标签之间的误差，对初始图像识别模型的模型参数进行调整，将调整参数后的初始图像识别模型确定为图像识别模型。

其中，样本获取模块16，样本识别模块17，样本预测模块18，参数调整模块19的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

请参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。可选的，网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对图像数据处理方法的描述，也可执行前文图9所对应实施例中对图像数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的图像数据处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3所对应实施例中对图像数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3所对应实施例中对图像数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储存储器(Read-Only Memory，ROM)或随机存储存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像数据处理方法，其特征在于，包括：

获取视频帧图像，获取与所述视频帧图像相关联的分割参数，根据所述分割参数与所述视频帧图像的图像尺寸确定区域尺寸；

获取所述视频帧图像中的中心位置点的坐标信息，根据所述坐标信息和所述区域尺寸，在所述视频帧图像中确定目标区域；所述目标区域用于指示人脸在所述视频帧图像中的有效位置，所述目标区域对应的区域尺寸小于所述视频帧图像对应的图像尺寸；

根据所述目标区域对所述视频帧图像进行分割，得到包含所述目标区域所覆盖的像素点的区域图像；

获取所述区域图像对应的区域属性特征，根据所述区域属性特征识别所述区域图像对应的人脸分类结果；

若所述人脸分类结果属于人脸异常检测结果，则生成针对所述区域图像的异常提示信息；所述人脸异常检测结果包括半脸类别和非人脸类别。

2.根据权利要求1所述的方法，其特征在于，所述获取所述区域图像中的区域属性特征，根据所述区域属性特征确定所述区域图像对应的人脸分类结果，包括：

将所述区域图像输入至图像识别模型，在所述图像识别模型中获取所述区域图像对应的区域属性特征；

将所述区域属性特征输入至第一分类器，在所述第一分类器中识别所述区域属性特征的人脸分类结果。

3.根据权利要求2所述的方法，其特征在于，所述将所述区域图像输入至图像识别模型，在所述图像识别模型中获取所述区域图像对应的区域属性特征，包括：

将所述区域图像输入至所述图像识别模型，根据所述图像识别模型中的卷积层，对所述区域图像进行卷积，得到区域图像特征信息；

根据所述图像识别模型中的N个残差层，对所述区域图像特征信息进行残差卷积处理，得到所述区域图像的残差卷积特征；

根据所述区域图像特征信息和所述区域图像残差信息，生成所述区域图像对应的区域属性特征。

4.根据权利要求2所述的方法，其特征在于，所述将所述区域属性特征输入至第一分类器，在所述第一分类器中识别所述区域属性特征的人脸分类结果，包括：

将所述区域属性特征输入至所述第一分类器，在所述第一分类器中识别所述区域属性特征分别与至少两个人脸状态特征之间的第一匹配度；

将最大的第一匹配度所属的人脸状态特征对应的类别，作为所述区域属性特征的人脸分类结果。

5.根据权利要求1所述的方法，其特征在于，所述获取所述区域图像中的区域属性特征，根据所述区域属性特征确定所述区域图像对应的人脸分类结果，包括：

将所述区域属性特征输入至第二分类器，在所述第二分类器中识别所述区域属性特征的第一分类结果；

将所述区域属性特征输入至第三分类器，在所述第三分类器中识别所述区域属性特征的第二分类结果；

根据所述第一分类结果和所述第二分类结果，确定所述区域图像对应的人脸分类结果。

6.根据权利要求5所述的方法，其特征在于，所述将所述区域属性特征输入至第二分类器，在所述第二分类器中识别所述区域属性特征的第一分类结果，包括：

将所述区域属性特征输入至所述第二分类器，在所述第二分类器中识别所述区域属性特征与人脸属性特征之间的第二匹配度，以及所述区域属性特征与非人脸属性特征之间的第三匹配度；

当所述第二匹配度大于所述第三匹配度时，将所述人脸属性特征对应的人脸类别作为所述第一分类结果；

当所述第二匹配度小于所述第三匹配度时，将所述非人脸属性特征对应的非人脸类别作为所述第一分类结果。

7.根据权利要求5所述的方法，其特征在于，所述将所述区域属性特征输入所述第三分类器，在所述第三分类器中识别所述区域属性特征的第二分类结果，包括：

将所述区域属性特征输入至所述第三分类器，在所述第三分类器中识别所述区域属性特征与全脸属性特征之间的第四匹配度，以及所述区域属性特征与半脸属性特征之间的第五匹配度；

当所述第四匹配度大于所述第五匹配度时，将所述全脸属性特征对应的全脸类别作为所述第二分类结果；

当所述第四匹配度小于所述第五匹配度时，将所述半脸属性特征对应的半脸类别作为所述第二分类结果。

8.根据权利要求1所述的方法，其特征在于，所述若所述人脸分类结果属于人脸异常检测结果，则生成针对所述区域图像的异常提示信息，包括：

若所述人脸分类结果为半脸类别或者非人脸类别，则将所述人脸分类结果确定为所述人脸异常检测结果；

生成与所述人脸异常检测结果相关联的异常提示信息，在所述视频帧图像的展示页面中显示所述异常提示信息。

9.根据权利要求1所述的方法，其特征在于，还包括：

当所述显示次数达到异常显示条件时，在所述视频会议应用中移除所述互动用户。

10.根据权利要求2或5任一项所述的方法，其特征在于，还包括：

获取样本图像集合；所述样本图像集合包括属于全脸类别的样本图像、属于半脸类别的样本图像以及属于非人脸类别的样本图像；

将所述样本图像集合中所包含的样本图像输入至初始图像识别模型，在所述初始图像识别模型中获取所述样本图像对应的初始图像属性特征；

根据所述初始图像属性特征识别所述样本图像对应的预测分类结果，获取所述样本图像的初始类别标签信息；

根据所述预测分类结果与所述初始类别标签之间的误差，对所述初始图像识别模型的模型参数进行调整，将调整参数后的初始图像识别模型确定为所述图像识别模型。

11.一种图像数据处理装置，其特征在于，包括：

获取模块，用于获取视频帧图像，获取与所述视频帧图像相关联的分割参数，根据所述分割参数与所述视频帧图像的图像尺寸确定区域尺寸；

所述获取模块，还用于获取所述视频帧图像中的中心位置点的坐标信息，根据所述坐标信息和所述区域尺寸，在所述视频帧图像中确定目标区域；所述目标区域用于指示人脸在所述视频帧图像中的有效位置，所述目标区域对应的区域尺寸小于所述视频帧图像对应的图像尺寸；

所述获取模块，还用于根据所述目标区域对所述视频帧图像进行分割，得到包含所述目标区域所覆盖的像素点的区域图像；

识别模块，用于获取所述区域图像对应的区域属性特征，根据所述区域属性特征识别所述区域图像对应的人脸分类结果；

信息生成模块，用于若所述人脸分类结果属于人脸异常检测结果，则生成针对所述区域图像的异常提示信息；所述人脸异常检测结果包括半脸类别和非人脸类别。

12.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，所述处理器执行权利要求1至10中任一项所述方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1至10中任一项所述方法的步骤。