CN111970471A

CN111970471A - 基于视频会议的参会人员评分方法、装置、设备及介质

Info

Publication number: CN111970471A
Application number: CN202010614930.1A
Authority: CN
Inventors: 吕亚亚; 李云鹏; 谢文龙; 杨春晖
Original assignee: Visionvera Information Technology Co Ltd
Current assignee: Visionvera Information Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-11-20
Anticipated expiration: 2040-06-30
Also published as: CN111970471B

Abstract

本发明实施例提供了一种基于视频会议的参会人员评分方法、装置、电子设备及存储介质，应用于视联网云端分析平台，所述方法包括：从当前视频会议的音视频流中截取待识别的视频数据，所述待识别视频数据为对多个参会人员进行拍摄得到的数据；对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

Description

基于视频会议的参会人员评分方法、装置、设备及介质

技术领域

本发明涉及信息处理技术领域，特别是涉及一种基于视频会议的参会人员评分方法、装置、设备及介质。

背景技术

视联网采用全球最先进的VisionVera实时高清视频交换技术，实现了目前互联网无法实现的全网高清视频实时传输，将高清视频会议、视频监控、远程培训、智能化监控分析、应急指挥、视频电话、现场直播、电视邮件、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台，通过多种终端设备实现高清品质视频通信实时互联互通。

相关技术中，利用视联网进行视频会议的用户越来越多，且许多视频会议是众多人员参与的视频会议。而随着对人员参与视频会议的要求愈来愈高，需要拓展视频会议的一些附属功能，但是，目前的视频会议仅用于音视频的直播，不能满足用户对视频会议的多样化功能需求。

发明内容

鉴于上述问题，提出了本发明实施例提供一种基于视频会议的参会人员评分方法、装置、电子设备及存储介质，以便克服上述问题或者至少部分地解决上述问题的。

本发明实施例的第一方面，公开了一种基于视频会议的参会人员评分方法，应用于视联网云端分析平台，所述方法包括：

从当前视频会议的音视频流中截取待识别的视频数据，所述待识别视频数据为对多个参会人员进行拍摄得到的数据；

对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；

根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

本发明实施例的第二方面，提供一种基于视频会议的参会人员评分方法，应用于视联网视频会议控制平台，包括：

从当前视频会议的音视频流中截取的待识别的视频数据；

将所述待识别的视频数据发送给视联网云端分析平台，以使所述视联网云端分析平台对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；并根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分；

接收所述视联网云端分析平台返回的所述多个参会人员各自对应的评分，并显示所述多个参会人员各自对应的评分。

本发明实施例的第三方面，提供一种基于视频会议的参会人员评分装置，应用于视联网云端分析平台，所述装置包括：

视频获得模块，用于从当前视频会议的音视频流中截取待识别的视频数据，所述待识别视频数据为对多个参会人员进行拍摄得到的数据；

识别模块，用于对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；

评分模块，用于根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

本发明实施例的第四方面，提供一种基于视频会议的参会人员评分装置，应用于视联网视频会议控制平台，包括：

视频截取模块，用于从当前视频会议的音视频流中截取的待识别的视频数据；

视频发送模块，用于将所述待识别的视频数据发送给视联网云端分析平台，以使所述视联网云端分析平台对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；并根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分；

评分接收模块，用于接收所述视联网云端分析平台返回的所述多个参会人员各自对应的评分，并显示所述多个参会人员各自对应的评分。

本发明实施例还公开了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行如本发明实施例第一方面或第二方面所述的基于视频会议的参会人员评分方法。

本发明实施例还公开了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例第一方面或第二方面所述的基于视频会议的参会人员评分方法。

本发明实施例包括以下优点：

本实施例中，可以从当前视频会议的音视频流中截取待识别的视频数据，并对待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对待识别视频数据进行行为动作识别，得到多个参会人员各自的行为动作所属的动作类别；进而根据多个参会人员各自的人脸表情所属的表情类别、多个参会人员各自的行为动作所属的动作类别、与不同的表情类别对应的权重以及与不同的动作类别对应的权重，确定出多个参会人员各自对应的评分。这样，便实现了在视联网视频会议中，可以对参会人员参与会议的专注程度和认真程度进行识别，进而得到每个参会人员参与会议的评分，从而实现了对参会人员参与会议的情况的量化，以方便管理人员对参会人员参与会议情况进行监督，从而在直播基础上进一步拓宽了视频会议的附属功能，满足了用户对视频会议的多样化功能需求。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的通信环境图；

图2是本发明实施例的一种基于视频会议的参会人员评分方法的步骤流程图；

图3是本发明实施例的得到人脸表情识别模型的步骤流程图；

图4是本发明实施例的得到行为动作识别模型的步骤流程图；

图5本发明实施例的又一种基于视频会议的参会人员评分方法的步骤流程图；

图6本发明实施例的一种基于视频会议的参会人员评分装置的结构示意图；

图7本发明实施例的又一种基于视频会议的参会人员评分装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在视联网通信领域中，视频会议得到大规模的应用，但是在视频会议领域还只是处于原始的音视频直播。而实际中，对视频会议的功能需求不仅限于直播，也产生了其他附属性的功能需求，例如，需要对视频会议的参会人员进行人数统计、对视频会议进行监督、进行会议资料的发放等。

实际中，用户需要对参会人员参与视频会议的情况进行监督评分。相关技术中，一般由工作人员对参与视频会议的人员进行人工统计、例如签到等，并对现场参会人员的参会情况进行人工监督，从而根据签到情况和监督情况对参会人员进行评分。但是，此种方式会耗费大量的人力资源和消耗较长的工作时间。因此，需要视频会议在具有直播功能的基础上，也能自主实现对参与视频会议的参会人员进行评分的功能。

有鉴于此，提出了本发明的核心构思之一：将人工智能融合到视频会议中，以拓展视频会议的辅助功能。具体地，对视频会议的直播视频数据进行人脸表情识别和行为动作识别，以得到参会人员的人脸表情所属的表情类别和行为动作所属的动作类别，并根据不同的表情类别对应的权重以及与不同的动作类别对应的权重，确定参会人员各自对应的评分。从而通过智能识别实现了对参会人员参与会议情况的量化，自主实现会议的监控，不仅拓展了视频会议的功能，也降低了人力成本。

参照图1和图2所示，图1示出了本发明实施例的通信环境图，图2示出了本发明实施例的一种基于视频会议的参会人员评分方法的步骤流程图。

如图1所示，包括了视联网服务器101、视联网云端分析平台102以及视联网视频会议控制平台103以及视频采集设备104。其中，视频采集设备104可以是摄像头，在一个视频会议会场中可以部署一个视频采集设备。视频采集设备104用于采集会场中的音视频数据，由于会场中一般有多个参会人员，因此，视频采集设备104采集的音视频数据即为多个参会人员的音视频数据。其中，视联网云端分析平台和视频会议控制平台之间可以通过视联网协议进行通信。

实际中，视频采集设备104可以将采集的音视频数据按照视联网通信协议发送给视联网服务器101，当然，也可以将采集的音视频数据先按照互联网通信协议发送给一个通信协转设备，再由通信协转设备按照视联网协议发送给视联网服务器101。视联网服务器101进而将该视频会议的音视频数据发送给视频会议控制平台103和视联网云端分析平台102。

其中，视频会议控制平台103用于播放该视频会议的音视频数据，而视联网云端分析平台102则用于对该视频会议的音视频数据进行智能分析，从而实现对参会人员的评分。

如图2所示，示出了由视联网云端分析平台执行一种基于视频会议的参会人员评分方法的步骤流程图，具体可以包括以下步骤：

步骤S201：从当前视频会议的音视频流中截取待识别的视频数据，所述待识别视频数据为对多个参会人员进行拍摄得到的数据。

本实施例中，视联网云端分析平台102可以接收由视联网服务器101从当前视频会议的音视频流中截取的待识别的视频数据，也可以接收由视频采集设备104从当前采集的音视频流中截取待识别的视频数据。其中，当前视频会议的音视频流由视频采集设备104所采集，该音视频流数据可以是对一个会场进行拍摄所得到的视频，进而该视频数据中包括在该会场中参加会议的所有参会人员的人脸图像、肢体图像等，当然该视频数据中还可以包括会场的环境图像。

本实施例中，截取的待识别的视频数据可以是具有预设时长的视频数据，例如，截取一段长达1分钟或5分钟的视频数据。

步骤S202：对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别。

本实施例中，截取的视频数据可以指一段视频流，该视频数据中可以包括多帧视频图像，每帧视频图像中都可以包括所有参会人员的人脸图像、肢体图像。在一种具体实现中，可以从视频数据中每间隔预设的帧数便提取一帧视频图像，进而对提取到的多帧视频图像分别进行人脸识别、人脸表情识别和行为动作识别，得到每个人脸图像对应的参会人员、参会人员的人脸表情类别以及参会人员的肢体动作类别。

其中，在视频会议开始之前，可以通过摄像头录入参会人员的人脸图像，将每个参会人员的人脸图像和该参会人员的身份进行对应，进而保存人脸图像和对应的身份信息，作为参会人员的人脸底库。将该人脸底库中的人脸图像与视频图像中的各个人脸图像进行匹配，从而得到视频图像中各个人脸对应的参会人员，以及该参会人员的人脸表情的表情类别和行为动作所属的类别。

本实施例中，人脸表情所属的类别可以理解为是参会人员在参与视频会议中的表情类别，可以反映参会人员参与会议的专注程度。表情所属的类别可以预先定义，例如，可以是分为专注类别和非专注类别，在人脸表情是哈哈大笑、闭眼昏睡等表情时，归类到非专注类别，其余表情则被归类于专注类别。行为动作所属的类别可以理解为是参与人员在参与视频会议过程中的肢体动作，可以反映参会人员参与会议的纪律遵守程度。该动作类别可以被预先定义，例如，可以分为交头接耳、埋头记笔记、低头瞌睡等类别。

步骤S203：根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同的表情类别对应的权重以及与不同的动作类别对应的权重，确定所述多个参会人员各自对应的评分。

本实施例中，可以为不同的表情类别设置不同的权重，以及为不同的动作类别设置不同的权重，在得到一个参会人员的人脸表情所属的表情类别和该参会人员的动作类别时，按照对应的权重，可以得到评分。

示例地，以参会人员王某为例，识别到该王某的人脸表情所属的类别是“闭眼昏睡”属于非专注类表情；动作类别是“低头瞌睡”，其中，“闭眼昏睡”对应的权重是-5，“低头瞌睡”对应的权重是-5，则王某的最终评分是-10，即负10分。

当然，在一种具体实现中，在从视频数据中每间隔预设的帧数便提取一帧视频图像时，截取的一段视频数据中便提取了多帧图像，实际中，对于该段截取的视频数据，可以对提取的多帧视频图像分别进行人脸表情识别和行为动作识别，从而得到多帧视频图像中每帧视频图像下的各参会人员的评分，进而对各参会人员的评分进行统计，从而得到该段截取的视频数据对应的参会人员的评分。

当然，在整个视频会议的进行过程中，可以多次截取视频数据，以对多次截取的视频数据进行分析，从而可以得到多次截取视频数据下对应的参会人员的评分，从而实现对参会人员参与视频会议的全程监控。

采用本实施例的技术方案，由于可以从当前视频会议的音视频流中截取待识别的视频数据，并对待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对待识别视频数据进行行为动作识别，得到多个参会人员各自的行为动作所属的动作类别；进而根据多个参会人员各自的人脸表情所属的表情类别、多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定出多个参会人员各自对应的评分。这样，便实现了在视联网视频会议中，可以对参会人员的参与会议的专注程度进行识别，进而得到每个参会人员参与会议的评分，从而实现了对参会人员参与会议的情况进行量化，以方便管理用户对参会人员参与会议情况的监督，从而在直播基础上进一步拓宽了视频会议的附属功能。

在本申请的又一实施例中，提供了一种基于视频会议的参会人员评分方法的步骤流程图，具体可以包括以下步骤：

步骤S201'：从当前视频会议的音视频流中截取待识别的视频数据，所述待识别视频数据为对多个参会人员进行拍摄得到的数据。

本步骤S201'的过程与步骤S201的过程类似，相关之处参见步骤S201的描述即可，在此不再赘述。

步骤S202'：对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别.

在本实施例中，多个参会人员各自的人脸表情所属的表情类别可以通过可以通过以下步骤获得：

步骤S2021：将所述待识别视频数据输入到人脸表情识别模型，所述人脸表情识别模型用于对所述待识别视频数据进行特征提取，得到多个人脸面部特征，并基于所述多个人脸面部特征对多个参会人员的人脸表情所属的类别进行识别。

本实施例中，可以将待识别视频数据中提取的视频图像输入到人脸表情识别模型，该人脸表情识别模型可以对视频图像中的人脸图像进行特征提取，从而得到视频图像中包括的每个人脸图像的人脸面部特征，然后对提取的人脸面部特征进行表情识别，得到每个人脸图像的人脸表情所属的类别。

在一种实施方式中，该人脸表情识别模型在识别出每个人脸图像的人脸表情所属的类别时，也可以对每个人脸图像在视频图像中的位置进行预测，由于在一个会场中，参会人员的位置是固定的，得到了人脸图像的位置也即可以确定该位置处的参会人员，进而，得到了相应的参会人员的人脸表情所属的类别。

步骤S2022：获得由所述人脸表情识别模型输出与所述多个参会人员各自对应的表情类别。

所述人脸表情识别模型是以携带人脸表情标签的多个人脸图像样本为训练样本，对预设第一模型进行训练得到的；其中，所述人脸表情标签用于表征该人脸图像样本中人脸表情所属的类别。

本实施例中，人脸表情识别模型输出的是多个人脸图像各自对应的表情类别，在一种实施方式中，也可以输出每个人脸图像在视频图像中的位置，从而得到相应位置的人脸图像对应的参会人员，从而得到多个参会人员的人脸表情所属的类别。

本实施例中，人脸表情识别模型可以预先训练得到，具体而言，训练得到该人脸表情识别模型的训练样本可以是携带人脸表情标签的多个人脸图像样本，其中，人脸表情标签于表征该人脸图像样本中人脸表情所属的类别，即，在一个人脸图像样本中，可以为该人脸图像的表情所属的类别标注上标签，在训练过程中，可以根据该标签确定预设第一模型的损失，进而根据损失对预设第一模型进行更新，从而得到人脸表情识别模型。

在本实施例中，多个参会人员各自的行为动作所属的类别可以通过以下步骤获得：

步骤S2023：将所述待识别视频数据输入到行为动作识别模型，所述行为动作识别模型用于对所述待识别视频数据进行特征提取，得到多个行为动作特征，并基于所述多个行为动作特征对多个参会人员的行为动作所属的类别进行识别。

本实施例中，可以将待识别视频数据中提取的视频图像输入到行为动作识别模型，该行为动作识别模型可以对视频图像中的人体图像进行特征提取，从而得到视频图像中包括的每个人体图像的行为动作特征，该行为动作特征可以理解为是人体的肢体动作特征，然后对提取的行为动作特征进行行为动作识别，得到每个人体图像的行为动作所属的类别。

在一种实施方式中，该行为动作识别模型在识别出每个人体图像的行为动作所属的类别时，也可以对每个人体图像在视频图像中的位置进行预测，由于在一个会场中，参会人员的位置是固定的，得到人体图像的位置也即可以确定该位置处的参会人员，进而，得到了相应的参会人员的行为动作所属的类别。

步骤S2024：获得由所述行为动作识别模型输出的与所述多个参会人员各自对应的动作类别。

所述行为动作识别模型是以携带动作标签的多个人体图像样本为训练样本，对预设第二模型进行训练得到的；其中，所述动作标签用于表征该人体图像样本中人的肢体动作所属的类别。

本实施例中，行为动作识别模型输出的是多个人体图像各自对应的动作类别，在一种实施方式中，也可以输出每个人体图像在视频图像中的位置，从而得到相应位置的人体图像对应的参会人员，从而得到多个参会人员的行为动作所属的类别。

本实施例中，行为动作识别模型可以预先训练得到，具体而言，训练得到该行为动作识别模型的训练样本可以是携带动作标签的多个人脸图像样本，其中，动作标签于表征该人体图像样本中人的肢体动作所属的类别，该人的肢体动作即为行为动作。即，在一个人体图像样本中，可以为该人体图像的行为动作所属的类别标注上标签，在训练过程中，可以根据该标签确定预设第二模型的损失，进而根据损失对预设第二模型进行更新，从而得到行为动作识别模型。

步骤S203'：根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

其中，本步骤S203'的过程，与上述步骤S203的过程类似，相关之处参见步骤S203的描述即可，在此不再赘述。

下面，对本实施例中如何得到人脸表情识别模型和行为动作识别模型的过程进行详细阐述。

参照图3所示，示出了本申请实施例中得到人脸表情识别模型的步骤流程图，具体可以包括以下步骤

步骤S301：以所述携带人脸表情标签的多个人脸图像样本为训练样本，分别对多个预设第一模型进行训练。

其中，不同的预设第一模型具有不同的模型参数。

本实施例中，可以预先构建多个预设第一模型，不同的预设第一模型具有不同的模型参数，在实际中，该不同的模型参数可以理解为是对应不同的聚类算法。例如，预先构建了三个预设第一模型，该三个预设第一模型的模型参数分别对应K均值算法、DBSCAN(Density-Based Spatial Clustering of Applications with Noise，密度聚类)算法、BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies，层次聚类)算法。即不同的预设第一模型采用不同的聚类算法对人脸图像的表情所属的类别进行聚类。

进而，可以采用同样的多个人脸图像样本对多个预设第一模型进行分别训练，即采用同一训练样本对不同的预设第一模型进行训练。

步骤S302：将训练完成后的多个预设第一模型确定为多个候选第一模型。

步骤S303：以携带人脸表情标签的多个人脸图像为测试样本，分别对所述多个候选第一模型进行测试，得到所述多个候选第一模型各自输出的测试分值。

本实施例中，可以将训练完成后的多个预设第一模型确定为候选第一模型，即，在采用同一训练样本对不同预设第一模型进行训练后，分别得到了多个候选第一模型，该候选第一模型可以用于对人脸图像的表情进行聚类。但是，由于不同的候选第一模型所采用的聚类算法不同，因此，不同的候选第一模型对人脸图像的表情进行聚类的精度有所不同。此种情况下，可以利用同一测试样本分别对多个候选第一模型进行测试，即，通过测试样本测试多个候选第一模型的识别精度，从而筛选出识别精度最高的候选第一模型作为后续的人脸表情识别模型。

具体实施时，在利用测试样本对多个候选第一模型进行测试时，多个候选第一模型各自可以输出测试分值，该测试分值可以理解为是候选第一模型输出的人脸表情的类别的识别结果与携带的人脸表情标签之间的匹配度。测试分值越高，其匹配度越高，从而是识别越准确。反之，识别较不准确。

步骤S304：根据所述多个候选第一模型各自输出的测试分值，从所述多个候选第一模型中确定用于进行人脸表情识别的人脸表情识别模型。

本实施例中，可以将测试分值超过预设测试分值的候选第一模型确定为用于进行人脸表情识别的人脸表情识别模型。当然，也可以将测试分值最高的候选第一模型确定为人脸表情识别模型。

参照图4所示，示出了本申请实施例中得到行为动作识别模型的步骤流程图，具体可以包括以下步骤

步骤S401：以携带动作标签的多个人体图像样本为训练样本，分别对多个预设第二模型进行训练。

其中，不同的预设第二模型具有不同的模型参数。

本实施例中，可以预先构建多个预设第二模型，不同的预设第二模型具有不同的模型参数，在实际中，该不同的模型参数可以理解为是对应不同的聚类算法。例如，预先构建了三个预设第二模型，该三个预设第二模型的模型参数分别对应K均值算法、DBSCAN(Density-Based Spatial Clustering ofApplications with Noise，密度聚类)算法、BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies，层次聚类)算法。即不同的预设第二模型采用不同的聚类算法对人体图像的行为动作所属的类别进行聚类。

进而，可以采用同样的多个人体图像样本对多个预设第二模型进行分别训练，即采用同一训练样本对不同的预设第二模型进行训练。

步骤S402：将训练完成后的多个预设第二模型确定为多个候选第二模型。

步骤S403：以携带动作标签的多个人体图像为测试样本，分别对所述多个候选第二模型进行测试，得到所述多个候选第二模型输出的测试分值。

本实施例中，可以将训练完成后的多个预设第二模型确定为候选第二模型，即，在采用同一训练样本对不同预设第二模型进行训练后，分别得到了多个候选第二模型，该候选第二模型可以用于对人体图像的行为动作进行聚类。但是，由于不同的候选第二模型所采用的聚类算法不同，因此，不同的候选第二模型对人体图像的行为动作进行聚类的精度有所不同。此种情况下，可以利用同一测试样本分别对多个候选第二模型进行测试，即，通过测试样本测试多个候选第二模型的识别精度，从而筛选出识别精度最高的候选第二模型作为后续的人脸表情识别模型。

具体实施时，在利用测试样本对多个候选第二模型进行测试时，多个候选第二模型各自可以输出测试分值，该测试分值可以理解为是候选第二模型输出的行为动作的类别的识别结果与携带的动作标签之间的匹配度。测试分值越高，其匹配度越高，从而是识别越准确。反之，识别较不准确。

步骤S404：根据所述多个候选第二模型各自输出的测试分值，从所述多个候选第二模型中确定用于进行行为动作识别的行为动作识别模型。

本实施例中，可以将测试分值超过预设测试分值的候选第二模型确定为行为动作识别模型。当然，也可以将测试分值最高的候选第二模型确定为行为动作识别模型。

采用上述实施方式时，由于在训练得到人脸表情识别模型和行为动作识别模型时，是基于同一训练样本对采用不同聚类算法的模型进行训练，再通过测试样本对训练得到的多个候选模型进行筛选，从而使得最终得到的人脸表情识别模型和行为动作识别模型均是识别精度较高的模型，由此，可以提高对人脸表情识别和行为动作识别的识别准确度，进而提高对参会人员进行评分的准确度。

相应地，在本实施例中，视联网云端分析平台还可以将多个参会人员各自对应的评分发送给视联网视频会议控制平台，以使得视联网视频会议控制平台可以展示各个参会人员的评分。进一步地，可以包括以下步骤：

步骤S204'：将所述多个参会人员各自的评分分别发送给所述多个参会人员各自登录的用户终端。

本实施例中，在得到各个参会人员各自的评分后，可以将每个参会人员的评分发送给该参会人员所登录的用户终端，该用户终端可以是视联网终端或者手机或者平板电脑等，以方便参会人员随时可以查看自己的评分，以调整自己的参会姿态。

其中，发给参会人员的评分可以包括人脸表情维度的分数和行为动作维度的分数。当参会人员收到评分时，发现评分与自身的参与情况不符合，例如，发现评分过低，而自身全程很认真参与会议中，则可以进行申诉。申诉反馈到主会人员，主会人员可以回看视频进行人工确认，如果确认是视联网云端分析平台对识别有误时，则利用回看的视频作为训练样本，对人脸表情识别模型和/或行为动作识别模型进行再次训练，即，对人脸表情识别模型和/或行为动作识别模型进行更新，从而进一步提高对人脸表情识别模型和/或行为动作识别模型进行识别的准确度。

则在本实施例中，在步骤S204之后，还可以包括以下步骤：

步骤S205'：响应于参会人员对所述评分进行的申诉请求，从所述当前视频会议的音视频流中截取与所述申述请求对应的多帧视频图像。

本实施例中，该截取的多帧视频图像可以是针对申诉请求所截取的，其中，申诉请求中可以包括当次评分所针对的视频数据的时间段，例如，当次评分是基于视频数据A得出的，则对申诉请求中可以包括视频数据A的时间段。进而，可以从当前视频会议的音视频流中截取该时间段捏的多帧视频图像。

步骤S206'：对所述多帧视频图像所包括的每个人脸图像的人脸表情所属的类别进行标注，和/或，对所述多帧视频图像所包括的人体图像的行为动作所属的类别进行标注。

本实施例中，申述请求中可以包括对人脸表情进行申诉的标识、对行为动作进行申诉的标识。其中，对人脸表情进行申诉的标识可以表征是对人脸表情的评分有异议，需要对人脸表情的识别精度提高，对行为动作进行申诉的标识可以表征对行为动作的评分有异议，需要对行为动作的识别精度提高。

本实施例中，可以根据申诉的标识，对多帧视频图像进行标注。其中，在申述请求中包括对人脸表情进行申诉的标识时，可以对截取的每帧视频图像所包括的每个人脸图像的人脸表情所属的类别进行重新标注；在申述请求中包括对行为动作进行申诉的标识时，可以对截取的每帧视频图像所包括的每个人体图像的行为动作所属的类别进行重新标注。

本实施例中，对人脸表情所属的类别进行重新标注可以理解为是重新确定识别出错的视频图像中人脸表情的类别。例如，对于一个英雄事迹传达类的视频会议，该人脸表情实际是“流眼泪”，该流眼泪的结果实质上是基于视频会议的主题而产生的，则流眼泪实质是“表情专注”的类别，而却被误判为表情不专注的类别，因此，可以对该表情的类别标签标注为“表情专注”的类别。从而，可以实现对一些特定类型的视频会议进行人脸表情识别、行为动作识别的微调，以使得智能识别更加契合视频会议的主题，减小识别误差，提高识别准确度。

步骤S207'：以标注人脸表情所属的类别后的多帧视频图像为训练样本，对所述人脸表情识别模型进行训练，得到训练后的人脸表情识别模型；和/或，以标注行为动作所属的类别后的多帧视频图像为训练样本，对所述行为动作识别模型进行训练，得到训练后的行为动作识别模型。

在实际中，可以将重新标注人脸表情后的多帧视频图像作为训练样本，对人脸表情识别模型进行训练，和/或，以将重新标注行为动作后的多帧视频图像为训练样本，对所述行为动作识别模型进行训练。

这样，便可以针对一个特定类型的视频会议，重新得到针对该特定类型视频会议的行为动作识别模型和人脸表情识别模型，从而可以针对性地提高在一个视频会议中的人脸表情识别精度和行为动作识别精度。

采用本申请实施例的技术方案，具有以下优点：

第一，由于可以利用人脸表情识别模型对人脸表情的类别进行识别，以及，可以利用行为动作识别模型对行为动作的类别进行识别，因此，实现了人脸表情和行为动作识别的智能性，使得人工智能与视频会议相结合，以对参会人员的会议参与情况进行量化，从而提高了识别效率。

第二，由于在对参会人员进行评分过程中，参会人员可以进行申诉，根据申诉可以对人脸表情识别模型和行为动作识别模型进行训练更新，从而提高了两个识别模型与视频会议的类型之间的匹配度，以对两种识别模型进行微调，从而提高了两种识别模型的识别准确度。

实际中，在视频会议中，也可以结合其他维度对参会人员的会议参与情况进行评分，例如，可以结合参会人员是否中途离开会场、是否积极参与视频会议的发言以及会议纪律遵守情况等进行评分。

其中，在本申请的又一实施例中提出了一种基于视频会议的参会人员评分方法，在该实施例中，不仅可以从表情类别和行为动作的维度对参会人员进行评分，也可以从参会人员在视频会议中的发言、干扰、离席等维度对参会人员进行评分。具体可以包括以下步骤：

步骤S201”：从当前视频会议的音视频流中截取待识别的视频数据，所述待识别视频数据为对多个参会人员进行拍摄得到的数据。

本步骤S201”的过程与步骤S201的过程类似，相关之处参见步骤S201的描述即可，在此不再赘述。

步骤S202”：对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别。

其中，步骤S202”的过程可以参照上述步骤S202'的过程即可，在此不再赘述。

步骤S203”：根据预设表情评分、所述多个参会人员各自的人脸表情所属的表情类别和与不同表情类别对应的权重，确定所述多个参会人员各自对应的第一维度评分。

本实施例中，在根据多个参会人员各自的人脸表情所属的表情类别以及行为动作所属的类别，对参会人员进行评分时，可以是在基础评分之上对参会人员进行评分。具体地，可以预先设置一个预设表情评分，在该预设表情评分的基础上，根据多个参会人员各自的人脸表情所属的表情类别和与不同表情类别对应的权重，计算多个参会人员各自对应的第一维度评分。

具体实施时，对于每个参会人员，该参会人员的第一维度评分可以是预设表情评分与该参会人员的人脸表情所属的表情类别对应的权重之和。

假设，预设表情评分是20分，参会人员王某的人脸表情类别是“专注”类别，对应的权重是5，则王某的第一维度评分为25分。

步骤S204”：根据预设行为评分、所述多个参会人员各自的行为动作所属的动作类别和与不同动作类别对应的权重，确定所述多个参会人员各自对应的第二维度评分。

本实施例中，在根据多个参会人员各自的行为动作所属的类别对参会人员进行评分时，可以在预设行为评分的基础上，根据多个参会人员各自的行为动作所属的类别和与不同动作类别对应的权重，计算多个参会人员各自对应的第二维度评分。

具体实施时，对于每个参会人员，该参会人员的第二维度评分可以是预设行为评分与该参会人员的行为动作所属的表情类别对应的权重之和。

假设，预设行为评分是20分，参会人员王某的行为动作类别是“交头接耳”类别(表示未认真听取视频会议)，对应的权重是-5，则王某的第一维度评分为15分。

步骤S205”：将所述多个参会人员各自对应的第一维度评分和第二维度评分之和，确定为所述多个参会人员各自对应的评分。

本实施例中，各个参会人员的评分可以是第一维度评分和第二维度评分之和。

由于本实施例中还可以从参会人员在视频会议中的发言、干扰、离席等维度对参会人员进行评分，下面，分别对该三个维度(发言、干扰会议、离席)的评分进行分别阐述：

其中，对离席维度的评分可以如下步骤所述：

步骤SA1：对所述待识别视频数据进行人脸识别，得到所述待识别视频数据所对应的时段中未离席的多个参会人员的身份信息。

本实施例中，由于视频数据是对会场进行拍摄的视频数据，即是对会场中参与视频会议的参会人员进行拍摄得到的视频数据，如果有参会人员离开会场，则视频数据中不会包含离开会场的参会人员的图像。这样，可以对视频数据进行人脸识别，得到的便是未离开会场的参与人员的身份信息。该未离开会场的参会人员即为未离席的多个参会人员。

可以理解，未离席的多个参会人员的数量小于参与视频会议的全体参会人员的总数量。

步骤SA2：基于预存的与所述多个参会人员各自对应的身份信息和所述未离席的多个参会人员的身份信息，确定在所述待识别视频数据所对应的时段中离席的参会人员的身份信息。

本实施例中，预存的与多个参会人员各自对应的身份信息可以是指需要参与视频会议的全体参会人员的身份信息，该全体参会人员的身份信息一般可以在视频会议开始前进行采集，例如，通过摄像头记录每个需要参会的参会人员的人脸图像和对应的身份。这样，在得到未离席的多个参会人员的身份信息，便可以与全体参会人员的身份信息进行比对，从而得到离开会场的参会人员的身份信息，该离开会场的参会人员的身份信息即为离席的参会人员的身份信息。

步骤SA3：根据在预设时间段内确定出的离席的参会人员的身份信息，统计所述多个参会人员各自的离席次数。

在一种实施方式中，由于截取的视频数据可以是视频会议中一个指定时长的视频数据，这样，可以在视频会议的过程中，每隔一段时间就截取一段视频数据，从而得到每段视频数据中的离席的参会人员的身份信息。

在又一种实施方式中，由于截取的视频数据可以是视频会议中一个指定时长的视频数据，则可以每隔预设时长从视频数据中提取一帧视频图像，通过对该帧视频图像进行识别，得到提取的每帧视频图像对应的离席的参会人员的身份信息。

在本实施例中，可以统计预设时间内的离席的参会人员的身份信息，该预设时间段可以大于截取视频数据的间隔时间，或者，大于提取视频图像的时间间隔。这样，根据统计出的离席的参会人员的身份信息，便可以确定每个参会人员对应的离席次数。

例如，每隔5分钟截取一段时长为10秒的视频数据为例，假设预设时间段为10分钟，截取了两段视频数据A和B，对该视频数据A中的一帧视频图像进行识别，得到离席的参会人员的身份信息为李某和赵某，对该视频数据B中的一帧视频图像进行识别，得到离席的参会人员的身份信息为李某和王某，则在全体参会人员中，李某的离席次数为2次，赵某的离席次数为1次，王某的离席次数为1次，其余参会人员的离席次数为0。

则相应地，在确定参会人员的评分时，可以根据所述多个参会人员各自的离席次数和预设离席权重，确定所述多个参会人员各自对应的第三维度评分；进而，再根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第三维度评分，确定所述多个参会人员各自对应的评分。

本实施例中，一个参会人员的第三维度评分可以是该参会人员的离席次数和预设离席权重的乘积，例如，参会人员李某的离席次数为2次，预设离席权重是-5，则李某的第三维度评分是负10分。

可以理解的是，在实际中也设置预设离席评分，则第三维度评分可以在预设离席评分的基础上减小。这样，一个参会人员的第三维度评分可以是该预设离席评分减去参会人员的离席次数和预设离席权重的乘积之后的值。

当然，在此种情况下，可以为第三维度评分设置下限分值，例如，设置为0分，即一个参会人的第三维度评分小于0分时，便保持0分而不再减小，即实际中的对预设离席评分扣完为止。

其中，对发言维度的评分可以如下步骤所述：

步骤SB1：接收视频会议控制平台发送的所述多个参会人员在所述当前视频会议中各自对应的发言次数。

本实施例中，视频会议控制平台可以记录每个参会人员在视频会议中的发言次数，该参会人员的发言次数可以由人工在视频会议控制平台进行录入。其中，该参会人员的发言次数可以是指截取视频数据所对应的时长内的发言次数，该时长可以是指截取完上一视频数据开始至截取完下一视频数据之间的时长。

具体实现时，视频会议控制平台可以将每个参会人员的发言次数和每次发言的时间均发送给视联网云端分析平台，视联网云端分析平台可以根据每个参会人员的发言时间，确定在当前视频数据对应的时长内该参会人员的发言次数。进而根据在该时长内该参会人员的发言次数计算第四维度评分。

相应地，在确定参会人员的评分时，可以根据所述多个参会人员各自对应的发言次数和预设发言权重，确定所述多个参会人员各自对应的第四维度评分；进而，根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第四维度评分，确定所述多个参会人员各自对应的评分。

其中，一个参会人员的第四维度评分可以是发言次数和预设发言权重的乘积，一个参会人员各自对应的评分可以是第一维度评分、第二维度评分和所述第四维度评分之和。

其中，对离席维度的评分可以如下步骤所述：

步骤SC1：接收视频会议控制平台发送的干扰所述当前视频会议的参会人员的标识，并根据所述干扰所述当前视频会议的参会人员的标识，确定所述多个参会人员各自对应的干扰次数。

本实施例中，视频会议控制平台可以记录在视频会议中干扰视频会议的参会人员的标识以及干扰的时间，该干扰视频会议的参会人员的标识可以由人工在视频会议控制平台进行录入。

具体实现时，视频会议控制平台可以将每个干扰当前视频会议的参会人员的标识和干扰时间均发送给视联网云端分析平台，视联网云端分析平台可以根据参会人员的标识对应的干扰时间，确定在当前视频数据对应的时长内该参会人员的干扰次数，其中，该时长可以是指截取完上一视频数据开始至截取完下一视频数据之间的时长。

则相应地，在确定参会人员的评分时，可以根据所述多个参会人员各自对应的干扰次数和预设干扰权重，确定所述多个参会人员各自对应的第五维度评分；进而，再根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第五维度评分，确定所述多个参会人员各自对应的评分。

本实施例中，视联网云端分析平台可以根据在该时长内该参会人员的干扰次数计算第五维度评分，具体而言，一个参会人员的第五维度评分可以是该参会人员在时长内的干扰次数和预设干扰权重的乘积。当然，在实际中也设置预设干扰评分，则第五维度评分可以在预设干扰评分的基础上减小。这样，一个参会人员的第五维度评分可以是该预设干扰评分减去参会人员的干扰次数和预设干扰权重的乘积之后的值。

示例地，假设每隔5分钟截取一段时长为1分钟的视频数据、预设干扰评分为20分，干扰权重为-5，假设参会人员李某在6分钟内的干扰次数为1，则第五维度评分为15分。

当然，在实际中，也可以为第五维度评分设置下限分值，小于该下限分值，便保持该下限分值不变，例如，下限分值设置为0分，经计算当一个参会人员的第五维度评分小于0分时，则保持0分不变，即扣分到0分后为止。

实际中，视频会议控制平台发送干扰会议的参会人员的标识可以通过以下步骤触发：

步骤S001：从当前视频会议的音视频流中截取待识别音频数据。

本实施例中，在截取视频数据的同时，可以从当前视频会议的音视频流中截取待识别音频数据，该音频数据主要用于后续识别当前视频会议中是否存在干扰噪音，本实施例中，该干扰噪音可以是手机铃声、打接电话声音等不遵守会议纪律所产生的噪音。

步骤S002：对所述待识别音频数据进行识别，以确定所述待识别音频数据中是否包括噪音。

本实施例中，对待识别音频数据进行识别主要是确定待识别音频数据中是否包括噪音。其中，在对待识别音频数据进行识别时，可以将所述待识别音频数据输入到噪音识别模型，所述噪音识别模型用于将所述音频数据与预设音频数据进行匹配；进而，根据所述噪音识别模型输出的匹配结果，确定所述待识别音频数据中是否包括噪音。

本实施例中，噪音识别模型中的预设音频数据可以是指未包含噪音的音频数据，当待识别音频数据与预设音频数据不匹配时，表示待识别音频数据中包括噪音，此种情况下，可以进一步判断待识别音频数据中的噪音的类型。

具体实施时，可以从待识别音频数据中提取出噪音数据，具体可以利用噪声滤波的方式提取出噪音数据。并对提取出的噪音数据输入到预设噪音识别模型中，该预设噪音识别模型可以对噪音数据进行聚类分析，从而得到噪音的类型。

需要说明的是，该预设噪音识别模型也是以携带噪音类型标签的多个噪音数据样本为训练样本，对预设模型进行训练得到的。通过该预设噪音识别模型可以提高噪音数据的类型的识别准确度和效率。

步骤S003：在所述待识别数据包括噪音时，向所述视频会议控制平台发出噪音告警信息，以供所述视频会议控制平台确定与噪音关联的参会人员的标识，与所述噪音关联的参会人员的标识即为干扰所述当前视频会议的参会

相应地，在得到待识别音频数据中的噪音的类型时，可以在该噪音的类型为预设类型时，向所述视频会议控制平台发出噪音告警信息，以供视频会议控制平台确定与噪音关联的参会人员的标识和干扰时间，与所述噪音关联的参会人员的标识即为干扰所述当前视频会议的参会。

在从上述五个维度(表情、行为动作、发言次数、干扰会议、离席)对参会人员进行评分时，可以将上述第一维度评分、第二维度评分、第三维度评分、第四维度评分以及第五维度评分之和作为参会人员的评分。

采用本实施例的技术方案时，具有以下优点：

第一，实现了在视联网视频会议中，可以对参会人员的参与会议的专注程度进行识别，进而得到每个参会人员参与会议的评分，从而实现了对参会人员参与会议的情况进行量化，以方便管理用户对参会人员参与会议情况的监督，从而在直播基础上进一步拓宽了视频会议的附属功能。

第二，由于可以从上述五个维度(表情、行为动作、发言次数、干扰会议、离席)对参会人员进行评分，从而可以实现对参会人员的参会情况的多维度评分量化，使得评分更为细致和全面。

基于相同的发明构思，在一种实施例中提出了又一种基于视频会议的参会人员评分方法，参照图5所示，该方法可以由视联网视频会议控制平台执行，具体可以包括以下步骤：

步骤S501：从当前视频会议的音视频流中截取的待识别的视频数据。

本实施例中，视频会议控制平台103可以接受视频采集设备104发送的当前视频会议的视频流，进而由视频会议控制平台103从当前视频会议的视频流截取视频数据。

步骤S502：将所述待识别的视频数据发送给视联网云端分析平台，以使所述视联网云端分析平台对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；并根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

本实施例中，视频会议控制平台103可以将截取的视频数据经由视联网服务器101发送给视联网云端分析平台102。其中，视联网云端分析平台102根据视频数据对参会人员进行评分的过程可以参见上述步骤S202至步骤S203所述的过程即可，在此不再赘述。

步骤S503：接收所述视联网云端分析平台返回的所述多个参会人员各自对应的评分，并显示所述多个参会人员各自对应的评分。

本实施例中，视频会议控制平台103可以接收并显示多个多个参会人员各自对应的评分，其中，评分中可以包括第一维度评分和第二维度评分，则在显示时，可以显示一个评分中的第一维度评分和第二维度评分。

在一种实施例中，视频会议控制平台还可以在参会人员的评分小于预设评分时，在视频会议的视频画面中对相应的参会人员进行标注，以提醒主会人员需要留意该参会人员。则相应地，在步骤S503之后，还可以包括以下步骤：

步骤S504：从所述多个参会人员中，确定对应的评分小于预设评分阈值的目标参会人员。

本实施例中，预设评分阈值可以根据实际设置的评分规则进行预先设置，例如设置为60分。则可以在众多的参会人员中确定评分低于60分的目标参会人员。

步骤S505：对播放当前视频会议的视频画面进行人脸识别，得到所述目标参会人员的人脸图像在所述视频画面中的显示位置。

本实施例中，视频会议控制平台可以对视频采集设备发送过来的视频画面进行人脸识别，从而得到目标参会人员的人脸图像在所述视频画面中的显示位置。

具体地，可以截取当前播放的视频画面，将该视频画面输入到预先训练好的人脸识别模型中，通过人脸识别模型，可以得到视频画面中每个人脸图像对应的身份信息，以及每个人脸图像在视频画面中的位置。这样，便可以将目标参会人员的身份信息与每个人脸图像对应的身份信息进行比对，从而得到目标参会人员的人脸图像在视频画面中的位置。

步骤S506：对所述视频画面中的所述显示位置进行标注，所述标注至少包括所述目标参会人员的身份信息。

本实施例中，由于在视频会议中，一个参会人员的参会位置一般固定不变，这样，一个参会人员的人脸图像视频画面上的位置也是相对不变的，即，一个参会人员的人脸图像分别在视频流中的两帧视频图像中的位置基本不变，因此，确定了目标参会人员在在视频画面中的显示位置后，该目标参会人员的人脸图像基本保持显示位置不变。

这样，便可以在视频播界面中对所述视频画面中的所述显示位置进行标注，所述标注至少包括所述目标参会人员的身份信息，即在播放视频流的播放界面中，对显示位置进行标注。具体实施时，可以通过添加浮层的形式对显示位置进行标注，例如，在显示位置上添加红框，以框住显示位置，并标注上该目标参会人员的身份信息，其身份信息可以是目标参会人员的姓名或参会编号。

在本实施例中，视联网视频会议控制平台可以记录每个参会人员的发言次数，进而方便视联网云端分析平台可以再从发言维度统计每个参会人员的评分。

具体地，视联网视频会议控制平台还可以执行以下步骤：

步骤S504'：响应于所述当前视频会议中触发的发言请求，确定与所述发言请求对应的参会人员，并对与所述发言请求对应的参会人员添加发言标记。

本实施例中，在视频会议中主会人提出问题时，控会人员可以点击提问，当有参会人员回答问题时，视频会议控制平台会接收到发言请求，该发言请求中可以携带参会人员的标识，从而视频会议控制平台可以记录该参会人员的标识和发言时间，并为参会人员添加发言标记。

步骤S505'：统计所述多个参会人员各自的发言标记的数量，所述发言标记的数量即为发言次数。

在本实施例中，可以在截取完上一视频数据至截取完当前视频视频的时长内，统计在该时长内多个参会人员各自的发言次数，具体实施时，可以是根据参会人员的发言时间，统计在该时长内参会人员添加的发言标记的数量，从而得到参会人员的发言次数。

步骤S506'：将所述多个参会人员各自的发言次数发送给所述视联网云端分析平台，以使所述视联网云端分析平台根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、所述多个参会人员各自对应的发言次数、预设发言权重、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

本实施例中，视频会议控制平台可以将多个参会人员各自的发言次数发送给所述视联网云端分析平台，其中，视联网云端分析平台确定此种情况下的参会人员的评分的过程可以参见上述步骤SB1的过程，在此不再赘述。

在本实施例中，视联网视频会议控制平台还可以向视联网云端分析平台发送干扰会议的参会人员的标识，进而方便视联网云端分析平台可以再从干扰会议维度统计每个参会人员的评分。

具体地，视联网视频会议控制平台还可以执行以下步骤：

步骤S507：接收所述视联网云端分析平台发送的噪音告警信息。

其中，视联网云端分析平台发送噪音告警信息的过程可以参照上述步骤S001至步骤S003的过程。

步骤S508：响应于针对所述噪音告警信息进行的干扰确认指令，确定干扰所述当前视频会议的参会人员的标识。

本实施例中，视频会议控制平台可以显示噪音告警信息，这样，主会人员便可以根据显示的噪音告警信息，人工确认发出噪音的参会人员，进而在视频会议控制平台中确定该发出噪音的参会人员，从而产生干扰确认指令，视频会议控制平台则可以响应于该干扰确认指令，记录干扰当前视频会议的参会人员的标识。当然，实际中，视频会议控制平台还可以针对干扰确认指令记录干扰时间。

步骤S509：将所述干扰所述当前视频会议的参会人员的标识发送给所述视联网云端分析平台，以使所述视联网云端分析平台确定所述多个参会人员各自对应的干扰次数，并根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、所述多个参会人员各自对应的干扰次数、预设干扰权重、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

本实施例中，视频会议控制平台可以将干扰所述当前视频会议的参会人员的标识发送给视联网云端分析平台，视联网云端分析平台便可以根据干扰所述当前视频会议的参会人员的标识和记录的干扰时间，确定多个参会人员各自对应的干扰次数。具体的，视联网云端分析平台根据干扰次数计算参会人员的第五维度评分以及确定各参会人员的评分的过程可以参见上述步骤SC1的过程即可，在此不再赘述。

采用本申请实施例时，具有以下优点：

第一，视频会议控制平台可以从当前视频会议的视频流中截取视频数据，以供视联网云端分析平台对视频数据进行人脸表情识别和行为动作识别，从而根据人脸表情识别和行为动作识别的识别结果，对参会人员进行量化评分，进而将各参会人员的评分进行显示，从而实现在视频会议中对参会人员的参会情况进行自动量化，拓展了视联网中视频会议的功能。

第二，视频会议控制平台在当前视频会议中，可以在播放视频会议的视频画面中，对评分较低的参会人员进行标注，从而方便主会人员对评分较低的参会人员进行重点监控，进一步优化了视联网中视频会议的功能。

第三，视频会议控制平台也可以从参会人员在视频会议中的发言维度、干扰视频会议的维度对参会人员进行评分，从而实现了多维度对参会人员进行评分，提高了评分维度的全面性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参考图6，示出了一种基于视频会议的参会人员评分装置的结构框图，所述装置应用于视联网云端分析平台，具体可以包括以下模块：

视频获得模块601，用于从当前视频会议的音视频流中截取待识别的视频数据，所述待识别视频数据为对多个参会人员进行拍摄得到的数据；

识别模块602，用于对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；

评分模块603，用于根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

可选地，所述识别模块602，具体可以包括以下单元：

第一输入单元，用于将所述待识别视频数据输入到人脸表情识别模型，所述人脸表情识别模型用于对所述待识别视频数据进行特征提取，得到多个人脸面部特征，并基于所述多个人脸面部特征对多个参会人员的人脸表情所属的类别进行识别；

第一获得单元，用于获得由所述人脸表情识别模型输出与所述多个参会人员各自对应的表情类别，所述人脸表情识别模型是以携带人脸表情标签的多个人脸图像样本为训练样本，对预设第一模型进行训练得到的；其中，所述人脸表情标签用于表征该人脸图像样本中人脸表情所属的类别。

可选地，所述识别模块602，具体可以包括以下单元：

第二输入单元，用于将所述待识别视频数据输入到行为动作识别模型，所述行为动作识别模型用于对所述待识别视频数据进行特征提取，得到多个行为动作特征，并基于所述多个行为动作特征对多个参会人员的行为动作所属的类别进行识别；

第二获得单元，用于获得由所述行为动作识别模型输出的与所述多个参会人员各自对应的动作类别，所述行为动作识别模型是以携带动作标签的多个人体图像样本为训练样本，对预设第二模型进行训练得到的；其中，所述动作标签用于表征该人体图像样本中人的肢体动作所属的类别。

可选地，所述人脸表情识别模型通过以下步骤获得；

以所述携带人脸表情标签的多个人脸图像样本为训练样本，分别对多个预设第一模型进行训练；其中，不同的预设第一模型具有不同的模型参数；

将训练完成后的多个预设第一模型确定为多个候选第一模型；

以携带人脸表情标签的多个人脸图像为测试样本，分别对所述多个候选第一模型进行测试，得到所述多个候选第一模型各自输出的测试分值；

根据所述多个候选第一模型各自输出的测试分值，从所述多个候选第一模型中确定用于进行人脸表情识别的人脸表情识别模型。

可选地，所述行为动作识别模型通过以下步骤得到：

以携带动作标签的多个人体图像样本为训练样本，分别对多个预设第二模型进行训练；其中，不同的预设第二模型具有不同的模型参数；

将训练完成后的多个预设第二模型确定为多个候选第二模型；

以携带动作标签的多个人体图像为测试样本，分别对所述多个候选第二模型进行测试，得到所述多个候选第二模型输出的测试分值；

根据所述多个候选第二模型各自输出的测试分值，从所述多个候选第二模型中确定用于进行行为动作识别的行为动作识别模型。

可选地，所述装置还可以包括以下模块：

视频截取模块，用于响应于参会人员对所述评分进行的申诉请求，从所述当前视频会议的音视频流中截取与所述申述请求对应的多帧视频图像；

标注模块，用于对所述多帧视频图像所包括的每个人脸图像的人脸表情所属的类别进行标注，和/或，对所述多帧视频图像所包括的人体图像的行为动作所属的类别进行标注；

训练模块，用于以标注人脸表情所属的类别后的多帧视频图像为训练样本，对所述人脸表情识别模型进行训练，得到训练后的人脸表情识别模型；和/或，以标注行为动作所属的类别后的多帧视频图像为训练样本，对所述行为动作识别模型进行训练，得到训练后的行为动作识别模型。

可选地，所述评分模块，具体可以包括以下单元：

第一评分单元，用于根据预设表情评分、所述多个参会人员各自的人脸表情所属的表情类别和与不同表情类别对应的权重，确定所述多个参会人员各自对应的第一维度评分；

第二评分单元，用于根据预设行为评分、所述多个参会人员各自的行为动作所属的动作类别和与不同动作类别对应的权重，确定所述多个参会人员各自对应的第二维度评分；

总评分单元，用于将所述多个参会人员各自对应的第一维度评分和第二维度评分之和，确定为所述多个参会人员各自对应的评分。

可选地，所述装置还可以包括以下模块；

第一身份信息识别模块，用于对所述待识别视频数据进行人脸识别，得到所述待识别视频数据所对应的时段中未离席的多个参会人员的身份信息；

第二身份信息确定模块，用于基于预存的与所述多个参会人员各自对应的身份信息和所述未离席的多个参会人员的身份信息，确定在所述待识别视频数据所对应的时段中离席的参会人员的身份信息；

离席次数统计模块，用于根据在预设时间段内确定出的离席的参会人员的身份信息，统计所述多个参会人员各自的离席次数；

所述总评分单元，具体包括以下子单元：

第一评分子单元，用于根据所述多个参会人员各自的离席次数和预设离席权重，确定所述多个参会人员各自对应的第三维度评分；

第二评分子单元，用于根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第三维度评分，确定所述多个参会人员各自对应的评分。

可选地，所述装置还包括以下模块：

发言次数统计模块，用于接收视频会议控制平台发送的所述多个参会人员在所述当前视频会议中各自对应的发言次数；

所述总评分单元，具体包括以下子单元：

第三评分子单元，用于根据所述多个参会人员各自对应的发言次数和预设发言权重，确定所述多个参会人员各自对应的第四维度评分；

第四评分子单元，用于根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第四维度评分，确定所述多个参会人员各自对应的评分。

可选地，所述装置还包括以下模块：

干扰次数统计模块，用于接收视频会议控制平台发送的干扰所述当前视频会议的参会人员的标识，并根据所述干扰所述当前视频会议的参会人员的标识，确定所述多个参会人员各自对应的干扰次数；

所述总评分单元，具体包括以下子单元：

第五评分子单元，用于根据所述多个参会人员各自对应的干扰次数和预设干扰权重，确定所述多个参会人员各自对应的第五维度评分；

第六评分子单元，用于根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第五维度评分，确定所述多个参会人员各自对应的评分。

可选地，所述装置还包括以下模块：

音频数据截取模块，用于从当前视频会议的音视频流中截取待识别音频数据；

噪音识别模块，用于对所述待识别音频数据进行识别，以确定所述待识别音频数据中是否包括噪音；

告警信息发送模块，用于在所述待识别数据包括噪音时，向所述视频会议控制平台发出噪音告警信息，以供所述视频会议控制平台确定与噪音关联的参会人员的标识，与所述噪音关联的参会人员的标识即为干扰所述当前视频会议的参会人员的标识。

可选地，所述噪音识别模块，具体可以包括以下单元：

匹配单元，用于将所述待识别音频数据输入到噪音识别模型，所述噪音识别模型用于将所述音频数据与预设音频数据进行匹配；

确定单元，用于根据所述噪音识别模型输出的匹配结果，确定所述待识别音频数据中是否包括噪音。

参考图7，示出了又一种基于视频会议的参会人员评分装置的结构框图，所述装置应用于视联网视频会议控制平台，具体可以包括以下模块：

视频数据截取模块701，用于从当前视频会议的音视频流中截取的待识别的视频数据；

视频数据发送模块702，用于将所述待识别的视频数据发送给视联网云端分析平台，以使所述视联网云端分析平台对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；并根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分；

评分接收模块703，用于接收所述视联网云端分析平台返回的所述多个参会人员各自对应的评分，并显示所述多个参会人员各自对应的评分。

可选地，所述装置还可以包括以下模块：

参会人员确定模块，用于从所述多个参会人员中，确定对应的评分小于预设评分阈值的目标参会人员；

识别模块，用于对播放当前视频会议的视频画面进行人脸识别，得到所述目标参会人员的人脸图像在所述视频画面中的显示位置；

标注模块，用于对所述视频画面中的所述显示位置进行标注，所述标注至少包括所述目标参会人员的身份信息。

可选地，所述装置还可以包括以下模块：

标记模块，用于响应于所述当前视频会议中触发的发言请求，确定与所述发言请求对应的参会人员，并对与所述发言请求对应的参会人员添加发言标记；

发言次数统计模块，用于统计所述多个参会人员各自的发言标记的数量，所述发言标记的数量即为发言次数；

发言次数发送模块，用于将所述多个参会人员各自的发言次数发送给所述视联网云端分析平台，以使所述视联网云端分析平台根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、所述多个参会人员各自对应的发言次数、预设发言权重、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

可选地，所述装置还可以包括以下模块：

告警信息接收模块，用于接收所述视联网云端分析平台发送的噪音告警信息；

干扰人员确定模块，用于响应于针对所述噪音告警信息进行的干扰确认指令，确定干扰所述当前视频会议的参会人员的标识；

标识发送模块，用于将所述干扰所述当前视频会议的参会人员的标识发送给所述视联网云端分析平台，以使所述视联网云端分析平台确定所述多个参会人员各自对应的干扰次数，并根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、所述多个参会人员各自对应的干扰次数、预设干扰权重、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分

需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。

本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行如本发明实施例所述基于视频会议的参会人员评分方法。

本发明实施例还提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例所述的基于视频会议的参会人员评分方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于视频会议的参会人员评分方法、装置、设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视频会议的参会人员评分方法，其特征在于，应用于视联网云端分析平台，所述方法包括：

根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同的表情类别对应的权重以及与不同的动作类别对应的权重，确定所述多个参会人员各自对应的评分。

2.根据权利要求1所述的方法，其特征在于，对所述待识别视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，包括：

将所述待识别视频数据输入到人脸表情识别模型，所述人脸表情识别模型用于对所述待识别视频数据进行特征提取，得到多个人脸面部特征，并基于所述多个人脸面部特征对多个参会人员的人脸表情所属的类别进行识别；

获得由所述人脸表情识别模型输出的与所述多个参会人员各自对应的表情类别，所述人脸表情识别模型是以携带人脸表情标签的多个人脸图像样本为训练样本，对预设第一模型进行训练得到的；其中，所述人脸表情标签用于表征人脸图像样本中人脸表情所属的类别。

3.根据权利要求2所述的方法，其特征在于，对所述待识别视频数据进行行为动作特征识别，得到所述多个参会人员各自的行为动作所属的动作类别，包括：

将所述待识别视频数据输入到行为动作识别模型，所述行为动作识别模型用于对所述待识别视频数据进行特征提取，得到多个行为动作特征，并基于所述多个行为动作特征对多个参会人员的行为动作所属的类别进行识别；

获得由所述行为动作识别模型输出的与所述多个参会人员各自对应的动作类别，所述行为动作识别模型是以携带动作标签的多个人体图像样本为训练样本，对预设第二模型进行训练得到的；其中，所述动作标签用于表征人体图像样本中人的肢体动作所属的类别。

4.根据权利要求2所述的方法，其特征在于，所述人脸表情识别模型通过以下步骤获得；

5.根据权利要求3所述的方法，其特征在于，所述行为动作识别模型通过以下步骤得到：

以所述携带动作标签的多个人体图像样本为训练样本，分别对多个预设第二模型进行训练；其中，不同的预设第二模型具有不同的模型参数；

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

响应于参会人员对所述评分进行的申诉请求，从所述当前视频会议的音视频流中截取与所述申述请求对应的多帧视频图像；

对所述多帧视频图像所包括的每个人脸图像的人脸表情所属的类别进行标注，和/或，对所述多帧视频图像所包括的人体图像的行为动作所属的类别进行标注；

以标注人脸表情所属的类别后的多帧视频图像为训练样本，对所述人脸表情识别模型进行训练，得到训练后的人脸表情识别模型；和/或，以标注行为动作所属的类别后的多帧视频图像为训练样本，对所述行为动作识别模型进行训练，得到训练后的行为动作识别模型。

7.根据权利要求1-6任一项所述的方法，其特征在于，根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同_(:з」∠)_表情类别对应的权重以及与不同的动作类别对应的权重，确定所述多个参会人员各自对应的评分，包括：

根据预设表情评分、所述多个参会人员各自的人脸表情所属的表情类别和与不同的表情类别对应的权重，确定所述多个参会人员各自对应的第一维度评分；

根据预设行为评分、所述多个参会人员各自的行为动作所属的动作类别和与不同的动作类别对应的权重，确定所述多个参会人员各自对应的第二维度评分；

将所述多个参会人员各自对应的第一维度评分和第二维度评分之和，确定为所述多个参会人员各自对应的评分。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括；

对所述待识别视频数据进行人脸识别，得到所述待识别视频数据所对应的时段中未离席的多个参会人员的身份信息；

基于预存的与所述多个参会人员各自对应的身份信息和所述未离席的多个参会人员的身份信息，确定在所述待识别视频数据所对应的时段中离席的参会人员的身份信息；

根据在预设时间段内确定出的离席的参会人员的身份信息，统计所述多个参会人员各自的离席次数；

将所述多个参会人员各自对应的第一维度评分和第二维度评分之和，确定为所述多个参会人员各自对应的评分，包括：

根据所述多个参会人员各自的离席次数和预设离席权重，确定所述多个参会人员各自对应的第三维度评分；

根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第三维度评分，确定所述多个参会人员各自对应的评分。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

接收视频会议控制平台发送的所述多个参会人员在所述当前视频会议中各自对应的发言次数；

根据所述多个参会人员各自对应的发言次数和预设发言权重，确定所述多个参会人员各自对应的第四维度评分；

根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第四维度评分，确定所述多个参会人员各自对应的评分。

10.根据权利要求7所述的方法，其特征在于，所述方法还包括：

接收视频会议控制平台发送的干扰所述当前视频会议的参会人员的标识，并根据所述干扰所述当前视频会议的参会人员的标识，确定所述多个参会人员各自对应的干扰次数；

根据所述多个参会人员各自对应的干扰次数和预设干扰权重，确定所述多个参会人员各自对应的第五维度评分；

根据所述多个参会人员各自对应的第一维度评分、第二维度评分和所述第五维度评分，确定所述多个参会人员各自对应的评分。

11.根据权利要求10所述的方法，其特征在于，接收由视频会议控制平台发送的干扰所述当前视频会议的参会人员的标识之前，所述方法还包括：

从当前视频会议的音视频流中截取待识别音频数据；

对所述待识别音频数据进行识别，以确定所述待识别音频数据中是否包括噪音；

在所述待识别数据包括噪音时，向所述视频会议控制平台发出噪音告警信息，以供所述视频会议控制平台确定与噪音关联的参会人员的标识，与所述噪音关联的参会人员的标识即为干扰所述当前视频会议的参会人员的标识。

12.根据权利要求11所述的方法，其特征在于，对所述待识别音频数据进行识别，以确定所述待识别音频数据中是否包括噪音，包括：

将所述待识别音频数据输入到噪音识别模型，所述噪音识别模型用于将所述音频数据与预设音频数据进行匹配；

根据所述噪音识别模型输出的匹配结果，确定所述待识别音频数据中是否包括噪音。

13.一种基于视频会议的参会人员评分方法，其特征在于，应用于视联网视频会议控制平台，包括：

从当前视频会议的音视频流中截取的待识别的视频数据；

将所述待识别的视频数据发送给视联网云端分析平台，以使所述视联网云端分析平台对所述待识别的视频数据进行人脸表情识别，得到所述多个参会人员各自的人脸表情所属的表情类别，以及对所述待识别视频数据进行行为动作识别，得到所述多个参会人员各自的行为动作所属的动作类别；并根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、与不同的表情类别对应的权重以及与不同的动作类别对应的权重，确定所述多个参会人员各自对应的评分；

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

从所述多个参会人员中，确定对应的评分小于预设评分阈值的目标参会人员；

对播放当前视频会议的视频画面进行人脸识别，得到所述目标参会人员的人脸图像在所述视频画面中的显示位置；

对所述视频画面中的所述显示位置进行标注，所述标注至少包括所述目标参会人员的身份信息。

15.根据权利要求13所述的方法，其特征在于，所述方法还包括：

响应于所述当前视频会议中触发的发言请求，确定与所述发言请求对应的参会人员，并对与所述发言请求对应的参会人员添加发言标记；

统计所述多个参会人员各自的发言标记的数量，所述发言标记的数量即为发言次数；

将所述多个参会人员各自的发言次数发送给所述视联网云端分析平台，以使所述视联网云端分析平台根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、所述多个参会人员各自对应的发言次数、预设发言权重、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

16.根据权利要求13所述的方法，其特征在于，所述方法还包括：

接收所述视联网云端分析平台发送的噪音告警信息；

响应于针对所述噪音告警信息进行的干扰确认指令，确定干扰所述当前视频会议的参会人员的标识；

将所述干扰所述当前视频会议的参会人员的标识发送给所述视联网云端分析平台，以使所述视联网云端分析平台确定所述多个参会人员各自对应的干扰次数，并根据所述多个参会人员各自的人脸表情所属的表情类别、所述多个参会人员各自的行为动作所属的动作类别、所述多个参会人员各自对应的干扰次数、预设干扰权重、与不同表情类别对应的权重以及与不同动作类别对应的权重，确定所述多个参会人员各自对应的评分。

17.一种基于视频会议的参会人员评分装置，其特征在于，应用于视联网云端分析平台，所述装置包括：

18.一种基于视频会议的参会人员评分装置，其特征在于，应用于视联网视频会议控制平台，包括：

19.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行如权利要求1-12任一项或13-16任一项所述的基于视频会议的参会人员评分方法。

20.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1-12任一项或13-16任一项所述的基于视频会议的参会人员评分方法。