CN111444389A

CN111444389A - 一种基于目标检测的会议视频分析方法及系统

Info

Publication number: CN111444389A
Application number: CN202010231167.4A
Authority: CN
Inventors: 张冬; 房鹏展; 吕晨
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-24

Abstract

本发明公开了一种基于目标检测的会议视频分析方法，其特征在于，步骤一：准备会议图片数据集，步骤二：根据标注好的会议图片数据集，利用深度神经网络训练三个深度学习模型，步骤三：通过摄像头采集会议视频，从会议视频中提取视频图片用于分析，步骤四：根据测试模型的识别结果，分别给专注度与活跃度打分，并得到专注度与活跃度随时间变化的曲线。达到根据参会人员的头部状态以及面部表情，利用深度神经网络训练头部区域、头部状态以及表情识别模型，能够识别所有参会人员的头部状态以及对应的表情，根据这两个数据得到参会人员的专注度与活跃度曲线，从侧面给出会议的效果如何的效果。整个系统只需要摄像头采集会议视频即可完成。

Description

一种基于目标检测的会议视频分析方法及系统

技术领域

本发明涉及计算机深度学习领域，特别是涉及一种基于目标检测的会议视频分析方法及系统。

背景技术

在公司及其他机构中，经常会召开会议或开展培训工作，然而参与会议的人员专注度与活跃度如何以及参加培训的人员对培训内容的兴趣如何，最终的会议及培训目标有没有达到，却很难得知。

传统的会议培训等工作的评估只能依赖人们的主观评价，缺乏可信度，也缺乏数据佐证。现在也有相关技术针对这一不足提供了一些解决方案，但这些解决方案在实践中由于条件限制往往缺乏可行性。

如现有技术CN201910001938所述的一种会议效果反馈方法、装置、计算机设备和可读存储介质，其中，在系统中预设微表情与所其代表的内容，结合参会人数及微表情的监控(包括种类、数量、比值等)，对会议效果进行反馈，但是通常会议现场情况复杂，人脸信息的识别已经比较困难，再进行微表情的识别更是难上加难，相应的系统也更为复杂，适用性较差。

CN201810359755-基于多模态信息融合的课堂学习状态监测方法及系统专利中，也与本发明有相似之处，它通过定位教室中的人脸，估计人脸的头部状态与面部表情，其中的人脸检测算法，对于侧脸不容易识别，只能保证对正面人脸的识别准确率，不具有通用性，由于相机机位的视角问题，会使得在教室边缘以及被遮挡部分正脸的学生始终只有侧脸或者不完全的正脸，导致最终的监测结果遗漏部分学生的信息。

因此，需要一种更直接方便，通用性更广，兼具准确的识别分析效果的会议视频分析方法及系统。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于目标检测的会议视频分析方法及系统。

为解决上述技术问题，本发明提供一种基于目标检测的会议视频分析方法，其特征在于，步骤一：准备会议图片数据集，所述会议图片数据集中包括参会人员的头部状态以及面部表情的图片，对图片进行截取并标注，所述头部状态的标注包括抬头、低头、扭头，面部表情的标注包括正常、微笑、被遮挡；

步骤二：根据标注好的会议图片数据集，利用深度神经网络训练三个深度学习模型，分别用于识别参会人员的头部区域、头部状态与面部表情，将训练好的三个深度学习模型集成为一个测试模型；

步骤三：通过摄像头采集会议视频，从会议视频中提取视频图片用于分析，具体为，每隔1s提取一张视频图片，针对待分析的视频图片，调用测试模型，识别视频图片中参会人员的头部状态与面部表情；

步骤四：根据测试模型的识别结果，分别给专注度与活跃度打分，并得到专注度与活跃度随时间变化的曲线，所述专注度为：头部状态标注为抬头、扭头、低头三个类别的人数的加权结果，所述活跃度为：面部表情标注为微笑、正常、被遮挡三个类别的人数的加权结果。高专注度与高活跃度会在最终的专注度活跃度曲线上表现为波峰，低专注度与低活跃度会在最终的专注度活跃度曲线上表现为波谷。

所述步骤一中，准备会议图片数据集包括：准备头部状态数据集和准备面部表情数据集，所述准备头部状态数据集包括：对头部状态数据集中的图片进行预处理，所述预处理为：统计图片中参会人员数量，其中头部被遮挡2/3以上的参会人员不参与计算，保留包含40～50个参会人员的图片，所述头部状态数据集经过预处理后保留至少5000张图片；所述准备面部表情数据集包括：从头部状态数据集中截取至少10万张面部表情图片；标注面部表情图片的头部状态，所述头部状态的编号及名称对应关系如下：1-抬头、2-低头、3-扭头，得到的标注信息为{Head_k,Status_ki}，其中k表示第k个头部位置，i表示第k个头部的状态；标注面部表情图片的面部表情，面部表情的编号及名称对应关系如下：1-正常、2-微笑、3被遮挡，得到的标注信息为F₃(Head_k)＝{Emotion_ki}，其中k表示第k个头部位置，i表示第k个面部表情的状态。

所述步骤二中，深度神经网络模型训练还包括如下步骤：

步骤1：利用深度神经网络训练一个头部区域检测模型，使得F₁(Image)＝{Head_m}，用于检测图片中参会人员的头部位置，判定为头部区域的阈值设定为0.6，高于阈值则认为是头部区域。其中m为检测到的头部区域数量，头部位置区域为矩形，矩形区域的位置信息是矩形的四个顶点坐标；

步骤2：利用深度神经网络训练一个头部状态识别模型，使得F₂(Head_k)＝{Status_ki}，用语识别头部状态，其中k＝1,2,...,m；取得分最高的三类头部状态作为识别结果；

步骤3：利用深度神经网络训练一个面部表情识别模型，使得F₃(Head_k)＝{Emotion_ki}，用于识别面部表情，其中k＝1,2,...,m；取得分最高的三类面部表情作为识别结果；

步骤4，将以上三个模型集成，得到参会人员头部状态与面部表情识别模型

F(Image)＝(F₂(F₁(Image)),F₃(F₁(Image)))＝{Status_ki,Emotion_ki}。

所述步骤三中，所述识别视频图片中参会人员的头部状态与面部表情，对应的结果为F(Image)＝{Status_ki,Emotion_ki}。

所述步骤四中，专注度与活跃度的得分分别为:

其中，Count()是计数函数，如Count(Status_k1)表示在所有识别到的头部状态中抬头的数量，Count()函数前的系数为加权系数，专注度与活跃度随时间变化曲线，纵轴为分数，横轴为时间，间隔为1s。结合专注度与活跃度的曲线的结果与会议内容，即可得到会议的可视化效果。

一种基于目标检测的会议视频分析系统，其特征在于，包括：数据源模块、模型训练模块和专注度活跃度打分模块；

所述数据源模块，用于训练深度神经网络模型需要准备的会议图片数据集，所述会议图片数据集包括头部状态图片数据集及其标注信息、面部表情图片数据集及其标注信息；

所述模型训练模块，用于利用深度神经网络训练深度学习模型识别参会人员的头部状态信息以及面部表情信息，所述深度学习模型包括：头部区域检测模型、头部状态识别模型和面部表情识别模型；

所述专注度活跃度打分模块，用于提供专注度与活跃度的打分接口，其中包括四个依次相连的子模块：视频采集的待分析图片接收子模块、头部状态与面部表情识别子模块、专注度与活跃度打分子模块、打分结果返回子模块；所述视频采集的待分析图片接收子模块，用于接收待分析的会议图片信息；所述头部状态与面部表情识别子模块，对于待分析的图片，调用集成头部状态与面部表情的模型识别其中参会人员的头部状态与面部表情；所述专注度与活跃度打分子模块，用于给参会人员专注度与会场活跃度打分；所述打分结果返回子模块，用于返回专注度与活跃度分数，最后得到分数曲线。

本发明所达到的有益效果:根据参会人员的头部状态(抬头、低头、扭头)以及面部表情(正常、微笑、被遮挡)，利用深度神经网络训练头部区域检测模型、头部状态以及表情识别模型，集成这三个模型，能够识别所有参会人员的头部区域、头部状态以及对应的表情，然后根据头部状态以及对应的表情得到参会人员的专注度与活跃度曲线，从侧面给出会议的效果如何。整个系统只需要摄像头采集会议视频即可完成。

附图说明

图1为本发明的示例性实施例的会议视频分析方法的流程示意图；

图2为本发明的示例性实施例的会议视频分析系统的结构示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示，本发明公开一种基于目标检测的会议视频分析的方法，包括：

步骤11：准备会议图片数据集，截取的面部图片数据集，并对数据进行标注获得标注信息。本实施以一场交流分享会议为例，按如下步骤准备数据集。

步骤111：采集该会议视频，按帧提取图片，经过人工筛选得到5000张会议图片作为头部状态数据集，忽略头部被遮挡2/3以上的，每张图片包含40～50个参会人员，尽可能地包含了相似数量的不同头部状态，然后人工截取会议图片中参会人员能够清晰辨认表情的面部，作为面部表情数据集，同样尽可能包含相似数量的不同面部表情。

步骤112：对会议图片进行人工标注，首先标注头部状态数据集，头部状态的编号及名称对应关系如下：1-抬头、2-低头、3-扭头，最终得到的标注信息为{Head_k,Status_ki}，其中k表示第k个头部位置，i表示第k个头部的状态；然后标注面部表情，面部表情的编号及名称对应关系如下：1-正常、2-微笑、3-无表情。通过标注更多的头部状态与面部表情数据，并且保证头部状态与面部表情各个类别的数据量尽可能相似，避免数据失衡，有助于更准确地进行会议视频分析，本发明公开的方法及系统均可适用。

步骤12：根据准备的标注好的会议图片数据集，利用深度神经网络训练两个深度学习模型分别识别参会人员头部状态与面部表情，然后将两个训练好的模型集成为一个测试模型，输入一张图片Image，输出为{Status_ki,Emotion_ki}，按照如下步骤，训练一个深度学习模型，使得F(Image)＝{Status_ki,Emotion_ki}。

步骤121：利用深度神经网络训练一个头部区域检测模型，使得F₁(Image)＝{Head_m}，用于检测图片中参会人员的头部位置。

步骤122：利用深度神经网络训练一个头部状态识别模型，使得F₂(Head_k)＝{Status_ki}，用于识别头部状态，取得分最高的三类头部状态作为识别结果。

步骤123：利用深度神经网络训练一个面部表情识别模型，使得F₃(Head_k)＝{Emotion_ki}，用于识别面部表情，取得分最高的三类面部表情作为识别结果。

步骤124：将以上三个模型集成，得到参会人员头部状态与面部表情识别模型F(Image)＝(F₂(F₁(Image)),F₃(F₁(Image)))＝{Status_ki,Emotion_ki}。最终用于分析所有参会人员的头部状态与面部表情信息。

该方法能够比较快速、精准地定位被遮挡不超过2/3的参会人员头部位置，识别参会人员的头部状态与面部表情，有助于后续较准确地进行专注度与活跃度分析。

步骤13：对于待分析的图片，调用集成的模型识别参会人员头部状态与面部表情。待分析的图片为Image，对应检测到的参会人员头部状态与面部表情为F(Image)＝{Status_ki,Emotion_ki}。

步骤14：根据图片中所有参会人员的头部状态与面部表情，给专注度与活跃度打分。最终打分为

其中，Count()是计数函数，如Count(Status_k1)表示在所有识别到的头部状态中抬头的数量。本实施例以一场会议为例，识别参会人员头部状态与面部表情，头部状态的编号及名称对应关系如下：1-抬头、2-低头、3-扭头，面部表情的编号及名称对应关系如下：1-正常、2-微笑、3-无表情。

该方法能够帮助了解参会人员在整场会议中的专注度与活跃度，根据曲线能够帮助发现参会人员的兴趣点，并给会议和培训有没有达到目标提供佐证。本系统所获得的的评分准确性高且评分速度快，并且可调节采样帧间隔，具有广泛的适用性。

如图2所示，本发明公开一种基于目标检测的会议视频分析的系统，主要包括：依次相连的数据源模块21、模型训练模块22和专注度活跃度打分模块23。

所述数据源模块21，用于准备会议分析需要的数据集，主要包括：头部状态数据集、面部表情数据集，以及它们的标注数据。

所述模型训练模块22，用于利用数据集个深度神经网络训练头部状态检测模型与面部表情检测模型，并将两个模型集成为一个测试模型。

所述专注度与活跃度打分模块23，用于提供专注度与活跃度打分的接口，其中包括四个依次相连的子模块：视频采集的待分析图片接收子模块231、头部状态与面部表情识别子模块232、专注度与活跃度打分子模块233、打分结果返回子模块234；

所述视频采集的待分析图片接收子模块，用于接收待分析的会议图片信息；所述头部状态与面部表情识别子模块，对于待分析的图片，调用集成头部状态与面部表情的模型识别其中参会人员的头部状态与面部表情；所述专注度与活跃度打分子模块，用于给参会人员专注度与会场活跃度打分；所述打分结果返回子模块，用于返回专注度与活跃度分数，最后得到分数曲线。

所述视频采集的待分析图片接收子模块231，用于接收待分析的会议图片信息；

所述头部状态与面部表情识别子模块232，对于待分析的图片，调用集成头部状态与面部表情的模型识别其中参会人员的头部状态与面部表情；

所述专注度与活跃度打分子模块233，用于给参会人员专注度与会场活跃度打分；

所述打分结果返回子模块234，用于返回专注度与活跃度分数，最后得到分数曲线。

本发明主要用于提供一种基于目标检测的会议视频分析的方法及系统，根据参会人员的头部状态(抬头、低头、扭头)以及面部表情(正常、微笑、被遮挡)，利用深度神经网络训练头部区域检测模型、头部状态以及表情识别模型，集成这三个模型，能够识别所有参会人员的头部区域、头部状态以及对应的表情，然后根据头部状态以及对应的表情得到参会人员的专注度与活跃度曲线，从侧面给出会议的效果如何。整个系统只需要摄像头采集会议视频即可完成。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种基于目标检测的会议视频分析方法，其特征在于，包括如下步骤：

步骤一：准备会议图片数据集，所述会议图片数据集中包括参会人员的头部状态以及面部表情的图片，对图片进行截取并标注，所述头部状态的标注包括抬头、低头、扭头，面部表情的标注包括正常、微笑、被遮挡；

步骤四：根据测试模型的识别结果，分别给专注度与活跃度打分，并得到专注度与活跃度随时间变化的曲线，所述专注度为：头部状态的标注为抬头、扭头、低头三个类别的人数的加权结果，所述活跃度为：面部表情的标注为微笑、正常、被遮挡三个类别的人数的加权结果。

2.如权利要求1所述的一种基于目标检测的会议视频分析方法，其特征在于：所述步骤一中，准备会议图片数据集包括：准备头部状态数据集和准备面部表情数据集，所述准备头部状态数据集包括：对头部状态数据集中的图片进行预处理，所述预处理为：统计图片中参会人员数量，其中头部被遮挡2/3以上的参会人员不参与计算，保留包含40～50个参会人员的图片，所述头部状态数据集经过预处理后保留至少5000张图片；所述准备面部表情数据集包括：从头部状态数据集中截取至少10万张面部表情图片；标注面部表情图片的头部状态，所述头部状态的编号及名称对应关系如下：1-抬头、2-低头、3-扭头，得到的标注信息为{Head_k,Status_ki}，其中k表示第k个头部位置，i表示第k个头部的状态；标注面部表情图片的面部表情，面部表情的编号及名称对应关系如下：1-正常、2-微笑、3被遮挡，得到的标注信息为F₃(Head_k)＝{Emotion_ki}，其中k表示第k个头部位置，i表示第k个面部表情的状态。

3.如权利要求2所述的一种基于目标检测的会议视频分析方法，其特征在于：所述步骤二中，深度神经网络模型训练还包括如下步骤：

步骤1：利用深度神经网络训练一个头部区域检测模型，使得F₁(Image)＝{Head_m}，用于检测图片中参会人员的头部位置，判定为头部区域的阈值设定为0.6，高于阈值则认为是头部区域，其中m为检测到的头部区域数量，头部位置区域为矩形，所述矩形的位置信息是矩形的四个顶点坐标；

步骤2：利用深度神经网络训练一个头部状态识别模型，使得F₂(Head_k)＝{Status_ki}，用语识别头部状态，其中k＝1,2,...,m，取得分最高的三类头部状态作为识别结果；

步骤3：利用深度神经网络训练一个面部表情识别模型，使得F₃(Head_k)＝{Emotion_ki}，用于识别面部表情，其中k＝1,2,...,m，取得分最高的三类面部表情作为识别结果；

F(Image)＝(F₂(F₁(Image)),F₃(F₁(Image)))＝{Status_ki,Emotion_ki}。

4.如权利要求3所述的一种基于目标检测的会议视频分析方法，其特征在于：所述步骤三中，所述识别视频图片中参会人员的头部状态与面部表情，对应的结果为F(Image)＝{Status_ki,Emotion_ki}。

5.如权利要求4所述的一种基于目标检测的会议视频分析方法，其特征在于：所述步骤四中，专注度与活跃度的得分分别为:

其中，Count()是计数函数，Count()函数前的系数为加权系数，专注度与活跃度随时间变化曲线，纵轴为分数，横轴为时间，间隔为1s。

6.一种如权利要求1-5所述方法之一运行的基于目标检测的会议视频分析系统，其特征在于，包括：数据源模块、模型训练模块和专注度活跃度打分模块；