CN111402289A

CN111402289A - 基于深度学习的人群表演误差检测方法

Info

Publication number: CN111402289A
Application number: CN202010210033.4A
Authority: CN
Inventors: 丁刚毅; 黄天羽; 李立杰; 李鹏; 唐明湘; 梁栋; 朱雨萌
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-07-10

Abstract

本发明涉及一种基于深度学习的人群表演误差检测方法，包括预演仿真步骤、表演数据采集步骤、演员轨迹数据处理步骤、误差检测步骤：预演仿真步骤对表演创意方案进行预演仿真，并输出各表演元素在表演过程中的仿真数据；表演数据采集步骤使用视频采集设备采集表演的视频；演员轨迹数据处理步骤从采集的表演视频中提取出演员的实际运动轨迹；误差检测步骤将计算得到的演员实际运动轨迹与预演仿真数据中的标准运动轨迹进行误差检测并输出误差检测结果；本发明提供的人群表演误差检测方法，可以实时检测出演员表演过程中的误差，提供定量的误差分析结果，辅助编创人员直观的发现演员表演中存在的问题，并且易于实施。

Description

基于深度学习的人群表演误差检测方法

技术领域

本发明涉及一种人群表演误差检测方法，特别涉及一种基于深度学习的人群表演误差检测方法，属于表演仿真技术领域。

背景技术

为了避免通过人工指挥花费大量时间和人力来调整表演创意方案，同时提高排练准确度和效率，需要对各表演元素及其表演过程进行数据建模和仿真预演，然后输出各表演元素在表演过程中的仿真数据，辅助编创人员指挥各表演元素排练。

随着仿真技术的发展，数据建模和仿真预演已经在包括奥运会、国庆预演等大型活动和演出中得到应用。但是在根据仿真预演数据进行排练和演出的过程中，演员演出是否与仿真预演数据相一致、是否有误差、存在多大误差等问题是无法检测的。现阶段的排练和演出过程中只能以编创和指挥人员的主观感受和工作经验为检验排练效果的标准，缺乏一种对排练一致性和误差的客观描述形式。在面对大型广场文艺表演时，编创人员的工作量较大，指挥排练的工作具有不小的难度，这种以个人经验和感受为主要判断依据来评价表演效果的方式将会极大地影响排练效率，也无法发现表演中存在的问题。

因此，在对表演创意方案进行仿真预演后，在排练以及实际表演时，迫切需要提供一种客观的科学的误差检测方法，以仿真预演方案为依据，检测实际表演与仿真预演方案的一致性。

发明内容

本发明的目的在于针对现有技术的不足，提供一种以仿真预演方案为依据，对人群表演效果进行客观一致性和误差检测的人群表演误差检测方法。

本发明实施例提供了一种基于深度学习的人群表演误差检测方法，包括预演仿真步骤、表演数据采集步骤、演员轨迹数据处理步骤、误差检测步骤：

预演仿真步骤对表演创意方案进行预演仿真，并输出各表演元素在表演过程中的仿真数据；

表演数据采集步骤使用视频采集设备采集表演的视频；

演员轨迹数据处理步骤从采集的表演视频中提取出演员的实际运动轨迹；

误差检测步骤将计算得到的演员实际运动轨迹与预演仿真数据中的标准运动轨迹进行误差检测并输出误差检测结果；

其中，演员轨迹数据处理步骤从采集的表演视频中提取出演员实际运动轨迹的方法为：

对表演视频进行镜头分割，使得分割后的视频片段不包含镜头运动；

对视频片段中每一帧图像进行特征提取与匹配，提取出共同具有的两个静态物体，获取两个静态物体在图像中的二维位置坐标；

对视频片段中每一帧图像使用基于深度学习的目标检测方法检测演员，得到演员在图像中的二维位置坐标；

根据演员与两个静态物体的相对位置，计算得到演员的实际运动轨迹。

根据本发明实施例的一种具体实现方式，所述基于深度学习的目标检测方法包括以下步骤：

搭建YOLOv3目标检测模型，使用以往排练视频数据进行演员标定作为训练集，对YOLOv3目标检测模型进行训练，使模型能够识别出人；

使用训练好的模型对视频片段的每一帧图像进行目标检测，得到识别出的每一个人的标记边界框；

取标记边界框左下角或右下角角点坐标为表演人员二维位置坐标。

根据本发明实施例的一种具体实现方式，镜头分割采用基于直方图的方法，根据镜头转换时视频帧的颜色值和/或灰度值和/或亮度值的变化进行镜头分割。

根据本发明实施例的一种具体实现方式，所述镜头分割包括以下步骤：

将排练视频连续帧序列中像素的灰度值和/或亮度值和/或颜色值等分为N个等级，统计每一帧中每个等级中的像素数形成直方图，其中N由用户设置；

从排练视频第1帧开始，依次计算第i帧与第i+1帧的帧间差值d：

其中P为一帧的像素数，H_i(k)为第i帧中在第k个灰度、颜色或亮度级中的像素数，i为1,2，……，n-1；

定义小于排练视频每秒帧数的滑动区域，从排练视频第1帧开始计算滑动区域内的最大帧间差值及帧间差值均值d_m，将滑动区域依次向后移动，找出所有最大帧间差值比帧间差值均值d_m大3倍以上的滑动区域，计算这些滑动区域最大帧间差值的平均值，作为排练视频的判断阈值T；

比较每两帧的帧间差值d与阈值T，若d>T，则检测到镜头边界，进行镜头分割。

根据本发明实施例的一种具体实现方式，所述静态物体获取单元进行特征提取与匹配所使用的特征为角点特征。

根据本发明实施例的一种具体实现方式，所述对视频片段中每一帧图像进行特征提取与匹配，提取出共同具有的两个静态物体的方法为：

对关键帧序列中每一帧图像进行Harris角点检测，提取得到每一帧图像中静态物体角点二维位置坐标；

以某帧中每个静态物体角点位置坐标为中心，取其周围8个点的像素灰度值，计算与后一帧每个角点周围的8个像素灰度差值，选择后一帧中与该帧中该角点周围像素平均灰度差值最小的角点作为匹配角点；

获得相邻两帧间每个角点的匹配角点后，比较所有匹配角点对的周围像素平均灰度差值，选取周围像素平均灰度差值最小的两个匹配角点对作为该相邻两帧的最佳匹配角点对；

获得所有相邻两帧的最佳匹配角点对后，选择出现次数最多的两个角点对作为最终选取的静态物体。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的一种人群表演误差检测方法。

第三方面，本发明实施例提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述的一种人群表演误差检测方法。

第四方面，本发明实施例提供了一种计算机程序产品，包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述的一种人群表演误差检测方法。

有益效果

本发明提供的人群表演误差检测方法，通过采集演员排练视频数据，采用特征匹配与识别、目标检测等方法处理获得演员实际运动轨迹，并与预演仿真数据比对进行误差检测，可以实时检测出演员表演过程中的误差，提供定量的误差分析结果，辅助编创人员直观的发现演员表演中存在的问题，并且易于实施。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种人群表演误差检测方法流程图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图示中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的形态、数量及比例可为一种随意的改变，且其组件布局形态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

参见图1，本公开实施例提供一种基于深度学习的人群表演误差检测方法，包括预演仿真步骤S1、表演数据采集步骤S2、演员轨迹数据处理步骤S3、误差检测步骤S4：

预演仿真步骤S1对表演创意方案进行预演仿真，并输出各表演元素在表演过程中的仿真数据；

表演数据采集步骤S2使用视频采集设备采集表演的视频；

演员轨迹数据处理步骤S3从采集的表演视频中提取出演员的实际运动轨迹；

误差检测步骤S4将计算得到的演员实际运动轨迹与预演仿真数据中的标准运动轨迹进行误差检测并输出误差检测结果；

其中，演员轨迹数据处理步骤S3从采集的表演视频中提取出演员实际运动轨迹的方法为：

S31：对表演视频进行镜头分割，使得分割后的视频片段不包含镜头运动；

S32：对视频片段中每一帧图像进行特征提取与匹配，提取出共同具有的两个静态物体，获取两个静态物体在图像中的二维位置坐标；

S33：对视频片段中每一帧图像使用基于深度学习的目标检测方法检测演员，得到演员在图像中的二维位置坐标；

S34：根据演员与两个静态物体的相对位置，计算得到演员的实际运动轨迹。

下面详细说明本发明的具体实施方式：

预演仿真步骤S1对表演创意方案进行预演仿真，并输出各表演元素在表演过程中的仿真数据：

随着仿真技术的发展，数据建模和预演仿真已经在包括奥运会、国庆预演等大型活动和演出中得到应用，可以为表演提供如排练手册等科学的指导数据。但是在根据仿真预演数据进行排练和演出的过程中，演员演出是否与仿真预演数据相一致、是否有误差、存在多大误差等问题，缺乏科学有效的检测技术手段。现阶段的排练和演出过程中只能以编创和指挥人员的主观感受和工作经验为检验排练的标准，使得很多排练过程中的问题难以发现，极大地影响排练效率。本发明实施例提供的人群表演误差检测方法，通过采集演员排练视频数据，采用特征匹配与识别、目标检测等方法处理获得演员实际运动轨迹，并与预演仿真数据比对进行误差检测，可以实时检测出演员表演过程中的误差，提供定量的误差分析结果，辅助编创人员直观的发现演员表演中存在的问题，并且易于实施。

表演数据采集步骤S2：

本发明对现场表演进行误差分析选择的表演数据是演员实际运动轨迹数据。目前对排练时演员运动轨迹进行跟踪获得执行数据的研究还基本处于空白。要获得演员的实际运动轨迹，首先需要考虑数据采集的方式。演员运动轨迹数据采集可以使用现有的外部定位设备技术如GPS定位技术、射频识别、激光信息定位技术等。但GPS定位测量精度不高，射频识别、激光信息定位技术识别距离有限，而且采用外部定位设备技术，需要额外布设用于评估的设备和方案，实施负责成本高。根据本发明实施例的一种具体实现方式，使用视频采集设备实时采集现场表演视频数据。

获得表演视频数据后，演员轨迹数据处理步骤S3从采集的表演视频中提取出演员的实际运动轨迹，具体方法为：

由拍摄排练视频的工作流程可知，排练视频是多个镜头切换的一段完整表演视频，所有镜头之间的切换是突变的。而渐变是在镜头切换时具有一些过渡效果的帧，使不同镜头之间具有平滑变化的效果，一般在视频制作的后期剪辑时编辑而成。对于排练效果评估可以不考虑视频的后期制作，在排练拍摄过程中多个摄像机镜头切换不涉及渐变。

由于镜头切换会导致场景的突变，从完整视频中提取演员运动轨迹数据，需要对不同镜头拍摄的视频分别进行提取。因此需要将完整视频分割成多个视频片段，使得每个视频片段不包含镜头运动。对视频进行分割之后，选取一段不包含镜头运动的视频片段，逐帧提取得到视频关键帧序列。

排练时表演环境中的静态物体与仿真系统中表演环境仿真数据对应，与表演人员运动无关，位置保持固定不动。由于进行表演效果评估选取的视频帧序列不包含镜头运动，所以在该视频帧序列中静态物体的位置坐标保持不变。静态物体的形状特征信息丰富，可以通过特征提取与匹配算法提取出静态物体的特征点，获得静态物体的二维位置坐标。

在关键帧序列中，演员是运动的，所以在每一帧图像中的演员位置是变化的，需要运用视频运动目标识别和跟踪算法，获得演员在图像中的二维位置坐标。目前常用的运动目标跟踪算法可分为基于对比度分析、基于匹配算法、基于运动检测等几类。基于对比度分析的算法通过运动目标与背景在对比度上的差别进行识别跟踪，不适合复杂背景中的目标跟踪；基于匹配的算法和基于运动检测的算法在背景复杂、运动目标多的人群表演场景中，在目标定位和检测精度方面不能满足需求。根据本发明实施例的一种具体实现方式，检测演员使用基于深度学习的目标检测方法。

分别获得两个静态物体和演员的二维位置坐标后，就可以计算出演员与两个静态物体的相对位置，相对位置可以通过演员与两个静态物体的像素距离，以及演员与该两个静态物体的位置角度关系来表示。通过预演仿真数据可以得到两个静态物体的实际坐标，由于静态物体的位置在整个演出过程中是固定不变的，视频数据中像素距离与预演仿真数据中实际距离之间的比例关系也是固定不变的，因此可以很容易获得演员与两个静态物体的实际距离以及位置角度关系，从而根据演员与两个静态物体的相对位置，计算得到演员的实际运动轨迹。静态物体坐标以及演员实际运动轨迹都可以用预演仿真系统中的坐标来表示，以便于后续步骤中对演员轨迹的比较和误差计算。

误差检测步骤S4将计算得到的演员实际运动轨迹与预演仿真数据中的标准运动轨迹进行误差检测并输出误差检测结果。

误差检测输出可以选择直观的方式，例如将演员实际运动轨迹和演员标准运动轨迹在同一个显示设备上同时显示输出，以便于对两个运动轨迹进行直观比对。两个运动轨迹可以重叠显示在同一个显示界面上，比较适宜于需要快速得到检测结果的实时场景或用于定性分析。

也可以将误差检测的精确结果，例如演员偏离标准位置的角度和距离等数据显示输出，以便于进行精确的定量分析，也有利于现场指挥人员的指挥。在实际应用中，可以由用于设置误差分析指标，例如设置为用户偏离标准位置的距离，并为该指标设置阈值，当位置误差超过该阈值之后，要求演员进行重新排练，或者修改预演仿真系统的预期效果。

基于深度学习的目标检测方法，例如OverFeat(Sermanet P,Eigen D,Zhang X,etal.OverFeat:Integrated recognition,localization and detection usingconvolutional networks[C].ICLR,2014.)、R-CNN系列(Girshick R,Donahue J,DarrellT,et al.Rich feature hierarchies for accurate object detection and semanticsegmentation[C].ImageNet Large-Scale Visual Recognition Challenge workshop,ICCV,2013.)、YOLO系列(Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C].Proceedings of the IEEE conference oncomputer vision and pattern recognition,2016:779-788)，具有强大的学习能力，能够自动提取目标形状轮廓等视觉特征和深层次的非视觉特征，实现快速准确的目标跟踪。其中，YOLO系列方法可以直接预测一幅图像中物体的类别概率和位置坐标，适于本应用的需求。YOLO系列方法中的YOLOv3(Redmon J,Farhadi A.YOLO9000:Better,Faster,Stronger[J].arXiv:1612.08242,2016:1-9.；Redmon J,Farhadi A.YOLOv3:An IncrementalImprovement[J].arXiv:1804.02767,2018:1-6.)在检测准确度和速度上都有大幅提高，对小目标的检测效果也较好，适用于本发明的现场表演检测应用场景。

以某帧中每个静态物体角点位置坐标为中心，取其周围8个点的像素灰度值，计算与后一帧每个角点周围的8个像素灰度差值，得到后一帧中与该帧中该角点周围像素平均灰度差值最小的角点作为匹配角点；

至少一个处理器；以及，

有益效果

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称并不构成对该单元本身的限定。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的人群表演误差检测方法，其特征在于，包括预演仿真步骤、表演数据采集步骤、演员轨迹数据处理步骤、误差检测步骤：

表演数据采集步骤使用视频采集设备采集表演的视频；

2.根据权利要求1所述的一种人群表演误差检测方法，其特征在于，所述基于深度学习的目标检测方法包括以下步骤：

3.根据权利要求1或2所述的一种人群表演误差检测方法，其特征在于，镜头分割采用基于直方图的方法，根据镜头转换时视频帧的颜色值和/或灰度值和/或亮度值的变化进行镜头分割。

4.根据权利要求3所述的一种人群表演误差检测方法，其特征在于，所述镜头分割包括以下步骤：

其中P为一帧的像素数，H_i(k)为第i帧中在第k个灰度、颜色或亮度级中的像素数，i为1，2，……，n-1；

比较每两帧的帧间差值d与阈值T，若d＞T，则检测到镜头边界，进行镜头分割。

5.根据权利要求1或2所述的一种人群表演误差检测方法，其特征在于，所述静态物体获取单元进行特征提取与匹配所使用的特征为角点特征。

6.根据权利要求5所述的一种人群表演误差检测方法，其特征在于，所述对视频片段中每一帧图像进行特征提取与匹配，提取出共同具有的两个静态物体的方法为：

7.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述任一权利要求1-6所述的一种人群表演误差检测方法。

8.一种非暂态计算机可读存储介质，其特征在于，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述任一权利要求1-6所述的一种人群表演误差检测方法。

9.一种计算机程序产品，其特征在于，包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述任一权利要求1-6所述的一种人群表演误差检测方法。