CN111339684A

CN111339684A - 基于深度学习的人群表演现场指挥系统

Info

Publication number: CN111339684A
Application number: CN202010216725.XA
Authority: CN
Inventors: 李鹏; 丁刚毅; 黄天羽; 李立杰; 梁栋; 唐明湘
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-06-26

Abstract

本发明涉及一种人群表演现场指挥系统，用于根据预演仿真系统生成的预演仿真数据进行现场指挥，包括创意方案展示模块、预演仿真数据展示模块、排练视频采集设备、误差检测模块、指挥交互模块，其中：创意方案展示模块输出导演创意方案；预演仿真数据展示模块输出预演仿真数据；排练视频采集设备采集现场排练视频数据；误差检测模块将演员实际运动轨迹与预演仿真数据中的标准运动轨迹进行比对并输出误差检测数据；指挥交互模块将数据呈现给指挥人员，并接受指挥人员的修改。本发明可以快速准确的辅助现场指挥人员发现演员运动轨迹或动作中存在的问题，并且提供定量的分析结果为现场指挥提供了客观科学有效的辅助手段和数据支持，并且易于实施。

Description

基于深度学习的人群表演现场指挥系统

技术领域

本发明涉及一种基于深度学习的人群表演现场指挥系统，属于表演仿真技术领域。

背景技术

大型人群表演的排练是一件费时费力的事情。为了避免通过人工指挥花费大量时间和人力来调整表演创意方案，同时提高排练准确度和效率，需要对各表演元素及其表演过程进行数据建模和仿真预演，然后输出各表演元素在表演过程中的仿真数据，辅助编创人员指挥各表演元素排练。

但是，现阶段数据建模和仿真预演技术主要用于编创人员的创意阶段以及演员练习阶段，在现场排练时，仍然需要由现场指挥肉眼观看，依靠现场指挥的主观感受和工作经验，对排练效果做出直观评判，并对表演方案做出调整。在面对大型广场文艺表演时，现场指挥的工作量较大，指挥排练的工作具有不小的难度，这种以个人经验和感受为主要判断依据来进行指挥的方式将会极大地影响排练效率，也无法发现表演中存在的问题。

因此，在对表演创意方案进行仿真预演后，在排练以及实际表演时，迫切需要提供一种客观科学的人群表演现场指挥系统，以仿真预演方案为依据，有效发现排练过程中存在的问题，为现场指挥提供辅助手段和数据支持。

发明内容

本发明的目的在于针对现有技术的不足，提供一种以仿真预演方案为依据，为现场指挥提供辅助手段和数据支持的人群表演现场指挥系统。

本发明实施例提供了一种基于深度学习的人群表演现场指挥系统，用于根据预演仿真系统生成的预演仿真数据进行现场指挥，包括创意方案展示模块、预演仿真数据展示模块、排练视频采集设备、误差检测模块、指挥交互模块，其中：

创意方案展示模块将导演创意方案输出到指挥交互模块；

预演仿真数据展示模块将预演仿真数据输出到指挥交互模块和误差检测模块；

排练视频采集设备采集现场排练视频数据，并传输到指挥交互模块和误差检测模块；

误差检测模块从采集的排练视频中提取出演员的实际运动轨迹，将演员实际运动轨迹与预演仿真数据中的标准运动轨迹进行比对并将误差检测数据输出到指挥交互模块；

指挥交互模块用于将导演创意方案、预演仿真数据、演员现场排练数据、误差检测数据通过显示设备呈现给指挥人员，并通过输入设备接受指挥人员对表演方案的修改，并且根据指挥人员的设置修改预演仿真数据；

其中，误差检测模块从采集的表演视频中提取出演员实际运动轨迹的方法为：

对表演视频进行镜头分割，使得分割后的视频片段不包含镜头运动；

对视频片段中每一帧图像进行特征提取与匹配，提取出共同具有的两个静态物体，获取两个静态物体在图像中的二维位置坐标；

对视频片段中每一帧图像使用基于深度学习的目标检测方法检测演员，得到演员在图像中的二维位置坐标；

根据演员与两个静态物体的相对位置，计算得到演员的实际运动轨迹。

根据本发明实施例的一种具体实现方式，所述基于深度学习的目标检测方法包括以下步骤：

搭建YOLOv3目标检测模型，使用以往排练视频数据进行演员标定作为训练集，对YOLOv3目标检测模型进行训练，使模型能够识别出人；

使用训练好的模型对视频片段的每一帧图像进行目标检测，得到识别出的每一个人的标记边界框；

取标记边界框左下角或右下角角点坐标为表演人员二维位置坐标。

根据本发明实施例的一种具体实现方式，所述镜头分割采用基于直方图的方法，根据镜头转换时视频帧的颜色值和/或灰度值和/或亮度值的变化进行镜头分割。

根据本发明实施例的一种具体实现方式，所述镜头分割包括以下步骤：

将排练视频连续帧序列中像素的灰度值和/或亮度值和/或颜色值等分为N个等级，统计每一帧中每个等级中的像素数形成直方图，其中N由用户设置；

从排练视频第1帧开始，依次计算第i帧与第i+1帧的帧间差值d：

其中P为一帧的像素数，H_i(k)为第i帧中在第k个灰度、颜色或亮度级中的像素数，i为1,2，……，n-1；

定义小于排练视频每秒帧数的滑动区域，从排练视频第1帧开始计算滑动区域内的最大帧间差值及帧间差值均值d_m，将滑动区域依次向后移动，找出所有最大帧间差值比帧间差值均值d_m大3倍以上的滑动区域，计算这些滑动区域最大帧间差值的平均值，作为排练视频的判断阈值T；

比较每两帧的帧间差值d与阈值T，若d>T，则检测到镜头边界，进行镜头分割。

根据本发明实施例的一种具体实现方式，所述静态物体获取单元进行特征提取与匹配所使用的特征为角点特征。

根据本发明实施例的一种具体实现方式，所述对视频片段中每一帧图像进行特征提取与匹配，提取出共同具有的两个静态物体的方法为：

对关键帧序列中每一帧图像进行Harris角点检测，提取得到每一帧图像中静态物体角点二维位置坐标；

以某帧中每个静态物体角点位置坐标为中心，取其周围8个点的像素灰度值，计算与后一帧每个角点周围的8个像素灰度差值，选择后一帧中与该帧中该角点周围像素平均灰度差值最小的角点作为匹配角点；

获得相邻两帧间每个角点的匹配角点后，比较所有匹配角点对的周围像素平均灰度差值，选取周围像素平均灰度差值最小的两个匹配角点对作为该相邻两帧的最佳匹配角点对；

获得所有相邻两帧的最佳匹配角点对后，选择出现次数最多的两个角点对作为最终选取的静态物体。

根据本发明实施例的一种具体实现方式，所述指挥交互模块将误差检测数据呈现给指挥人员的方法为：将演员实际运动轨迹与根据预演仿真数据得到的演员标准运动轨迹同时输出到显示设备进行呈现。

根据本发明实施例的一种具体实现方式，指挥交互模块将误差检测数据呈现给指挥人员的方法为：将演员实际位置与预演仿真数据中的演员应该所处的位置进行数据比对，将位置偏差输出到显示设备进行呈现。

根据本发明实施例的一种具体实现方式，所述指挥交互模块包括多个用于呈现数据的显示设备以及用于接收指挥人员反馈的输入设备；每个显示设备根据用户设置显示现场不同区域的数据并实时更新；每个输入设备接收不同指挥人员的反馈和设置。

根据本发明实施例的一种具体实现方式，所述指挥交互模块还包括远程交互单元，用于将现场表演数据进行远程传输，并且接收远程反馈。

有益效果

本发明提供的人群表演现场指挥系统，通过采集演员排练数据与预演仿真数据比对，可以快速准确的辅助现场指挥人员发现演员运动轨迹或动作中存在的问题，并且提供定量的分析结果，并且根据现场指挥人员的反馈快速调整演出现场，为现场指挥提供了客观科学有效的辅助手段和数据支持，并且易于实施。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据本发明实施例提供的一种人群表演现场指挥系统结构示意图；

图2为根据本发明实施例提供的误差检测模块从采集的表演视频中提取出演员实际运动轨迹的方法流程图；

图3为根据本发明实施例提供的包括多个显示设备和输入设备的人群表演现场指挥系统结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图示中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的形态、数量及比例可为一种随意的改变，且其组件布局形态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

参见图1，本公开实施例提供一种基于深度学习的人群表演现场指挥系统，用于根据预演仿真系统生成的预演仿真数据进行现场指挥，包括创意方案展示模块1、预演仿真数据展示模块2、排练视频采集设备3、误差检测模块4、指挥交互模块5，其中：

创意方案展示模块将导演创意方案输出到指挥交互模块；

指挥交互模块用于将导演创意方案、预演仿真数据、演员现场排练数据、误差检测数据通过显示设备6呈现给指挥人员，并通过输入设备7接受指挥人员对表演方案的修改，并且根据指挥人员的设置修改预演仿真数据；

图1中创意方案展示模块、排练数据展示模块、预演仿真数据展示模块、指挥交互模块通过以太网与显示设备连接，排练数据采集设备通过无线方式连接到排练数据展示模块。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用。本实施例中的各模块可以为一计算装置，该计算装置可以实现为软件、硬件，或者实现为软件和硬件的组合。

在面对人群表演时，预演仿真技术已经逐步得到应用，可以为排练提供如排练手册等科学的指导数据。但是，现阶段数据建模和仿真预演技术主要用于编创人员的创意阶段以及演员练习阶段，在现场排练时，仍然需要由现场指挥肉眼观看，依靠现场指挥的主观感受和工作经验，对排练效果做出直观评判，并对表演方案做出调整。根据本发明实施例提供的人群表演现场指挥系统，通过将导演创意方案、预演仿真数据、排练采集数据进行整合，根据指挥人员的需要输出到显示设备，使得现场指挥人员可以随时查看所需的方案和数据。指挥交互模块可以接受现场指挥人员对于表演现场设置的修改，调整演出现场的控制信号，例如现场指挥人员可以通过指挥交互模块调整灯光亮度、音乐音量大小等。指挥人员对于修改进行确认之后，指挥交互模块会记录指挥人员的设置，并且修改预演仿真数据，从而实现了根据现场指挥对预演仿真数据的实时调整，极大的方便了指挥人员的现场指挥过程。

参见图2，根据本发明实施例的一种具体实现方式，误差检测模块从采集的表演视频中提取出演员实际运动轨迹的方法为：

1)对表演视频进行镜头分割，使得分割后的视频片段不包含镜头运动；

由拍摄排练视频的工作流程可知，排练视频是多个镜头切换的一段完整表演视频，所有镜头之间的切换是突变的。而渐变是在镜头切换时具有一些过渡效果的帧，使不同镜头之间具有平滑变化的效果，一般在视频制作的后期剪辑时编辑而成。对于排练效果评估可以不考虑视频的后期制作，在排练拍摄过程中多个摄像机镜头切换不涉及渐变。

由于镜头切换会导致场景的突变，从完整视频中提取演员运动轨迹数据，需要对不同镜头拍摄的视频分别进行提取。因此需要将完整视频分割成多个视频片段，使得每个视频片段不包含镜头运动。对视频进行分割之后，选取一段不包含镜头运动的视频片段，逐帧提取得到视频关键帧序列。

2)对视频片段中每一帧图像进行特征提取与匹配，提取出共同具有的两个静态物体，获取两个静态物体在图像中的二维位置坐标；

排练时表演环境中的静态物体与仿真系统中表演环境仿真数据对应，与表演人员运动无关，位置保持固定不动。由于进行表演效果评估选取的视频帧序列不包含镜头运动，所以在该视频帧序列中静态物体的位置坐标保持不变。静态物体的形状特征信息丰富，可以通过特征提取与匹配算法提取出静态物体的特征点，获得静态物体的二维位置坐标。

3)对视频片段中每一帧图像使用基于深度学习的目标检测方法检测演员，得到演员在图像中的二维位置坐标；

在关键帧序列中，演员是运动的，所以在每一帧图像中的演员位置是变化的，需要运用视频运动目标识别和跟踪算法，获得演员在图像中的二维位置坐标。目前常用的运动目标跟踪算法可分为基于对比度分析、基于匹配算法、基于运动检测等几类。基于对比度分析的算法通过运动目标与背景在对比度上的差别进行识别跟踪，不适合复杂背景中的目标跟踪；基于匹配的算法和基于运动检测的算法在背景复杂、运动目标多的人群表演场景中，在目标定位和检测精度方面不能满足需求。根据本发明实施例的一种具体实现方式，检测演员使用基于深度学习的目标检测方法。

4)根据演员与两个静态物体的相对位置，计算得到演员的实际运动轨迹。

分别获得两个静态物体和演员的二维位置坐标后，就可以计算出演员与两个静态物体的相对位置，相对位置可以通过演员与两个静态物体的像素距离，以及演员与该两个静态物体的位置角度关系来表示。通过预演仿真数据可以得到两个静态物体的实际坐标，由于静态物体的位置在整个演出过程中是固定不变的，视频数据中像素距离与预演仿真数据中实际距离之间的比例关系也是固定不变的，因此可以很容易获得演员与两个静态物体的实际距离以及位置角度关系，从而根据演员与两个静态物体的相对位置，计算得到演员的实际运动轨迹。静态物体坐标以及演员实际运动轨迹都可以用预演仿真系统中的坐标来表示，以便于后续步骤中对演员轨迹的比较和误差计算。

基于深度学习的目标检测方法，例如OverFeat(Sermanet P,Eigen D,Zhang X,etal.OverFeat:Integrated recognition,localization and detection usingconvolutional networks[C].ICLR,2014.)、R-CNN系列(Girshick R,Donahue J,DarrellT,et al.Rich feature hierarchies for accurate object detection and semanticsegmentation[C].ImageNet Large-Scale Visual Recognition Challenge workshop,ICCV,2013.)、YOLO系列(Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C].Proceedings of the IEEE conference oncomputer vision and pattern recognition,2016:779-788)，具有强大的学习能力，能够自动提取目标形状轮廓等视觉特征和深层次的非视觉特征，实现快速准确的目标跟踪。其中，YOLO系列方法可以直接预测一幅图像中物体的类别概率和位置坐标，适于本应用的需求。YOLO系列方法中的YOLOv3(Redmon J,Farhadi A.YOLO9000:Better,Faster,Stronger[J].arXiv:1612.08242,2016:1-9.；Redmon J,Farhadi A.YOLOv3:An IncrementalImprovement[J].arXiv:1804.02767,2018:1-6.)在检测准确度和速度上都有大幅提高，对小目标的检测效果也较好，适用于本发明的现场表演检测应用场景。

上述方法是一种将实际排练时的演员运动轨迹和预演仿真时演员运动轨迹同时显示输出进行直观比对的一种方法，两个运动轨迹可以重叠显示在同一个显示界面上，可以为现场指挥人员快速提供比对结果，现场指挥人员可以直观的发现演员运动轨迹与预演仿真时的运动轨迹是否一致，以及偏差大小。

上述方法可以对每一帧得到的演员运动轨迹数据进行精确的定量分析。在实际应用中，可以选取演员实际位置与预演仿真位置之间的距离作为排练效果的定量分析指标。也可以为该指标设置阈值，当位置误差超过该阈值之后，要求演员进行重新排练，或者修改预演仿真系统的预期效果。根据用户的设置，现场排练系统可以将现场指挥人员最关心的指标例如演员应该向什么方向移动多远的距离醒目的显示在显示设备上，为指挥人员的现场指挥提供数据支持。

如图3所示，针对大型人群表演，现场往往由多人同时指挥，主席台上是总指挥，在现场不同区域还有一些负责局部区域的现场指挥人员。因此，可以为每个现场指挥人员配备一个显示设备，该显示设备可以是手持显示设备，便于移动，每个显示设备根据用户设置显示现场不同区域的数据并实时更新。这种指挥系统非常有利于区域指挥人员了解和掌握现场演出的局部和全局状况。在本发明的实施例中，每个指挥人员的手持显示设备也同时具有接受用户输入的功能，例如触摸屏或者有触摸功能的平板电脑等。每个设备接受不同指挥人员的反馈和设置。当多个设置产生冲突的时候根据预设策略进行处理，例如为用户设置不同的优先级，产生冲突时使用优先级高的设置；或者所有设置由专设人员审核选择等。

在人群表演的排练过程中，经常会出现关键指导人员不在现场的情况。作为本发明的一个实施例，人群表演现场指挥系统还包括远程交互单元，可以使不能来到现场的编导从远程看到现场排练的情况，并且能通过远程交互单元提交反馈意见，甚至可以直接在远程修改演出现场的各种设置。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称并不构成对该单元本身的限定。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的人群表演现场指挥系统，用于根据预演仿真系统生成的预演仿真数据进行现场指挥，其特征在于，包括：创意方案展示模块、预演仿真数据展示模块、排练视频采集设备、误差检测模块、指挥交互模块，其中：

创意方案展示模块将导演创意方案输出到指挥交互模块；

其中，误差检测模块块从采集的表演视频中提取出演员实际运动轨迹的方法为：

2.根据权利要求1所述的一种人群表演现场指挥系统，其特征在于，所述基于深度学习的目标检测方法包括以下步骤：

3.根据权利要求2所述的一种人群表演现场指挥系统，其特征在于，所述镜头分割采用基于直方图的方法，根据镜头转换时视频帧的颜色值和/或灰度值和/或亮度值的变化进行镜头分割。

4.根据权利要求3所述的一种人群表演现场指挥系统，其特征在于，所述镜头分割包括以下步骤：

5.根据权利要求4所述的一种人群表演现场指挥系统，其特征在于，所述静态物体获取单元进行特征提取与匹配所使用的特征为角点特征。

6.根据权利要求5所述的一种人群表演现场指挥系统，其特征在于，所述对视频片段中每一帧图像进行特征提取与匹配，提取出共同具有的两个静态物体的方法为：

7.根据权利要求6所述的一种人群表演现场指挥系统，其特征在于，所述指挥交互模块将误差检测数据呈现给指挥人员的方法为：将演员实际运动轨迹与根据预演仿真数据得到的演员标准运动轨迹同时输出到显示设备进行呈现。

8.根据权利要求6所述的一种人群表演现场指挥系统，其特征在于，指挥交互模块将误差检测数据呈现给指挥人员的方法为：将演员实际位置与预演仿真数据中的演员应该所处的位置进行数据比对，将位置偏差输出到显示设备进行呈现。

9.根据权利要求1-8任一项所述的一种人群表演现场指挥系统，其特征在于，所述指挥交互模块包括多个用于呈现数据的显示设备以及用于接收指挥人员反馈的输入设备；每个显示设备根据用户设置显示现场不同区域的数据并实时更新；每个输入设备接收不同指挥人员的反馈和设置。

10.根据权利要求1-8任一项所述的一种人群表演现场指挥系统，其特征在于，所述指挥交互模块还包括远程交互单元，用于将现场表演数据进行远程传输，并且接收远程反馈。