CN112598742A - 一种基于图像和雷达数据的舞台交互系统 - Google Patents

一种基于图像和雷达数据的舞台交互系统 Download PDF

Info

Publication number
CN112598742A
CN112598742A CN202011609683.2A CN202011609683A CN112598742A CN 112598742 A CN112598742 A CN 112598742A CN 202011609683 A CN202011609683 A CN 202011609683A CN 112598742 A CN112598742 A CN 112598742A
Authority
CN
China
Prior art keywords
attitude
stage
image
module
performer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011609683.2A
Other languages
English (en)
Inventor
吴子朝
陈豪
张�成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011609683.2A priority Critical patent/CN112598742A/zh
Publication of CN112598742A publication Critical patent/CN112598742A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种基于图像和雷达数据的舞台交互系统,包括信息采集模块、处理模块和控制模块。所述信息采集模块包括安装在舞台正前方的一台RGB摄影机和一台LiDAR激光雷达,实时探测舞台上表演者的姿态信息,作为生产姿态的训练数据或现场数据;处理模块包括姿态生成和姿态识别,姿态生成单元利用双流深度学习网络学习训练数据,产生表演者的姿态模型;姿态识别根据表演者的姿态模型识别匹配对应的预设姿态,将结果发送到控制模块。控制单元模块根据接收到的识别结果,控制舞台屏幕的显示内容随表演者姿态变化。通过上述方式,本发明能够在较高精度下使表演者可以通过动作姿态与舞台场景实时交互。

Description

一种基于图像和雷达数据的舞台交互系统
技术领域
本发明属于人机交互技术,具体涉及一种基于图像和雷达数据的舞台交互系统。
背景技术
随着艺术表演的舞美对演出效果增强作用的越发突出,传统的常规式布景式舞台已经无法满足表演者与舞台场景互动的需求,于是出现了许多舞台交互系统。现有的舞台交互系统通常使用3D体感摄影机,配合表演者身上的体感设备来捕捉表演者的姿态,或是采用激活雷达探测表演者的触控点,来实现交互。
基于3D体感摄影机和体感设备来捕捉表演者姿态的舞台交互系统,其实现方法通常是借助穿戴于表演者身上的体感设备,检测表演者肢体的动作幅度并输出检测信号;3D体感摄影机检测体感信号后将信息传输给处理装置和控制装置,实现舞台交互。这种方法的优点在于可检测包括手势,姿态,表情等信息,且只需表演者穿戴设备,成本低廉。缺点是系统的检测范围有限,当表演者背对或侧对3D体感摄影机时,该交互系统都难以准确的获取表演者的姿态数据,从而也无法准确控制舞台的切换,而且体感设备在一定程度上也会影响表演者的动作美观。
基于激光雷达探测表演者触控点的舞台交互系统,其实现方案是采用激光雷达探测装置,通过形成的扫描面来检测面上的触摸动作,从而定位一个或多个触摸点的位置信息,通过触摸点的位置信息控制舞台的切换;优点在于抗干扰能力强,对环境光不敏感,不受屏幕形状和边界的限制;缺点是有效检测区域小,有效检测范围仅为半径3m的半圆,检测数量有限,即使设置多个激光雷达配合使用,仍不适合中大型舞台的交互控制,其次只能简单的检测触控点位置,而无法检测表演者的姿态信息,同时还存在误触等情况,难以达到精确控制舞台的交互切换。
发明内容
针对现有技术的不足,本发明提出了一种基于图像和雷达数据的舞台交互系统,无需表演者穿戴额外的体感设备,还可以提高有效检测范围的面积,提高系统控制精度。
一种基于图像和雷达数据的舞台交互系统,包括信息采集模块、处理模块和控制模块。
所述信息采集模块,使用一台RGB摄影机和一台LiDAR激光雷达,分别对舞台进行图像拍摄和雷达探测,实时获取舞台上的表演者信息,将雷达探测得到的数据以与RGB图像相同的频率生成雷达点云图后,将RGB图像和雷达云点图作为现场数据,一同传输到处理模块中。
作为优选,所述RGB摄影机和LiDAR激光雷达布置在舞台前方。
所述处理模块包括姿态生成单元和姿态识别单元,姿态生成单元通过双流网络学习信息采集模块采集的数据,生成姿态集;姿态识别单元找到姿态集中的现场姿态对应的预设姿态,将识别结果发送给控制模块。
所述双流网络包括特征提取、特征聚合与姿态生成模块。其中特征提取模块首先单独处理雷达点云图得到鸟瞰图,然后利用VGG-16网络提取鸟瞰图与RGB图像特征,得到特征图。特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置。姿态生成模块根据表演者在图像中的位置信息,将锚定姿态拟合到目标区域中,生成姿态集。
所述控制模块,接收到处理模块的姿态识别结果后,根据识别结果判断表演者的意图,控制舞台随表演者的姿态进行变化。
所述舞台屏幕内容的变化包括虚拟环境影像和背景屏幕显示内容的变化。
本发明具有以下有益效果:
1、同时使用RGB摄影机和LiDAR激光雷达获取当前表演者的姿态,检测范围大,表演者无需额外穿戴体感装置;表演者变化不同姿势时都能捕获到相应的手势、姿态、表情等信息。
2、处理模块通过神经网络对采集到的现场数据进行特征提取、聚合等处理后识别出表演者的姿态信息,再通过控制模块根据表演者的意图控制舞台变化,实现了表演者姿态与舞台效果的交互,达到了虚实结合的舞台效果。
附图说明
图1为实施例中的舞台结构示意图;
图2为交互系统的原理图;
图3为双流网络结构示意图。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
如图1所示,在舞台的前方设置一台RGB摄像机和一台LiDAR激光雷达,并将采集到的数据发送到控制主机中,在主机中完成对数据的处理、识别,并控制舞台效果变化。
如图2所示,一种基于图像和雷达数据的舞台交互系统,包括信息采集模块、处理模块和控制模块。
所述信息采集模块,使用一台RGB摄影机和一台LiDAR激光雷达,分别对舞台进行图像拍摄和雷达探测,实时获取舞台上的表演者信息,将雷达探测得到的数据以与RGB图像相同的频率生成雷达点云图后,将RGB图像和雷达云点图作为现场数据,一同传输到处理模块中。
所述处理模块包括姿态生成单元和姿态识别单元,姿态生成单元通过双流网络学习信息采集模块采集的数据,生成姿态集;所述双流网络包括特征提取、特征聚合与姿态生成模块。其中特征提取模块首先单独处理雷达点云图得到6通道的鸟瞰图,然后利用两个并行的VGG-16网络同时提取鸟瞰图与RGB图像特征,得到两个特征图。特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置。为了生成表演者姿态,神经网络通常需要先探测人物的关节点然后对各个关节点进行分组,或是先通过区域建议算法在输入的数据框选出上出需要生成姿态的位置作为区域建议,再在目标区域内生成姿态,双流神经网络采用了先探测位置再生成姿态的方式,在姿态拟合过程中同时回归每个姿态关节点的5维信息,包括2维姿态和3维姿态的坐标;将双流神经网络预生成的锚盒投影到特征提取模块得到的特征图视图上,然后使用两次Rol Align算法,第一次Rol Align算法获得3D目标区域,锚定姿态将在该区域内拟合任务;第二次Rol Align算法得到姿态细节与姿态得分,裁剪后得到的建议区域,即表演者在图像中的位置。姿态生成模块根据表演者在图像中的位置信息,将锚定姿态拟合到目标区域中,生成姿态集。
在正式使用前需要采集大量的现场数据输入双流网络中,对其进行训练、优化,调整网络参数。使用RPN(目标区域建议)损失LRPN、锚定姿态损失Lcls、2D姿态细化损失L2D和3D姿态细化损失L3D四项损失作为优化双流网络的指标Ltotal
Ltotal=LRPN+Lcls+L2D+L3D
RPN损失LRPN用于优化目标区域的位置选择,这部分损失包括区域回归和目标分类;区域回归是在输入的特征图中求得目标框的位置,用于优化特征聚合模块在特征图上输出一系列目标区域的过程;目标分类即锚定姿态分类是判断目标区域框选的是否为目标对象,该损失优化目标是让网络能在多个目标区域中找到恰当的目标区域;
Figure BDA0002874319270000031
其中pi表示第i个预测框是前景的概率,
Figure BDA0002874319270000032
为标签,当第i个预测框为前景时
Figure BDA0002874319270000033
为1,反之为0;ti表示预测框的4个位置参数,
Figure BDA0002874319270000034
为标定框的参数,ncls和Nreg为一次训练的小批量中的大小,Lcls是锚定姿态损失函数,Lreg是回归损失函数;
锚定姿态损失Lcls用于优化锚定姿态的选择,包括前景和后景的区分以及使用相似性分数分配最佳锚定姿态两个步骤,其中锚定姿态的相似度计算公式为:
Figure BDA0002874319270000041
其中ak,j表示第k个锚定姿势的关节j的位置,gj表示真实标注的关节节点j,J为关节节点的总数量,K为锚定字数的总数量。
2D姿态细化损失L2D用于优化最终的2D锚定姿态,将双流网络预测的2D回归增量加到锚定姿态上,获得一组最终的2D姿态锚定预测P2D
Figure BDA0002874319270000042
其中P2D为最终预测的预测框为前景的概率,Nfg为前景的数量,T2D为每个前景的目标区域对应的真实标注。li是参数因子,smooth_ll为平滑函数。
3D姿态细化损失L3D与2D姿态细化损失类似,将回归增量加入3D锚定姿态来获得最终的3D姿态P3D,但由于双流神经网络没有使用有3D标注的数据,所以网络将3D姿态投影到2D图像空间来做计算:
Figure BDA0002874319270000043
Nfg为前景的数量,T3D为每个前景的目标区域对应的真实标注,pr函数为投影函数,将P3D投影到2D空间。
姿态识别单元中预先设定了表演者的姿态动作信息,接收到姿态生成单元生成的姿态集后,识别姿态集中的表演者姿态,若识别的该姿态与存储的预设姿态中姿态匹配,则将匹配的预设姿态作为识别结果发送到控制单元;
所述控制模块中保存了与表演者预设姿态对应的预设场景,控制模块接收到处理模块的姿态识别结果后,根据识别结果判断表演者的意图,加载对应的动画场景到舞台屏幕上,同时控制舞台场景布置的切换,包括灯光、音乐、舞台特效、舞台升降等。

Claims (4)

1.一种基于图像和雷达数据的舞台交互系统,其特征在于:包括信息采集模块、处理模块和控制模块;
所述信息采集模块,使用一台RGB摄影机和一台LiDAR激光雷达,分别对舞台进行图像拍摄和雷达探测,实时获取舞台上的表演者信息,将雷达探测得到的数据以与RGB图像相同的频率生成雷达点云图后,将RGB图像和雷达云点图作为现场数据,一同传输到处理模块中;
所述处理模块包括姿态生成单元和姿态识别单元,姿态生成单元通过双流网络学习信息采集模块采集的数据,生成姿态集;姿态识别单元找到姿态集中的现场姿态对应的预设姿态,将识别结果发送给控制模块;
所述双流网络包括特征提取、特征聚合与姿态生成模块;其中特征提取模块首先单独处理雷达点云图得到鸟瞰图,然后利用VGG-16网络提取鸟瞰图与RGB图像特征,得到特征图;特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置;姿态生成模块根据表演者在图像中的位置信息,将锚定姿态拟合到目标区域中,生成姿态集;
所述控制模块,接收到处理模块的姿态识别结果后,根据识别结果判断表演者的意图,控制舞台随表演者的姿态进行变化。
2.如权利要求1所述一种基于图像和雷达数据的舞台交互系统,其特征在于:所述RGB摄影机和LiDAR激光雷达布置在舞台前方。
3.如权利要求1所述一种基于图像和雷达数据的舞台交互系统,其特征在于:所述舞台屏幕内容的变化包括虚拟环境影像和背景屏幕显示内容的变化。
4.如权利要求1所述一种基于图像和雷达数据的舞台交互系统,其特征在于:双流网络的优化过程中,使用RPN损失LRPN、锚定姿态损失Lcls、2D姿态细化损失L2D和3D姿态细化损失L3D四项损失的和作为优化指标Ltotal
CN202011609683.2A 2020-12-30 2020-12-30 一种基于图像和雷达数据的舞台交互系统 Pending CN112598742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011609683.2A CN112598742A (zh) 2020-12-30 2020-12-30 一种基于图像和雷达数据的舞台交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011609683.2A CN112598742A (zh) 2020-12-30 2020-12-30 一种基于图像和雷达数据的舞台交互系统

Publications (1)

Publication Number Publication Date
CN112598742A true CN112598742A (zh) 2021-04-02

Family

ID=75206255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011609683.2A Pending CN112598742A (zh) 2020-12-30 2020-12-30 一种基于图像和雷达数据的舞台交互系统

Country Status (1)

Country Link
CN (1) CN112598742A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024000362A1 (en) * 2022-06-30 2024-01-04 Intel Corporation Methods and apparatus for real-time interactive performances

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024000362A1 (en) * 2022-06-30 2024-01-04 Intel Corporation Methods and apparatus for real-time interactive performances

Similar Documents

Publication Publication Date Title
Hsieh et al. A real time hand gesture recognition system using motion history image
CN104601964B (zh) 非重叠视域跨摄像机室内行人目标跟踪方法及系统
CN103731583B (zh) 用于拍照智能化合成、打印处理方法
CN106598226A (zh) 一种基于双目视觉和深度学习的无人机人机交互方法
CN103105924B (zh) 人机交互方法和装置
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN108229587A (zh) 一种基于飞行器悬停状态的输电杆塔自主扫描方法
CN103714321A (zh) 基于距离图像和强度图像的驾驶员人脸定位系统
CN104517095A (zh) 一种基于深度图像的人头分割方法
CN110378946A (zh) 深度图处理方法、装置以及电子设备
CN113158833B (zh) 一种基于人体姿态的无人车控制指挥方法
CN112487981A (zh) 基于双路分割的ma-yolo动态手势快速识别方法
CN111767831B (zh) 用于处理图像的方法、装置、设备及存储介质
CN112657176A (zh) 一种结合人像行为信息的双目投影人机交互方法
CN114445853A (zh) 一种视觉手势识别系统识别方法
Li et al. Weak moving object detection in optical remote sensing video with motion-drive fusion network
CN112598742A (zh) 一种基于图像和雷达数据的舞台交互系统
Feng et al. Effective venue image retrieval using robust feature extraction and model constrained matching for mobile robot localization
CN112655021A (zh) 图像处理方法、装置、电子设备和存储介质
Konishi et al. Detection of target persons using deep learning and training data generation for Tsukuba challenge
CN113778233B (zh) 一种操控显示设备的方法、装置及可读介质
CN108805006A (zh) 一种基于深度摄像头的手势识别系统
Domhof et al. Multimodal joint visual attention model for natural human-robot interaction in domestic environments
Shoman et al. Illumination invariant camera localization using synthetic images
CN112529917A (zh) 一种三维目标分割方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination