CN109815779A

CN109815779A - 一种舞台特效触发方法及系统

Info

Publication number: CN109815779A
Application number: CN201810877194.1A
Authority: CN
Inventors: 陈洪; 宋晓宇
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-05-28

Abstract

本发明实施例提供了一种舞台特效触发方法及系统，包括：根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类；根据所述演员的行为种类触发对应的舞台特效。通过在舞台排演过程中，实时获取演员的行为种类，在演员作出特定行为时触发对应的舞台特效，无需演员配合特效的触发时间，可实现舞台特效的自动化触发，且运行效率高。

Description

一种舞台特效触发方法及系统

技术领域

本发明实施例涉及计算机技术领域，更具体地，涉及一种舞台特效触发方法及系统。

背景技术

随着近年来各式新型传感器(如微软的Kinect，因特尔的RealSense)的不断问世，多模态人体行为识别研究逐渐成为深度学习领域内一个新的研究热点。相关研究成果可以广泛应用到智能视频监控、互动娱乐、视频内容的分析与检索等应用中。

现有技术中对于舞台排演中舞台动作的控制，主要通过演员精确配合固定的舞台动作触发时间，但是这种处理方式存在排演难度大和运行效率差的问题。

发明内容

本发明实施例提供了一种克服上述问题或者至少部分地解决上述问题的舞台特效触发方法及系统。

一方面本发明实施例提供了一种舞台特效触发方法，包括：

根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类；

根据所述演员的行为种类触发对应的舞台特效。

进一步地，所述根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类，具体包括：

将所述影音数据输入训练好的多模态深度神经网络，输出所述影音数据对应的编码；其中，所述多模态深度神经网络是基于样本影音数据以及所述样本影音数据对应的样本编码训练得到的；

根据所述影音数据对应的编码，获取演员的行为种类。

进一步地，所述多模态深度神经网络包括长短期记忆网络LSTM层。

进一步地，所述将所述影音数据输入训练好的多模态深度神经网络，输出所述影音数据对应的编码之前，还包括：

从现有视频数据集中获取多个所述样本影音数据及多个所述样本影音数据对应的样本编码，将多个所述样本影音数据及多个所述样本影音数据对应的样本编码作为训练数据集；并对所述多模态深度神经网络进行权重初始化，得到初始化后的多模态深度神经网络；

利用所述训练数据集采用梯度下降法对初始化后的多模态深度神经网络进行训练，得到所述训练好的多模态深度神经网络。

进一步地，所述利用所述训练数据集采用梯度下降法对初始化后的多模态深度神经网络进行训练之前，还包括：

将所述训练数据集中的多个所述样本影音数据进行分组得到多个数据组；其中，每一数据组中包含第一样本影音数据、第二样本影音数据及第三样本影音数据，所述第一样本影音数据与所述第二样本影音数据分别对应相同的行为种类，所述第一样本影音数据与所述第三样本影音数据分别对用不同的行为种类；相应地，

所述利用所述训练数据集采用梯度下降法对初始化后的多模态深度神经网络进行训练，得到所述训练好的多模态深度神经网络，包括：

依次将多个所述数据组输入所述初始化后的多模态深度神经网络并输出对应的样本编码，采用梯度下降法对所述多模态深度神经网络中的参数进行优化，直至每一所述数据组中的所述第一样本影音数据对应的样本编码与所述第二样本影音数据对应的样本编码之间的差异小于第一预设阈值，且所述第一样本影音数据对应的样本编码与所述第三样本影音数据对应的样本编码之间的差异大于第二预设阈值，即得到所述训练好的多模态深度神经网络。

进一步地，所述现有数据集包括UCF101、HMDB51或HOLLYWOOD2。

进一步地，所述根据所述所述影音数据对应的编码，获取演员的行为种类之前，还包括：

将多个待识别的行为种类对应的影音数据输入所述训练好的多模态深度神经网络，得到多个对应的编码，将所述多个待识别的行为种类和所述多个对应的编码按照一一对应的关系进行存储，得到行为编码库；相应地，

所述根据所述影音数据对应的编码，获取演员的行为种类，包括：

将所述影音数据对应的编码在所述行为编码库中进行一一比对，获取演员的行为种类。

进一步地，所述根据所述演员的行为种类触发对应的舞台特效，具体包括：

在判断获知所述演员行为种类为预设行为种类时，触发对应的舞台特效。

另一方面本发明实施例提供了一种舞台特效触发系统，所述系统包括：

行为种类获取模块，用于根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类；

舞台特效触发模块，用于根据所述演员的行为种类触发对应的舞台特效。

第三方面本发明实施例提供了一种舞台特效触发设备，包括：

至少一个处理器、至少一个存储器、通信接口和总线；其中，

所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

本发明实施例提供的一种舞台特效触发方法及系统，包括：根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类；根据所述演员的行为种类触发对应的舞台特效。通过在舞台排演过程中，实时获取演员的行为种类，在演员作出特定行为时触发对应的舞台特效，无需演员配合特效的触发时间，可实现舞台特效的自动化触发，且运行效率高。

附图说明

图1为本发明实施例提供的一种舞台特效触发方法的流程图；

图2为本发明实施例提供的一种演员行为种类获取方法的流程图；

图3为本发明实施例提供的一种舞台特效触发系统的结构框图；

图4为本发明实施例提供的一种舞台特效触发设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种舞台特效触发方法的流程图，如图1所示，所述方法包括：

S101，根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类；

S102，根据所述演员的行为种类触发对应的舞台特效。

其中，影音数据包括视频数据和语音数据，也可以理解为图像和语音两种模态的数据。影音数据一般可通过录像及收音设备采集得到。可以理解的是，舞台的预设区域为演员表演的的区域，演员的排演都在预设区域内进行。

具体地，根据实时采集的影音数据，识别出影音数据中包含的演员的行为种类，进而在演员作出特定行为时触发对应的舞台特效。

本发明实施例提供的一种舞台特效触发方法，通过在舞台排演过程中，实时获取演员的行为种类，在演员作出特定行为时触发对应的舞台特效，无需演员配合特效的触发时间，可实现舞台特效的自动化触发，且运行效率高。

在上述实施例的基础上，如图2所示，所述方法包括：

S201，将所述影音数据输入训练好的多模态深度神经网络，输出所述影音数据对应的编码；其中，所述多模态深度神经网络是基于样本影音数据以及所述样本影音数据对应的样本编码训练得到的；

S202，根据所述影音数据对应的编码，获取演员的行为种类。

其中，所述多模态深度神经网络包括长短期记忆网络LSTM层。

长短期记忆网络(Long Short-Term Memory，LSTM)是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

在步骤S201中，采用多模态深度神经网络从影音数据这个包含两种模态的数据中，获取影音数据对应的编码，包含不同行为种类的影音数据对应不同的编码。

在步骤S202中，多模态深度神经网络输出的仅仅是与输入量对应的编码，需要进一步通过编码获取对应的行为种类，当这一行为种类为预设的行为种类时，即触发对应的舞台特向。例如，当识别的行为种类为有演员跳跃，而演员跳跃这一行为种类是预设行为种类，这一预设行为种类对应的舞台动作为释放烟雾，那么此时通过相应的自控装置实现烟雾的释放。

本发明实施例提供的一种舞台特效触发方法，通过训练好的多模态深度神经网络对现场实时采集的舞台排演过程中语音数据进行识别，得到对应的行为种类，进而根据不同的行为种类触发不同的舞台动作，实现了舞台动作的全自动控制，无需人工操作且运行效率高。

在上述实施例的基础上，所述将所述影音数据输入训练好的多模态深度神经网络，输出所述影音数据对应的编码之前，还包括：

其中，所述现有数据集包括UCF101、HMDB51或HOLLYWOOD2等。

其中，UCF101，内含13320段样本，来源于网络视频库，一共有101种类别，主要包括人和物体交互，人与人交互，玩音乐器材，各类运动等。HOLLYWOOD2，内含1787段样本，分为12各类别。HMDB51由布朗大学于2011年发布，视频多数来源于电影，还有一部分来自公共数据库以及网络视频库，包含有6849段样本，分为51类，每类至少包含有101段样本。

另外，采用Xavier权重初始化方法来初始化权重，把权重矩阵初始化为如下形式：

其中，U[-a,a]是区间(-a,a)上的均匀分布，n是入神经网络的大小。

具体地，在利用多模态深度神经网络对影音数据进行识别之前，需要对多模态深度神经网络进行训练以得到训练好的多模态深度神经网络，在后续应用时，即可直接将影音数据输入训练好的多模态深度神经网络。

在上述实施例中，所述利用所述训练数据集采用梯度下降法对初始化后的多模态深度神经网络进行训练之前，还包括：

具体地，对多模态深度神经网络采用Adam优化算法，优化模型参数，使得不同类型的影音数据(语音与动作)经过多模态深度神经网络后得到的编码之间具有较大距离，具体步骤如下：

第一步：将训练数据集按三对一组划分为m组，每组内分别为第一影音数据Anchor(记为x_a)、第二影音数据Positive(记为x_p)、第三影音数据Negative(记为x_n)，其中x_a与x_p为同种行为种类(对相同行为的两次不同场景下的复现)，x_a与x_n为不同行为种类，每一组数据对记作X_i(i∈1...m)。

第二步：采用Mini-batch梯度下降，每次输入64组，对于每组的每个数据对在t时刻下，将其动作特征和语音特征进行FC融合，得到fe_t，输入LSTM单元，与前一时刻LSTM的输出a_t-1结合得到a_t。以此执行至数据对的末尾。

其中，Mini-batch，即小批量梯度下降法，内存利用率提高了，大矩阵乘法的并行化效率提高。跑完一次epoch(全数据集)所需的迭代次数减少，对于相同数据量的处理速度进一步加快。在一定范围内，一般来说Batch_Size越大，其确定的下降方向越准，引起训练震荡越小。

a_t＝o_t*tanh(C_t)

其中，o_t为输出门限，o_t＝σ(W_o*[h_t-1,x_t]+b₀)，C_t为当前状态，

其中，f_t为遗忘门限，o_t＝σ(W_f*[h_t-1,x_t]+b_f)，i_t为输入门限，o_t＝σ(W_i*[h_t-1,x_t]+b_i)，

第三步：训练时在每一单位时间t都要输出y_t′，损失函数采用三元损失函数(triplet loss)，采用Adam优化算法。

其中，三元损失函数的目的是通过学习，让x_a和x_p特征表达之间的距离尽可能小，而x_a和x_n的特征表达之间的距离尽可能大，并且要让x_a与x_n之间的距离和x_a与x_p之间的距离之间有一个最小的间隔α。

具体地，权重W用W＝W-α*m_t来更新，其中，m_t＝β₁m_t-1+(1-β₁)g_t，其中，β₁系数为指数衰减率，控制权重分配(动量与当前梯度)，通常取接近于1的值，默认为0.9，g_t表示第t时刻步的梯度。

在上述实施例中，所述根据所述所述影音数据对应的编码，获取演员的行为种类之前，还包括：

将多个待识别的行为种类对应的影音数据输入所述训练好的多模态深度神经网络，得到多个对应的编码，将所述多个待识别的行为种类和所述多个对应的编码按照一一对应的关系进行存储，得到行为编码库。

具体地，这一过程可以理解为录入行为种类的过程，即将需要用到的行为种类与编码一一对应，同时也为每一个需要用到的行为种类指定对应的舞台动作。

相应地，所述根据所述影音数据对应的编码，获取演员的行为种类，包括：

具体地，在应用训练好的多模态深度神经网络进行行为种类识别时，采集语音数据的装置的布置位置和布置方式需与录入行为种类时保持一致。

图3为本发明实施例提供的一种舞台特效触发系统的结构框图，如图3所示，所述系统包括：行为种类获取模块301和舞台特效触发模块302。其中：

行为种类获取模块301用于根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类。舞台特效触发模块302用于根据所述演员的行为种类触发对应的舞台特效。

具体地，本发明实施例中的舞台特效触发系统中各模块的作用及操作流程与上述方法类实施例是一一对应的，在此不再赘述。

本发明实施例提供的一种舞台特效触发系统，包括：根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类；根据所述演员的行为种类触发对应的舞台特效。通过在舞台排演过程中，实时获取演员的行为种类，在演员作出特定行为时触发对应的舞台特效，无需演员配合特效的触发时间，可实现舞台特效的自动化触发，且运行效率高。

如图4所示，在上述实施例的基础上，本发明实施例还提供了一种舞台特效触发设备，包括：至少一个处理器401、至少一个存储器402、通信接口403和总线404；其中，所述处理器401、存储器402、通信接口403通过所述总线404完成相互间的通信；所述通信接口403用于该建模设备与显示装置的通信设备之间的信息传输；所述存储器402存储有可被所述处理器401执行的程序指令，所述处理器401调用所述程序指令能够执行如图1所述的方法。

上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：行为种类获取模块，用于根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类；舞台特效触发模块，用于根据所述演员的行为种类触发对应的舞台特效。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种舞台特效触发方法，其特征在于，包括：

根据所述演员的行为种类触发对应的舞台特效。

2.根据权利要求1所述方法，其特征在于，所述根据实时采集到的舞台预设区域内的影音数据，获取演员的行为种类，具体包括：

根据所述影音数据对应的编码，获取演员的行为种类。

3.根据权利要求2所述方法，其特征在于，所述多模态深度神经网络包括长短期记忆网络LSTM层。

4.根据权利要求2所述方法，其特征在于，所述将所述影音数据输入训练好的多模态深度神经网络，输出所述影音数据对应的编码之前，还包括：

5.根据权利要求4所述方法，其特征在于，所述利用所述训练数据集采用梯度下降法对初始化后的多模态深度神经网络进行训练之前，还包括：

6.根据权利要求4所述方法，其特征在于，所述现有数据集包括UCF101、HMDB51或HOLLYWOOD2。

7.根据权利要求2所述方法，其特征在于，所述根据所述所述影音数据对应的编码，获取演员的行为种类之前，还包括：

8.根据权利要求1-7任一项所述方法，其特征在于，所述根据所述演员的行为种类触发对应的舞台特效，具体包括：

9.一种舞台特效触发系统，其特征在于，所述系统包括：

10.一种舞台特效触发设备，其特征在于，包括：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至8中任一项所述的方法。