CN117077084A

CN117077084A - 一种基于时空异构双流卷积网络的舞蹈评分方法

Info

Publication number: CN117077084A
Application number: CN202311331112.0A
Authority: CN
Inventors: 沈玉龙; 陈森霖; 袁博; 胡凯
Original assignee: Nanjing Baituo Vision Technology Co ltd
Current assignee: Nanjing Baituo Vision Technology Co ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-11-17
Anticipated expiration: 2043-10-16
Also published as: CN117077084B

Abstract

本申请公开了一种基于时空异构双流卷积网络的舞蹈评分方法,包括：从历史舞蹈视频中提取舞蹈动作特征参数和音乐特征参数；参照评分标准分别对各个舞蹈动作特征参数、由舞蹈动作特征参数和音乐特征参数融合而成的舞蹈者音乐卡点节拍表现参数、主观印象特征参数评分；构建舞蹈评分特征参数集，各个特征参数对应的标签为其舞蹈评分；对舞蹈评分参数集进行数据预处理，然后在汇聚节点处对不同特征参数数据进行数据融合；构建舞蹈评分样本集，用于训练基于时空异构双流卷积网络建立舞蹈评分模型。本申请基于数据类别不平衡算法、卡尔曼滤波方法、数据融合和时空异构双流卷积网络结构，能够克服舞蹈考试、舞蹈练习和舞蹈训练评分不科学合理的问题。

Description

一种基于时空异构双流卷积网络的舞蹈评分方法

技术领域

本申请涉及数据不平衡、卡尔曼滤波、舞蹈评分领域，具体涉及一种基于时空异构双流卷积网络的舞蹈评分方法。

背景技术

当前的动作识别是计算机视觉的一个研究热点内容，舞蹈评分方法基于动作识别为基础，融合声音数据、服饰、表演风格等特征数据，构成一种基于深度学习的AI自主评分标准。舞蹈动作的识别目标是从一个未知的视频序列中自动分析其中正在进行的行为，动作识别在视频监控、行为分析、智能家居、视频检索和人机智能交互等领域发挥着重要的作用，但由于视点变化、背景杂乱和光照条件等限制，动作识别仍然面临着重大挑战。近年来，深度卷积网络在图像和语音识别方面取得了巨大的突破。此后，计算机视觉的研究人员一直试图将卷积网络转移到动作识别上来应用。与图像领域的成功相比，深度学习在基于视频的动作识别领域发展相对缓慢。主要是因为与图像数据相比，视频数据的规模和多样性是不可比拟的，因此需要建立一个用于深度网络训练的大规模标记视频数据库；与二维图像相比，视频包含更多的时序信息，引入了比图像更复杂的分析工作。

舞蹈评分方法除了依靠动作识别，还需要考虑舞蹈配乐、舞蹈表演服饰和舞蹈表演者的仪容仪表等。在舞蹈评分方法中，舞蹈动作是占据最主要的特征参数，一段视频的数据中，动作内容占绝大部分需要分析的特征内容，而其他类别的数据特征内容较少，进而导致了数据类型特征不平衡。为了全面的评价舞蹈者舞蹈表演内容，需要将所有特征数据进行数据融合。现存的数据融合方式中，主要提及了将整体的检测结果融合提高结果准确率，未考虑多种的数据融合方式各有优劣。此外对于舞蹈的评分方法是具有较高的复杂性的，表演者的精神状态、舞蹈的编排、舞蹈的整齐度、对于舞蹈的音乐理解、服装造型等都需要进行一个合理的考虑。多维度的数据进行一个合理的打分，比较符合现在的舞蹈考核评分办法，但是现行的AI舞蹈评分方法仅仅考虑了其中一两个方面。在部分考试中，舞蹈者的舞蹈动作的评价需要客观公证，运用计算机进行一个评分参考，可以避免人的主观性。

随着人们的生活水平提高，绝大部分的舞蹈将作为一项健身运动慢慢进入大多数人的日常生活，目前已有基于姿态识别技术做舞蹈视频打分的系统，使用姿态模型识别出的肢体点进行单纯的相似度计算来评估舞蹈的分数。此类方式忽视了舞蹈音乐节拍和舞蹈类型以及舞蹈表演者服饰等特征参数，参考特征参数单一，计算机的打分会相对较低，不具有可靠的参考性。

申请号为：201310529096.6，发明名称为：一种人体动作自动评估方法及舞蹈评分系统提出了一种能够对人体整体动作和细致动作进行全面准确评估的人体动作自动评估方法及舞蹈评分系统，但是其忽略了舞蹈动作和音乐节拍以及其他因素对于评分的影响。申请号为：202010671631.1，发明名称为：基于姿态识别模型的舞蹈评分方法及相关设备》提出一种基于姿态识别模型的舞蹈评分方法、装置、计算机设备及存储介质，能够将教练的第一舞蹈视频和学生的第二舞蹈视频的起止时间对齐，确保学生和教练的动作对应，从而使得计算出的评分更可靠、准确率更高，但是其忽略了舞蹈打分的其他标准。

此外现有的计算机评分单一的依靠摄像机记录的视频内容进行舞蹈评分，不符合时代的发展，出现了VR、AR和MR技术。VR(Virtual Reality，虚拟现实)：可以让用户沉浸其中的由计算机生成的三维虚拟环境，并与现实环境相隔绝。AR(Augmented Reality，增强现实)：在真实环境中增添或者移除由计算机实时生成的可以交互的虚拟物体或信息。MR(Mixed Reality，混合现实)：通过全息图，将现实环境与虚拟环境相互混合，也可以看成是VR与AR的混合。目前有公司进行了VR游戏评分、AR算力计算和MR的特征增强技术进行结合，综合来评价舞蹈者的舞蹈评分。随着计算机的发展，算力的提升，可以采用多传感器结合电脑算力进行一个机器打分，一般采用AR-VR(Augmented Reality - Virtual Reality，AR-VR)技术，通过数据融合技术和深度学习的模型建立，将人工打分和机器打分想结合，综合评分的效果更佳。因此将现有的舞蹈动作评分方法不足之处，总结如下：

问题1：单一的舞蹈动作识别评价方法，不能够较好的表现出舞蹈者的真实水平，对于舞蹈者的舞蹈动作变化随着音乐节拍的变化，存在较大的瑕疵，不符合真实的舞蹈评分方法。对于部分专利考虑到舞蹈者舞蹈风格和舞蹈类型的关系，但是忽略了舞蹈者表演舞蹈的其他因素，得到的参考分数意义不大。部分舞蹈评分方法采用了舞蹈动作识别和舞蹈音乐，但对于这两种数据特征类别不平衡未进行合适的处理；

问题2：现有的评分方法，使用的计算机进行计算，仅仅进行了舞蹈者舞蹈动作的识别，利用单一的相似度计算来评估舞蹈的分数。此类方式仅仅参考了舞蹈动作，忽略了舞蹈音乐的节拍，评估不准确。此外，相似度计算只能得到一个维度的分数，而舞蹈的评估应该从多角度，全方位的进行，否则，评估结果较片面，无法准确的评估出学生的舞蹈情况。

因此，针对上述现有的计算机舞蹈评分方法的一些问题，亟需一种更加符合现在计算机算力的合理的舞蹈评分方法。

发明内容

发明目的：提供一种基于时空异构双流卷积网络的舞蹈评分方法，将舞蹈视频和音频数据相融合，更全面的进舞蹈进行评分。

发明内容：本发明的一种基于时空异构双流卷积网络的舞蹈评分方法，包括如下步骤：

通过传感器获取专业舞蹈者的舞蹈音视频数据，作为音视频数据集，对专业舞蹈者的舞蹈视频数据处理成特征参数形式，作为特征参数数据集；

采用卡尔曼滤波方法对特征参数进行处理，在汇聚节点处对来自不同传感器的音频或视频数据进行数据融合；

构建时空异构双流卷积网络，将融合后的数据输入到时空异构双流卷积网络，用于对时空异构双流卷积网络进行训练,所述时空异构双流卷积网络的输出是舞蹈评分。

进一步，将音视频数据集中的每段舞蹈视频映射为特征参数的形式：，每个样本特征参数对应一个特征标签/>，其中/>表示特征参数的总数；

其中，特征参数是通过Slow-Fast方法对视频进行分解动作得到；

特征参数是舞蹈者音乐卡点节拍表现；

特征参数，属于主观印象特征，由评分者提供。

进一步的，所述特征参数包括少数类特征参数和多数类特征参数；少数类特征参数的采集量小于多数类特征的采集量；其中主观印象特征为少数类特征，其它特征参数为多数类特征；

新样本是类别平衡的特征参数。按照式（1）合成新样本/>，表示如下：

（1）

其中代表第/>个原始样本数据特征参数，/>的取值范围为/>，/>表示选择的/>最近邻特征参数，/>为0到1之间的随机数。

进一步的，将专业舞蹈者的音视频数据集分为训练集、测试集和验证集；训练集中多数类样本特征参数和少数类样本特征参数的数据数量分别表示为M和N，基于特征参数的数据分布的重采样方法生成的平衡子集的样本总数表示为S；

经过聚类后的多数类训练集被分为k个聚类，k个聚类中的多数类样本数量分别表示为，各个聚类的数量之和满足公式（3）；

（3）

对于每个平衡子集，从多数类中重采样的样本总数如公式（4）所示；

（4）

从少数类样本集中随机采样一半数量的样本得到少数类样本子集，并将少数类样本子集和多数类样本子集进行合并，得到平衡训练子集。

进一步的，采用所述采用卡尔曼滤波方法对特征参数进行处理，舞蹈动作特征的状态方程为：

（5）

式中表示舞蹈动作在/>时刻的特征状态值；/>表示舞蹈动作在/>时刻的特征状态值；/>表示舞蹈动作特征状态变换矩阵；/>表示传感器采集数据过程噪声；

舞蹈动作的特征观测方程为

（6）

式中表示/>时刻测量舞蹈动作特征值；/>表示测量矩阵；/>表示传感器采集数据观测噪声。/>和/>是相互独立的高斯白噪声。

根据式（5）对舞蹈动作特征状态进行一步预测，利用时刻舞蹈动作状态的特征最优估计值/>预测/>时刻的舞蹈动作特征一步预测值：

（7）

式中表示当前舞蹈动作特征状态的控制量，舞蹈动作不具有特征控制量时刻为0；B表示作用在控制器向量/>上的控制矩阵。一步特征预测值误差的协方差矩阵。

（8）

式中表示/>时刻特征估计误差协方差矩阵；/>表示过程噪声的协方差矩阵，T为矩阵转置。

最优估计值由一步特征预测值和残差通过卡尔曼增益线性组合而成，其中残差为/>，即

（9）

卡尔曼增益

（10）

式中表示测量噪声的协方差矩阵。

在时刻的迭代过程中需要更新当前/>时刻的估计误差协方差/>，为下一时刻滤波做准备，即

（11）

式中表示单位矩阵。

当舞蹈动作特征在时刻时，将/>用于当前的迭代中，通过式（8）和式（10）分别求出一步预测误差协方差矩阵/>和卡尔曼增益/>，根据上述公式卡尔曼滤波能够依次迭代下去。

进一步的，所述时空异构双流卷积网络包括BN-Inception网络和ResNet网络，所述BN-Inception网络用于接收视频数据，所述ResNet网络有于接收音频数据。

进一步的，所述时空异构双流卷积网络通过视频分段来提取视频序列中长时间的时间信息，具体步骤包括：

根据时间的长短，将舞蹈视频分成个等长片段/>, 基于分段的空时异构双流卷积网络/>对动作的识别表示为：

式中：是一个片段序列，每个代码片段/>从其对应的片段/>中随机采样，在空间网络对应的是RGB帧图像，时间网络是光流；/>是一个带有参数/>的卷积神经网络函数，该函数对代码片段/>进行操作，生成所有类的类分数；分段融合函数/>将多个短片段的输出融合，得到空间网络或时间网络的特征；利用输出函数/>对动作识别结果进行评价，利用 MLP输出舞蹈动作的评分。

进一步的，分段融合的损失函数定义为：

（23）

式中：G表示动作类别的数量；表示关于类别/>的基准标签；是类/>的类得分，通过对/>个片段的同一类别的得分进行平均得到。

进一步的，采用反向传播算法联合优化模型参数；

反向传播过程中，的梯度对时空异构双流网络行为识别损失值/>可以推导出如下公式：

（24）

然后，通过小批量随机梯度下降法得到相关的模型参数。

进一步的，采用函数，将评委评分和基于时空异构双流网络得到的评分进行融合，得到最终的舞蹈分数。

有益效果：对于背景技术部分提出的问题1：本申请提出了基于数据融合的方法，从多个数据源进行舞蹈动作、舞蹈音乐、舞蹈服饰和舞蹈表演者的仪容仪表等，进行一个数据融合。因为舞蹈评分的数据类别存在不平衡性，本申请采用SOMTE采样技术，构造数据子集，以此来减少数据类别不平衡性。SMOTE方法也存在明显的局限性，因为它通过随机选择最近的邻居来创建少数样本，这会产生大量的噪声，在此基础上提出了卡尔曼滤波的方法去除SMOTE技术带来的噪声，以及数据融合中，舞蹈动作通过视频传感器带来的其它噪声。利用最小二乘法，进行数据融合；

对于背景技术部分提出的问题2：本申请提出基于时空异构双流卷积网络结构。在原双流网络结构中，时间网络和空间网络具有相同的结构，但人们对表观和运动的理解是两种不同的过程，因此空间和时间网络应该是不一样的。本申请进一步的提出了基于时空异构双流网络的动作识别方法。此外，为了从舞蹈序列中提取长时间信息，将视频分段的思想引入到提出的时空异构网络中。从时间和空间两个维度进行舞蹈评分，因而提出了时空异构双流卷积网络结构。

附图说明

图1是基于多传感器的舞蹈评分方法图。

图2是基于卡尔曼滤波的时空异构双流卷积舞蹈评分方法流程图。

图3是部分舞蹈姿势图。

图4是舞蹈表演者动作特征识别的示例图。

图5是SMOTE算法示例图。

图6是基于卡尔曼滤波的数据融合算法结构图。

图7是时空异构双流卷积网络模型示意图。

图8是BN-Inception网络示例图。

图9是ResNet网络示例图。

图10是本申请专利舞蹈评分方法应用实例的效果截图。

具体实施方式

以下结合图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请。

基于江苏某高校高考艺术类舞蹈招生的舞蹈考生进行实施例介绍，进行实例分析，在图10给出本申请舞蹈评分方法应用实例的效果截图。本实例数据来源于江苏某高校高考艺术类舞蹈招生视频，近5年的舞蹈视频素材（含评委打分），数据主要用于科研，不作其他商业使用，同时数据严格限制传输，仅供参与研究的公司、研究所和高校使用。

本申请基于数据类别不平衡算法、卡尔曼滤波方法、数据融合和时空异构双流卷积网络结构，提出一种基于时空异构双流卷积网络的舞蹈评分方法，用于缓解舞蹈考试、舞蹈练习和舞蹈训练评分不科学合理的问题。

AR-VR技术利用视觉传感器、音频传感器等，进行舞蹈者舞蹈表演的内容录制和动作识别，同时将内容投影到显示器上，将虚拟世界与现实世界相结合，对于舞蹈者的舞蹈一个全面综合的分析。同时，AR-VR技术可以通过计算机和一些传感器设备对舞蹈者的动作、音乐、表情和服装等进行现实感知计算，将文字、图片、视频和音频等信息相互融合，叠加在舞蹈者表演的特定舞台，具有虚拟现实融合、实时交互、三维分析等特征。

采用AR-VR技术，舞蹈者的表演在固定的场地进行，通过多种传感器技术可以保证实时、有效且精准的识别舞蹈者的动作和舞蹈音乐节拍以及舞蹈者的表情变化。因为舞蹈表演者的舞蹈风格、舞蹈服饰、舞蹈音乐和舞蹈内容等多重复杂的舞蹈表演情况下，容易造成不同程度的测量失真。因此，如何就多传感器信息进行数据处理，是提高舞蹈表演者动作识别、音乐识别等抗干扰能力，且更精准、灵敏地识别舞蹈者的舞蹈变化所亟待解决的问题。多传感器数据融合技术能够将多个传感器的识别进行综合分析，以获得比单源数据更高精度的识别结果。因此，多传感器融合技术已广泛应用于多干扰因素下的舞蹈识别领域，基于多传感器的舞蹈评分方法如图1所示。如附图所以，存在图像传感器、音频传感器和专业评委，此三者为数据融合获得数据的来源；舞台灯光、透镜、激光器等属于采集数据的设备及辅助设备；舞蹈者是数据的制造者，提供数据源。

因为本申请需要处理的数据，存在类别不平衡的因数，采用SMOTE技术进行采样，能够有效缓解数据不平衡带来的负面影响。本申请采用AR-VR技术，需要多传感器的数据获取，存在一定的噪声污染。为了解决SMOTE采样带来的噪声污染和多传感器带来的噪声污染，采用卡尔曼滤波算法，进行噪声去噪处理。在数据融合的基础上，采用时空异构双流卷积网络结构，对舞蹈动作、舞蹈音乐等信息，进行全面的建模，得到最终的一个舞蹈评分方法，图2为基于卡尔曼滤波的时空异构双流卷积舞蹈评分方法流程图。

本申请一种基于时空异构双流卷积网络的舞蹈评分方法，包括2个部分，包括学习部分和使用部分。

舞蹈评分方法的学习过程在于数据集中专业评委老师对于各个舞蹈考核动作的标准打分，打分分为各个舞蹈动作考试内容与评分标准的内容，本申请在基于数据融合的舞蹈评分方法，依据历史的舞蹈评分作为参考。

专业评委老师的考核根据基础测试、舞蹈表演、编舞能力等进行考核。

（1）基础测试

基础测试考查考生形体条件，身体各部分软开度，弹跳能力，要求考生具有体态匀称、五官端正、健康挺拔、气质好的形体条件；软开度好，弹跳能力强。A档（90-100分），有很好的学习舞蹈的基本形体素质；有很好的腰、腿、肩的“软”、“开”度基础，准确掌握“开、绷、直、立”；有很好的控制能力及弹跳能力，动作的力度感和稳定性很好，并熟练的掌握一些难度较高的舞蹈技术、技巧动作。B档（75分-89分），有较好的学习舞蹈的形体素质，有较好的“软”、“开”度基础，以及较好的弹跳能力与动作稳定性，正确掌握舞蹈基本技术动作。C档（60分-74分），有一定的“软”、“开”度基础和弹跳能力，动作基本稳定协调，能够完成舞蹈基本技巧动作，具备舞蹈形体训练的基本条件。D档（59分及以下），形体基本素质较差，协调性较差，完成舞蹈基本动作较困难，舞蹈形体训练的基本条件较差。

（2）舞蹈表演

舞蹈表演考查考生身体协调性、舞蹈表演基本素质和对舞蹈作品的表现力，要求考生能够准确把握舞蹈作品基本韵律和风格特点，具备舞蹈的身体素质、技术、情感和形象塑造能力。A档（90-100分），舞蹈动作流畅协调，舞姿优美敏捷，情绪饱满自然，形象塑造力强，舞蹈与音乐和谐一致，节奏感强，风格把握正确，具有很好的舞蹈专业发展潜力。B档（75分-89分），舞蹈动作娴熟协调，舞蹈风格把握准确，舞姿优美，情绪饱满，形象塑造力较好，节奏感好，具有较好的舞蹈专业发展潜力。C档（60分-74分），舞蹈动作比较协调，基本能把握舞蹈的风格特点，有一定的形象塑造力，音乐与舞蹈基本一致，节奏正确。D档（59分及以下）舞蹈动作呆板、僵硬，节奏感较差，舞蹈动作完成度较差。

（3）编舞能力

编舞能力测试考察考生在根据所给予的音乐片段即兴舞蹈，编舞能力测试要求学生在规定的主题或者规定的道具情况下，根据音乐即兴舞蹈并展示。A档（90-100分），围绕主题进行结构化设计，主题清晰准确，对音乐有较强理解力和表现力，充分合理的运用表现空间，调度合理。动作设计符合主题及音乐风格，动作流畅，表情自然，可恰当使用道具。B档（80分-89分），围绕主题进行结构化设计，主题较清晰准确，对音乐节奏把握准确，合理的运用表现空间。动作设计基本符合主题及音乐风格，动作流畅，表情自然，可恰当使用道具。C档（70分-79分），围绕主题进行结构化设计，主题清晰，对音乐有基本的理解力和表现力，能够有效运用表现空间。动作设计基本符合主题及音乐风格，动作自然流畅，恰当使用道具。D档（60分-69分及以下），对音乐的理解力和表现基本准确，运用舞蹈的表现空间不够充分。能够运用道具，舞蹈结构不够清晰，基本体现音乐的节奏特点，基本可以体现所表现的舞蹈主题意境。E档（59分及以下），对音乐的理解力和表现较弱，运用舞蹈的表现空间不充分。能够运用道具，舞蹈结构不够清晰，基本体现音乐的节奏特点，基本可以体现所表现的舞蹈主题意境。

实施例一

本申请的学习过程根据步骤一、步骤二和步骤三来，具体学习过程如下：

1.1学习过程首先根据历史数据集，对于数据较少的部分先进行数据样本平衡处理，构造平衡子集，将数据集进行扩充；

1.2 对于数据进行标准化处理，在本申请的学习时，需要将特征参数标准化处理，有利于本申请方法的学习；

1.3评委老师打分根据每个舞蹈者的动作进行细则评分，学习时将视频数据依据Slow-Fast动作分解，将每个动作的得分进行打分学习。在将动作分解后的学习还需要包括对每个动作的评分，这里可以将老师评分当作一个标签特征进行学习

步骤二：基于卡尔曼滤波的舞蹈评分数据融合

2.1在步骤一的基础上融合其他参数，主要包括视频和声音两部分，对于不同的传感器之间的数据需要一个置信度，特征为舞蹈者音乐卡点节拍表现，需要将舞蹈动作特征和音乐节拍数据进行一个融合才能够学习到评委具体的打分；

2.2传感器采集数据存在一定的噪声污染，进行卡尔曼滤波去噪处理，鉴于舞蹈评分特征参数过多，传感器测量会受到大量复杂因素的干扰，因此在获得测量数据后，首先对数据进行预处理，再利用卡尔曼滤波算法去除过程噪声和测量噪声的影响；

2.3 基于多传感器数据最小二乘法融合，在汇聚节点处对不同传感器的数据进行加权数据融合，将融合好的数据，输入到时空异构双流卷积网络中。

步骤三：基于时空异构双流卷积网络建立舞蹈评分模型

3.1 将融合好的数据，输入到双流网络中，将BN-Inception和ResNet网络引入作为时空异构双流网络的基本网络，最后引入视频分段的思想，建立了视频分段的时空异构双流卷积网络模型；

3.2 建立长时间的网络结构，参考TSN网络结构思路，通过视频分段来提取视频序列中长时间的时间信息来提高时空异构双流网络的性能；

3.3 在上述步骤3.2基础上输出一个舞蹈评分模型建立完成，根据本申请的评分方法，最终输出一个综合的分数。

本申请的使用过程如下：

在上面的学习过程中，本申请已经训练出一个较好的模型，在使用时仅需将数据融合输入到模型中。本申请的基于数据融合的舞蹈评分方法，根据Slow-Fast动作分解的方法，依据动作得分与学习过程中动作相似度得分，得到每个特征参数的得分；

学习过程中训练好的时空异构双流卷积网络网络模型，融合多源数据和信息，最终得到一个科学合理的打分。

实施例二

本申请的一种基于时空异构双流卷积网络的舞蹈评分方法，包括步骤如下：

步骤一：舞蹈评分数据预处理；

步骤二：基于卡尔曼滤波的舞蹈评分数据融合；

步骤三：基于时空异构双流卷积网络建立舞蹈评分模型。

具体步骤如下：

步骤一：舞蹈评分数据预处理

本申请需要利用海量的历史数据进行计算机模型的舞蹈评分方法的建立，训练好的计算机模型可以用来对后续的舞蹈者的舞蹈进行评分。舞蹈评分方法包含以下一些主要内容：舞蹈表演者的五官形象和四肢比例、舞蹈专业要求有较强的表现欲和表演能力、舞蹈表演者对音乐有较强的理解和把握能力、舞蹈种类、舞蹈基本功测试(软开度、控制、跳、转、翻)、舞蹈表演者对于身体的控制的考核、舞蹈表演者对于身体的跳跃的考核、舞蹈表演者对于身体的旋转的考核、舞蹈表演者对于身体的翻身的考核、舞蹈表演者对于技术技巧展示考核、舞蹈表演者舞姿对于音乐节拍卡点的考核、舞蹈表演者对于舞台控场力的考核等。因为舞蹈表演的内容不同，舞蹈的动作、舞蹈音乐、舞蹈服饰和舞蹈者的样貌等存在较大的差异，因而需要进行数据的预处理，便于后续的数据融合，且数据预处理基于传感器端，便于后续的采样和数据融合，具体数据预处理内容如下。

1-1本申请针对的是舞蹈评分方法，因而需要海量的数据内容，舞蹈评分方法主要运用在考试、舞蹈培训、舞蹈健身和康复性动作训练等场合，为了保证数据的全面性和真实性，本申请数据主要来自于舞蹈考生的现场实录，具有较高的参考价值和实际意义。以中央民族大学舞蹈学院舞蹈表演专业为例，考试要求分为两次。

一试为两个考核内容：其一，形象、形体和基本功基础能力测试；其二，个人舞蹈表演（限时1分钟）。

二试为两个考核内容：其一，基本功能力与技术测试，其二，个人舞蹈表演（限时1分半钟）；其三，个人技术技巧组合测试（不用音乐，含控制、跳转翻，限时1分钟），个人舞蹈表演（表演专业可穿舞蹈服装表演，限时1分半钟），即兴表演。

总体的考核时长不超过10分钟，按秒来记录下来舞蹈者的动作、形态、表情、音乐、控场力等，一个艺术院校舞蹈考试每学期一般至少有1次500人的各种舞蹈考试，所以以一年为单位，很容易收集到2（学期）*500（人）*1（次考试）=1000个舞蹈特征的打分，乃至更多，该舞蹈特征的打分由专业老师打分，与特征标签相对应。本申请收集数据之后，将其分成训练集、测试集和验证集三个组成部分，以便更好地训练和更准确地评价，将/>数据集作为训练序列，/>数据集作为测试序列和/>数据集作为验证集，/>数据集用来进行验证本申请评价方法的准确率。

1-2舞蹈数据预处理

本申请采用图神经网络建立舞蹈评分方法模型，因而需要大量的数据。舞蹈评分的数据主要分为两部分组成，其一为实时变化舞姿和音乐；其二为服装、表情等变化数据。不同的舞蹈内容和舞蹈音乐以及表演者含有不同的参数，本申请需要分别获取少数类特征参数和多数类特征参数。

何恺明团队在2019年提出的分开处理空间信息和时序信息的方法，对于动作识别利用Slow-Fast的方法，按照不同的通道进行动作采样。Slow pathway 慢通道，Slow分支利用较少的帧数以及较大的通道数学习空间语义信息；Fast pathway 快通道，Fast分支利用较大的帧数以及较少的通道数学习运动信息。Slow-Fast对于动作识别的参数选择，利用空间范畴的语义演化，在视频中慢动作比快动作要多。对于动作的分解Slow路径显然是为了捕获空间语义信息，即舞蹈动作的达标程度；Fast路径负责捕获快速变化的运动，以快速刷新速度和高时间分辨率运行，即舞蹈动作的变化程度。受到Slow-Fast的方法启发，本申请的动作识别，也依据Slow-Fast方法进行分解，分解为舞蹈动作的达标程度和舞蹈动作的变化程度。

本申请根据获到的舞蹈表演者的评分相关特征参数，其动作识别的具体参数标准参考中央民族大学公布的舞蹈表演专业招生考试内容与评分标准的内容，现将其将其映射为向量的形式：，其中

为舞蹈者的腰开度表现；

为舞蹈者的腿开度表现；

为舞蹈者的肩开度表现；

为舞蹈者的竖叉与地面贴合度表现；

为舞蹈者横叉胯根与地面贴合度表现；

舞蹈者的脚背开度大小；

舞蹈者的膝盖开度大小；

舞蹈者的胯根开度大小；

为舞蹈者面向一点搬前腿并控制平衡度的能力表现；

舞蹈者面向一点搬旁腿并控制平衡度的能力表现；

舞蹈者面向一点搬后腿并控制平衡度的能力表现；

为舞蹈者正反两面吸腿大跳跳跃程度表现；

为舞蹈者撕叉跳跳跃程度表现；

为舞蹈者倒踢紫金冠跳跃程度表现；

为舞蹈者双飞燕跳跃程度表现；

为舞蹈者撍步跳跳跃程度表现；

为舞蹈者二位转姿态表现；

为舞蹈者二位转圈数表现；

为舞蹈者四位转姿态表现；

为舞蹈者四位转的圈数表现；

为舞蹈者旁腿转表现；

为舞蹈者旁腿吸腿转表现；

为舞蹈者平转姿态表现；

为舞蹈者平转圈数表现；

为舞蹈者点翻身表现；

为舞蹈者串翻身表现；

为舞蹈者踏步翻身表现；

为舞蹈者串翻身侧手翻表现；/>

为舞蹈者侧空翻表现；

为舞蹈者挺身前空翻表现；

为舞蹈者三连跳表现；

为舞蹈者连续翻腾表现；

为舞蹈者挥鞭转表现；

为舞蹈者纵横劈叉表现；

为舞蹈者前桥表现；

为舞蹈者后桥表现；

为舞蹈者虎跳表现；

为舞蹈者小翻表现；

为舞蹈者上步掖腿转表现；

为舞蹈者吸腿翻身转表现；

为舞蹈者圈平转表现；

为舞蹈者绞腿翻身表现；

为舞蹈者圈跪转表现；

为舞蹈者飞脚表现；

为舞蹈者旋子360表现；

为舞蹈者龙门大卷表现；

为舞蹈者躺身蹦子表现；

为舞蹈者直腿蹦子表现；

为舞蹈者拉腿蹦子表现；

为舞蹈者圈蹦子表现；

为舞蹈者搬前腿转表现；

为舞蹈者搬旁腿转表现；

为舞蹈者搬后腿转表现；

为舞蹈者原地前桥表现；

为舞蹈者原地后桥表现；

为舞蹈者原地叉跳表现；

为舞蹈者横飞跳表现；

为舞蹈者凌空跃表现；

为舞蹈者撩腿劈叉跳表现；/>

为舞蹈者自编舞蹈表演表现；

为舞蹈者音乐卡点节拍表现；

为舞蹈者服装表现；

为舞蹈者舞蹈风格把控表现；

为舞蹈者仪容仪表表现；

为舞台控场力等。

每个样本参数对应一个特征标签，图3给出了部分舞蹈姿势图，图4给出舞蹈表演者动作特征识别的示例图。前60个表现的打分方法是按照步骤1-1进行收集，即Slow-Fast方法对视频进行分解动作得的输出作为类型输出，用类型的相似度作为考分。第61个的输出标签也是通过步骤1-1获得，但与前60个特征不同，该点的数据标签是基于舞蹈动作特征和音乐特征两部分相结合，需要数据融合，最终才可以得到该特征的打分。/>、/>、/>和/>个特征参数，不可以通过Slow-Fast方法进行分解动作得到，属于主观印象特征，短时间内不会有较大的变化，将采取的时间变为每半场约3分钟采集一次，且打分需要依靠评委老师的打分，数据的采集量远低于Slow-Fast方法通过视觉传感器的采集量，这就会照成样本不平衡。即使是采集时间不变换，数据样本依旧存在不平衡。

1-3舞蹈数据样本中的特征参数不平衡处理。

舞蹈数据样本中的特征参数不平衡是指数据集中不同类别的特征参数差异较大，数据类别分布不均衡的情况。就舞蹈评分数据而言，表演者的动作和音乐实时变化的相关特征参数种类较多，表演者的仪容仪表等相关特征参数数据变化种类较少，这样就存在样本的不平衡性。

当前数据集样本不平衡处理主要从数据层面和算法层面两个方面进行。数据层面有四种方法：扩大数据集、数据重采样、人工数据样本和基于异常数据的监测；算法层面有三种方法：不同分类算法、对小类错分进行加权惩罚和重构分类器。其中最常用的是基于数据层面的数据重采样，数据重采样分为三种：欠采样、过采样和混合采样。本申请采用混合采样，综合使用了过采样和欠采样方法来平衡各类样本数量，在一定程度上弱化了单一使用某种采样方法的缺点，对不同样本容量的数据集都有一定的适用。

本申请采用了经典的合成少数类采样技术SMOTE（Synthetic MinorityOversampling Technique）方法，该技术是基于随机过采样的一种改进为混合采样，基本思想是对少数类进行分析过后再进行合成，如图5，其中输入的是原始的特征参数，其中/>、/>、/>和/>特征参数为少数类特征参数，输出的新样本/>是类别平衡的特征参数。按照式（1）合成新样本/>。

（1）

其中代表原始样本数据特征参数，/>表示选择的/>最近邻特征参数，/>为0到1之间的随机数。SMOTE方法也存在明显的局限性，因为它通过随机选择最近的邻居来创建少数样本，这会产生大量的噪声，样本特征之间的高线性相关性可能会降低SMOTE方法的有效性。

1-4舞蹈数据特征参数归一化。

在步骤1-4中，在本申请收集数据在步骤1-1划分数据集，本申请最终采用的是时空异构双流卷积网络进行模型的建立，需要归一化处理数据。一般而言，当输入端数据接近于“0”平均值时，深度学习算法的学习效率最佳。对于收集的数据采用最大值最小值标准化，将数据映射到之间，标准化函数如下：

（2）

其中是t时刻的收集到的舞蹈表演者的特征参数，/>是收集到的样本参数中的最大值，/>是收集到的样本参数中的最小值，/>是t时刻收集到的舞蹈表演者的相关特征参数标准化结果。

1-5平衡子集的构造。

在平衡子集构造阶段，首先将经过特征处理阶段得到的训练数据根据其所属的类别划分为多数类样本和少数类样本。对于训练集中的少数类样本，采用SMOTE方法获得其更多的数据分布，在平衡子集构造前对特征参数的数据进行了归一化处理。

假设训练集中多数类样本特征参数和少数类样本特征参数的数据数量分别表示为M和N，基于特征参数的数据分布的重采样方法生成的平衡子集的样本总数表示为S。经过聚类后的多数类训练集被分为k个聚类，k个聚类中的多数类样本数量分别表示为，各个聚类的数量之和满足公式（3）。

（3）

设定每个平衡子集的样本总数等于少数类训练集的样本数量。根据每个聚类中样本数量占多数类样本总数的比例对每个聚类中的样本进行随机采样，将从不同聚类中随机采样的多数类样本进行合并可以得到多数类样本子集，并保证多数类样本子集的样本总数等于平衡子集样本总数的一半。对于每个平衡子集，从多数类中重采样的样本总数如公式（4）所示。

（4）

从少数类样本集中随机采样一半数量的样本得到少数类样本子集，并将少数类样本子集和多数类样本子集进行合并，经过此过程后得到一个平衡训练子集。通过对多数类样本根据其数据分布进行采样能够避免随机采样不能代表数据集样本分布情况的弊端，使得平衡子集能够更好地代表原始样本的真实情况。

步骤二：基于卡尔曼滤波的舞蹈评分数据融合

本申请的目的在于提供一种基于时空异构双流卷积网络的舞蹈评分方法，以解决现有的计算机对于舞蹈评分方式中，各数据之间相对独立，计算机评分方法参考条件单一等原因。现有的大部分计算机舞蹈评分方法仅从动作识别来考虑，未曾考虑到其他因素对于舞蹈评分的影响，也没有从多个数据间的关系进行舞蹈内容的评分，得到的舞蹈评分参考意义不大。

现实生活中，对于舞蹈的评分需要经过多个老师，多个参考因素进行舞蹈的内容的打分，得分是较为综合全面和科学的。本申请实现AR-VR应用的方法包括：音乐融合和动作识别等。在AR中，往往出现的虚拟对象通常都是以二维平面信息为主，这些信息甚至可能与眼前所看到的事物无关，其功能也是在不影响视线的前提下起到提示的辅助作用，所以这些虚拟信息和对象无论往哪个方向看它都是固定在同样的位置。而在VR中，则是将虚拟场景和现实融合在一起，其虚拟对象或信息也更具立体性和真实性。此外，其虚拟对象将会定位在真实世界中，即便你看向其他方向或是离开了，虚拟对象仍将会摆放在不变的位置。

AR-VR技术能够通过传感器使得，平面信息和三维信息进行融合，能够综合考虑到现实场景和虚拟场景等因素。基于AR设备中的关键硬件组件是处理器、显示器、输入设备和传感器。首先视觉传感器采集真实场景的对象，传入后台处理器单元并对其进行分析重构，实现坐标系的对齐以及进行虚拟场景融合，最终系统融合后的信息会实时显示在显示器中。基于AR技术的设备运行中，软件起着至关重要的作用。简单地说，想要体验AR技术，用户必须使用软件应用程序或浏览器插件。除了硬件和软件之外，Web或云服务器在存储虚拟映像数据中起着重要作用。基于从AR应用程序收到的请求，然后再从Web或云服务器检索虚拟对象并将其发送至应用程序。

本申请采用AR-VR技术，能够在不同的传感器上获得不同的数据内容，在步骤一中对于这些数据已经进行了预处理，在步骤二中对数据进行融合。因为在不同传感器上获得的数据，或多或少的存在着噪声污染，因而在步骤二中提出了基于卡尔曼滤波的方法进行融合，图6给出了基于卡尔曼滤波的数据融合算法结构图。

2-1在步骤一中，本申请对65个舞蹈评分特征参数进行了预处理，在步骤2-1中需要进行特征数据融合的处理。本申请采用的AR-VR技术，根据不同的视觉传感器、音频传感器等获得较多评分相关的特征参数，评分方法中的数据将经历检验、过滤以及转换等处理的数据暂存于新建的数据库中，在对数据进行数据融合处理后构建新的数据集，该数据集由历史人工评分方法数据所组成。

2-2卡尔曼滤波去噪。

在步骤一中，已经对由传感器采集的舞蹈评分相关特征参数数据进行了预处理,采用了重构平衡子集的方法来缓解舞蹈评分相关特征参数数据类别不平衡数据的问题，但是考虑到舞蹈评分数据的复杂以及无线传感器在测量过程中测量噪声影响会使测量数据出现大量测量误差，同时解决SMOTE方法产生的大量噪声等问题。本申请通过使用卡尔曼滤波达到有效去除噪声影响的目的，从而获得最接近真实值的估计值。

卡尔曼滤波是通过利用上一时刻舞蹈动作状态特征的最优估计值和当前时刻舞蹈动作的特征测量值，从而得到当前时刻舞蹈动作的特征最优状态估计值，并且使该特征最优估计值与特征真实值之间的误差最小，最大程度地接近舞蹈动作状态特征的真实值，因此卡尔曼滤波算法是一种无偏估计算法，通过使均方误差取得最小值来实现估计值和真实值的逼近。卡尔曼滤波过程的输入是原始传感器采集的数据信息，卡尔曼滤波过程：舞蹈动作特征的状态方程为：

（5）

式中表示舞蹈动作在/>时刻的特征状态值，如舞蹈者踏步翻身表现；/>表示舞蹈动作在/>时刻的特征状态值，如舞蹈者串翻身侧手翻表现；/>表示舞蹈动作特征状态变换矩阵，如舞蹈者前桥表现变换到舞蹈者后桥表现；/>表示传感器采集数据过程噪声，如部分动作转换之间的特征表现为过程噪声，过程噪声并且服从均值为 0 的高斯分布，即。舞蹈动作的特征观测方程为

（6）

式中表示/>时刻测量舞蹈动作特征值；/>表示测量矩阵；/>表示传感器采集数据观测噪声，如传感器精度误差引起的噪声，并且服从均值为0的高斯分布，即/>。/>和/>是相互独立的高斯白噪声。

（7）

（8）

（9）

卡尔曼增益

（10）

式中表示测量噪声的协方差矩阵。

（11）

式中表示单位矩阵。

鉴于舞蹈评分特征参数过多，传感器测量会受到大量复杂因素的干扰，因此在获得测量数据后，首先对数据进行预处理，再利用卡尔曼滤波算法去除过程噪声和测量噪声的影响。

2-3多传感器数据最小二乘法融合。

本申请基于最小二乘法原理在汇聚节点处进行加权数据融合。假设传感器的舞蹈动作特征方程为

（12）

式中表示舞蹈动作特征的状态值序列；/>表示传感器的舞蹈动作特征测量值序列；H表示舞蹈动作测量时的特征参数序列；/>表示测量到的噪声，如精度误差噪声和SMOTE噪声值序列，且是均值为0的高斯白噪声。

鉴于不同传感器测得的舞蹈动作特征数据置信度是不同的，所以依据置信度的不同来确定每个传感器数据所占的权重，设定置信度为95%（根据概率统计理论相关经验得到）。舞蹈动作状态值的最小二乘估计/>通过对误差平方和/>得到，用下式（13）表示：

（13）

求偏导，使其等于0，从而求出极小值，即

（14）

式中表示加权矩阵；/>表示第/>个传感器的舞蹈动作特征测量值序列；/>表示第个传感器舞蹈动作特征测量数据的加权系数。估计误差/>用公式（15）表示：

（15）

同时对公式（15）左右两侧取期望，得

（16）

估计误差的方差

（17）

式中，表示第/>个传感器特征测量舞蹈动作数据的测量方差。

为了确定估计误差的最小值，需要求方差对的偏导，令其等于0可得

（18）

由式（17）可知，每个传感器的加权系数与测量方差成倒数关系。由于本申请传感器节点采用了卡尔曼滤波跟踪状态真实值，所以进行加权融合时采用方差估计学习算法，算法流程：假设有个传感器所测得的数据需要在簇头节点处融合，/>是由第/>个传感器在/>时刻测量得到的数据。

首先求出所有传感器在时刻状态值的均值，传感器测量方差分配值/>等于该传感器在/>时刻的状态值和均值/>的差的平方：

（19）

（20）

当前时刻的测量方差的估计值等于第个传感器在当前时刻之前的所有测量方差分配值的均值，其求解公式为：

（21）

其中，数据融合加权系数可以通过把测量方差的估计值带入式（18）中获得。

本申请将测量方差的估计值代替测量方差，并且代入式（18），进而获得每个传感器的加权系数/>，最后由式（14）在节点处把传感器的数据进行融合。至此，本申请数据融合完成，下面将融合好的数据，输入到时空异构双流卷积网络中。

步骤三：基于时空异构双流卷积网络建立舞蹈评分模型

在步骤二中，本申请已经完成了数据融合，且根据卡尔曼滤波算法，去除了数据中的噪声，在步骤一中数据已经归一化处理，可以直接放入深度学习网络进行模型的训练，训练好的网络模型可以用来作舞蹈评分。现有的舞蹈评分方法基于动作分解和音频等信息，只能关注短期的运动变化，没有捕捉长视频中长时间的信息。其中空间流主要针对动作识别，时间流主要针对舞蹈音乐识别分解。

为了解决现有网络不能解决这个问题，Wang 等人提出了一种从视频数据中提取时间的网络TSN（Time-Sensitive Networking）网络。对于时间跨度较长的视频动作识别而言，单帧或者是单个短片段中单帧堆栈的数据量是不够的，需要采用密集时间采样的方式来获取长范围时间结构，但是这样会存在视频连续帧之间的冗余，因此要用稀疏的时间采样来代替密集的时间采样，可以去除一些冗余信息，同时降低计算量。Cho 等人提出了一个新的时空融合网络STFN (Scale-Transferrable Detection Network)，它集成了整个视频的外观和运动信息的时间动态，然后将捕获的时间动态信息进行融合，以获得更好的视频级表示，并通过端到端训练进行学习。Martinez 等人利用细粒度识别方面的进展来改进动作识别的模型，将重点放在如何提高网络的表示能力，也就是改进网络的最后一层，在这一层中变化对计算成本的影响很小。Torpey 等人使用三维卷积从视频采样片段中分别提取局部外观和运动特征，将局部特征连接起来形成全局表示，然后用全局表示训练一个线性支持向量机来执行行为分类。

基于以上方法，本申请提出一种基于动作识别的双流卷积网络结构。在原双流网络结构中，时间网络和空间网络具有相同的结构，但人们对表观和运动的理解是两个截然不同的过程，因此空间和时间网络应该是不一样的。为了解决这一问题，本申请提出了一种基于时空异构双流网络的动作识别方法。此外，为了从视频序列中提取长时间信息，将视频分段的思想引入到提出的时空异构网络中。

3-1时空异构双流卷积网络模型

基于双流卷积网络，提出了时空异构的双流网络结构，在此基础上，将 BN-Inception和ResNet网络引入作为时空异构双流网络的基本网络，最后引入视频分段的思想，建立了视频分段的时空异构双流卷积网络模型，整体框架图7所示，输入到时空异构双流卷积网络模型的数据为步骤二数据融合之后的数据。

BN-Inception是一个非常有效的正则化方法，使大型卷积网络的训练速度加快，同时收敛后的分类准确率也得到大幅提高。它不再依赖于具有技巧性的参数初始化点，可以使用更大的学习率加快训练过程，另外其正则化手段可以有效缓解或/>等激活函数的梯度消失问题，同时在一定程度上也降低了对 Dropout 等手段的依赖。

ResNet网络层次较深，能够处理视频信息和语音信息，且可以随着网络的层次增加相当的深度来提高准确率。因此本申请将ResNet和BN-Inception 网络作为基本网络，构建了一个更深层次的时空异构双流网络。BN-Inception如图8所示和ResNet网络如图9所示，其中音频特征部分采用1*32*32的对数梅尔频谱图（Log-Melspectrogram），关于它的介绍网上已有很多资料。这是一种很常规的特征，几乎所有音频任务都有用到。

3-2建立长时间的网络结构。

视频中的长时间信息对动作识别也起着非常重要的作用。参考TSN网络结构思路，通过视频分段来提取视频序列中长时间的时间信息来提高时空异构双流网络的性能。根据时间的长短，将视频分成个等长片段/>, 基于分段的空时异构双流卷积网络/>对动作的识别可以表示为：

（22）

式中：是一个片段序列，每个代码片段/>从其对应的片段/>中随机采样，在空间网络对应的是RGB帧图像，时间网络是光流；/>是一个带有参数 W 的卷积神经网络函数，该函数对代码片段/>进行操作，生成所有类的类分数；分段融合函数/>将多个短片段的输出融合，得到空间网络或时间网络的特征。利用输出函数/>对动作识别结果进行评价，利用 MLP输出舞蹈动作的评分。

分段融合的最终损失函数定义为：

（23）/>

式中：G表示动作类别的数量；表示关于类别/>的基准标签；是类/>的类得分，通过对/>个片段的同一类别的得分进行平均得到。本申请利用多个片段，用标准的反向传播算法联合优化模型参数/>。反向传播过程中，/>的梯度对时空异构双流网络行为识别损失值/>可以推导出如下公式：

（24）

然后，通过小批量随机梯度下降法得到相关的模型参数。从式（24）可以得到，使用个小片段的类别融合/>来更新参数。使用此类优化方式，能学习到视频级的模型参数，进而获得长期的时间信息。

3-3综合评价舞蹈，得分输出

在上述步骤3-2输出一个舞蹈评分，本申请采用函数，将数据融合阶段的评委评分和基于时空异构双流网络得到的AR-VR数据进行的打分，进行一个全面的合理的舞蹈分数输出。

在评分中，去除一个最高分和一个最低分，随后进行平均，得到最后分数。去除最高分和最低分进行平均处理，因为在统计学中，当我们用平均数来表示一个数据的“集中趋势”时，如果数据中出现一、两个极端数据，那么平均数对于这组数据所起的代表作用就会削弱，为了消除这种现象，可将少数极端数据去掉，只计算余下的数据的平均数，并把所得的结果作为全部数据的平均数。所以，在评定文艺与体育比赛的成绩时，常常采用在评分数据中分别去掉一个最高分和一个最低分，再计算其中平均分的办法，以避免极端数据造成的不良影响。具体得分输出如公式（25）所示：

（25）

其中表示最终得分，T表示一共有T个打分结果，/>为第i个打分结果，表示求和函数，/>为最高得分，/>为最低得分。

至此完成本申请的全部内容。

本实施例以某考生为实际考试人，该考生的成绩由三位评委老师和本申请的打分方法组合而成，得分分别为80，86，88，94，其中86分为本申请的评分方法所得，根据计算去掉一个最高分和一个最低分可得，该考生的实际得分为：87分。从实际得分和本申请给出的打分相近，表明本申请舞蹈评分方法的合理性。

至此完成本申请专利的全部内容，图10给出本申请舞蹈评分方法应用实例的效果截图。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，包括如下步骤：

采用卡尔曼滤波方法对特征参数进行处理，对来自不同传感器的音频或视频数据进行数据融合；

构建时空异构双流卷积网络，将融合后的数据输入到时空异构双流卷积网络，用于对时空异构双流卷积网络进行训练,所述时空异构双流卷积网络的输出是舞蹈评分;

利用训练好的时空异构双流卷积网络对待评分的舞蹈音视频数据进行评分。

2.根据权利要求1所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，将音视频数据集中的每段舞蹈视频映射为特征参数的形式：，每个样本特征参数对应一个特征标签/>，其中/>表示特征参数的总数；

特征参数是舞蹈者音乐卡点节拍表现；

特征参数，属于主观印象特征，由评分者提供。

3.根据权利要求2所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，所述特征参数包括少数类特征参数和多数类特征参数；少数类特征参数的采集量小于多数类特征的采集量；其中主观印象特征为少数类特征，其它特征参数为多数类特征；

新样本是类别平衡的特征参数；按照式（1）合成新样本/>，表示如下：

(1)

4.根据权利要求3所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，将专业舞蹈者的音视频数据集分为训练集、测试集和验证集；

训练集中多数类样本特征参数和少数类样本特征参数的数据数量分别表示为M和N，基于特征参数的数据分布的重采样方法生成的平衡子集的样本总数表示为S；

(3)

(4)

5. 根据权利要求1所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，采用所述采用卡尔曼滤波方法对特征参数进行处理，舞蹈动作特征的状态方程为：

(5)

舞蹈动作的特征观测方程为

(6)

式中表示/>时刻测量舞蹈动作特征值；/>测量矩阵；/>表示传感器采集数据观测噪声；和/>是相互独立的高斯白噪声；

根据式（5）对舞蹈动作特征状态进行一步预测，利用时刻舞蹈动作状态的特征最优估计值/>预测 />时刻的舞蹈动作特征一步预测值：

(7)

式中表示当前舞蹈动作特征状态的控制量，舞蹈动作不具有特征控制量时刻为0；B表示作用在控制器向量/>上的控制矩阵；一步特征预测值误差的协方差矩阵；

(8)

式中表示 />时刻特征估计误差协方差矩阵；/>表示过程噪声的协方差矩阵，T为矩阵转置；

最优估计值由一步特征预测值和残差通过卡尔曼增益线性组合而成，其中残差为，即

(9)

卡尔曼增益

(10)

式中表示测量噪声的协方差矩阵；

(11)

式中表示单位矩阵；

6.根据权利要求1所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，所述时空异构双流卷积网络包括BN-Inception网络和ResNet网络，所述BN-Inception网络用于接收视频数据，所述ResNet网络有于接收音频数据。

7.根据权利要求1所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，所述时空异构双流卷积网络通过视频分段来提取视频序列中长时间的时间信息，具体步骤包括：

式中，/>是一个片段序列，每个代码片段/>从其对应的片段/>中随机采样，在空间网络对应的是RGB帧图像，时间网络是光流；/>是一个带有参数/>的卷积神经网络函数，所述卷积神经网络函数对代码片段进行操作，生成所有类的类分数；分段融合函数/>将多个短片段的输出融合，得到空间网络或时间网络的特征；利用输出函数/>对动作识别结果进行评价，利用 MLP输出舞蹈动作的评分。

8. 根据权利要求7所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，分段融合的损失函数定义为：

(23)

9.根据权利要求8所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，采用反向传播算法联合优化模型参数；

(24)

然后，通过小批量随机梯度下降法得到相关的模型参数。

10.根据权利要求1所述一种基于时空异构双流卷积网络的舞蹈评分方法，其特征在于，采用函数，将评委评分和基于时空异构双流网络得到评分进行融合，得到最终的舞蹈分数。/>