CN116612310A

CN116612310A - 基于多媒体舞蹈动作图像分解处理方法

Info

Publication number: CN116612310A
Application number: CN202310869116.8A
Authority: CN
Inventors: 李杉杉
Original assignee: Changchun Medical College Changchun Medical Information Institute Changchun Staff Medical University
Current assignee: Changchun Medical College Changchun Medical Information Institute Changchun Staff Medical University
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-08-18
Anticipated expiration: 2043-07-17
Also published as: CN116612310B

Abstract

本发明涉及图像数据处理技术领域，具体涉及基于多媒体舞蹈动作图像分解处理方法，包括：对舞蹈动作图像进行采集并分类，获得动作图像集，对动作图像集中的图像进行图像分割，得到人体不同区域，进而得到不同图像中的对应区域，分别进行分解，得到独立分量集合，对每个独立分量集合进行聚类，根据聚类结果获得分离度，得到分离度序列，结合所有独立分量序列，得到分离性，进而得到独立分量数量，将得到的独立分量数量，作为ICA算法的参数，进行舞蹈动作图像分解。本发明根据获得的新对应区域，可以有效减小新对应区域所对应的特征向量的计算误差，优化了对舞蹈动作图像的分解效果，提高了后续对舞蹈动作的判别精度。

Description

基于多媒体舞蹈动作图像分解处理方法

技术领域

本发明涉及图像数据处理技术领域，具体涉及基于多媒体舞蹈动作图像分解处理方法。

背景技术

基于多媒体的数据分解通常是指对复杂的多媒体数据进行分析和处理，以提取其中的有用信息或特征，并将其转化为更加方便、可视化、易于理解的形式。这种分解方法可以应用于多种类型的多媒体数据，包括图像、音频、视频等。

通过ICA方法对舞蹈动作进行分解时，独立成分数量的选取对分解结果的影响较大，独立成分数量指的是要分解的独立成分的数量，可以根据实际需求进行设置。如果独立成分数量过少，可能无法有效地提取数据中的特征信息；而如果数量过多，则会增加计算复杂度和噪声敏感性。合适的独立分量可以对舞蹈动作进行更好的表示，进而将该舞蹈动作与其它舞蹈动作较好的区分开来，不合适的独立成分数量导致后期在对不同舞蹈动作进行自动识别时，识别精度较低。

基于此，本发明提出了一种基于多媒体舞蹈动作图像分解处理方法，通过对一个较大独立分量数量下的ICA分解的分离度进行计算，结合聚类过程中分离度的变化，得到独立分量数量的最佳值，进而作为ICA分解中的独立分量数量的超参数，提高了独立分量的特征表示性能，进而提高了后续的舞蹈动作识别精度。

发明内容

本发明提供基于多媒体舞蹈动作图像分解处理方法，以解决现有的问题。

本发明的基于多媒体舞蹈动作图像分解处理方法采用如下技术方案：

本发明提供了基于多媒体舞蹈动作图像分解处理方法，该方法包括以下步骤：

获取舞蹈教学图像，将同一舞蹈动作在不同视角下对应的舞蹈教学图像所形成的集合，记为动作图像集；

获取动作图像集中各个图像中人体不同身体部位所在区域，将动作图像集中不同舞蹈教学图像内，同一身体部位所对应的最小外接矩形在面积最大时所对应的区域，记为新对应区域；根据新对应区域中像素点的灰度值获得特征矩阵，根据特征矩阵获得对应的若干个独立分量序列；

将同一个对应区域集的新对应区域所对应若干个独立分量序列所形成的集合，记为独立分量集合；将任意独立分量集合中每个独立分量序列作为节点，将任意两个节点对应的独立分量序列的余弦相似度，作为节点之间所形成边的边值，利用获得的节点、节点值、边以及边值构建图结构；对图结构进行多次聚类，将每次聚类获得的聚类簇记为聚类类别，将任意一次聚类下所有聚类类别的集合记为聚类类别集，根据聚类类别中的独立分量序列获得对应的若干个特征向量；根据聚类类别中所有独立分量序列的特征向量之间的余弦相似度的均值，获得聚类类别的分离度；在任意一次聚类下，根据聚类类别的分离度获得聚类类别集对应的分离性，将最大分离性对应的聚类类别集所包含聚类类别的数量记为独立分量数量；

将独立分量数量作为ICA算法的分解数量参数，对舞蹈教学图像进行分解，根据得到每个舞蹈教学图像中各个舞蹈动作对应的独立分量序列实现舞蹈教学和指导。

进一步的，所述新对应区域，获取方法如下：

步骤（1），获取训练好的MaskR-CNN神经网络：首先，获取大量的舞蹈教学图像，将头部、左胳膊、右胳膊、左腿以及右腿作为人工标签，通过人工标注的方法，将每一个舞蹈教学图像中人体的各个身体部位进行标注，将每一个带有各个身体部位标签的舞蹈教学图像都作为一个样本，则由大量样本构成训练MaskR-CNN神经网络的数据集；

然后，根据数据集结合交叉熵损失函数对MaskR-CNN神经网络进行训练，获得训练好的MaskR-CNN神经网络；

步骤（2），将同一个动作下对应的动作图像集中，不同视角下的舞蹈教学图像所对应的相同标签区域作为对应区域，获取每个对应区域的最小外接矩形的面积，保持矩形中心不变，将多个舞蹈教学图像中同一个身体部位的最大面积的最小外接矩形，作为其他舞蹈教学图像中对应区域的最小外接矩形，将获得新的对应区域，记为新对应区域。

进一步的，所述根据新对应区域中像素点的灰度值获得特征矩阵，根据特征矩阵获得对应的若干个独立分量序列，包括的具体步骤如下：

获取舞蹈教学图像中每个新对应区域的每一行像素点的灰度值，按照像素点所在行的序数，将每一行像素点的灰度值中按照行数进行首尾相连，形成大小的矩阵，记为特征矩阵；利用ICA算法对特征矩阵进行分解，每个特征矩阵都可以得到若干个独立分量序列。

进一步的，所述聚类类别的分离度，获取方法如下：

步骤（1），将任意聚类类别中每一个独立分量序列作为矩阵的一行，将形成的矩阵记为类别矩阵，对类别矩阵通过SVD分解，得到对应的多个特征向量；

步骤（2），对聚类类别中任意两个独立分量序列的若干个特征向量进行匹配，通过KM最大匹配原则计算匹配，获取任意两个聚类类别之间的分离度：将两个聚类类别中任意一个独立分量序列的所有特征向量记为左节点，将另一个独立分量序列的所有特征向量记为右节点，节点值为特征向量，每个左节点与所有右节点都有边连接，边值为对应左节点和右节点所对应特征向量的余弦相似度，利用KM算法获取左节点与右节点之间的匹配关系，将所有左节点与右节点之间的匹配关系所对应边值的均值作为所属的两个独立分量序列之间的相似度，将1与相似度的差值作为两个独立分量序列的分离度；

步骤（3），获取聚类类别中所有独立分量序列之间的分离度，将所有独立分量序列的分离度的平均值，记为所有独立分量序列所属聚类类别的分离度。

进一步的，所述聚类类别集对应的分离性，获取方法如下：

步骤（1），将任意一次聚类后得到的所有聚类类别的分离度，按照从小到大的顺序排列所形成的序列记为分离度序列，其中/>表示第i个聚类类别的分离度，n表示聚类类别数量；获取分离度序列中所有分离度的均值/>以及标准差/>，将/>记为离散系数；根据离散系数构建权重序列/>，其中/>表示权重序列中第i个权重值，n表示聚类类别数量；

步骤（2），聚类类别集对应的分离性获取方法为：

其中，表示聚类后所获得的聚类类别集对应的分离性，/>表示分离性序列的标准差，/>表示分离性序列的均值；n表示聚类类别数量；/>表示第i个聚类类别的分离度；/>表示权重序列中第i个权重值；/>表示离散系数。

进一步的，所述根据得到每个舞蹈教学图像中各个舞蹈动作对应的独立分量序列实现舞蹈教学和指导，包括的具体步骤如下：

步骤（1），以动作不标准、良好以及优秀作为人工标签，由行业内专业人员对学生的舞蹈动作所对应的独立分量序列进行人工标注，将带有人工标签的独立分量序列作为样本，则由大量的不同学生和不同舞蹈动作获得对应的样本，构成训练LSTM神经网络的数据集，利用所获得的数据集对LSTM神经网络进行训练，获得训练完成后的LSTM神经网络；

步骤（2），将训练完成后的LSTM神经网络投入使用，对学生在模仿学习舞蹈动作时，对学生的舞蹈动作进行判别和评价，实现对学生的舞蹈动作的教学和指导。

本发明的技术方案的有益效果是：通过独立分量聚类过程中分离性的变化，得到一个最佳的独立分量数量，该独立分量数量对应的独立分量的表示性能最好，可以大大提高后续的舞蹈动作识别精度；通过实例分割，获得了不同图像上的相同标签区域，进而通过最大面积的最小外接矩形进行相同标签区域的分割大小，有助于矩阵进行SVD分解时，减小计算误差。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多媒体舞蹈动作图像分解处理方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于多媒体舞蹈动作图像分解处理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于多媒体舞蹈动作图像分解处理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于多媒体舞蹈动作图像分解处理方法的步骤流程图，该方法包括以下步骤：

步骤S001，获取舞蹈教学动作图像，并对舞蹈动作图像进行预处理，获得动作图像集。

在对舞蹈教学图像进行分解时，所使用的独立成分分析算法通常针对同一舞蹈动作在不同视角下的图像，因此需要对同一舞蹈教学动作所对应的图像进行采集，将同一舞蹈动作在不同视角下对应的舞蹈教学图像所形成的集合，记为动作图像集；

需要说明的是，本实施例中后续将独立成分分析算法简称为ICA算法。

步骤S002，对舞蹈教学图像进行分割，根据分割获得的人体部位相对应区域的最小外接矩形，结合ICA算法得到独立分量集合。

由于一个舞蹈动作是由人的各个肢体动作的综合表示，因此需要利用人体骨架模型对舞蹈图像进行分割，得到人体不同区域，并对每个区域分别进行ICA分析后，分析结果的综合得到该舞蹈动作的表征，另外由于ICA的输入为同一动作所对应的不同视角下的舞蹈教学图像，需要说明的是，视角不同，导致拍摄得到的虽然是同一个舞蹈动作，但在图像中的表现不同，因此需要将不同舞蹈教学图像上的同一人体部位区域作为一个整体利用ICA算法进行分析。

首先，利用训练好的MaskR-CNN神经网络对动作图像集中的各个图像分别进行分割，将人体的不同部位分割开来，得到图像上的不同人体区域。同时MaskR-CNN可以对分割后的每个人体部位进行识别并得到其具体的人工标签；

所述训练好的MaskR-CNN神经网络获取方法为：

步骤（1），获取大量的舞蹈教学图像，将头部、左胳膊、右胳膊、左腿以及右腿作为人工标签，通过人工标注的方法，将每一个舞蹈教学图像中人体的各个身体部位进行标注，将每一个带有各个身体部位标签的舞蹈教学图像都作为一个样本，则由大量样本构成训练MaskR-CNN神经网络的数据集；

步骤（2），将数据集按照6:2:2的比例划分为训练集、测试机和验证集，结合交叉熵损失函数对MaskR-CNN神经网络进行训练，获得训练好的MaskR-CNN神经网络。

然后，将同一个动作下对应的动作图像集中，不同视角下的舞蹈教学图像所对应的相同标签区域作为对应区域，获取每个对应区域的最小外接矩形的面积，保持矩形中心不变，将多个舞蹈教学图像中同一个身体部位的最大面积的最小外接矩形，作为其他舞蹈教学图像中对应区域的最小外接矩形，将获得新的对应区域，记为新对应区域；

将所有属于同一身体部位的新对应区域所形成的集合，记为对应区域集，将对应区域集作为ICA算法的输入，将ICA算法中初始的独立分量数量参数预设为10，通过ICA算法将对应区域集中各个新对应区域分解，得到10个新对应区域的独立分量序列，将所形成的集合记为独立分量集合，每个对应区域集对应一个独立分量集合。

其中10是一个较大的独立分量序列的数量，远大于实际的独立分量数量，所述实际的独立分量数量，即该独立分量数量可以使得不同特征的分离性最大，可以对该舞蹈动作进行最佳表示。

利用ICA算法将新对应区域进行分解的过程为：获取舞蹈教学图像中每个新对应区域每一行像素点的灰度值，按照像素点所在行的序数，将每一行像素点的灰度值中按照行数进行首尾相连，形成大小的矩阵，记为特征矩阵；利用ICA算法对特征矩阵进行分解，每个特征矩阵都可以得到10个独立分量序列；

需要说明的是，每个独立分量序列的长度大小与矩阵的列数一样。

步骤S003，对独立分量集合进行多次聚类，获得聚类后独立分量序列之间的分离度，根据分离度序列，获得所有独立分量序列所属聚类类别集的分离性，进而得到独立分量数量。

将同一个对应区域集的对应区域，所对应若干个独立分量序列所形成的集合，记为独立分量集合；

由于所有由同一个对应区域集的对应区域获得的独立分量集合，表示的是同一个舞蹈动作，因此必然具有共同特征，最佳表示可以从两方面来计算：

（1）该最佳表示可以使得每个独立分量集合的分离性较大，分离性大表示独立分量的表征特征的重叠度小，分离效果好；

（2）该最佳表示对应的不同独立分量集合的分离性相近，分离性越相近，表示该最佳表示对同一个舞蹈动作信息的表示程度越大。

获得独立分量数量的方法步骤如下：

首先，由于每个独立分量序列都是一个序列，对每个独立分量集合构建图结构的方法为：将每个独立分量集合中的每个独立分量序列作为节点，将任意两个节点对应的独立分量序列的余弦相似度，作为节点之间所形成边的边值，利用获得的节点、节点值、边以及边值构建图结构。

然后，对所述图结构，通过格里-纽曼图聚类方法逐步进行聚类，格里-纽曼算法通过逐渐将最高介数的边移除来实现节点类别的划分，因此聚类过程中类别数量会不断变大，利用格里-纽曼算法进行聚类后，获得若干次聚类，且经过每次聚类，会对应有若干个聚类簇，记为聚类类别，将每次聚类后获得的若干个聚类类别所形成的集合记为聚类类别集；

需要说明的是，由于有若干次聚类，对应的有若干个聚类类别集；

另外，需要对每个聚类类别的分离性进行分析，所述分离性是指不同聚类类别中，节点所反映的特征的不重叠程度，即节点所反映特征之间的不相关性。

另外，格里-纽曼算法聚类过程中迭代次数越多，最终得到的类别数量越多；

需要说明的是，SVD算法是一种对矩阵进行分解的方法，分解得到的特征向量表示的是输入矩阵的列空间或行空间的基底，反映了数据的结构和重要特征。

每个聚类类别中有多个独立分量序列，对这些独立分量序列进行SVD分解，每个独立分量序列均可以得到多个特征向量，特征向量的匹配度越大，说明对应聚类类别的分离度越小。

每次聚类后聚类类别集的分离性获取方法如下：

首先，将任意聚类类别中每一个独立分量序列作为矩阵的一行，将形成的矩阵记为类别矩阵，对类别矩阵通过SVD分解，得到对应的多个特征向量；

然后，对不同聚类类别中多个独立分量序列的若干个特征向量进行匹配，通过KM最大匹配原则计算匹配，获取任意两个聚类类别之间的分离度：将两个聚类类别中任意一个独立分量序列的所有特征向量记为左节点，将另一个独立分量序列的所有特征向量记为右节点，节点值为特征向量，每个左节点与所有右节点都有边连接，边值为对应左节点和右节点所对应特征向量的余弦相似度，利用KM算法获取左节点与右节点之间的匹配关系，将所有左节点与右节点之间的匹配关系所对应边值的均值作为所属的两个独立分量序列之间的相似度，将1与相似度的差值作为两个独立分量序列的分离度；

获取任意聚类类别中所有独立分量序列之间的分离度，将所有独立分量序列的分离度的平均值记为所有独立分量序列所属聚类类别的分离度；

最后，由于每个独立分量集合的分离度较大，不同独立分量集合的分离度越相近，对应的类别数量作为独立分量数量时，得到的独立分量可以对舞蹈动作特征进行更理想的分解表示；

另外，将任意一次聚类后得到的所有聚类类别的分离度，按照从小到大的顺序排列所形成的序列记为分离度序列，其中/>表示第i个聚类类别的分离度，n表示聚类类别数量；获取分离度序列中所有分离度的均值/>以及标准差/>，将/>记为离散系数；根据离散系数构建权重序列/>，其中/>表示权重序列中第i个权重值，n表示聚类类别数量。

则聚类类别集对应的分离性，获取方式如下：

所有分离性的一致性越大，对应聚类结果的分离性越好；分离性值越大，对应聚类结果的分离性越好，同时分离性的一致性越大，均值的表示性越好，分离性的一致性越小，越需要更多参考较小分离性得到聚类结果分离性；

分离性的一致性越小，较小分离性的参考权重越大，通过将分离性的一致性作为权重序列中的差值，构建等差序列来实现。例如：当离散系数最小为0，即一致性最大时，权重均匀分配，当离散系数越大时，越小的分离性分配越大的权重；

通过计算可以得到每次聚类后所获得的聚类类别集对应的分离性，将所有聚类类别对应的分离性中，最大分离性对应的聚类类别集所包含聚类类别的数量记为独立分量数量。

步骤S004，将得到的独立分量数量，作为ICA算法的分解参数，对舞蹈教学图像进行分解，并利用分解结果用于舞蹈教学。

将得到的独立分量数量，作为ICA算法的分解数量参数，对舞蹈教学图像进行分解，进而得到每个舞蹈动作对应的独立分量序列，用于之后的舞蹈教学过程中动作识别和分类；

另外，由于每个独立分量序列对应着一种特定的动作元素，因此在舞蹈学习过程中，可以利用神经网络对学生的不同舞蹈动作所对应的独立分量序列进行识别和分类，具体的步骤如下：

步骤（1），采集大量的学生在学习舞蹈过程中，每一个舞蹈动作所对应的图像，记为舞蹈学习图像，利用本实施中的方法获取舞蹈学习图像中每个舞蹈动作对应的独立分量序列；

步骤（2），以动作不标准、良好以及优秀作为人工标签，由行业内专业人员对学生的舞蹈动作所对应的独立分量序列进行人工标注，将带有人工标签的独立分量序列作为样本，则由大量的不同学生和不同舞蹈动作获得对应的样本，构成训练LSTM神经网络的数据集，利用所获得的数据集对LSTM神经网络进行训练，获得训练完成后的LSTM神经网络；

步骤（3），将训练完成后的LSTM神经网络投入使用，对学生在模仿学习舞蹈动作时，对学生的舞蹈动作进行判别和评价，实现对学生的舞蹈动作的指导教学。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多媒体舞蹈动作图像分解处理方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述基于多媒体舞蹈动作图像分解处理方法，其特征在于，所述新对应区域，获取方法如下：

3.根据权利要求1所述基于多媒体舞蹈动作图像分解处理方法，其特征在于，所述根据新对应区域中像素点的灰度值获得特征矩阵，根据特征矩阵获得对应的若干个独立分量序列，包括的具体步骤如下：

4.根据权利要求1所述基于多媒体舞蹈动作图像分解处理方法，其特征在于，所述聚类类别的分离度，获取方法如下：

5.根据权利要求1所述基于多媒体舞蹈动作图像分解处理方法，其特征在于，所述聚类类别集对应的分离性，获取方法如下：

步骤（2），聚类类别集对应的分离性获取方法为：

6.根据权利要求1所述基于多媒体舞蹈动作图像分解处理方法，其特征在于，所述根据得到每个舞蹈教学图像中各个舞蹈动作对应的独立分量序列实现舞蹈教学和指导，包括的具体步骤如下：