CN117726977A

CN117726977A - 基于dcnn的实验操作关键节点评分方法和系统

Info

Publication number: CN117726977A
Application number: CN202410174899.2A
Authority: CN
Inventors: 赵敏
Original assignee: Nanjing Bailence Intelligent Technology Co ltd
Current assignee: Nanjing Bailence Intelligent Technology Co ltd
Priority date: 2024-02-07
Filing date: 2024-02-07
Publication date: 2024-03-19
Anticipated expiration: 2044-02-07
Also published as: CN117726977B

Abstract

本发明公开了一种基于DCNN的实验操作关键节点评分方法和系统，包括如下步骤：获取实验操作台的至少两路视频数据，并分别提取视频帧，构建视频帧集合；调取预配置的DCNN模块，依序提取每一视频帧中的操作关键节点特征并构建节点特征向量，所述操作关键节点特征包括设备姿态、物品姿态和操作姿态；基于所述节点特征向量构建操作流程有向图，并对操作流程有向图进行图卷积和图池化操作；调用预训练的评分模型，对实验操作评分图结构中的每个节点的特征向量进行评分计算，得到每个实验操作关键节点的评分值，并输出评分结果及关键帧。本申请可以提高实验操作评分的效率和质量，同时便于部署。

Description

基于DCNN的实验操作关键节点评分方法和系统

技术领域

本发明涉及实验评分方法，尤其是基于DCNN的实验操作关键节点评分方法和系统。

背景技术

实验操作是科学研究和教学的重要组成部分，它涉及到多种技能和知识的掌握和运用，对于培养学生的实践能力和创新思维具有重要作用。然而，传统的实验操作评分方法存在许多问题，如主观性强、效率低、反馈不及时等，导致学生的实验操作水平难以得到有效的提升和监督。因此，开发一种基于人工智能和神经网络的实验操作关键节点评分方法和系统，能够实现对实验操作过程中的关键节点的自动识别、评估和反馈，提高实验操作的质量和效率，具有重要的理论意义和实际价值。

首先，目前的智能评分系统主要是抓取操作的关键视频，即得分点视频，然后推送给老师或者自动评分，在这种情况下，如果学生临场紧张，出现重复操作或在有效操作之前发生无效操作，则容易误判，导致评分不够准确。其次，现有技术方案大多是基于预设的评分标准或模型进行评分和反馈，这种评分机制缺乏动态和自适应的能力，不能根据不同的实验操作类型、难度、场景等因素进行调整和优化，也不能根据学生的实验操作水平和进步情况进行个性化和差异化的评分和反馈，导致评分结果可能存在偏差和不公平，也不能有效地激发学生的学习兴趣和动力。最后，现有技术方案大多缺乏交互和引导的能力，不能根据学生的实验操作过程和结果进行实时的交互和引导，也不能根据学生的实验操作问题和困惑进行及时的解答和帮助，导致评分系统可能存在冷漠和无效，也不能有效地提高学生的实验操作能力和水平。

因此，需要研究创新，以解决现有技术存在的上述问题。

发明内容

发明目的，提供一种基于DCNN的实验操作关键节点评分方法和系统，以解决现有技术存在的上述问题。

技术方案，根据本申请的一个方面，基于DCNN的实验操作关键节点评分方法，包括如下步骤：

步骤S1、获取实验操作台的至少两路视频数据，并分别提取视频帧，构建视频帧集合；

步骤S2、调取预配置的DCNN模块，依序提取每一视频帧中的操作关键节点特征并构建节点特征向量，所述操作关键节点特征包括设备姿态、物品姿态和操作姿态；

步骤S3、基于所述节点特征向量构建操作流程有向图，并对操作流程有向图进行图卷积和图池化操作；

步骤S4、调用预训练的评分模型，对实验操作评分图结构中的每个节点的特征向量进行评分计算，得到每个实验操作关键节点的评分值，并输出评分结果及关键帧。

根据本申请的一个方面，所述步骤S1进一步为：

步骤S11、获取实验操作台的至少两路视频数据，两路视频的摄像装置从不同角度拍摄操作台，其中至少一路摄像装置可以获取操作者的面部和手部图像；

步骤S12、获取实验操作台的音频信息；

步骤S13、对视频数据进行预处理，将视频数据分割成若干帧，每一帧代表一个时刻的图像，所述预处理包括去噪、对齐和稳定；

步骤S14、采用拉普拉斯算子对视频帧进行质量检测，判断是否存在模糊区域，剔除存在模糊区域的视频帧，并通过余下的视频帧构建视频帧集合。

根据本申请的一个方面，所述步骤S2进一步为：

步骤S21、调取预配置的ViT-DCNN-LAM模块，对视频帧的特征进行提取，输出表示视频帧中的每个像素特征的高维特征图；

步骤S22、根据预存储的规则，从特征图中检测出操作关键节点，并标记为节点特征向量；

步骤S23、将每一视频帧中检测出的所有操作关键节点的特征向量组合起来，构成节点特征向量集合，建立视频帧与节点特征向量集合之间的映射；其中节点特征向量用于表示该视频帧中的所有操作关键节点的特征。

根据本申请的一个方面，所述步骤S3进一步为：

步骤S31、将每一视频帧中的节点特征向量集合作为有向图的节点，将节点之间的因果关系或时序关系作为有向图的边，将边的强度或重要性作为有向图的权重，构建操作流程有向图，以表示实验操作的过程；

步骤S32、针对每一节点，将有向图的节点作为DGC动态图卷积模块的输入，得到新的节点特征向量，即有向图新的节点，构建新的节点特征向量集合，用于后续的图池化操作；

步骤S33、将操作流程有向图的新的节点特征向量集合作为DGP动态图池化模块的输入，得到低维的特征向量，对每个操作流程有向图重复这一过程，得到操作流程有向图与特征向量的映射。

根据本申请的一个方面，所述步骤S4进一步为：

步骤S41：构建评分模型并对评分模型进行预训练，使其能够根据输入的操作流程有向图的特征向量，输出每个节点的评分值；

构建评分模型的过程包括：使用图卷积网络GCN构建评分模型的基础结构，采用注意力机制为每个实验操作关键节点的特征向量赋予不同的权重，设置图跳跃连接层，以增加节点深度信息；

步骤S42：对实验操作评分图结构中的每个节点的特征向量进行评分计算；

将每个操作流程有向图的特征向量输入评分模型，得到每个操作关键节点的评分值，表示该节点的实验操作的质量和效果；

对每个操作流程有向图的每个节点重复这个过程，得到一个节点与评分值的映射，用于后续的评分结果输出；

步骤S43：输出评分结果及关键帧；

根据节点与评分值的映射，计算出每个操作流程有向图的总评分，以及每个操作关键节点的评分；

将总评分和节点评分作为评分结果输出，根据节点评分的高低，选择评分超过阈值的节点对应的视频帧，作为关键帧输出，以便用户查看实验操作的优缺点。

根据本申请的一个方面，所述DCNN模块还包括语音处理通道，用于接收并处理音频信息，基于音频信息判断实验操作流程是否符合规范。

根据本申请的一个方面，所述步骤S2还包括步骤S24、提取关键节点对应的视频帧，将物品和手势的像素坐标转换到世界坐标系；构建物品移动流和操作手势流，基于物品移动的过程和操作手势过程，采用相似距离判断操作是否符合规范。

根据本申请的一个方面，所述步骤S43中，输出关键帧的过程进一步为：

步骤S431、获取评分低于阈值的关键帧，获得两路视频帧的图像数据；

步骤S432、基于关键帧的图像数据进行点云匹配，重建点云模型并分割成操作关键环节；

步骤S433、根据预配置的规则，输出点云模型并标注操作错误位置。

根据本申请的另一个方面，提供一种基于DCNN的实验操作关键节点评分系统，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述任一项技术方案所述的基于DCNN的实验操作关键节点评分方法。

有益效果，本申请能够利用多路视频数据和音频信息，从多个角度和维度捕捉实验操作的细节，提取操作关键节点的多元特征，包括设备姿态、物品姿态、操作姿态、物品移动流、操作手势流等，有效地表示实验操作的过程和内容；本申请能够基于节点特征向量构建操作流程有向图，利用图卷积和图池化操作，提取操作流程的全局和局部特征，增强操作流程的表征能力，为后续的评分计算提供有效的输入；本申请能够使用预训练的评分模型，对操作流程有向图的每个节点的特征向量进行评分计算，得到每个实验操作关键节点的评分值，反映该节点的实验操作的质量和效果，同时输出操作流程的总评分，反映整个实验操作的水平和标准；本申请能够根据节点评分的高低，选择评分超过阈值的节点对应的视频帧，作为关键帧输出，以便用户查看实验操作的优缺点，同时还能够对评分低于阈值的关键帧进行点云匹配和重建，输出点云模型并标注操作错误位置，以便用户进行纠正和改进。

附图说明

图1是本发明的流程图。

图2是本发明步骤S1的流程图。

图3是本发明步骤S2的流程图。

图4是本发明步骤S3的流程图。

图5是本发明步骤S4的流程图。

具体实施方式

如图1所示，根据本申请的一个方面，基于DCNN的实验操作关键节点评分方法，包括如下步骤：

步骤S1、获取实验操作台的至少两路视频数据，并分别提取视频帧，构建视频帧集合；需要注意的是，本步骤需要进行空间和时间对齐。空间对齐，可以在操作台设置对齐点或者通过点云来实现。另外，可以在视频采集设备上安装同步器，使得两路视频数据的时间戳和帧率相同。在视频采集设备上安装校准器，使得两路视频数据的视角和尺度达到预定参数，就可以得到同步和对齐的视频数据，为后续的特征提取和评分计算提供基础。

具体为ViT-DCNN-LAM模块，将在下文详细描述。

本申请的主要构思是，当前的实验操作流程，可以通过视频数据获取，然后根据关键操作节点，比如将硫酸瓶盖取下放在桌面时，应该翻过来放置，放置硫酸腐蚀桌面。对于实验，整体上是一个有向的过程，但是局部的操作可以重复或者无向，相对比较复杂，现有技术没有解决。这些操作过程整体是一个有向图，因此可以通过图神经网络的技术来解决，最后给出评分，可以通过欧氏距离或各种相似度来计算。这样就解决了现有实验操作过程中，由于操作人员紧张，造成重复操作或者先进行错误操作，然后进行正确操作，操作过程比较长，需要老师来一一检查，效率低下的问题。大大提高了评分的客观性、准确性和评分速度。而且在出现错误的地方，能给抓取关键帧，然后进行回放，有助于后期改善和提高。

该方案能够自动学习实验操作的关键节点特征，而不需要人为地定义和提取特征，从而降低了人为干扰和误差的可能性，提高了评分的客观性和一致性；该方案能够对实验操作的过程和质量进行全方位、多维度、高效率的评分和反馈，输出每个操作流程有向图的总评分，以及每个操作关键节点的评分；该方案能够根据节点评分的高低，选择评分超过阈值的节点对应的视频帧，作为关键帧输出，以便用户查看实验操作的优缺点；该方案能够对评分低于阈值的关键帧进行点云匹配和重建，输出点云模型并标注操作错误位置，以便用户进行纠正和改进；对多路视频数据和音频信息的理论分析和实验验证，证明了多路视频数据和音频信息能够从多个角度和维度捕捉实验操作的细节，从而有效地表示实验操作的过程和内容，提高了评分的全面性和多样性；对技术方案的实验评估，证明了技术方案能够在不同的数据集上达到最先进的性能，显示了技术方案的有效性和优越性。

如图2所示，根据本申请的一个方面，所述步骤S1进一步为：

使用两个摄像头来获取实验操作台的视频数据，一个摄像头放在操作者的正前方，可以捕捉到操作者的面部表情和手部动作，另一个摄像头放在操作者的右侧，可以捕捉到操作者的侧面和实验器材的状态。可以从不同的角度观察实验操作的过程和细节，以便于后续的特征提取和评分计算。

步骤S12、获取实验操作台的音频信息；

音频信息，包括操作者的语音指令、实验器材的声音等。音频信息可以反映实验操作的流程和内容，以及操作者的语言和情绪状态。可以使用一个麦克风设备来录制实验操作台的音频信息，并将其与视频数据进行同步。

可以根据视频的帧率来确定每一帧的时间间隔，比如如果视频的帧率是30fps，那么每一帧的时间间隔就是1/30秒。其次，需要对视频帧进行去噪、对齐和稳定。去噪是为了消除视频帧中的噪声和杂质，提高图像的清晰度和对比度。对齐是为了保证两路视频帧的空间一致性，即相同的物体在不同的视频帧中具有相同的位置和大小。稳定是为了消除视频帧中的抖动和旋转，提高图像的稳定性和连续性。可以使用一些现有的图像处理算法和工具来实现这些预处理，比如OpenCV、PIL等。

模糊区域是指视频帧中的某些区域的清晰度低于一定的阈值，可能是由于摄像头的对焦不准、光线不足、运动模糊等原因造成的。模糊区域会影响后续的特征提取和评分计算，所以需要将其排除。可以使用拉普拉斯算子对视频帧进行边缘检测，计算视频帧的清晰度，如果清晰度低于阈值，就认为该视频帧存在模糊区域，将其剔除。

本实施例能够利用多路视频数据和音频信息，从多个角度和维度捕捉实验操作的细节，为后续的特征提取和评分计算提供丰富的数据源；能够对视频数据进行预处理和质量检测，以提高数据的质量和可用性，为后续的特征提取和评分计算提供清晰的数据输入；能够将视频数据分割成若干帧，每一帧代表一个时刻的图像，为后续的特征提取和评分计算提供基本的数据单位。

如图3所示，根据本申请的一个方面，所述步骤S2进一步为：

将视频帧的像素值作为输入，经过ViT-DCNN-LAM模块的处理，输出表示视频帧中的每个像素特征的高维特征图。特征图的维度为out_channels x H x W，其中out_channels是ViT-DCNN-LAM模块的输出通道数，H和W是视频帧的高度和宽度。

步骤S22、根据预存储的规则，从特征图中检测出操作关键节点，并标记为节点特征向量；根据预存储的规则来定义什么是操作关键节点。操作关键节点是指视频帧中对实验操作有重要影响的部分，比如操作者的手、实验器材、实验物质等。可以使用一些简单的规则来识别这些节点，比如根据像素特征的颜色、形状、纹理、运动等进行阈值分割、区域增长、边缘检测等。也可以使用一些更复杂的规则，比如基于深度学习的目标检测、实例分割、姿态估计等。将每个检测出的操作关键节点标记为一个节点特征向量，该向量由节点的位置、大小、形状、颜色、纹理、运动等属性组成。

需要构建一个节点特征向量集合，该集合包含了该视频帧中所有操作关键节点的特征向量。还需要建立一个视频帧与节点特征向量集合之间的映射，以便于后续的评分计算。可以使用一个字典来存储这个映射，其中键key是视频帧的索引，值value是节点特征向量集合。例如，如果第i帧视频中有n个操作关键节点，那么可以表示这个映射为：

frame_node_map={i:[node_feature_vector_1,node_feature_vector_2，...,node_feature_vector_n]}。其中node_feature_vector_j是第j个操作关键节点的特征向量，j = 1, 2, ..., n。

ViT部分：该部分使用了基于注意力机制的视觉变换器，将视频帧划分为多个块，并对每个块进行编码，得到一个全局特征向量。该部分的参数设置为：块的大小为16×16，编码维度为768，注意力头数为12，编码层数为12，前馈网络的维度为3072，Dropout的概率为0.1。

DCNN部分：该部分使用了深度卷积神经网络，对视频帧进行特征提取，得到一个局部特征图。该部分的参数设置为：卷积核的大小为3×3，步长为1，填充为1，激活函数为ReLU，池化层的大小为2×2，步长为2，填充为0，卷积层数为4，每层的输出通道数为64，128，256，512。

LSTM部分：该部分使用了长短期记忆网络，对全局特征向量和局部特征图进行融合，得到一个时序特征序列。该部分的参数设置为：隐藏层的维度为512，Dropout的概率为0.5，层数为2，方向为双向。

LAM部分：该部分使用了基于注意力机制的多模态融合模块，对时序特征序列进行加权平均，得到一个最终的特征向量。该部分的参数设置为：注意力头数为8，注意力维度为64，Dropout的概率为0.1。需要注意的时，这里的参数仅为示例。

在本实施例中，利用ViT-DCNN-LAM模块，从视频帧中提取高维的像素特征，为后续的评分计算提供丰富的数据源；根据预存储的规则，从特征图中检测出操作关键节点，并标记为节点特征向量，为后续的评分计算提供关键的数据单位；能够构建节点特征向量集合，并建立视频帧与节点特征向量集合之间的映射，为后续的评分计算提供方便的数据结构。

如图4所示，根据本申请的一个方面，所述步骤S3进一步为：

使用能够捕捉节点之间的因果关系或时序关系的数据结构。这里选择使用有向图，其中边是有方向的，表示节点之间的连接关系。有向图的节点可以表示视频帧中的操作关键节点的特征向量，边可以表示操作关键节点之间的因果关系或时序关系，权重可以表示边的强度或重要性。

将每一视频帧中的节点特征向量集合作为有向图的节点，使用add_node方法将节点添加到有向图中。根据预存储的规则，从视频帧的序列中分析出操作关键节点之间的因果关系或时序关系，使用add_edge方法将边添加到有向图中。还根据预存储的规则，计算出边的强度或重要性，作为边的权重。这样，就构建了一个操作流程有向图，以表示实验操作的过程。

使用DGC动态图卷积模块，其中还加入了动态边消息传递（DEMP）来增强边的特征表达。将每一节点作为DGC动态图卷积模块的输入，得到新的节点特征向量，即有向图新的节点。构建新的节点特征向量集合，用于后续的图池化操作。

GNN部分：该部分使用了基于图卷积的图神经网络，对特征向量进行信息传递，得到一个更新的特征向量。该部分的参数设置为：图卷积层数为2，每层的输出维度为256，激活函数为ReLU，Dropout的概率为0.1。

关系部分：该部分使用了基于多层感知器（MLP）的关系分类器，对更新的特征向量进行分类，得到一个关系向量。该部分的参数设置为：MLP的层数为2，每层的输出维度为128，激活函数为ReLU，Dropout的概率为0.1，输出维度为2，表示因果关系或时序关系。同样的，这里的参数仅为示例。

将操作流程有向图的新的节点特征向量集合作为DGP动态图池化模块的输入，得到低维的特征向量。对每个操作流程有向图重复这一过程，得到操作流程有向图与特征向量的映射。可以使用一个字典来存储这个映射，其中键是操作流程有向图的索引，值是特征向量。

利用有向图从节点特征向量集合中提取操作流程的信息，为后续的评分计算提供丰富的数据源；利用DGC动态图卷积模块，对有向图的节点进行特征提取和增强，为后续的评分计算提供更有效的数据单位；利用DGP动态图池化模块，对有向图进行特征降维和汇总，为后续的评分计算提供更简洁的数据结构。

如图5所示，根据本申请的一个方面，所述步骤S4进一步为：

将操作流程有向图的特征向量作为GCN的输入，经过GCN的处理，输出新的特征向量。为了增强每个实验操作关键节点的特征表示，还使用了注意力机制，根据节点之间的相关性，为每个节点的特征向量赋予不同的权重。为了增加节点深度信息，还设置了图跳跃连接层，将不同层次的节点特征向量进行拼接。这样，就构建了一个评分模型的基础结构。

使用了大规模的实验操作视频数据集，该数据集包含了不同类型、不同难度、不同质量的实验操作视频，以及每个视频中每个操作关键节点的人工标注的评分值。将每个视频转换为操作流程有向图的特征向量，作为评分模型的输入，将每个操作关键节点的评分值作为评分模型的输出，使用均方误差（MSE）作为损失函数，使用随机梯度下降（SGD）作为优化器，对评分模型进行预训练。通过预训练，可以使评分模型学习到如何根据操作流程有向图的特征向量，给出每个操作关键节点的评分值，从而反映实验操作的质量和效果。

需要将每个操作流程有向图的特征向量输入到预训练好的评分模型中。评分模型的输出是一个向量，其长度与操作流程有向图的节点数相同，每个元素表示对应节点的评分值。评分值的范围是0到1，越接近1表示实验操作的质量和效果越好，越接近0表示实验操作的质量和效果越差。

步骤S43：输出评分结果及关键帧；

可以使用基于多任务学习的评分模块，对特征向量进行回归，得到一个评分向量。该部分的参数设置为：共享层的层数为2，每层的输出维度为256，激活函数为ReLU，Dropout的概率为0.1，任务层的层数为1，每层的输出维度为1，激活函数为Sigmoid，任务数为4，分别表示操作正确率、操作速度、操作稳定性和操作规范性。

需要根据评分计算得到的节点与评分值的映射，计算出每个操作流程有向图的总评分，以及每个操作关键节点的评分。总评分是所有节点评分值的平均值，反映了整个操作流程的质量和效果。节点评分是每个节点评分值与总评分的差值，反映了每个操作关键节点的优劣程度。需要根据节点评分的高低，选择评分超过阈值的节点对应的视频帧，作为关键帧输出。可以设置一个阈值，比如0.8或0.4，表示只有评分高于0.8或者低于0.4的节点才是关键节点，对应的视频帧才是关键帧。

关于评分模型，采用的评价指标和数据集具体如下：

评价指标包括：均方误差（MSE）：用于衡量评分模型的输出与人工标注的评分值之间的差异，越小越好。皮尔逊相关系数（PCC）：用于衡量评分模型的输出与人工标注的评分值之间的线性相关性，越接近1越好。准确率（ACC）：用于衡量评分模型的输出是否与人工标注的评分值在一个可接受的误差范围内，越高越好。F1分数（F1）：用于衡量关键帧的精确度和召回率的综合指标，越高越好。

数据集包括：实验操作视频数据集：这是一个大规模的实验操作视频数据集，包含了不同类型、不同难度、不同质量的实验操作视频，以及每个视频中每个操作关键节点的人工标注的评分值。这个数据集可以用于评分模型的预训练和评估。实验操作关键帧数据集：这是一个实验操作关键帧数据集，包含了不同类型、不同难度、不同质量的实验操作视频，以及每个视频中人工选取的关键帧。这个数据集可以用于关键帧的评估。

在优化深度神经网络DCNN的参数的过程中，采用差分进化算法实现。寻找最优的操作关键结点和因果关系是一个组合优化问题，需要在有限的候选集合中选择最佳的子集，同时考虑节点之间的相似度或差异度，以及视频帧之间的时间间隔或顺序。可以采用蜂群算法、鲸鱼算法、蝗虫算法。优化图卷积和图池化的参数是一个连续优化问题，需要在一个连续的搜索空间中寻找最优的参数值，同时考虑图结构的特征和全局信息。可以采用灰狼算法、鱼鹰算法、哈里斯鹰算法或麻雀算法等，可以利用灵活的搜索策略和自适应的参数调整来适应不同的图结构和问题。

从操作流程有向图中筛选出评分较差的节点，并从视频中提取出对应的帧。可以设置一个阈值，比如0.5，表示只有评分低于0.5的节点才是低质量的节点，对应的视频帧才是低质量的关键帧。

可以使用基于深度学习的点云匹配和重建方法，可以从两路视频帧的图像数据中提取特征，并进行点云匹配和重建。

在这个过程中，需要考虑：点云匹配和重建的准确性，点云匹配和重建的结果是否与实验操作的真实情况一致，或者至少在一个可接受的误差范围内。点云匹配和重建的鲁棒性，点云匹配和重建的方法是否能够适应不同的图像数据，包括不同的视角、光照、遮挡等。点云分割的有效性，点云分割的结果是否能够正确地划分出操作关键环节，以及操作关键环节的边界和范围。

具体流程如下：视频预处理：首先，需要对视频进行预处理以提高后续分析的准确性。包括帧率调整、分辨率调整、去噪等。目的是确保视频格式和质量适合后续处理。关键帧检测：使用计算机视觉算法（如帧间差分法、光流法或基于深度学习的方法）来检测视频中的关键帧。关键帧是指物品和手势变化显著的帧，这些变化可能预示着重要的动作或事件的开始。帧选取与标注：从检测到的关键帧中选取代表性帧，并手动或自动进行标注，识别出视频帧中的物品和手势。需要使用目标检测算法来自动识别视频中的物体和手部动作。这些过程在上文已经描述了。

将像素坐标转换到世界坐标系，包括：

坐标映射，根据相机的校准参数，将视频帧中的像素坐标转换为世界坐标系中的坐标。这涉及到相机校正和立体视觉原理，以确定物体在三维空间中的位置。深度估计，使用深度估计技术来获取物品和手势的三维坐标，或者通过双目图像来实现。

构建物品移动流和操作手势流，轨迹提取：根据转换到世界坐标系的坐标，使用跟踪算法（如光流跟踪、卡尔曼滤波器）来提取物品和手势的移动轨迹。将提取的轨迹转换为时间序列数据，形成物品移动流和操作手势流。这些数据流将用于后续的动作分析和评估。

基于物品移动的过程和操作手势过程采用相似距离判断操作是否符合规范：

利用动作识别算法来分析物品移动流和操作手势流，识别出特定的动作或手势。

将识别出的动作或手势与预定义的标准动作模板进行比较，使用相似度度量方法（如欧氏距离、余弦相似度）来判断实际操作是否符合规范。

在一些实施例中，可以使用如下方案：

点云匹配部分：该部分使用基于迭代最近点算法的点云匹配模块，对视频数据中的每一帧进行点云提取，并与预设的标准点云进行匹配，得到一个变换矩阵。该部分的参数设置为：点云提取的方法为基于深度图的点云提取，点云匹配的方法为基于点到点的ICP算法，点云匹配的迭代次数为10，点云匹配的误差阈值为0.01。

点云重建部分：该部分使用基于泊松重建算法的点云重建模块，对视频数据中的所有帧进行点云重建，并输出一个完整的点云模型。该部分的参数设置为：点云重建的方法为基于泊松重建的算法，点云重建的深度为10，点云重建的样本数为1，点云重建的置信度为0.5。

关键帧输出部分：该部分使用基于预配置的规则的关键帧输出模块，对视频数据中的每一帧进行评分计算，并根据评分的变化，输出关键帧，并标注操作错误位置。该部分的参数设置为：关键帧的输出条件为评分的变化幅度大于0.1，操作错误位置的标注方法为在点云模型上用红色的圆圈表示。

在本实施例中，能提高实验操作关键节点识别准确率，提高实验操作评分准确性，实现实验操作的实时评估。

在本申请的另一实施例中，采用基于DCNN的图像语义分割的方法，比如Deeplabv3、U-Net、Mask R-CNN等，借鉴其网络结构和训练策略，设计和优化DCNN模块和评分模型。同时，需要收集和标注一些高质量的实验操作视频数据，作为训练和验证的数据集，以提高模型的泛化能力和鲁棒性。

在本申请的另一实施例中，可以采用一些数据压缩和并行计算的技术，减少数据的传输和存储开销，提高数据的处理速度。比如，可以使用JPEG2000或WebP等格式对视频数据进行压缩，保留更多的有效信息，同时减少数据量。还可以使用GPU或TPU等硬件设备，加速数据的预处理、特征提取、图构建、图卷积、图池化、评分计算和关键帧输出等步骤，利用并行计算的优势，提高数据的处理效率。

还可以采用一些数据增强和多模态融合的技术，增加数据的复杂性和多样性，提高节点特征的可靠性和一致性。比如，可以对视频数据进行旋转、缩放、裁剪、翻转、变换、噪声等操作，增加数据的多样性，提高模型的泛化能力。可以利用音频信息和文本信息等其他模态的数据，与视频数据进行融合，增加数据的信息量，提高模型的表达能力。

在本申请的另一实施例中，可以采用一些简化和优化的设备配置和算法设计，减少实验操作台的成本和复杂度，减少对实验操作的干扰和影响。比如，可以使用单目相机或双目相机代替多路摄像装置，利用单目或双目视觉的原理，恢复出实验操作的三维信息，减少设备的数量和成本。可以使用轻量化网络或知识蒸馏等技术，减少网络的参数和计算量，提高网络的运行速度和效果。

在本申请的另一实施例中，可以采用一些安全性、隐私性、可解释性、可扩展性等方面的技术，提高实验操作的可靠性和可用性。比如，可以使用异常检测或故障诊断等技术，监测和预防实验操作的安全风险，保障实验操作的安全性。可以使用可视化或注意力机制等技术，展示和解释实验操作的评分结果的依据和意义，提高实验操作的可解释性。可以使用迁移学习或元学习等技术，适应不同的实验场景和需求，提高实验操作的可扩展性。

在本申请的另一实施例中，还可以使用自然语言处理（NLP）技术来识别和理解操作者的语音指令，例如使用语音识别和自然语言理解模型。使用图神经网络（GNN）技术来建模和推理操作的目的和意图，例如使用图注意力网络和图卷积网络模型。使用序列模型技术来捕捉和判断操作的先后顺序和逻辑关系，例如使用长短期记忆网络（LSTM）或Transformer模型。

在本申请的另一实施例中，使用光流和视频稳定算法来对视频处理算法来对视频数据进行去噪、对齐和稳定。使用操作流程有向图表示方法来构建和优化操作流程有向图，例如使用基于K-shell的复杂网络关键节点识别方法。使用评分结果和关键帧展示方式来输出和展示评分结果和关键帧，例如使用基于GCN的复杂网络关键节点识别方法

还可以使用性能指标来衡量评分模型的准确率、召回率、F1值等，例如使用混淆矩阵和ROC曲线等工具。使用评分数据集来训练和测试评分模型，例如使用公开的或自定义的评分数据集，或者使用人工的或自动的评分标准。使用更简单的或更通用的软件框架和库来实现和部署评分模型，例如使用TensorFlow或PyTorch等工具。

在一些实施例中，评分结果分析和反馈，可以使用知识图谱来实现，

知识图谱部分，将实验操作的关键节点、因果关系或时序关系、评分值和错误类型等信息，表示为知识图谱的实体、关系、属性和值。该部分的参数设置为：本体的构建方法为基于OWL语言的本体构建，本体的推理方法为基于SWRL规则的本体推理，本体的存储方法为基于RDF格式的本体存储，本体的查询方法为基于SPARQL语言的本体查询。

改进建议部分，根据知识图谱的查询和推理结果，生成一个改进建议的文本。该部分的参数设置为：自然语言生成的方法可以使用基于Transformer的自然语言生成，自然语言生成的输入为知识图谱的查询和推理结果，自然语言生成的输出为改进建议的文本，自然语言生成的评价指标为BLEU，ROUGE，METEOR等。

在一些实施例中，可以采用图神经网络，无需进行卷积等操作。

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

在一些实施例中，针对两路视频和音频数据，还可以采用使用基于注意力机制的多模态融合网络，或者基于图神经网络的多模态融合网络，来学习视频数据和音频数据之间的互补和关联信息。

在一些实施例中，从理论上讲，ViT-DCNN-LAM模块，还可以替换为基于自适应位置编码的视觉变换器，或者基于多尺度注意力的视觉变换器，来增强视觉变换器的位置感知能力和多尺度特征提取能力，从而提高实验操作关键节点的特征表示。

在一些实施例中，操作流程有向图可以采用超图方案或动态图方案，比如，可以使用基于超图的图结构，或者基于动态图的图结构，来捕捉实验操作流程中的高阶关系和动态变化，从而提高实验操作关键节点的评分值的可靠性和稳定性。

在一些实施例中，评分模型还可以采用基于对比学习的预训练模型，或者基于知识蒸馏的预训练模型，来利用大量的无标注数据和小规模的有标注数据，从而提高评分模型的泛化能力和迁移能力，提高评分计算的效果和效率。

在一些实施例中，数据处理流程大致如下：

从实验操作台获取至少两路视频数据和音频数据，对视频数据进行同步和对齐，然后将视频数据和音频数据输入到多模态融合网络中，得到一个融合的特征向量。

将融合的特征向量输入到ViT-DCNN-LAM模块中，得到一个最终的特征向量，然后将最终的特征向量输入到关系推理模块中，得到一个关系向量，然后根据关系向量构建操作流程有向图。

将操作流程有向图输入到评分模块中，得到一个评分向量，然后将评分向量输入到知识图谱模块中，得到一个知识图谱，然后根据知识图谱进行查询和推理，得到一个改进建议。

将改进建议输入到自然语言生成模块中，得到一个改进建议的文本，然后将改进建议的文本输出给操作者，同时，还根据评分向量输出关键帧，并标注操作错误位置，以便操作者查看实验操作的优缺点。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.基于DCNN的实验操作关键节点评分方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于DCNN的实验操作关键节点评分方法，其特征在于，所述步骤S1进一步为：

步骤S12、获取实验操作台的音频信息；

3.如权利要求2所述的基于DCNN的实验操作关键节点评分方法，其特征在于，所述步骤S2进一步为：

4.如权利要求3所述的基于DCNN的实验操作关键节点评分方法，其特征在于，所述步骤S3进一步为：

5.如权利要求4所述的基于DCNN的实验操作关键节点评分方法，其特征在于，所述步骤S4进一步为：

步骤S43：输出评分结果及关键帧；

6.如权利要求5所述的基于DCNN的实验操作关键节点评分方法，其特征在于，所述DCNN模块还包括语音处理通道，用于接收并处理音频信息，基于音频信息判断实验操作流程是否符合规范。

7.如权利要求5所述的基于DCNN的实验操作关键节点评分方法，其特征在于，所述步骤S2还包括步骤S24、提取关键节点对应的视频帧，将物品和手势的像素坐标转换到世界坐标系；构建物品移动流和操作手势流，基于物品移动的过程和操作手势过程，采用相似距离判断操作是否符合规范。

8.如权利要求5所述的基于DCNN的实验操作关键节点评分方法，其特征在于，所述步骤S43中，输出关键帧的过程进一步为：

9. 一种基于DCNN的实验操作关键节点评分系统，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1至8任一项所述的基于DCNN的实验操作关键节点评分方法。