CN117593934A

CN117593934A - 一种基于工业机器人的虚拟仿真实训系统

Info

Publication number: CN117593934A
Application number: CN202410063344.0A
Authority: CN
Inventors: 宋云艳; 田媛; 唐敏; 隋欣; 李洁
Original assignee: Changchun Vocational Institute of Technology
Current assignee: Changchun Vocational Institute of Technology
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-02-23
Anticipated expiration: 2044-01-17
Also published as: CN117593934B

Abstract

本申请公开了一种基于工业机器人的虚拟仿真实训系统，涉及工业机器人领域，其通过部署于训练者佩戴头盔的摄像头实时采集训练者针对于工业机器人的训练任务的交互操作监控视频，并在后端引入数据处理和分析算法来进行该交互操作监控视频和标准的交互操作参考视频的分析和比较，以此分析结果来判断训练者的交互操作是否准确，即是否符合训练任务要求。这样，可以让操作者在虚拟场景中进行实践操作，并通过对交互结果的分析来评估其操作准确性，通过这样的方式，可以有效地促进学习者的实践能力和理论水平的提高，同时确保实训的安全性和有效性。

Description

一种基于工业机器人的虚拟仿真实训系统

技术领域

本申请涉及工业机器人领域，且更为具体地，涉及一种基于工业机器人的虚拟仿真实训系统。

背景技术

工业机器人是一种能够按照预先设定的程序自动执行工作的机械装置，它在制造业、物流业、服务业等领域有着广泛的应用。然而，工业机器人的操作、编程和调试需要具备一定的专业知识和技能，这就要求对工业机器人的操作人员进行专业有效的实训，而传统的实训方式通常需要使用真实的机器人设备，且在真实的工业环境中进行，这不仅成本高昂，效率较低，而且存在安全风险。

因此，期望一种基于工业机器人的虚拟仿真实训系统。

发明内容

为了解决上述技术问题，提出了本申请。

根据本申请的一个方面，提供了一种基于工业机器人的虚拟仿真实训系统，其包括：

交互操作监控视频采集模块，用于获取由摄像头采集的用户针对于工业机器人的训练任务的交互操作监控视频；

交互操作参考视频获取模块，用于获取所述训练任务的交互操作参考视频；

交互操作语义编码模块，用于通过交互操作孪生视频检测模型对所述交互操作监控视频和所述交互操作参考视频进行特征提取以得到交互操作监控语义特征图和交互操作参考语义特征图；

交互操作语义相似度分析模块，用于计算所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵之间的语义相似度以得到由多个语义相似度组成的交互操作细粒度语义对比特征向量作为交互操作细粒度语义对比特征；

交互操作正确性检测模块，用于基于所述交互操作细粒度语义对比特征，确定交互操作是否符合训练任务要求；

其中，所述交互操作语义相似度分析模块，包括：

特征矩阵展开单元，用于将所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵展开为特征向量以得到交互操作监控语义特征向量的序列和交互操作参考语义特征向量的序列；

交互操作细粒度语义对比单元，用于计算所述交互操作监控语义特征向量的序列和所述交互操作参考语义特征向量的序列之间的语义相似度以得到由多个语义相似度组成的所述交互操作细粒度语义对比特征向量；

其中，所述交互操作细粒度语义对比单元，用于：以如下公式计算所述交互操作监控语义特征向量的序列和所述交互操作参考语义特征向量的序列之间的语义相似度以得到多个相似度；

其中，所述公式为：

；

其中，表示所述交互操作监控语义特征向量，/>表示所述交互操作参考语义特征向量，/>和/>为两种不同的线性变换，/>表示所述交互操作监控语义特征向量/>和所述交互操作参考语义特征向量/>的语义相似度；

将所述多个相似度进行一维排列以得到所述交互操作细粒度语义对比特征向量作为所述交互操作细粒度语义对比特征。

在上述基于工业机器人的虚拟仿真实训系统中，所述交互操作孪生视频检测模型包含第一视频理解器和第二视频理解器。

在上述基于工业机器人的虚拟仿真实训系统中，所述交互操作正确性检测模块，用于：将所述交互操作细粒度语义对比特征向量通过分类器以得到分类结果，所述分类结果用于表示交互操作是否符合训练任务要求。

在上述基于工业机器人的虚拟仿真实训系统中，还包括用于对所述包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型和所述分类器进行训练的训练模块。

在上述基于工业机器人的虚拟仿真实训系统中，所述训练模块，包括：

训练数据获取单元，用于获取训练数据，所述训练数据包括由摄像头采集的用户针对于工业机器人的训练任务的训练交互操作监控视频；以及，获取所述训练任务的训练交互操作参考视频；

训练交互操作语义编码单元，用于通过包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型对所述训练交互操作监控视频和所述训练交互操作参考视频进行特征提取以得到训练交互操作监控语义特征图和训练交互操作参考语义特征图；

训练特征矩阵展开单元，用于将所述训练交互操作监控语义特征图和所述训练交互操作参考语义特征图中每组对应通道维度的特征矩阵展开为特征向量以得到训练交互操作监控语义特征向量的序列和训练交互操作参考语义特征向量的序列；

训练交互操作细粒度语义对比单元，用于计算所述训练交互操作监控语义特征向量的序列和所述训练交互操作参考语义特征向量的序列之间的语义相似度以得到由多个语义相似度组成的训练交互操作细粒度语义对比特征向量；

训练优化单元，用于对所述训练交互操作细粒度语义对比特征向量进行优化以得到优化训练交互操作细粒度语义对比特征向量；

分类损失单元，用于将所述优化训练交互操作细粒度语义对比特征向量通过分类器以得到分类损失函数值；

训练单元，用于基于所述分类损失函数值对所述包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型和所述分类器进行训练。

在上述基于工业机器人的虚拟仿真实训系统中，所述分类损失单元，用于：

使用所述分类器对所述优化训练交互操作细粒度语义对比特征向量进行处理以得到训练分类结果:以及

计算所述训练分类结果与交互操作是否符合训练任务要求的真实值之间的交叉熵损失函数值作为所述分类损失函数值

与现有技术相比，本申请提供的一种基于工业机器人的虚拟仿真实训系统，其通过部署于训练者佩戴头盔的摄像头实时采集训练者针对于工业机器人的训练任务的交互操作监控视频，并在后端引入数据处理和分析算法来进行该交互操作监控视频和标准的交互操作参考视频的分析和比较，以此分析结果来判断训练者的交互操作是否准确，即是否符合训练任务要求。这样，可以让操作者在虚拟场景中进行实践操作，并通过对交互结果的分析来评估其操作准确性，通过这样的方式，可以有效地促进学习者的实践能力和理论水平的提高，同时确保实训的安全性和有效性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于工业机器人的虚拟仿真实训系统的框图；

图2为根据本申请实施例的基于工业机器人的虚拟仿真实训系统的系统架构图；

图3为根据本申请实施例的基于工业机器人的虚拟仿真实训系统的训练阶段的框图；

图4为根据本申请实施例的基于工业机器人的虚拟仿真实训系统中交互操作语义相似度分析模块的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

针对上述技术问题，在本申请的技术方案中，提出了一种基于工业机器人的虚拟仿真实训系统，其能够利用虚拟现实技术，模拟真实的工业环境，让训练者在虚拟场景中进行机器人的操作、编程和调试，从而提高训练者的实践能力和理论水平。相应地，考虑到在实际进行虚拟仿真实训的过程中，对于训练者的交互操作进行有效地评估来判断交互操作是否符合训练任务要求是极其重要的。这是由于通过对学习者的交互操作进行专业有效地评估，可以及时给予学习者反馈，从而让学习者了解其操作的准确性和符合程度，以便于及时纠正错误和改进操作方法。这有助于学习者快速掌握正确的操作技能，提高学习效率，同时还能够保护其自身和周围人员的安全。

在本申请的技术方案中，提出了一种基于工业机器人的虚拟仿真实训系统。图1为根据本申请实施例的基于工业机器人的虚拟仿真实训系统的框图。图2为根据本申请实施例的基于工业机器人的虚拟仿真实训系统的系统架构图。如图1和图2所示，根据本申请的实施例的基于工业机器人的虚拟仿真实训系统，包括：交互操作监控视频采集模块310，用于获取由摄像头采集的用户针对于工业机器人的训练任务的交互操作监控视频；交互操作参考视频获取模块320，用于获取所述训练任务的交互操作参考视频；交互操作语义编码模块330，用于通过交互操作孪生视频检测模型对所述交互操作监控视频和所述交互操作参考视频进行特征提取以得到交互操作监控语义特征图和交互操作参考语义特征图；交互操作语义相似度分析模块340，用于计算所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵之间的语义相似度以得到由多个语义相似度组成的交互操作细粒度语义对比特征向量作为交互操作细粒度语义对比特征；交互操作正确性检测模块350，用于基于所述交互操作细粒度语义对比特征，确定交互操作是否符合训练任务要求。

特别地，所述交互操作监控视频采集模块310，用于获取由摄像头采集的用户针对于工业机器人的训练任务的交互操作监控视频。应可以理解，所述交互操作监控视频是学习者在虚拟仿真实训系统中进行操作时的实际录制视频，记录了学习者的交互行为。

特别地，所述交互操作参考视频获取模块320，用于获取所述训练任务的交互操作参考视频。应可以理解，所述交互操作参考视频是预先录制的标准操作视频，用于作为参考，代表了符合训练任务要求的理想操作。

特别地，所述交互操作语义编码模块330，用于通过交互操作孪生视频检测模型对所述交互操作监控视频和所述交互操作参考视频进行特征提取以得到交互操作监控语义特征图和交互操作参考语义特征图。应可以理解，为了能够对于这两个视频进行机器人交互操作的语义分析和对比，在本申请的技术方案中，将所述交互操作监控视频和所述交互操作参考视频通过包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型以得到交互操作监控语义特征图和交互操作参考语义特征图。通过所述交互操作孪生视频检测模型进行处理，可以对所述交互操作监控视频和所述交互操作参考视频进行视频语义理解和特征提取，其中，所述第一视频理解器负责对所述交互操作监控视频进行处理，以提取其中的语义信息，它可以识别出视频中的机器人的动作、姿态等关键语义特征信息，并将其转化为语义特征图。所述第二视频理解器则对所述交互操作参考视频进行处理，提取其中的语义信息。它与第一视频理解器类似，但针对的是标准操作视频。通过对标准操作视频的语义特征提取，可以得到参考语义特征图，代表了符合训练任务要求的理想操作的语义特征。

特别地，所述交互操作语义相似度分析模块340，用于计算所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵之间的语义相似度以得到由多个语义相似度组成的交互操作细粒度语义对比特征向量作为所述交互操作细粒度语义对比特征。特别地，在本申请的一个具体示例中，如图4所示，所述交互操作语义相似度分析模块340，包括：特征矩阵展开单元341，用于将所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵展开为特征向量以得到交互操作监控语义特征向量的序列和交互操作参考语义特征向量的序列；交互操作细粒度语义对比单元342，用于计算所述交互操作监控语义特征向量的序列和所述交互操作参考语义特征向量的序列之间的语义相似度以得到由多个语义相似度组成的所述交互操作细粒度语义对比特征向量。

具体地，所述特征矩阵展开单元341，用于将所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵展开为特征向量以得到交互操作监控语义特征向量的序列和交互操作参考语义特征向量的序列。应可以理解，通过将特征矩阵展开为特征向量，可以将原始的高维特征表示转换为低维的特征向量表示；通过比较交互操作监控语义特征向量的序列和交互操作参考语义特征向量的序列，可以计算它们之间的相似度。这种相似度计算可以用于度量不同交互操作之间的相似性或对比度。

具体地，所述交互操作细粒度语义对比单元342，用于计算所述交互操作监控语义特征向量的序列和所述交互操作参考语义特征向量的序列之间的语义相似度以得到由多个语义相似度组成的所述交互操作细粒度语义对比特征向量。考虑到所述交互操作监控语义特征图和所述交互操作参考语义特征图都是通过视频理解器从对应的视频中提取特征得到的，这些特征图包含了关于操作机器人的语义特征信息，例如机器人的动作、姿态等。并且，还考虑到每个特征图在通道维度上都具有着多个特征矩阵，每个特征矩阵都代表了一种语义特征信息。因此，为了比较学习者的操作与标准操作之间的语义相似度，可以计算所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵之间的语义相似度以得到由多个语义相似度组成的交互操作细粒度语义对比特征向量。也就是说，通过计算每组对应通道维度的特征矩阵之间的语义相似度，可以得到多个语义相似度值，这些相似度值反映了操作者的操作与标准操作在不同语义维度上的差异程度。这样可以量化地判断学习者的交互操作是否符合训练任务要求，从而提供有效的反馈和指导。更具体地，计算所述交互操作监控语义特征向量的序列和所述交互操作参考语义特征向量的序列之间的语义相似度以得到由多个语义相似度组成的所述交互操作细粒度语义对比特征向量，包括：以如下公式计算所述交互操作监控语义特征向量的序列和所述交互操作参考语义特征向量的序列之间的语义相似度以得到多个相似度；其中，所述公式为：

；

其中，表示所述交互操作监控语义特征向量，/>表示所述交互操作参考语义特征向量，/>和/>为两种不同的线性变换，/>表示所述交互操作监控语义特征向量/>和所述交互操作参考语义特征向量/>的语义相似度；将所述多个相似度进行一维排列以得到所述交互操作细粒度语义对比特征向量作为所述交互操作细粒度语义对比特征。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式计算所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵之间的语义相似度以得到由多个语义相似度组成的交互操作细粒度语义对比特征向量作为所述交互操作细粒度语义对比特征，例如：输入：交互操作监控语义特征图，形状为 [BatchSize, Channels, Height, Width]，其中 Batch Size 表示批量大小，Channels 表示通道数，Height 和 Width 表示特征图的高度和宽度。同时，有一个交互操作参考语义特征图，形状也为 [Batch Size, Channels, Height, Width]；从交互操作监控语义特征图和交互操作参考语义特征图中提取对应通道维度的特征矩阵。对于每个通道，提取的特征矩阵形状为 [Batch Size, Height, Width]；对于每组对应通道维度的特征矩阵，计算它们之间的语义相似度。可以使用各种方法来计算语义相似度，如余弦相似度、欧氏距离、相关性等。计算得到的语义相似度为一个标量值；将所有组的语义相似度组合起来，得到一个由多个语义相似度组成的向量。这个向量表示了交互操作细粒度语义对比特征；对交互操作细粒度语义对比特征向量进行归一化处理，以确保特征值在一定范围内。

特别地，所述交互操作正确性检测模块350，用于基于所述交互操作细粒度语义对比特征，确定交互操作是否符合训练任务要求。也就是，在本申请的一个具体示例中，将所述交互操作细粒度语义对比特征向量通过分类器以得到分类结果，所述分类结果用于表示交互操作是否符合训练任务要求。也就是说，利用交互操作语义和交互参考语义之间的多维度细粒度语义交互对比特征信息来进行分类处理，以此来判断训练者的交互操作是否准确，即是否符合训练任务要求。这样，可以促进学习者的实践能力和理论水平的提高，同时确保实训的安全性和有效性。具体地，将所述交互操作细粒度语义对比特征向量通过分类器以得到分类结果，所述分类结果用于表示交互操作是否符合训练任务要求，包括：使用所述分类器的多个全连接层对所述交互操作细粒度语义对比特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

分类器是指一种机器学习模型或算法，用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分，它通过学习从输入数据到输出类别的映射关系来进行分类任务。

全连接层是神经网络中常见的一种层类型。在全连接层中，每个神经元都与上一层的所有神经元相连接，每个连接都有一个权重。这意味着全连接层中的每个神经元都接收来自上一层所有神经元的输入，并通过权重对这些输入进行加权求和，然后将结果传递给下一层。

Softmax分类函数是一种常用的激活函数，用于多分类问题。它将输入向量的每个元素转化为一个介于0和1之间的概率值，并且这些概率值的和等于1。Softmax函数常用于神经网络的输出层，特别适用于多分类问题，因为它能够将网络输出映射为各个类别的概率分布。在训练过程中，Softmax函数的输出可以用于计算损失函数，并通过反向传播算法来更新网络参数。值得注意的是，Softmax函数的输出并不会改变元素之间的相对大小关系，只是对其进行了归一化处理。因此，Softmax函数并不改变输入向量的特性，只是将其转化为概率分布形式。

应可以理解，在利用上述神经网络模型进行推断之前，需要对所述包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型和所述分类器进行训练。也就是说，根据本申请的基于工业机器人的虚拟仿真实训系统300，还包括训练阶段400，用于对所述包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型和所述分类器进行训练。

图3为根据本申请实施例的基于工业机器人的虚拟仿真实训系统的训练阶段的框图。如图3所示，根据本申请实施例的基于工业机器人的虚拟仿真实训系统300，包括：训练阶段400，包括：训练数据获取单元410，用于获取训练数据，所述训练数据包括由摄像头采集的用户针对于工业机器人的训练任务的训练交互操作监控视频；以及，获取所述训练任务的训练交互操作参考视频；训练交互操作语义编码单元420，用于通过包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型对所述训练交互操作监控视频和所述训练交互操作参考视频进行特征提取以得到训练交互操作监控语义特征图和训练交互操作参考语义特征图；训练特征矩阵展开单元430，用于将所述训练交互操作监控语义特征图和所述训练交互操作参考语义特征图中每组对应通道维度的特征矩阵展开为特征向量以得到训练交互操作监控语义特征向量的序列和训练交互操作参考语义特征向量的序列；训练交互操作细粒度语义对比单元440，用于计算所述训练交互操作监控语义特征向量的序列和所述训练交互操作参考语义特征向量的序列之间的语义相似度以得到由多个语义相似度组成的训练交互操作细粒度语义对比特征向量；训练优化单元450，用于对所述训练交互操作细粒度语义对比特征向量进行优化以得到优化训练交互操作细粒度语义对比特征向量；分类损失单元460，用于将所述优化训练交互操作细粒度语义对比特征向量通过分类器以得到分类损失函数值；训练单元470，用于基于所述分类损失函数值对所述包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型和所述分类器进行训练。

其中，所述分类损失单元，用于使用所述分类器对所述优化训练交互操作细粒度语义对比特征向量进行处理以得到训练分类结果:以及，计算所述训练分类结果与交互操作是否符合训练任务要求的真实值之间的交叉熵损失函数值作为所述分类损失函数值。

特别地，在上述技术方案中，将所述交互操作监控视频和所述交互操作参考视频通过包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型时，所述交互操作监控语义特征图和所述交互操作参考语义特征图分别表达所述交互操作监控视频和所述交互操作参考视频的时序关联的图像语义特征，但是，考虑到所述交互操作监控视频和所述交互操作参考视频的源图像语义时序对应差异，即视频帧之间的图像语义对应性存在显著差异，计算所述交互操作监控语义特征图和所述交互操作参考语义特征图中每组对应通道维度的特征矩阵之间的语义相似度得到的由多个语义相似度组成的所述交互操作细粒度语义对比特征向量的整体特征分布也会存在明显的不一致和不稳定，从而影响所述交互操作细粒度语义对比特征向量通过分类器进行分类训练的稳定性。基于此，本申请的申请人在将所述交互操作细粒度语义对比特征向量通过分类器进行分类训练时，在每次迭代时对所述交互操作细粒度语义对比特征向量进行优化，具体表示为：

；

其中是所述交互操作细粒度语义对比特征向量/>的特征值，/>和/>是所述交互操作细粒度语义对比特征向量/>的1范数和2范数，/>是所述交互操作细粒度语义对比特征向量/>的向量长度，且/>是与/>相关的权重超参数，/>表示指数运算，/>是所述优化交互操作细粒度语义对比特征向量。这里，通过所述交互操作细粒度语义对比特征向量的范数，来进行所述交互操作细粒度语义对比特征向量/>的整体特征分布分别在绝对距离的刚性结构和空间距离的非刚性结构下的一致性和稳定性表示，可以使得所述交互操作细粒度语义对比特征向量/>的全局特征分布对于向量分布方向上的局部模式变化具有一定重复性，这样，当所述交互操作细粒度语义对比特征向量/>通过分类器进行分类时，训练过程将对于所述交互操作细粒度语义对比特征向量/>的全局特征分布经由分类器的权重矩阵的尺度和旋转变化更具有鲁棒性，从而提升分类训练过程的稳定性。这样，能够基于训练任务，通过训练者佩戴的头盔实现虚拟场景的交互和实践操作，并通过交互结果来判断交互操作是否符合训练任务要求，通过这样的方式，可以有效地促进学习者的实践能力和理论水平的提高，同时确保实训的安全性和有效性。

如上所述，根据本申请实施例的基于工业机器人的虚拟仿真实训系统300可以实现在各种无线终端中，例如具有基于工业机器人的虚拟仿真实训算法的服务器等。在一种可能的实现方式中，根据本申请实施例的基于工业机器人的虚拟仿真实训系统300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该基于工业机器人的虚拟仿真实训系统300可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该基于工业机器人的虚拟仿真实训系统300同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该基于工业机器人的虚拟仿真实训系统300与该无线终端也可以是分立的设备，并且该基于工业机器人的虚拟仿真实训系统300可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于工业机器人的虚拟仿真实训系统，其特征在于，包括：

其中，所述交互操作语义相似度分析模块，包括：

其中，所述公式为：

；

2.根据权利要求1所述的基于工业机器人的虚拟仿真实训系统，其特征在于，所述交互操作孪生视频检测模型包含第一视频理解器和第二视频理解器。

3.根据权利要求2所述的基于工业机器人的虚拟仿真实训系统，其特征在于，所述交互操作正确性检测模块，用于：将所述交互操作细粒度语义对比特征向量通过分类器以得到分类结果，所述分类结果用于表示交互操作是否符合训练任务要求。

4.根据权利要求3所述的基于工业机器人的虚拟仿真实训系统，其特征在于，还包括用于对所述包含第一视频理解器和第二视频理解器的交互操作孪生视频检测模型和所述分类器进行训练的训练模块。

5.根据权利要求4所述的基于工业机器人的虚拟仿真实训系统，其特征在于，所述训练模块，包括：

6.根据权利要求5所述的基于工业机器人的虚拟仿真实训系统，其特征在于，所述分类损失单元，用于：

使用所述分类器对所述优化训练交互操作细粒度语义对比特征向量进行处理以得到训练分类结果:

计算所述训练分类结果与交互操作是否符合训练任务要求的真实值之间的交叉熵损失函数值作为所述分类损失函数值。