CN113537335A

CN113537335A - 一种人手装配技能解析的方法及系统

Info

Publication number: CN113537335A
Application number: CN202110781876.4A
Authority: CN
Inventors: 楚中毅; 高正阳; 刘沛; 康增信
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-22
Anticipated expiration: 2041-07-09
Also published as: CN113537335B

Abstract

本发明涉及一种人手装配技能解析的方法及系统。该方法包括：采集人手装配动作演示过程中的视频特征以及指尖力特征；根据所述视频特征构建装配场景图，并利用图网络模型提取所述装配场景图的空间特征；利用时间卷积网络提取连续的所述空间特征的全局时间信息，确定所述人手装配动作演示过程中的时空特征；在提取所述时空特征的同时，利用长短期记忆网络模型，根据所述指尖力特征确定分割点特征；将所述空间特征以及所述分割点特征进行空间‑分割点特征池化，确定空间‑分割点特征；对所述时空特征以及所述空间‑分割点特征进行加权融合，确定基元动作序列。本发明能够得到平滑无毛刺的基元动作序列，且能够精确地识别装配动作的分割点信息。

Description

一种人手装配技能解析的方法及系统

技术领域

本发明涉及人手装配技能解析领域，特别是涉及一种人手装配技能解析的方法及系统。

背景技术

工业装配动作具有品种多、操作任务复杂、非标程度高的特点，其生产和精密装配环境存在明显的不确定性，这种庞大复杂的快节奏装配任务使得依靠专业人员编程的传统装配制造生产方式难以适应，严重限制了行业生产效率。因此，能够通过人手装配动作演示自主学习的机器人将会更好地促进装配行业自动化。实现对装配动作的自主学习首先需要对人手的装配技能进行解析，得到简单的可供机器人学习的基元动作序列。

传统动作识别方法有基于模板匹配的方法和基于统计模型的方法，存在费时、抗噪声能力弱、鲁棒性弱等问题，难以满足装配场景下精确识别基元动作的要求。近年来，基于深度学习的动作识别方法已取得了很大的研究进展，很多识别方法只针对视觉信息，存在需要人为调参、难以处理离散语义特征、随视觉角度变化存在部分遮挡等问题，导致识别到的基元动作片段不平滑、基元动作分割点不准确、存在部分遮挡情况效果差。

发明内容

本发明的目的是提供一种人手装配技能解析的方法及系统，以解决识别到的基元动作片段不平滑、基元动作分割点不准确、存在部分遮挡情况效果差的问题。

为实现上述目的，本发明提供了如下方案：

一种人手装配技能解析的方法，包括：

采集人手装配动作演示过程中的视频特征以及指尖力特征；

根据所述视频特征构建装配场景图，并利用图网络模型提取所述装配场景图的空间特征；

利用时间卷积网络提取连续的所述空间特征的全局时间信息，确定所述人手装配动作演示过程中的时空特征；

在提取所述时空特征的同时，利用长短期记忆网络模型，根据所述指尖力特征确定分割点特征；

将所述空间特征以及所述分割点特征进行空间-分割点特征池化，确定空间-分割点特征；

对所述时空特征以及所述空间-分割点特征进行加权融合，确定基元动作序列。

可选的，所述采集人手装配动作演示过程中的视频特征以及指尖力特征，具体包括：

利用深度视觉相机采集人手装配动作演示过程中的RGB-D图像，输出人手装配动作演示的视频特征；所述视频特征包括多帧RGB图像以及多帧深度图像；

利用REP薄膜压力传感器采集人手装配动作演示过程中拇指和食指的指尖力变化信息，并将所述指尖力变化信息转换为电阻值变化信息；

利用驱动模块将所述电阻值变化信息转换为模拟电压的变化；

利用嵌入式单片机对所述模拟电压的变化进行ADC处理，确定指尖力变化的电压值；所述指尖力变化的电压值为指尖力特征。

可选的，所述根据所述视频特征构建装配场景图，并利用图网络模型提取所述装配场景图的空间特征，具体包括：

识别每一帧所述RGB图像中的对象，确定对象的类型以及2D边界框位置信息；所述对象为所述RGB图像中的装配零件以及人手；

根据所述2D边界框位置信息以及所述深度图像的深度信息确定所述对象的3D坐标；

基于所述对象的3D坐标利用点云滤波确定对象点云信息以及所述对象的3D边界框信息；

根据所述3D边界框信息判断所述对象的相对位置关系，生成装配场景图；

利用图网络模型不断更新每帧所述装配场景图的节点、边和全局属性，得到每帧所述装配场景图的空间特征。

可选的，所述利用时间卷积网络提取连续的所述空间特征的全局时间信息，确定所述人手装配动作演示过程中的时空特征，具体包括：

构建单阶段的时间卷积网络；所述单阶段的时间卷积网络中的输入层后连接多个卷积层，所述卷积层使用卷积核为3的非因果卷积，引入每层加倍膨胀因子的空洞卷积以增大每层所述卷积层的感受野，最后一层隐含层每帧的感受野为完整视频帧数；

多次构建单阶段的时间卷积网络，生成多阶段时间卷积网络，并将所述多阶段的时间卷积网络中最后一层隐含层的特征作为所述人手装配动作演示过程中每帧视频的时空特征。

可选的，所述在提取所述时空特征的同时，利用长短期记忆网络模型，根据所述指尖力特征确定分割点特征，具体包括：

对所述指尖力特征进行预处理，确定多维指尖力特征；所述多维指尖力特征包括拇指数据、拇指方差、拇指斜率、食指数据、食指方差、食指斜率以及时间戳；其中，所述拇指数据与所述食指数据为当前时间戳原始指尖力电压数据，所述拇指方差与所述食指方差为当前时间戳及前后5个时间戳指尖力电压数据的方差，所述拇指斜率与所述食指斜率为当前时间戳及前后5个时间戳指尖力电压数据所拟合直线的斜率；

基于所述长短期记忆网络模型，利用所述多维指尖力特征识别所述装配动作的分割点信息；所述分割点信息用n×1维特征向量表示，所述特征向量用数字0和数字1进行编码，所述数字0所在行对应的视频帧数不是分割点，所述数字1所在行对应的视频帧数是分割点；其中，n为视频帧数；

根据所述n×1维特征向量确定分割点特征。

可选的，所述将所述空间特征以及所述分割点特征进行空间-分割点特征池化，确定空间-分割点特征，具体包括：

根据所述分割点特征内的分割点对所述空间特征进行分割，确定多段分割后的空间特征；

对每段所述分割后的空间特征进行平均池化，确定空间-分割点特征。

可选的，所述对所述时空特征以及所述空间-分割点特征进行加权融合，确定基元动作序列，具体包括：

将所述时空特征以及所述空间-分割点特征加权融合后的融合特征对应的融合矩阵按行分块，定义所述融合矩阵；

根据所述融合矩阵确定每一帧视频的基元装配动作类型；

合并所述基元装配动作类型相同的相邻帧，确定所述人手装配动作演示视频的基元动作序列。

一种人手装配技能解析的系统，包括：

特征采集模块，用于采集人手装配动作演示过程中的视频特征以及指尖力特征；

空间特征提取模块，用于根据所述视频特征构建装配场景图，并利用图网络模型提取所述装配场景图的空间特征；

时空特征提取模块，用于利用时间卷积网络提取连续的所述空间特征的全局时间信息，确定所述人手装配动作演示过程中的时空特征；

分割点特征提取模块，用于在提取所述时空特征的同时，利用长短期记忆网络模型，根据所述指尖力特征确定分割点特征；

空间-分割点特征池化模块，用于将所述空间特征以及所述分割点特征进行空间-分割点特征池化，确定空间-分割点特征；

特征融合模块，用于对所述时空特征以及所述空间-分割点特征进行加权融合，确定基元动作序列。

可选的，所述特征采集模块，具体包括：

视频特征采集单元，用于利用深度视觉相机采集人手装配动作演示过程中的RGB-D图像，输出人手装配动作演示的视频特征；所述视频特征包括多帧RGB图像以及多帧深度图像；

指尖力信息采集单元，用于利用REP薄膜压力传感器采集人手装配动作演示过程中拇指和食指的指尖力变化信息，并将所述指尖力变化信息转换为电阻值变化信息；

转换单元，用于利用驱动模块将所述电阻值变化信息转换为模拟电压的变化；

指尖力特征处理单元，用于利用嵌入式单片机对所述模拟电压的变化进行ADC处理，确定指尖力变化的电压值；所述指尖力变化的电压值为指尖力特征。

可选的，所述空间特征提取模块，具体包括：

2D边界框确定单元，用于识别每一帧所述RGB图像中的对象，确定对象的类型以及2D边界框位置信息；所述对象为所述RGB图像中的装配零件以及人手；

3D坐标确定单元，用于根据所述2D边界框位置信息以及所述深度图像的深度信息确定所述对象的3D坐标；

3D边界框信息确定单元，用于基于所述对象的3D坐标利用点云滤波确定对象点云信息以及所述对象的3D边界框信息；

装配场景图生成单元，用于根据所述3D边界框信息判断所述对象的相对位置关系，生成装配场景图；

基于图网络的空间特征提取单元，用于利用图网络模型不断更新每帧所述装配场景图的节点、边和全局属性，得到每帧所述装配场景图的空间特征。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种人手装配技能解析的方法及系统，采集人手装配动作演示的视频以及指尖力信息；输入人手装配动作演示的视频特征，提取视频特征中对象的相对位置关系，构建对象的场景图，并将场景图输入图网络进行空间特征提取，然后利用时间卷积网络，提取连续空间特征的全局时间信息，得到装配演示视频的时空特征；输入人手装配动作的指尖力的信息，将处理后的信息输入长短期记忆网络进行分割点提取，得到准确的分割点信息，与图网络提取的空间特征进行空间-分割点特征池化，得到空间-分割点特征；输入时空特征与空间-分割点特征，对时间、空间和分割点特征进行加权融合，得到基元装配动作分割序列。可见，本发明结合装配动作演示的时间、空间以及分割点信息将人手装配动作演示进行准确解析，并自动分割为简单的平滑无毛刺的基元动作序列，提高了装配动作解析的准确率和鲁棒性，且能够精确地识别装配动作的分割点信息，在部分遮挡情况下也能完成对装配动作的解析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种人手装配技能解析的方法流程图；

图2为本发明所提供的一种人手装配技能解析的系统结构图；

图3为本发明所提的指尖力特征采集流程图；

图4为本发明所提供的基于图网络的空间特征提取单元内部结构与输入输出关系连接图；

图5为本发明所提供的分割点特征提取模块内部结构与输入输出关系连接图；

图6为本发明所提供的空间-分割点特征池化的示意图；

图7为本发明所提供的人手装配技能解析的系统内主要模块之间的关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种人手装配技能解析的方法及系统，能够得到平滑无毛刺的基元动作序列，且能够精确地识别装配动作的分割点信息，在部分遮挡情况下完成对装配动作的解析分割。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种人手装配技能解析的方法流程图，如图1所示，一种人手装配技能解析的方法，包括：

步骤101：采集人手装配动作演示过程中的视频特征以及指尖力特征。

所述步骤101具体包括：利用深度视觉相机采集人手装配动作演示过程中的RGB-D图像，输出人手装配动作演示的视频特征；所述视频特征包括多帧RGB图像以及多帧深度图像；利用REP薄膜压力传感器采集人手装配动作演示过程中拇指和食指的指尖力变化信息，并将所述指尖力变化信息转换为电阻值变化信息；利用驱动模块将所述电阻值变化信息转换为模拟电压的变化；利用嵌入式单片机对所述模拟电压的变化进行ADC处理，确定指尖力变化的电压值；所述指尖力变化的电压值为指尖力特征。

步骤102：根据所述视频特征构建装配场景图，并利用图网络模型提取所述装配场景图的空间特征。

所述步骤102具体包括：识别每一帧所述RGB图像中的对象，确定对象的类型以及2D边界框位置信息；所述对象为所述RGB图像中的装配零件以及人手；根据所述2D边界框位置信息以及所述深度图像的深度信息确定所述对象的3D坐标；基于所述对象的3D坐标利用点云滤波确定对象点云信息以及所述对象的3D边界框信息；根据所述3D边界框信息判断所述对象的相对位置关系，生成装配场景图；利用图网络模型不断更新每帧所述装配场景图的节点、边和全局属性，得到每帧所述装配场景图的空间特征。

步骤103：利用时间卷积网络提取连续的所述空间特征的全局时间信息，确定所述人手装配动作演示过程中的时空特征。

所述步骤103具体包括：构建单阶段的时间卷积网络；所述单阶段的时间卷积网络中的输入层后连接多个卷积层，所述卷积层使用卷积核为3的非因果卷积，引入每层加倍膨胀因子的空洞卷积以增大每层所述卷积层的感受野，最后一层隐含层每帧的感受野为完整视频帧数；多次构建单阶段的时间卷积网络，生成多阶段时间卷积网络，并将所述多阶段的时间卷积网络中最后一层隐含层的特征作为所述人手装配动作演示过程中每帧视频的时空特征。

步骤104：在提取所述时空特征的同时，利用所述长短期记忆网络模型，根据所述指尖力特征确定分割点特征。

所述步骤104具体包括：对所述指尖力特征进行预处理，确定多维指尖力特征；所述多维指尖力特征包括拇指数据、拇指方差、拇指斜率、食指数据、食指方差、食指斜率以及时间戳；其中，所述拇指数据与所述食指数据为当前时间戳原始指尖力电压数据，所述拇指方差与所述食指方差为当前时间戳及前后5个时间戳指尖力电压数据的方差，所述拇指斜率与所述食指斜率为当前时间戳及前后5个时间戳指尖力电压数据所拟合直线的斜率；基于所述长短期记忆网络模型，利用所述多维指尖力特征识别所述装配动作的分割点信息；所述分割点信息用n×1维特征向量表示，所述特征向量用数字0和数字1进行编码，所述数字0所在行对应的视频帧数不是分割点，所述数字1所在行对应的视频帧数是分割点；其中，n为视频帧数；根据所述n×1维特征向量确定分割点特征。

步骤105：将所述空间特征以及所述分割点特征进行空间-分割点特征池化，确定空间-分割点特征。

所述步骤105具体包括：根据所述分割点特征内的分割点对所述空间特征进行分割，确定多段分割后的空间特征；对每段所述分割后的空间特征进行平均池化，确定空间-分割点特征。

步骤106：对所述时空特征以及所述空间-分割点特征进行加权融合，确定基元动作序列。

所述步骤106具体包括：将所述时空特征以及所述空间-分割点特征加权融合后的融合特征对应的融合矩阵按行分块，定义所述融合矩阵；根据所述融合矩阵确定每一帧视频的基元装配动作类型；合并所述基元装配动作类型相同的相邻帧，确定所述人手装配动作演示视频的基元动作序列。

图2为本发明所提供的一种人手装配技能解析的系统结构图，如图2所示，一种人手装配技能解析的系统，包括：

特征采集模块201，用于采集人手装配动作演示过程中的视频特征以及指尖力特征。

在实际应用中，特征采集模块的功能是采集人手装配动作演示的视频以及指尖力信息。视频特征采集单元由深度视觉相机组成，其功能是采集人手装配演示的RGB-D图像，输出是n帧RGB图像以及n帧深度图像。指尖力特征处理单元的功能是采集人手装配演示的食指和拇指的指尖力信息，输出是随时间变化的食指和拇指指尖力转换的电压值。指尖力采集单元构成如图3所示。

通过RFP薄膜压力传感器采集人手装配演示过程中人手指尖力的信息并转换为电阻值的变化，经过驱动模块RFP-ZHⅡ将电阻值的变化转换为模拟电压的变化，经过嵌入式单片机进行ADC处理后获得指尖力变化的电压值。

空间特征提取模块202，用于根据所述视频特征构建装配场景图，并利用图网络模型提取所述装配场景图的空间特征。

基于图网络的空间特征提取模块的功能提取装配演示视频的空间特征。原理为采集人手装配演示的RGB-D图像，生成含有对象相对位置关系的场景图，再将场景图输入图网络分类器，得到空间特征。基于图网络的空间特征提取单元包含YOLO模型、点云生成模型、场景图生成模型和图网络模型。YOLO模型的功能是识别每一帧RGB图像中的装配零件以及人手(以后统称为对象)，得到对象的2D边界框位置信息以及对象种类信息。2D边界框信息格式如下：

{

“bounding_box_2D”：

{“x”：(边界框中心x坐标数据)，“y”：(边界框中心y坐标数据)，

“w”：(边界框宽度数据)，“h”：(边界框高度数据)}，

“candidates”：

{“class_index”：(对象种类序号)}

}

点云生成模型的功能是得到对象点云和3D边界框信息。原理是利用对象的2D边界框信息以及深度图像的深度信息得到对象的3D坐标，经过点云滤波得到对象点云信息以及对象的3D边界框信息。3D边界框信息格式如下：

{

“bounding_box_3D”：

{“x0”：(框内对象x坐标最小值)，“x1”：(框内对象x坐标最大值)，

“y0”：(框内对象y坐标最小值)，“y1”：(框内对象y坐标最大值)，

“z0”：(框内对象z坐标最小值)，“z1”：(框内对象x坐标最大值)}，

“candidates”：

{“class_index”：(对象标签序号)}

}

场景图生成模型的功能是根据3D边界框信息判断对象的相对位置关系，生成装配场景图。装配演示中对象相对位置关系定义为15种，分为静态关系和动态关系。静态关系直接根据每一帧的图像中各个对象的3D边界框位置关系判断，分别是：contact、above、below、leftof、right of、behind of、front of、inside、surround；动态关系根据前后两帧对象相对位置的变化判断，分别是：moving together、halting together、fixedmovingtogether、getting close、moving apart、stable。通过逻辑判断找到所有对象间满足的相对位置关系，进而可以输出每帧视频的场景图。场景图信息格式如下：

{

“object_index”:对象1标签序号

“relation_name”：相对位置关系

“subject_index”：对象2标签序号

}

图网络模型的功能是不断更新每帧装配场景图的节点、边和全局属性，得到每帧所述装配场景图的空间特征。原理是定义G为一个三元组G＝(u,V,E)，其中u表示G的全局属性，即该帧视频对应的基元动作类别信息；V表示G中的节点集合，v∈V是一个节点属性，对应场景图中对象的标签序号；E表示G中的边的集合，e∈E是边属性，对应场景图中对象之间的相对位置关系。利用多层感知机不断更新边、节点和全局信息，利用求和函数进行聚合，最终能够完成每帧动作的类别预测。(由于该方法仅利用单帧特征识别单帧动作，因此存在某些帧识别错误，导致动作片段出现“毛刺”现象，)获取图网络最后一层隐含层的特征作为每帧动作的空间特征。图网络模型输出的空间特征为n×m′阶特征矩阵，其中视频帧数为n，每帧的特征维度为m′。

图4为本发明所提供的基于图网络的空间特征提取模块内部结构与输入输出关系连接图，如图4所示。

时空特征提取模块203，用于利用时间卷积网络提取连续的所述空间特征的全局时间信息，确定所述人手装配动作演示过程中的时空特征。

在实际应用中，基于时间卷积网络的时空特征提取模块的功能是通过装配视频时间上前后顺序的内在联系，提取装配视频的时间特征。其输入是基于图网络的空间特征提取模块提取的装配演示视频n帧空间特征。首先构建单阶段的时间卷积网络，输入层后连接多个卷积层，卷积层使用卷积核为3的非因果卷积，引入每层加倍膨胀因子的空洞卷积以增大每层卷积层的感受野，最后一层隐含层每帧的感受野为完整视频帧数。重复上述结构多次以构建多阶段时间卷积网络，提高网络的拟合能力。并将所述多阶段的时间卷积网络中最后一层隐含层的特征作为所述人手装配动作演示过程中每帧视频的时空特征。获取时间卷积网络最后一层隐含层的特征作为每帧动作的时空特征。时空特征用F₁表示，其为n×m阶特征矩阵，其中视频帧数为n，每帧的时空特征维度为m，同时m对应基元动作的个数。

在实际应用中，可将空间特征提取模块202与时空特征提取模块203合并组成时空特征处理模块，其功能是提取装配演示视频的空间和时间特征。时空特征处理模块的输入是采集的人手装配动作演示的视频特征，具体处理流程是将视频特征根据空间关系构建场景图，将场景图输入图网络提取得到空间特征，再将空间特征输入时间卷积网络，得到装配动作的时空特征，时空特征为n×m阶特征矩阵，其中视频帧数为n，每帧视频的时空特征维度为m。

分割点特征提取模块204，用于在提取所述时空特征的同时，利用所述长短期记忆网络模型，根据所述指尖力特征确定分割点特征。

分割点特征提取模块的功能是提取装配演示的分割点特征。分割点特征提取模块包括指尖力预处理模型、基于长短期记忆网络的分割点提取模型。指尖力预处理模型的功能是对指尖力信息进行预处理，得到多维的指尖力特征。输入是拇指和食指指尖力变化的电压值以及时间戳。预处理后的输出指尖力特征数据格式如下：

[拇指数据，拇指方差，拇指斜率，食指数据，食指方差，食指斜率，时间戳]

其中，拇指数据与食指数据为当前时间戳原始指尖力电压数据，拇指方差与食指方差为当前时间戳及前后5个时间戳指尖力电压数据的方差，拇指斜率与食指斜率为当前时间戳及前后5个时间戳指尖力电压数据所拟合直线的斜率。

基于长短期记忆网络的分割点提取模型功能是利用指尖力特征识别装配动作的分割点。输入是预处理后的指尖力特征；输出是含有装配动作分割点信息的n×1维特征向量τ，其中n为视频帧数。向量τ表示分割点信息，用数字0和1编码，所述数字0所在行数对应的视频帧数不是分割点，所述数字1所在行数对应的视频帧数是分割点。以含有两个分割点的装配动作视频举例，分割点信息τ的形式如下。

τ＝[0,0,......,0,1,0,......,0,1,0......,0]^T

定义本例中，向量τ中的两个1元素所在行数为p和q，其对应装配动作的第p帧和第q帧。即该装配动作演示在第p帧和第q帧处存在基元动作分割点。

图5为本发明所提供的分割点特征提取模块内部结构与输入输出关系连接图。

空间-分割点特征池化模块205，用于将所述空间特征以及所述分割点特征进行空间-分割点特征池化，确定空间-分割点特征。

在实际应用中，空间-分割点特征池化模块的功能是利用分割点信息τ和图网络输出的空间特征得到空间-分割点特征。原理为根据分割点信息τ中的1元素所在行数对应的帧数，对图网络模型输出的空间特征进行分割。以含有两个分割点的装配演示视频举例，分割点信息τ中，两个1元素所在的行数分别为p和q。根据分割点信息，将视频动作分为三段，帧数分段为1～p、p～q、q～n。图网络输出的空间特征维度为n×m′，其中，n为视频帧数，m′为每帧空间特征的维度。根据帧数分段分别对上述三段的空间特征进行平均池化，池化公式如下：

其中，f_(i,j)表示图网络模型输出的第i帧视频的第j维特征，

分别表示特征平均池化后第1、2和3段整合特征的第j维特征。空间-分割点特征用F₂表示，其维度是n×m′。

图6为本发明所提供的空间-分割点特征池化的示意图。

在实际应用中，可将空间特征提取模块202、分割点特征提取模块204与空间-分割点特征池化模块205合并组成空间分割点处理模块，其功能是提取装配动作演示的空间-分割点特征。原理是对指尖力信息进行预处理，将其输入长短期记忆网络得到装配动作演示的分割点，然后利用分割点信息，将提取的空间特征进行空间-分割点特征池化，得到装配动作演示的空间-分割点特征，空间-分割点特征为n×m′阶特征矩阵，其中视频帧数为n，每帧视频的特征维度为m′。

特征融合模块206，用于对所述时空特征以及所述空间-分割点特征进行加权融合，确定基元动作序列。

特征融合模块由时间-空间-分割点特征融合网络组成，功能是将时空特征F₁与空间-分割点特征F₂进行融合，根据融合特征得到装配动作演示的基元动作序列。其中F₁维度为n×m，F₂维度为n×m′。将F₁与F₂进行分数融合的公式入下：

F＝F₂×W+F₁

其中，参数矩阵W维度为m′×m，融合特征F的维度为n×m。根据融合特征F每一帧的信息对人手装配动作进行分割和识别。将矩阵F按行分块，定义融合矩阵F为：

F＝[F¹，F²，......，Fⁿ]^T

其中，Fⁿ上标表示F的第n行，代表装配动作演示第n帧视频的融合特征。F维度为n×m，列数m对应m个基元装配动作。对每一帧视频分类就是根据F¹，F²，......，Fⁿ对基元动作进行分类识别。识别方法是第k行融合特征F^k值最大的列所代表的基元动作即为该帧视频的最后识别结果。原理如下式：

β^k＝argmax{F^k}，k＝1，2，......，n

其中，β^k代表第k帧视频的基元动作类型，函数argmax表示求向量元素最大值所对应的索引。根据上式得到n帧视频的基元动作类型后，合并基元动作类型相同的相邻帧可得到装配演示视频的基元动作序列。

图7为本发明所提供的人手装配技能解析的系统内主要模块之间的关系示意图，如图7所示，(1)采集模块，采集人手装配动作演示的视频以及指尖力信息。(2)时空特征处理模块，输入人手装配动作演示的视频特征，基于YOLO模型提取视觉信息中对象的相对位置关系，构建对象的场景图，并将场景图输入图网络进行空间特征提取，然后利用时间卷积网络，提取连续空间特征的全局时间信息，得到装配演示视频的时空特征。(3)空间分割点处理模块，输入人手装配动作的指尖力的信息，将处理后的信息输入长短期记忆网络进行分割点提取，得到准确的分割点信息，与图网络模型提取的空间特征进行空间-分割点特征池化，得到空间-分割点特征。(4)特征融合模块，输入时空特征与空间-分割点特征，对时间、空间和分割点特征进行加权融合，得到基元动作分割序列。本发明能够结合装配动作演示的时间、空间以及分割点信息将人手装配动作演示进行准确解析，并自动分割为简单的基元动作序列。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人手装配技能解析的方法，其特征在于，包括：

采集人手装配动作演示过程中的视频特征以及指尖力特征；

2.根据权利要求1所述的人手装配技能解析的方法，其特征在于，所述采集人手装配动作演示过程中的视频特征以及指尖力特征，具体包括：

3.根据权利要求2所述的人手装配技能解析的方法，其特征在于，所述根据所述视频特征构建装配场景图，并利用图网络模型提取所述装配场景图的空间特征，具体包括：

4.根据权利要求3所述的人手装配技能解析的方法，其特征在于，所述利用时间卷积网络提取连续的所述空间特征的全局时间信息，确定所述人手装配动作演示过程中的时空特征，具体包括：

5.根据权利要求4所述的人手装配技能解析的方法，其特征在于，所述在提取所述时空特征的同时，利用长短期记忆网络模型，根据所述指尖力特征确定分割点特征，具体包括：

根据所述n×1维特征向量确定分割点特征。

6.根据权利要求5所述的人手装配技能解析的方法，其特征在于，所述将所述空间特征以及所述分割点特征进行空间-分割点特征池化，确定空间-分割点特征，具体包括：

7.根据权利要求6所述的人手装配技能解析的方法，其特征在于，所述对所述时空特征以及所述空间-分割点特征进行加权融合，确定基元动作序列，具体包括：

根据所述融合矩阵确定每一帧视频的基元装配动作类型；

8.一种人手装配技能解析的系统，其特征在于，包括：

9.根据权利要求8所述的人手装配技能解析的系统，其特征在于，所述特征采集模块，具体包括：

10.根据权利要求9所述的人手装配技能解析的系统，其特征在于，所述空间特征提取模块，具体包括：