CN113537335A - 一种人手装配技能解析的方法及系统 - Google Patents
一种人手装配技能解析的方法及系统 Download PDFInfo
- Publication number
- CN113537335A CN113537335A CN202110781876.4A CN202110781876A CN113537335A CN 113537335 A CN113537335 A CN 113537335A CN 202110781876 A CN202110781876 A CN 202110781876A CN 113537335 A CN113537335 A CN 113537335A
- Authority
- CN
- China
- Prior art keywords
- features
- space
- human hand
- assembly
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000009471 action Effects 0.000 claims abstract description 123
- 230000011218 segmentation Effects 0.000 claims abstract description 44
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000011176 pooling Methods 0.000 claims abstract description 24
- 230000007787 long-term memory Effects 0.000 claims abstract description 8
- 230000006403 short-term memory Effects 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims description 46
- 238000000605 extraction Methods 0.000 claims description 33
- 210000003811 finger Anatomy 0.000 claims description 32
- 210000003813 thumb Anatomy 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000001364 causal effect Effects 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000010408 film Substances 0.000 claims description 3
- 239000010409 thin film Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种人手装配技能解析的方法及系统。该方法包括:采集人手装配动作演示过程中的视频特征以及指尖力特征;根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征;利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征;在提取所述时空特征的同时,利用长短期记忆网络模型,根据所述指尖力特征确定分割点特征;将所述空间特征以及所述分割点特征进行空间‑分割点特征池化,确定空间‑分割点特征;对所述时空特征以及所述空间‑分割点特征进行加权融合,确定基元动作序列。本发明能够得到平滑无毛刺的基元动作序列,且能够精确地识别装配动作的分割点信息。
Description
技术领域
本发明涉及人手装配技能解析领域,特别是涉及一种人手装配技能解析的方法及系统。
背景技术
工业装配动作具有品种多、操作任务复杂、非标程度高的特点,其生产和精密装配环境存在明显的不确定性,这种庞大复杂的快节奏装配任务使得依靠专业人员编程的传统装配制造生产方式难以适应,严重限制了行业生产效率。因此,能够通过人手装配动作演示自主学习的机器人将会更好地促进装配行业自动化。实现对装配动作的自主学习首先需要对人手的装配技能进行解析,得到简单的可供机器人学习的基元动作序列。
传统动作识别方法有基于模板匹配的方法和基于统计模型的方法,存在费时、抗噪声能力弱、鲁棒性弱等问题,难以满足装配场景下精确识别基元动作的要求。近年来,基于深度学习的动作识别方法已取得了很大的研究进展,很多识别方法只针对视觉信息,存在需要人为调参、难以处理离散语义特征、随视觉角度变化存在部分遮挡等问题,导致识别到的基元动作片段不平滑、基元动作分割点不准确、存在部分遮挡情况效果差。
发明内容
本发明的目的是提供一种人手装配技能解析的方法及系统,以解决识别到的基元动作片段不平滑、基元动作分割点不准确、存在部分遮挡情况效果差的问题。
为实现上述目的,本发明提供了如下方案:
一种人手装配技能解析的方法,包括:
采集人手装配动作演示过程中的视频特征以及指尖力特征;
根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征;
利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征;
在提取所述时空特征的同时,利用长短期记忆网络模型,根据所述指尖力特征确定分割点特征;
将所述空间特征以及所述分割点特征进行空间-分割点特征池化,确定空间-分割点特征;
对所述时空特征以及所述空间-分割点特征进行加权融合,确定基元动作序列。
可选的,所述采集人手装配动作演示过程中的视频特征以及指尖力特征,具体包括:
利用深度视觉相机采集人手装配动作演示过程中的RGB-D图像,输出人手装配动作演示的视频特征;所述视频特征包括多帧RGB图像以及多帧深度图像;
利用REP薄膜压力传感器采集人手装配动作演示过程中拇指和食指的指尖力变化信息,并将所述指尖力变化信息转换为电阻值变化信息;
利用驱动模块将所述电阻值变化信息转换为模拟电压的变化;
利用嵌入式单片机对所述模拟电压的变化进行ADC处理,确定指尖力变化的电压值;所述指尖力变化的电压值为指尖力特征。
可选的,所述根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征,具体包括:
识别每一帧所述RGB图像中的对象,确定对象的类型以及2D边界框位置信息;所述对象为所述RGB图像中的装配零件以及人手;
根据所述2D边界框位置信息以及所述深度图像的深度信息确定所述对象的3D坐标;
基于所述对象的3D坐标利用点云滤波确定对象点云信息以及所述对象的3D边界框信息;
根据所述3D边界框信息判断所述对象的相对位置关系,生成装配场景图;
利用图网络模型不断更新每帧所述装配场景图的节点、边和全局属性,得到每帧所述装配场景图的空间特征。
可选的,所述利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征,具体包括:
构建单阶段的时间卷积网络;所述单阶段的时间卷积网络中的输入层后连接多个卷积层,所述卷积层使用卷积核为3的非因果卷积,引入每层加倍膨胀因子的空洞卷积以增大每层所述卷积层的感受野,最后一层隐含层每帧的感受野为完整视频帧数;
多次构建单阶段的时间卷积网络,生成多阶段时间卷积网络,并将所述多阶段的时间卷积网络中最后一层隐含层的特征作为所述人手装配动作演示过程中每帧视频的时空特征。
可选的,所述在提取所述时空特征的同时,利用长短期记忆网络模型,根据所述指尖力特征确定分割点特征,具体包括:
对所述指尖力特征进行预处理,确定多维指尖力特征;所述多维指尖力特征包括拇指数据、拇指方差、拇指斜率、食指数据、食指方差、食指斜率以及时间戳;其中,所述拇指数据与所述食指数据为当前时间戳原始指尖力电压数据,所述拇指方差与所述食指方差为当前时间戳及前后5个时间戳指尖力电压数据的方差,所述拇指斜率与所述食指斜率为当前时间戳及前后5个时间戳指尖力电压数据所拟合直线的斜率;
基于所述长短期记忆网络模型,利用所述多维指尖力特征识别所述装配动作的分割点信息;所述分割点信息用n×1维特征向量表示,所述特征向量用数字0和数字1进行编码,所述数字0所在行对应的视频帧数不是分割点,所述数字1所在行对应的视频帧数是分割点;其中,n为视频帧数;
根据所述n×1维特征向量确定分割点特征。
可选的,所述将所述空间特征以及所述分割点特征进行空间-分割点特征池化,确定空间-分割点特征,具体包括:
根据所述分割点特征内的分割点对所述空间特征进行分割,确定多段分割后的空间特征;
对每段所述分割后的空间特征进行平均池化,确定空间-分割点特征。
可选的,所述对所述时空特征以及所述空间-分割点特征进行加权融合,确定基元动作序列,具体包括:
将所述时空特征以及所述空间-分割点特征加权融合后的融合特征对应的融合矩阵按行分块,定义所述融合矩阵;
根据所述融合矩阵确定每一帧视频的基元装配动作类型;
合并所述基元装配动作类型相同的相邻帧,确定所述人手装配动作演示视频的基元动作序列。
一种人手装配技能解析的系统,包括:
特征采集模块,用于采集人手装配动作演示过程中的视频特征以及指尖力特征;
空间特征提取模块,用于根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征;
时空特征提取模块,用于利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征;
分割点特征提取模块,用于在提取所述时空特征的同时,利用长短期记忆网络模型,根据所述指尖力特征确定分割点特征;
空间-分割点特征池化模块,用于将所述空间特征以及所述分割点特征进行空间-分割点特征池化,确定空间-分割点特征;
特征融合模块,用于对所述时空特征以及所述空间-分割点特征进行加权融合,确定基元动作序列。
可选的,所述特征采集模块,具体包括:
视频特征采集单元,用于利用深度视觉相机采集人手装配动作演示过程中的RGB-D图像,输出人手装配动作演示的视频特征;所述视频特征包括多帧RGB图像以及多帧深度图像;
指尖力信息采集单元,用于利用REP薄膜压力传感器采集人手装配动作演示过程中拇指和食指的指尖力变化信息,并将所述指尖力变化信息转换为电阻值变化信息;
转换单元,用于利用驱动模块将所述电阻值变化信息转换为模拟电压的变化;
指尖力特征处理单元,用于利用嵌入式单片机对所述模拟电压的变化进行ADC处理,确定指尖力变化的电压值;所述指尖力变化的电压值为指尖力特征。
可选的,所述空间特征提取模块,具体包括:
2D边界框确定单元,用于识别每一帧所述RGB图像中的对象,确定对象的类型以及2D边界框位置信息;所述对象为所述RGB图像中的装配零件以及人手;
3D坐标确定单元,用于根据所述2D边界框位置信息以及所述深度图像的深度信息确定所述对象的3D坐标;
3D边界框信息确定单元,用于基于所述对象的3D坐标利用点云滤波确定对象点云信息以及所述对象的3D边界框信息;
装配场景图生成单元,用于根据所述3D边界框信息判断所述对象的相对位置关系,生成装配场景图;
基于图网络的空间特征提取单元,用于利用图网络模型不断更新每帧所述装配场景图的节点、边和全局属性,得到每帧所述装配场景图的空间特征。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种人手装配技能解析的方法及系统,采集人手装配动作演示的视频以及指尖力信息;输入人手装配动作演示的视频特征,提取视频特征中对象的相对位置关系,构建对象的场景图,并将场景图输入图网络进行空间特征提取,然后利用时间卷积网络,提取连续空间特征的全局时间信息,得到装配演示视频的时空特征;输入人手装配动作的指尖力的信息,将处理后的信息输入长短期记忆网络进行分割点提取,得到准确的分割点信息,与图网络提取的空间特征进行空间-分割点特征池化,得到空间-分割点特征;输入时空特征与空间-分割点特征,对时间、空间和分割点特征进行加权融合,得到基元装配动作分割序列。可见,本发明结合装配动作演示的时间、空间以及分割点信息将人手装配动作演示进行准确解析,并自动分割为简单的平滑无毛刺的基元动作序列,提高了装配动作解析的准确率和鲁棒性,且能够精确地识别装配动作的分割点信息,在部分遮挡情况下也能完成对装配动作的解析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种人手装配技能解析的方法流程图;
图2为本发明所提供的一种人手装配技能解析的系统结构图;
图3为本发明所提的指尖力特征采集流程图;
图4为本发明所提供的基于图网络的空间特征提取单元内部结构与输入输出关系连接图;
图5为本发明所提供的分割点特征提取模块内部结构与输入输出关系连接图;
图6为本发明所提供的空间-分割点特征池化的示意图;
图7为本发明所提供的人手装配技能解析的系统内主要模块之间的关系示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种人手装配技能解析的方法及系统,能够得到平滑无毛刺的基元动作序列,且能够精确地识别装配动作的分割点信息,在部分遮挡情况下完成对装配动作的解析分割。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种人手装配技能解析的方法流程图,如图1所示,一种人手装配技能解析的方法,包括:
步骤101:采集人手装配动作演示过程中的视频特征以及指尖力特征。
所述步骤101具体包括:利用深度视觉相机采集人手装配动作演示过程中的RGB-D图像,输出人手装配动作演示的视频特征;所述视频特征包括多帧RGB图像以及多帧深度图像;利用REP薄膜压力传感器采集人手装配动作演示过程中拇指和食指的指尖力变化信息,并将所述指尖力变化信息转换为电阻值变化信息;利用驱动模块将所述电阻值变化信息转换为模拟电压的变化;利用嵌入式单片机对所述模拟电压的变化进行ADC处理,确定指尖力变化的电压值;所述指尖力变化的电压值为指尖力特征。
步骤102:根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征。
所述步骤102具体包括:识别每一帧所述RGB图像中的对象,确定对象的类型以及2D边界框位置信息;所述对象为所述RGB图像中的装配零件以及人手;根据所述2D边界框位置信息以及所述深度图像的深度信息确定所述对象的3D坐标;基于所述对象的3D坐标利用点云滤波确定对象点云信息以及所述对象的3D边界框信息;根据所述3D边界框信息判断所述对象的相对位置关系,生成装配场景图;利用图网络模型不断更新每帧所述装配场景图的节点、边和全局属性,得到每帧所述装配场景图的空间特征。
步骤103:利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征。
所述步骤103具体包括:构建单阶段的时间卷积网络;所述单阶段的时间卷积网络中的输入层后连接多个卷积层,所述卷积层使用卷积核为3的非因果卷积,引入每层加倍膨胀因子的空洞卷积以增大每层所述卷积层的感受野,最后一层隐含层每帧的感受野为完整视频帧数;多次构建单阶段的时间卷积网络,生成多阶段时间卷积网络,并将所述多阶段的时间卷积网络中最后一层隐含层的特征作为所述人手装配动作演示过程中每帧视频的时空特征。
步骤104:在提取所述时空特征的同时,利用所述长短期记忆网络模型,根据所述指尖力特征确定分割点特征。
所述步骤104具体包括:对所述指尖力特征进行预处理,确定多维指尖力特征;所述多维指尖力特征包括拇指数据、拇指方差、拇指斜率、食指数据、食指方差、食指斜率以及时间戳;其中,所述拇指数据与所述食指数据为当前时间戳原始指尖力电压数据,所述拇指方差与所述食指方差为当前时间戳及前后5个时间戳指尖力电压数据的方差,所述拇指斜率与所述食指斜率为当前时间戳及前后5个时间戳指尖力电压数据所拟合直线的斜率;基于所述长短期记忆网络模型,利用所述多维指尖力特征识别所述装配动作的分割点信息;所述分割点信息用n×1维特征向量表示,所述特征向量用数字0和数字1进行编码,所述数字0所在行对应的视频帧数不是分割点,所述数字1所在行对应的视频帧数是分割点;其中,n为视频帧数;根据所述n×1维特征向量确定分割点特征。
步骤105:将所述空间特征以及所述分割点特征进行空间-分割点特征池化,确定空间-分割点特征。
所述步骤105具体包括:根据所述分割点特征内的分割点对所述空间特征进行分割,确定多段分割后的空间特征;对每段所述分割后的空间特征进行平均池化,确定空间-分割点特征。
步骤106:对所述时空特征以及所述空间-分割点特征进行加权融合,确定基元动作序列。
所述步骤106具体包括:将所述时空特征以及所述空间-分割点特征加权融合后的融合特征对应的融合矩阵按行分块,定义所述融合矩阵;根据所述融合矩阵确定每一帧视频的基元装配动作类型;合并所述基元装配动作类型相同的相邻帧,确定所述人手装配动作演示视频的基元动作序列。
图2为本发明所提供的一种人手装配技能解析的系统结构图,如图2所示,一种人手装配技能解析的系统,包括:
特征采集模块201,用于采集人手装配动作演示过程中的视频特征以及指尖力特征。
在实际应用中,特征采集模块的功能是采集人手装配动作演示的视频以及指尖力信息。视频特征采集单元由深度视觉相机组成,其功能是采集人手装配演示的RGB-D图像,输出是n帧RGB图像以及n帧深度图像。指尖力特征处理单元的功能是采集人手装配演示的食指和拇指的指尖力信息,输出是随时间变化的食指和拇指指尖力转换的电压值。指尖力采集单元构成如图3所示。
通过RFP薄膜压力传感器采集人手装配演示过程中人手指尖力的信息并转换为电阻值的变化,经过驱动模块RFP-ZHⅡ将电阻值的变化转换为模拟电压的变化,经过嵌入式单片机进行ADC处理后获得指尖力变化的电压值。
空间特征提取模块202,用于根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征。
基于图网络的空间特征提取模块的功能提取装配演示视频的空间特征。原理为采集人手装配演示的RGB-D图像,生成含有对象相对位置关系的场景图,再将场景图输入图网络分类器,得到空间特征。基于图网络的空间特征提取单元包含YOLO模型、点云生成模型、场景图生成模型和图网络模型。YOLO模型的功能是识别每一帧RGB图像中的装配零件以及人手(以后统称为对象),得到对象的2D边界框位置信息以及对象种类信息。2D边界框信息格式如下:
{
“bounding_box_2D”:
{“x”:(边界框中心x坐标数据),“y”:(边界框中心y坐标数据),
“w”:(边界框宽度数据),“h”:(边界框高度数据)},
“candidates”:
{“class_index”:(对象种类序号)}
}
点云生成模型的功能是得到对象点云和3D边界框信息。原理是利用对象的2D边界框信息以及深度图像的深度信息得到对象的3D坐标,经过点云滤波得到对象点云信息以及对象的3D边界框信息。3D边界框信息格式如下:
{
“bounding_box_3D”:
{“x0”:(框内对象x坐标最小值),“x1”:(框内对象x坐标最大值),
“y0”:(框内对象y坐标最小值),“y1”:(框内对象y坐标最大值),
“z0”:(框内对象z坐标最小值),“z1”:(框内对象x坐标最大值)},
“candidates”:
{“class_index”:(对象标签序号)}
}
场景图生成模型的功能是根据3D边界框信息判断对象的相对位置关系,生成装配场景图。装配演示中对象相对位置关系定义为15种,分为静态关系和动态关系。静态关系直接根据每一帧的图像中各个对象的3D边界框位置关系判断,分别是:contact、above、below、leftof、right of、behind of、front of、inside、surround;动态关系根据前后两帧对象相对位置的变化判断,分别是:moving together、halting together、fixedmovingtogether、getting close、moving apart、stable。通过逻辑判断找到所有对象间满足的相对位置关系,进而可以输出每帧视频的场景图。场景图信息格式如下:
{
“object_index”:对象1标签序号
“relation_name”:相对位置关系
“subject_index”:对象2标签序号
}
图网络模型的功能是不断更新每帧装配场景图的节点、边和全局属性,得到每帧所述装配场景图的空间特征。原理是定义G为一个三元组G=(u,V,E),其中u表示G的全局属性,即该帧视频对应的基元动作类别信息;V表示G中的节点集合,v∈V是一个节点属性,对应场景图中对象的标签序号;E表示G中的边的集合,e∈E是边属性,对应场景图中对象之间的相对位置关系。利用多层感知机不断更新边、节点和全局信息,利用求和函数进行聚合,最终能够完成每帧动作的类别预测。(由于该方法仅利用单帧特征识别单帧动作,因此存在某些帧识别错误,导致动作片段出现“毛刺”现象,)获取图网络最后一层隐含层的特征作为每帧动作的空间特征。图网络模型输出的空间特征为n×m′阶特征矩阵,其中视频帧数为n,每帧的特征维度为m′。
图4为本发明所提供的基于图网络的空间特征提取模块内部结构与输入输出关系连接图,如图4所示。
时空特征提取模块203,用于利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征。
在实际应用中,基于时间卷积网络的时空特征提取模块的功能是通过装配视频时间上前后顺序的内在联系,提取装配视频的时间特征。其输入是基于图网络的空间特征提取模块提取的装配演示视频n帧空间特征。首先构建单阶段的时间卷积网络,输入层后连接多个卷积层,卷积层使用卷积核为3的非因果卷积,引入每层加倍膨胀因子的空洞卷积以增大每层卷积层的感受野,最后一层隐含层每帧的感受野为完整视频帧数。重复上述结构多次以构建多阶段时间卷积网络,提高网络的拟合能力。并将所述多阶段的时间卷积网络中最后一层隐含层的特征作为所述人手装配动作演示过程中每帧视频的时空特征。获取时间卷积网络最后一层隐含层的特征作为每帧动作的时空特征。时空特征用F1表示,其为n×m阶特征矩阵,其中视频帧数为n,每帧的时空特征维度为m,同时m对应基元动作的个数。
在实际应用中,可将空间特征提取模块202与时空特征提取模块203合并组成时空特征处理模块,其功能是提取装配演示视频的空间和时间特征。时空特征处理模块的输入是采集的人手装配动作演示的视频特征,具体处理流程是将视频特征根据空间关系构建场景图,将场景图输入图网络提取得到空间特征,再将空间特征输入时间卷积网络,得到装配动作的时空特征,时空特征为n×m阶特征矩阵,其中视频帧数为n,每帧视频的时空特征维度为m。
分割点特征提取模块204,用于在提取所述时空特征的同时,利用所述长短期记忆网络模型,根据所述指尖力特征确定分割点特征。
分割点特征提取模块的功能是提取装配演示的分割点特征。分割点特征提取模块包括指尖力预处理模型、基于长短期记忆网络的分割点提取模型。指尖力预处理模型的功能是对指尖力信息进行预处理,得到多维的指尖力特征。输入是拇指和食指指尖力变化的电压值以及时间戳。预处理后的输出指尖力特征数据格式如下:
[拇指数据,拇指方差,拇指斜率,食指数据,食指方差,食指斜率,时间戳]
其中,拇指数据与食指数据为当前时间戳原始指尖力电压数据,拇指方差与食指方差为当前时间戳及前后5个时间戳指尖力电压数据的方差,拇指斜率与食指斜率为当前时间戳及前后5个时间戳指尖力电压数据所拟合直线的斜率。
基于长短期记忆网络的分割点提取模型功能是利用指尖力特征识别装配动作的分割点。输入是预处理后的指尖力特征;输出是含有装配动作分割点信息的n×1维特征向量τ,其中n为视频帧数。向量τ表示分割点信息,用数字0和1编码,所述数字0所在行数对应的视频帧数不是分割点,所述数字1所在行数对应的视频帧数是分割点。以含有两个分割点的装配动作视频举例,分割点信息τ的形式如下。
τ=[0,0,......,0,1,0,......,0,1,0......,0]T
定义本例中,向量τ中的两个1元素所在行数为p和q,其对应装配动作的第p帧和第q帧。即该装配动作演示在第p帧和第q帧处存在基元动作分割点。
图5为本发明所提供的分割点特征提取模块内部结构与输入输出关系连接图。
空间-分割点特征池化模块205,用于将所述空间特征以及所述分割点特征进行空间-分割点特征池化,确定空间-分割点特征。
在实际应用中,空间-分割点特征池化模块的功能是利用分割点信息τ和图网络输出的空间特征得到空间-分割点特征。原理为根据分割点信息τ中的1元素所在行数对应的帧数,对图网络模型输出的空间特征进行分割。以含有两个分割点的装配演示视频举例,分割点信息τ中,两个1元素所在的行数分别为p和q。根据分割点信息,将视频动作分为三段,帧数分段为1~p、p~q、q~n。图网络输出的空间特征维度为n×m′,其中,n为视频帧数,m′为每帧空间特征的维度。根据帧数分段分别对上述三段的空间特征进行平均池化,池化公式如下:
图6为本发明所提供的空间-分割点特征池化的示意图。
在实际应用中,可将空间特征提取模块202、分割点特征提取模块204与空间-分割点特征池化模块205合并组成空间分割点处理模块,其功能是提取装配动作演示的空间-分割点特征。原理是对指尖力信息进行预处理,将其输入长短期记忆网络得到装配动作演示的分割点,然后利用分割点信息,将提取的空间特征进行空间-分割点特征池化,得到装配动作演示的空间-分割点特征,空间-分割点特征为n×m′阶特征矩阵,其中视频帧数为n,每帧视频的特征维度为m′。
特征融合模块206,用于对所述时空特征以及所述空间-分割点特征进行加权融合,确定基元动作序列。
特征融合模块由时间-空间-分割点特征融合网络组成,功能是将时空特征F1与空间-分割点特征F2进行融合,根据融合特征得到装配动作演示的基元动作序列。其中F1维度为n×m,F2维度为n×m′。将F1与F2进行分数融合的公式入下:
F=F2×W+F1
其中,参数矩阵W维度为m′×m,融合特征F的维度为n×m。根据融合特征F每一帧的信息对人手装配动作进行分割和识别。将矩阵F按行分块,定义融合矩阵F为:
F=[F1,F2,......,Fn]T
其中,Fn上标表示F的第n行,代表装配动作演示第n帧视频的融合特征。F维度为n×m,列数m对应m个基元装配动作。对每一帧视频分类就是根据F1,F2,......,Fn对基元动作进行分类识别。识别方法是第k行融合特征Fk值最大的列所代表的基元动作即为该帧视频的最后识别结果。原理如下式:
βk=argmax{Fk},k=1,2,......,n
其中,βk代表第k帧视频的基元动作类型,函数argmax表示求向量元素最大值所对应的索引。根据上式得到n帧视频的基元动作类型后,合并基元动作类型相同的相邻帧可得到装配演示视频的基元动作序列。
图7为本发明所提供的人手装配技能解析的系统内主要模块之间的关系示意图,如图7所示,(1)采集模块,采集人手装配动作演示的视频以及指尖力信息。(2)时空特征处理模块,输入人手装配动作演示的视频特征,基于YOLO模型提取视觉信息中对象的相对位置关系,构建对象的场景图,并将场景图输入图网络进行空间特征提取,然后利用时间卷积网络,提取连续空间特征的全局时间信息,得到装配演示视频的时空特征。(3)空间分割点处理模块,输入人手装配动作的指尖力的信息,将处理后的信息输入长短期记忆网络进行分割点提取,得到准确的分割点信息,与图网络模型提取的空间特征进行空间-分割点特征池化,得到空间-分割点特征。(4)特征融合模块,输入时空特征与空间-分割点特征,对时间、空间和分割点特征进行加权融合,得到基元动作分割序列。本发明能够结合装配动作演示的时间、空间以及分割点信息将人手装配动作演示进行准确解析,并自动分割为简单的基元动作序列。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种人手装配技能解析的方法,其特征在于,包括:
采集人手装配动作演示过程中的视频特征以及指尖力特征;
根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征;
利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征;
在提取所述时空特征的同时,利用长短期记忆网络模型,根据所述指尖力特征确定分割点特征;
将所述空间特征以及所述分割点特征进行空间-分割点特征池化,确定空间-分割点特征;
对所述时空特征以及所述空间-分割点特征进行加权融合,确定基元动作序列。
2.根据权利要求1所述的人手装配技能解析的方法,其特征在于,所述采集人手装配动作演示过程中的视频特征以及指尖力特征,具体包括:
利用深度视觉相机采集人手装配动作演示过程中的RGB-D图像,输出人手装配动作演示的视频特征;所述视频特征包括多帧RGB图像以及多帧深度图像;
利用REP薄膜压力传感器采集人手装配动作演示过程中拇指和食指的指尖力变化信息,并将所述指尖力变化信息转换为电阻值变化信息;
利用驱动模块将所述电阻值变化信息转换为模拟电压的变化;
利用嵌入式单片机对所述模拟电压的变化进行ADC处理,确定指尖力变化的电压值;所述指尖力变化的电压值为指尖力特征。
3.根据权利要求2所述的人手装配技能解析的方法,其特征在于,所述根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征,具体包括:
识别每一帧所述RGB图像中的对象,确定对象的类型以及2D边界框位置信息;所述对象为所述RGB图像中的装配零件以及人手;
根据所述2D边界框位置信息以及所述深度图像的深度信息确定所述对象的3D坐标;
基于所述对象的3D坐标利用点云滤波确定对象点云信息以及所述对象的3D边界框信息;
根据所述3D边界框信息判断所述对象的相对位置关系,生成装配场景图;
利用图网络模型不断更新每帧所述装配场景图的节点、边和全局属性,得到每帧所述装配场景图的空间特征。
4.根据权利要求3所述的人手装配技能解析的方法,其特征在于,所述利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征,具体包括:
构建单阶段的时间卷积网络;所述单阶段的时间卷积网络中的输入层后连接多个卷积层,所述卷积层使用卷积核为3的非因果卷积,引入每层加倍膨胀因子的空洞卷积以增大每层所述卷积层的感受野,最后一层隐含层每帧的感受野为完整视频帧数;
多次构建单阶段的时间卷积网络,生成多阶段时间卷积网络,并将所述多阶段的时间卷积网络中最后一层隐含层的特征作为所述人手装配动作演示过程中每帧视频的时空特征。
5.根据权利要求4所述的人手装配技能解析的方法,其特征在于,所述在提取所述时空特征的同时,利用长短期记忆网络模型,根据所述指尖力特征确定分割点特征,具体包括:
对所述指尖力特征进行预处理,确定多维指尖力特征;所述多维指尖力特征包括拇指数据、拇指方差、拇指斜率、食指数据、食指方差、食指斜率以及时间戳;其中,所述拇指数据与所述食指数据为当前时间戳原始指尖力电压数据,所述拇指方差与所述食指方差为当前时间戳及前后5个时间戳指尖力电压数据的方差,所述拇指斜率与所述食指斜率为当前时间戳及前后5个时间戳指尖力电压数据所拟合直线的斜率;
基于所述长短期记忆网络模型,利用所述多维指尖力特征识别所述装配动作的分割点信息;所述分割点信息用n×1维特征向量表示,所述特征向量用数字0和数字1进行编码,所述数字0所在行对应的视频帧数不是分割点,所述数字1所在行对应的视频帧数是分割点;其中,n为视频帧数;
根据所述n×1维特征向量确定分割点特征。
6.根据权利要求5所述的人手装配技能解析的方法,其特征在于,所述将所述空间特征以及所述分割点特征进行空间-分割点特征池化,确定空间-分割点特征,具体包括:
根据所述分割点特征内的分割点对所述空间特征进行分割,确定多段分割后的空间特征;
对每段所述分割后的空间特征进行平均池化,确定空间-分割点特征。
7.根据权利要求6所述的人手装配技能解析的方法,其特征在于,所述对所述时空特征以及所述空间-分割点特征进行加权融合,确定基元动作序列,具体包括:
将所述时空特征以及所述空间-分割点特征加权融合后的融合特征对应的融合矩阵按行分块,定义所述融合矩阵;
根据所述融合矩阵确定每一帧视频的基元装配动作类型;
合并所述基元装配动作类型相同的相邻帧,确定所述人手装配动作演示视频的基元动作序列。
8.一种人手装配技能解析的系统,其特征在于,包括:
特征采集模块,用于采集人手装配动作演示过程中的视频特征以及指尖力特征;
空间特征提取模块,用于根据所述视频特征构建装配场景图,并利用图网络模型提取所述装配场景图的空间特征;
时空特征提取模块,用于利用时间卷积网络提取连续的所述空间特征的全局时间信息,确定所述人手装配动作演示过程中的时空特征;
分割点特征提取模块,用于在提取所述时空特征的同时,利用长短期记忆网络模型,根据所述指尖力特征确定分割点特征;
空间-分割点特征池化模块,用于将所述空间特征以及所述分割点特征进行空间-分割点特征池化,确定空间-分割点特征;
特征融合模块,用于对所述时空特征以及所述空间-分割点特征进行加权融合,确定基元动作序列。
9.根据权利要求8所述的人手装配技能解析的系统,其特征在于,所述特征采集模块,具体包括:
视频特征采集单元,用于利用深度视觉相机采集人手装配动作演示过程中的RGB-D图像,输出人手装配动作演示的视频特征;所述视频特征包括多帧RGB图像以及多帧深度图像;
指尖力信息采集单元,用于利用REP薄膜压力传感器采集人手装配动作演示过程中拇指和食指的指尖力变化信息,并将所述指尖力变化信息转换为电阻值变化信息;
转换单元,用于利用驱动模块将所述电阻值变化信息转换为模拟电压的变化;
指尖力特征处理单元,用于利用嵌入式单片机对所述模拟电压的变化进行ADC处理,确定指尖力变化的电压值;所述指尖力变化的电压值为指尖力特征。
10.根据权利要求9所述的人手装配技能解析的系统,其特征在于,所述空间特征提取模块,具体包括:
2D边界框确定单元,用于识别每一帧所述RGB图像中的对象,确定对象的类型以及2D边界框位置信息;所述对象为所述RGB图像中的装配零件以及人手;
3D坐标确定单元,用于根据所述2D边界框位置信息以及所述深度图像的深度信息确定所述对象的3D坐标;
3D边界框信息确定单元,用于基于所述对象的3D坐标利用点云滤波确定对象点云信息以及所述对象的3D边界框信息;
装配场景图生成单元,用于根据所述3D边界框信息判断所述对象的相对位置关系,生成装配场景图;
基于图网络的空间特征提取单元,用于利用图网络模型不断更新每帧所述装配场景图的节点、边和全局属性,得到每帧所述装配场景图的空间特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781876.4A CN113537335B (zh) | 2021-07-09 | 2021-07-09 | 一种人手装配技能解析的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781876.4A CN113537335B (zh) | 2021-07-09 | 2021-07-09 | 一种人手装配技能解析的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537335A true CN113537335A (zh) | 2021-10-22 |
CN113537335B CN113537335B (zh) | 2024-02-23 |
Family
ID=78127358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110781876.4A Active CN113537335B (zh) | 2021-07-09 | 2021-07-09 | 一种人手装配技能解析的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537335B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120008836A1 (en) * | 2010-07-12 | 2012-01-12 | International Business Machines Corporation | Sequential event detection from video |
CN110059598A (zh) * | 2019-04-08 | 2019-07-26 | 南京邮电大学 | 基于姿态关节点的长时程快慢网络融合的行为识别方法 |
CN110362210A (zh) * | 2019-07-24 | 2019-10-22 | 济南大学 | 虚拟装配中融合眼动跟踪和手势识别的人机交互方法和装置 |
CN111204476A (zh) * | 2019-12-25 | 2020-05-29 | 上海航天控制技术研究所 | 一种基于强化学习的视触融合精细操作方法 |
CN112347964A (zh) * | 2020-11-16 | 2021-02-09 | 复旦大学 | 一种基于图网络的行为检测方法及装置 |
CN112364757A (zh) * | 2020-11-09 | 2021-02-12 | 大连理工大学 | 一种基于时空注意力机制的人体动作识别方法 |
-
2021
- 2021-07-09 CN CN202110781876.4A patent/CN113537335B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120008836A1 (en) * | 2010-07-12 | 2012-01-12 | International Business Machines Corporation | Sequential event detection from video |
CN110059598A (zh) * | 2019-04-08 | 2019-07-26 | 南京邮电大学 | 基于姿态关节点的长时程快慢网络融合的行为识别方法 |
CN110362210A (zh) * | 2019-07-24 | 2019-10-22 | 济南大学 | 虚拟装配中融合眼动跟踪和手势识别的人机交互方法和装置 |
CN111204476A (zh) * | 2019-12-25 | 2020-05-29 | 上海航天控制技术研究所 | 一种基于强化学习的视触融合精细操作方法 |
CN112364757A (zh) * | 2020-11-09 | 2021-02-12 | 大连理工大学 | 一种基于时空注意力机制的人体动作识别方法 |
CN112347964A (zh) * | 2020-11-16 | 2021-02-09 | 复旦大学 | 一种基于图网络的行为检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
JING CUI, ET AL.: "A metric to design spring stiffness of underactuated fingers for stable grasp", 《ROBOTICS AND AUTONOMOUS SYSTEMS》 * |
刘明周;蒋倩男;葛茂根;: "基于机器视觉的装配动作自动分割与识别", 中国机械工程, no. 11 * |
Also Published As
Publication number | Publication date |
---|---|
CN113537335B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210326597A1 (en) | Video processing method and apparatus, and electronic device and storage medium | |
CN107808131B (zh) | 基于双通路深度卷积神经网络的动态手势识别方法 | |
Pervaiz et al. | Hybrid algorithm for multi people counting and tracking for smart surveillance | |
Wu et al. | Recent advances in video-based human action recognition using deep learning: A review | |
Mohan et al. | FER-net: facial expression recognition using deep neural net | |
Jiang et al. | Recognizing human actions by learning and matching shape-motion prototype trees | |
Kellokumpu et al. | Recognition of human actions using texture descriptors | |
CN107808129B (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN111191583A (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN111028319B (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN110852241B (zh) | 一种应用于护理机器人的小目标检测方法 | |
WO2008139399A2 (en) | Method of determining motion-related features and method of performing motion classification | |
CN105740915A (zh) | 一种融合感知信息的协同分割方法 | |
CN111353447A (zh) | 一种基于图卷积网络的人体骨架行为识别方法 | |
CN108537109B (zh) | 基于OpenPose的单目相机手语识别方法 | |
Rao et al. | Facial expression recognition with multiscale graph convolutional networks | |
Cai et al. | Learning pose dictionary for human action recognition | |
Nayak et al. | Distribution-based dimensionality reduction applied to articulated motion recognition | |
CN110348395B (zh) | 一种基于时空关系的骨架行为识别方法 | |
CN113537335B (zh) | 一种人手装配技能解析的方法及系统 | |
CN111571567A (zh) | 机器人转译技能训练方法、装置及电子设备和存储介质 | |
CN113657375B (zh) | 一种基于3d点云的瓶装物体文字检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |