CN116502069B - 一种基于深度学习的触觉时序信号识别方法 - Google Patents
一种基于深度学习的触觉时序信号识别方法 Download PDFInfo
- Publication number
- CN116502069B CN116502069B CN202310746370.9A CN202310746370A CN116502069B CN 116502069 B CN116502069 B CN 116502069B CN 202310746370 A CN202310746370 A CN 202310746370A CN 116502069 B CN116502069 B CN 116502069B
- Authority
- CN
- China
- Prior art keywords
- time sequence
- model
- feature
- data
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 21
- 230000001276 controlling effect Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000004744 fabric Substances 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000004907 flux Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 2
- 230000007812 deficiency Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 15
- 230000008447 perception Effects 0.000 abstract description 10
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 235000019587 texture Nutrition 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 229920000742 Cotton Polymers 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000208202 Linaceae Species 0.000 description 1
- 235000004431 Linum usitatissimum Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000005060 rubber Substances 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 235000019615 sensations Nutrition 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Force Measurement Appropriate To Specific Purposes (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于深度学习的触觉时序信号识别方法,通过机器人传感器采集物体表面的空间信息,采用神经网络提取特征,实现触觉时序信号识别;本发明采用Transformer Encoder构建的双塔结构网络,提取触觉时序信号的时序特征和空间特征;通过特征融合得到整体信号特征,提升识别效果和模型的鲁棒性;通过设计的HAPTR Loss损失函数,缓解数据集不平衡问题,减少数据过拟合现象,更好地训练和优化模型。这种方法在触觉时序信号识别上有更好的识别效果,使得算法对机器人的智能化操作及识别任务中具有一定的泛化性和鲁棒性,从而有效地辅助机器人感知识别,实现更佳性能的机器人触觉感知。
Description
技术领域
本发明涉及一种智能机器人触觉感知技术领域,特别涉及一种基于深度学习的触觉时序信号识别方法。
背景技术
触觉感知是人类和机器人意识到物体表面属性的主要感知方式,触觉信号是由传感器测量的力、压力和形变等物理量组成的信号,通过算法模型用于感知物体形状、材质和表面纹理等信息。
随着计算机技术的发展,深度学习在触觉时序信号识别方面已经取得了一些进展,可以用来分析触觉传感器的感知信号,从而实现对物体形状、硬度等物理性质的估计。尽管深度学习在触觉时序信号识别方面已经取得了一些进展,但由于触觉感知在数据采集和实际应用中具有的独有性质,使得深度学习在模型优化方面仍具有挑战性。在数据集方面存在的挑战:(1)缺乏大规模的标注数据集:由于触觉数据难以采集的特性,与其他视觉和语音等领域相比,触觉领域的标注数据集相对较小,导致数据集采集和深度学习模型的训练会更加困难;(2)触觉时序信号数据具有的高维和非线性的特性,对信号特征的提取和建模带来一定的挑战;(3)传感器的噪声和不确定性:由于传感器在信号采集过程中容易受到环境和其他因素的影响,可能导致信号发生变形或者丢失。在实际应用中存在的挑战:(1)复杂的真实环境:在真实的应用环境下,触觉信号通常会受到其他物体、噪声或摩擦力等因素的干扰,使得对模型的泛化能力要求很高,需要其能处理不同环境、不同场景下的触觉信号;(2)低存储和高时效性交互:在实际应用中,需要将算法嵌入到机器系统中并实现机器操作和控制的实时处理,这需要模型具有高效的推理和处理速度。总结来说,深度学习在触觉时序信号处理方面还需要进一步的研究。
传统的机器人系统对传感器数据和环境状态的表示需依赖大量的特征工程,再进行数据分析,而基于深度学习方法不依赖手工特征输入,可实现端到端的学习,从而实时获得鲁棒的解决方案。在触觉时序信号识别方面常用的方法有卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等,其中CNN主要用于提取空间特征,RNN和LSTM常用于提取时序特征;但这些方法在触觉感知应用中存在一些不足,如对复杂信号的建模能力有限,在小样本数据集的情况下易出现过拟合等问题;同时,由于触觉信号数据的特殊性质,如噪声和不确定性,这些方法的鲁棒性需要进一步提高。相比之下,Transformer模型具有较好的序列建模能力和并行计算能力,可以有效地提取时序特征;此外,Transformer模型可以在不同粒度上同时对序列进行建模,也可以直接处理多模态输入。因此,相比于传统的CNN和RNN模型,Transformer模型在触觉时序信号识别方面具有更好地灵活性和扩展性。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于深度学习的触觉时序信号识别的优化方法。
本发明方法通过数据预处理,对各样本每个维度进行线性插值、窗口移动拼接的方式得到新的数据,实现数据增强,运用Transformer模型作为主干网络,并基于两个Transformer Encoder来构建的双塔结构作为模型整体架构,分别提取触觉时序信号的时序特征和空间特征,再经过阈值控制两个塔的特征权重融合这两个特征得到整体信号特征,最后使用设计的HAPTR Loss损失函数,缓解数据集不平衡问题,减少数据过拟合现象,更好地对该任务模型进行训练及优化,输出识别类型,从而更好地辅助机器人识别触觉信号。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于深度学习的触觉时序信号识别方法,操作步骤如下:
S1:输入机器人采集的触觉时序信号数据input;
S2:通过对机器人采集的数据进行插值、增强和数据集重平衡得到预处理后的数据input1;
S3:将多维度的触觉时序信号input1转化为特征矩阵,得到可视化图input2传入网络;
S4:通过Transformer Encoder模型构建的双塔网络结构分别提取预处理后的数据input1的时序特征和可视化图像input2的空间特征;
S5:通过阈值控制两个塔的特征权重,将得到的两个特征向量进行融合操作得到综合信号特征向量;
S6:综合信号特征向量通过分类层输出信号类别,进行模型训练和优化,实现触觉时序信号的识别。
优选地,在步骤S1中输入的触觉时序信号均由机器人触觉传感器收集,所述输入的触觉时序信号包括数据集1的盲文触觉时序信号,触觉传感器安装在机器人手的端点,当传感器在具有不同浮雕图案的盲文字符上滑动时,柔性磁体尖端相应地变形,并且沿x、y和z方向测得的磁通量密度(Bx、By和Bz)也以特定方式变化,Bx和By的幅度变化分别与每个盲文字符在列和行方向上的凸点位置相关,而Bz反映了凸点的整体模式;数据集2的织物触觉时序信号,通过机器人手部的传感器,采集沿x、y和z方向测得的磁通量密度(Bx、By和Bz)变化,Bz与织物的硬度有关,Bx反映了传感器与织物间的摩擦力,By与织物的粗糙度有关;数据集3的地形触觉时序信号,ANYmal机器人在不同的真实世界地形样本上行走期间记录,通过机器人脚部的力/扭矩(F/T)传感器采集力度和扭矩变化,在接触的瞬间,F/T信号以每160个时间维度截取为一个样本。
优选地,所述步骤S1中,所述数据集1的盲文触觉时序信号、数据集2的织物触觉时序信号均来在期刊Yan Youcan, Hu Zhe, Shen Yajing,et al. Surface TextureRecognition by Deep Learning-EnhancedTactile Sensing. Advanced IntelligentSystems, 2022,4(1):1-7;所述数据集3的地形触觉时序信号来在会议Michal Bednarek,Michal Lysakowski, Jakub Bednarek,et al. Fast haptic terrain classificationforlegged robots using transformer, in: 2021 European Conference on MobileRobots, ECMR, 2021, pp. 1–7。
优选地,所述步骤S2中预处理包括数据插值处理和数据集重平衡:
S201、数据插值处理:对于同一数据集,由于传感器采集的时间不确定性,各样本的时序长度不一,根据各维度特征变化在时间维度上具有连续性的特点,本方法对各样本每个维度进行一维线性插值得到最长的时序长度,通过窗口移动拼接实现数据增强。
S202、数据集重平衡:针对数据集样本分布不均的问题,重新分析各类样本的分布权重,对于类别占比过大或过小的样本类别进行调整;本方法根据数据在时序上具有连续性的特点进行数据增强以实现数据集重平衡,实现小类别数据增强。
通过数据预处理,使得数据更加稳定,以此提高深度学习模型的泛化性和鲁棒性,以应对小数据集问题。
优选地,所述步骤S3中,将具有多个维度的触觉时序信号input1转换为特征矩阵,将矩阵数据输入到网络中,具体的将经过预处理的触觉时序信号input1的特征值归一化到0-1之间,从而转为信号特征维度最长时序长度的二维矩阵,获得可视化图像。
优选地,所述步骤S4中,构建一个基于Transformer Encoder模型,通过构建的双塔提取预处理过后的数据input1的时序特征和可视化图像input2的空间特征。具体的通过模型的Embedding层、Transformer Encoder编码层提取特征:
S401、在所述Embedding层中,由于触觉时序数据具有连续性的特性,将所述预处理后的数据input1、所述可视化图像input2进行线性投影转换为相应的输入向量,模型设定的嵌入向量长度d_mode为256;为了让自注意力操作更好地利用时间步长的顺序相关性,在时序信息中添加了位置编码,以弥补时序信息的缺失。
S402、在所述Transformer Encoder编码层中,根据对触觉时序信号的本质进行分析,假设在每个时间步下,其不同的通道间存在隐藏的相关性,设计一个双塔结构模型来捕获触觉时序信号的隐含特征。两个塔中的Encoder通过注意力和线性变换实现数据特征的提取,其编码器架构均由6个编码器堆叠而成,每个编码器层由两个子层连接结构组成,第一个子层连接结构包括一个多头自注意力子层、规范化层和一个残差连接,第二个子层连接结构包括一个前馈全连接子层、规范化层和一个残差连接。多头自注意力层可以让每个注意力机制去优化信号的不同特征部分,从而均衡同一种注意力机制可能产生的偏差;前馈全连接层主要考虑注意力机制可能对复杂过程的拟合程度不够,通过增加网络层来增强模型的特征提取能力;规范化层对经过多层计算后的参数进行规范化,避免因参数过大或过小导致的学习异常问题。
依次通过每个编码器即可完成一次对输入数据的特征提取过程。其中,在时序特征编码器中,使用了带掩码的自注意力机制,通过计算所有时间步长中的成对注意力权重来关注不同通道上的每个时间点,空间特征编码器则使用了原始Transformer Encoder架构,从而通过两个编码器完成空间特征和时序特征的提取。
优选地,所述步骤S5中,通过阈值g1、g2分别控制两个塔的特征权重,对所述空间特征S、所述时序特征T进行融合操作得到所述综合特征向量Y,具体的融合表达式为:
式中,g1用于控制空间特征权重,g2用于控制时序特征权重,时序与空间的特征权重之和为1。
优选地,所述步骤S5中,阈值g1取值0.1,g2取值0.9时,所得到的模型性能最好,与单独基于时序特征或空间特征的模型作对比,该参数设置下模型效果仍为最好,证明在触觉信号识别中融合所述时序特征和所述空间特征是有益的,根据特征的融合表达式可得出Y的数据维度。
优选地,所述步骤S6中,通过一个线性层和SoftMax层对所述综合特征向量进行处理,得到每个样本数据在每种类别上的概率权重,输出的数据维度为(batch_size,num_type),最后输出每个样本类别概率最大值,即可得到最后的类别输出。
优选地,所述步骤S6中,通过设计的HAPTR Loss损失函数优化模型训练,HAPTRLoss通过调整样本权重,从而缓解类别不平衡问题,所述HAPTR Loss损失函数中引入了Focal Loss和L2正则化,HAPTR Loss损失函数表示为,则表达式为:
式中,为Focal Loss,/>为L2正则化。
优选地,Focal Loss通过调整样本权重降低易分类样本的权重,具体实现的表达式为:
式中Pt表示模型对样本t的预测概率,其值越接近1,代表模型对样本分类的置信度越高;γ表示为可调节的超参数,用于控制难易样本的权重;(1-Pt)γ称为调节因子,其值越小时,代表该样本越容易分类,则权重就较低,反之则代表该样本很难分类;log(Pt)用于衡量模型的分类结果与真实标签的差距,其值越小,代表模型的分类效果越好;因此,所述Focal Loss通过引入调节因子,调整易分类样本的权重,使得模型更加关注难以分类的样本,从而提高模型的分类精度。
同时,为了防止模型过拟合,引入L2正则化,表达式为:
式中,ω表示模型的权重矩阵;表示模型权重矩阵所有元素的平方和组成的惩罚项,也称为L2范数;λ表示正则化系数,用于控制正则化强度,λ越大,模型就更倾向于选择较小的权重,使得模型更加简单。
与现有技术相比,本发明的有益效果:
1.本发明通过设计的特征提取方式,将触觉时序信号分为时序特征和空间特征,通过阈值控制特征融合的方式得到最后的综合特征,能更好地表现信号的整体信息;
2.本发明通过Transformer Encoder模型构建的双塔结构网络可有效提取数据特征,此外,Transformer模型可以在不同力度上同时对序列进行建模,也可以直接处理多模态输入,因此,相比于传统的CNN和RNN模型,Transformer模型在触觉时序信号识别方面就有更好地灵活性和扩展性;
3.本发明通过设计的HAPTR Loss损失函数,缓解不平衡类别问题,相较于传统的交叉熵损失函数,HAPTR Loss通过调整样本权重,提高难分类样本的重要性,降低易分类样本的权重,从而缓解不平衡类别问题,使得模型更加关注困难样本,提高模型的分类精度;
4.本发明方法在触觉时序信号识别上有更好的识别效果,使得算法对机器人的智能化操作及识别任务中具有一定的泛化性和鲁棒性,在机器人感知领域,可以辅助机器人感知识别,有效地提高触觉信号识别率。
附图说明
图1为本发明实施例的基于深度学习的触觉信号识别方法的流程图。
图2为本发明实施例的盲文字符C的触觉时序信号折线图。
图3为本发明实施例的盲文字符C的触觉时序信号视觉可视化图。
图4为本发明实施例的基于Transformer Encoder模型构建的双塔结构网络训练流程。
图5为本发明方法与其他方法在地形触觉时序信号上效果的对比。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
如图1所示,一种基于深度学习的触觉时序信号识别方法,操作步骤如下:
S1、输入机器人传感器采集的触觉时序信号input;
从盲文触觉时序信号数据集1中输入盲文字符C,盲文触觉时序信号数据集1来自Yan Youcan, Hu Zhe, Shen Yajing,et al. Surface Texture Recognition by DeepLearning-EnhancedTactile Sensing. Advanced Intelligent Systems,2022,4(1):1-7;触觉传感器安装在机器人手的端点,当传感器在具有不同浮雕图案的盲文字符上滑动时,柔性磁体尖端相应地变形,并且沿x、y和z方向测得的磁通量密度(Bx、By和Bz)也以特定方式变化,Bx和By的幅度变化分别与每个盲文字符在列和行方向上的凸点位置相关,而Bz反映了凸点的整体模式。数据集包含29个英文盲文字母(包含26个小写字母和3个大写字母,分别是“B、C、P”)的触觉时序信号。
S2、通过对输入的触觉时序信号input预处理得到预处理后的数据input1;
S201、数据插值处理:根据各维度的特征变化在时间维度上具有连续性的特点,本方法对各样本每个维度进行一维线性插值到最长的时序长度120,使用scipy.interpolate插值模块interp1d()函数中的“quadratic”二次插值方法,利用该函数在有限个点处的取值状况,估算出函数在其它点处的近似值。
S202、数据集重平衡:重新分析各类样本的分布权重,根据数据在时序上具有连续性的特点,对于训练数据集中的样本,采用窗口移动的方式来产生新的数据样本,以此丰富训练数据集。
S3、将具有多个维度的触觉时序信号input1转化为特征矩阵,得到可视化图传入网络;
根据数据预处理后的触觉时序信号input1,如图2所示,将input1的特征值归一化到0-1之间,从而将盲文字符C的磁通量密度(Bx、By和Bz)转化为信号特征维度乘最长时序长度的二维矩阵3*120,得到盲文字符C可视化图,如图3所示,通过使用Python科学计算库中的能将转换功信号数据转化为图像,以此获得可视化图像input2。
S4、如图4所示,通过Transformer Encoder模型构建的双塔网络结构的Embedding层和Transformer Encoder编码层提取预处理后的数据input1的时序特征和可视化图像input2的空间特征;
S401、在Embedding层中,将input1、input2进行线性投影转换为相应的输入向量,模型设定的嵌入向量长度d_model为256,为了让自注意力操作更好地利用时间步长的顺序相关性,在时序信息中添加位置编码,以弥补时序信息的缺少。
S402、在Transformer Encoder编码层中,根据对触觉信号的本质进行分析,假设在每个时间步下,其不同的通道间存在隐藏的相关性,设计一个双塔结构模型来捕获触觉时序信号的隐含特征,两个塔中的Encoder通过注意力和线性变换实现数据特征的提取其编码器架构均由6个编码器堆叠而成,每个编码器层由两个子层连接结构组成,第一个子层连接结构包括一个多头自注意力子层、规范化层和一个残差连接,第二个子层连接结构包括一个前馈全连接子层、规范化层和一个残差连接。依次通过编码器各组成单元的处理,每个编码器即可完成一次对输入数据的特征提取。其中,在时序特征编码器中,使用了带掩码的自注意力机制,通过计算所有时间步长中的成对注意力权重来关注不同通道上的每个时间点;空间特征编码器则使用了原始Transformer Encoder架构;
input1经过Encoder层处理后,得到时序特征T,T的数据维度为(batch_size,max_length,d_model),input2经过Encoder层处理后,得到空间特征S,S的数据维度为(batch_size,channel,d_model),经过reshape操作,T的数据维度变为(batch_size, max_length*d_model),S的数据维度变为(batch_size, channel*d_model),从而通过两个编码器完成空间特征S和时序特征T的提取。
S5、通过阈值控制两个塔的特征权重,将得到的两个特征向量进行融合操作得到综合信号特征向量;
经过特征提取后,通过阈值g1、g2分别控制两个塔的特征权重,对于空间特征S、时序特征T进行融合操作得到综合特征向量Y,具体的融合表达式为:
式中,g1用于控制空间特征权重,g2用于控制时序特征权重,时序与空间的特征权重之和为1,g1取值0.1,g2取值0.9时,所得到的模型性能最好,并与单独基于时序特征或空间特征的模型作对比,该参数设置下模型效果仍为最好,经计算,得出综合特征向量Y的数据维度为(batch_size, max_length*d_model)。
S6、综合信号特征通过分类层输出信号类别;
通过线性层和SoftMax层对综合特征向量Y进行处理,得到batch_size中每个样本数据在每种类别上的概率权重,输出的数据维度为(batch_size,num_type);最后输出每个样本类别概率的最大值,即可得到最后的类别输出C。
进行模型训练和优化;
设计HAPTR Loss损失函数,使用HAPTR Loss损失函数计算识别结果与数据真实标签之间的损失,每训练一轮,均用反向传播更新网络的各权重参数,经过n轮的训练,最终得到可识别信号的网络,实现信号识别,所述HAPTR Loss损失函数中引入FocalLoss和L2正则化,损失函数HAPTR Loss表示为Ltotal,表达式为:
式中,Lfl表示Focal Loss,Ll2表示L2正则化。
HAPTR Loss通过调整样本权重,从而缓解不平衡类别问题,使得模型更加关注困难样本,提高模型的分类精度。
Focal Loss通过调整样本权重降低易分类样本的权重,具体实现的表达式为:
式中Pt表示模型对样本t的预测概率;γ表示为可调节的超参数,用于控制难易样本的权重;(1-Pt)γ称为调节因子;log(Pt)用于衡量模型的分类结果与真实标签的差距;因此,所述Focal Loss损失函数通过引入调节因子,调整易分类样本的权重,使得模型更加关注难以分类的样本,从而提高模型的分类精度。
同时,为了防止模型过拟合,引入L2正则化,表达式为:
式中,ω表示模型的权重矩阵;表示模型权重矩阵所有元素的平方和组成的惩罚项,也称为L2范数;λ表示正则化系数,用于控制正则化强度。
使用AdamW优化器,通过使用AdamW优化器提高模型的收敛速度和泛化能力,利用动量和自适应学习等方式,加快模型训练速度,并控制模型复杂度,从而缓解小样本数据过拟合的问题,以此提高模型的性能和鲁棒性。
目前已有的深度学习方法在机器人感知盲文触觉时序信号数据集中,最好的识别效果为97%,通过本发明方法识别效果可达100%,可用于视障人士盲文阅读的缺陷测试。
实施例2
本实施例与实施例1基本相同,特别之处如下:
在本实施例中,在所述步骤二中,输入的触觉时序信号为数据集2的织物时序信号,触觉传感器安装在机器人手的端点,通过机器人手部的传感器,采集沿x、y和z方向测得的磁通量密度(Bx、By和Bz)变化,Bz与织物的硬度有关,Bx反映了传感器与织物间的摩擦力,By与织物的粗糙度有关,数据集包含60不同的织物的触觉时序信号,包括材质的不同和表面纹理的不同,如表面图案不同的丝质、棉、亚麻等织物。
目前已有的深度学习方法在机器人感知织物时序信号同一数据集中,最好识别效果为99%,本发明方法识别效果达到了100%,证明该方法在表面纹理识别方面的有效性。
实施例3
本实施例与实施例1基本相同,特别之处如下:
在本实施例中,在所述步骤二中,输入的触觉时序信号为数据集3的地形时序信号,地形触觉时序型号数据集来自于Michał Bednarek, Michał Łysakowski, JakubBednarek,et al. Fast haptic terrain classification for legged robots usingtransformer, in: 2021European Conference on Mobile Robots, ECMR, 2021, pp. 1–7。该数据集是在ANYmal机器人在不同的真实世界地形样本上行走期间记录的,通过机器人脚部的力/扭矩(F/T)传感器采集机器人在不同地面上行走所产生的力度、扭矩变化,在接触的瞬间,F/T信号以每160个时间维度截取为一个样本。所创建的数据集有8种不同地形类型的触觉时序信号:地毯、人造草地、橡胶、沙子、泡沫、岩石、瓷砖和PVC。
如图5所示,目前已有的深度学习方法在机器人感知地形时序信号同一数据集中,最好识别效果为92.7%,本发明方法识别效果达到了95.03%。
通过本发明方法对触觉时序信号数据集进行测试,本发明方法可进一步提升识别效果,针对触觉时序数据在采集过程中传感器的噪声和不确定性,模型的泛化能力相对较好;并在三个触觉时序信号数据集上的效果达到SOTA,揭示了我们的方法在盲文识别、纹理识别、地形识别等多个方面的有效性以及在机器人触觉感知应用中的潜在好处。
触觉感知是机器人智能制造中极为重要的一步,是机器人对周围环境进行感知、理解和推理的保障,在人机交互中具有重要意义。本发明方法在触觉时序信号识别上有更好的识别效果,使得算法对机器人的智能化操作及识别任务中具有一定的泛化性和鲁棒性,能辅助机器人感知识别,实现更佳性能的机器人触觉感知。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的触觉时序信号识别方法,其特征在于,操作步骤如下:
S1、输入机器人传感器采集的触觉时序信号数据input;
S2、通过对机器人采集的数据进行插值和数据集重平衡得到预处理后的数据input1;
S3、将多维度的触觉时序信号input1转化为特征矩阵,得到可视化图input2传入网络;
S4、通过Transformer Encoder模型构建的双塔网络结构分别提取预处理后的数据input1的时序特征和可视化图像input2的空间特征;
S5、通过阈值控制两个塔的特征权重,将得到的两个特征向量进行融合操作得到综合信号特征向量;
S6、综合信号特征向量通过分类层输出信号类别,进行模型训练和优化,实现触觉时序信号的识别;
其中,所述双塔网络结构包括Embedding层和Transformer Encoder层;
所述Embedding层将input1、input2进行线性投影转换为相应的输入向量,在时序信息中添加位置编码,弥补时序信息的缺失;所述Transformer Encoder层包括时序特征编码器和空间特征编码器,分别提取时序特征和空间特征。
2.根据权利要求1所述的一种基于深度学习的触觉时序信号识别方法,其特征在于,所述步骤S1中,输入的触觉时序信号由机器人触觉传感器采集,包括数据集1的盲文触觉时序信号,通过机器人手部的传感器,采集盲文沿x、y、z方向的磁通量密度变化;数据集2的织物触觉时序信号,通过机器人手部的传感器,采集织物沿x、y、z方向测得的磁通量密度(Bx、By和Bz)变化;数据集3的地形触觉时序信号,通过机器人脚部的力/扭矩传感器采集与不同地面接触的力度和扭矩变化。
3.根据权利要求1所述的一种基于深度学习的触觉时序信号识别方法,其特征在于,所述步骤S2包括:
S201、数据插值处理,根据样本各维度的特征变化在时间维度上具有连续性的特点,通过对各样本每个维度进行一维线性插值到最长的时序长度,通过窗口移动拼接实现数据增强;
S202、数据集重平衡,通过重新分析各类样本的分布权重,调整类别占比过大或过小的样本类别,实现小类别数据增加。
4.根据权利要求1所述的一种基于深度学习的触觉时序信号识别方法,其特征在于,所述步骤S3中,通过将所述触觉时序信号的特征值归一化到0-1之间,得到信号特征维度乘最长时序长度的二维矩阵,以此获得可视化图片。
5.根据权利要求1所述的一种基于深度学习的触觉时序信号识别方法,其特征在于,特征提取通过模型的Embedding层、Transformer Encoder编码层对数据特征进行提取:
在所述Embedding层中,模型设定的嵌入向量长度d_model为256;
在所述Transformer Encoder编码层中,编码器架构包括6个编码器,依次通过6个编码器即可完成一次对输入数据的特征提取,其中,在时序特征编码器中,使用了带掩码的自注意力机制,通过计算所有时间步长中的成对注意力权重来关注不同通道上的每个时间点;空间特征编码器则使用了原始Transformer Encoder架构。
6.根据权利要求1所述的一种基于深度学习的触觉时序信号识别方法,其特征在于,所述步骤S5中,通过阈值g1、g2分别控制两个塔的特征权重,对所述空间特征S、所述时序特征T进行融合操作得到综合特征向量Y,具体的融合表达式为:
式中g1用于控制空间特征权重,g2用于控制时序特征权重,时序与空间的特征权重之和为1。
7.根据权利要求6所述的一种基于深度学习的触觉时序信号识别方法,其特征在于,所述步骤S5中,所述阈值g1取值0.1,g2取值0.9。
8.根据权利要求1所述的一种基于深度学习的触觉时序信号识别方法,其特征在于,所述步骤S6中,通过一个线性层和SoftMax层对综合特征向量Y进行处理,得到每个样本数据在每种类别上的概率权重,通过输出每个样本类别概率最大值,实现触觉时序信号的识别。
9.根据权利要求1所述的一种基于深度学习的触觉时序信号识别方法,其特征在于,所述步骤S6中,通过设计的HAPTR Loss损失函数优化模型训练,HAPTR Loss通过调整样本权重,从而缓解类别不平衡问题,所述HAPTR Loss损失函数中引入了Focal Loss和L2正则化,HAPTR Loss损失函数表示为,则表达式为:
式中,为Focal Loss,/>为L2正则化。
10.根据权利要求9所述一种基于深度学习的触觉时序信号识别方法,其特征在于,所述步骤6中,Focal Loss通过调整样本权重降低易分类样本的权重,具体实现的表达式为:
式中,表示模型对样本t的预测概率;/>表示为可调节的超参数,用于控制难易样本的权重;/>称为调节因子;/>用于衡量模型的分类结果与真实标签的差距;
同时,为了防止模型过拟合,引入L2正则化,表达式为:
式中,表示模型的权重矩阵;/>表示模型权重矩阵所有元素的平方和组成的惩罚项,也称为L2范数;/>表示正则化系数,用于控制正则化强度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310746370.9A CN116502069B (zh) | 2023-06-25 | 2023-06-25 | 一种基于深度学习的触觉时序信号识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310746370.9A CN116502069B (zh) | 2023-06-25 | 2023-06-25 | 一种基于深度学习的触觉时序信号识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116502069A CN116502069A (zh) | 2023-07-28 |
CN116502069B true CN116502069B (zh) | 2023-09-12 |
Family
ID=87325027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310746370.9A Active CN116502069B (zh) | 2023-06-25 | 2023-06-25 | 一种基于深度学习的触觉时序信号识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502069B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117995277B (zh) * | 2024-02-07 | 2024-08-23 | 扬州大学 | 一种适用于长序列的对数位置编码方法 |
CN117786606B (zh) * | 2024-02-27 | 2024-04-30 | 四川大学 | 一种基于深度学习的视触融合信号识别方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909637A (zh) * | 2019-11-08 | 2020-03-24 | 清华大学 | 一种基于视触融合的室外移动机器人地形识别方法 |
CN112388655A (zh) * | 2020-12-04 | 2021-02-23 | 齐鲁工业大学 | 一种基于触觉振动信号与视觉图像融合的抓取物识别方法 |
CN113033657A (zh) * | 2021-03-24 | 2021-06-25 | 武汉理工大学 | 一种基于Transformer网络的多人行为识别方法 |
CN113628294A (zh) * | 2021-07-09 | 2021-11-09 | 南京邮电大学 | 一种面向跨模态通信系统的图像重建方法及装置 |
CN113902007A (zh) * | 2021-09-30 | 2022-01-07 | 北京百度网讯科技有限公司 | 模型训练方法及装置、图像识别方法及装置、设备和介质 |
CN114089834A (zh) * | 2021-12-27 | 2022-02-25 | 杭州电子科技大学 | 一种基于时间-通道级联Transformer网络的脑电识别方法 |
CN114693961A (zh) * | 2020-12-11 | 2022-07-01 | 北京航空航天大学 | 眼底照片分类方法、眼底图像处理方法和系统 |
CN114700947A (zh) * | 2022-04-20 | 2022-07-05 | 中国科学技术大学 | 基于视触融合的机器人及其抓取系统和方法 |
CN114851227A (zh) * | 2022-06-22 | 2022-08-05 | 上海大学 | 一种基于机器视觉与触觉融合感知的装置 |
CN115223244A (zh) * | 2022-07-12 | 2022-10-21 | 中国电信股份有限公司 | 触觉动作仿真方法、装置、设备和存储介质 |
CN116010575A (zh) * | 2023-01-19 | 2023-04-25 | 桂林电子科技大学 | 一种融合基础知识与用户信息的对话生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021262603A1 (en) * | 2020-06-25 | 2021-12-30 | Nvidia Corporation | Sensor fusion for autonomous machine applications using machine learning |
US11794350B2 (en) * | 2020-10-22 | 2023-10-24 | Mitsubishi Electric Research Laboratories, Inc. | Interactive tactile perception method for classification and recognition of object instances |
CN113807440B (zh) * | 2021-09-17 | 2022-08-26 | 北京百度网讯科技有限公司 | 利用神经网络处理多模态数据的方法、设备和介质 |
-
2023
- 2023-06-25 CN CN202310746370.9A patent/CN116502069B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909637A (zh) * | 2019-11-08 | 2020-03-24 | 清华大学 | 一种基于视触融合的室外移动机器人地形识别方法 |
CN112388655A (zh) * | 2020-12-04 | 2021-02-23 | 齐鲁工业大学 | 一种基于触觉振动信号与视觉图像融合的抓取物识别方法 |
CN114693961A (zh) * | 2020-12-11 | 2022-07-01 | 北京航空航天大学 | 眼底照片分类方法、眼底图像处理方法和系统 |
CN113033657A (zh) * | 2021-03-24 | 2021-06-25 | 武汉理工大学 | 一种基于Transformer网络的多人行为识别方法 |
CN113628294A (zh) * | 2021-07-09 | 2021-11-09 | 南京邮电大学 | 一种面向跨模态通信系统的图像重建方法及装置 |
CN113902007A (zh) * | 2021-09-30 | 2022-01-07 | 北京百度网讯科技有限公司 | 模型训练方法及装置、图像识别方法及装置、设备和介质 |
CN114089834A (zh) * | 2021-12-27 | 2022-02-25 | 杭州电子科技大学 | 一种基于时间-通道级联Transformer网络的脑电识别方法 |
CN114700947A (zh) * | 2022-04-20 | 2022-07-05 | 中国科学技术大学 | 基于视触融合的机器人及其抓取系统和方法 |
CN114851227A (zh) * | 2022-06-22 | 2022-08-05 | 上海大学 | 一种基于机器视觉与触觉融合感知的装置 |
CN115223244A (zh) * | 2022-07-12 | 2022-10-21 | 中国电信股份有限公司 | 触觉动作仿真方法、装置、设备和存储介质 |
CN116010575A (zh) * | 2023-01-19 | 2023-04-25 | 桂林电子科技大学 | 一种融合基础知识与用户信息的对话生成方法 |
Non-Patent Citations (1)
Title |
---|
基于正则化深度学习的视觉交互力估计与行为识别研究;姜亚男;《中国优秀硕士学位论文全文数据库 信息科技辑》(第1期);第I138-1694页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116502069A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116502069B (zh) | 一种基于深度学习的触觉时序信号识别方法 | |
Li et al. | Dynamic gesture recognition in the internet of things | |
Su et al. | HDL: Hierarchical deep learning model based human activity recognition using smartphone sensors | |
CN110083125A (zh) | 一种基于深度学习的机床热误差建模方法 | |
Zhang et al. | Fast covariance matching with fuzzy genetic algorithm | |
CN113705809B (zh) | 一种数据预测模型训练方法、工业指标预测方法和装置 | |
JP2022120775A (ja) | オンデバイスでの活動認識 | |
CN111144165A (zh) | 一种步态信息识别方法、系统及存储介质 | |
CN112528548A (zh) | 一种自适应深度耦合卷积自编码多模态数据融合方法 | |
CN111626152B (zh) | 一种基于Few-shot的时空视线方向估计原型设计方法 | |
Zheng et al. | Cross-modal material perception for novel objects: A deep adversarial learning method | |
Qian et al. | Hardness recognition of robotic forearm based on semi-supervised generative adversarial networks | |
Han et al. | Multi-modal haptic image recognition based on deep learning | |
CN116909393A (zh) | 基于手势识别的虚拟现实输入系统 | |
Zheng et al. | Cross-modal learning for material perception using deep extreme learning machine | |
Racz et al. | Artificial neural network for mobile robot topological localization | |
Henmi et al. | Interactive evolutionary computation with evaluation characteristics of Multi-IEC users | |
CN105740815A (zh) | 一种基于深度递归分层条件随机场的人体行为识别方法 | |
Duan et al. | Learning physics properties of fabrics and garments with a physics similarity neural network | |
CN115512214A (zh) | 一种基于因果注意力的室内视觉导航方法 | |
CN115526253A (zh) | 基于生成对抗网络的非接触式估计表面物理属性值的方法 | |
Chen et al. | Fault diagnosis of industrial process using attention mechanism with 3DCNN-LSTM | |
Ma et al. | Tactile texture recognition of multi-modal bionic finger based on multi-modal CBAM-CNN interpretable method | |
Liu et al. | Touchformer: A Transformer-based two-tower architecture for tactile temporal signal classification | |
CN114360058A (zh) | 一种基于行走视角预测的跨视角步态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |