CN114998620A - 一种基于张量分解的RNNPool网络目标识别方法 - Google Patents

一种基于张量分解的RNNPool网络目标识别方法 Download PDF

Info

Publication number
CN114998620A
CN114998620A CN202210528490.7A CN202210528490A CN114998620A CN 114998620 A CN114998620 A CN 114998620A CN 202210528490 A CN202210528490 A CN 202210528490A CN 114998620 A CN114998620 A CN 114998620A
Authority
CN
China
Prior art keywords
order
tensor
rnnpool
network
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210528490.7A
Other languages
English (en)
Other versions
CN114998620B (zh
Inventor
刘欣刚
陈捷元
叶嘉林
郭又铭
胡晓荣
苏鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210528490.7A priority Critical patent/CN114998620B/zh
Publication of CN114998620A publication Critical patent/CN114998620A/zh
Application granted granted Critical
Publication of CN114998620B publication Critical patent/CN114998620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于张量分解的RNNPool网络目标识别方法,属于机器学习技术领域。本发明方法首先针对三阶彩色图像,将RNNPool网络扩展至高阶,提取三阶彩色图像的行阶特征、列阶特征以及通道阶特征;然后针对三阶彩色图像中通道阶所代表的三原色分量与行、列两阶代表的空间坐标点明暗程度的区别,优化了通道阶的特征提取;最后将结合张量链分解的神经网络结构运用于RNNPool网络当中,提高模型运行效率。本发明的目标识别方法有效提升了训练效果及收敛速度,可以用更少的拟合时间达到效果较好的准确率结果。

Description

一种基于张量分解的RNNPool网络目标识别方法
技术领域
本发明属于机器学习技术领域,涉及一种基于张量分解的RNNPool网络目标识别方法。
背景技术
科学技术的持续发展大大改善了人类的生活质量,其从各个维度影响着人们的生活状态,使生活变得更加智能化与高效化。而伴随着这种趋势以及大数据、云计算、物联网等的发展,社会中的数据逐渐形成了融合多种维度信息的多维数据,比如视频数据、工业化数据以及高光谱数据等。这些数据通过多个角度对信息进行表示,可以更加精准地在空间、时间、物理等各个维度上反映出人们的历史轨迹。
而因为涉及到了人、机、物等多个空间维度,社会中的数据具有多维度以及大数据量的特征。所以针对其数据的特征,张量作为向量以及矩阵在高维度上的延展,可以从多维度上表达数据的多类属性,从而对数据进行表示。目前,张量已经被广泛应用于临床研究、工业数据处理、地形图数据解析等各种领域当中。相比而言,向量作为一阶数据只能从单个维度上表示数据的特征,矩阵可以从行、列两个维度来表示数据,张量作为其二者延伸形式,可以将每一阶都表示为数据的一种特征属性,从而对多维度数据进行更加清晰的表达。而对高阶张量数据进行张量分解可以有效地提取出张量每一阶上代表的数据特征,也可以将冗余的数据进行压缩以获得更高的工作效率。
同时由于计算能力的迅速提高,人工智能的应用也变得更加多样化。其中,目标识别问题是许多专家学者所关注的热点问题,其目的意在将大批量重复的图像以较高的精度实现分类以节省人力物力以及时间消耗。而目前针对此类问题,较为先进的技术是RNNPool网络模型,其针对普通卷积神经网络CNN需要大量运行内存,标准池化算子对特征图仅进行了粗略的聚合导致实验结果精度显著降低等问题进行了改进。但目前,RNNPool网络仍然存在着无法合理处理多属性多维度数据、各阶处理单一化以及网络中参数量过大的问题。
发明内容
针对现有技术中RNNPool网络存在的仅能处理二阶数据并且处理方式单一化以及参数量过大的问题,本发明提供了一种基于张量分解的RNNPool网络目标识别方法。首先针对三阶彩色图像,将RNNPool网络扩展至高阶,提取三阶彩色图像的行阶特征、列阶特征以及通道阶特征;然后针对三阶彩色图像中通道阶所代表的三原色分量与行、列两阶代表的空间坐标点明暗程度的区别,优化了通道阶的特征提取;最后将结合张量链分解的神经网络结构运用于RNNPool网络当中,提高模型运行效率。
本发明采用的技术方案如下:
一种基于张量分解的RNNPool网络目标识别方法,包括下列步骤:
S1:基于高阶RNNPool网络提取三阶彩色图像的整体特征,所述整体特征包含行阶特征、列阶特征以及通道阶特征;
S11:将三阶彩色图像输入高阶RNNPool网络;
S12:对三阶彩色图像进行划分,得到若干个小尺寸的感受野,每个感受野中的输入为四阶张量
Figure BDA0003645273800000021
其中b表示批次阶的维度,ch表示通道阶的维度,r表示行阶的维度,c表示列阶的维度,N为行阶分割份数,M为列阶分割份数;
S13:通过高阶RNNPool网络对四阶张量
Figure BDA0003645273800000022
进行特征提取,得到行阶特征、列阶特征,然后将通道阶作为目标阶,行阶或者列阶作为辅助阶,进行通道阶特征提取,得到通道阶特征;最后整合三阶特征,得到感受野的整体特征;
所述目标阶指特征被输入高阶RNNPool网络的递归神经网络时,作为高阶张量的第一阶;所述递归神经网络以目标阶作为时间序列进行拟合,并在输出时取其最后一个节点作为该序列的输出结果;所述辅助阶用于将特征整合到所需维度作为下一步骤的输入。
S14:将每个感受野的输出还原至相对应的位置,拼接得到三阶彩色图像的整体特征。
S2:对三阶彩色图像进行分类识别,完成目标识别任务。
S21:将数据集中的三阶彩色图像按比例划分为训练集和测试集;
S22:搭建高阶RNNPool分类模型,由依次连接的第一卷积层、第一BN层、第二卷积层、第二BN层、高阶RNNPool网络层、第三卷积层、第三BN层、第四卷积层、第四BN层、全连接层、Softmax层构成;
S23:在训练阶段,首先自定义超参数,再将训练集中的三阶彩色图像输入至高阶RNNPool分类模型,以减小训练集的损失函数为目标优化模型参数,提升模型的分类准确率,得到最优化的高阶RNNPool分类模型;
S24:在测试阶段,将测试集中的三阶彩色图像输入至最优化的高阶RNNPool分类模型中,完成目标识别任务。
进一步地,步骤S1中包含两种通道阶特征提取及整合方式,其中,第一种方式为:
A1:针对辅助阶对感受野中的四阶张量
Figure BDA0003645273800000031
进行张量折叠处理,得到张量
Figure BDA0003645273800000032
Figure BDA0003645273800000033
A2:将张量
Figure BDA0003645273800000034
Figure BDA0003645273800000035
进行针对目标阶的折叠处理,然后经过单向递归神经网络,输出张量
Figure BDA0003645273800000036
Figure BDA0003645273800000037
其中h1为单向递归神经网络隐藏层神经元数量;
A3:将张量
Figure BDA0003645273800000038
Figure BDA0003645273800000039
进行再次折叠,然后经过隐藏层神经元数量为h2的双向递归神经网络,得到通道阶特征张量
Figure BDA00036452738000000310
Figure BDA00036452738000000311
再将通道阶特征与行阶特征
Figure BDA00036452738000000312
列阶特征
Figure BDA00036452738000000313
进行拼接得到该感受野的输出特征。
第二种方式为:
B1:针对辅助阶将感受野中四阶张量
Figure BDA00036452738000000314
的行阶与列阶进行折叠处理,合并至一阶;
B2:将折叠处理后的张量
Figure BDA00036452738000000315
Figure BDA00036452738000000316
进行针对目标阶的折叠处理,然后经过隐藏层神经元数量为hk的单向递归神经网络,得到通道阶特征张量
Figure BDA00036452738000000323
Figure BDA00036452738000000324
B3:将通道阶特征与行阶特征和列阶特征拼接得到该感受野的输出特征。
其中,在高阶RNNPool网络中,采用改进的递归神经网络替代原有的递归神经网络,可以有效降低参数量并能实现权重张量的并行化运算。具体地,所述改进的递归神经网络包括如下步骤:
C1:将权重张量构建为张量链形式;
C2:设置张量链权重的乘法方式
Figure BDA00036452738000000318
其中
Figure BDA00036452738000000319
表示高阶张量形式的递归神经网络权重,
Figure BDA00036452738000000320
为偏移量,
Figure BDA00036452738000000321
表示N阶张量输入,I1,I2,…,In…,IN分别表示张量
Figure BDA00036452738000000322
第1阶到第N阶的维度;
C3:将该张量链权重的乘法方式应用于长短期记忆网络LSTM的权重张量,作为改进的递归神经网络;
C4:对长短期记忆网络LSTM中四个逻辑门的权重张量进行并行处理,提高运算效率。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明方法利用多种张量折叠技术对通道阶的处理进行了改进,同时使用张量链分解技术将权重张量分解成多个低阶张量以实现并行化处理以大大降低参数量,提高运算效率。本发明方法可以有效提升训练效果及收敛速度。
附图说明
图1为本发明的高阶RNNPool网络的流程示意图;
图2为本发明实施例针对通道阶特征提取并整合三阶特征的第一种方式的处理示意图;
图3为本发明实施例针对通道阶特征提取并整合三阶特征的第二种方式的处理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,本发明的基于张量分解的RNNPool网络目标识别方法,包括如下步骤:
S1:基于高阶RNNPool网络提取三阶彩色图像的整体特征,所述整体特征包含行阶特征、列阶特征以及通道阶特征。
S11:将三阶彩色图像输入高阶RNNPool网络;
三阶彩色图像作为高阶RNNPool网络的输入,其规格是一个四阶张量,批次阶batch、通道阶channel、行阶row、列阶column,其中批次阶的维度用b表示、通道阶维度用ch表示、行阶的维度以及列阶的维度分别用r和c来表示,即输入可写为
Figure BDA0003645273800000041
S12:对三阶彩色图像进行划分,得到若干个小尺寸的感受野,每个感受野中的输入为四阶张量
Figure BDA0003645273800000042
其中N为行阶分割份数,应选择可被r整除的数值;M为列阶分割份数,应选择可被c整除的数值;
S13:通过高阶RNNPool网络对四阶张量
Figure BDA0003645273800000043
进行特征提取,得到行阶特征
Figure BDA0003645273800000044
和列阶特征
Figure BDA0003645273800000045
然后将通道阶作为目标阶,行阶或者列阶作为辅助阶,进行通道阶特征提取,得到通道阶特征;最后整合三阶特征,得到感受野的整体特征。
所述目标阶指特征被输入进RNNPool网络的递归神经网络时,作为高阶张量的第一阶;所述递归神经网络以目标阶作为时间序列进行拟合,并在输出时取其最后一个节点作为该序列的输出结果;所述辅助阶用于将特征整合到所需维度作为下一步骤的输入。
S14:将每个感受野的输出还原至相对应的位置,拼接得到三阶彩色图像的整体特征。
所述通道阶特征提取并整合三阶特征的第一种方式参见图2,具体步骤如下:
A1-1:当选择行阶为辅助阶时,将输入的第三阶进行张量切块,得到第一组数据
Figure BDA0003645273800000051
Figure BDA0003645273800000052
Figure BDA0003645273800000053
当选择列阶为辅助阶时,将输入的第四阶进行张量切块,得到第二组数据
Figure BDA0003645273800000054
Figure BDA0003645273800000055
Figure BDA0003645273800000056
A1-2:将批次阶与第一组数据或第二组数据合并放至各自数据的第一阶上,得到第二步骤结果
Figure BDA0003645273800000057
Figure BDA0003645273800000058
A2-1:将通道阶进行张量切块,得到第三步骤结果为ch个
Figure BDA0003645273800000059
或ch个
Figure BDA00036452738000000510
其中
Figure BDA00036452738000000511
A2-2:将通道阶堆叠作为三阶张量的第一阶,得到第四步骤结果
Figure BDA00036452738000000512
Figure BDA00036452738000000513
A2-3:将第四步骤结果
Figure BDA00036452738000000514
Figure BDA00036452738000000515
输入单向递归神经网络,其隐藏层神经元数量为h1,得到第五步骤结果
Figure BDA00036452738000000516
Figure BDA00036452738000000517
其中的第一阶代表了时间步长,而第一阶的最后一维表示了最后一个时刻的时间步长,储存着最后一个时刻的输出;
A2-4:提取第五步骤结果的最后一维,得到第六步骤结果
Figure BDA00036452738000000518
Figure BDA00036452738000000519
A3-1:将第六步骤结果按照批次阶数目b进行切割,得到第七步骤结果
Figure BDA00036452738000000520
Figure BDA00036452738000000521
Figure BDA00036452738000000522
Figure BDA00036452738000000523
A3-2:将第七步骤结果堆叠在
Figure BDA00036452738000000524
Figure BDA00036452738000000525
的第一阶,得到第八步骤结果
Figure BDA00036452738000000526
Figure BDA00036452738000000527
A3-3:将第八步骤结果通过一个隐藏层神经元数量为h2的双向递归神经网络,得到第九步骤结果
Figure BDA00036452738000000528
Figure BDA00036452738000000529
A3-4:提取第九步骤结果的最后一维,得到第十步骤结果通道阶特征张量
Figure BDA00036452738000000530
Figure BDA00036452738000000531
A3-5:将第十步骤结果在输出矩阵的第二阶上与行阶特征
Figure BDA00036452738000000532
和列阶特征
Figure BDA00036452738000000533
进行直接拼接,得到单个感受野的输出特征
Figure BDA00036452738000000534
所述通道阶特征提取并整合三阶特征的第二种方式参见图3,具体步骤如下:
B1-1:在行阶方向上进行张量切块,得到的数据为
Figure BDA0003645273800000061
Figure BDA0003645273800000062
其中
Figure BDA0003645273800000063
或在列阶方向上进行张量切块,得到
Figure BDA0003645273800000064
Figure BDA0003645273800000065
其中
Figure BDA0003645273800000066
B1-2:将
Figure BDA0003645273800000067
Figure BDA0003645273800000068
沿列阶进行合并,得到三阶张量
Figure BDA0003645273800000069
或将
Figure BDA00036452738000000610
Figure BDA00036452738000000611
沿行阶进行合并,得到三阶张量
Figure BDA00036452738000000612
第二步骤结果
Figure BDA00036452738000000613
Figure BDA00036452738000000614
虽然数据尺寸相同,但因为操作次序的区别,数据排列的顺序不完全一致;
B2-1:将通道阶进行张量切块,得到第三步骤结果为ch个
Figure BDA00036452738000000615
或ch个
Figure BDA00036452738000000616
其中
Figure BDA00036452738000000617
B2-2:将目标阶堆叠作为三阶张量的第一阶,得到第四步骤结果
Figure BDA00036452738000000618
Figure BDA00036452738000000619
B2-3:将第四步骤结果输入隐藏层神经元数量为hk的单向递归神经网络,得到第五步骤结果
Figure BDA00036452738000000620
Figure BDA00036452738000000621
B2-4:提取第五步骤结果的最后一维切片,得到第六步骤结果
Figure BDA00036452738000000622
Figure BDA00036452738000000623
B3:将第六步骤结果与行阶特征和列阶特征进行第二阶上的合并,得到通道阶特征张量
Figure BDA00036452738000000624
Figure BDA00036452738000000625
该结果为单个感受野中的输出特征。
其中,在上述两种提取通道阶特征的方式中,采用改进的递归神经网络可以有效降低参数量并能实现权重矩阵的并行化运算。具体地,所改进的递归神经网络包括如下步骤:
C1:将高阶张量形式的递归神经网络权重w通过TT分解构造成张量链形式,假设N阶张量
Figure BDA00036452738000000626
其中In表示张量
Figure BDA00036452738000000627
第n阶的维度,n的取值为1到N,则将张量
Figure BDA00036452738000000628
张量链分解的公式如下:
Figure BDA00036452738000000629
该公式中,子张量或TT核
Figure BDA00036452738000000630
为三阶张量,其中
Figure BDA00036452738000000631
为张量链因子,Rn是张量秩,n的取值为1到N,且R0=RN=1;再将公式展开成以下形式:
Figure BDA0003645273800000071
其中,kn的取值为1到In,an的取值为1到Rn,而Rk表示将N个张量秩索引(a1到aN)的全部可能值进行遍历。
针对N阶张量输入
Figure BDA0003645273800000072
以及N阶张量输出
Figure BDA0003645273800000073
其中In表示张量
Figure BDA0003645273800000074
第n阶的维度,Jn表示张量
Figure BDA0003645273800000075
第n阶的维度;则其权重为2N阶张量
Figure BDA0003645273800000076
Figure BDA0003645273800000077
将张量
Figure BDA0003645273800000078
构建成N阶张量进行张量链分解,所以将原张量链分解输入的一阶扩展为两阶,通过将下角标进行下取整,即
Figure BDA0003645273800000079
以及
Figure BDA00036452738000000710
其中in和jn均为重新构建的四阶张量的索引值,in的取值为1到IN,jn的取值为1到JN,将展开公式写成:
Figure BDA00036452738000000711
上述公式中每个TT核或子张量
Figure BDA00036452738000000712
都是一个四阶张量。
C2:设置张量链权重的乘法方式为
Figure BDA00036452738000000713
其中
Figure BDA00036452738000000714
为偏移量,则将其展开为:
Figure BDA00036452738000000715
上述公式中,权重张量
Figure BDA00036452738000000716
可以使用张量链分解展开为四阶张量模乘的形式代入;
C3:将该张量链权重的乘法方式应用于长短期记忆网络LSTM的权重张量,作为改进的递归神经网络;具体地,结合张量链权重的乘法方式的LSTM前向传播公式为:
c′t=σ(TTL(Wc,xt)+Uc·ht-1+bc)
ft=σ(TTL(Wf,xt)+Uf·ht-1+bf)
ot=σ(TTL(Wo,xt)+Uo·ht-1+bo)it=tanh(TTL(Wi,xt)+Ui·ht-1+bi)
ct=ft*ct-1+it*c′t
tt=ot*tanh(ct)
其中,ct为t时刻细胞的候选状态,ct和ct-1分别为t时刻和t-1时刻的细胞状态,ft为遗忘门参数,ot为输出门参数,it为输入门参数,Wc、Wf、Wo和Wi分别为细胞候选状态、遗忘门、输出门、输入门对应t时刻输入xt的权重张量,Uc、Uf、Uo和Ui分别为细胞候选状态、遗忘门、输出门、输入门对应t-1时刻隐藏状态ht-1的权重张量,bc、bf、bo和ni分别为细胞候选状态、遗忘门、输出门、输入门对应的偏移量,ht为t时刻的隐藏状态,σ()和tanh()分别为sigmoid和tanh激活函数,TTL()为张量链权重乘法方式。
C4:将LSTM进行的四次TTL计算统一处理,先将
Figure BDA0003645273800000081
的第一阶维度J1尺寸扩大四倍至4J1,则权重张量表示为
Figure BDA0003645273800000082
不单独计算每个逻辑门的TTL,将尺寸扩大至四倍的参数平均划分成四份分给四个逻辑门的权重张量以实现并行化运算,从而节省计算量。
S2:对三阶彩色图像进行分类识别,完成目标识别任务。
S21:针对三个数据集中三阶彩色图像的尺寸与属性,将钢材表面缺陷数据集图像围绕中心切割至3×256×256的大小,其中1200张图像作为训练集,150张作为测试集;将运动分类数据集图像切割至3×256×256的大小,800张图像作为训练集,160张作为测试集;将KTH-TIPS数据集图像围绕中心切割至3×200×200的大小,1400张图像作为训练集,210张作为测试集。同时分别打乱三组图像顺序以确保训练集以及测试集中各类数据均匀分布;
S22:针对钢材表面缺陷数据集以及运动分类数据集,所搭建的高阶RNNPool分类模型共包含4层卷积层、1层高阶RNNPool网络层、1层全连接层、1层Softmax层及4层BN层。输入图像首先经过两层分别为5*5*9和5*5*12的卷积层,输出特征大小为256*256*12。其次经过高阶RNNPool网络层进行各阶上的特征提取,设置行列阶双向递归神经网络神经元数量为9,通道阶网络神经元数量为6,所得到输出的特征张量大小为16*16*42。其次再经过两层分别为3*3*64和3*3*32的卷积层,输出特征尺寸为16*16*32。且模型中每个卷积层后紧跟一个BN层,其通过规范化操作将输出特征规范化来保证网络稳定性。最后将结果依次送入输出尺寸为8192的全连接层以及Softmax层得到尺寸为6或8的特征向量。
而针对KTH-TIPS数据集的模型与上述模型类似,仅需要将高阶RNNPool网络层的感受野尺寸更改为20*20、全连接层的尺寸设置为3200,模型最终可得到尺寸为7的输出特征向量;
S23:在训练阶段,首先自定义初始超参数,再将训练集输入至分类模型,以减小训练集的损失函数为目标不断自动优化模型参数,提升模型的分类准确率。同时根据结果不断调整初始超参数的设定,最终针对不同数据集分别设置钢材表面缺陷数据集初始学习率为0.0003,批次尺寸为25,训练迭代次数为15次;运动分类数据集初始学习率为0.003,批次尺寸为20,训练迭代次数为20次;KTH-TIPS数据集初始学习率为0.003,批次尺寸为35,训练迭代次数为20次;
S24:在测试阶段,将测试集图像输入至最优化的模型当中,利用分类模型挖掘其各阶特征,全连接层进行全局特征融合,以及Softmax层完成最终的目标分类。
在本发明中,通过实验得到,在钢材表面缺陷数据集中拟合稳定后训练集上的识别准确率高达98.75%,而测试集上的识别准确率高达98.46%,所使用的基于张量分解的高阶RNNPool网络相较于原始RNNPool网络达到收敛所需时间加快了58.3%;在运动分类数据集中拟合稳定后训练集上的识别准确率高达99.84%,而测试集上的识别准确率高达99.63%,达到收敛所需时间加快了24.7%;在KTH-TIPS数据集中拟合稳定后训练集上的识别准确率高达99.28%,而测试集上的识别准确率高达97.73%,达到收敛所需时间加快了61.1%。这证明了基于张量分解的RNNPool网络目标识别方法在分类效果上可以用更少的拟合时间达到效果较好的准确率结果。

Claims (4)

1.一种基于张量分解的RNNPool网络目标识别方法,其特征在于,包括下列步骤:
S1:基于高阶RNNPool网络提取三阶彩色图像的整体特征,所述整体特征包含行阶特征、列阶特征以及通道阶特征;
S11:将三阶彩色图像输入高阶RNNPool网络;
S12:对三阶彩色图像进行划分,得到若干个小尺寸的感受野,每个感受野中的输入为四阶张量
Figure FDA0003645273790000011
其中b表示批次阶的维度,ch表示通道阶的维度,r表示行阶的维度,c表示列阶的维度,N为行阶分割份数,M为列阶分割份数;
S13:通过高阶RNNPool网络对四阶张量
Figure FDA0003645273790000012
进行特征提取,得到行阶特征、列阶特征,然后将通道阶作为目标阶,行阶或者列阶作为辅助阶,进行通道阶特征提取,得到通道阶特征;最后整合三阶特征,得到感受野的整体特征;
所述目标阶指特征被输入高阶RNNPool网络的递归神经网络时,作为高阶张量的第一阶;所述递归神经网络以目标阶作为时间序列进行拟合,并在输出时取其最后一个节点作为该序列的输出结果;所述辅助阶用于将特征整合到所需维度作为下一步骤的输入;
S14:将每个感受野的输出还原至相对应的位置,拼接得到三阶彩色图像的整体特征;
S2:对三阶彩色图像进行分类识别,完成目标识别任务;
S21:将数据集中的三阶彩色图像按比例划分为训练集和测试集;
S22:搭建高阶RNNPool分类模型,由依次连接的第一卷积层、第一BN层、第二卷积层、第二BN层、高阶RNNPool网络层、第三卷积层、第三BN层、第四卷积层、第四BN层、全连接层、Softmax层构成;
S23:在训练阶段,首先自定义超参数,再将训练集中的三阶彩色图像输入至高阶RNNPool分类模型,以减小训练集的损失函数为目标优化模型参数,提升模型的分类准确率,得到优化后的高阶RNNPool分类模型;
S24:在测试阶段,将测试集中的三阶彩色图像输入至优化后的高阶RNNPool分类模型中,完成目标识别任务。
2.如权利要求1所述的一种基于张量分解的RNNPool网络目标识别方法,其特征在于,步骤S1中的通道阶特征提取及整合方式如下:
A1:针对辅助阶对感受野中的四阶张量
Figure FDA0003645273790000013
进行张量折叠处理,得到张量
Figure FDA0003645273790000014
Figure FDA0003645273790000015
A2:将张量
Figure FDA0003645273790000016
Figure FDA0003645273790000017
进行针对目标阶的折叠处理,然后经过单向递归神经网络,输出张量
Figure FDA0003645273790000021
Figure FDA0003645273790000022
其中h1为单向递归神经网络隐藏层神经元数量;
A3:将张量
Figure FDA0003645273790000023
Figure FDA0003645273790000024
进行再次折叠,然后经过隐藏层神经元数量为h2的双向递归神经网络,得到通道阶特征张量
Figure FDA0003645273790000025
Figure FDA0003645273790000026
再将通道阶特征与行阶特征
Figure FDA0003645273790000028
列阶特征
Figure FDA0003645273790000027
进行拼接得到该感受野的输出特征。
3.如权利要求1所述的一种基于张量分解的RNNPool网络目标识别方法,其特征在于,步骤S1中的通道阶特征提取及整合方式如下:
B1:针对辅助阶将感受野中四阶张量
Figure FDA0003645273790000029
的行阶与列阶进行折叠处理,合并至一阶;
B2:将折叠处理后的张量
Figure FDA00036452737900000210
Figure FDA00036452737900000211
进行针对目标阶的折叠处理,然后经过隐藏层神经元数量为hk的单向递归神经网络,得到通道阶特征张量
Figure FDA00036452737900000213
Figure FDA00036452737900000212
B3:将通道阶特征与行阶特征和列阶特征拼接得到该感受野的输出特征。
4.如权利要求2或3所述的一种基于张量分解的RNNPool网络目标识别方法,其特征在于,递归神经网络采用改进的递归神经网络,所述改进的递归神经网络如下:
C1:将权重张量构建为张量链形式;
C2:设置张量链权重的乘法方式
Figure FDA00036452737900000214
其中
Figure FDA00036452737900000215
表示高阶张量形式的递归神经网络权重,
Figure FDA00036452737900000216
为偏移量,
Figure FDA00036452737900000218
表示N阶张量输入,I1,I2,…,In…,IN分别表示张量
Figure FDA00036452737900000219
第1阶到第N阶的维度;
C3:将该张量链权重的乘法方式应用于长短期记忆网络LSTM的权重张量,作为改进的递归神经网络;
C4:对长短期记忆网络LSTM中四个逻辑门的权重张量进行并行处理,提高运算效率。
CN202210528490.7A 2022-05-16 2022-05-16 一种基于张量分解的RNNPool网络目标识别方法 Active CN114998620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210528490.7A CN114998620B (zh) 2022-05-16 2022-05-16 一种基于张量分解的RNNPool网络目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210528490.7A CN114998620B (zh) 2022-05-16 2022-05-16 一种基于张量分解的RNNPool网络目标识别方法

Publications (2)

Publication Number Publication Date
CN114998620A true CN114998620A (zh) 2022-09-02
CN114998620B CN114998620B (zh) 2024-09-13

Family

ID=83027379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210528490.7A Active CN114998620B (zh) 2022-05-16 2022-05-16 一种基于张量分解的RNNPool网络目标识别方法

Country Status (1)

Country Link
CN (1) CN114998620B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127749A (zh) * 2016-06-16 2016-11-16 华南理工大学 基于视觉注意机制的目标零件识别方法
CN109344966A (zh) * 2018-07-26 2019-02-15 广东工业大学 一种高效张量化全连接神经网络的方法
US20190244371A1 (en) * 2018-02-04 2019-08-08 Applied Research, LLC Target Detection, Tracking, and Classification in Compressive Measurement Domain
CN110516557A (zh) * 2019-08-01 2019-11-29 电子科技大学 基于低秩张量分解的多样本人脸表情识别方法
US20200210773A1 (en) * 2019-01-02 2020-07-02 Boe Technology Group Co., Ltd. Neural network for image multi-label identification, related method, medium and device
CN112767271A (zh) * 2021-01-19 2021-05-07 西安交通大学 一种基于三维变分网络的高光谱图像深度降噪的方法
CN113283473A (zh) * 2021-04-20 2021-08-20 中国海洋大学 一种基于cnn特征映射剪枝的快速水下目标识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127749A (zh) * 2016-06-16 2016-11-16 华南理工大学 基于视觉注意机制的目标零件识别方法
US20190244371A1 (en) * 2018-02-04 2019-08-08 Applied Research, LLC Target Detection, Tracking, and Classification in Compressive Measurement Domain
CN109344966A (zh) * 2018-07-26 2019-02-15 广东工业大学 一种高效张量化全连接神经网络的方法
US20200210773A1 (en) * 2019-01-02 2020-07-02 Boe Technology Group Co., Ltd. Neural network for image multi-label identification, related method, medium and device
CN110516557A (zh) * 2019-08-01 2019-11-29 电子科技大学 基于低秩张量分解的多样本人脸表情识别方法
CN112767271A (zh) * 2021-01-19 2021-05-07 西安交通大学 一种基于三维变分网络的高光谱图像深度降噪的方法
CN113283473A (zh) * 2021-04-20 2021-08-20 中国海洋大学 一种基于cnn特征映射剪枝的快速水下目标识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
OINDRILA SAHA等: "RNNPool: Efficient Non-linear Pooling for RAM Constrained Inference", 《COMPUTER VISION AND PATTERN RECOGNITION》, 22 October 2020 (2020-10-22) *
纪荣嵘;林绍辉;晁飞;吴永坚;黄飞跃;: "深度神经网络压缩与加速综述", 计算机研究与发展, no. 09, 15 September 2018 (2018-09-15) *
陈捷元: "基于张量分解的RNNPool网络性能提升研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2023 (2023-01-15), pages 138 - 2291 *

Also Published As

Publication number Publication date
CN114998620B (zh) 2024-09-13

Similar Documents

Publication Publication Date Title
Monti et al. Motifnet: a motif-based graph convolutional network for directed graphs
Kim et al. SplitNet: Learning to semantically split deep networks for parameter reduction and model parallelization
Aghasi et al. Net-trim: Convex pruning of deep neural networks with performance guarantee
US11676003B2 (en) Training neural network accelerators using mixed precision data formats
Zeng et al. 3dcontextnet: Kd tree guided hierarchical learning of point clouds using local and global contextual cues
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
Ionescu et al. Training deep networks with structured layers by matrix backpropagation
CN108764471A (zh) 基于特征冗余分析的神经网络跨层剪枝方法
CN108710906B (zh) 基于轻量级网络LightPointNet的实时点云模型分类方法
Guo et al. Sparse deep nonnegative matrix factorization
CN112270345B (zh) 基于自监督字典学习的聚类算法
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN109472352A (zh) 一种基于特征图统计特征的深度神经网络模型裁剪方法
CN114611798A (zh) 一种基于动态超图卷积神经网络的od客流预测方法
Zhuang et al. Training compact neural networks with binary weights and low precision activations
Spallanzani et al. Additive noise annealing and approximation properties of quantized neural networks
Savich et al. Resource efficient arithmetic effects on rbm neural network solution quality using mnist
Wu Compression of fully-connected layer in neural network by kronecker product
CN112734025A (zh) 基于固定基正则化的神经网络参数稀疏化方法
Yilmaz Connectionist-symbolic machine intelligence using cellular automata based reservoir-hyperdimensional computing
Heaney et al. Applying Convolutional Neural Networks to data on unstructured meshes with space-filling curves
CN114998620B (zh) 一种基于张量分解的RNNPool网络目标识别方法
Vanhatalo et al. Speeding up the binary Gaussian process classification
CN114841252A (zh) 一种航空航天制造过程中多源异构大数据融合方法及系统
Pedroso et al. Feature space exploration as an alternative for design space exploration beyond the parametric space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant