CN116468979A - 一种双向特征融合网络、回归预测网络、训练方法及装置 - Google Patents
一种双向特征融合网络、回归预测网络、训练方法及装置 Download PDFInfo
- Publication number
- CN116468979A CN116468979A CN202310256876.1A CN202310256876A CN116468979A CN 116468979 A CN116468979 A CN 116468979A CN 202310256876 A CN202310256876 A CN 202310256876A CN 116468979 A CN116468979 A CN 116468979A
- Authority
- CN
- China
- Prior art keywords
- fusion
- feature
- enhancement
- network
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 586
- 238000012549 training Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 35
- 238000010606 normalization Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 17
- 238000007499 fusion processing Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 8
- 230000002708 enhancing effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 239000000203 mixture Substances 0.000 description 12
- 230000004913 activation Effects 0.000 description 11
- 238000011176 pooling Methods 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及计算机视觉技术领域,提供了一种双向特征融合网络、回归预测网络、训练方法及装置。该双向特征融合网络包括依次连接的正向特征融合子网络、反向特征融合子网络以及特征融合归一子网络;正向特征融合子网络用于自顶层向底层对多个不同层次的尺度特征图进行融合,得到多个初步融合特征;反向特征融合子网络用于自底层向顶层对多个初步融合特征进行特征增强,得到多个融合增强特征;特征融合归一子网络用于对多个融合增强特征进行归一和融合,得到多个尺度相同的最终融合增强特征。本公开通过双向特征融合网络进行双向特征融合,可使得整个特征层次具有更加丰富的表达,同时可有效提升后续的回归预测的预测效果。
Description
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种双向特征融合网络、回归预测网络、训练方法及装置。
背景技术
目标检测是计算机视觉领域的一个非常重要的核心方向。在目标检测任务中,一般包括区域选择、特征提取、分类器分类这几个环节。对于特征提取环节,由于单一尺度层次的特征无法同时有效地表征一张图像的语义信息和细节信息,所以目前主要是采用诸如FPN(Feature Pyramid Networks,特征图金字塔网络)来提取到更多尺度的特征信息。
但是,目前的FPN网络等都侧重于对特征的某一个方面的融合,且大多重点是采用自顶向下的特征融合方式或者层与层之间的密集连接来进行融合的方式,而这种融合的方式会使非相邻的特征在融合过程中被稀释,融合到的信息没有传播到各层,且只是将多层次的特征进行简单融合,融合后的特征的表达能力仍然较差,这还使得利用融合后的特征进行回归预测的效果也较差。
发明内容
有鉴于此,本公开实施例提供了一种双向特征融合网络、回归预测网络、训练方法及装置,以解决现有的特征融合网络无法获得表达丰富的融合特征信息,从而导致后续的回归预测效果也较差的问题。
本公开实施例的第一方面,提供了一种双向特征融合网络,包括:
正向特征融合子网络、与正向特征融合子网络连接的反向特征融合子网络,以及与反向特征融合子网络连接的特征融合归一子网络;
正向特征融合子网络用于自顶层向底层对多个不同层次的尺度特征图进行融合,得到多个初步融合特征;
反向特征融合子网络用于自底层向顶层对多个初步融合特征进行特征增强,得到多个融合增强特征;
特征融合归一子网络用于对多个融合增强特征进行归一和融合,得到多个尺度相同的最终融合增强特征。
本公开实施例的第二方面,提供了一种回归预测网络,包括第一方面的双向特征融合网络,以及与双向特征融合网络连接的质量回归头。
本公开实施例的第三方面,提供了一种回归预测网络训练方法,包括:
获取训练数据,并提取训练数据的多个不同层次的尺度特征图;
将多个不同层次的尺度特征图输入第一方面的双向特征融合网络,输出多个尺度相同的最终融合增强特征;
使用多个尺度相同的最终融合增强特征对第二方面的回归预测网络进行训练。
本公开实施例的第四方面,提供了一种回归预测网络训练装置,包括:
数据获取模块,被配置为获取训练数据,并提取训练数据的多个不同层次的尺度特征图;
特征融合模块,被配置为将多个不同层次的尺度特征图输入第一方面的双向特征融合网络,输出多个尺度相同的最终融合增强特征;
网络训练模块,被配置为使用多个尺度相同的最终融合增强特征对第二方面的回归预测网络进行训练。
本公开实施例的第五方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比,其有益效果至少包括:本公开提供了一种双向特征融合网络,该双向特征融合网络包括正向特征融合子网络、与正向特征融合子网络连接的反向特征融合子网络,以及与反向特征融合子网络连接的特征融合归一子网络;正向特征融合子网络用于自顶层向底层对多个不同层次的尺度特征图进行融合,得到多个初步融合特征;反向特征融合子网络用于自底层向顶层对多个初步融合特征进行特征增强,得到多个融合增强特征;特征融合归一子网络用于对多个融合增强特征进行归一和融合,得到多个尺度相同的最终融合增强特征。通过正向特征融合子网络可实现自顶层向底层对特征图进行逐级扩展以传播语义信息较强的特征;通过反向特征融合子网络可实现自底层向顶层利用准确的细节、轮廓、位置信息来增强整个特征金字塔;然后,通过特征融合归一子网络将上述通过正向特征融合子网络和反向特征融合子网络进行双向融合后的特征进行尺度归一融合,从而使得整个特征层次具有更加丰富的表达,进而可有效提升回归预测网络的预测效果。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的一种双向特征融合网络的结构示意图;
图2是本公开实施例提供的另一种双向特征融合网络的结构示意图;
图3是本公开实施例提供的一种特征融合归一子网络的结构示意图;
图4是本公开实施例提供的一种回归预测网络的结构示意图;
图5是本公开实施例提供的一种回归预测网络训练方法的流程示意图;
图6是本公开实施例提供的一种特征融合过程示意图;
图7是本公开实施例提供的一种回归预测网络训练装置的结构示意图;
图8是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种双向特征融合网络、回归预测网络、训练方法及装置。
图1是本公开实施例提供的一种双向特征融合网络的结构示意图。如图1所示,该双向特征融合网络包括:
正向特征融合子网络101、与正向特征融合子网络101连接的反向特征融合子网络102,以及与反向特征融合子网络102连接的特征融合归一子网络103。其中,正向特征融合子网络101用于自顶层向底层对多个不同层次的尺度特征图进行融合,得到多个初步融合特征;反向特征融合子网络102用于自底层向顶层对多个初步融合特征进行特征增强,得到多个融合增强特征;特征融合归一子网络103用于对多个融合增强特征进行归一和融合,得到多个尺度相同的最终融合增强特征。
正向特征融合子网络和反向特征融合子网络是相对的概念,使用时可根据需要定义正向特征融合子网络和反向特征融合子网络。在本实施例中,将用于自顶层向底层对多个不同层次的尺度特征图进行融合的子网络定义为正向特征融合子网络,将自底层向顶层对多个初步融合特征进行特征增强的子网络定义为反向特征融合子网络。
传统的FPN网络或其改进网络,基本上都侧重于特征的某一个方面的融合,大多重点在自顶向下和自底向上双路径的特征融合,或者层与层之间的密集连接来进行融合,这种逐级融合的方式会使非相邻的特征在融合过程中被稀释,融合到的信息没有传播到各层,且只是将多层次的特征进行简单融合,没有进一步提升特征表达能力,因而获得的融合后的特征的表达能力仍然较差,这还使得利用融合后的特征进行回归预测的效果也较差。然而,本公开实施例提供的双向特征融合网络,可以实现双向逐级融合特征,并将特征归一化到同一尺度进行加强,然后将加强后的特征信息传播至各层,极大地丰富了整个特征层次的表达,从而有利于提高后续利用这些融合后的特进行回归预测的预测效果。
本公开实施例提供的双向特征融合网络可广泛应用于检测、分类、回归等各种任务,通用性强。
图2是本公开实施例提供的另一种双向特征融合网络的结构示意图。如图2所示,正向特征融合子网络101包括第一正向融合分支1011、第二正向融合分支1012和第三正向融合分支1013;反向特征融合子网络102包括第一反向融合分支1021、第二反向融合分支1022和第三反向融合分支1023;第一正向融合分支1011与第三反向融合分支1023连接,第二正向融合分支1012与第二反向融合分支1022连接,第三正向融合分支1013与第一反向融合分支1021连接。
在一些实施例中,第一正向融合分支1011包括普通卷积层和上采样层。第二正向融合分支1012包括普通卷积层、特征融合层和上采样层。第三正向融合分支1013包括普通卷积层和特征融合层。第一反向融合分支1021包括普通卷积层。第二反向融合分支1022包括空洞卷积层、普通卷积层、特征融合层。第三反向融合分支1023包括空洞卷积层、普通卷积层、特征融合层。
图3是本公开实施例提供的一种特征融合归一子网络的结构示意图。如图3所示,特征融合归一子网络103包括第一融合子网络1031,与第一融合子网络1031连接的特征增强分支1032和多头自注意力分支1033;与特征增强分支1032和多头自注意力分支1033连接的第二融合子网络1034;第二融合子网络1034连接的第三融合子网络1035;以及,与第三融合子网络1035连接的第一融合分支1036、第二融合分支1037和第三融合分支1038。
在一些实施例中,第一融合子网络1031包括普通卷积层、上采样层、下采样层。特征增强分支1032包括可分离卷积层、激活函数层、普通卷积层。多头自注意力分支1033包括多个结构相同或不同的自注意力分支,一个分支对应一个头。第二融合子网络1034包括特征拼接层。第三融合子网络1035包括卷积层。第一融合分支1036包括普通卷积层和特征融合层。第二融合分支1037包括特征融合层。第三融合分支1038包括普通卷积层和上采样层。
图4是本公开实施例提供的一种回归预测网络的结构示意图。如图4所示,该回归预测网络包括如图1所示的双向特征融合网络以及与该双向特征融合网络连接的质量回归头401。
在一些实施例中,质量回归头401包括第一质量回归头4011、第二质量回归头4012和第三质量回归头4013。其中,第一质量回归头4011与第一融合分支1036连接,第二质量回归头4012与第二融合分支1037连接,第三质量回归头4013与第三融合分支1038连接。
在一实施例中,第三质量回归头4013可包括依次连接的一层深度可分离卷积层(如卷积核为3×3、通道数为256的深度可分离卷积层)、一层激活函数层(如GELU激活函数层)、一层普通卷积层(如卷积核为1×1,通道数为256的普通卷积)、一层全局平均池化层和一层全连接层(如维度为(256,1)的全连接层)以及一层sigmoid函数层。第二质量回归头4012可包括依次连接的一层深度可分离卷积层(如卷积核为3×3、通道数为512的深度可分离卷积层)、一层激活函数层(如GELU激活函数层)、一层普通卷积层(如卷积核为1×1,通道数为512的普通卷积)、一层全局平均池化层和一层全连接层(如维度为(512,256)的全连接层)以及一层激活函数层(如ReLU激活函数层)、一层全连接层(如维度为(256,1)的全连接层)以及一层sigmoid函数层。第一质量回归头4011可包括依次连接的一层打平(flatten)操作层、一层激活函数层(如PReLU激活函数层)、一层dropout操作层(如drop概率为0.5的dropout操作层)、一层全连接层(如维度为(512×7×7,1)的全连接层)以及一层sigmoid函数层。
目前的图像质量评估算法普遍聚焦于标签生成、样本分布、合理评测等方向,还没有在特征层次进行挖掘和优化,通常是采用最后输出的网络特征图进行回归预测,预测效果较差。而本公开实施例提供的回归预测网络包括上述的双向特征融合网络,可以获得表达能力更加丰富的多尺度多层次的特征信息,采用双向特征融合网络输出的多尺度多层次的特征信息进行回归预测,预测效果较好。
图5是本公开实施例提供的一种回归预测网络训练方法的流程示意图。图5的回归预测网络训练方法可以由服务器执行。如图5所示,该回归预测网络训练方法包括:
步骤S501,获取训练数据,并提取训练数据的多个不同层次的尺度特征图。
训练数据,可以是从网上爬取到的公开的图像/图片/照片,如动物图像、人物图像、风景图像等。也可以是监控设备抓取到的图像/视频流等。
在一实施例中,可以采用主干网络对训练数据进行处理,提取出多个不同层次的尺度特征图。该主干网络可以是残差神经网络(如IResNet50等),主干网络后面可连接正向特征融合子网络101。残差神经网络一般分为第一、第二、第三和第四阶段,共4个阶段。
结合图4,主干网络的第二阶段(简称为“C2”)与正向特征融合子网络101的第一正向融合分支1011连接,主干网络的第三阶段(简称为“C3”)与正向特征融合子网络101的第二正向融合分支1012连接,主干网络的第四阶段(简称为“C4”)与正向特征融合子网络101的第三正向融合分支1013连接。
作为一示例,假设输入的训练数据为分辨率为(3,112,112)的图像,记为图像F,首先,可将该图像F输入主干网络中,经主干网络进行特征提取,获得第二阶段C2输出的维度为(128,28,28)的第三尺度特征图F2,第三阶段C3输出的维度为(256,14,14)的第二尺度特征图F3,以及第四阶段C4输出维度为(512,7,7)的第一尺度特征图F4。
通过主干网络可以获取到训练数据三个层次的不同尺度的尺度特征图。
步骤S502,将多个不同层次的尺度特征图输入上述的双向特征融合网络,输出多个尺度相同的最终融合增强特征。
在一些实施例中,将多个不同层次的尺度特征图输入上述的双向特征融合网络,输出多个尺度相同的最终融合增强特征,包括:
将第一尺度特征图、第二尺度特征图和第三尺度特征图输入正向特征融合子网络,输出第一初步融合特征、第二初步融合特征和第三初步融合特征;
将第一初步融合特征、第二初步融合特征和第三初步融合特征输入反向特征融合子网络,输出第一融合增强特征、第二融合增强特征和第三融合增强特征;
将第一融合增强特征、第二融合增强特征和第三融合增强特征输入特征融合归一子网络,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征。
在一些实施例中,将第一尺度特征图、第二尺度特征图和第三尺度特征图输入正向特征融合子网络,输出第一初步融合特征、第二初步融合特征和第三初步融合特征,具体可包括:
对第一尺度特征图进行卷积处理,得到第一尺度卷积特征,对第一尺度卷积特征进行上采样,得到第一初步融合特征;
对第二尺度特征图进行卷积处理,得到第二尺度卷积特征,将第二尺度卷积特征与第一初步融合特征进行融合,得到第一中间融合特征,对第一中间融合特征进行上采样,得到第二初步融合特征;
对第三尺度特征图进行卷积处理,得到第三尺度卷积特征,将第三尺度卷积特征与第二初步融合特征进行融合,得到第三初步融合特征。
结合上述示例,结合图4、6,将上述主干网络输出的第一尺度特征图F4、第二尺度特征图F3和第三尺度特征图F2输入正向特征融合子网络101。具体的,可将第一尺度特征图F4输入正向特征融合子网络101的第一正向融合分支1011中,第一尺度特征图F4经过卷积核为1×1,通道数为256的普通卷积操作,得到维度为(256,7,7)的第一尺度卷积特征,接着采用双线性差值对第一尺度卷积特征/>进行二倍上采样,得到维度为(256,14,14)的第一初步融合特征/>。将第二尺度特征图F3输入正向特征融合子网络101的第二正向融合分支1012中,第二尺度特征图F3经过卷积核为1×1,通道数为256的普通卷积操作,得到维度为(256,14,14)的第二尺度卷积特征/>,接着将第二尺度卷积特征/>与第一初步融合特征相加,得到第一中间融合特征/>,然后再采用双线性差值对第一中间融合特征/>进行二倍上采样处理,得到维度为(256,28,28)的第二初步融合特征/>。将第三尺度特征图F2输入正向特征融合子网络101的第三正向融合分支1013中,第三尺度特征图F2经过卷积核为1×1,通道数为256的普通卷积操作,得到维度为(256,28,28)的第三尺度卷积特征/>,接着,将第三尺度卷积特征/>与第二初步融合特征/>相加,得到第三初步融合特征/>。
通过上述步骤,可完成从第四阶段C4到第二阶段C2的特征传递,即将高层特征信息自顶层向底层逐层往下传递,很好地增强了金字塔的语义信息表达能力。
在一些实施例中,将第一初步融合特征、第二初步融合特征和第三初步融合特征输入反向特征融合子网络,输出第一融合增强特征、第二融合增强特征和第三融合增强特征,具体可包括:
对第三初步融合特征进行普通卷积处理,得到第三融合增强特征;
对第三融合增强特征进行空洞卷积处理,得到空洞卷积特征;
对第一中间融合特征进行普通卷积处理,得到第一中间卷积融合特征;
将空洞卷积特征和第一中间卷积融合特征进行融合,得到第二中间融合特征;
对第二中间融合特征进行普通卷积处理,得到第二融合增强特征;
对第二融合增强特征进行空洞卷积处理,得到第二中间卷积融合特征;
对第一尺度卷积特征进行普通卷积处理,得到第三中间卷积融合特征;
将第三中间卷积融合特征与第二中间卷积融合特征进行融合,得到第一融合增强特征。
结合上述示例,结合图4、6,可将第三初步融合特征输入反向特征融合子网络102的第一反向融合分支1021中,第三初步融合特征/>经过一个卷积核为3×3,通道数为512的普通卷积,得到维度为(512,28,28)的第三融合增强特征/>。接着,将第三融合增强特征/>输入反向特征融合子网络102的第二反向融合分支1022中,第三融合增强特征/>经过一个卷积核为3×3,padding为2,扩张率为2,步长(stride)为2的空洞卷积,得到维度为(256,14,14)的空洞卷积特征/>(上标ds表示上采样,down sample)。将第一中间融合特征/>输入反向特征融合子网络102的第二反向融合分支1022中,第一中间融合特征/>经过一个卷积核为3×3,通道数为256的普通卷积,得到维度为(256,14,14)的第一中间卷积融合特征/>,接着,将第一中间卷积融合特征/>与空洞卷积特征/>相加,得到第二中间融合特征/>,然后,第二中间融合特征/>经过一个卷积核为3×3,通道数为512的普通卷积,得到维度为(512,14,14)的第二融合增强特征/>。将第二融合增强特征/>输入反向特征融合子网络102的第三反向融合分支1023中,第二融合增强特征/>经过卷积核为3×3,padding为1,扩张率为1,步长(stride)为2的空洞卷积,得到维度为(512,7,7)的第二中间卷积融合特征/>。将第一尺度卷积特征/>输入反向特征融合子网络102的第三反向融合分支1023中,第一尺度卷积特征/>经过一个卷积核为3×3,通道数为512的普通卷积,得到维度为(512,7,7)的第三中间卷积融合特征/>,接着,将第三中间卷积融合特征/>与第二中间卷积融合特征/>相加,再经过一个卷积核为3×3,通道数为512的普通卷积,得到维度为(512,7,7)的第一融合增强特征/>。
通过上述步骤,可完成从第二阶段C2到第四阶段C4的特征传递,即自底层向顶层的路径,使用底层特征中准确的细节信息增强整个特征层次。
在一些实施例中,将第一融合增强特征、第二融合增强特征和第三融合增强特征输入特征融合归一子网络,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征,包括:
对第一融合增强特征、第二融合增强特征和第三融合增强特征进行第一次融合处理,得到一次融合增强特征;
对一次融合增强特征进行第二次融合处理,得到二次融合增强特征;
对二次融合增强特征进行第三次融合处理,得到三次融合增强特征;
将三次融合增强特征分别输入第一融合分支、第二融合分支和第三融合分支,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征。
在一些实施例中,对第一融合增强特征、第二融合增强特征和第三融合增强特征进行第一次融合处理,得到一次融合增强特征,包括:
对第一融合增强特征进行上采样,得到第一特征图,第一特征图与第二融合增强特征的尺度相同;
对第三融合增强特征进行卷积、下采样处理,得到第二特征图,第二特征图与第二融合增强特征的尺度相同;
对第一特征图、第二融合增强特征和第二特征图进行融合,得到一次融合增强特征。
结合上述示例,结合图4、6,将第一融合增强特征输入特征融合归一子网络103的第一融合子网络1031中,采用双线性差值对第一融合增强特征/>进行二倍上采样,得到维度为(512,14,14)的第一特征图/>。将第三融合增强特征/>输入特征融合归一子网络103的第一融合子网络1031中,经过一个卷积核为3×3,通道数为512,步长(stride)为2的普通卷积进行下采样,得到维度为(512,14,14)的第二特征图/>。将第二融合增强特征/>输入特征融合归一子网络103的第一融合子网络1031中,将第一特征图/>、第二融合增强特征/>和第二特征图/>相加后经过一次卷积核为1×1的卷积操作,得到维度为(512,14,14)的一次融合增强特征/>。
通过上述步骤,可实现将经正向特征融合子网络101以及反向特征融合子网络102进行双向信息融合后的特征的尺度归一化到中间层(第三阶段C3),从而将低(第二阶段C2)、中(第三阶段C3)、高(第三阶段C4)三个层次的特征信息都连接起来,进一步提高了整个层次的特征表达能力。
在一些实施例中,对一次融合增强特征进行第二次融合处理,得到二次融合增强特征,包括:
将一次融合增强特征输入特征增强分支,输出第一增强特征;
将一次融合增强特征输入多头自注意力分支,输出每个注意力分支对应的分支注意力特征;
对第一增强特征和多个分支注意力特征进行融合,得到二次融合增强特征。
结合上述示例,将一次融合增强特征输入特征融合归一子网络103的特征增强分支1032中,一次融合增强特征/>经过一个卷积核为3×3,通道数为512的深度可分离卷积,再经一层PReLU激活操作,然后经过一个卷积核为1×1,通道数为512的卷积操作,得到维度为(512,14,14)的第一增强特征/>。
在一些实施例中,将一次融合增强特征输入多头自注意力分支,输出每个注意力分支对应的分支注意力特征,包括:
将一次融合增强特征输入多头自注意力分支中的每一个注意力分支;
利用每一个注意力分支,对一次融合增强特征进行卷积处理,得到第一嵌入特征、第二嵌入特征和第三嵌入特征;
根据一次融合增强特征、第一嵌入特征、第二嵌入特征和第三嵌入特征,计算得到每一个注意力分支对应的分支注意力特征。
结合上述示例,结合图4、6,将一次融合增强特征输入特征融合归一子网络103的多头自注意力分支1032中。以一个自注意力分支的头为例,一次融合增强特征/>经过三个卷积核为1×1,通道数为256的卷积操作,分别得到维度均(256,14,14)的为第一嵌入特征/>、第二嵌入特征/>和第三嵌入特征/>;接着,通过reshape函数将第一嵌入特征/>的维度调整为(14×14,256),将第二嵌入特征/>的维度调整为(256,14×14)后,再计算调整维度后的第一嵌入特征/>和第二嵌入特征/>的内积,之后再经过softmax操作,得到维度为(14×14,14×14)的第一注意力特征/>。通过reshape函数将第三嵌入特征的维度调整为(14×14,256),然后,计算调整维度后的第三嵌入特征/>与第一注意力特征/>的内积,得到第二注意力特征/>。通过reshape函数将第二注意力特征/>的维度调整为(14,14,256),调整维度后的第二注意力特征/>经过一个卷积核1×1,通道数为512的卷积操作,得到维度为(512,14,14)的第三注意力特征/>,最后将第三注意力特征/>与一次融合增强特征/>相加,得到该自注意力分支的分支注意力特征Y。
设多头自注意力分支有N个头(N为≥1的正整数),那么按照上述步骤,可以分别计算得到每一个自注意力分支的头所对应的分支注意力特征、/>、/>......,/>,各个分支注意力特征的维度均为(512,14,14)。然后,将多头自注意力分支的N个分支注意力特征/>、、/>......,/>进行拼接,再将拼接后的特征经过一个全连接层,得到第二增强特征/>。最后,将第一增强特征/>和第二增强特征/>输入第二融合子网络1034中,对第一增强特征和第二增强特征/>进行拼接,得到二次融合增强特征/>。
将二次融合增强特征输入第三融合子网络1035中,二次融合增强特征/>经过一个卷积核为3×3,通道数为256的卷积操作,得到维度为(256,14,14)的三次融合增强特征/>。
多个不同层次的尺度特征图在经过双向特征融合网络的双向均衡融合后的特征还是存在感受野有限的问题,为了获得更加全局的信息,捕捉像素间的长距离依赖关系,本公开通过上述步骤,对一次融合增强特征进行自注意力学习,大幅度强化了特征的表达能力,并且通过将多个自注意力分支学习到的特征信息进行交互融合,可进一步增强一次融合增强特征/>的表达能力。此外,通过对一次融合增强特征/>分别进行卷积和自注意力学习两种方式来增强特征表示,再将这两种增强再进行一次信息交互和融合,得到三次融合增强特征/>,可进一步丰富特征的表达能力。
在一些实施例中,将三次融合增强特征分别输入第一融合分支、第二融合分支和第三融合分支,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征,包括:
将三次融合增强特征输入第一融合分支,对三次融合增强特征进行普通卷积处理,得到第一卷积融合特征,将第一卷积融合特征与第一尺度特征图进行融合,得到第一最终融合增强特征;
将三次融合增强特征输入第二融合分支,对三次融合增强特征与第二尺度特征图进行融合,得到第二最终融合增强特征;
将三次融合增强特征输入第三融合分支,对三次融合增强进行普通卷积处理,得到第二卷积融合特征,对第二卷积融合特征与第三尺度特征图进行融合,得到第三融合增强特征。
结合上述示例,结合图4、6,将三次融合增强特征输入第一融合分支1036中,三次融合增强特征/>经过一个卷积核为1×1,通道数为512,步长(stride)为2的普通卷积,得到维度为(512,7,7)的第一卷积融合特征/>,将第一卷积融合特征/>与第一尺度特征图F4相加,得到第一最终融合增强特征/>。将三次融合增强特征/>输入第二融合分支1037中,将三次融合增强特征/>与第二尺度特征图F3相加,得到第二最终融合增强特征/>。将三次融合增强特征/>输入第三融合分支1038中,三次融合增强特征/>经过一个卷积核为1×1,通道数为128的普通卷积处理,得到第二卷积融合特征/>,再采用双线性差值对第二卷积融合特征/>进行二倍上采样,得到维度为(128,28,28)的特征图,之后再将该维度为(128,28,28)的特征图与第三尺度特征图F2相加,得到第三融合增强特征/>。
本公开通过正向特征融合子网络提供的自顶层向底层的路径,对多个不同层次的尺度特征图进行逐级扩展来传播语义信息较强的特征,通过反向特征融合子网络提供的自底层向顶层的路径,利用准确的细节、轮廓、位置信息增强整个特征金字塔,然后将经过上述双向融合后的特征进行尺度归一,随后分别进行卷积和多头自注意力的特征增强,从局部和全局两个方向进行优化,然后将加强特征缩放后通过跳跃连接补充原特征图的信息,很好地加强了整个特征层次的丰富表达。
步骤S503,使用多个尺度相同的最终融合增强特征对上述的回归预测网络进行训练。
在一些实施例中,使用多个尺度相同的最终融合增强特征对上述的回归预测网络进行训练,包括:
将多个尺度相同的最终融合增强特征输入质量回归头,计算总损失函数值;
当总损失函数值满足预设阈值时,完成对回归预测网络的训练。
结合上述示例,将第三融合增强特征输入第三质量回归头4013中,第三融合增强特征/>依次经过一层卷积核为3×3、通道数256的深度可分离卷积操作,一层GELU激活操作,一层卷积核为1×1,通道数为256的普通卷积操作,一层全局平均池化操作,再接一层维度为(256,1)的全连接层,后连接sigmoid操作,计算出第一损失函数值/>。将第二最终融合增强特征/>输入第二质量回归头4012中,依次经过一层卷积核为3×3、通道数512的深度可分离卷积,后接一层GELU激活,后接一层卷积核为1×1,通道数为512的普通卷积,后接一层全局平均池化操作,再接一层维度为(512,256)的全连接层,后接一层ReLU激活层,然后接一层维度为(256,1)的全连接层,后连接sigmoid操作,计算出第二损失函数值/>。将第一最终融合增强特征/>输入第一质量回归头4011中,首先接一层打平(flatten)操作,然后做一次PReLU激活操作,后接一层drop概率为0.5的dropout操作,然后接一层维度为(512×7×7,1)的全连接层,后连接sigmoid操作,计算出第三损失函数值/>。
接着,将第一损失函数值、第二损失函数值/>和第三损失函数值/>相加,计算得到总损失函数值L。最后,通过总损失函数值L约束优化整个回归预测网络,当总损失函数值L满足预设阈值(可根据实际情况灵活设置)时,完成对回归预测网络的训练。
本公开实施例提供的技术方案,通过上述双向特征融合网络可以对多个不同层次的尺度特征图进行双向融合,不仅可很好地保留各级的语义信息,还通过将双向融合后的特征进行尺度归一化,并分别对尺度归一化后的特征进行卷积和多头自注意力的特征加强,加强后的特征再重新缩放来增强原特征图,使得每个分辨率的特征图都能获得与其他层相同的融合增强信息,从而使得整个特征层次有了更丰富的表达能力;与此同时,可提高利用本公开的双向融合网络提取到的融合增强特征进行后续的回归预测的预测准确性。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图7是本公开实施例提供的一种回归预测网络训练装置的结构示意图。如图7所示,该回归预测网络训练装置包括:
数据获取模块701,被配置为获取训练数据,并提取训练数据的多个不同层次的尺度特征图;
特征融合模块702,被配置为将多个不同层次的尺度特征图输入的双向特征融合网络,输出多个尺度相同的最终融合增强特征;
网络训练模块703,被配置为使用多个尺度相同的最终融合增强特征对回归预测网络进行训练。
在一些实施例中,多个不同层次的尺度特征图包括第一尺度特征图、第二尺度特征图和第三尺度特征图。上述特征融合模块702包括:
特征融合单元,被配置为将第一尺度特征图、第二尺度特征图和第三尺度特征图输入正向特征融合子网络,输出第一初步融合特征、第二初步融合特征和第三初步融合特征;
特征增强单元,被配置为将第一初步融合特征、第二初步融合特征和第三初步融合特征输入反向特征融合子网络,输出第一融合增强特征、第二融合增强特征和第三融合增强特征;
融合归一单元,被配置为将第一融合增强特征、第二融合增强特征和第三融合增强特征输入特征融合归一子网络,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征。
在一些实施例中,上述特征融合单元包括:
第一融合组件,被配置为对第一尺度特征图进行卷积处理,得到第一尺度卷积特征,对第一尺度卷积特征进行上采样,得到第一初步融合特征;
第二融合组件,被配置为对第二尺度特征图进行卷积处理,得到第二尺度卷积特征,将第二尺度卷积特征与第一初步融合特征进行融合,得到第一中间融合特征,对第一中间融合特征进行上采样,得到第二初步融合特征;
第三融合组件,被配置为对第三尺度特征图进行卷积处理,得到第三尺度卷积特征,将第三尺度卷积特征与第二初步融合特征进行融合,得到第三初步融合特征。
在一些实施例中,上述融合归一单元包括:
第一卷积组件,被配置为对第三初步融合特征进行普通卷积处理,得到第三融合增强特征;
第二卷积组件,被配置为对第三融合增强特征进行空洞卷积处理,得到空洞卷积特征;
第三卷积组件,被配置为对第一中间融合特征进行普通卷积处理,得到第一中间卷积融合特征;
第四融合组件,被配置为将空洞卷积特征和第一中间卷积融合特征进行融合,得到第二中间融合特征;
第四卷积组件,被配置为对第二中间融合特征进行普通卷积处理,得到第二融合增强特征;
第五卷积组件,被配置为对第二融合增强特征进行空洞卷积处理,得到第二中间卷积融合特征;
第六卷积组件,被配置为对第一尺度卷积特征进行普通卷积处理,得到第三中间卷积融合特征;
第五融合组件,被配置为将第三中间卷积融合特征与第二中间卷积融合特征进行融合,得到第一融合增强特征。
在一些实施例中,上述特征增强单元包括:
一次融合组件,被配置为对第一融合增强特征、第二融合增强特征和第三融合增强特征进行第一次融合处理,得到一次融合增强特征;
二次融合组件,被配置为对一次融合增强特征进行第二次融合处理,得到二次融合增强特征;
三次融合组件,被配置为对二次融合增强特征进行第三次融合处理,得到三次融合增强特征;
输入组件,被配置为将三次融合增强特征分别输入第一融合分支、第二融合分支和第三融合分支,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征。
在一些实施例中,上述一次融合组件,具体可被配置为:
对第一融合增强特征进行上采样,得到第一特征图,第一特征图与第二融合增强特征的尺度相同;
对第三融合增强特征进行卷积、下采样处理,得到第二特征图,第二特征图与第二融合增强特征的尺度相同;
对第一特征图、第二融合增强特征和第二特征图进行融合,得到一次融合增强特征。
在一些实施例中,上述二次融合组件,具体可被配置为:
将一次融合增强特征输入特征增强分支,输出第一增强特征;
将一次融合增强特征输入多头自注意力分支,输出每个注意力分支对应的分支注意力特征;
对第一增强特征和多个分支注意力特征进行融合,得到二次融合增强特征。
在一些实施例中,将一次融合增强特征输入多头自注意力分支,输出每个注意力分支对应的分支注意力特征,具体包括:
将一次融合增强特征输入多头自注意力分支中的每一个注意力分支;
利用每一个注意力分支,对一次融合增强特征进行卷积处理,得到第一嵌入特征、第二嵌入特征和第三嵌入特征;
根据一次融合增强特征、第一嵌入特征、第二嵌入特征和第三嵌入特征,计算得到每一个注意力分支对应的分支注意力特征。
在一些实施例中,上述输入组件,可具体被配置为:
将三次融合增强特征输入第一融合分支,对三次融合增强特征进行普通卷积处理,得到第一卷积融合特征,将第一卷积融合特征与第一尺度特征图进行融合,得到第一最终融合增强特征;
将三次融合增强特征输入第二融合分支,对三次融合增强特征与第二尺度特征图进行融合,得到第二最终融合增强特征;
将三次融合增强特征输入第三融合分支,对三次融合增强进行普通卷积处理,得到第二卷积融合特征,对第二卷积融合特征与第三尺度特征图进行融合,得到第三融合增强特征。
在一些实施例中,上述网络训练模块703包括:
损失计算单元,被配置为将多个尺度相同的最终融合增强特征输入质量回归头,计算总损失函数值;
训练单元,被配置为当总损失函数值满足预设阈值时,完成对回归预测网络的训练。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图8是本公开实施例提供的电子设备8的示意图。如图8所示,该实施例的电子设备8包括:处理器801、存储器802以及存储在该存储器802中并且可在处理器801上运行的计算机程序803。处理器801执行计算机程序803时实现上述各个方法实施例中的步骤。或者,处理器801执行计算机程序803时实现上述各装置实施例中各模块/单元的功能。
电子设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备8可以包括但不仅限于处理器801和存储器802。本领域技术人员可以理解,图8仅仅是电子设备8的示例,并不构成对电子设备8的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器801可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器802可以是电子设备8的内部存储单元,例如,电子设备8的硬盘或内存。存储器802也可以是电子设备8的外部存储设备,例如,电子设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器802还可以既包括电子设备8的内部存储单元也包括外部存储设备。存储器802用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (17)
1.一种双向特征融合网络,其特征在于,包括:正向特征融合子网络、与所述正向特征融合子网络连接的反向特征融合子网络,以及与所述反向特征融合子网络连接的特征融合归一子网络;
所述正向特征融合子网络用于自顶层向底层对多个不同层次的尺度特征图进行融合,得到多个初步融合特征;
所述反向特征融合子网络用于自底层向顶层对所述多个初步融合特征进行特征增强,得到多个融合增强特征;
所述特征融合归一子网络用于对所述多个融合增强特征进行归一和融合,得到多个尺度相同的最终融合增强特征。
2.根据权利要求1所述的双向特征融合网络,其特征在于,所述正向特征融合子网络包括第一正向融合分支、第二正向融合分支和第三正向融合分支;
所述反向特征融合子网络包括第一反向融合分支、第二反向融合分支和第三反向融合分支;
所述第一正向融合分支与所述第三反向融合分支连接,所述第二正向融合分支与所述第二反向融合分支连接,所述第三正向融合分支与所述第一反向融合分支连接。
3.根据权利要求1所述的双向特征融合网络,其特征在于,所述特征融合归一子网络包括第一融合子网络,与所述第一融合子网络连接的特征增强分支和多头自注意力分支;与所述特征增强分支和多头自注意力分支连接的第二融合子网络;所述第二融合子网络连接的第三融合子网络;以及,与所述第三融合子网络连接的第一融合分支、第二融合分支和第三融合分支。
4.一种回归预测网络,其特征在于,所述回归预测网络包括如权利要求1~3中任一项所述的双向特征融合网络,以及与所述双向特征融合网络连接的质量回归头。
5.一种回归预测网络训练方法,其特征在于,包括:
获取训练数据,并提取所述训练数据的多个不同层次的尺度特征图;
将所述多个不同层次的尺度特征图输入如权利要求1~3中任一项所述的双向特征融合网络,输出多个尺度相同的最终融合增强特征;
使用所述多个尺度相同的最终融合增强特征对如权利要求4所述的回归预测网络进行训练。
6.根据权利要求5所述的方法,其特征在于,所述多个不同层次的尺度特征图包括第一尺度特征图、第二尺度特征图和第三尺度特征图;
将所述多个不同层次的尺度特征图输入如权利要求1~3中任一项所述的双向特征融合网络,输出多个尺度相同的最终融合增强特征,包括:
将所述第一尺度特征图、第二尺度特征图和第三尺度特征图输入正向特征融合子网络,输出第一初步融合特征、第二初步融合特征和第三初步融合特征;
将所述第一初步融合特征、第二初步融合特征和第三初步融合特征输入反向特征融合子网络,输出第一融合增强特征、第二融合增强特征和第三融合增强特征;
将所述第一融合增强特征、第二融合增强特征和第三融合增强特征输入特征融合归一子网络,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征。
7.根据权利要求6所述的方法,其特征在于,将所述第一尺度特征图、第二尺度特征图和第三尺度特征图输入正向特征融合子网络,输出第一初步融合特征、第二初步融合特征和第三初步融合特征,包括:
对所述第一尺度特征图进行卷积处理,得到第一尺度卷积特征,对所述第一尺度卷积特征进行上采样,得到第一初步融合特征;
对所述第二尺度特征图进行卷积处理,得到第二尺度卷积特征,将所述第二尺度卷积特征与所述第一初步融合特征进行融合,得到第一中间融合特征,对所述第一中间融合特征进行上采样,得到第二初步融合特征;
对所述第三尺度特征图进行卷积处理,得到第三尺度卷积特征,将所述第三尺度卷积特征与所述第二初步融合特征进行融合,得到第三初步融合特征。
8.根据权利要求7所述的方法,其特征在于,将所述第一初步融合特征、第二初步融合特征和第三初步融合特征输入反向特征融合子网络,输出第一融合增强特征、第二融合增强特征和第三融合增强特征,包括:
对所述第三初步融合特征进行普通卷积处理,得到第三融合增强特征;
对所述第三融合增强特征进行空洞卷积处理,得到空洞卷积特征;
对所述第一中间融合特征进行普通卷积处理,得到第一中间卷积融合特征;
将所述空洞卷积特征和所述第一中间卷积融合特征进行融合,得到第二中间融合特征;
对所述第二中间融合特征进行普通卷积处理,得到第二融合增强特征;
对所述第二融合增强特征进行空洞卷积处理,得到第二中间卷积融合特征;
对所述第一尺度卷积特征进行普通卷积处理,得到第三中间卷积融合特征;
将所述第三中间卷积融合特征与所述第二中间卷积融合特征进行融合,得到第一融合增强特征。
9.根据权利要求6所述的方法,其特征在于,将所述第一融合增强特征、第二融合增强特征和第三融合增强特征输入特征融合归一子网络,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征,包括:
对所述第一融合增强特征、第二融合增强特征和第三融合增强特征进行第一次融合处理,得到一次融合增强特征;
对所述一次融合增强特征进行第二次融合处理,得到二次融合增强特征;
对所述二次融合增强特征进行第三次融合处理,得到三次融合增强特征;
将所述三次融合增强特征分别输入第一融合分支、第二融合分支和第三融合分支,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征。
10.根据权利要求9所述的方法,其特征在于,对所述第一融合增强特征、第二融合增强特征和第三融合增强特征进行第一次融合处理,得到一次融合增强特征,包括:
对所述第一融合增强特征进行上采样,得到第一特征图,所述第一特征图与所述第二融合增强特征的尺度相同;
对所述第三融合增强特征进行卷积、下采样处理,得到第二特征图,所述第二特征图与所述第二融合增强特征的尺度相同;
对所述第一特征图、第二融合增强特征和第二特征图进行融合,得到一次融合增强特征。
11.根据权利要求9所述的方法,其特征在于,对所述一次融合增强特征进行第二次融合处理,得到二次融合增强特征,包括:
将所述一次融合增强特征输入特征增强分支,输出第一增强特征;
将所述一次融合增强特征输入多头自注意力分支,输出每个注意力分支对应的分支注意力特征;
对所述第一增强特征和多个分支注意力特征进行融合,得到二次融合增强特征。
12.根据权利要求11所述的方法,其特征在于,将所述一次融合增强特征输入多头自注意力分支,输出每个注意力分支对应的分支注意力特征,包括:
将所述一次融合增强特征输入所述多头自注意力分支中的每一个注意力分支;
利用每一个注意力分支,对所述一次融合增强特征进行卷积处理,得到第一嵌入特征、第二嵌入特征和第三嵌入特征;
根据所述一次融合增强特征、第一嵌入特征、第二嵌入特征和第三嵌入特征,计算得到每一个注意力分支对应的分支注意力特征。
13.根据权利要求9所述的方法,其特征在于,将所述三次融合增强特征分别输入第一融合分支、第二融合分支和第三融合分支,输出第一最终融合增强特征、第二最终融合增强特征和第三最终融合增强特征,包括:
将所述三次融合增强特征输入第一融合分支,对所述三次融合增强特征进行普通卷积处理,得到第一卷积融合特征,将所述第一卷积融合特征与所述第一尺度特征图进行融合,得到第一最终融合增强特征;
将所述三次融合增强特征输入第二融合分支,对所述三次融合增强特征与所述第二尺度特征图进行融合,得到第二最终融合增强特征;
将所述三次融合增强特征输入第三融合分支,对所述三次融合增强进行普通卷积处理,得到第二卷积融合特征,对所述第二卷积融合特征与所述第三尺度特征图进行融合,得到第三融合增强特征。
14.根据权利要求5所述的方法,其特征在于,使用所述多个尺度相同的最终融合增强特征对如权利要求4所述的回归预测网络进行训练,包括:
将所述多个尺度相同的最终融合增强特征输入质量回归头,计算总损失函数值;
当所述总损失函数值满足预设阈值时,完成对所述回归预测网络的训练。
15.一种回归预测网络训练装置,其特征在于,包括:
数据获取模块,被配置为获取训练数据,并提取所述训练数据的多个不同层次的尺度特征图;
特征融合模块,被配置为将所述多个不同层次的尺度特征图输入如权利要求1~3中任一项所述的双向特征融合网络,输出多个尺度相同的最终融合增强特征;
网络训练模块,被配置为使用所述多个尺度相同的最终融合增强特征对如权利要求4所述的回归预测网络进行训练。
16.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求5至14中任一项所述方法的步骤。
17.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求5至14中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310256876.1A CN116468979A (zh) | 2023-03-08 | 2023-03-08 | 一种双向特征融合网络、回归预测网络、训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310256876.1A CN116468979A (zh) | 2023-03-08 | 2023-03-08 | 一种双向特征融合网络、回归预测网络、训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468979A true CN116468979A (zh) | 2023-07-21 |
Family
ID=87183275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310256876.1A Pending CN116468979A (zh) | 2023-03-08 | 2023-03-08 | 一种双向特征融合网络、回归预测网络、训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468979A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117468083A (zh) * | 2023-12-27 | 2024-01-30 | 浙江晶盛机电股份有限公司 | 降籽晶过程的控制方法、装置、长晶炉系统和计算机设备 |
-
2023
- 2023-03-08 CN CN202310256876.1A patent/CN116468979A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117468083A (zh) * | 2023-12-27 | 2024-01-30 | 浙江晶盛机电股份有限公司 | 降籽晶过程的控制方法、装置、长晶炉系统和计算机设备 |
CN117468083B (zh) * | 2023-12-27 | 2024-05-28 | 浙江晶盛机电股份有限公司 | 降籽晶过程的控制方法、装置、长晶炉系统和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | GMNet: Graded-feature multilabel-learning network for RGB-thermal urban scene semantic segmentation | |
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
WO2023056889A1 (zh) | 模型训练和场景识别方法、装置、设备及介质 | |
CN110837811B (zh) | 语义分割网络结构的生成方法、装置、设备及存储介质 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112380921A (zh) | 一种基于车联网的道路检测方法 | |
CN112396645B (zh) | 一种基于卷积残差学习的单目图像深度估计方法和系统 | |
Cai et al. | DLnet with training task conversion stream for precise semantic segmentation in actual traffic scene | |
CN112598045A (zh) | 训练神经网络的方法、图像识别方法及图像识别装置 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN113486890A (zh) | 基于注意力特征融合和空洞残差特征增强的文本检测方法 | |
CN112200041A (zh) | 视频动作识别方法、装置、存储介质与电子设备 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN114067389A (zh) | 一种面部表情的分类方法和电子设备 | |
CN115512169B (zh) | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 | |
CN113159236A (zh) | 基于多尺度变换的多聚焦图像融合方法及装置 | |
CN116468979A (zh) | 一种双向特征融合网络、回归预测网络、训练方法及装置 | |
CN114926636A (zh) | 一种点云语义分割方法、装置、设备及存储介质 | |
CN112633260B (zh) | 视频动作分类方法、装置、可读存储介质及设备 | |
CN114359293A (zh) | 一种基于深度学习的三维mri脑肿瘤分割方法 | |
CN114742750A (zh) | 异常细胞检测方法、装置、终端设备及可读存储介质 | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及系统 | |
CN112884702A (zh) | 一种基于内窥镜图像的息肉识别系统和方法 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |