CN112016571A - 一种基于注意力机制的特征提取方法、装置及电子设备 - Google Patents
一种基于注意力机制的特征提取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112016571A CN112016571A CN202010897554.1A CN202010897554A CN112016571A CN 112016571 A CN112016571 A CN 112016571A CN 202010897554 A CN202010897554 A CN 202010897554A CN 112016571 A CN112016571 A CN 112016571A
- Authority
- CN
- China
- Prior art keywords
- feature map
- attention
- feature
- scale
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 38
- 230000007246 mechanism Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000005070 sampling Methods 0.000 claims abstract description 24
- 238000010586 diagram Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 12
- 238000013459 approach Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005021 gait Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及基于注意力机制的特征提取方法、装置和电子设备。方法包括:获取多个不同尺度的特征图,包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;对第一特征图增加注意力;对至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,至少一个第三特征图与第一特征图的尺度相同;基于增加注意力的第一特征图和至少一个第三特征图,确定输出特征图。可见,通过对第一特征图增加注意力,并与其他不同尺度的第二特征图合并,确定输出特征图,使得通过反向传播进行注意力权重参数更新的过程中,可以针对不同的应用场景,通过损失函数约束注意力向应用场景所关心的信息靠近,提升输出特征图在应用场景下使用的准确性。
Description
技术领域
本公开实施例涉及图像处理技术领域,具体涉及一种基于注意力机制的特征提取方法、装置、电子设备和非暂态计算机可读存储介质。
背景技术
随着机器学习的发展,不同类型神经网络可用于图像处理技术领域,例如,特征提取网络提取图像中的特征,进而基于特征可对图像进行识别,当图像的应用场景不同,提取的特征的后续处理也不同。
因此,亟需提供一种特征提取方案,以提高图像识别在不同应用场景下的准确性。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种基于注意力机制的特征提取方法、装置、电子设备和非暂态计算机可读存储介质。
第一方面,本公开实施例提出一种基于注意力机制的特征提取方法,所述方法包括:
获取多个不同尺度的特征图,所述多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;
对所述第一特征图增加注意力;
对未增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,所述至少一个第三特征图与所述第一特征图的尺度相同;
基于所述增加注意力的第一特征图和所述至少一个第三特征图,确定输出特征图。
第二方面,本公开实施例提出一种基于注意力机制的特征提取方法,所述方法包括:
获取多个不同尺度的特征图,所述多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;
对所述至少一个其他尺度的第二特征图增加注意力;
对增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,所述至少一个第三特征图与所述第一特征图的尺度相同;
基于所述第一特征图和所述至少一个第三特征图,确定输出特征图。
第三方面,本公开实施例提供一种基于注意力机制的特征提取装置,所述装置包括:
获取模块,用于获取多个不同尺度的特征图,所述多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;
第一注意力模块,用于对所述第一特征图增加注意力;
处理模块,用于对未增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,所述至少一个第三特征图与所述第一特征图的尺度相同;
输出模块,用于基于所述增加注意力的第一特征图和所述至少一个第三特征图,确定输出特征图。
第四方面,本公开实施例提供一种基于注意力机制的特征提取装置,所述装置包括:
获取模块,用于获取多个不同尺度的特征图,所述多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;
第二注意力模块,用于对所述至少一个其他尺度的第二特征图增加注意力;
处理模块,用于对增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,所述至少一个第三特征图与所述第一特征图的尺度相同;
输出模块,用于基于所述第一特征图和所述至少一个第三特征图,确定输出特征图。
第五方面,本公开实施例提供一种电子设备,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如第一方面或第二方面所述方法的步骤。
第六方面,本公开实施例提供一种非暂态计算机可读存储介质,用于存储程序或指令,所述程序或指令使计算机执行如第一方面或第二方面所述方法的步骤。
可见,本公开的至少一个实施例中,通过对第一特征图增加注意力,并与其他不同尺度的第二特征图合并,确定输出特征图,使得通过反向传播进行注意力权重参数更新的过程中,可以针对不同的应用场景,通过损失函数约束注意力向应用场景所关心的信息靠近,提升输出特征图在应用场景下使用的准确性。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种基于注意力机制的特征提取方法的示例性流程图;
图2是本公开实施例提供的一种第一注意力模块的示例性框图;
图3是本公开实施例提供的另一种基于注意力机制的特征提取方法的示例性流程图;
图4是本公开实施例提供的又一种基于注意力机制的特征提取方法的示例性流程图;
图5是本公开实施例提供的一种第二注意力模块的示例性框图;
图6是本公开实施例提供的又一种基于注意力机制的特征提取方法的示例性流程图;
图7是本公开实施例提供的一种HRNet的结构框图;
图8是本公开实施例提供的一种基于注意力机制的特征提取装置的示例性框图;
图9是本公开实施例提供的另一种基于注意力机制的特征提取装置的示例性框图;
图10是本公开实施例提供的一种电子设备的示例性框图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
随着机器学习的发展,不同类型神经网络可用于图像处理技术领域,例如,特征提取网络提取图像中的特征,进而基于特征可对图像进行识别,当图像的应用场景不同,提取的特征的后续处理也不同。应用场景例如,图像中人体骨骼关键点的检测,以识别图像中人体的姿态;应用场景又例如,图像中目标检测,以识别图像中的目标类别和目标位置。
以图像中人体骨骼关键点检测的场景为例,人体骨骼关键点包括:眼部、耳部、嘴部、肩部、手肘、手腕、腰部、膝盖、脚踝,共17处关键点。关键点检测包括两个步骤,首先对图片中的人体目标进行识别定位,然后将识别出的人体目标分别单独提取出来,检测人体目标的可见关键点位置。
由于人体骨骼关键点可以描述人体姿态,因此关键点检测有广泛的应用前景:1.行为识别,预测人体行为;2.动作分类,异常行为检测;3.自动驾驶/无人驾驶,预测行人运动行为与运动轨迹,提前做出预判;4.步态识别与人物跟踪,因为不同个体的步态有其独特的特点。
关键点检测主要需要实现两个功能,其一是对图像中的人体目标进行检测,这个功能已经在目标检测领域中有了非常深入的研究;其二是对人体目标进行骨骼关键点的提取。
目前关键点检测方案存在的主要问题有:1.人物存在遮挡关系时,难以正确检测关键点所属的人物;2.关键点位置不够精确,与真值相比存在偏移。
因此,亟需提供一种特征提取方案,以提高图像识别在不同应用场景下的准确性,例如,关键点检测的准确性。
图1为本公开实施例提供的一种基于注意力机制的特征提取方法。本方法的执行主体可以为电子设备。
在图1中,首先,基于待识别的图像,可获取到同一深度下不同尺度的特征图11至14;然后,通过第一注意力模块(Attention Block 1)10计算特征图11的第一注意力权重;最后,将增加注意力的特征图11和特征图12至14合并,确定输出特征图(Feature Map),该Feature Map后续可用于人体骨骼关键点的检测。
在图1中,特征图11至14的尺度依次减小。另外,需要将特征图11至14一起输入到第一注意力模块10中,通过第一注意力模块10计算特征图11的第一注意力权重,进而可将第一注意力权重与特征图11进行乘积操作,实现对特征图11增加注意力。
在图1中,特征图12至14分别进行卷积操作(Conv)和上采样操作(Upsample)后,与增加注意力的特征图11进行相加操作,得到Feature Map。其中,Upsample后得到的特征图与增加注意力的特征图11的尺度相同。
可见,通过对特征图11增加注意力,并与特征图12至14合并,确定Feature Map,使得通过反向传播进行注意力权重参数更新的过程中,可以通过损失函数约束注意力向人体骨骼关键点靠近,让神经网络对可能出现骨骼关键点的位置更加敏感,进而提升关键点检测的准确率。
图2为本公开实施例提供的一种第一注意力模块20的示例性框图。需要说明的是,为了便于描述第一注意力模块20的功能,在图2中,除了示出第一注意力模块20的框图,还示出了其他内容。在一些实施例中,第一注意力模块20可以实现为图1中的第一注意力模块10或第一注意力模块10的一部分。
在图2中,第一注意力模块20的输入为特征图21至24,特征图21至24为同一深度下不同尺度的特征图,且尺度依次减小。第一注意力模块20的输出为特征图21的第一注意力权重。
在图2中,第一注意力模块20将特征图22至24分别进行卷积操作(Conv)和上采样操作(Upsample)后,与经过Conv的特征图21进行相加操作,并对相加操作后得到的特征图依次进行线性整流操作(例如ReLU)、卷积操作和激活操作(例如Sigmoid),得到特征图21的第一注意力权重。
在图2中,可将第一注意力权重与特征图21进行乘积操作,实现对特征图21增加注意力。进而,特征图22至24分别进行卷积操作(Conv)和上采样操作(Upsample)后,与增加注意力的特征图21进行相加操作,得到Feature Map。其中,Upsample后得到的特征图与增加注意力的特征图21的尺度相同。
可见,通过对特征图21增加注意力,并与特征图22至24合并,确定Feature Map,使得通过反向传播进行注意力权重参数更新的过程中,可以通过损失函数约束注意力向人体骨骼关键点靠近,让神经网络对可能出现骨骼关键点的位置更加敏感,进而提升关键点检测的准确率。
图3为本公开实施例提供的一种基于注意力机制的特征提取方法,该方法的执行主体为电子设备。为便于描述,以下实施例中以电子设备为执行主体说明该方法的流程。
在步骤301中,电子设备获取多个不同尺度的特征图,多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图。
在一些实施例中,第一特征图例如为图1中的特征图11,相应地,至少一个第二特征图为图1中的特征图12至14;第一特征图也可以为图2中的特征图21,相应地,至少一个第二特征图为图2中的特征图22至24。
在一些实施例中,电子设备可获取多个深度下的多个特征图,每个深度下可能有一个特征图或多个特征图。
在一些实施例中,电子设备获取特征图的方式可以采用目前比较常见的特征提取网络提取待识别的图像的特征。在一些实施例中,电子设备可通过HRNet(High-ResoultionNet),可以得到不同深度、不同尺度的特征图。因此,本实施例中,同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图均来源于HRNet。
在步骤302中,电子设备对第一特征图增加注意力。
在一些实施例中,电子设备是基于第一特征图和至少一个第二特征图来确定第一特征图的第一注意力权重。在一些实施例中,电子设备将第一特征图和每个第二特征图分别进行卷积操作(Conv);进而对每个第二特征图进行Conv后得到的特征图,进行上采样(Upsample);从而将第一特征图进行Conv后得到的特征图与Upsample得到的特征图进行相加操作;最后对相加操作得到的特征图依次进行线性整流操作(例如ReLU)、卷积操作和激活操作(例如Sigmoid),得到第一特征图的第一注意力权重。在得到第一注意力权重后,电子设备将第一注意力权重与第一特征图进行乘积操作,实现对第一特征图增加注意力。
在步骤303中,电子设备对未增加注意力的至少一个第二特征图执行卷积(Conv)后进行上采样(Upsample),确定至少一个第三特征图,至少一个第三特征图与第一特征图的尺度相同。
在步骤304中,电子设备基于增加注意力的第一特征图和至少一个第三特征图,确定输出特征图。
在一些实施例中,电子设备将增加注意力的第一特征图和至少一个第三特征图进行相加操作,得到输出特征图。输出特征图例如为图1、图2中的Feature Map。
可见,通过对第一特征图增加注意力,并与至少一个第二特征图合并,确定Feature Map,使得通过反向传播进行注意力权重参数更新的过程中,可以通过损失函数约束注意力向人体骨骼关键点靠近,让神经网络对可能出现骨骼关键点的位置更加敏感,进而提升关键点检测的准确率。
图4为本公开实施例提供的一种基于注意力机制的特征提取方法。本方法的执行主体可以为电子设备。
在图4中,首先,基于待识别的图像,可获取到同一深度下不同尺度的特征图41至44;然后,通过第二注意力模块(Attention Block 2)40计算特征图42至44各自的第二注意力权重;最后,将增加特征图41和增加注意力的特征图42至44合并,确定输出特征图(Feature Map),该Feature Map后续可用于人体骨骼关键点的检测。
在图4中,特征图41至44的尺度依次减小。另外,第二注意力模块40的输入只有两个特征图:一个是特征图41,另一个是特征图42至44中的任一个,通过第二注意力模块40计算特征图42至44各自的第二注意力权重,进而可将特征图42至44与各自的第二注意力权重进行乘积操作,实现对特征图42至44增加注意力。
在一些实施例中,第二注意力模块40可以有三个,分别用于计算特征图42至44的第二注意力权重。在一些实施例中,第二注意力模块40只有一个,分三次计算特征图42至44各自的第二注意力权重。
在图4中,特征图42至44分别增加注意力后,进行卷积操作(Conv)和上采样操作(Upsample),Upsample后得到的特征图与特征图41进行相加操作,得到Feature Map。其中,Upsample后得到的特征图与特征图41的尺度相同。
可见,通过对特征图42至44增加注意力,并与特征图41合并,确定Feature Map,使得通过反向传播进行注意力权重参数更新的过程中,可以通过损失函数约束注意力向人体骨骼关键点靠近,让神经网络对可能出现骨骼关键点的位置更加敏感,进而提升关键点检测的准确率。
图5为本公开实施例提供的一种第二注意力模块50的示例性框图。在一些实施例中,第二注意力模块50可以实现为图4中的第二注意力模块40或第二注意力模块40的一部分。
在图5中,第二注意力模块50的输入为特征图51和52,特征图51和52为同一深度下不同尺度的特征图,且尺度依次减小。第二注意力模块50的输出为特征图52的第二注意力权重。
在图5中,第二注意力模块50将特征图51进行卷积操作(Conv)和下采样操作(Downsample)后,与经过Conv的特征图52进行相加操作,并对相加操作后得到的特征图依次进行线性整流操作(例如ReLU)、卷积操作和激活操作(例如Sigmoid),得到特征图52的第二注意力权重。
在图5中,可将第二注意力权重与特征图52进行乘积操作,实现对特征图52增加注意力。
图6为本公开实施例提供的一种基于注意力机制的特征提取方法,该方法的执行主体为电子设备。为便于描述,以下实施例中以电子设备为执行主体说明该方法的流程。
在步骤601中,电子设备获取多个不同尺度的特征图,多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图。
在一些实施例中,第一特征图例如为图4中的特征图41,相应地,至少一个第二特征图为图4中的特征图42至44。
在一些实施例中,电子设备可获取多个深度下的多个特征图,每个深度下可能有一个特征图或多个特征图。
在一些实施例中,电子设备获取特征图的方式可以采用目前比较常见的特征提取网络提取待识别的图像的特征。在一些实施例中,电子设备可通过HRNet(High-ResoultionNet),可以得到不同深度、不同尺度的特征图。因此,本实施例中,同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图均来源于HRNet。
在步骤602中,电子设备对至少一个其他尺度的第二特征图增加注意力。
在一些实施例中,电子设备针对每个第二特征图:
将第一特征图和第二特征图分别进行卷积操作(Conv);进而将第一特征图进行Conv后得到的特征图,进行下采样(Down Sample);从而将下采样得到的特征图与第二特征图进行Conv后得到的特征图,进行相加操作;最后对相加操作得到的特征图依次进行线性整流操作(例如ReLU)、卷积操作和激活操作(Sigmoid),得到第二特征图的第二注意力权重。在得到第二注意力权重后,电子设备将第二注意力权重与第二特征图进行乘积操作,实现对第二特征图增加注意力。
在步骤603中,电子设备对增加注意力的至少一个第二特征图执行卷积(Conv)后进行上采样(Upsample),确定至少一个第三特征图,至少一个第三特征图与第一特征图的尺度相同。
在步骤604中,电子设备基于第一特征图和至少一个第三特征图,确定输出特征图。
在一些实施例中,电子设备将第一特征图和至少一个第三特征图进行相加操作,得到输出特征图。输出特征图例如为图4中的Feature Map。
可见,通过对至少一个第二特征图增加注意力,并与第一特征图合并,确定Feature Map,使得通过反向传播进行注意力权重参数更新的过程中,可以通过损失函数约束注意力向人体骨骼关键点靠近,让神经网络对可能出现骨骼关键点的位置更加敏感,进而提升关键点检测的准确率。
图7为本公开实施例提供的一种HRNet(High-Resoultion Net)的结构框图。HRNet是一种基于概率图的关键点检测网络,其主要思想为通过设计网络结构得到针对各个关键点的概率图,损失函数的优化目标为使得概率图中关键点坐标上的概率接近1,其他点的概率接近0。
图7中,横向方向表示网络的深度(depth),纵向方向表示网络的尺度(scale)。图7中,网络分成多个阶段,在每个阶段初,增添一个更小分辨率的特征图(尺度也更小),分别通过插值上采样和卷积下采样的方式得到不同尺度的特征图,并将同一个尺度的特征图相加,保证初始特征图结合了上一个阶段不同尺度特征图的特征。每个阶段过程中采用ResNet(残差神经网络)对各个尺度的特征图分别进行深度学习。在最后一个阶段之后,一共可以得到4个不同尺度的特征图,将所有小尺度的特征图进行插值上采样得到与最大尺度特征图同样大小的特征图,并将它们加起来,即可得到最终输出的特征图。
在特征图之后添加一层卷积层,将通道数目设置为关键点数量,保证输出的概率图的每个通道分别代表一个关键点的概率图。
通过关键点真值生成真值概率图,使得关键点的坐标处的概率为1,其他点的概率为0,从概率为1的点过渡到概率为0的点采用高斯分布。训练时的损失函数采用MSE(MeanSquared Error,平方平均误差)。
但是HRNet对于关键点坐标预测不够精确,且采用插值的方法进行上采样并不十分准确。
关键点检测需要得到更加精确的关键点坐标预测结果,而且需要加快训练速度,因此本实施例中,需要基于概率图的方法,设计更加精巧的神经网络提取图片特征,得到更加精确的概率图。
本实施例中,基于概率图的方法进行关键点预测和网络反向传播更新。同时,本实施例中基于HRNet进行改进,增加注意力机制模块,在不同特征图进行融合的过程中增加注意力信息,使得网络能够有选择地为特征图的不同位置设置权重的特征,以得到更适合的概率图。
注意力机制借鉴了人认知物体的机制,当观察一个物体时,首先注意到的部分要么是特征突出的部分,要么是感兴趣的部分。在关键点检测问题中,感兴趣的部分则是人体的骨骼关键点,因此,希望神经网络像人认知物体时一样将注意力放在可能出现骨骼关键点的地方,为这些需要放置注意力的地方设置更大的权重,其他诸如背景信息的地方设置比较小的权重,因此得到的概率图能够更加接近真值概率图。
本实施例中,可将两种不同的注意力模块(也即图1和图2所示的第一注意力模块,图4和图5所示的第二注意力模块),添加到HRNet的第四个阶段(也即图7中,depth为14所对应的列之后)。相应地,depth为14所对应的列中的四个不同尺度的特征图可以理解为图1中的特征图11至14,或图2中的特征图21至24,或图4中的特征图41至44。
在一些实施例中,也可将两种不同的注意力模块添加到HRNet的第三个阶段(也即图7中,depth为10所对应的列)之后,或第二个阶段(也即图7中,depth为6所对应的列)之后。相应地,图1、图2和图4中,确定输出特征图(Feature Map)后,将输出特征图替换第一特征图,相当于更新了第一特征图,然后由更新后的第一特征图去计算下一个深度的第一特征图。
在一些实施例中,同一深度下,例如depth为14所对应的列,可以更新任一个尺度的特征图,更新的方式采用图1、图2或图4所示的方式,也即,将第二行的特征图作为第一特征图,那么第三行和第四行的特征图为尺度较小的第二特征图,这样通过图1、图2或图4,就可以确定输出特征图(Feature Map)替换第二行的特征图,实现对第二行特征图的更新。
图8为本公开实施例提供的一种基于注意力机制的特征提取装置,该装置包括:获取模块81、第一注意力模块82、处理模块83和输出模块84。
获取模块81,用于获取多个不同尺度的特征图,多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图。在一些实施例中,同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图均来源于HRNet。
第一注意力模块82,用于对第一特征图增加注意力。
处理模块83,用于对未增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,至少一个第三特征图与第一特征图的尺度相同。
输出模块84,用于基于增加注意力的第一特征图和至少一个第三特征图,确定输出特征图。
在一些实施例中,第一注意力模块82,用于将第一特征图和每个第二特征图分别进行卷积操作;对每个第二特征图进行卷积操作后得到的特征图,进行上采样;将第一特征图进行卷积操作后得到的特征图与上采样得到的特征图进行相加操作;对相加操作得到的特征图依次进行线性整流操作、卷积操作和激活操作,得到第一特征图的第一注意力权重;将第一注意力权重与第一特征图进行乘积操作,实现对第一特征图增加注意力。
在一些实施例中,图8所示的特征提取装置还包括:替换模块,用于将输出特征图替换第一特征图。
图9为本公开实施例提供的一种基于注意力机制的特征提取装置,该装置包括:获取模块91、第一注意力模块92、处理模块93和输出模块94。
获取模块91,用于获取多个不同尺度的特征图,多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图。在一些实施例中,同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图均来源于HRNet。
第二注意力模块92,用于对至少一个其他尺度的第二特征图增加注意力。
处理模块93,用于对增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,至少一个第三特征图与第一特征图的尺度相同。
输出模块94,用于基于第一特征图和至少一个第三特征图,确定输出特征图。
在一些实施例中,第二注意力模块92,针对每个第二特征图:
将第一特征图和第二特征图分别进行卷积操作;
将第一特征图进行卷积操作后得到的特征图,进行下采样;
将下采样得到的特征图与第二特征图进行卷积操作后得到的特征图,进行相加操作;
对相加操作得到的特征图依次进行线性整流操作、卷积操作和激活操作,得到第二特征图的第二注意力权重;
将第二注意力权重与第二特征图进行乘积操作,实现对第二特征图增加注意力。
在一些实施例中,图9所示的特征提取装置还包括:替换模块,用于将输出特征图替换第一特征图。
图10是本公开实施例提供的一种电子设备的结构示意图。
如图10所示,车载设备包括:至少一个处理器101、至少一个存储器102和至少一个通信接口103。车载设备中的各个组件通过总线系统104耦合在一起。通信接口103,用于与外部设备之间的信息传输。可理解地,总线系统104用于实现这些组件之间的连接通信。总线系统104除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图10中将各种总线都标为总线系统104。
可以理解,本实施例中的存储器102可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器102存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用任务。实现本公开实施例提供的基于注意力机制的特征提取方法的程序可以包含在应用程序中。
在本公开实施例中,处理器101通过调用存储器102存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器101用于执行本公开实施例提供的基于注意力机制的特征提取方法各实施例的步骤。
本公开实施例提供的基于注意力机制的特征提取方法可以应用于处理器101中,或者由处理器101实现。处理器101可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的基于注意力机制的特征提取方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成方法的步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。
本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如基于注意力机制的特征提取方法各实施例的步骤,为避免重复描述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (12)
1.一种基于注意力机制的特征提取方法,其特征在于,所述方法包括:
获取多个不同尺度的特征图,所述多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;
对所述第一特征图增加注意力;
对未增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,所述至少一个第三特征图与所述第一特征图的尺度相同;
基于所述增加注意力的第一特征图和所述至少一个第三特征图,确定输出特征图。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一特征图增加注意力包括:
将所述第一特征图和每个所述第二特征图分别进行卷积操作;
对每个所述第二特征图进行卷积操作后得到的特征图,进行上采样;
将所述第一特征图进行卷积操作后得到的特征图与所述上采样得到的特征图进行相加操作;
对所述相加操作得到的特征图依次进行线性整流操作、卷积操作和激活操作,得到所述第一特征图的第一注意力权重;
将所述第一注意力权重与所述第一特征图进行乘积操作,实现对所述第一特征图增加注意力。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述输出特征图替换所述第一特征图。
4.根据权利要求1所述的方法,其特征在于,所述同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图均来源于HRNet。
5.一种基于注意力机制的特征提取方法,其特征在于,所述方法包括:
获取多个不同尺度的特征图,所述多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;
对所述至少一个其他尺度的第二特征图增加注意力;
对增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,所述至少一个第三特征图与所述第一特征图的尺度相同;
基于所述第一特征图和所述至少一个第三特征图,确定输出特征图。
6.根据权利要求5所述的方法,其特征在于,所述对所述至少一个其他尺度的第二特征图增加注意力包括:
针对每个所述第二特征图:
将所述第一特征图和所述第二特征图分别进行卷积操作;
将所述第一特征图进行卷积操作后得到的特征图,进行下采样;
将所述下采样得到的特征图与所述第二特征图进行卷积操作后得到的特征图,进行相加操作;
对所述相加操作得到的特征图依次进行线性整流操作、卷积操作和激活操作,得到所述第二特征图的第二注意力权重;
将所述第二注意力权重与所述第二特征图进行乘积操作,实现对所述第二特征图增加注意力。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述输出特征图替换所述第一特征图。
8.根据权利要求5所述的方法,其特征在于,所述同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图均来源于HRNet。
9.一种基于注意力机制的特征提取装置,其特征在于,所述装置包括:
获取模块,用于获取多个不同尺度的特征图,所述多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;
第一注意力模块,用于对所述第一特征图增加注意力;
处理模块,用于对未增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,所述至少一个第三特征图与所述第一特征图的尺度相同;
输出模块,用于基于所述增加注意力的第一特征图和所述至少一个第三特征图,确定输出特征图。
10.一种基于注意力机制的特征提取装置,其特征在于,所述装置包括:
获取模块,用于获取多个不同尺度的特征图,所述多个不同尺度的特征图包括同一深度下尺度最大的第一特征图和至少一个其他尺度的第二特征图;
第二注意力模块,用于对所述至少一个其他尺度的第二特征图增加注意力;
处理模块,用于对增加注意力的至少一个第二特征图执行卷积后进行上采样,确定至少一个第三特征图,所述至少一个第三特征图与所述第一特征图的尺度相同;
输出模块,用于基于所述第一特征图和所述至少一个第三特征图,确定输出特征图。
11.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至4、5至8任一项所述方法的步骤。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至4、5至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010897554.1A CN112016571B (zh) | 2020-08-31 | 2020-08-31 | 一种基于注意力机制的特征提取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010897554.1A CN112016571B (zh) | 2020-08-31 | 2020-08-31 | 一种基于注意力机制的特征提取方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016571A true CN112016571A (zh) | 2020-12-01 |
CN112016571B CN112016571B (zh) | 2024-07-12 |
Family
ID=73502444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010897554.1A Active CN112016571B (zh) | 2020-08-31 | 2020-08-31 | 一种基于注意力机制的特征提取方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016571B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311542A (zh) * | 2022-08-25 | 2022-11-08 | 杭州恒胜电子科技有限公司 | 一种目标检测方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284670A (zh) * | 2018-08-01 | 2019-01-29 | 清华大学 | 一种基于多尺度注意力机制的行人检测方法及装置 |
US20190130204A1 (en) * | 2017-10-31 | 2019-05-02 | The University Of Florida Research Foundation, Incorporated | Apparatus and method for detecting scene text in an image |
CN110852383A (zh) * | 2019-11-12 | 2020-02-28 | 复旦大学 | 基于注意力机制深度学习网络的目标检测方法及装置 |
CN111340744A (zh) * | 2020-02-20 | 2020-06-26 | 合肥工业大学 | 基于注意力双流深度网络的低质量图像降采样方法及其系统 |
-
2020
- 2020-08-31 CN CN202010897554.1A patent/CN112016571B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130204A1 (en) * | 2017-10-31 | 2019-05-02 | The University Of Florida Research Foundation, Incorporated | Apparatus and method for detecting scene text in an image |
CN109284670A (zh) * | 2018-08-01 | 2019-01-29 | 清华大学 | 一种基于多尺度注意力机制的行人检测方法及装置 |
CN110852383A (zh) * | 2019-11-12 | 2020-02-28 | 复旦大学 | 基于注意力机制深度学习网络的目标检测方法及装置 |
CN111340744A (zh) * | 2020-02-20 | 2020-06-26 | 合肥工业大学 | 基于注意力双流深度网络的低质量图像降采样方法及其系统 |
Non-Patent Citations (2)
Title |
---|
欧阳宁 等: "结合感知边缘约束与多尺度融合的图像超分辨率重建方法", 计算机应用, vol. 40, no. 10, 30 April 2020 (2020-04-30), pages 3041 - 3047 * |
沈庆;田畅;王家宝;焦珊珊;杜麟;: "多分辨率特征注意力融合行人再识别", 中国图象图形学报, no. 05, 16 May 2020 (2020-05-16), pages 100 - 109 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311542A (zh) * | 2022-08-25 | 2022-11-08 | 杭州恒胜电子科技有限公司 | 一种目标检测方法、装置、设备和介质 |
CN115311542B (zh) * | 2022-08-25 | 2023-06-02 | 杭州恒胜电子科技有限公司 | 一种目标检测方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112016571B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112381837B (zh) | 一种图像处理方法及电子设备 | |
CN111160375A (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN109798888B (zh) | 移动设备的姿态确定装置、方法和视觉里程计 | |
CN111008576B (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN110210480B (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
CN109977832B (zh) | 一种图像处理方法、装置及存储介质 | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN113191318A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN113936138A (zh) | 基于多源图像融合的目标检测方法、系统、设备、介质 | |
CN113902789A (zh) | 图像特征处理、深度图像生成方法及装置、介质和设备 | |
CN112016571B (zh) | 一种基于注意力机制的特征提取方法、装置及电子设备 | |
CN111914841B (zh) | 一种ct图像处理方法和装置 | |
CN117079305A (zh) | 姿态估计方法、姿态估计装置以及计算机可读存储介质 | |
CN110796003B (zh) | 车道线检测方法、装置及电子设备 | |
Cao et al. | Aggregated deep saliency prediction by self-attention network | |
CN111401335A (zh) | 一种关键点检测方法及装置、存储介质 | |
CN116630768A (zh) | 目标检测方法和装置、电子设备及存储介质 | |
CN114973410A (zh) | 视频帧的动作特征提取方法及装置 | |
CN115731451A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN113496228A (zh) | 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法 | |
CN114550282A (zh) | 多人三维姿态估计方法、装置及电子设备 | |
WO2020237674A1 (zh) | 目标跟踪方法、目标跟踪装置和无人机 | |
CN110942179A (zh) | 一种自动驾驶路线规划方法、装置及车辆 | |
JP7507172B2 (ja) | 情報処理方法、情報処理システム及び情報処理装置 | |
JP2019125128A (ja) | 情報処理装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210928 Address after: No.1 Factory building, no.299, Hongye Road, Dayun Town, Jiashan County, Jiaxing City, Zhejiang Province Applicant after: UISEE TECHNOLOGY (ZHEJIANG) Co.,Ltd. Address before: 211100 2nd floor, block B4, Jiulonghu international enterprise headquarters park, 19 Suyuan Avenue, Jiangning Development Zone, Nanjing City, Jiangsu Province (Jiangning Development Zone) Applicant before: Yushi Technology (Nanjing) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |