CN116977911A - 基于注意力机制的目标检测模型及其训练方法、目标检测方法 - Google Patents
基于注意力机制的目标检测模型及其训练方法、目标检测方法 Download PDFInfo
- Publication number
- CN116977911A CN116977911A CN202210424385.9A CN202210424385A CN116977911A CN 116977911 A CN116977911 A CN 116977911A CN 202210424385 A CN202210424385 A CN 202210424385A CN 116977911 A CN116977911 A CN 116977911A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- attention
- foreground
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 230000007246 mechanism Effects 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 106
- 238000012545 processing Methods 0.000 claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims description 71
- 238000011176 pooling Methods 0.000 claims description 44
- 238000003384 imaging method Methods 0.000 claims description 40
- 230000002708 enhancing effect Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 241000282414 Homo sapiens Species 0.000 description 31
- 230000006870 function Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 14
- 230000015654 memory Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 210000000746 body region Anatomy 0.000 description 4
- 101100441251 Arabidopsis thaliana CSP2 gene Proteins 0.000 description 3
- 102100027557 Calcipressin-1 Human genes 0.000 description 3
- 101100247605 Homo sapiens RCAN1 gene Proteins 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 101150064416 csp1 gene Proteins 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 101100222091 Arabidopsis thaliana CSP3 gene Proteins 0.000 description 1
- 230000005457 Black-body radiation Effects 0.000 description 1
- 101100038099 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ROG1 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 244000309466 calf Species 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005865 ionizing radiation Effects 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
提供了一种基于注意力机制的目标检测模型及其训练方法,所述目标检测模型包括前景特征提取网络、全图特征提取网络和背景特征提取网络,所述方法包括:获取初始图像,所述初始图像包括待检测的目标;处理所述初始图像以获取第一图像特征;将所述第一图像特征输入前景特征提取网络以获取前景特征;将所述第一图像特征输入全图特征提取网络以获取全图特征;以及将所述第一图像特征输入背景特征提取网络以获取背景特征,其中,所述将所述第一图像特征输入全图特征提取网络以获取全图特征包括:将所述第一图像特征输入全图特征提取网络;以及基于注意力机制处理输入的所述第一图像特征,以获取全图特征。
Description
技术领域
本公开涉及图像处理技术领域,具体涉及一种基于注意力机制的目标检测模型的训练方法和装置、目标检测方法、电子设备、计算机可读存储介质和程序产品。
背景技术
被动式太赫兹人体安检技术可以透过衣物、鞋子等普通的材料,发现藏匿于体表的嫌疑物。且太赫兹成像装置本身不发射电磁波,通过接收人体产生的太赫兹波成像,完全没有电离辐射,安全性较高,特别适用于人体安检。因此,在近年受到业界的广泛关注。利用各类算法对太赫兹图像进行嫌疑物检测,可以进一步节省人力资源,提高处理效率,提升检测速度。
利用传统方法进行太赫兹图像嫌疑物检测,主要是基于光学图像处理技术,根据手工构建的特征对图像进行滑动遍历,寻找匹配的样本。这种方式处理速度较慢、复杂度高且鲁棒性较差,未得到广泛应用。随着深度学习技术在图像检测领域的发展,研究人员也将其应用在了太赫兹嫌疑物检测中。但大部分研究只是将通用检测范式应用在太赫兹图像上,并未对太赫兹图像特点、太赫兹开放无感应用场景进行分析,缺乏对嫌疑背景干扰等情况的考量,使得其在实际的应用中性能受限。
在本部分中公开的以上信息仅用于对本公开的发明构思的背景的理解,因此,以上信息可包含不构成现有技术的信息。
发明内容
鉴于上述技术问题中的至少一个方面,提出了一种基于注意力机制的目标检测模型及其训练方法和装置、目标检测方法、电子设备、计算机可读存储介质和程序产品。
在一个方面,提供一种基于注意力机制的目标检测模型的训练方法,所述目标检测模型包括前景特征提取网络、全图特征提取网络和背景特征提取网络,所述方法包括:
获取初始图像,所述初始图像包括待检测的目标;
处理所述初始图像以获取第一图像特征;
将所述第一图像特征输入前景特征提取网络以获取前景特征;
将所述第一图像特征输入全图特征提取网络以获取全图特征;以及
将所述第一图像特征输入背景特征提取网络以获取背景特征,
其中,所述将所述第一图像特征输入全图特征提取网络以获取全图特征包括:
将所述第一图像特征输入全图特征提取网络;以及
基于注意力机制处理输入的所述第一图像特征,以获取全图特征。
根据一些示例性的实施例,所述全图特征提取网络包括通道注意力子模型和空间注意力子模型,所述基于注意力机制处理输入的所述第一图像特征包括:使用通道注意力子模型和空间注意力子模型处理输入的所述第一图像特征。
根据一些示例性的实施例,所述使用通道注意力子模型和空间注意力子模型处理输入的所述第一图像特征包括:将所述第一图像特征输入通道注意力子模型;所述通道注意力子模型处理所述第一图像特征,以获取通道注意力矩阵;将所述第一图像特征与所述通道注意力矩阵相乘,以获取通道注意力增强特征;将所述通道注意力增强特征输入空间注意力子模型;所述空间注意力子模型处理所述通道注意力增强特征,以获取空间注意力矩阵;以及将所述通道注意力增强特征与所述空间注意力矩阵相乘,以获取空间注意力增强特征。
根据一些示例性的实施例,所述前景特征提取网络包括前景注意力子模型,所述将所述第一图像特征输入前景特征提取网络以获取前景特征包括:将前景掩模图像输入前景注意力子模型,以获取前景注意力矩阵;以及将所述第一图像特征与所述前景注意力矩阵相乘,得到前景增强特征。
根据一些示例性的实施例,所述将所述第一图像特征输入背景特征提取网络以获取背景特征包括:将所述第一图像特征与背景注意力矩阵相乘,得到背景增强特征。
根据一些示例性的实施例,所述方法还包括:基于所述空间注意力矩阵和所述前景注意力矩阵确定背景注意力矩阵。
根据一些示例性的实施例,所述方法还包括:
基于所述全图特征、所述前景特征和所述背景特征构建损失函数;以及利用所述损失函数,对所述目标检测模型的参数进行更新。
根据一些示例性的实施例,根据下面的公式,基于所述全图特征、所述前景特征和所述背景特征构建损失函数:
其中,Ltriplet为损失函数,Ffull为全图特征,Ffgd为前景特征,Fbgd为背景特征,λ为边界超参数。
根据一些示例性的实施例,所述通道注意力子模型包括第一池化层、第一卷积层和第二卷积层,所述通道注意力子模型处理所述第一图像特征,以获取通道注意力矩阵,具体包括:利用第一池化层,对所述第一图像特征进行全局平均池化;将经全局平均池化的第一图像特征输入第一卷积层,以获取第一卷积特征;将所述第一卷积特征输入第二卷积层,以获取第二卷积特征;以及利用第一激活函数处理所述第二卷积特征,以获取所述通道注意力矩阵。
根据一些示例性的实施例,所述空间注意力子模型包括第三卷积层、第二池化层、第三池化层和第四卷积层,所述空间注意力子模型处理所述通道注意力增强特征,以获取空间注意力矩阵,具体包括:将所述通道注意力增强特征输入所述第三卷积层,以获取第三卷积特征;利用第二池化层,对所述第三卷积特征进行全局平均池化,以获取第一池化特征;利用第三池化层,对所述第三卷积特征进行全局最大池化,以获取第二池化特征;拼接所述第一池化特征和所述第二池化特征,以获取拼接特征;将所述拼接特征输入所述第四卷积层,以获取第四卷积特征;以及利用第二激活函数处理所述第四卷积特征,以获取所述空间注意力矩阵。
根据一些示例性的实施例,所述第一卷积层和所述第二卷积层均为1*1的卷积层。
根据一些示例性的实施例,所述第一卷积层的输入通道数为Cin,输出通道数为Cin/c,其中c为第一通道压缩比;以及所述第二卷积层的输入通道数为Cin/c,输出通道数为Cin。
根据一些示例性的实施例,所述第三卷积层为3*3的卷积层,所述第四卷积层为7*7的卷积层。
根据一些示例性的实施例,所述第三卷积层的输入通道数为Cin,输出通道数为Cin/s,其中s为第二通道压缩比;以及所述第四卷积层的输入通道数为2,输出通道数为1。
根据一些示例性的实施例,所述前景注意力子模型包括2*2的第四池化层,所述将前景掩模图像输入前景注意力子模型,以获取前景注意力矩阵,具体包括:利用所述第四池化层,对所述前景掩模图像进行最大池化,以获取前景注意力矩阵。
根据一些示例性的实施例,所述前景掩模图像为包括前景轮廓的二值化图像。
根据一些示例性的实施例,根据下面的公式,基于所述空间注意力矩阵和所述前景注意力矩阵确定背景注意力矩阵:
S-=1-((1-α)S++αSfgd)
其中,S-为背景注意力矩阵,S+为空间注意力矩阵,Sfgd为前景注意力矩阵,α为超参数,α∈(0,1)。
根据一些示例性的实施例,所述处理所述初始图像以获取第一图像特征包括:将所述初始图像输入第一跨阶段局部网络;所述第一跨阶段局部网络对所述初始图像进行特征编码,以获取第一图像特征。
根据一些示例性的实施例,所述将所述第一图像特征输入前景特征提取网络以获取前景特征还包括:将所述前景增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述前景增强特征进行特征编码,以获取前景特征;和/或,所述将所述第一图像特征输入全图特征提取网络以获取全图特征还包括:将所述空间注意力增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述空间注意力增强特征进行特征编码,以获取全图特征;和/或,所述将所述第一图像特征输入背景特征提取网络以获取背景特征还包括:将所述背景增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述背景增强特征进行特征编码,以获取背景特征。
根据一些示例性的实施例,所述初始图像为通过太赫兹成像装置扫描成像区域获取的图像,和/或通过毫米波成像装置扫描成像区域获取的图像。
在另一方面,提供一种目标检测方法,其特征在于,包括:
获取初始图像;
将所述初始图像输入目标检测模型,其中,所述目标检测模型是通过如上所述的方法训练得到的;以及
根据所述目标检测模型的输出,确定所述初始图像中的待检测目标。
在又一方面,提供一种基于注意力机制的目标检测模型的训练装置,所述目标检测模型包括前景特征提取网络、全图特征提取网络和背景特征提取网络,所述装置包括:
图像获取模块,用于获取初始图像,所述初始图像包括待检测的目标;
第一图像特征获取模块,用于处理所述初始图像以获取第一图像特征;
前景特征获取模块,用于将所述第一图像特征输入前景特征提取网络以获取前景特征;
全图特征获取模块,用于将所述第一图像特征输入全图特征提取网络以获取全图特征;以及
背景特征获取模块,用于将所述第一图像特征输入背景特征提取网络以获取背景特征,
其中,所述全图特征获取模块具体用于:将所述第一图像特征输入全图特征提取网络;以及基于注意力机制处理输入的所述第一图像特征,以获取全图特征。
在又另一方面,提供一种基于注意力机制的目标检测模型,包括:
第一图像特征处理模型,用于处理初始图像以获取第一图像特征;
前景特征提取网络,用于处理第一图像特征以提取前景特征;
全图特征提取网络,用于基于注意力机制处理第一图像特征以提取全图特征;以及
背景特征提取网络,用于处理第一图像特征以提取背景特征。
根据一些示例性的实施例,所述全图特征提取网络包括通道注意力子模型和空间注意力子模型;和/或,所述前景特征提取网络包括前景注意力子模型。
在再一方面,提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的方法。
根据一些示例性的实施例,所述电子设备为太赫兹成像装置和毫米波成像装置中的至少一个。
在再另一方面,提供一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
在仍另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
在本公开的实施例中,利用注意力机制,在增强人体区域特征表示的同时抑制背景特征表示,可以使目标检测模型更专注于人体区域中。
附图说明
为了更好地理解本公开的实施例,将根据以下附图对本公开的实施例进行详细描述:
图1是根据本公开的示例性实施例的被动式太赫兹成像装置的结构示意图。
图2示意性示出了太赫兹成像装置获取的初始图像。
图3是根据本公开的示例性实施例的基于注意力机制的目标检测模型的训练方法的示意流程图。
图4是根据本公开的示例性实施例的基于注意力机制的目标检测模型的训练方法的详细流程图,其中更详细示出了注意力机制的使用过程。
图5是根据本公开的示例性实施例的基于注意力机制的目标检测模型中的通道注意力子模型的结构示意图。
图6是根据本公开的示例性实施例的基于注意力机制的目标检测模型中的空间注意力子模型的结构示意图。
图7是根据本公开的示例性实施例的基于注意力机制的目标检测模型中的前景注意力子模型的结构示意图。
图8A至图8D分别示意性示出了单通道卷积和多通道卷积的不同示例。
图9是根据本公开的示例性实施例的基于注意力机制的目标检测模型的训练装置的结构框图。
图10示意性示出了根据本公开的示例性实施例的适于实现基于注意力机制的目标检测模型的训练方法或目标检测方法的电子设备的结构框图。
具体实施方式
下面将详细描述本公开的具体实施例,应当注意,这里描述的实施例只用于举例说明,并不用于限制本公开。在以下描述中,为了提供对本公开的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本公开。在其他实例中,为了避免混淆本公开,未具体描述公知的结构、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本公开至少一个实施例中。因此,在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和/或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
发明人经研究发现,与常规的光学图像目标检测不同,无感通关应用场景下,被动式太赫兹图像存在外部干扰,并且由于太赫兹图像中嫌疑物的特征有限,这些外部干扰和人体间隙干扰、小腿间隙干扰、叉腰间隙干扰等将产生与嫌疑物类似的图像特征,从而产生误报。
为此,本公开的实施例提供了一种基于注意力机制的目标检测模型的训练方法,所述目标检测模型包括前景特征提取网络、全图特征提取网络和背景特征提取网络,所述方法包括:获取初始图像,所述初始图像包括待检测的目标;处理所述初始图像以获取第一图像特征;将所述第一图像特征输入前景特征提取网络以获取前景特征;将所述第一图像特征输入全图特征提取网络以获取全图特征;以及将所述第一图像特征输入背景特征提取网络以获取背景特征,其中,所述将所述第一图像特征输入全图特征提取网络以获取全图特征包括:将所述第一图像特征输入全图特征提取网络;以及基于注意力机制处理输入的所述第一图像特征,以获取全图特征。在本公开的实施例中,利用注意力机制,在增强人体区域特征表示的同时抑制背景特征表示,可以使目标检测模型更专注于人体区域中。相比于常规的通用目标检测算法,本公开的实施例提出的方法可以缓解太赫兹图像由于背景噪音大、成像不稳定和嫌疑物区分度低等缺点造成的背景误报问题。
图1是根据本公开的示例性实施例的被动式太赫兹成像装置的结构示意图。
如图1所示,根据本公开的示例性实施例的被动式太赫兹成像装置可以包括反射板2及其伺服系统、透镜3、探测器阵列4、数据采集及处理装置6、显示装置7和配电箱5。被检对象自发辐射的太赫兹波以及反射背景环境的太赫兹波经由壳体上的窗口1入射到反射板2上,并被反射板2反射至透镜3上,经过透镜3的汇聚作用后由探测器阵列4接收,该探测器阵列4将所接收的太赫兹波转换成电信号。数据采集及处理装置6与探测器阵列4连接以接收来自探测器阵列4的电信号并生成毫米波/太赫兹波图像。显示装置7与数据采集及处理装置6相连接,用于接收和显示来自数据采集及处理装置6所生成的太赫兹波图像。配电箱5被配置为给整个被动式太赫兹成像装置提供电力。
在实际工作过程中,反射板2的伺服系统控制反射板2进行往复运动,运动的周期T的倒数为成像帧率s。当反射板2从最大仰角摆动到最低俯角,摆动的角度为θ,以完成对景深范围内,高度方向为2θ的视场角度进行扫描,反射板2从最大仰角到最小仰角形成一幅图形。数据采集及处理装置6在这个过程中一直采集数据。反射板2的控制系统例如可以装有位置编码器,以高精度地反馈反射板的扫描位置。数据采集及处理装置6在采集数据时,首先根据位置编码器的信息对采集的数据进行标记,用于区分下一幅图形的数据,然后数据采集及处理装置6对所采集的数据进行处理和图像重建以生成太赫兹图像,然后数据采集及处理装置6可以将图像数据传输到显示装置7,以在显示装置7上进行显示、可疑物标注和自动报警。
针对上述被动式太赫兹成像装置,发明人经研究发现,对其获取的太赫兹图像中存在外部干扰,并且太赫兹图像中嫌疑物的特征有限,这些外部干扰和人体间隙干扰、小腿间隙干扰、叉腰间隙干扰等将产生与嫌疑物类似的图像特征。
需要说明的是,在本文中,以“太赫兹成像装置”为例对各个实施例进行了描述,但是,本公开的实施例不局限于太赫兹成像,在不冲突的情况下,还可以应用于毫米波成像等其他成像方式。
也就是说,在本公开的实施例中,除非另有特别说明,待进行目标检测的初始图像至少包括:通过太赫兹成像装置扫描成像区域获取的图像(即太赫兹图像),和/或通过毫米波成像装置扫描成像区域获取的图像(即毫米波图像)。
具体地,被动式太赫兹成像技术基于黑体辐射理论,利用太赫兹天线对人体辐射能量进行感知,从而形成具有能量强度信息的二维灰度太赫兹图像。当携带嫌疑物(即待检测目标)时,由于对人体辐射能量的遮挡,嫌疑物区域会与人体形成灰度差,从而能够在图像中显示出嫌疑物信息。太赫兹图像具备较好的轮廓信息和灰度信息,但相对于可见光图像而言,其图像分辨率较低,且易受到遮挡、运动、成像角度和外部环境的影响。例如,在开放场景下,被动式太赫兹图像存在外部干扰,并且由于太赫兹图像中嫌疑物的特征有限,这些外部干扰和人体间隙干扰、小腿间隙干扰、叉腰间隙干扰等将产生与嫌疑物类似的图像特征,从而造成背景干扰。图2示意性示出了太赫兹成像装置获取的初始图像。如图2所示,虚线框ROI表示嫌疑物,即待检测目标;虚线框ROG1为叉腰间隙干扰,ROG2为外部干扰,这些背景干扰会影响目标检测的准确度。
在本公开的实施例中,考虑到太赫兹或毫米波安检场景中,关注的嫌疑物一定出现在人体中而不会出现在背景中,在目标检测模型中添加空间强先验信息,提出了一种基于注意力机制的目标检测模型。该目标检测模型利用注意力机制,在增强人体区域特征表示的同时抑制背景特征表示,可以使目标检测模型更专注于人体区域中。相比于常规的通用目标检测算法,可以缓解太赫兹或毫米波图像由于背景噪音大、成像不稳定和嫌疑物区分度低等缺点造成的背景误报问题。
应该理解,注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。
深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。注意力机制可以利用人类视觉机制进行直观解释,例如,人类的视觉系统倾向于关注图像中辅助判断的相关信息,并忽略掉不相关的信息。
例如,和注意力机制相伴而生的一个典型任务是显著目标检测。例如,在基于注意力机制的模型中,输入可以是一个图像,输出可以是一张概率图,概率越大的区域或像素,代表是图像中重要目标的概率越大,即人眼关注的重点。
图3是根据本公开的示例性实施例的基于注意力机制的目标检测模型的训练方法的示意流程图。图4是根据本公开的示例性实施例的基于注意力机制的目标检测模型的训练方法的详细流程图,其中更详细示出了注意力机制的使用过程。图5是根据本公开的示例性实施例的基于注意力机制的目标检测模型中的通道注意力子模型的结构示意图。图6是根据本公开的示例性实施例的基于注意力机制的目标检测模型中的空间注意力子模型的结构示意图。图7是根据本公开的示例性实施例的基于注意力机制的目标检测模型中的前景注意力子模型的结构示意图。
结合参照图3至图7,根据本公开的示例性实施例的基于注意力机制的目标检测模型的训练方法可以包括操作S310~操作S350,该训练方法可以由处理器执行,也可以由包括处理器的任何电子设备执行。
在操作S310中,获取初始图像,所述初始图像包括待检测的目标。
例如,初始图像至少包括:通过太赫兹成像装置扫描成像区域获取的图像(即太赫兹图像),和/或通过毫米波成像装置扫描成像区域获取的图像(即毫米波图像)。图2示例性示出了一幅初始图像。
应该理解,在本公开的实施例中,所述训练方法还可以包括获取标注图像的步骤,例如,在标注图像中,已经标注出了检测目标。例如,通过人工标注的方式采用标注框标注出嫌疑物。
在操作S320中,处理所述初始图像以获取第一图像特征。
在该操作S320中,所述处理所述初始图像以获取第一图像特征可以包括:将所述初始图像输入第一跨阶段局部网络;所述第一跨阶段局部网络对所述初始图像进行特征编码,以获取第一图像特征。
跨阶段局部网络(Cross Stage Partial Network,简称为CSPNet或CSP),主要从一个比较特殊的角度切入,能够在降低20%计算量的情况下保持甚至提高卷积神经网络(CNN)的能力。随着卷积神经网络结构变得更深更宽,CNN显示出了它特别强大的功能。但是,扩展神经网络的体系结构通常会带来更多的计算,这使大多数人无法负担诸如目标检测之类的计算量繁重的任务。CSPNet提出主要是为了解决三个问题:增强CNN的学习能力,能够在轻量化的同时保持准确性;降低计算瓶颈;和降低内存成本。关于“跨阶段局部网络”,可以参照已有的CSP网络结构,在此不再赘述。
例如,参照图4,将如图2所示的初始图像输入CSP1中,CSP1对所述初始图像进行特征编码,以获取第一图像特征F1。在本公开的实施例中,这一阶段可以称为第一特征提取阶段。
在操作S330中,将所述第一图像特征输入前景特征提取网络以获取前景特征。
具体地,所述前景特征提取网络包括前景注意力子模型。所述将所述第一图像特征输入前景特征提取网络以获取前景特征具体可以包括:将前景掩模图像输入前景注意力子模型,以获取前景注意力矩阵;以及将所述第一图像特征与所述前景注意力矩阵相乘,得到前景增强特征。
例如,所述将所述第一图像特征输入前景特征提取网络以获取前景特征还可以包括:将所述前景增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述前景增强特征进行特征编码,以获取前景特征。
在操作S340中,将所述第一图像特征输入全图特征提取网络以获取全图特征。
具体地,所述全图特征提取网络可以包括通道注意力子模型和空间注意力子模型。所述基于注意力机制处理输入的所述第一图像特征包括:使用通道注意力子模型和空间注意力子模型处理输入的所述第一图像特征。
所述使用通道注意力子模型和空间注意力子模型处理输入的所述第一图像特征可以具体包括:将所述第一图像特征输入通道注意力子模型;所述通道注意力子模型处理所述第一图像特征,以获取通道注意力矩阵;将所述第一图像特征与所述通道注意力矩阵相乘,以获取通道注意力增强特征;将所述通道注意力增强特征输入空间注意力子模型;所述空间注意力子模型处理所述通道注意力增强特征,以获取空间注意力矩阵;以及将所述通道注意力增强特征与所述空间注意力矩阵相乘,以获取空间注意力增强特征。
例如,所述将所述第一图像特征输入全图特征提取网络以获取全图特征还包括:将所述空间注意力增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述空间注意力增强特征进行特征编码,以获取全图特征。
在操作S350中,将所述第一图像特征输入背景特征提取网络以获取背景特征。
具体地,所述将所述第一图像特征输入背景特征提取网络以获取背景特征可以包括:将所述第一图像特征与背景注意力矩阵相乘,得到背景增强特征。
例如,所述方法还可以包括:基于所述空间注意力矩阵和所述前景注意力矩阵确定背景注意力矩阵。
例如,所述将所述第一图像特征输入背景特征提取网络以获取背景特征还包括:将所述背景增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述背景增强特征进行特征编码,以获取背景特征。
下面,将参照图4,对上述操作S330~S350做更详细的描述。
在本公开的实施例中,第一图像特征F1被分发到三个工作流分别进行第二特征提取阶段。例如,所述三个工作流分别对应三个特征提取网络,包括前景特征提取工作流、全图特征提取工作流和背景特征提取工作流。
在前景特征提取工作流,如图4最上层路径所示。首先,利用输入的前景掩模图像(即前景Mask),通过前景注意力模型得到前景注意力矩阵Sfgd。随后,将第一图像特征F1与前景注意力矩阵Sfgd相乘以进行空间注意力增强,得到前景增强特征Fb。同时,将前景注意力矩阵Sfgd送入背景特征提取工作流用于计算背景注意力矩阵S-。最后,将前景增强特征Fb送入第二阶段编码器CSP2得到最终的前景特征向量Ffgd。
例如,图4中的Mask示意性示出了本工作流中使用的前景掩模图像,所述前景掩模图像可以为包括前景轮廓的二值化图像。即,在本公开的实施例中,Mask图像可以认为是对初始图像进行二值掩盖,只保留人体边缘或人体轮廓信息。通过使用该Mask图像,可以有助于在像素级去除背景信息,其次Mask图像包含了人体的边缘形状或人体轮廓信息,有助于在本工作流的后续步骤中准确识别出人体的边缘或轮廓。例如,图4中的前景图片示意性示出了通过本工作流获取到的图像前景信息。可以看出,通过本工作流,可以准确地识别出初始图像的前景信息。
在全图特征提取工作流,如图4的中间路径所示。首先,进行通道注意力增强:第一图像特征F1经过通道注意力子模型,得到通道注意力矩阵CFull,并将第一图像特征F1与通道注意力矩阵CFull相乘,得到被通道注意力增强后的特征,即通道注意力增强特征Ffc。接着,进行空间注意力增强:通道注意力增强特征Ffc输入空间注意力子模型中,利用空间注意力子模块处理后得到空间注意力矩阵S+,并将空间注意力矩阵S+与通道注意力增强特征Ffc相乘,得到空间注意力增强特征Ff。最后,空间注意力增强特征Ff经过第二阶段编码器CSP2处理,得到最终的全图特征向量FFull。
在背景特征提取工作流,如图4的最下层路径所示。首先,背景注意力矩阵S-通过联合计算前景注意力矩阵Sfgd和空间注意力矩阵S+得到,如公式(1)所示:
S-=1-((1-α)S++αSfgd) (1)
其中,S-为背景注意力矩阵,S+为空间注意力矩阵,Sfgd为前景注意力矩阵,α为超参数,α∈(0,1);随后,将第一图像特征F1与背景注意力矩阵S-相乘进行背景注意力增强,得到背景增强特征Fbk。最后,将背景增强特征Fbk送入第二阶段编码器CSP2得到最终的背景特征向量Fbgd。例如,图4中的背景图片示意性示出了通过本工作流获取的是图像背景信息。
根据本公开的实施例,所述基于注意力机制的目标检测模型的训练方法还可以包括操作S360。在操作S360中,利用损失函数,对所述目标检测模型的参数进行更新。例如,所述损失函数可以是基于所述全图特征、所述前景特征和所述背景特征构建的。也就是说,所述训练方法还可以包括基于所述全图特征、所述前景特征和所述背景特征构建损失函数;以及利用所述损失函数,对所述目标检测模型的参数进行更新。
在本公开的实施例中,在经过三个工作流后,可以得到全图特征Ffull、前景特征Ffgd和背景特征Fbgd。可以使用损失函数Ltriplet对三种特征进行度量学习。例如,可以根据下面的公式(2),基于所述全图特征、所述前景特征和所述背景特征构建损失函数:
其中,Ltriplet为损失函数,Ffull为全图特征,Ffgd为前景特征,Fbgd为背景特征;其中,λ为边界超参数,用于调整正、负样本例的可区分性。
需要说明的是,在上述公式(2)中,“||||2”表示L2范数,可以用于表示向量作差之后各分量的平方和的开根号。
在本公开的实施例中,所述损失函数可以在拉近有效全图特征和前景特征的同时,拉远无效背景特征,从而达到加强人体轮廓内注意力和抑制背景干扰的效果。
下面,将进一步参照图5~图7,对本公开实施例中的通道注意力子模型、空间注意力子模型和前景注意力子模型进行更详细的描述。
首先,以卷积神经网络(CNN)为例,对卷积核和通道进行解释。
结合参照图8A,以单通道卷积为例,输入(如图8A中的Input所示)为(1,5,5),表示输入的图像具有1个通道,图像的宽为5个像素,高为5个像素。卷积核(如图8A中的Kernel所示)的大小为3*3。卷积核不断地在输入图像上进行遍历,最后得到3x3的卷积结果(如图8A中的Output所示)。
结合参照图8B,以输入为彩色图像为例,包含三个通道,分别表示RGB三原色的像素值,输入为(3,5,5),分别表示3个通道,每个通道的宽为5个像素,高为5个像素。假设卷积核只有1个,卷积核通道数为3,每个通道的卷积核大小仍为3*3。卷积过程如下:每一个通道的像素值与对应的卷积核通道的数值进行卷积,因此每一个通道会对应一个输出卷积结果,三个卷积结果对应位置累加求和,得到最终的卷积结果(如图8B中的Convolution所示)。在这种情况下,可以这么理解:最终得到的卷积结果是输入图像各个通道上的综合信息结果。在上述过程中,每一个卷积核的通道数量,要求与输入通道数量一致。
针对图8B,输出的卷积结果只有1个通道,整个卷积的整个过程可以抽象表示为图8C。如图8C所示,由于只有一个卷积核,因此卷积后只输出单通道的卷积结果,即输出为1*3*3,其中,1表示输出通道数,第一个3表示宽,第二个3表示高。
结合参照图8D,可以增加卷积核的数量,例如,图8D中示出了m个卷积核filter1、filter2、……filterm,使得卷积后输出多通道。例如,在图8D所示的示例中,输入大小为n*w*h,其中n为输入通道数,w为输入的宽,h为输入的高。可以使用m个卷积核分别对输入进行卷积,每个卷积核对应的输出结果分别为feature map1、feature map2、……feature mapm。
也就是说,通道数量可以表示输入的图像所包含的各个通道的数量,也可以表示每个卷积层中包含的卷积核的数量。
在注意力机制中,空间注意力旨在提升关键区域的特征表达,本质上是将输入图片中的空间信息通过空间转换模块,变换到另一个空间中并保留关键信息,为每个位置生成权重并加权输出,从而增强感兴趣的特定目标区域,同时弱化不相关的背景区域。通道注意力旨在建立起不同通道之间的相关性,通过网络学习的方式来自动获取到每个特征通道的重要程度,再为每个通道赋予不同的权重系数,从而强化重要的特征通道,同时弱化抑制非重要的特征通道。
结合参照图5,在本公开的实施例中,所述通道注意力子模型可以包括第一池化层51、第一卷积层52和第二卷积层53。
相应地,所述通道注意力子模型处理所述第一图像特征,以获取通道注意力矩阵,具体包括:利用第一池化层51,对所述第一图像特征进行全局平均池化;将经全局平均池化的第一图像特征输入第一卷积层52,以获取第一卷积特征;将所述第一卷积特征输入第二卷积层53,以获取第二卷积特征;以及利用第一激活函数处理所述第二卷积特征,以获取所述通道注意力矩阵。
例如,所述第一卷积层和所述第二卷积层均为1*1的卷积层。在本公开的实施例中,通过使用1*1的卷积层,可以对第一图像特征进行降维处理,还可以进行跨通道信息的交互。
例如,所述第一卷积层的输入通道数为Cin,输出通道数为Cin/c,其中c为第一通道压缩比;以及所述第二卷积层的输入通道数为Cin/c,输出通道数为Cin。
例如,所述第一激活函数可以为Sigmoid函数。
在本公开实施例提供的通道注意力子模型中,输入特征首先通过全局平均池化实现关键特征提取,然后通过两个1*1大小的卷积层,第一个卷积层的输入通道数为Cin,输出为Cin/c,第二个卷积层的输入通道数为Cin/c,输出为Cin。最后,通过Sigmoid函数将特征映射到(0,1)区间,得到通道注意力矩阵CFull,并将通道注意力矩阵CFull与输入特征相乘,得到通道注意力强化后的输出特征,即通道注意力增强特征Ffc。以此方式,可以强化模型对不同类型特征的定位能力。
结合参照图6,所述空间注意力子模型包括第三卷积层61、第二池化层62、第三池化层63和第四卷积层64。
相应地,所述空间注意力子模型处理所述通道注意力增强特征,以获取空间注意力矩阵,具体包括:将所述通道注意力增强特征输入所述第三卷积层61,以获取第三卷积特征;利用第二池化层62,对所述第三卷积特征进行全局平均池化,以获取第一池化特征;利用第三池化层63,对所述第三卷积特征进行全局最大池化,以获取第二池化特征;拼接(如图6中的Concat所示)所述第一池化特征和所述第二池化特征,以获取拼接特征;将所述拼接特征输入所述第四卷积层64,以获取第四卷积特征;以及利用第二激活函数处理所述第四卷积特征,以获取所述空间注意力矩阵。
例如,所述第三卷积层为3*3的卷积层,所述第四卷积层为7*7的卷积层。
例如,所述第三卷积层的输入通道数为Cin,输出通道数为Cin/s,其中s为第二通道压缩比;以及所述第四卷积层的输入通道数为2,输出通道数为1。
例如,所述第二激活函数可以为Sigmoid函数。
在本公开实施例提供的空间注意力子模型中,输入特征首先经过一个3*3的卷积层,其输入通道数为Cin,输出为Cin/s。随后,对得到的特征分别进行全局平均池化和全局最大池化,并将输出特征进行拼接。接下来,将拼接特征送入一个7*7的卷积层,其输入通道数为2,输出通道数为1。最后,通过Sigmoid函数将特征映射到(0,1)区间,得到空间注意力矩阵S+,并将空间注意力矩阵S+与输入特征相乘,得到空间注意力强化后的输出特征,即空间注意力增强特征Ff。以此方式,可以强化模型对不同位置特征的定位能力。
结合参照图7,所述前景注意力子模型可以包括2*2的第四池化层71。
相应地,所述将前景掩模图像输入前景注意力子模型,以获取前景注意力矩阵,具体包括:利用所述第四池化层71,对所述前景掩模图像(如图7中的Mask所示)进行最大池化,以获取前景注意力矩阵。
在本公开的实施例中,所述初始图像经过CSP1编码后,特征图像的尺寸缩小一倍,因此,需要对前景掩模图像进行尺度对齐处理,然后进行前景增强操作。在本公开实施例提供的前景注意力子模型中,前景掩模图像经过一个2*2的最大池化层处理,获得前景注意力矩阵Sfgd,然后将前景注意力矩阵Sfgd与输入特征相乘,得到前景注意力强化后的输出特征,即前景增强特征Fb。应该理解,在本公开的实施例中,所述前景注意力子模型是一种空间注意力模型。
在本公开的实施例提出的目标检测模型的训练方法中,可以对图像中的背景误报进行抑制,这样,在处理太赫兹图像和毫米波图像时,可以有效降低外部干扰和人体间隙干扰、小腿间隙干扰、叉腰间隙干扰等产生的背景误报情况。
需要说明的是,在本公开的实施例中,所述目标检测模型可以适用于不同的模型结构,包括但不限于,一阶/二阶目标检测方法或是anchor free、transformer等检测方法。也就是说,根据本公开实施例的训练方法可以对不同的模型结构进行优化。
在本公开的实施例中,上述训练方法对实际应用效果的改进主要集中在训练阶段,对模型应用测试过程中的资源占用、检测速度影响较小。
在本公开的实施例中,可以将太赫兹图像或毫米波图像作为输入的初始图像,首先进行第一阶段特征提取,随后被分发到三个工作流,分别为:全图特征提取工作流、前景特征提取工作流和背景特征提取工作流。全图特征提取工作流是模型的主要工作流,用于模型的训练和测试阶段,其经过通道注意力模型和空间注意力模型,用以强化模型的识别能力。前景特征提取工作流经过前景注意力模块,用以加强体内嫌疑物特征的表征。背景特征提取工作流经过空间注意力模块,用以降低背景特征的影响。前景特征提取工作流和背景特征提取工作流是模型的辅助工作流,仅用于模型的训练阶段,负责辅助全图特征流优化训练,增强其目标信息的提取能力。
返回参照图4,在测试时,可以仅将全图特征Ffull送入第三阶段特征提取CSP3中,以备后续模型使用。
本公开的实施例还提供了一种目标检测方法,所述目标检测方法可以包括以下步骤:获取初始图像;将所述初始图像输入目标检测模型,其中,所述目标检测模型是通过如上所述的方法训练得到的;以及根据所述目标检测模型的输出,确定所述初始图像中的待检测目标。
基于上述目标检测模型的训练方法,本公开的实施例还提供了一种目标检测模型的训练装置。以下将结合图9对该装置进行详细描述。
图9是根据本公开的示例性实施例的基于注意力机制的目标检测模型的训练装置的结构框图。
如图9所示,所述目标检测模型的训练装置900包括图像获取模块910、第一图像特征获取模块920、前景特征获取模块930、全图特征获取模块940和背景特征获取模块950。
图像获取模块910用于获取初始图像,所述初始图像包括待检测的目标。在一些示例性的实施例中,图像获取模块910可以用于执行前文描述的操作S310,在此不再赘述。
第一图像特征获取模块920用于处理所述初始图像以获取第一图像特征。在一些示例性的实施例中,第一图像特征获取模块920可以用于执行前文描述的操作S320,在此不再赘述。
前景特征获取模块930用于将所述第一图像特征输入前景特征提取网络以获取前景特征。在一些示例性的实施例中,前景特征获取模块930可以用于执行前文描述的操作S330,在此不再赘述。
全图特征获取模块940用于将所述第一图像特征输入全图特征提取网络以获取全图特征。在一些示例性的实施例中,全图特征获取模块940可以用于执行前文描述的操作S340,在此不再赘述。
背景特征获取模块950用于将所述第一图像特征输入背景特征提取网络以获取背景特征。在一些示例性的实施例中,背景特征获取模块950可以用于执行前文描述的操作S350,在此不再赘述。
根据本公开的实施例,所述图像获取模块910、第一图像特征获取模块920、前景特征获取模块930、全图特征获取模块940和背景特征获取模块950中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,所述图像获取模块910、第一图像特征获取模块920、前景特征获取模块930、全图特征获取模块940和背景特征获取模块950中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,所述图像获取模块910、第一图像特征获取模块920、前景特征获取模块930、全图特征获取模块940和背景特征获取模块950中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
返回参照图4,在本公开的实施例中,提出一种基于注意力机制的目标检测模型,包括:第一图像特征处理模型,用于处理初始图像以获取第一图像特征;前景特征提取网络,用于处理第一图像特征以提取前景特征;全图特征提取网络,用于基于注意力机制处理第一图像特征以提取全图特征;以及背景特征提取网络,用于处理第一图像特征以提取背景特征。
例如,所述全图特征提取网络包括通道注意力子模型和空间注意力子模型。
例如,所述前景特征提取网络包括前景注意力子模型。
图10示意性示出了根据本公开的示例性实施例的适于实现基于注意力机制的目标检测模型的训练方法或目标检测方法的电子设备的结构框图。
如图10所示,根据本公开实施例的电子设备1000包括处理器1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
例如,所述电子设备可以为被动式太赫兹成像装置。
在RAM 1003中,存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1000还可以包括输入/输出(I/O)接口1005,输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
在该计算机程序被处理器1001执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1009被下载和安装,和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (28)
1.一种基于注意力机制的目标检测模型的训练方法,所述目标检测模型包括前景特征提取网络、全图特征提取网络和背景特征提取网络,其特征在于,所述方法包括:
获取初始图像,所述初始图像包括待检测的目标;
处理所述初始图像以获取第一图像特征;
将所述第一图像特征输入前景特征提取网络以获取前景特征;
将所述第一图像特征输入全图特征提取网络以获取全图特征;以及
将所述第一图像特征输入背景特征提取网络以获取背景特征,
其中,所述将所述第一图像特征输入全图特征提取网络以获取全图特征包括:
将所述第一图像特征输入全图特征提取网络;以及
基于注意力机制处理输入的所述第一图像特征,以获取全图特征。
2.根据权利要求1所述的方法,其中,所述全图特征提取网络包括通道注意力子模型和空间注意力子模型,
所述基于注意力机制处理输入的所述第一图像特征包括:使用通道注意力子模型和空间注意力子模型处理输入的所述第一图像特征。
3.根据权利要求2所述的方法,其中,所述使用通道注意力子模型和空间注意力子模型处理输入的所述第一图像特征包括:
将所述第一图像特征输入通道注意力子模型;
所述通道注意力子模型处理所述第一图像特征,以获取通道注意力矩阵;
将所述第一图像特征与所述通道注意力矩阵相乘,以获取通道注意力增强特征;
将所述通道注意力增强特征输入空间注意力子模型;
所述空间注意力子模型处理所述通道注意力增强特征,以获取空间注意力矩阵;以及
将所述通道注意力增强特征与所述空间注意力矩阵相乘,以获取空间注意力增强特征。
4.根据权利要求1-3中任一项所述的方法,其中,所述前景特征提取网络包括前景注意力子模型,
所述将所述第一图像特征输入前景特征提取网络以获取前景特征包括:
将前景掩模图像输入前景注意力子模型,以获取前景注意力矩阵;以及
将所述第一图像特征与所述前景注意力矩阵相乘,得到前景增强特征。
5.根据权利要求4所述的方法,其中,所述将所述第一图像特征输入背景特征提取网络以获取背景特征包括:
将所述第一图像特征与背景注意力矩阵相乘,得到背景增强特征。
6.根据权利要求5所述的方法,其中,所述方法还包括:基于所述空间注意力矩阵和所述前景注意力矩阵确定背景注意力矩阵。
7.根据权利要求1-3中任一项所述的方法,其中,所述方法还包括:
基于所述全图特征、所述前景特征和所述背景特征构建损失函数;以及
利用所述损失函数,对所述目标检测模型的参数进行更新。
8.根据权利要求7所述的方法,其中,根据下面的公式,基于所述全图特征、所述前景特征和所述背景特征构建损失函数:
其中,Ltriplet为损失函数,Ffull为全图特征,Ffgd为前景特征,Tbgd为背景特征,λ为边界超参数。
9.根据权利要求2或3所述的方法,其中,所述通道注意力子模型包括第一池化层、第一卷积层和第二卷积层,
所述通道注意力子模型处理所述第一图像特征,以获取通道注意力矩阵,具体包括:
利用第一池化层,对所述第一图像特征进行全局平均池化;
将经全局平均池化的第一图像特征输入第一卷积层,以获取第一卷积特征;
将所述第一卷积特征输入第二卷积层,以获取第二卷积特征;以及
利用第一激活函数处理所述第二卷积特征,以获取所述通道注意力矩阵。
10.根据权利要求9所述的方法,其中,所述空间注意力子模型包括第三卷积层、第二池化层、第三池化层和第四卷积层,
所述空间注意力子模型处理所述通道注意力增强特征,以获取空间注意力矩阵,具体包括:
将所述通道注意力增强特征输入所述第三卷积层,以获取第三卷积特征;
利用第二池化层,对所述第三卷积特征进行全局平均池化,以获取第一池化特征;
利用第三池化层,对所述第三卷积特征进行全局最大池化,以获取第二池化特征;
拼接所述第一池化特征和所述第二池化特征,以获取拼接特征;
将所述拼接特征输入所述第四卷积层,以获取第四卷积特征;以及
利用第二激活函数处理所述第四卷积特征,以获取所述空间注意力矩阵。
11.根据权利要求9所述的方法,其中,所述第一卷积层和所述第二卷积层均为1*1的卷积层。
12.根据权利要求9或11所述的方法,其中,所述第一卷积层的输入通道数为Cin,输出通道数为Cin/c,其中c为第一通道压缩比;以及
所述第二卷积层的输入通道数为Cin/c,输出通道数为Cin。
13.根据权利要求10所述的方法,其中,所述第三卷积层为3*3的卷积层,所述第四卷积层为7*7的卷积层。
14.根据权利要求10或13所述的方法,其中,所述第三卷积层的输入通道数为Cin,输出通道数为Cin/s,其中s为第二通道压缩比;以及
所述第四卷积层的输入通道数为2,输出通道数为1。
15.根据权利要求4所述的方法,其中,所述前景注意力子模型包括2*2的第四池化层,
所述将前景掩模图像输入前景注意力子模型,以获取前景注意力矩阵,具体包括:
利用所述第四池化层,对所述前景掩模图像进行最大池化,以获取前景注意力矩阵。
16.根据权利要求4或15所述的方法,其中,所述前景掩模图像为包括前景轮廓的二值化图像。
17.根据权利要求6所述的方法,其中,根据下面的公式,基于所述空间注意力矩阵和所述前景注意力矩阵确定背景注意力矩阵:
S-=1-((1-α)S++αSfgd)
其中,S-为背景注意力矩阵,S+为空间注意力矩阵,Sfgd为前景注意力矩阵,α为超参数,α∈(0,1)。
18.根据权利要求1-3中任一项所述的方法,其中,所述处理所述初始图像以获取第一图像特征包括:
将所述初始图像输入第一跨阶段局部网络;
所述第一跨阶段局部网络对所述初始图像进行特征编码,以获取第一图像特征。
19.根据权利要求5所述的方法,其中,所述将所述第一图像特征输入前景特征提取网络以获取前景特征还包括:将所述前景增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述前景增强特征进行特征编码,以获取前景特征;和/或,
所述将所述第一图像特征输入全图特征提取网络以获取全图特征还包括:将所述空间注意力增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述空间注意力增强特征进行特征编码,以获取全图特征;和/或,
所述将所述第一图像特征输入背景特征提取网络以获取背景特征还包括:将所述背景增强特征输入第二跨阶段局部网络;以及所述第二跨阶段局部网络对所述背景增强特征进行特征编码,以获取背景特征。
20.根据权利要求1-3中任一项所述的方法,其中,所述初始图像为通过太赫兹成像装置扫描成像区域获取的图像,和/或通过毫米波成像装置扫描成像区域获取的图像。
21.一种目标检测方法,其特征在于,包括:
获取初始图像;
将所述初始图像输入目标检测模型,其中,所述目标检测模型是通过如权利要求1~20中任一项所述的方法训练得到的;以及
根据所述目标检测模型的输出,确定所述初始图像中的待检测目标。
22.一种基于注意力机制的目标检测模型的训练装置,所述目标检测模型包括前景特征提取网络、全图特征提取网络和背景特征提取网络,其特征在于,所述装置包括:
图像获取模块,用于获取初始图像,所述初始图像包括待检测的目标;
第一图像特征获取模块,用于处理所述初始图像以获取第一图像特征;
前景特征获取模块,用于将所述第一图像特征输入前景特征提取网络以获取前景特征;
全图特征获取模块,用于将所述第一图像特征输入全图特征提取网络以获取全图特征;以及
背景特征获取模块,用于将所述第一图像特征输入背景特征提取网络以获取背景特征,
其中,所述全图特征获取模块具体用于:将所述第一图像特征输入全图特征提取网络;以及基于注意力机制处理输入的所述第一图像特征,以获取全图特征。
23.一种基于注意力机制的目标检测模型,其特征在于,包括:
第一图像特征处理模型,用于处理初始图像以获取第一图像特征;
前景特征提取网络,用于处理第一图像特征以提取前景特征;
全图特征提取网络,用于基于注意力机制处理第一图像特征以提取全图特征;以及
背景特征提取网络,用于处理第一图像特征以提取背景特征。
24.根据权利要求23所述的目标检测模型,其特征在于,所述全图特征提取网络包括通道注意力子模型和空间注意力子模型;和/或,
所述前景特征提取网络包括前景注意力子模型。
25.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~21中任一项所述的方法。
26.根据权利要求25所述的电子设备,其中,所述电子设备为太赫兹成像装置和毫米波成像装置中的至少一个。
27.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~21中任一项所述的方法。
28.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~21中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424385.9A CN116977911A (zh) | 2022-04-20 | 2022-04-20 | 基于注意力机制的目标检测模型及其训练方法、目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424385.9A CN116977911A (zh) | 2022-04-20 | 2022-04-20 | 基于注意力机制的目标检测模型及其训练方法、目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977911A true CN116977911A (zh) | 2023-10-31 |
Family
ID=88473543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210424385.9A Pending CN116977911A (zh) | 2022-04-20 | 2022-04-20 | 基于注意力机制的目标检测模型及其训练方法、目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977911A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117245672A (zh) * | 2023-11-20 | 2023-12-19 | 南昌工控机器人有限公司 | 摄像头支架模块化装配的智能运动控制系统及其方法 |
-
2022
- 2022-04-20 CN CN202210424385.9A patent/CN116977911A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117245672A (zh) * | 2023-11-20 | 2023-12-19 | 南昌工控机器人有限公司 | 摄像头支架模块化装配的智能运动控制系统及其方法 |
CN117245672B (zh) * | 2023-11-20 | 2024-02-02 | 南昌工控机器人有限公司 | 摄像头支架模块化装配的智能运动控制系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Semantic-supervised infrared and visible image fusion via a dual-discriminator generative adversarial network | |
WO2018166438A1 (zh) | 图像处理方法、装置及电子设备 | |
Xu et al. | Review of video and image defogging algorithms and related studies on image restoration and enhancement | |
Babu et al. | A survey on analysis and implementation of state-of-the-art haze removal techniques | |
Jia et al. | A two-step approach to see-through bad weather for surveillance video quality enhancement | |
Liu et al. | Infrared and visible image fusion and denoising via ℓ2− ℓp norm minimization | |
Zuo et al. | A SAR-to-optical image translation method based on PIX2PIX | |
Zhang et al. | Underwater image enhancement using improved generative adversarial network | |
Rahman et al. | Exploring a radically new exponential retinex model for multi-task environments | |
Song et al. | Ship detection in haze and low-light remote sensing images via colour balance and DCNN | |
Zhao et al. | A multi-scale U-shaped attention network-based GAN method for single image dehazing | |
CN116977911A (zh) | 基于注意力机制的目标检测模型及其训练方法、目标检测方法 | |
Kumar et al. | Intelligent model to image enrichment for strong night-vision surveillance cameras in future generation | |
Wang et al. | N-LoLiGan: Unsupervised low-light enhancement GAN with an N-Net for low-light tunnel images | |
Verma et al. | FCNN: fusion-based underwater image enhancement using multilayer convolution neural network | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
Pan et al. | Hyperspectral image fusion and multitemporal image fusion by joint sparsity | |
Gao et al. | Single image haze removal algorithm using pixel-based airlight constraints | |
Ke et al. | Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images | |
Zhang et al. | Infrared and visible image fusion based on particle swarm optimization and dense block | |
Li et al. | Multi-scale fusion framework via retinex and transmittance optimization for underwater image enhancement | |
Zhou et al. | Low‐light image enhancement for infrared and visible image fusion | |
Qiu et al. | Perception-oriented UAV Image Dehazing Based on Super-Pixel Scene Prior | |
Nair et al. | Benchmarking single image dehazing methods | |
Juneja et al. | Single Image Dehazing Using Hybrid Convolution Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |