CN113743346A - 图像识别方法、装置、电子设备及存储介质 - Google Patents
图像识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113743346A CN113743346A CN202111067421.2A CN202111067421A CN113743346A CN 113743346 A CN113743346 A CN 113743346A CN 202111067421 A CN202111067421 A CN 202111067421A CN 113743346 A CN113743346 A CN 113743346A
- Authority
- CN
- China
- Prior art keywords
- residual
- residual block
- network
- landslide
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 70
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims description 51
- 238000000605 extraction Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- OLBCVFGFOZPWHH-UHFFFAOYSA-N propofol Chemical compound CC(C)C1=CC=CC(C(C)C)=C1O OLBCVFGFOZPWHH-UHFFFAOYSA-N 0.000 description 2
- 229960004134 propofol Drugs 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像识别方法、装置、电子设备及存储介质,首先获取航拍图像集合,之后利用基于注意力机制的残差网络,对航拍图像集合进行种类识别,再将属于滑坡类别的的航拍图像作为待识别图像,利用目标检测网络对所述待识别图像进行滑坡检测,获得滑坡定位结果。其中,基于注意力机制的残差网络,至少一个残差块对应设置有处理分支,残差网络对残差块的输出特征与残差块对应的处理分支的输出结果进行组合后作为下一残差块的输入特征;残差块对应的处理分支用于从残差块的输入特征中提取全局特征并进行上采样后输出。本申请基于航拍图像集合进行滑坡识别,无需要求遥感图像等高成本图像集合,从而降低滑坡识别的成本。
Description
技术领域
本申请涉及计算机视觉领域,尤其涉及一种图像识别方法、装置、电子设备及存储介质。
背景技术
以滑坡为主的地质灾害,不仅会给当地居民带来严重的人身和财产损失,还将给油气运输等领域带来严重危害。高分辨率影像、遥感卫星数据等遥感图像已被广泛应用于滑坡检测任务中。
现有的滑坡检测多针对遥感图像,利用遥感影像上滑坡的纹理、形状、色调等浅层特征构建提取模型,但很少有针对传统航拍图像中的滑坡进行检测的方法。如今,基于深度学习的分类、目标检测算法在诸多领域得到广泛应用并取得了较好的检测效果,但基于深度学习的滑坡检测任务依然多根据遥感图像进行开展。
但遥感图像的获取成本通常较高,导致滑坡识别的成本较高。
发明内容
本申请提供一种图像识别方法、装置、电子设备及存储介质,用以降低滑坡识别的成本。
第一方面,本申请提供一种图像识别方法,所述方法包括:
获取航拍图像集合;利用基于注意力机制的残差网络,对所述航拍图像集合进行类别识别;所述残差网络的至少一个残差块对应设置有处理分支,其中,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合后作为下一残差块的输入特征;所述残差块对应的处理分支用于从所述残差块的输入特征中提取全局特征并进行上采样后输出;将属于滑坡类别的的航拍图像作为待识别图像,利用目标检测网络对所述待识别图像进行滑坡检测,获得滑坡定位结果。
可选的,所述残差块对应的处理分支用于执行以下处理:
对输入特征进行下采样,获得所述输入特征的全局特征;
对所述输入特征的全局特征进行上采样并输出,其中输出结果的特征图大小与所述残差块的输出特征的特征图大小一致。
可选的,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,包括:
所述残差网络基于组合公式,对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,获得下一残差块的输入特征;其中,所述组合公式包括:
Hi,c(x)=(1+Mi,c(x))*Fi,c(x)
其中,Fi,c(x)表征所述残差块的输出特征;Mi,c(x)表征所述残差块对应的处理分支的输出结果;Hi,c(x)表征组合获得的结果;*用于表征像素乘操作。
可选的,所述目标检测网络可以包括Faster RCNN,所述Faster RCNN用于执行以下处理:
对待识别图像进行特征提取,获得特征提取结果,并基于特征提取结果,利用区域生成网络获得感兴趣区域;
对感兴趣区域进行分类,以完成滑坡检测。
第二方面,本申请提供一种图像识别装置,包括:
图像采集模块,用于获取航拍图像集合;
识别模块,用于利用基于注意力机制的残差网络,对所述航拍图像集合进行类别识别;所述残差网络的至少一个残差块对应设置有处理分支,其中,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合后作为下一残差块的输入特征;所述残差块对应的处理分支用于从所述残差块的输入特征中提取全局特征并进行上采样后输出;
所述识别模块,还用于将属于滑坡类别的航拍图像作为待识别图像,利用目标检测网络对所述待识别图像进行滑坡检测,获得滑坡定位结果。
可选的,所述残差块对应的处理分支用于执行以下处理:
对输入特征进行下采样,获得所述输入特征的全局特征;
对所述输入特征的全局特征进行上采样并输出,其中输出结果的特征图大小与所述残差块的输出特征的特征图大小一致。
可选的,所述残差网络,具体用于基于组合公式,对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,获得下一残差块的输入特征;其中,所述组合公式包括:
Hi,c(x)=(1+Mi,c(x))*Fi,c(x)
其中,Fi,c(x)表征所述残差块的输出特征;Mi,c(x)表征所述残差块对应的处理分支的输出结果;Hi,c(x)表征组合获得的结果;*用于表征像素乘操作。
可选的,所述目标检测网络包括Faster RCNN,所述Faster RCNN用于执行以下处理:
对待识别图像进行特征提取,获得特征提取结果,并基于特征提取结果,利用区域生成网络获得感兴趣区域;
对感兴趣区域进行分类,以完成滑坡检测。
第三方面,本申请提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的图像识别方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的图像识别方法。
本申请提供的图像识别方法、装置、电子设备及存储介质,获取航拍图像集合,利用基于注意力机制的残差网络对航拍图像集合进行类别识别,并将属于滑坡类别的的航拍图像作为待识别图像,利用目标检测网络对待识别图像进行滑坡检测,获得滑坡定位结果。上述方案基于航拍图像集合进行滑坡识别,无需要求遥感图像等高成本图像集合,从而降低滑坡识别的成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请示例提供的应用场景示意图;
图2为本申请实施例一提供的图像识别方法的流程示意图;
图3为基于注意力机制的残差网络的架构示意图;
图4为某注意力模块的数据处理示意图;
图5为本申请实施例二提供的一种图像识别方法的流程图;
图6为本申请实施例三提供的一种图像识别方法的流程示意图;
图7为一种Faster RCNN的数据处理示意图;
图8为本申请实施例四提供的一种图像识别方法的流程示意图;
图9为本申请实施例五提供的图像识别装置的结构示意图;
图10为本申请实施例六提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与本申请的一些方面相一致的装置和方法的例子。
图1为本申请示例提供的应用场景示意图,某个地区可能因地质灾害或是油气等相关行业的发展,对于滑坡灾害的防治具有直接的需求,相应的,即对滑坡识别和检测有着实际的需求。
滑坡通常指斜坡上不稳定土体、岩体,受地下水运动、暴雨或者地震破坏等因素影响,在重力作用下沿一定的滑动面整体向下滑动的自然现象。在图像中,滑坡具备以下特点:位于斜坡上、土质松软,并表现出特定的形态外貌。且滑坡周界与周围植被在纹理和颜色上形成鲜明对比。滑坡通常需要和土地、山体等进行区分。
当需要进行滑坡识别时,可以获取航拍图像集合,比如,需要针对某地区进行滑坡识别,即可通过具备航拍功能的设备采集获得航拍图像集合。实际应用中,航拍图像集合可通过飞行器,例如飞机或无人机,在近地点的稳定高度拍摄地面各种目标所获得的图像。然后,利用基于注意力机制的残差网络,对航拍图像集合进行类别识别,以确定属于滑坡类别的航拍图像作为待识别的图像,最终利用目标检测网络对待识别图像进行滑坡检测,获得滑坡定位结果。
上述方案中,航拍图像质量较高且易于获取,基于此,通过分类、定位等一系列任务,完成滑坡识别。无需依赖高成本遥感图像,在实现滑坡识别的基础上,降低成本。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。此外,还需要说明的是,在本申请的描述中,除非另有明确的规定和限定,各术语应在本领域内做广义理解。
实施例一
图2为本申请实施例一提供的图像识别方法的流程示意图,如图2所示,该方法包括:
S101、获取航拍图像集合;
S102、利用基于注意力机制的残差网络,对航拍图像集合进行种类识别;
S103、将属于滑坡类别的的航拍图像作为待识别图像,利用目标检测网络对所述待识别图像进行滑坡检测,获得滑坡定位结果。
结合具体应用场景对本实施例进行示例性说明:地区A具有滑坡检测和定位的需求,可以使用成本较低、图像质量较高的航拍图像进行识别。具体的,利用基于注意力机制的残差网络对航拍图像集合进行类别识别,确定其中属于滑坡类别的航拍图像;针对这些属于滑坡类别的航拍图像,利用目标检测网络对所述待识别图像进行滑坡检测,获得滑坡定位结果。其中,残差网络可以相对较准确地将数据集中的滑坡图像识别出来,这部分图像将作为后续目标检测网络的输入,以准确定位图像中的滑坡部分。在一个示例中,可以通过目标检测网络,对标记为滑坡类别的图像进行滑坡区域检测,利用方框或掩模将发生滑坡的区域标示出来,获得滑坡定位结果。
其中,残差网络属于一种卷积神经网络。本实施例的残差网络基于注意力机制,以提高类别识别的准确性。在一个示例中,残差网络的至少一个残差块对应设置有处理分支,其中,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合后作为下一残差块的输入特征;所述残差块对应的处理分支用于从所述残差块的输入特征中提取全局特征并进行上采样后输出。
作为示例,图3为基于注意力机制的残差网络的架构示意图,如图所示,本实施例中提供的残差网络中,至少一个残差块对应设置有处理分支,例如图中所示的注意力模块为残差块及其对应的处理分支构成的模块单元。其中,单个注意力模块中,Resnet分支为残差块进行数据处理的分支,后述也称为识别分支;Mask分支为对应该残差块设置的处理分支。
相关技术中,残差块通常仅包含识别分支,本实施例中基于注意力机制的残差网络中,在至少一个残差块的基础上,并联设置有处理分支。在一个示例中,如图4所示,图4为某注意力模块的数据处理示意图。其中,右侧支路为残差块的识别分支,左侧支路为该残差块对应设置的处理分支。如图所示,处理分支用于从残差块的输入特征x中提取全局特征并进行上采样后输出结果M(x),并列的,识别分支的网络堆叠层输出结果T(x)。随后,对残识别分支的输出特征T(x)与处理分支的输出结果M(x)进行组合后作为下一注意力模块的输入。通过基于注意力机制的残差网络,在实现图像类别识别的过程中,能够强化图像中有效像素部分在识别任务中的重要性,提升类别识别的准确性。
在一个示例中,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,具体包括:
所述残差网络基于组合公式,对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,获得下一残差块的输入特征;其中,所述组合公式包括:
Hi,c(x)=(1+Mi,c(x))*Fi,c(x)
其中,Fi,c(x)表征所述残差块的输出特征;Mi,c(x)表征所述残差块对应的处理分支的输出结果;Hi,c(x)表征组合获得的结果;*用于表征像素乘操作。
示例性的,本实施方式提供一种可行的高层语义特征和低维特征组合方式。如图所示,原始图像数据为x,原始特征图为残差块的输出Fi,c(x),注意力特征图Mi,c(x)表征所述残差块对应的处理分支的输出结果,通过上述组合公式,完成高层语义特征和低维特征的组合。组合后的结果可以作为下一层的输入数据,即下一残差块的输入特征。
需要说明的是,由于Mi,c(x)部分的掩码mask是经过sigmoid函数而得到,根据sigmoid函数的特性可知,Mi,c(x)的取值均在0到1之间。因此通过采用上述组合方式,能够避免因直接进行Mi,c(x)*Fi,c(x)操作,导致连续经过多个残差块进行处理后,特征图的值逐步变小,使网络丢失其原有特性,降低网络性能的现象。具体的,在上述组合公式中,对Mi,c(x)进行处理,将其取值加1后再进行组合,从而有效避免上述问题。本实施方式提供的组合方法,能够通过组合高层语义特征和低维特征,实现基于注意力机制的残差网络,并且能够规避数据丢失的问题。
本实施例提供的图像识别方法,获取航拍图像集合,利用基于注意力机制的残差网络对航拍图像集合进行类别识别,并将属于滑坡类别的的航拍图像作为待识别图像,利用目标检测网络对待识别图像进行滑坡检测,获得滑坡定位结果。上述方案基于航拍图像集合进行滑坡识别,无需要求遥感图像等高成本图像集合,从而降低滑坡识别的成本。
实施例二
在其他任一实施例的基础上,图5为本申请实施例二提供的一种图像识别方法的流程图,如图5所示,残差块对应的处理分支用于执行以下处理:
S201、对输入特征进行下采样,获得所述输入特征的全局特征;
S202、对所述输入特征的全局特征进行上采样并输出,其中输出结果的特征图大小与所述残差块的输出特征的特征图大小一致。
结合运行流程,对本实施例提供的残差块的工作流程进行示例说明。
在一个示例中,S201中所述对输入特征进行下采样,具体可以包括但不限于卷积、池化等操作。在另一个示例中,可通过对输入特征进行多次下采样,比如两次,获得全局特征。通过提取全局特征,比如,高层的语义信息,能够增大感受野,使高层激活点集中在分类任务相关区域。具体的,该全局特征包括具备了注意力特征的特征图,之后可对具有了注意力特征的特征图进行上采样,回归原始特征图(即前述识别分支的输出结果)大小,得到注意力机制特征图(即前述处理分支的输出结果)后,将注意力机制特征图与原始特征图进行组合。在一个示例中,将注意力机制特征图与原始特征图进行组合可以包括但不限于:将注意力机制特征图与原始特征图进行像素级别的乘操作(对应像素位置相乘),从而在原始特征图上增加权重信息,突出对分类更重要的区域。
本实施例提供的图像识别方法中,残差块对应的处理分支通过对输入特征进行下采样获得全局特征,并对全局特征进行上采样后输出,实现基于注意力机制的残差网络,从而提高航拍图像的类别识别的准确性,进而提高后续滑坡识别的准确性。
实施例三
在任一实施例的基础上,图6为本申请实施例三提供的一种图像识别方法的流程示意图,如图6所示,在任一实施例的基础上,所述目标检测网络可以包括Faster RCNN,所述Faster RCNN用于执行以下处理:
S301、对待识别图像进行特征提取,获得特征提取结果,并基于特征提取结果,利用区域生成网络获得感兴趣区域;
S302、对感兴趣区域进行分类,以完成滑坡检测。
作为示例,图7为一种Faster RCNN的数据处理示意图,结合图7所示,Faster RCNN的整体工作流程可以包括:首先将待检测图片送入网络中的特征提取网络部分,以得到待测图像的特征图,所述特征图将送入Faster RCNN的区域生成模块,以生成质量较好的建议框,所述建议框可以用于标示感兴趣区域,即滑坡部分的可能位置。得到感兴趣区域后,数据被送入RoI Pooling模块,该模块接受卷积网络提取的特征图以及RPN模块得到的RoI,并将RoI的特征池化到固定维度,以送到后续的全连接网络。RCNN部分则可以预测每一个RoI的分类,并预测偏移量以精修边框位置,即进行进一步的精修,以得到更准确的滑坡区域标示框。
示例性的,图7中的虚线框部分,为Faster RCNN网络的区域生成模块(RPN)的结构示意图,如图所示,在一种实施方式中,区域生成模块的工作流程如下:
(1)生成Anchors:RPN对特征图上的每一个点都对应n个anchors,n的取值通常可以是3或9,这n个anchors大小宽高不同,对应到原图上基本可以覆盖所有可能出现的物体。通过这些anchors的生成,RPN之后将从中筛选,并调整出更好的位置,得到Proposal;
(2)RPN卷积网络:针对上述生成的anchors,利用1*1卷积在特征图上得到每一个anchor的预测类别得分和预测偏移量;
(3)计算RPN loss:该模块只在训练阶段生效,而在测试阶段中不运行。将所有的anchors与标签进行匹配,匹配程度较好的anchors赋予正样本,较差的赋予负样本,得到分类与偏移的真值,与第二步中的预测得分与预测偏移量进行loss的计算;
(4)生成Proposal:利用第二步中每一个anchor预测的得分与偏移量,可以进一步得到一组较好的Proposal,送到后续网络。需要说明的是,该部分的输出送入RoI Pooling模块仅在测试阶段中执行,训练阶段RoI Pooling模块仅接收原始图像和(5)筛选Proposal得到RoI模块的输出;
(5)筛选Proposal得到RoI:例如,可以在2000个Proposal中选择256个较好的,以得到最终RPN网络输出的RoI以送到后续网络。
Faster RCNN网络的设计为two-stage的思想,首先,通过RPN网络生成感兴趣区域,然后再对所生成的感兴趣区域进行分类,最后再通过RCNN模块完成对象的检测。由此,通过本实施例的技术路线,可以实现对已被标记为滑坡的图像,进行滑坡定位和检测。
本实施例提供的图像识别方法中,目标检测网络包括Faster RCNN网络,FasterRCNN网络可以对待识别图像进行特征提取,获得特征提取结果,并基于特征提取结果,利用区域生成网络获得感兴趣区域;之后,对感兴趣区域进行分类,以完成滑坡检测,可以实现滑坡图像中滑坡区域的定位和标示。
实施例四
在任一实施例的基础上,图8为本申请实施例四提供的一种图像识别方法的流程示意图,用以示例说明建立残差网络的训练过程。如图8所示,在任一实施例的基础上,所述方法还包括:
S401、获取训练图像集合,所述训练图像为航拍图像;
S402、基于所述训练图像集合,训练获得基于注意力机制的残差网络。
实际应用中,为了提高滑坡识别的准确定,可以获取充分的数据集,即航拍图像。在一个示例中,数据集的获取可以通过飞行器进行拍摄。在另一个示例中,也可以通过网络爬虫等技术获取。举例来说,可以借助关键词以及一些相关的表达式,在浏览器上获取初始的航拍图像,借助图像调整扩充数据集。
在一个示例中,为了保证充足的训练数据,以保证残差网络的准确性。S401具体可以包括:
基于预定的关键词,采用网络爬虫技术爬取初始的航拍图像;
对初始的航拍图像进行图像调整,获得扩展的航拍图像,所述图像调整包括以下至少一种:旋转、平移以及翻转;
基于初始的航拍图像和扩展的航拍图像,建立所述训练图像集合。
结合应用场景进行示例:在训练图像的获取过程中,可以通过网络爬虫技术进行图像的获取。根据关键词“滑坡”、“土地”、“山”,及相应的正则表达式或者XPath表达式,编写爬虫代码,爬取百度、谷歌、必应等浏览器上对应的图片,并下载到本地指定的文件夹中。
在一个示例中,还可以针对初始的航拍图像进行图像调整,获得扩展的航拍图像。其中,图像调整手段可以包括以下至少一种:旋转、平移以及翻转。作为示例,对图像调整手段进行举例介绍。旋转:对原始图像随机旋转-30到30度;保留旋转后在原始图片内的部分,剩余缺角区域用黑色填充,以保证图像的维度和原始图片维度一致。平移:将原始图像在某一随机方向上进行整体移动,例如,向左移、向上移等,移动距离为原始图像尺寸的1/20或者1/10或是其他符合实际应用场景的大小。翻转:对原始图像进行左右随机翻转。由此,可以基于初始获取的航拍图像和经图像增强进行数据扩充后的航拍图像,建立航拍图像数据集。
本实施例提供的图像识别方法中,通过网络爬虫技术获取初始图像,并通过数据增强扩充图像,得到丰富的训练图像集合,以建立残差网络,从而提高滑坡识别的准确性。
实施例五
本申请实施例五还提供一种图像识别装置以实现前述方法。如图9所示,图9为本申请实施例五提供的图像识别装置的结构示意图,该装置包括:
图像采集模块51,用于获取航拍图像集合;
识别模块52,用于利用基于注意力机制的残差网络,对所述航拍图像集合进行类别识别;所述残差网络的至少一个残差块对应设置有处理分支,其中,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合后作为下一残差块的输入特征;所述残差块对应的处理分支用于从所述残差块的输入特征中提取全局特征并进行上采样后输出;识别模块52,还用于将属于滑坡类别的航拍图像作为待识别图像,利用目标检测网络对待识别图像进行滑坡检测,获得滑坡定位结果。
结合具体应用场景对本实施方式进行示例性说明:图像采集模块51获取航拍图像集合;识别模块52利用基于注意力机制的残差网络对图像采集模块51获取的航拍图像集合进行类别识别,确定其中属于滑坡类别的航拍图像;之后,识别模块52针对这些属于滑坡类别的航拍图像,利用目标检测网络对所述待识别图像进行滑坡检测,获得滑坡定位结果。
其中,残差网络可以相对较准确地将数据集中的滑坡图像识别出来,这部分图像将作为后续目标检测网络的输入,以准确定位图像中的滑坡部分。在一个示例中,目标检测网络,具体可以用于对标记为滑坡类别的图像进行滑坡区域检测,利用方框或掩模将发生滑坡的区域标示出来,获得滑坡定位结果。
通过基于注意力机制的残差网络,在实现图像类别识别的过程中,能够强化图像中有效像素部分在识别任务中的重要性,提升类别识别的准确性。
在一个示例中,所述残差网络,具体用于基于组合公式,对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,获得下一残差块的输入特征;其中,所述组合公式包括:
Hi,c(x)=(1+Mi,c(x))*Fi,c(x)
其中,Fi,c(x)表征所述残差块的输出特征;Mi,c(x)表征所述残差块对应的处理分支的输出结果;Hi,c(x)表征组合获得的结果;*用于表征像素乘操作。
本实施方式提供的组合方法,能够通过组合高层语义特征和低维特征,实现基于注意力机制的残差网络,并且能够规避数据丢失的问题。
在任一实施方式的基础上,残差块对应的处理分支用于执行以下处理:
对输入特征进行下采样,获得所述输入特征的全局特征;对所述输入特征的全局特征进行上采样并输出,其中输出结果的特征图大小与所述残差块的输出特征的特征图大小一致。
在一个示例中,残差块对应的处理分支,具体用于对输入特征进行下采样。可选的,所述下采样具体可以包括但不限于卷积、池化等操作。在另一个示例中,残差块对应的处理分支,具体用于对输入特征进行多次下采样,比如两次,获得全局特征。
在一个示例中,所述残差网络,具体用于将注意力机制特征图与原始特征图进行像素级别的乘操作(对应像素位置相乘)。从而在原始特征图上增加权重信息,突出对分类更重要的区域。
在任一实施方式的基础上,所述目标检测网络可以包括Faster RCNN,所述FasterRCNN用于执行以下处理:
对待识别图像进行特征提取,获得特征提取结果,并基于特征提取结果,利用区域生成网络获得感兴趣区域;对感兴趣区域进行分类,以完成滑坡检测。
在任一实施方式的基础上,所述装置还包括:
训练模块,用于获取训练图像集合,所述训练图像为航拍图像;所述训练模块,还用于基于所述训练图像集合,训练获得基于注意力机制的残差网络。
实际应用中,为了提高滑坡识别的准确定,可以获取充分的数据集,即航拍图像。在一个示例中,所述训练模块,具体用于飞行器进行拍摄,获取训练图像集合。在另一个示例中,所述训练模块,具体用于通过网络爬虫技术,获取训练图像集合。
在一个示例中,为了保证充足的训练数据,以保证残差网络的准确性。所述训练模块,具体可以包括:
爬取单元,用于基于预定的关键词,采用网络爬虫技术爬取初始的航拍图像;
调整单元,用于对初始的航拍图像进行图像调整,获得扩展的航拍图像,所述图像调整包括以下至少一种:旋转、平移以及翻转;
建立单元,用于基于初始的航拍图像和扩展的航拍图像,建立所述训练图像集合。
在一个示例中,图像调整手段可以包括以下至少一种:旋转、平移以及翻转。由此,可以基于初始获取的航拍图像和经图像增强进行数据扩充后的航拍图像,建立航拍图像数据集。
本实施例提供一种图像识别装置,包括图像采集模块,用于获取航拍图像集合;识别模块,用于进行航拍图像集合的类别识别,以及类别为滑坡的图像的滑坡定位;通过残差网络和目标检测网络的建模和训练,该装置基于航拍图像集合进行滑坡识别,无需要求遥感图像等高成本图像集合,从而降低了滑坡识别的成本。
实施例六
图10为本申请实施例六提供的一种电子设备的结构示意图,如图10所示,该电子设备包括:
处理器(Processor)291,电子设备还包括了存储器(Memory)292;还可以包括通信接口(Communication Interface)293和总线294。其中,处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291可以调用存储器294中的逻辑指令,以执行上述实施例的方法。
此外,上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器292作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本申请实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器292可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器292可以包括高速随机存取存储器,还可以包括非易失性存储器。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述实施例提供的方法。
本申请实施例提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述实施例提供的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确方法或网络结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
获取航拍图像集合;
利用基于注意力机制的残差网络,对所述航拍图像集合进行类别识别;所述残差网络的至少一个残差块对应设置有处理分支,其中,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合后作为下一残差块的输入特征;所述残差块对应的处理分支用于从所述残差块的输入特征中提取全局特征并进行上采样后输出;
将属于滑坡类别的航拍图像作为待识别图像,利用目标检测网络对所述待识别图像进行滑坡检测,获得滑坡定位结果。
2.根据权利要求1所述的方法,其特征在于,所述残差块对应的处理分支用于执行以下处理:
对输入特征进行下采样,获得所述输入特征的全局特征;
对所述输入特征的全局特征进行上采样并输出,其中输出结果的特征图大小与所述残差块的输出特征的特征图大小一致。
3.根据权利要求1所述的方法,其特征在于,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,包括:
所述残差网络基于组合公式,对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,获得下一残差块的输入特征;其中,所述组合公式包括:
Hi,c(x)=(1+Mi,c(x))*Fi,c(x)
其中,Fi,c(x)表征所述残差块的输出特征;Mi,c(x)表征所述残差块对应的处理分支的输出结果;Hi,c(x)表征组合获得的结果;*用于表征像素乘操作。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述目标检测网络包括FasterRCNN,所述Faster RCNN用于执行以下处理:
对待识别图像进行特征提取,获得特征提取结果,并基于特征提取结果,利用区域生成网络获得感兴趣区域;
对感兴趣区域进行分类,以完成滑坡检测。
5.一种图像识别装置,其特征在于,包括:
图像采集模块,用于获取航拍图像集合;
识别模块,用于利用基于注意力机制的残差网络,对所述航拍图像集合进行类别识别;所述残差网络的至少一个残差块对应设置有处理分支,其中,所述残差网络对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合后作为下一残差块的输入特征;所述残差块对应的处理分支用于从所述残差块的输入特征中提取全局特征并进行上采样后输出;
所述识别模块,还用于将属于滑坡类别的航拍图像作为待识别图像,利用目标检测网络对所述待识别图像进行滑坡检测,获得滑坡定位结果。
6.根据权利要求5所述的装置,其特征在于,所述残差块对应的处理分支用于执行以下处理:
对输入特征进行下采样,获得所述输入特征的全局特征;
对所述输入特征的全局特征进行上采样并输出,其中输出结果的特征图大小与所述残差块的输出特征的特征图大小一致。
7.根据权利要求5所述的装置,其特征在于,
所述残差网络,具体用于基于组合公式,对所述残差块的输出特征与所述残差块对应的处理分支的输出结果进行组合,获得下一残差块的输入特征;其中,所述组合公式包括:
Hi,c(x)=(1+Mi,c(x))*Fi,c(x)
其中,Fi,c(x)表征所述残差块的输出特征;Mi,c(x)表征所述残差块对应的处理分支的输出结果;Hi,c(x)表征组合获得的结果;*用于表征像素乘操作。
8.根据权利要求5-7中任一项所述的装置,其特征在于,所述目标检测网络包括FasterRCNN,所述Faster RCNN用于执行以下处理:
对待识别图像进行特征提取,获得特征提取结果,并基于特征提取结果,利用区域生成网络获得感兴趣区域;
对感兴趣区域进行分类,以完成滑坡检测。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-4中任一项所述的图像识别方法。
10.一种计算机可读存储介质,其特征在于,所属计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-4中任一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111067421.2A CN113743346A (zh) | 2021-09-13 | 2021-09-13 | 图像识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111067421.2A CN113743346A (zh) | 2021-09-13 | 2021-09-13 | 图像识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743346A true CN113743346A (zh) | 2021-12-03 |
Family
ID=78738294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111067421.2A Pending CN113743346A (zh) | 2021-09-13 | 2021-09-13 | 图像识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743346A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463613A (zh) * | 2022-01-19 | 2022-05-10 | 中海石油(中国)有限公司 | 基于残差网络与Faster R-CNN的断层检测方法及系统 |
CN116704328A (zh) * | 2023-04-24 | 2023-09-05 | 中国科学院空天信息创新研究院 | 地物分类方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951789A (zh) * | 2015-07-15 | 2015-09-30 | 电子科技大学 | 一种基于全极化sar图像的快速滑坡提取方法 |
CN109241902A (zh) * | 2018-08-30 | 2019-01-18 | 北京航空航天大学 | 一种基于多尺度特征融合的山体滑坡检测方法 |
CN112307853A (zh) * | 2019-08-02 | 2021-02-02 | 成都天府新区光启未来技术研究院 | 航拍图像的检测方法、存储介质和电子装置 |
-
2021
- 2021-09-13 CN CN202111067421.2A patent/CN113743346A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951789A (zh) * | 2015-07-15 | 2015-09-30 | 电子科技大学 | 一种基于全极化sar图像的快速滑坡提取方法 |
CN109241902A (zh) * | 2018-08-30 | 2019-01-18 | 北京航空航天大学 | 一种基于多尺度特征融合的山体滑坡检测方法 |
CN112307853A (zh) * | 2019-08-02 | 2021-02-02 | 成都天府新区光启未来技术研究院 | 航拍图像的检测方法、存储介质和电子装置 |
Non-Patent Citations (1)
Title |
---|
FEI WANG ET AL.: "Residual Attention Network for Image Classification", ARXIV.ORG, pages 3 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463613A (zh) * | 2022-01-19 | 2022-05-10 | 中海石油(中国)有限公司 | 基于残差网络与Faster R-CNN的断层检测方法及系统 |
CN116704328A (zh) * | 2023-04-24 | 2023-09-05 | 中国科学院空天信息创新研究院 | 地物分类方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111080628B (zh) | 图像篡改检测方法、装置、计算机设备和存储介质 | |
Zhang et al. | Remote sensing image spatiotemporal fusion using a generative adversarial network | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN112183203B (zh) | 一种基于多尺度像素特征融合的实时交通标志检测方法 | |
CN112115783A (zh) | 基于深度知识迁移的人脸特征点检测方法、装置及设备 | |
CN111310770B (zh) | 目标检测方法和装置 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113743346A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN111709387A (zh) | 一种高分辨率遥感影像的建筑物分割方法及系统 | |
CN110599455A (zh) | 显示屏缺陷检测网络模型、方法、装置、电子设备及存储介质 | |
CN112883900A (zh) | 遥感影像裸地反演可视图的方法及装置 | |
CN115311550B (zh) | 遥感影像语义变化检测方法、装置、电子设备及存储介质 | |
CN112132164A (zh) | 目标检测方法、系统、计算机装置及存储介质 | |
CN117557774A (zh) | 一种基于改进YOLOv8的无人机图像小目标检测方法 | |
Serwa et al. | Enhancement of classification accuracy of multi-spectral satellites’ images using Laplacian pyramids | |
Li et al. | Learning to holistically detect bridges from large-size vhr remote sensing imagery | |
CN113269717A (zh) | 基于遥感图像的建筑物检测方法及装置 | |
Zhao et al. | An aircraft detection method based on improved mask R-CNN in remotely sensed imagery | |
CN116167918A (zh) | 遥感影像的超分辨率模型的训练方法、处理方法及装置 | |
Serwa | Studying the potentiality of using digital gaussian pyramids in multi-spectral satellites images classification | |
Yang et al. | Small object detection model for remote sensing images combining super-resolution assisted reasoning and dynamic feature fusion | |
Kong et al. | Satellite image parcel segmentation and extraction based on U-Net convolution Neural network model | |
CN113743487A (zh) | 一种增强型遥感影像目标检测方法及系统 | |
Shafique et al. | BCD-Net: building change detection based on fully scale connected U-Net and subpixel convolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |