CN117994529A - 基于深度学习的图像解析方法、装置及计算机存储介质 - Google Patents
基于深度学习的图像解析方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN117994529A CN117994529A CN202410154579.0A CN202410154579A CN117994529A CN 117994529 A CN117994529 A CN 117994529A CN 202410154579 A CN202410154579 A CN 202410154579A CN 117994529 A CN117994529 A CN 117994529A
- Authority
- CN
- China
- Prior art keywords
- target
- detection
- image
- motion blur
- preprocessed image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 47
- 238000003703 image analysis method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 377
- 238000010191 image analysis Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000003379 elimination reaction Methods 0.000 claims abstract description 38
- 230000008030 elimination Effects 0.000 claims abstract description 37
- 238000003709 image segmentation Methods 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 143
- 230000011218 segmentation Effects 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 34
- 230000004927 fusion Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 abstract description 18
- 238000010223 real-time analysis Methods 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的图像解析方法、装置及计算机存储介质,该方法包括:对待解析图像进行预处理,得到预处理后图像;对预处理后图像进行目标特征提取,得到预处理后图像对应的多个目标特征,并根据所有目标特征,对预处理后图像进行目标检测操作,得到预处理后图像的待定检测结果;根据待定检测结果,对预处理后图像进行检测目标去冗余操作,得到预处理后图像中的检测目标,并根据检测目标的目标信息,确定预处理后图像的目标检测结果,作为待解析图像的图像解析结果。可见,实施本发明能够实现图像目标检测及图像分割一体化的智能图像解析过程,提高了对图像解析的效率及精准度,有利于更好地满足用户对待解析图像的实时解析需求。
Description
技术领域
本发明涉及图像解析技术领域,尤其涉及一种基于深度学习的图像解析方法、装置及计算机存储介质。
背景技术
近年来,深度学习技术的快速发展为无人机的目标检测与图像分割提供了新的解决方案,其可以自动学习大量的特征表达,以实现端到端的目标检测与图像分割。然而,现有的深度学习技术仍然存在一些问题,如模型复杂度高、计算量大、难以实现对图像的实时检测与分割等等。此外,在图像解析过程中,现有的目标检测和图像分割方法通常分别进行,导致图像处理速度慢、精度低,难以满足用户较高的图像处理需求。可见,提供一种能够提高对图像的解析速率及精准度的方法尤为重要。
发明内容
本发明提供了一种基于深度学习的图像解析方法、装置及计算机存储介质,能够实现图像目标检测及图像分割一体化的智能图像解析过程,提高了对图像解析的效率及精准度,有利于更好地满足用户对待解析图像的实时解析需求。
为了解决上述技术问题,本发明第一方面公开了一种基于深度学习的图像解析方法,所述方法包括:
获取待解析图像,并对所述待解析图像进行预处理操作,得到预处理后图像;
对所述预处理后图像进行目标特征提取操作,得到所述预处理后图像对应的多个目标特征,并根据所有所述目标特征,对所述预处理后图像进行目标检测操作,得到所述预处理后图像的待定检测结果;
根据所述待定检测结果,对所述预处理后图像进行检测目标去冗余操作,得到所述预处理后图像中的检测目标,并根据所述检测目标的目标信息,确定所述预处理后图像的目标检测结果,作为所述待解析图像的图像解析结果;所述目标信息包括位置信息、类别信息、检测框信息以及轮廓边界信息中的至少一种。
作为一种可选的实施方式,在本发明第一方面中,所述对所述预处理后图像进行目标特征提取操作,得到所述预处理后图像对应的多个目标特征,包括:
确定所述预处理后图像的图像场景信息,并根据所述图像场景信息,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个运动模糊特征;
根据所有所述运动模糊特征,对所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征;
根据所有所述运动模糊特征对应的遮挡目标特征,对所有所述运动模糊特征对应的遮挡目标特征进行语义特征提取操作,得到所有所述运动模糊特征对应的语义特征,作为所述预处理后图像对应的多个目标特征。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述图像场景信息,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个运动模糊特征,包括:
根据所述图像场景信息,确定所述预处理后图像对应的运动模糊特征提取参数;所述运动模糊特征提取参数包括运动模糊特征提取位置参数、运动模糊特征提取类型参数以及运动模糊特征提取分辨率参数中的至少一种;
根据所述运动模糊特征提取参数,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个待处理运动模糊特征;
根据预设的特征处理参数,对所有所述待处理运动模糊特征进行处理,得到所述预处理后图像对应的多个运动模糊特征;所述特征处理参数包括特征尺寸处理参数和/或特征分辨率处理参数。
作为一种可选的实施方式,在本发明第一方面中,所述根据所有所述运动模糊特征,对所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征,包括:
根据所有所述运动模糊特征,对所有所述运动模糊特征进行感受野扩大操作,得到扩大后的所有所述运动模糊特征;
根据所述图像场景信息,确定所述预处理后图像对应的遮挡特征提取参数;所述遮挡特征提取参数包括遮挡特征提取位置参数和/或遮挡特征提取类型参数;
根据所述遮挡特征提取参数,对扩大后的所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征。
作为一种可选的实施方式,在本发明第一方面中,所述根据所有所述目标特征,对所述预处理后图像进行目标检测操作,得到所述预处理后图像的待定检测结果,包括:
确定每个所述目标特征的特征参数,并根据每个所述目标特征的特征参数,确定每个所述目标特征的检测注意力权重参数;所述特征参数包括特征尺寸参数和/或特征角度参数;
根据每个所述目标特征的特征参数以及对应的检测注意力权重参数,对所有所述目标特征进行目标检测操作,得到每个所述目标特征对应的特征检测目标,作为所述预处理后图像中的多个待定检测目标;
确定每个所述待定检测目标对应的第一信息,并将所有所述待定检测目标对应的第一信息确定为所述预处理后图像的待定检测结果;所述第一信息至少包括第一位置信息以及第一检测框信息。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述待定检测结果,对所述预处理后图像进行检测目标去冗余操作,得到所述预处理后图像中的检测目标,包括:
根据所述待定检测结果,判断是否需要对所述预处理后图像进行图像分割操作;
当判断结果为否时,根据所述待定检测结果中每个所述待定检测目标对应的第一信息,确定每个所述待定检测目标对应的相交程度参数,并根据所有所述待定检测目标对应的相交程度参数,对所有所述待定检测目标进行检测目标去冗余操作,得到第一去冗余后检测目标,作为所述预处理后图像中的检测目标;
当判断结果为是时,根据所有所述待定检测目标对应的第一信息,对所述预处理后图像进行图像分割操作,得到每个所述待定检测目标对应的分割掩膜,并对每个所述待定检测目标与其对应的分割掩膜进行融合操作,得到每个所述待定检测目标对应的融合后检测目标;
确定每个所述融合后检测目标对应的第二信息,并根据每个所述融合后检测目标对应的第二信息,确定每个所述融合后检测目标对应的相交程度参数;所述第二信息至少包括第二位置信息以及第二检测框信息;
根据所有所述融合后检测目标对应的相交程度参数,对所有所述融合后检测目标进行检测目标去冗余操作,得到第二去冗余后检测目标,作为所述预处理后图像中的检测目标。
作为一种可选的实施方式,在本发明第一方面中,所述对每个所述待定检测目标与其对应的分割掩膜进行融合操作,得到每个所述待定检测目标对应的融合后检测目标,包括:
对于每一所述待定检测目标,确定所述待定检测目标在目标像素位置对应的置信度参数,以及所述待定检测目标对应的分割掩膜在所述目标像素位置对应的分割概率参数;
对于每一所述待定检测目标,根据预设的所述待定检测目标的第一融合权重参数、预设的所述待定检测目标对应的分割掩膜的第二融合权重参数、所述待定检测目标在所述目标像素位置对应的置信度参数以及所述待定检测目标对应的分割掩膜在所述目标像素位置对应的分割概率参数,确定所述目标像素位置对应的融合后置信度参数,并根据所述目标像素位置对应的融合后置信度参数,确定所述待定检测目标对应的融合后检测目标。
本发明第二方面公开了一种基于深度学习的图像解析装置,所述装置包括:
获取模块,用于获取待解析图像,并对所述待解析图像进行预处理操作,得到预处理后图像;
特征提取模块,用于对所述预处理后图像进行目标特征提取操作,得到所述预处理后图像对应的多个目标特征;
目标检测模块,用于根据所有所述目标特征,对所述预处理后图像进行目标检测操作,得到所述预处理后图像的待定检测结果;
去冗余模块,用于根据所述待定检测结果,对所述预处理后图像进行检测目标去冗余操作,得到所述预处理后图像中的检测目标;
确定模块,用于根据所述检测目标的目标信息,确定所述预处理后图像的目标检测结果,作为所述待解析图像的图像解析结果;所述目标信息包括位置信息、类别信息、检测框信息以及轮廓边界信息中的至少一种。
作为一种可选的实施方式,在本发明第二方面中,所述特征提取模块对所述预处理后图像进行目标特征提取操作,得到所述预处理后图像对应的多个目标特征的方式具体包括:
确定所述预处理后图像的图像场景信息,并根据所述图像场景信息,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个运动模糊特征;
根据所有所述运动模糊特征,对所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征;
根据所有所述运动模糊特征对应的遮挡目标特征,对所有所述运动模糊特征对应的遮挡目标特征进行语义特征提取操作,得到所有所述运动模糊特征对应的语义特征,作为所述预处理后图像对应的多个目标特征。
作为一种可选的实施方式,在本发明第二方面中,所述特征提取模块根据所述图像场景信息,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个运动模糊特征的方式具体包括:
根据所述图像场景信息,确定所述预处理后图像对应的运动模糊特征提取参数;所述运动模糊特征提取参数包括运动模糊特征提取位置参数、运动模糊特征提取类型参数以及运动模糊特征提取分辨率参数中的至少一种;
根据所述运动模糊特征提取参数,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个待处理运动模糊特征;
根据预设的特征处理参数,对所有所述待处理运动模糊特征进行处理,得到所述预处理后图像对应的多个运动模糊特征;所述特征处理参数包括特征尺寸处理参数和/或特征分辨率处理参数。
作为一种可选的实施方式,在本发明第二方面中,所述特征提取模块根据所有所述运动模糊特征,对所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征的方式具体包括:
根据所有所述运动模糊特征,对所有所述运动模糊特征进行感受野扩大操作,得到扩大后的所有所述运动模糊特征;
根据所述图像场景信息,确定所述预处理后图像对应的遮挡特征提取参数;所述遮挡特征提取参数包括遮挡特征提取位置参数和/或遮挡特征提取类型参数;
根据所述遮挡特征提取参数,对扩大后的所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征。
作为一种可选的实施方式,在本发明第二方面中,所述目标检测模块根据所有所述目标特征,对所述预处理后图像进行目标检测操作,得到所述预处理后图像的待定检测结果的方式具体包括:
确定每个所述目标特征的特征参数,并根据每个所述目标特征的特征参数,确定每个所述目标特征的检测注意力权重参数;所述特征参数包括特征尺寸参数和/或特征角度参数;
根据每个所述目标特征的特征参数以及对应的检测注意力权重参数,对所有所述目标特征进行目标检测操作,得到每个所述目标特征对应的特征检测目标,作为所述预处理后图像中的多个待定检测目标;
确定每个所述待定检测目标对应的第一信息,并将所有所述待定检测目标对应的第一信息确定为所述预处理后图像的待定检测结果;所述第一信息至少包括第一位置信息以及第一检测框信息。
作为一种可选的实施方式,在本发明第二方面中,所述去冗余模块根据所述待定检测结果,对所述预处理后图像进行检测目标去冗余操作,得到所述预处理后图像中的检测目标的方式具体包括:
根据所述待定检测结果,判断是否需要对所述预处理后图像进行图像分割操作;
当判断结果为否时,根据所述待定检测结果中每个所述待定检测目标对应的第一信息,确定每个所述待定检测目标对应的相交程度参数,并根据所有所述待定检测目标对应的相交程度参数,对所有所述待定检测目标进行检测目标去冗余操作,得到第一去冗余后检测目标,作为所述预处理后图像中的检测目标;
当判断结果为是时,根据所有所述待定检测目标对应的第一信息,对所述预处理后图像进行图像分割操作,得到每个所述待定检测目标对应的分割掩膜,并对每个所述待定检测目标与其对应的分割掩膜进行融合操作,得到每个所述待定检测目标对应的融合后检测目标;
确定每个所述融合后检测目标对应的第二信息,并根据每个所述融合后检测目标对应的第二信息,确定每个所述融合后检测目标对应的相交程度参数;所述第二信息至少包括第二位置信息以及第二检测框信息;
根据所有所述融合后检测目标对应的相交程度参数,对所有所述融合后检测目标进行检测目标去冗余操作,得到第二去冗余后检测目标,作为所述预处理后图像中的检测目标。
作为一种可选的实施方式,在本发明第二方面中,所述去冗余模块对每个所述待定检测目标与其对应的分割掩膜进行融合操作,得到每个所述待定检测目标对应的融合后检测目标的方式具体包括:
对于每一所述待定检测目标,确定所述待定检测目标在目标像素位置对应的置信度参数,以及所述待定检测目标对应的分割掩膜在所述目标像素位置对应的分割概率参数;
对于每一所述待定检测目标,根据预设的所述待定检测目标的第一融合权重参数、预设的所述待定检测目标对应的分割掩膜的第二融合权重参数、所述待定检测目标在所述目标像素位置对应的置信度参数以及所述待定检测目标对应的分割掩膜在所述目标像素位置对应的分割概率参数,确定所述目标像素位置对应的融合后置信度参数,并根据所述目标像素位置对应的融合后置信度参数,确定所述待定检测目标对应的融合后检测目标。
本发明第三方面公开了另一种基于深度学习的图像解析装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于深度学习的图像解析方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于深度学习的图像解析方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,对获取到的待解析图像进行预处理操作,得到预处理后图像;对预处理后图像进行目标特征提取操作,得到预处理后图像对应的多个目标特征,并根据所有目标特征,对预处理后图像进行目标检测操作,得到预处理后图像的待定检测结果;根据待定检测结果,对预处理后图像进行检测目标去冗余操作,得到预处理后图像中的检测目标,并根据检测目标的目标信息,确定预处理后图像的目标检测结果,作为待解析图像的图像解析结果。可见,实施本发明能够实现图像目标检测及图像分割一体化的智能图像解析过程,在降低了对图像解析复杂程度的情况下,提高了图像解析过程的灵活性及图像解析信息的丰富程度,进而提高了对图像解析的效率及精准度,从而有利于更好地满足用户对待解析图像的实时解析需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于深度学习的图像解析方法的流程示意图;
图2是本发明实施例公开的另一种基于深度学习的图像解析方法的流程示意图;
图3是本发明实施例公开的一种基于深度学习的图像解析装置的结构示意图;
图4是本发明实施例公开的另一种基于深度学习的图像解析装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于深度学习的图像解析方法、装置及计算机存储介质,能够实现图像目标检测及图像分割一体化的智能图像解析过程,提高了对图像解析的效率及精准度,有利于更好地满足用户对待解析图像的实时解析需求。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于深度学习的图像解析方法的流程示意图。其中,图1所描述的基于深度学习的图像解析方法可以应用于对各种类型的图像进行智能解析,如彩色RGB图像、红外图像、灰度图像等等,本发明实施例不做限定。可选的,该方法可以由图像智能解析装置来实现,该图像智能解析装置可以集成在图像智能解析设备中,而当图像智能解析装置独立存在时,其也可以是用于对图像解析流程进行处理的本地服务器或云端服务器等,本发明实施例不做限定。如图1所示,该基于深度学习的图像解析方法可以包括以下操作:
101、获取待解析图像,并对待解析图像进行预处理操作,得到预处理后图像。
在本发明实施例中,可选的,待解析图像的图像类型可以包括彩色RGB图像、红外图像或者灰度图像等等。进一步可选的,预处理操作可以包括图像尺寸调整操作、图像像素值归一化操作、去噪操作、图像转动操作以及对比度/清晰度增强操作等等中的一种或多种,以增强图像的视觉效果和提高后续图像解析模型的泛化能力和鲁棒性。
102、对预处理后图像进行目标特征提取操作,得到预处理后图像对应的多个目标特征,并根据所有目标特征,对预处理后图像进行目标检测操作,得到预处理后图像的待定检测结果。
在本发明实施例中,具体的,对预处理后图像进行的目标特征提取操作可由图像解析模型中的特征提取器来实现,而对预处理后图像进行的目标检测操作可由图像解析模型中的目标检测器来实现,其中,目标特征提取操作包括运动模糊特征提取操作、遮挡特征提取操作以及语义特征提取操作。可选的,预处理后图像的待定检测结果包括在对预处理后图像进行目标特征提取及目标检测之后得到的多个待定检测目标的第一位置信息、第一检测框信息(如检测框高度、宽度、置信度等)、第一类别信息以及第一轮廓边界信息等等。
举例来说,如将提取到的待处理后图像对应的多个目标特征输入至目标检测器中,该目标检测器能够自动学习和识别预处理后图像中的目标物体(即待定检测目标),继而输出该目标物体对应的位置信息、检测框信息和类别信息:Odetection=(x,y,w,h,class),从而可根据该目标物体对应的位置信息、检测框信息和类别信息,确定该预处理后图像的待定检测结果。
103、根据待定检测结果,对预处理后图像进行检测目标去冗余操作,得到预处理后图像中的检测目标,并根据检测目标的目标信息,确定预处理后图像的目标检测结果,作为待解析图像的图像解析结果。
在本发明实施例中,具体的,对预处理后图像进行的检测目标去冗余操作可由图像解析模型中的目标去冗余器来实现。可选的,目标信息包括位置信息、类别信息、检测框信息以及轮廓边界信息中的至少一种。进一步可选的,待解析图像的图像解析结果可以进一步用于后续的目标跟踪、场景理解等等。
可见,实施本发明实施例能够实现图像目标检测及图像分割一体化的智能图像解析过程,在降低了对图像解析复杂程度的情况下,提高了图像解析过程的灵活性及图像解析信息的丰富程度,进而提高了对图像解析的效率及精准度,从而有利于更好地满足用户对待解析图像的实时解析需求。
在一个可选的实施例中,上述步骤102中的根据所有目标特征,对预处理后图像进行目标检测操作,得到预处理后图像的待定检测结果,包括:
确定每个目标特征的特征参数,并根据每个目标特征的特征参数,确定每个目标特征的检测注意力权重参数;
根据每个目标特征的特征参数以及对应的检测注意力权重参数,对所有目标特征进行目标检测操作,得到每个目标特征对应的特征检测目标,作为预处理后图像中的多个待定检测目标;
确定每个待定检测目标对应的第一信息,并将所有待定检测目标对应的第一信息确定为预处理后图像的待定检测结果。
在该可选的实施例中,可选的,特征参数包括特征尺寸参数和/或特征角度参数。进一步可选的,第一信息至少包括第一位置信息以及第一检测框信息,还可以另外包括第一类别信息和/或第一轮廓边界信息。
需要说明的是,由于预处理后图像中可能会存在大范围的目标大小变化(如目标大小可能因为拍摄角度、距离等因素而产生较大差异),因此,通过目标检测器(如YOLOv8网络或其他能够实现多尺度检测的网络),采用多尺寸、多角度的方式,并利用各个目标特征之间不同的检测注意力权重参数(如不同的查询、键和值的线性映射),以捕获到各个目标特征之间的关系信息,从而确定出各个目标特征对应的特征检测目标,这样,通过多尺度检测方式及注意力适配机制,可以适应不同大小/角度的目标和不同的检测场景,从而提高图像解析模型的目标检测性能;另外,可以将此目标检测器在嵌入式设备和移动设备上运行,以满足实时性和低功耗要求。
可见,该可选的实施例能够通过各个目标特征的特征参数及对应的检测注意力权重参数,检测出预处理后图像中的多个待定检测目标,这样,通过多尺度检测方式及注意力适配机制,不仅有利于提高图像解析模型的目标检测效率,还有利于提高图像解析模型的目标检测适应性,以灵活满足用户对待解析图像的不同检测场景需求。
在另一个可选的实施例中,上述步骤103中的根据待定检测结果,对预处理后图像进行检测目标去冗余操作,得到预处理后图像中的检测目标,包括:
根据待定检测结果,判断是否需要对预处理后图像进行图像分割操作;
当判断结果为否时,根据待定检测结果中每个待定检测目标对应的第一信息,确定每个待定检测目标对应的相交程度参数,并根据所有待定检测目标对应的相交程度参数,对所有待定检测目标进行检测目标去冗余操作,得到第一去冗余后检测目标,作为预处理后图像中的检测目标;
当判断结果为是时,根据所有待定检测目标对应的第一信息,对预处理后图像进行图像分割操作,得到每个待定检测目标对应的分割掩膜,并对每个待定检测目标与其对应的分割掩膜进行融合操作,得到每个待定检测目标对应的融合后检测目标;
确定每个融合后检测目标对应的第二信息,并根据每个融合后检测目标对应的第二信息,确定每个融合后检测目标对应的相交程度参数;第二信息至少包括第二位置信息以及第二检测框信息;
根据所有融合后检测目标对应的相交程度参数,对所有融合后检测目标进行检测目标去冗余操作,得到第二去冗余后检测目标,作为预处理后图像中的检测目标。
在该可选的实施例中,可选的,该检测目标去冗余操作可以为非极大值抑制、阈值处理等操作。具体的,每个待定检测目标/融合后检测目标对应的相交程度参数可以理解为该待定检测目标与其他待定检测目标之间的相交程度、该融合后检测目标与其他融合后检测目标之间的相交程度。
进一步的,根据待定检测结果,判断是否需要对预处理后图像进行图像分割操作,包括:确定待定检测结果中每个待定检测目标对应的检测框置信度参数,并根据所有待定检测目标对应的检测框置信度参数,确定所有待定检测目标所对应的目标置信度参数;判断目标置信度参数是否小于预设的置信度阈值,若是,则确定不需要对预处理后图像进行图像分割操作,若否,则确定需要对预处理后图像进行图像分割操作;或者,
获取预处理后图像对应的目标需求参数,并根据目标需求参数,判断预处理后图像是否满足预设的分割需求条件,若是,则确定需要对预处理后图像进行图像分割操作,若否,则确定不需要对预处理后图像进行图像分割操作,其中,目标需求参数包括系统运行性能需求参数和/或用户分割需求参数。
再进一步的,根据所有待定检测目标对应的第一信息,对预处理后图像进行图像分割操作,得到每个待定检测目标对应的分割掩膜,包括:
根据所有待定检测目标对应的第一信息,生成每个待定检测目标对应的位置掩码参数;
根据每个待定检测目标对应的位置掩码参数以及对应的目标特征,对预处理后图像进行图像分割操作,得到每个待定检测目标对应的分割掩膜。
在该可选的实施例中,可选的,该图像分割操作可通过目标去冗余器中的分割网络实现,如MobileUNet、U-Net、Mask R-CNN等,这些算法能够对各个待定检测目标进行像素级的分类,以将预处理后图像中的每个像素或区域分配到不同的类别中,从而实现对预处理后图像的精细分类和分割,得到图像分割结果。特别地,图像分割阶段融合了目标检测阶段的先验信息,具体而言,在目标检测阶段,会得到各个待定检测目标的检测框信息,即各个待定检测目标在预处理后图像中的位置和大小,如目标检测器输出的Odetection信息中所包括检测框左上角坐标(x,y)、检测框宽度和高度(w,h)。继而,利用各个待定检测目标的检测框信息,可以生成相应的位置掩码(即分割掩膜),而生成位置掩码的方式可以是将待定检测目标的检测框内的像素置为1,其余像素置为0。
需要说明的是,生成的位置掩码反映了待定检测目标在预处理后图像中的精确位置,可以在分割任务中帮助分割网络更好地理解待定检测目标的位置信息,继而可以将生成的位置掩码作为附加通道分割网络的特征图进行拼接操作,调整分割网络的输入通道数,以接受额外的位置信息,并有效地对位置信息进行融合。通过引入位置信息,分割网络可以更好地理解待定检测目标在图像中的准确位置,使得分割网络在执行分割任务时更有针对性和准确性,从而提高分割网络对待定检测目标的精细分割效果。
又进一步的,对每个待定检测目标与其对应的分割掩膜进行融合操作,得到每个待定检测目标对应的融合后检测目标,包括:
对于每一待定检测目标,确定待定检测目标在目标像素位置对应的置信度参数,以及待定检测目标对应的分割掩膜在目标像素位置对应的分割概率参数;
对于每一待定检测目标,根据预设的待定检测目标的第一融合权重参数、预设的待定检测目标对应的分割掩膜的第二融合权重参数、待定检测目标在目标像素位置对应的置信度参数以及待定检测目标对应的分割掩膜在目标像素位置对应的分割概率参数,确定目标像素位置对应的融合后置信度参数,并根据目标像素位置对应的融合后置信度参数,确定待定检测目标对应的融合后检测目标。
在该可选的实施例中,该融合操作可以通过目标去冗余器中的融合网络来实现,以及该融合操作可以理解为对于目标像素位置,将待定检测目标在该目标像素位置对应的置信度参数及分割掩膜在该目标像素位置对应的分割概率参数进行加权结合(即该目标像素在待定检测结果中属于目标,在分割结果中也属于目标,则此目标像素就被认定为真正的像素,从而得到待定检测结果与图像分割结果的交集区域),其中,计算公式可如下:SoftFusion(i,j)=wd×Detection(i,j)+ws×Segmentation(i,j),Soft Fusion(i,j)为目标像素位置(i,j)对应的融合后置信度参数,Detection(i,j)为待定检测目标在目标像素位置(i,j)对应的置信度参数,Segmentation(i,j)待定检测目标对应的分割掩膜在目标像素位置(i,j)对应的分割概率参数,wd为第一融合权重参数以及ws为第二融合权重参数。
可见,该可选的实施例能够根据实际需求有选择性地关闭/开启图像分割操作,继而实现对预处理后图像的检测目标去冗余过程,得到预处理后图像中的检测目标,这样,提高了图像解析过程的灵活性及适用性,而在只需进行目标检测操作的场景中,还可以快速地对待解析图像进行解析,提高图像解析过程的响应速率,并避免不必要的计算资源浪费,实现对资源的高效利用;另外,通过待定检测目标在目标像素位置对应的置信度参数,以及待定检测目标对应的分割掩膜在目标像素位置对应的分割概率参数,确定出目标像素位置对应的融合后置信度参数,继而确定出待定检测目标对应的融合后检测目标,这样,有利于提高对预处理后图像的目标检测及图像分割操作的执行准确率,且丰富了图像解析信息,从而可以弥补单一网络当前可能存在的局限性,以确保各网络最终输出的结果更加全面及准确。
实施例二
请参阅图2,图2是本发明实施例公开的另一种基于深度学习的图像解析方法的流程示意图。其中,图2所描述的基于深度学习的图像解析方法可以应用于对各种类型的图像进行智能解析,如彩色RGB图像、红外图像、灰度图像等等,本发明实施例不做限定。可选的,该方法可以由图像智能解析装置来实现,该图像智能解析装置可以集成在图像智能解析设备中,而当图像智能解析装置独立存在时,其也可以是用于对图像解析流程进行处理的本地服务器或云端服务器等,本发明实施例不做限定。如图2所示,该基于深度学习的图像解析方法可以包括以下操作:
201、获取待解析图像,并对待解析图像进行预处理操作,得到预处理后图像。
202、确定预处理后图像的图像场景信息,并根据图像场景信息,对预处理后图像进行运动模糊特征提取操作,得到预处理后图像对应的多个运动模糊特征。
在本发明实施例中,可选的,图像场景信息可以包括城市街道场景信息、自然风光场景信息、工业场所场景信息等等。进一步的,该运动模糊特征提取操作可通过特征提取器中的第一特征提取网络来实现,其中,该第一特征提取网络可适配不同图像场景下的模糊效果,而并非采用静态的、预定义的模糊核,这样,通过引入学习能力,图像解析模型可以在训练中调整第一特征提取网络中各个卷积核的权重,使得它们更好地捕捉预处理后图像中的模糊模式,这种学习能力使得图像解析模型在处理各种模糊条件时更具鲁棒性。
203、根据所有运动模糊特征,对所有运动模糊特征进行遮挡特征提取操作,得到每个运动模糊特征对应的遮挡目标特征。
在本发明实施例中,进一步的,该遮挡特征提取操作可通过特征提取器中的第二特征提取网络来实现,其中,该第二特征提取网络可包含有初始卷积层及第一空洞卷积层,这样,可扩大卷积核的感受野,使得卷积核在处理预处理后图像时更广泛地考虑上下文信息,有助于更好地捕捉到遮挡目标的特征,继而还可进一步包含有多个第二空洞卷积层,以提取到各个运动模糊特征对应的遮挡目标特征。
204、根据所有运动模糊特征对应的遮挡目标特征,对所有运动模糊特征对应的遮挡目标特征进行语义特征提取操作,得到所有运动模糊特征对应的语义特征,作为预处理后图像对应的多个目标特征。
在本发明实施例中,举例来说,如将经第一特征提取网络和第二特征提取网络处理后的图像数据的特征向量输入至特征提取器中的骨干网络中,如ResNet、VGG、MobileNet等,以捕获图像数据的语义特征,其中包含了对物体、结构和场景等等的丰富理解,这个过程生成了一组鲁棒地去运动模糊与抗遮挡干扰的特征向量,这些特征向量是经过多重处理步骤筛选和提炼出来的,融合了去运动模糊和抗遮挡干扰的信息,以及骨干网络对图像数据整体的深层次理解。这样的特征向量对于后续的任务,如目标检测、图像分类或语义分割等等,提供了更为鲁棒和信息丰富的输入。
205、根据所有目标特征,对预处理后图像进行目标检测操作,得到预处理后图像的待定检测结果。
206、根据待定检测结果,对预处理后图像进行检测目标去冗余操作,得到预处理后图像中的检测目标,并根据检测目标的目标信息,确定预处理后图像的目标检测结果,作为待解析图像的图像解析结果。
在本发明实施例中,针对步骤201、步骤205及步骤206的其它描述,请参照实施例一中针对步骤101-步骤103的详细描述,本发明实施例不再赘述。
可见,实施本发明实施例能够对预处理后图像进行运动模糊特征提取、遮挡特征提取及语义特征提取操作,以得到预处理后图像对应的多个目标特征,这样,有利于融合去运动模糊、抗遮挡干扰的信息以及骨干网络对图像数据整体的深层次理解,进而有利于提高对预处理后图像的目标特征提取操作的执行可靠性及准确性,从而有利于提高后续对预处理后图像的目标检测操作的执行高效性。
在一个可选的实施例中,上述步骤202中的根据图像场景信息,对预处理后图像进行运动模糊特征提取操作,得到预处理后图像对应的多个运动模糊特征,包括:
根据图像场景信息,确定预处理后图像对应的运动模糊特征提取参数;
根据运动模糊特征提取参数,对预处理后图像进行运动模糊特征提取操作,得到预处理后图像对应的多个待处理运动模糊特征;
根据预设的特征处理参数,对所有待处理运动模糊特征进行处理,得到预处理后图像对应的多个运动模糊特征。
在该可选的实施例中,可选的,运动模糊特征提取参数包括运动模糊特征提取位置参数、运动模糊特征提取类型参数以及运动模糊特征提取分辨率参数中的至少一种。进一步可选的,特征处理参数包括特征尺寸处理参数和/或特征分辨率处理参数。
进一步的,第一特征提取网络可包含多个卷积层,可确保在运动模糊特征提取时的层次递进,并随着卷积层越多提取到的运动模糊特征的级别更高的同时,可逐步减小空间分辨率,以减轻计算负担;另外,还可以包含上采样层和反卷积层,以还原待处理运动模糊特征的尺寸及空间分辨率。这样,可以使得图像解析模型能够适应不同的图像模糊效果,提高对模糊图像的适应能力。
可见,该可选的实施例能够通过运动模糊特征提取参数、特征处理参数,对预处理后图像进行运动模糊特征提取操作,得到预处理后图像对应的多个运动模糊特征,这样,有利于提高得到的运动模糊特征的可靠性及准确性,进而有利于提高对预处理后图像的去模糊处理效果,从而有利于后续对运动模糊特征进行遮挡特征提取操作的顺利实现。
在另一个可选的实施例中,上述步骤203中的根据所有运动模糊特征,对所有运动模糊特征进行遮挡特征提取操作,得到每个运动模糊特征对应的遮挡目标特征,包括:
根据所有运动模糊特征,对所有运动模糊特征进行感受野扩大操作,得到扩大后的所有运动模糊特征;
根据图像场景信息,确定预处理后图像对应的遮挡特征提取参数;
根据遮挡特征提取参数,对扩大后的所有运动模糊特征进行遮挡特征提取操作,得到每个运动模糊特征对应的遮挡目标特征。
在该可选的实施例中,可选的,遮挡特征提取参数包括遮挡特征提取位置参数和/或遮挡特征提取类型参数。需要说明的是,本实施例的关键在于第二特征提取网络中第一空洞卷积层的设置,其可扩大卷积核的感受野,使得图像解析模型能够更好地理解遮挡场景,提高对遮挡目标的识别能力。此方法在处理遮挡问题时有助于增强模型对局部和全局上下文的感知。
可见,该可选的实施例能够通过空洞卷积层、遮挡特征提取参数等,对运动模糊特征进行遮挡特征提取操作,得到运动模糊特征对应的遮挡目标特征,这样,有利于提高得到的遮挡目标特征的可靠性及准确性,进而有利于提高对预处理后图像的抗遮挡处理效果,从而有利于后续对预处理后图像进行目标检测操作的顺利实现。
实施例三
请参阅图3,图3是本发明实施例公开的一种基于深度学习的图像解析装置的结构示意图。如图3所示,该基于深度学习的图像解析装置可以包括:
获取模块301,用于获取待解析图像,并对待解析图像进行预处理操作,得到预处理后图像;
特征提取模块302,用于对预处理后图像进行目标特征提取操作,得到预处理后图像对应的多个目标特征;
目标检测模块303,用于根据所有目标特征,对预处理后图像进行目标检测操作,得到预处理后图像的待定检测结果;
去冗余模块304,用于根据待定检测结果,对预处理后图像进行检测目标去冗余操作,得到预处理后图像中的检测目标;
确定模块305,用于根据检测目标的目标信息,确定预处理后图像的目标检测结果,作为待解析图像的图像解析结果。
在本发明实施例中,目标信息包括位置信息、类别信息、检测框信息以及轮廓边界信息中的至少一种。
可见,实施图3所描述的基于深度学习的图像解析装置能够实现图像目标检测及图像分割一体化的智能图像解析过程,在降低了对图像解析复杂程度的情况下,提高了图像解析过程的灵活性及图像解析信息的丰富程度,进而提高了对图像解析的效率及精准度,从而有利于更好地满足用户对待解析图像的实时解析需求。
在一个可选的实施例中,特征提取模块302对预处理后图像进行目标特征提取操作,得到预处理后图像对应的多个目标特征的方式具体包括:
确定预处理后图像的图像场景信息,并根据图像场景信息,对预处理后图像进行运动模糊特征提取操作,得到预处理后图像对应的多个运动模糊特征;
根据所有运动模糊特征,对所有运动模糊特征进行遮挡特征提取操作,得到每个运动模糊特征对应的遮挡目标特征;
根据所有运动模糊特征对应的遮挡目标特征,对所有运动模糊特征对应的遮挡目标特征进行语义特征提取操作,得到所有运动模糊特征对应的语义特征,作为预处理后图像对应的多个目标特征。
可见,实施图3所描述的基于深度学习的图像解析装置能够对预处理后图像进行运动模糊特征提取、遮挡特征提取及语义特征提取操作,以得到预处理后图像对应的多个目标特征,这样,有利于融合去运动模糊、抗遮挡干扰的信息以及骨干网络对图像数据整体的深层次理解,进而有利于提高对预处理后图像的目标特征提取操作的执行可靠性及准确性,从而有利于提高后续对预处理后图像的目标检测操作的执行高效性。
在另一个可选的实施例中,特征提取模块302根据图像场景信息,对预处理后图像进行运动模糊特征提取操作,得到预处理后图像对应的多个运动模糊特征的方式具体包括:
根据图像场景信息,确定预处理后图像对应的运动模糊特征提取参数;
根据运动模糊特征提取参数,对预处理后图像进行运动模糊特征提取操作,得到预处理后图像对应的多个待处理运动模糊特征;
根据预设的特征处理参数,对所有待处理运动模糊特征进行处理,得到预处理后图像对应的多个运动模糊特征。
在该可选的实施例中,运动模糊特征提取参数包括运动模糊特征提取位置参数、运动模糊特征提取类型参数以及运动模糊特征提取分辨率参数中的至少一种;特征处理参数包括特征尺寸处理参数和/或特征分辨率处理参数。
可见,实施图3所描述的基于深度学习的图像解析装置能够通过运动模糊特征提取参数、特征处理参数,对预处理后图像进行运动模糊特征提取操作,得到预处理后图像对应的多个运动模糊特征,这样,有利于提高得到的运动模糊特征的可靠性及准确性,进而有利于提高对预处理后图像的去模糊处理效果,从而有利于后续对运动模糊特征进行遮挡特征提取操作的顺利实现。
在又一个可选的实施例中,特征提取模块302根据所有运动模糊特征,对所有运动模糊特征进行遮挡特征提取操作,得到每个运动模糊特征对应的遮挡目标特征的方式具体包括:
根据所有运动模糊特征,对所有运动模糊特征进行感受野扩大操作,得到扩大后的所有运动模糊特征;
根据图像场景信息,确定预处理后图像对应的遮挡特征提取参数;
根据遮挡特征提取参数,对扩大后的所有运动模糊特征进行遮挡特征提取操作,得到每个运动模糊特征对应的遮挡目标特征。
在该可选的实施例中,遮挡特征提取参数包括遮挡特征提取位置参数和/或遮挡特征提取类型参数。
可见,实施图3所描述的基于深度学习的图像解析装置能够通过空洞卷积层、遮挡特征提取参数等,对运动模糊特征进行遮挡特征提取操作,得到运动模糊特征对应的遮挡目标特征,这样,有利于提高得到的遮挡目标特征的可靠性及准确性,进而有利于提高对预处理后图像的抗遮挡处理效果,从而有利于后续对预处理后图像进行目标检测操作的顺利实现。
在又一个可选的实施例中,目标检测模块303根据所有目标特征,对预处理后图像进行目标检测操作,得到预处理后图像的待定检测结果的方式具体包括:
确定每个目标特征的特征参数,并根据每个目标特征的特征参数,确定每个目标特征的检测注意力权重参数;
根据每个目标特征的特征参数以及对应的检测注意力权重参数,对所有目标特征进行目标检测操作,得到每个目标特征对应的特征检测目标,作为预处理后图像中的多个待定检测目标;
确定每个待定检测目标对应的第一信息,并将所有待定检测目标对应的第一信息确定为预处理后图像的待定检测结果。
在该可选的实施例中,特征参数包括特征尺寸参数和/或特征角度参数;第一信息至少包括第一位置信息以及第一检测框信息。
可见,实施图3所描述的基于深度学习的图像解析装置能够通过各个目标特征的特征参数及对应的检测注意力权重参数,检测出预处理后图像中的多个待定检测目标,这样,通过多尺度检测方式及注意力适配机制,不仅有利于提高图像解析模型的目标检测效率,还有利于提高图像解析模型的目标检测适应性,以灵活满足用户对待解析图像的不同检测场景需求。
在又一个可选的实施例中,去冗余模块304根据待定检测结果,对预处理后图像进行检测目标去冗余操作,得到预处理后图像中的检测目标的方式具体包括:
根据待定检测结果,判断是否需要对预处理后图像进行图像分割操作;
当判断结果为否时,根据待定检测结果中每个待定检测目标对应的第一信息,确定每个待定检测目标对应的相交程度参数,并根据所有待定检测目标对应的相交程度参数,对所有待定检测目标进行检测目标去冗余操作,得到第一去冗余后检测目标,作为预处理后图像中的检测目标;
当判断结果为是时,根据所有待定检测目标对应的第一信息,对预处理后图像进行图像分割操作,得到每个待定检测目标对应的分割掩膜,并对每个待定检测目标与其对应的分割掩膜进行融合操作,得到每个待定检测目标对应的融合后检测目标;
确定每个融合后检测目标对应的第二信息,并根据每个融合后检测目标对应的第二信息,确定每个融合后检测目标对应的相交程度参数;
根据所有融合后检测目标对应的相交程度参数,对所有融合后检测目标进行检测目标去冗余操作,得到第二去冗余后检测目标,作为预处理后图像中的检测目标。
在该可选的实施例中,第二信息至少包括第二位置信息以及第二检测框信息。
进一步的,作为一种可选的实施方式,去冗余模块304对每个待定检测目标与其对应的分割掩膜进行融合操作,得到每个待定检测目标对应的融合后检测目标的方式具体包括:
对于每一待定检测目标,确定待定检测目标在目标像素位置对应的置信度参数,以及待定检测目标对应的分割掩膜在目标像素位置对应的分割概率参数;
对于每一待定检测目标,根据预设的待定检测目标的第一融合权重参数、预设的待定检测目标对应的分割掩膜的第二融合权重参数、待定检测目标在目标像素位置对应的置信度参数以及待定检测目标对应的分割掩膜在目标像素位置对应的分割概率参数,确定目标像素位置对应的融合后置信度参数,并根据目标像素位置对应的融合后置信度参数,确定待定检测目标对应的融合后检测目标。
可见,实施图3所描述的基于深度学习的图像解析装置能够根据实际需求有选择性地关闭/开启图像分割操作,继而实现对预处理后图像的检测目标去冗余过程,得到预处理后图像中的检测目标,这样,提高了图像解析过程的灵活性及适用性,而在只需进行目标检测操作的场景中,还可以快速地对待解析图像进行解析,提高图像解析过程的响应速率,并避免不必要的计算资源浪费,实现对资源的高效利用;另外,通过待定检测目标在目标像素位置对应的置信度参数,以及待定检测目标对应的分割掩膜在目标像素位置对应的分割概率参数,确定出目标像素位置对应的融合后置信度参数,继而确定出待定检测目标对应的融合后检测目标,这样,有利于提高对预处理后图像的目标检测及图像分割操作的执行准确率,且丰富了图像解析信息,从而可以弥补单一网络当前可能存在的局限性,以确保各网络最终输出的结果更加全面及准确。
实施例四
请参阅图4,图4是本发明实施例公开的另一种基于深度学习的图像解析装置的结构示意图。如图4所示,该基于深度学习的图像解析装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的基于深度学习的图像解析方法中的步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的基于深度学习的图像解析方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的基于深度学习的图像解析方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于深度学习的图像解析方法、装置及计算机存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种基于深度学习的图像解析方法,其特征在于,所述方法包括:
获取待解析图像,并对所述待解析图像进行预处理操作,得到预处理后图像;
对所述预处理后图像进行目标特征提取操作,得到所述预处理后图像对应的多个目标特征,并根据所有所述目标特征,对所述预处理后图像进行目标检测操作,得到所述预处理后图像的待定检测结果;
根据所述待定检测结果,对所述预处理后图像进行检测目标去冗余操作,得到所述预处理后图像中的检测目标,并根据所述检测目标的目标信息,确定所述预处理后图像的目标检测结果,作为所述待解析图像的图像解析结果;所述目标信息包括位置信息、类别信息、检测框信息以及轮廓边界信息中的至少一种。
2.根据权利要求1所述的基于深度学习的图像解析方法,其特征在于,所述对所述预处理后图像进行目标特征提取操作,得到所述预处理后图像对应的多个目标特征,包括:
确定所述预处理后图像的图像场景信息,并根据所述图像场景信息,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个运动模糊特征;
根据所有所述运动模糊特征,对所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征;
根据所有所述运动模糊特征对应的遮挡目标特征,对所有所述运动模糊特征对应的遮挡目标特征进行语义特征提取操作,得到所有所述运动模糊特征对应的语义特征,作为所述预处理后图像对应的多个目标特征。
3.根据权利要求2所述的基于深度学习的图像解析方法,其特征在于,所述根据所述图像场景信息,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个运动模糊特征,包括:
根据所述图像场景信息,确定所述预处理后图像对应的运动模糊特征提取参数;所述运动模糊特征提取参数包括运动模糊特征提取位置参数、运动模糊特征提取类型参数以及运动模糊特征提取分辨率参数中的至少一种;
根据所述运动模糊特征提取参数,对所述预处理后图像进行运动模糊特征提取操作,得到所述预处理后图像对应的多个待处理运动模糊特征;
根据预设的特征处理参数,对所有所述待处理运动模糊特征进行处理,得到所述预处理后图像对应的多个运动模糊特征;所述特征处理参数包括特征尺寸处理参数和/或特征分辨率处理参数。
4.根据权利要求2所述的基于深度学习的图像解析方法,其特征在于,所述根据所有所述运动模糊特征,对所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征,包括:
根据所有所述运动模糊特征,对所有所述运动模糊特征进行感受野扩大操作,得到扩大后的所有所述运动模糊特征;
根据所述图像场景信息,确定所述预处理后图像对应的遮挡特征提取参数;所述遮挡特征提取参数包括遮挡特征提取位置参数和/或遮挡特征提取类型参数;
根据所述遮挡特征提取参数,对扩大后的所有所述运动模糊特征进行遮挡特征提取操作,得到每个所述运动模糊特征对应的遮挡目标特征。
5.根据权利要求1-4任一项所述的基于深度学习的图像解析方法,其特征在于,所述根据所有所述目标特征,对所述预处理后图像进行目标检测操作,得到所述预处理后图像的待定检测结果,包括:
确定每个所述目标特征的特征参数,并根据每个所述目标特征的特征参数,确定每个所述目标特征的检测注意力权重参数;所述特征参数包括特征尺寸参数和/或特征角度参数;
根据每个所述目标特征的特征参数以及对应的检测注意力权重参数,对所有所述目标特征进行目标检测操作,得到每个所述目标特征对应的特征检测目标,作为所述预处理后图像中的多个待定检测目标;
确定每个所述待定检测目标对应的第一信息,并将所有所述待定检测目标对应的第一信息确定为所述预处理后图像的待定检测结果;所述第一信息至少包括第一位置信息以及第一检测框信息。
6.根据权利要求5所述的基于深度学习的图像解析方法,其特征在于,所述根据所述待定检测结果,对所述预处理后图像进行检测目标去冗余操作,得到所述预处理后图像中的检测目标,包括:
根据所述待定检测结果,判断是否需要对所述预处理后图像进行图像分割操作;
当判断结果为否时,根据所述待定检测结果中每个所述待定检测目标对应的第一信息,确定每个所述待定检测目标对应的相交程度参数,并根据所有所述待定检测目标对应的相交程度参数,对所有所述待定检测目标进行检测目标去冗余操作,得到第一去冗余后检测目标,作为所述预处理后图像中的检测目标;
当判断结果为是时,根据所有所述待定检测目标对应的第一信息,对所述预处理后图像进行图像分割操作,得到每个所述待定检测目标对应的分割掩膜,并对每个所述待定检测目标与其对应的分割掩膜进行融合操作,得到每个所述待定检测目标对应的融合后检测目标;
确定每个所述融合后检测目标对应的第二信息,并根据每个所述融合后检测目标对应的第二信息,确定每个所述融合后检测目标对应的相交程度参数;所述第二信息至少包括第二位置信息以及第二检测框信息;
根据所有所述融合后检测目标对应的相交程度参数,对所有所述融合后检测目标进行检测目标去冗余操作,得到第二去冗余后检测目标,作为所述预处理后图像中的检测目标。
7.根据权利要求6所述的基于深度学习的图像解析方法,其特征在于,所述对每个所述待定检测目标与其对应的分割掩膜进行融合操作,得到每个所述待定检测目标对应的融合后检测目标,包括:
对于每一所述待定检测目标,确定所述待定检测目标在目标像素位置对应的置信度参数,以及所述待定检测目标对应的分割掩膜在所述目标像素位置对应的分割概率参数;
对于每一所述待定检测目标,根据预设的所述待定检测目标的第一融合权重参数、预设的所述待定检测目标对应的分割掩膜的第二融合权重参数、所述待定检测目标在所述目标像素位置对应的置信度参数以及所述待定检测目标对应的分割掩膜在所述目标像素位置对应的分割概率参数,确定所述目标像素位置对应的融合后置信度参数,并根据所述目标像素位置对应的融合后置信度参数,确定所述待定检测目标对应的融合后检测目标。
8.一种基于深度学习的图像解析装置,其特征在于,所述装置包括:
获取模块,用于获取待解析图像,并对所述待解析图像进行预处理操作,得到预处理后图像;
特征提取模块,用于对所述预处理后图像进行目标特征提取操作,得到所述预处理后图像对应的多个目标特征;
目标检测模块,用于根据所有所述目标特征,对所述预处理后图像进行目标检测操作,得到所述预处理后图像的待定检测结果;
去冗余模块,用于根据所述待定检测结果,对所述预处理后图像进行检测目标去冗余操作,得到所述预处理后图像中的检测目标;
确定模块,用于根据所述检测目标的目标信息,确定所述预处理后图像的目标检测结果,作为所述待解析图像的图像解析结果;所述目标信息包括位置信息、类别信息、检测框信息以及轮廓边界信息中的至少一种。
9.一种基于深度学习的图像解析装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的基于深度学习的图像解析方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的基于深度学习的图像解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410154579.0A CN117994529A (zh) | 2024-02-02 | 2024-02-02 | 基于深度学习的图像解析方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410154579.0A CN117994529A (zh) | 2024-02-02 | 2024-02-02 | 基于深度学习的图像解析方法、装置及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117994529A true CN117994529A (zh) | 2024-05-07 |
Family
ID=90886887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410154579.0A Pending CN117994529A (zh) | 2024-02-02 | 2024-02-02 | 基于深度学习的图像解析方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117994529A (zh) |
-
2024
- 2024-02-02 CN CN202410154579.0A patent/CN117994529A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163076B (zh) | 一种图像数据处理方法和相关装置 | |
CN111680690B (zh) | 一种文字识别方法及装置 | |
CN112132156A (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN111783749A (zh) | 一种人脸检测方法、装置、电子设备及存储介质 | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN112417955B (zh) | 巡检视频流处理方法及装置 | |
CN107704797B (zh) | 基于安防视频中行人和车辆的实时检测方法和系统及设备 | |
CN112614136A (zh) | 一种红外小目标实时实例分割方法及装置 | |
CN110991310A (zh) | 人像检测方法、装置、电子设备及计算机可读介质 | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 | |
CN112347805A (zh) | 一种多目标二维码检测识别方法、系统、装置及存储介质 | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
CN114255493A (zh) | 图像检测方法、人脸检测方法及装置、设备及存储介质 | |
CN115345895B (zh) | 用于视觉检测的图像分割方法、装置、计算机设备及介质 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN108304840B (zh) | 一种图像数据处理方法以及装置 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN116091781A (zh) | 一种用于图像识别的数据处理方法及装置 | |
CN116862920A (zh) | 一种人像分割方法、装置、设备及介质 | |
CN117994529A (zh) | 基于深度学习的图像解析方法、装置及计算机存储介质 | |
CN114821777A (zh) | 一种手势检测方法、装置、设备及存储介质 | |
CN114612907A (zh) | 一种车牌识别方法及装置 | |
CN114283087A (zh) | 一种图像去噪方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |