CN111738045B - 一种图像检测方法、装置、电子设备及存储介质 - Google Patents
一种图像检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111738045B CN111738045B CN202010060122.5A CN202010060122A CN111738045B CN 111738045 B CN111738045 B CN 111738045B CN 202010060122 A CN202010060122 A CN 202010060122A CN 111738045 B CN111738045 B CN 111738045B
- Authority
- CN
- China
- Prior art keywords
- module
- convolution
- output end
- feature
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 69
- 238000000605 extraction Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 230000001788 irregular Effects 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 24
- 238000010801 machine learning Methods 0.000 claims description 17
- 241000251468 Actinopterygii Species 0.000 claims description 4
- 239000000758 substrate Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000003384 imaging method Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像检测方法、装置、电子设备及存储介质,该方法通过获取鱼眼图像;根据训练后的对象确定模型中的特征提取模块对鱼眼图像进行特征提取,得到多个特征图像;特征提取模块包括至少一个可形变卷积层;多个特征图像的尺度互不相同;根据训练后的对象确定模型中的对象检测模块对多个特征图像进行检测,得到多个边界框;多个边界框均为不规则的四边形;确定多个边界框的每个边界框中对象的类别和位置信息。本申请通过引入可形变卷积层,可以自适应地生成采样位置,从而提取有效的畸变特征;另外,训练后的对象确定模型可以输出与对象匹配的畸变形状。如此,可以提高模型的鲁棒性,可以提高对象检测的精度。
Description
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种图像检测方法、装置、电子设备及存储介质。
背景技术
目标检测与识别作为提高目标感知能力的手段之一,尤其是基于视觉传感器完成目标的检测与识别。目前包括红外图像传感器和可见光图像传感器在内的传统视觉传感器由于成像范围的限制,在应用过程中极具局限性。鱼眼相机因成像范围可以达到360度,甚至720度,较好的弥补了上述缺陷,在提高目标感知能力的同时,降低感知系统的复杂性,并逐渐在增强现实技术(Augmented Reality,AR)、虚拟现实技术(Virtual Reality,VR)和自动驾驶等领域中备受青睐。
鱼眼图像的目标检测与识别作为目标检测与识别领域中一个极具挑战性的分支,其难度远大于常规的目标检测与识别。目前针对鱼眼图像的目标检测与识别算法相对较少。与常规图像相比,鱼眼图像最大的特点就是成像过程中会产生畸变等问题。依据预处理过程中是否进行畸变矫正可将现有算法分为基于畸变矫正和基于原始图像两类。在基于畸变矫正的目标检测与识别算法中,畸变矫正过程起着至关重要的作用,但畸变校正后的图像都存在丢失边缘信息的问题。而基于原始鱼眼图像的目标检测与识别算法将失真模型作为先验信息引入卷积核的设计中,从而提取畸变特征,最终完成检测识别任务。然而,上述方法都有一个重要的前提假设,即几何畸变是固定且已知的。故上述方法存在如下问题:
首先,由于鱼眼图像实际成像过程中的畸变中包含了因工艺制作而导致的未知畸变,故而造成目标在图像中存在扭曲失真是难以准确建模的,同时在成像过程中还会造成图像质量下降、目标物体的非对称性等问题。因此,从校正后的图像或人工设计的卷积核来提取鱼眼特征可能会严重影响检测的准确性和模型的鲁棒性。其次,由于用矩形框来检测目标则会因引入冗余误差、不同目标间的不必要的重叠以及标注不准确等问题带来较大的误差,从而无法提供相对准确的位置。
发明内容
本申请实施例提供了一种图像检测方法、装置、电子设备及存储介质,可以提高模型的鲁棒性,可以提高对象检测的准确度。
一方面,本申请实施例提供了一种图像检测方法,包括:
获取鱼眼图像;
根据训练后的对象确定模型中的特征提取模块对鱼眼图像进行特征提取,得到多个特征图像;特征提取模块包括至少一个可形变卷积层;多个特征图像的尺度互不相同;
根据训练后的对象确定模型中的对象检测模块对多个特征图像进行检测,得到多个边界框;多个边界框均为不规则的四边形;
确定多个边界框的每个边界框中对象的类别和位置信息。
另一方面,本申请实施例提供了一种图像检测装置,包括:
获取单元,用于获取鱼眼图像;
特征提取单元,用于根据训练后的对象确定模型中的特征提取模块对鱼眼图像进行特征提取,得到多个特征图像;特征提取模块包括至少一个可形变卷积层;多个特征图像的尺度互不相同;
对象检测单元,用于根据训练后的对象确定模型中的对象检测模块对多个特征图像进行检测,得到多个边界框;多个边界框均为不规则的四边形;
确定单元,用于确定多个边界框的每个边界框中对象的类别和位置信息。
另一方面,本申请实施例提供了一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行上述的图像检测方法。
另一方面,本申请实施例提供了一种计算机存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述的图像检测方法。
本申请实施例提供的一种图像检测方法、装置、电子设备及存储介质具有如下有益效果:
通过获取鱼眼图像;根据训练后的对象确定模型中的特征提取模块对鱼眼图像进行特征提取,得到多个特征图像;特征提取模块包括至少一个可形变卷积层;多个特征图像的尺度互不相同;根据训练后的对象确定模型中的对象检测模块对多个特征图像进行检测,得到多个边界框;多个边界框均为不规则的四边形;确定多个边界框的每个边界框中对象的类别和位置信息。本申请通过引入可形变卷积层,可以自适应地生成采样位置,从而提取有效的畸变特征;另外,训练后的对象确定模型可以输出与对象匹配的畸变形状。如此,可以提高模型的鲁棒性,可以提高对象检测的精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种应用场景的示意图;
图2是本申请实施例提供的一种图像检测方法的流程示意图;
图3是本申请实施例提供的一种特征提取提取模块的整体结构示意图;
图4是本申请实施例提供的一种对象确定模型中特征提取模块的部分结构示意图;
图5是本申请实施例提供的一种带标注的鱼眼图像的示意图;
图6是本申请实施例提供的一种基于向量叉乘确定采样点的数量的示意图;
图7是本申请实施例提供的一种图像检测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用场景的示意图,包括对象确定模型101和识别模块102,对象确定模型101包括特征提取模块1011和对象检测模块1012。由对象确定模型101和识别模块102组成的整体获取鱼眼图像后,依次经过上述2个模块输出鱼眼图像中对象的边界框以及边界框中对象的类别和位置信息。
鱼眼图像输入训练后的对象确定模型101,根据对象确定模型101中的特征提取模块1011对鱼眼图像进行特征提取,得到多个特征图像;其中,特征提取模块1011包括至少一个可形变卷积层,且多个特征图像的尺度互不相同。将该多个特征图像构成的鱼眼畸变特征金字塔输出至对象检测模块1012。根据对象检测模块1012对该鱼眼畸变特征金字塔进行检测,得到多个边界框,并输出该多个边界框至识别模块102;其中,多个边界框均为不规则的四边形。识别模块102确定多个边界框的每个边界框中对象的类别和位置信息。
本申请实施例中,对象确定模型101和识别模块102可以被设置在同一个设备中,比如移动终端、计算机终端、服务器或者类似的运算装置;可选的,对象确定模型101和识别模块102可以被设置在多个设备中,该多个设备处于一个系统中;可选的,对象确定模型101和识别模块102可以被设置在一个平台上。因此,本申请实施例的执行主体可以是移动终端、计算机终端、服务器或者类似的运算装置;可以是某个系统,还可以是某个平台。
以下介绍本申请一种图像检测方法的具体实施例,图2是本申请实施例提供的一种图像检测方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S201:获取鱼眼图像。
S203:根据训练后的对象确定模型中的特征提取模块对鱼眼图像进行特征提取,得到多个特征图像;特征提取模块包括至少一个可形变卷积层;多个特征图像的尺度互不相同。
S205:根据训练后的对象确定模型中的对象检测模块对多个特征图像进行检测,得到多个边界框;多个边界框均为不规则的四边形。
S207:确定多个边界框的每个边界框中对象的类别和位置信息。
本申请实施例中,通过鱼眼相机获取鱼眼图像。鱼眼图像是鱼眼相机在成像过程中产生畸变所形成的,且鱼眼图像具有较大的视场,因此实际应用过程中极具广泛性。将鱼眼图像输入训练后的对象确定模型中的特征提取模块,对鱼眼图像进行特征提取,得到多个特征图像。其中,多个特征图像的尺度互不相同。特征提取模块包括至少一个可形变卷积层。由上述得到的多个不同尺度的特征图像构成鱼眼畸变特征金字塔,根据训练后的对象确定模型中的对象检测模块对该鱼眼畸变特征金字塔的每一层进行检测,得到多个边界框,该多个边界框均为不规则的四边形;不规则的四边形均是与对象匹配的畸变形状。最后,确定多个边界框的每个边界框中对象的类别和位置信息。
本申请实施例中,在可形变卷积层中,对卷积核的每个采样点的位置都增加了一个偏移的变量。通过这些变量,卷积核就可以在当前位置附近随意的采样,而不再局限于之前的规则格点。这样扩展后的卷积操作被称为可变形卷积。可变形卷积层中增加的偏移量是网络结构的一部分,可以通过另外一个平行的标准卷积层计算得到,进而也可以通过梯度反向传播进行端到端的学习。加上该偏移量的学习之后,可变形卷积核的大小和位置可以根据当前图像的内容进行动态调整,即不同位置的卷积核采样点位置会根据图像内容发生自适应的变化,从而适应不同对象的形状、大小等几何形变。因此,本申请通过引入至少一个可形变卷积层,可以更加有效的提取鱼眼图像的畸变特征。
本申请实施例中,获取的鱼眼图像先通过对象确定模型中特征提取模块,特征提取模块包括了至少一个针对鱼眼图像的畸变特点设计的畸变特征提取模块,即该畸变特征提取模块包括了上述的可形变卷积层。另外,在特征提取模块中增加了上下层特征融合模块和多滤波器特征连接模块,如此,构建一个自适应鱼眼畸变特征金字塔。
本申请实施例中,多个特征图像的每个特征图像包括子区域集合;每个特征图像的子区域集合中子区域的数量不同。
一种可选的根据训练后的对象检测模块对多个特征图像进行检测,得到多个边界框的实施方式中,根据训练后的对象检测模块,对多个特征图像的每个特征图像中每个子区域生成边界框,得到多个边界框。
本申请实施例中,请参阅图3和图4,图3是本申请实施例提供的一种VGG16网络模型的主干网络的结构示意图,图4是本申请实施例提供的一种对象确定模型中特征提取模块的部分结构示意图,该特征提取模块以VGG16网络模型作为基础进行改进,在主干网络后加入4个卷积模块Conv8_2、Conv9_2、Conv10_2和Conv11_2作为扩展模块。图4中特征提取模块包括第一卷积模块(Conv3_3)、第二卷积模块(Conv4_3)、第三卷积模块(Conv7)、第四卷积模块(Conv8_2)、第五卷积模块(Conv9_2)、第六卷积模块(Conv10_2)、第七卷积模块(Conv11_2)、第一特征融合模块(FM1)、第二特征融合模块(FM2)和第三特征融合模块(FM3);上述7个卷积模块中至少一个卷积模块包括可形变卷积层。
可选的,Conv4_3、Conv7和Conv8_2分别包括一个可形变卷积层。在网络训练过程中,自动学习卷积采样点的位置偏移量,在不同位置、不同畸变程度下,卷积采样点的位置的偏移量均不相同,每一点在特征图像上的输出可以根据公式(1)确定:
其中,R表示卷积核的采样位置;pn表示R中的每个位置;△pn为偏移量。
FM1的输入端分别与Conv3_3的输出端、Conv4_3的输出端和Conv7的输出端连接;FM2的输入端分别与FM1的输出端、Conv7的输出端和Conv8_2的输出端连接;FM3的输入端分别与FM2的输出端、Conv8_2的输出端和Conv9_2的输出端连接。
可选的,如图4所示,FM1包括第一卷积层(Conv)、第一反卷积层(Deconv)和第一叠加层(Merge layer)。Conv的输入端(Feature layer1)与Conv3_3的输出端连接;Deconv的输入端(Layer3)与Conv7的输出端连接;Merge layer的输入端分别与Conv的输出端、Deconv的输出端和Conv4_3的输出端(Layer2)连接。可选的,Conv后还可以包括归一化层(BN)、激活层(Relu)和最大池化层(Maxpooling),Maxpooling的输出端与Merge layer的输入端连接;Deconv后也可以包括归一化层(BN)和激活层(Relu),Relu的输出端与Mergelayer的输入端连接。
同理,第二特征融合模块包括第二卷积层、第二反卷积层和第二叠加层;第二卷积层的输入端与第一叠加层的输出端连接;第二反卷积层的输入端与第四卷积模块的输出端连接;第二叠加层的输入端分别与第二卷积层的输出端、第二反卷积层的输出端和第三卷积模块的输出端连接。第三特征融合模块包括第三卷积层、第三反卷积层和第三叠加层;第三卷积层的输入端与第二叠加层的输出端连接;第三反卷积层的输入端与第五卷积模块的输出端连接;第三叠加层的输入端分别与第三卷积层的输出端、第三反卷积层的输出端和第四卷积模块的输出端连接。
本申请实施例中,通过引入第一特征融合模块、第二特征融合模块和第三特征融合模块,可以使得提取的畸变特征更加完整,从而提升模型效果。
可选的,如图4所示,特征提取模块还可以包括第一多滤波器特征连接模块(MFCM1)、第二多滤波器特征连接模块(MFCM2)和第三多滤波器特征连接模块(MFCM3)。MFCM1的输入端与FM1的输出端连接。MFCM2的输入端与FM2的输出端连接。MFCM3的输入端与FM3的输出端连接。
具体的,如图4所示,MFCM1包括3个采用不同尺度的卷积核的分支,第一个分支中卷积核尺度为1x1;第二个分支中卷积核尺度为3x3reduce;第三个分支中卷积核尺度为3x3reduce叠加3x3;将FM1的输出分别经过上述三个分支,并将上述三个分支的结果与FM1的输出进行叠加,得到MFCM1的输出。MFCM2包括2个采用不同尺度的卷积核的分支,第一个分支中卷积核尺度为1x1;第二个分支中卷积核尺度为7x7reduce_split;将FM2的输出分别经过上述两个分支,并将上述两个分支的结果与FM2的输出进行叠加,得到MFCM2的输出。MFCM3包括2个采用不同尺度的卷积核的分支,第一个分支中卷积核尺度为1x1;第二个分支中卷积核尺度为3x3reduce_split;将FM3的输出分别经过上述两个分支,并将上述两个分支的结果与FM3的输出进行叠加,得到MFCM3的输出。需要说明的是,3x3reduce_split以及7x7reduce_split表示在使用3x3以及7x7卷积之前利用1x1卷积来降低channel数目,并按照1x n卷积叠加n x1卷积来代替n x n卷积的思想来替换相应的3x3以及7x7卷积。3x3reduce表示在使用3x3卷积之前利用1x1卷积来降低channel数目。
可选的,选取MFCM1、MFCM2、MFCM3、Conv9_2、Conv10_2和Conv11_2输出的六个不同尺度的特征图像,构建鱼眼畸变特征金字塔。
本申请实施例中,还包括获取训练后的对象确定模型的步骤。首先,建立用于训练、验证和测试的鱼眼图像的数据集。数据集包括:(1)利用鱼眼相机采集设备获得的原始图像;(2)根据鱼眼镜头成像的原理,基于PASCAL VOC2007/2012构建用于检测与识别的鱼眼数据集,同时为模拟真实的场景,此部分模拟了多类不同的镜头参数下的鱼眼数据。数据集中的对象用不规则的四边形进行标注,标注的信息包括对象的理想类别信息以及相应的理想边框的四个角点的位置信息(x1,y1,x2,y2,x3,y3,x4,y4)。请参阅图5,图5是本申请实施例提供的一种带标注的鱼眼图像的示意图。将该数据集划分成训练样本集、验证集以及测试集三部分。其次,对经过标注的鱼眼数据集进行数据预处理操作:首先完成颜色对比度变化、随机扩展图像、随机裁剪图像、随机图像翻转等数据增强操作,然后对图像进行归一化操作,再对上述图像完成去均值操作,最后将图像尺寸统一缩放到300×300的大小。
一种可选的获取训练后的对象确定模型的实施方式中,首先获取训练样本图像、训练样本图像中对象的理想边框的位置信息和对象的理想类别;理想边框为不规则的四边形。其次,构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型;预设机器学习模型包括特征提取模块和对象检测模块。基于特征提取模块,对训练样本图像进行特征提取,得到多个训练特征图像;基于对象检测模块,对多个训练特征图像进行检测,得到多个候选框;确定多个候选框的每个候选框中对象的类别和位置信息;从多个候选框中确定目标候选框;目标候选框与理想边框的重叠程度值为预设重叠程度值;基于目标候选框中对象的位置信息与对象的理想边框的位置信息确定第一损失值;基于目标候选框中对象的类别与对象的理想类别确定第二损失值;基于第一损失值和第二损失值确定第三损失值;当第三损失值大于预设阈值时,基于第三损失值进行反向传播,对当前机器学习模型进行更新以得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;重复步骤:基于特征提取模块,对训练样本图像进行特征提取,得到多个训练特征图像;基于对象检测模块,对多个训练特征图像进行检测,得到多个候选框;当第三损失值小于预设阈值时,得到训练后的对象确定模型,将第三损失值对应的当前参数作为训练后的对象确定模型的参数。上述预设机器学习模型在训练过程中,输出的每个结果包含9个指标:类别置信度以及位置的八个偏移量(△x1,△y1,△x2,△y2,△x3,△y3,△x4,△y4)。同时将候选框与理想边框进行匹配,生成候选框标注类别以及相应的偏移量,作为网络训练过程中的正负样本。
一种可选的从多个候选框中确定目标候选框的实施方式中,计算利用向量叉乘、蒙特卡洛的思想求出多个候选框与理想边框之间的IOU(Intersection over Union),包括:从多个训练特征图像确定采样点集合。其次,确定采样点集合中位于理想边框内的采样点的数量,并确定采样点集合中位于每个候选框内的采样点的数量;基于位于每个候选框内的采样点的数量和位于理想边框内的采样点的数量确定多个重叠程度值;确定数值最大的重叠程度值对应的候选框为目标候选框。
具体的,请参阅图6,图6是本申请实施例提供的一种基于向量叉乘确定采样点的数量的示意图,其中BCEG为理想边框,AHFD为候选框。随机采样N个点,然后利用向量叉乘判断随机点Pk属于候选框还是理想边框。例如,可以根据公式(2)确定Pk是否在理想边框BCEG中:
BC×BPk>0,CE×CPk>0
EG×EPk>0,GB×GPk>0……(2)
若公式(2)中的4个等式均成立,则表示Pk在理想边框BCEG中。
其次,根据公式(3)确定重叠程度值IOU:
其中,num(Setanchor)表示位于候选框AHFD内的采样点的数量;num(Settrue)表示位于理想边框BCEG内的采样点的数量;num(I)表示位于相交区域的采样点的数量。
如此,根据公式(3)确定出每个候选框与理想边框之间的IOU,并为每一个理想边框分配IOU值最大的候选框作为目标候选框。再遍历剩下的候选框,根据设置的阈值判断是否为剩余的候选框分配理想边框。
本申请实施例中,基于目标候选框中对象的位置信息与对象的理想边框的位置信息确定第一损失值,即根据候选框与理想边框之间的相对位置为候选框标注偏移量(△x1,△y1,△x2,△y2,△x3,△y3,△x4,△y4),其中, 表示理想边框的坐标,/>表示目标候选框的坐标;wab和hab分别表示目标候选框的长和宽。
一种可选的基于第一损失值和第二损失值确定第三损失值的实施方式中,可以根据公式(4)确定第三损失函数,从而确定第三损失值:
Loss=1/N(Lconf+αLloc)……(4)
其中,Lconf表示类别置信度损失函数;Lloc表示位置损失函数;N表示匹配的候选框的个数。Lconf以及Lloc的定义可以参见SSD网络模型中损失函数的方案。
本申请实施例中,训练后的对象确定模型可以生成预设数量个边界框,该边界框基于预测的偏移值生成。可选的,该预设数量可以是8732。实际运用时,对8732个边界框根据设定的阈值过滤掉置信度低于阈值的边界框,再使用非极大值抑制(Non-MaximumSuppression,NMS)算法去掉重叠较大的边框,得到过滤后的边界框。最后确定边界框中对象的类别和位置信息。
本申请采用深度神经网络,通过引入可形变卷积层自适应地生成采样位置,与现有技术相比,无须将鱼眼畸变作为先验知识构造卷积形式,同时引入上下层特征融合以及多滤波器特征连接的方法,可以构造更加有效的鱼眼畸变特征金字塔,从而允许任意鱼眼畸变的图像输入,可以提高模型的鲁棒性;另外,通过对象检测模块可以精确定位鱼眼图像中的各种畸变对象,如此,可以提高对象检测精度。
本申请实施例还提供了一种图像检测装置,图7是本申请实施例提供的一种图像检测装置的结构示意图,如图7所示,该装置包括:
获取单元701,用于获取鱼眼图像;
特征提取单元702,用于根据训练后的对象确定模型中的特征提取模块对鱼眼图像进行特征提取,得到多个特征图像;特征提取模块包括至少一个可形变卷积层;多个特征图像的尺度互不相同;
对象检测单元703,用于根据训练后的对象确定模型中的对象检测模块对多个特征图像进行检测,得到多个边界框;多个边界框均为不规则的四边形;
确定单元704,用于确定多个边界框的每个边界框中对象的类别和位置信息。
本申请实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例还提供了一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行上述的图像检测方法。
本申请实施例还提供了一种计算机存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述的图像检测方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的图像检测方法、装置、电子设备或存储介质的实施例可见,本申请中通过获取鱼眼图像;根据训练后的对象确定模型中的特征提取模块对鱼眼图像进行特征提取,得到多个特征图像;特征提取模块包括至少一个可形变卷积层;多个特征图像的尺度互不相同;根据训练后的对象确定模型中的对象检测模块对多个特征图像进行检测,得到多个边界框;多个边界框均为不规则的四边形;确定多个边界框的每个边界框中对象的类别和位置信息。本申请通过引入可形变卷积层,可以自适应地生成采样位置,从而提取有效的畸变特征;另外,训练后的对象确定模型可以输出与对象匹配的畸变形状。如此,可以提高模型的鲁棒性,可以提高对象检测的精度。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种图像检测方法,其特征在于,包括:
获取鱼眼图像;
根据训练后的对象确定模型中的特征提取模块对所述鱼眼图像进行特征提取,得到多个特征图像;所述特征提取模块包括至少一个可形变卷积层;所述多个特征图像的尺度互不相同;
根据所述训练后的对象确定模型中的对象检测模块对所述多个特征图像进行检测,得到多个边界框;所述多个边界框均为不规则的四边形;
确定所述多个边界框的每个边界框中对象的类别和位置信息;
所述特征提取模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第一特征融合模块、第二特征融合模块和第三特征融合模块;所述第一卷积模块、所述第二卷积模块、所述第三卷积模块、所述第四卷积模块和所述第五卷积模块中至少一个卷积模块包括所述可形变卷积层;
所述第一特征融合模块的输入端分别与所述第一卷积模块的输出端、所述第二卷积模块的输出端和所述第三卷积模块的输出端连接;
所述第二特征融合模块的输入端分别与所述第一特征融合模块的输出端、所述第三卷积模块的输出端和所述第四卷积模块的输出端连接;
所述第三特征融合模块的输入端分别与所述第二特征融合模块的输出端、所述第四卷积模块的输出端和所述第五卷积模块的输出端连接。
2.根据权利要求1所述的方法,其特征在于,
所述第一特征融合模块包括第一卷积层、第一反卷积层和第一叠加层;
所述第一卷积层的输入端与所述第一卷积模块的输出端连接;
所述第一反卷积层的输入端与所述第三卷积模块的输出端连接;
所述第一叠加层的输入端分别与所述第一卷积层的输出端、所述第一反卷积层的输出端和所述第二卷积模块的输出端连接;
所述第二特征融合模块包括第二卷积层、第二反卷积层和第二叠加层;
所述第二卷积层的输入端与所述第一叠加层的输出端连接;
所述第二反卷积层的输入端与所述第四卷积模块的输出端连接;
所述第二叠加层的输入端分别与所述第二卷积层的输出端、所述第二反卷积层的输出端和所述第三卷积模块的输出端连接;
所述第三特征融合模块包括第三卷积层、第三反卷积层和第三叠加层;
所述第三卷积层的输入端与所述第二叠加层的输出端连接;
所述第三反卷积层的输入端与所述第五卷积模块的输出端连接;
所述第三叠加层的输入端分别与所述第三卷积层的输出端、所述第三反卷积层的输出端和所述第四卷积模块的输出端连接。
3.根据权利要求1所述的方法,其特征在于,所述特征提取模块还包括第一多滤波器特征连接模块、第二多滤波器特征连接模块和第三多滤波器特征连接模块;
所述第一多滤波器特征连接模块的输入端与所述第一特征融合模块的输出端连接;
所述第二多滤波器特征连接模块的输入端与所述第二特征融合模块的输出端连接;
所述第三多滤波器特征连接模块的输入端与所述第三特征融合模块的输出端连接。
4.根据权利要求1所述的方法,其特征在于,所述多个特征图像的每个特征图像包括子区域集合;所述每个特征图像的子区域集合中子区域的数量不同;
所述根据训练后的对象检测模块对所述多个特征图像进行检测,得到多个边界框,包括:
根据训练后的对象检测模块,对所述多个特征图像的每个特征图像中每个子区域生成边界框,得到所述多个边界框。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括获取所述训练后的对象确定模型的步骤;
所述获取所述训练后的对象确定模型,包括:
获取训练样本图像、所述训练样本图像中对象的理想边框的位置信息和对象的理想类别;所述理想边框为不规则的四边形;
构建预设机器学习模型,将所述预设机器学习模型确定为当前机器学习模型;所述预设机器学习模型包括特征提取模块和对象检测模块;
基于所述特征提取模块,对所述训练样本图像进行特征提取,得到多个训练特征图像;
基于所述对象检测模块,对所述多个训练特征图像进行检测,得到多个候选框;
确定所述多个候选框的每个候选框中对象的类别和位置信息;
从所述多个候选框中确定目标候选框;所述目标候选框与所述理想边框的重叠程度值为预设重叠程度值;
基于所述目标候选框中对象的位置信息与所述对象的理想边框的位置信息确定第一损失值;
基于所述目标候选框中对象的类别与所述对象的理想类别确定第二损失值;
基于所述第一损失值和所述第二损失值确定第三损失值;
当所述第三损失值大于预设阈值时,基于所述第三损失值进行反向传播,对所述当前机器学习模型进行更新以得到更新后的机器学习模型,将所述更新后的机器学习模型重新确定为所述当前机器学习模型;重复步骤:基于所述特征提取模块,对所述训练样本图像进行特征提取,得到多个训练特征图像;基于所述对象检测模块,对所述多个训练特征图像进行检测,得到多个候选框;
当所述第三损失值小于预设阈值时,得到训练后的对象确定模型,将所述第三损失值对应的当前参数作为所述训练后的对象确定模型的参数。
6.根据权利要求5所述的方法,其特征在于,所述多个候选框中确定目标候选框,包括:
从所述多个训练特征图像确定采样点集合;
确定所述采样点集合中位于所述理想边框内的采样点的数量;
确定所述采样点集合中位于每个所述候选框内的采样点的数量;
基于所述位于每个所述候选框内的采样点的数量和所述位于所述理想边框内的采样点的数量确定多个重叠程度值;
确定数值最大的重叠程度值对应的候选框为目标候选框。
7.一种图像检测装置,其特征在于,包括:
获取单元,用于获取鱼眼图像;
特征提取单元,用于根据训练后的对象确定模型中的特征提取模块对所述鱼眼图像进行特征提取,得到多个特征图像;所述特征提取模块包括至少一个可形变卷积层;所述多个特征图像的尺度互不相同;
对象检测单元,用于根据所述训练后的对象确定模型中的对象检测模块对所述多个特征图像进行检测,得到多个边界框;所述多个边界框均为不规则的四边形;
确定单元,用于确定所述多个边界框的每个边界框中对象的类别和位置信息;
其中,所述特征提取模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第一特征融合模块、第二特征融合模块和第三特征融合模块;所述第一卷积模块、所述第二卷积模块、所述第三卷积模块、所述第四卷积模块和所述第五卷积模块中至少一个卷积模块包括所述可形变卷积层;
所述第一特征融合模块的输入端分别与所述第一卷积模块的输出端、所述第二卷积模块的输出端和所述第三卷积模块的输出端连接;
所述第二特征融合模块的输入端分别与所述第一特征融合模块的输出端、所述第三卷积模块的输出端和所述第四卷积模块的输出端连接;
所述第三特征融合模块的输入端分别与所述第二特征融合模块的输出端、所述第四卷积模块的输出端和所述第五卷积模块的输出端连接。
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-6任一所述的图像检测方法。
9.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-6任一所述的图像检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010060122.5A CN111738045B (zh) | 2020-01-19 | 2020-01-19 | 一种图像检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010060122.5A CN111738045B (zh) | 2020-01-19 | 2020-01-19 | 一种图像检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738045A CN111738045A (zh) | 2020-10-02 |
CN111738045B true CN111738045B (zh) | 2024-04-19 |
Family
ID=72646202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010060122.5A Active CN111738045B (zh) | 2020-01-19 | 2020-01-19 | 一种图像检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738045B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022126374A1 (zh) * | 2020-12-15 | 2022-06-23 | 深圳市大疆创新科技有限公司 | 图像标注方法、装置、电子设备及计算机可读存储介质 |
CN112651346A (zh) * | 2020-12-29 | 2021-04-13 | 青海三新农电有限责任公司 | 一种基于深度学习的流媒体视频识别与检测方法 |
CN113361473B (zh) * | 2021-06-30 | 2023-12-08 | 北京百度网讯科技有限公司 | 图像处理、模型训练方法、装置、设备、存储介质及程序 |
CN114119666B (zh) * | 2021-11-26 | 2024-07-05 | 江苏科技大学 | 采用极坐标变换法的不规则边框目标跟踪系统及方法 |
CN115631112B (zh) * | 2022-11-18 | 2023-03-14 | 北京飞渡科技有限公司 | 一种基于深度学习的建筑轮廓矫正方法及装置 |
CN116246209B (zh) * | 2023-03-09 | 2024-02-13 | 彩虹鱼科技(广东)有限公司 | 基于偏移卷积核的广角镜头生物目标检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844750A (zh) * | 2017-10-19 | 2018-03-27 | 华中科技大学 | 一种水面全景图像目标检测识别方法 |
CN109376576A (zh) * | 2018-08-21 | 2019-02-22 | 中国海洋大学 | 基于交替更新密集连通从零训练网络的目标检测方法 |
CN110047069A (zh) * | 2019-04-22 | 2019-07-23 | 北京青燕祥云科技有限公司 | 一种图像检测装置 |
CN110334752A (zh) * | 2019-06-26 | 2019-10-15 | 电子科技大学 | 一种基于梯形卷积的不规则形状物体检测方法 |
CN110414307A (zh) * | 2018-04-26 | 2019-11-05 | 沃尔沃汽车公司 | 用于半自动图像分割和注释的方法和系统 |
WO2019223397A1 (zh) * | 2018-05-23 | 2019-11-28 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、计算机设备和计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095944B2 (en) * | 2015-08-28 | 2018-10-09 | Tata Consultancy Services Limited | Methods and systems for shape based image analysis for detecting linear objects |
JP7059054B2 (ja) * | 2018-03-13 | 2022-04-25 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
-
2020
- 2020-01-19 CN CN202010060122.5A patent/CN111738045B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844750A (zh) * | 2017-10-19 | 2018-03-27 | 华中科技大学 | 一种水面全景图像目标检测识别方法 |
CN110414307A (zh) * | 2018-04-26 | 2019-11-05 | 沃尔沃汽车公司 | 用于半自动图像分割和注释的方法和系统 |
WO2019223397A1 (zh) * | 2018-05-23 | 2019-11-28 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、计算机设备和计算机存储介质 |
CN109376576A (zh) * | 2018-08-21 | 2019-02-22 | 中国海洋大学 | 基于交替更新密集连通从零训练网络的目标检测方法 |
CN110047069A (zh) * | 2019-04-22 | 2019-07-23 | 北京青燕祥云科技有限公司 | 一种图像检测装置 |
CN110334752A (zh) * | 2019-06-26 | 2019-10-15 | 电子科技大学 | 一种基于梯形卷积的不规则形状物体检测方法 |
Non-Patent Citations (5)
Title |
---|
FisheyeDet: A Self-Study and Contour-Based Object Detector in Fisheye Images;TANGWEI LI 等;《IEEE Access》;第8卷;71739-71751 * |
Real-Time Semantic Segmentation for Fisheye Urban Driving Images Based on ERFNet;Álvaro Sáez 等;《sensors》;1-20 * |
Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras;Liuyuan Deng 等;《arXiv》;1-13 * |
大视场域的目标检测与识别算法综述;李唐薇 等;《激光与光电子学进展》;第57卷(第12期);120002-1-120002-15 * |
鱼眼图像协同性目标检测方法;张力丹 等;《天津理工大学学报》;第33卷(第4期);41-45 * |
Also Published As
Publication number | Publication date |
---|---|
CN111738045A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738045B (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
CN108399386B (zh) | 饼图中的信息提取方法及装置 | |
CN108664981B (zh) | 显著图像提取方法及装置 | |
US11145080B2 (en) | Method and apparatus for three-dimensional object pose estimation, device and storage medium | |
US9767383B2 (en) | Method and apparatus for detecting incorrect associations between keypoints of a first image and keypoints of a second image | |
KR102195826B1 (ko) | 주요지점 식별 | |
CN113744142B (zh) | 图像修复方法、电子设备及存储介质 | |
AU2020289853A1 (en) | Matching method and apparatus, electronic device, computer-readable storage medium, and computer program | |
CN112991374B (zh) | 基于Canny算法的边缘增强方法、装置、设备及存储介质 | |
WO2015035462A1 (en) | Point feature based 2d-3d registration | |
CN111415364A (zh) | 一种计算机视觉中图像分割样本的转换方法、系统及存储介质 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
US10521918B2 (en) | Method and device for filtering texture, using patch shift | |
CN108960247B (zh) | 图像显著性检测方法、装置以及电子设备 | |
Leavline et al. | On teaching digital image processing with MATLAB | |
CN104268550B (zh) | 特征提取方法及装置 | |
CN112364807B (zh) | 图像识别方法、装置、终端设备及计算机可读存储介质 | |
CN109033797B (zh) | 一种权限设置方法及装置 | |
CN111178200A (zh) | 一种仪表盘指示灯的识别方法及计算设备 | |
CN116012393A (zh) | 一种纸箱点云分割方法、装置以及处理设备 | |
CN115374517A (zh) | 布线软件的测试方法、装置、电子设备及存储介质 | |
CN115908802A (zh) | 摄像头遮挡检测方法、装置、电子设备及可读存储介质 | |
CN111598943B (zh) | 基于书本辅助阅读设备的书本就位检测方法、装置及设备 | |
CN110751163A (zh) | 目标定位方法及其装置、计算机可读存储介质和电子设备 | |
CN109815791B (zh) | 基于血管的身份识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |