CN112580581A - 目标检测方法、装置及电子设备 - Google Patents
目标检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112580581A CN112580581A CN202011579999.1A CN202011579999A CN112580581A CN 112580581 A CN112580581 A CN 112580581A CN 202011579999 A CN202011579999 A CN 202011579999A CN 112580581 A CN112580581 A CN 112580581A
- Authority
- CN
- China
- Prior art keywords
- image
- convolutional layer
- target detection
- neural network
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000003062 neural network model Methods 0.000 claims description 64
- 230000006870 function Effects 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 6
- 238000012216 screening Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明实施例提供了目标检测方法、装置及电子设备,应用于计算机视觉的目标检测领域。该方法应用于边缘计算服务器,该方法包括:获取待检测图像;利用预先训练好的目标检测模型,对待检测图像进行目标检测,得到检测结果;其中,目标检测模型为基于样本图像和样本图像的标注结果训练得到的,目标检测模型包含用于提取图像特征的残差网络,残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层,扩展卷积层包含第一数量个输入通道和第二数量个输出通道,投影卷积层包含第二数量个输入通道和第一数量个输出通道,第二数量大于第一数量。通过本方案,可以在有限算力的边缘侧微型服务器上,提升目标检测的准确性。
Description
技术领域
本发明涉及计算机视觉的目标检测领域,特别是涉及目标检测方法、装置及电子设备。
背景技术
随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机视觉技术对目标进行实时检测研究越来越热门,对目标进行实时检测在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。
随着社会的进步,人们对目标检测设备的成本、实时性、智能化等方面提出的更加严格要求。为解决这一问题,边缘计算服务器应运而生。边缘计算服务器相比传统服务器更加轻便,但存储能力和计算能力较小。
由于边缘计算服务器的计算能力的限制,使得运行在边缘计算服务器上的目标检测模型只能在低维度空间获取待检测图像的图像特征,导致无法准确的检测目标。
发明内容
本发明实施例的目的在于提供目标检测方法、装置及电子设备,以提升目标检测的准确性。具体技术方案如下:
第一方面,本发明实施例提供一种目标检测方法,应用于边缘计算服务器,所述方法包括:
获取待检测图像;
利用预先训练好的目标检测模型,对所述待检测图像进行目标检测,得到检测结果;其中,所述目标检测模型为基于样本图像和所述样本图像的标注结果训练得到的,所述目标检测模型的包含用于提取图像特征的残差网络,所述残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层,所述扩展卷积层包含第一数量个输入通道和第二数量个输出通道,所述投影卷积层包含所述第二数量个输入通道和所述第一数量个输出通道,所述第二数量大于所述第一数量。
可选的,通过以下步骤得到所述目标检测模型:
将所述样本图像输入至待训练的神经网络模型,得到所述神经网络模型预测的所述样本图像的检测结果,作为预测检测结果;
基于所述预测检测结果和所述样本图像的标注结果,计算所述神经网络模型的损失函数值;
根据所述损失函数值,判断所述神经网络模型是否收敛,当所述神经网络模型未收敛时,根据所述损失函数值调整所述神经网络模型参数,并进行下一次训练,当所述神经网络模型收敛时,得到训练完成的所述神经网络模型,作为所述目标检测模型。
可选的,所述样本图像包括:经过图像增强处理和/或图像中目标所占比例大于预设比例阈值的图像。
可选的,所述目标检测网络包含用于检测目标的目标检测器;
所述利用预先训练好的目标检测模型,对所述待检测图像进行目标检测,得到检测结果,包括:
将所述待检测图像输入至所述目标检测模型,以使所述残差网络提取所述待检测图像的特征图,并通过所述目标检测器对所述特征图进行下采样,以根据下采样后的特征图确定检测结果。
可选的,所述目标检测器为YOLO目标检测器。
可选的,所述投影卷积层由1×1卷积层和归一化层构成。
第二方面,本发明实施例提供了一种目标检测装置,应用于边缘计算服务器,所述装置包括:
图像获取模块,用于获取待检测图像;
图像检测模块,用于利用预先训练好的目标检测模型,对所述待检测图像进行目标检测,得到检测结果;其中,所述目标检测模型为基于样本图像和所述样本图像的标注结果训练得到的,所述目标检测模型的包含用于提取图像特征的残差网络,所述残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层,所述扩展卷积层包含第一数量个输入通道和第二数量个输出通道,所述投影卷积层包含所述第二数量个输入通道和所述第一数量个输出通道,所述第二数量大于所述第一数量。
可选的,通过以下模块得到所述目标检测模型:
图像输入模块,用于将所述样本图像输入至待训练的神经网络模型,得到所述神经网络模型预测的所述样本图像的检测结果,作为预测检测结果;
损失函数值计算模块,用于基于所述预测检测结果和所述样本图像的标注结果,计算所述神经网络模型的损失函数值;
收敛判断模块,用于根据所述损失函数值,判断所述神经网络模型是否收敛,当所述神经网络模型未收敛时,根据所述损失函数值调整所述神经网络模型参数,并进行下一次训练,当所述神经网络模型收敛时,得到训练完成的所述神经网络模型,作为所述目标检测模型。
可选的,所述样本图像包括:经过图像增强处理和/或图像中目标所占比例大于预设比例阈值的图像。
可选的,所述目标检测网络包含用于检测目标的目标检测器;
所述图像检测模块,具体用于将所述待检测图像输入至所述目标检测模型,以使所述残差网络提取所述待检测图像的特征图,并通过所述目标检测器对所述特征图进行下采样,以根据下采样后的特征图确定检测结果。
可选的,所述目标检测器为YOLO目标检测器。
可选的,所述投影卷积层由1×1卷积层和归一化层构成。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的方法步骤。
本发明实施例有益效果:
本发明实施例所提供的目标检测方法中,对待检测图像进行目标检测的目标检测模型中包含残差网络,且残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层。由于扩展卷积层输出的通道数量大于输入的通道数量,从而可以将低维空间映射到高维空间,使得深度卷积层可以在高维空间中提取待检测图像的高维空间特征,同时又通过投影卷积层将高维空间映射到低维空间,从而避免了对计算量的过度消耗。即通过扩展卷积层、深度卷积层和投影卷积层可以在不过度消耗计算量的情况下提取到待检测图像的高维空间特征。进一步的,通过残差网络的残差结构可以将输入至残差网络的低维空间特征通过支路与所提取的高维特征同时输出,避免了低维空间特征的丢失。故而,通过本方案,可以同时提取待检测图像的低维特征和高维特征,从而提升了目标检测的准确度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明实施例所提供的一种边缘计算服务器的结构示意图;
图2为本发明实施例从边缘计算服务器的角度所提供的目标检测方法的流程图;
图3为本发明实施例所提供的一种残差网络示意图;
图4为本发明实施例所提供的另一种残差网络示意图;
图5为本发明实施例所提供的目标检测模型的训练方法的流程图;
图6为本发明实施例从边缘计算服务器的角度所提供的目标检测装置的结构示意图;
图7为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提升目标检测的准确度,本发明实施例提供了目标检测方法、装置及电子设备。
下面首先从边缘计算服务器的角度,对本发明实施例所提供的一种目标检测方法进行介绍。
需要说明的是,边缘计算服务器是一种特殊的服务器,相比于传统的服务器,边缘计算服务器为了满足轻便、灵活的需求,边缘计算服务器的体积和重量较小,从而使得边缘计算服务器的存储量和计算量也较为有限。边缘计算服务器应用与对实时性要求较高的场景,例如,在基于人脸识别的身份认证场景中,边缘计算服务器可以作为身份认证系统中的图像处理服务器,其用于对人脸摄像头采集的人脸图片进行人脸识别。又如,在智能监控场景中,边缘计算服务器可以为智能摄像头或与普通摄像头连接的图像处理服务器等。
如图1所示,本发明实施例提供了一种边缘计算服务器的结构示意图,包括视频接收器1、视频解码器2、处理器3以及传输模块4;其中:
视频接收器1用于接收摄像头拍摄的视频,并将视频发送给视频解码器2;
视频解码器2用于对视频进行视频解码,得到视频的图片,并将该图片发送给处理器3;
处理器3用于对该图片进行目标检测,得到检测结果:目标类别、目标位置、目标大小以及该检测目标的置信度分数。可选的,处理器3还可以将该检测结果与该图片相关联。
传输模块4用于发送关联了检测结果的图片。
采用边缘计算服务器,可以对获取的视频进行视频解码,得到视频的图片,通过处理器3可以直接得到图片的目标检测结果,无需将图片上传至云端进行分析,即可得到视频的图片的目标检测结果,具有很强的便携性与灵活性。其中,处理器3可以为AI(人工智能,Artificial Intelligence)芯片。可选的,本发明实施例所涉及的目标检测模型可以运行子处理器3中。
需要说明的是,本发明实施例提供的数据处理方法可以通过软件、硬件或软硬件结合的方式实现。
如图2所示,本发明实施例提供的一种目标检测方法,应用于边缘计算服务器,可以包括如下步骤:
S201,获取待检测图像;
其中,待检测图像与本发明实际的应用场景相关。示例性的,当本发明实际的应用场景为基于人脸识别的身份认证系统,则待检测图像可以为人脸图像。当本发明实际的应用场景为目标追踪系统时,则待检测图像可以为针对追踪场景所采集的场景图像。简单而言,待检测图像可以基于实际的需求所确定,可以为场景图像、人物图像、人脸图像、车辆图像等,本发明实施例对此不作具体限定。
可选的,在一种实现方式中,当边缘计算服务器包含摄像头时,如边缘计算服务器为智能摄像头时,可以将摄像头采集到的图像作为待检测图像。
可选的,在另一种实现方式中,在当边缘计算服务器本身不具备采集图像的能力时,边缘计算服务器可以从图像采集设备处获取实时采集的图像。或者,边缘计算服务器也可以从数据库中读取待检测图像,其中,数据库用于存储预先收集的待检测图像。
S202,利用预先训练好的目标检测模型,对待检测图像进行目标检测,得到检测结果;其中,目标检测模型为基于样本图像和样本图像的标注结果训练得到的,目标检测模型的包含用于提取图像特征的残差网络,残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层,扩展卷积层包含第一数量个输入通道和第二数量个输出通道,投影卷积层包含第二数量个输入通道和第一数量个输出通道,第二数量大于第一数量。
其中,在获取到待检测图像后,可以将待检测图像输入至预先训练好的目标检测模型,使用该目标检测模型对待检测目标图像进行目标检测。
需要说明的是目标检测模型中的残差网络的数量可以为多个,本发明实施例对此不作具体限定。示例型的,目标检测模型中包含两个残差网络,每个残差网络均包含串行连接的扩展卷积层、深度卷积层和投影卷积层。
上述扩展卷积层(Expansion Layer)用于将低维空间映射到高维空间。可选的,扩展卷积层包含可用于配置的超参数,用于指示维度扩展倍数。可以根据实际需求和经验调整扩展卷积层的超参数。默认情况下,扩展卷积层的超参数为6,也就是说,在默认情况下,扩展卷积层输出的通道数量是输入通道数量的6倍。需要说明的是,在目标检测模型中的残差网络的数量可以为多个的情况下,不同残差网络所包含的扩展卷积层的超参数可以是不同的。示例型的,目标检测模型中包含两个残差网络,其中,第一个残差网络中扩展卷积层的超参数为4,第二个残差网络中扩展卷积层的超参数为6。
上述深度卷积层(Depthwise Convolution)为一个卷积核仅负责一个通道的卷积层,即深度卷积层一个通道只被一个卷积核卷积。深度卷积层完成后的特征图的数量与输入层的通道数相同,也就是说,深度卷积层的输出通道数量与输入通道数量相同。因此,在扩展卷积层与深度卷积层串行连接时,当扩展卷积层的输入为第一数量个通道,而输出为第二数量个通道时,深度卷积层的输入和输出均为第二数量个通道。也就是说,深度卷积层在高维空间进行卷积计算,从而可以获取待检测图像的高维特征。通常情况下,相比于低维特征,使用高维特征进行目标检测的准确率更高。
上述投影卷积层(Projection Convolution)与扩展卷积层相反,扩展卷积层用于将低维空间映射到高维空间,而投影卷积层则是将高维空间映射到低维空间,即投影卷积层用于降维。
通过串行连接的扩展卷积层、深度卷积层和投影卷积层,可以将待检测图像的特征从低维空间映射到高维空间,再在高维空间中提取待检测图像的高维特征,最后再将高维空间投影到低维空间,从而可以在不过度消耗计算量的情况下提取到待检测图像的高维空间特征。
示例性的,如图3所示,为本发明实施例提供的残差网络示意图。图3中,扩展卷积层输入56×56×24,即输入24张56×56的特征图,其输入通道数量为24。扩展卷积层输出56×56×144,即输出144张56×56的特征图,其输出通道数量为144,扩展了6倍。深度卷积层输入和输出均为56×56×144,即输入和输出均为144张56×56的特征图,其输入和输出通道数量为144。投影卷积层输入56×56×144,即输入144张56×56的特征图,其输入通道数量为144。投影卷积层输出56×56×24,即输出24张56×56的特征图,其输出通道数量为24,缩小了6倍。同时残差网络中通过残差连接支路,将输入至扩展卷积层的56×56×24输入投影卷积层的输出位置,从而使得残差网络输出的特征中即包含低维特征,也包含高维特征。
因为从高维空间向低维空间投影时,使用激活函数可能会造成信息丢失或破坏。可选的,上述投影卷积层由1×1卷积层和归一化层构成。
如图4所示,为本发明实施例提供的另一种残差网络示意图。图中,扩展卷积层包含1×1扩展卷积层(1x1"Expansion"Layer)、归一化层(Batch Normalization)和激活函数层(Relu6)。深度卷积层包含3×3深度卷积层(3x3"Depthwise"Convolution)、归一化层和激活函数层。而投影卷积层则由1×1投影卷积层(1x1"Projection"Layer)和归一化层构成,不包含激活函数层。从而可以避免激活函数层造成的信息丢失或破坏。
需要说明的是,目标检测模型为基于样本图像和样本图像的标注结果训练得到的。具体训练方式将在后续详细描述,在此不再赘述。
本实施例所提供方案中,由于扩展卷积层输出的通道数量大于输入的通道数量,从而可以将低维空间映射到高维空间,使得深度卷积层可以在高维空间中提取待检测图像的高维空间特征,同时又通过投影卷积层将高维空间映射到低维空间,从而避免了对计算量的过度消耗。即通过扩展卷积层、深度卷积层和投影卷积层可以在不过度消耗计算量的情况下提取到待检测图像的高维空间特征。进一步的,通过残差网络的残差结构可以将输入至残差网络的低维空间特征通过支路与所提取的高维特征同时输出,避免了低维空间特征的丢失。故而,通过本方案,可以同时提取待检测图像的低维特征和高维特征,从而提升了目标检测的准确度,同时又避免了过高的计算量。
可选的,在本发明一个实施例中,上述目标检测网络可以包含用于检测目标的目标检测器。其中,目标检测器用于基于单个或多个残差网络所提取的图像特征,对待检测图像进行目标检测。
可选的,当目标检测网络包含用于检测目标的目标检测器时,上述步骤S202,可以采用如下方式实现,包括:
将待检测图像输入至目标检测模型,以使残差网络提取待检测图像的特征图,并通过目标检测器对特征图进行下采样,以根据下采样后的特征图确定检测结果。
其中,通过残差网络所提取的待检测图像的特征图可以为不同尺寸的特征图。目标检测器可以基于所得到的不同尺寸的特征图确定检测结果。可选的,在一种实现方式中,目标检测器可以按照预设的筛选条件,从所得到的不同尺寸的特征图中筛选出符合筛选条件的特征图,作为用于确定检测结果的特征图。上述预设的筛选条件可以为根据需求和经验所确定的。示例性的,筛选条件可以为:预设数量个尺寸最小的特征图。其中,预设数量可以根据需求和经验确定,如可以为2或3。
其中,目标检测器对特征图进行下采样的采样倍数可以为32倍或16倍或8倍。可选的,为了提高检测效率,上述目标检测器可以为YOLO目标检测器(You Only Look Once,你只看一次)目标检测器。YOLO目标检测器是轻量级、快速的one-stage(一阶)目标检测器。可选的,上述YOLO目标检测器可以为效率更高、更轻量级别的YOLOv3。可选的,目标检测器也可以其他轻量级的目标检测器。
可选的,在本发明的一个实施例中,为了提升目标检测模型进行目标检测时的准确率。上述样本图像可以包括:经过图像增强处理和/或图像中目标所占比例大于预设比例阈值的图像。
简单而言,在获取到原始样本图像后,可以对原始样本图像进行图像增强处理,得到经图像增强后的样本图像。或者,也可以对所获取的原始样本图像进行筛选,将图像中目标所占比例不大于预设比例阈值的图像剔除,只保留图像中目标所占比例大于预设比例阈值的图像作为样本图像。或者,还可以即对原始图像样本进行图像增强处理,也对图像进行筛选,得到最终的样本图像。例如,先对原始图像样本进行图像增强处理,再对增强处理后的原始图像样本进行筛选。或者先对原始图像样本进行筛选,再对筛选后的原始样本图像进行图像增强处理。
可选的,可以预先构建多个样本图像集用于对神经网络模型进行训练,以得到目标检测模型。可选的,每个样本图像集可以包含多张样本图像。样本图像集中的每张可以为从原始样本图像集中筛选出的符合图像筛选条件的图像。例如,从原始样本图像集中筛选出图像中目标所占比例大于预设比例阈值的样本图像,剔除图像中目标所占比例不大于预设比例阈值的样本图像。当需要对神经网络模型进行训练时,可以针对每一样本图像集设置一种或多种图像增强方式,在训练过程中通过所设置的图像增强方式对样本图像进行图像增强处理后送入待训练的神经网络网络。
可选地,对原始样本图像进行的图像增强处理至少可以包括以下图像增强处理方式中的一种:图像大小调整、图像色调调整、图像旋转、镜像等。
可选地,为了进一步的提升目标检测模型进行目标检测时的准确率,用于训练目标检测模型的样本图像可以包括多种场景采集的图像。举例而言,为了训练得到用于对人脸进行检测的目标检测模型,则样本图像可以包含在白天采集的人脸图像、在夜晚采集的人脸图像。
本实施例所提供方案中,样本图像中包含经过图像增强处理和/或图像中目标所占比例大于预设比例阈值的图像,可以提升目标检测模型进行目标检测时的准确率。
如图5所示,本发明实施例还提供一种目标检测模型的训练方法,以训练得到上述目标检测方式中所涉及的目标检测模型,可以包括如下步骤:
S501,将样本图像输入至待训练的神经网络模型,得到神经网络模型预测的样本图像的检测结果,作为预测检测结果;
其中,待训练的神经网络模型可以为包含本发明实施例所提供模型结构的神经网络模型。简单而言,待训练的神经网络模型包含用于提取图像特征的残差网络,残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层。
S502,基于预测检测结果和样本图像的标注结果,计算神经网络模型的损失函数值;
其中,在一种实现方式中,可以将预测检测结果和样本图像的标注结果带入预设的损失函数,计算神经网络模型的损失函数值。
可选的,在一种实现方式中,为了提高目标检测模型进行目标检测的准确率。上述损失函数可以为Focus Loss(焦点损失),其计算公式如下:
FL(Pt)=-αt(1-Pt)γlog(Pt)
Pt为模型预测值,取值范围0-1,γ为称作聚焦系数(focusing parameter),γ≥0,(1-Pt)γ为调制系数(modulating factor),αt为平衡系数。
通过Focus Loss可以降低简单负样本在训练中所占的权重,使得在选择样本时,更倾向与选择困难样本。
S503,根据损失函数值,判断神经网络模型是否收敛,当神经网络模型未收敛时,根据损失函数值调整神经网络模型参数,并进行下一次训练,当神经网络模型收敛时,得到训练完成的神经网络模型,作为目标检测模型。
其中,当神经网络模型收敛时,则表示神经网络模型具备预期的检测效果,从而可以将训练完成的神经网络模型,作为目标检测模型。当神经网络模型未收敛时,则进行下一次训练,直至神经网络模型收敛。
本实施例所提供方案中,通过样本对象可以训练生成目标检测模型,为提升目标检测的准确度提供了基础。
可选的,在对神经网络模型进行训练的过程中,还可以设置两个数据集:训练数据集(TrainDataSet)和验证数据集(ValDataSet)。其中,训练数据集只用于训练,而验证数据集只用于测试验证训练的神经网络模型。神经网络模型在训练过程中是每一次迭代都会计算训练数据集的损失函数值,当训练数据集损失函数值小于预设阈值或迭代预设次数时,使用测试数据集测试测试并计算神经网络模型的损失函数值。如果该损失函数值比之前的都小,说明此时网络收敛最后,则保存这次模型作为一个中间结果,之后训练继续进行,直到训练次数达到预设迭代次数时停止。训练完成后,从多个神经网络模型中选择收敛最好的神经网络模型。
相应于上述从边缘计算服务器角度所提供的方法,如图6所示,本发明实施例还提供了一种目标检测装置,应用于边缘计算服务器,装置包括:
图像获取模块601,用于获取待检测图像;
图像检测模块602,用于利用预先训练好的目标检测模型,对待检测图像进行目标检测,得到检测结果;其中,目标检测模型为基于样本图像和样本图像的标注结果训练得到的,目标检测模型的包含多个用于提取图像特征的残差网络,残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层,扩展卷积层包含第一数量个输入通道和第二数量个输出通道,投影卷积层包含第二数量个输入通道和第一数量个输出通道,第二数量大于第一数量。
可选的,通过以下模块得到目标检测模型:
图像输入模块,用于将样本图像输入至待训练的神经网络模型,得到神经网络模型预测的样本图像的检测结果,作为预测检测结果;
损失函数值计算模块,用于基于预测检测结果和样本图像的标注结果,计算神经网络模型的损失函数值;
收敛判断模块,用于根据损失函数值,判断神经网络模型是否收敛,当神经网络模型未收敛时,根据损失函数值调整神经网络模型参数,并进行下一次训练,当神经网络模型收敛时,得到训练完成的神经网络模型,作为目标检测模型。
可选的,样本图像包括:经过图像增强处理和/或图像中目标所占比例大于预设比例阈值的图像。
可选的,目标检测网络包含用于检测目标的目标检测器;
图像检测模块,具体用于将待检测图像输入至目标检测模型,以使残差网络提取待检测图像的特征图,并通过目标检测器对特征图进行下采样,以根据下采样后的特征图确定检测结果。
可选的,目标检测器为YOLO目标检测器。
可选的,投影卷积层由1×1卷积层和归一化层构成。
本实施例所提供方案中,由于扩展卷积层输出的通道数量大于输入的通道数量,从而可以将低维空间映射到高维空间,使得深度卷积层可以在高维空间中提取待检测图像的高维空间特征,同时又通过投影卷积层将高维空间映射到低维空间,从而避免了对计算量的过度消耗。即通过扩展卷积层、深度卷积层和投影卷积层可以在不过度消耗计算量的情况下提取到待检测图像的高维空间特征。进一步的,通过残差网络的残差结构可以将输入至残差网络的低维空间特征通过支路与所提取的高维特征同时输出,避免了低维空间特征的丢失。故而,通过本方案,可以同时提取待检测图像的低维特征和高维特征,从而提升了目标检测的准确度。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现上述从边缘计算服务器角度所提供的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一目标检测方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一目标检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (14)
1.一种目标检测方法,其特征在于,应用于边缘计算服务器,所述方法包括:
获取待检测图像;
利用预先训练好的目标检测模型,对所述待检测图像进行目标检测,得到检测结果;其中,所述目标检测模型为基于样本图像和所述样本图像的标注结果训练得到的,所述目标检测模型的包含用于提取图像特征的残差网络,所述残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层,所述扩展卷积层包含第一数量个输入通道和第二数量个输出通道,所述投影卷积层包含所述第二数量个输入通道和所述第一数量个输出通道,所述第二数量大于所述第一数量。
2.根据权利要求1所述的方法,其特征在于,通过以下步骤得到所述目标检测模型:
将所述样本图像输入至待训练的神经网络模型,得到所述神经网络模型预测的所述样本图像的检测结果,作为预测检测结果;
基于所述预测检测结果和所述样本图像的标注结果,计算所述神经网络模型的损失函数值;
根据所述损失函数值,判断所述神经网络模型是否收敛,当所述神经网络模型未收敛时,根据所述损失函数值调整所述神经网络模型参数,并进行下一次训练,当所述神经网络模型收敛时,得到训练完成的所述神经网络模型,作为所述目标检测模型。
3.根据权利要求1所述的方法,其特征在于,所述样本图像包括:经过图像增强处理和/或图像中目标所占比例大于预设比例阈值的图像。
4.根据权利要求1所述的方法,其特征在于,所述目标检测网络包含用于检测目标的目标检测器;
所述利用预先训练好的目标检测模型,对所述待检测图像进行目标检测,得到检测结果,包括:
将所述待检测图像输入至所述目标检测模型,以使所述残差网络提取所述待检测图像的特征图,并通过所述目标检测器对所述特征图进行下采样,以根据下采样后的特征图确定检测结果。
5.根据权利要求4所述的方法,其特征在于,所述目标检测器为YOLO目标检测器。
6.根据权利要求1所述的方法,其特征在于,所述投影卷积层由1×1卷积层和归一化层构成。
7.一种目标检测装置,其特征在于,应用于边缘计算服务器,所述装置包括:
图像获取模块,用于获取待检测图像;
图像检测模块,用于利用预先训练好的目标检测模型,对所述待检测图像进行目标检测,得到检测结果;其中,所述目标检测模型为基于样本图像和所述样本图像的标注结果训练得到的,所述目标检测模型的包含用于提取图像特征的残差网络,所述残差网络包含串行连接的扩展卷积层、深度卷积层和投影卷积层,所述扩展卷积层包含第一数量个输入通道和第二数量个输出通道,所述投影卷积层包含所述第二数量个输入通道和所述第一数量个输出通道,所述第二数量大于所述第一数量。
8.根据权利要求7所述的装置,其特征在于,通过以下模块得到所述目标检测模型:
图像输入模块,用于将所述样本图像输入至待训练的神经网络模型,得到所述神经网络模型预测的所述样本图像的检测结果,作为预测检测结果;
损失函数值计算模块,用于基于所述预测检测结果和所述样本图像的标注结果,计算所述神经网络模型的损失函数值;
收敛判断模块,用于根据所述损失函数值,判断所述神经网络模型是否收敛,当所述神经网络模型未收敛时,根据所述损失函数值调整所述神经网络模型参数,并进行下一次训练,当所述神经网络模型收敛时,得到训练完成的所述神经网络模型,作为所述目标检测模型。
9.根据权利要求7所述的装置,其特征在于,所述样本图像包括:经过图像增强处理和/或图像中目标所占比例大于预设比例阈值的图像。
10.根据权利要求7所述的装置,其特征在于,所述目标检测网络包含用于检测目标的目标检测器;
所述图像检测模块,具体用于将所述待检测图像输入至所述目标检测模型,以使所述残差网络提取所述待检测图像的特征图,并通过所述目标检测器对所述特征图进行下采样,以根据下采样后的特征图确定检测结果。
11.根据权利要求10所述的装置,其特征在于,所述目标检测器为YOLO目标检测器。
12.根据权利要求7所述的装置,其特征在于,所述投影卷积层由1×1卷积层和归一化层构成。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011579999.1A CN112580581A (zh) | 2020-12-28 | 2020-12-28 | 目标检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011579999.1A CN112580581A (zh) | 2020-12-28 | 2020-12-28 | 目标检测方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112580581A true CN112580581A (zh) | 2021-03-30 |
Family
ID=75140746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011579999.1A Pending CN112580581A (zh) | 2020-12-28 | 2020-12-28 | 目标检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580581A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222983A (zh) * | 2021-06-03 | 2021-08-06 | 北京有竹居网络技术有限公司 | 图像处理方法、装置、可读介质和电子设备 |
CN115620215A (zh) * | 2022-12-20 | 2023-01-17 | 苏州万店掌软件技术有限公司 | 目标检测模型生成方法、目标检测方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107240066A (zh) * | 2017-04-28 | 2017-10-10 | 天津大学 | 基于浅层和深层卷积神经网络的图像超分辨率重建算法 |
CN108073876A (zh) * | 2016-11-14 | 2018-05-25 | 北京三星通信技术研究有限公司 | 面部解析设备和面部解析方法 |
CN109754017A (zh) * | 2019-01-09 | 2019-05-14 | 西北工业大学 | 基于可分离的三维残差网络和迁移学习高光谱图像分类方法 |
CN110188863A (zh) * | 2019-04-30 | 2019-08-30 | 杭州电子科技大学 | 一种卷积神经网络的卷积核及其压缩算法 |
CN111272148A (zh) * | 2020-01-20 | 2020-06-12 | 江苏方天电力技术有限公司 | 输电线路无人机自主巡检自适应成像质量优化方法 |
CN111310671A (zh) * | 2020-02-19 | 2020-06-19 | 中冶赛迪重庆信息技术有限公司 | 基于深度学习的加热炉底部积水坑异常识别方法、系统及设备 |
CN111368893A (zh) * | 2020-02-27 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111415338A (zh) * | 2020-03-16 | 2020-07-14 | 城云科技(中国)有限公司 | 目标检测模型的构建方法及系统 |
CN111429424A (zh) * | 2020-03-20 | 2020-07-17 | 中冶赛迪重庆信息技术有限公司 | 一种基于深度学习的加热炉入口异常识别方法 |
CN111488978A (zh) * | 2019-01-25 | 2020-08-04 | 斯特拉德视觉公司 | 为了元学习用于调整残差网络的方法及装置 |
CN111598038A (zh) * | 2020-05-22 | 2020-08-28 | 深圳市瑞立视多媒体科技有限公司 | 脸部特征点检测方法、装置、设备及存储介质 |
CN111985575A (zh) * | 2020-09-02 | 2020-11-24 | 四川九洲电器集团有限责任公司 | 一种基于卷积神经网络的高光谱图像分类方法 |
US20210158023A1 (en) * | 2018-05-04 | 2021-05-27 | Northeastern University | System and Method for Generating Image Landmarks |
-
2020
- 2020-12-28 CN CN202011579999.1A patent/CN112580581A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073876A (zh) * | 2016-11-14 | 2018-05-25 | 北京三星通信技术研究有限公司 | 面部解析设备和面部解析方法 |
CN107240066A (zh) * | 2017-04-28 | 2017-10-10 | 天津大学 | 基于浅层和深层卷积神经网络的图像超分辨率重建算法 |
US20210158023A1 (en) * | 2018-05-04 | 2021-05-27 | Northeastern University | System and Method for Generating Image Landmarks |
CN109754017A (zh) * | 2019-01-09 | 2019-05-14 | 西北工业大学 | 基于可分离的三维残差网络和迁移学习高光谱图像分类方法 |
CN111488978A (zh) * | 2019-01-25 | 2020-08-04 | 斯特拉德视觉公司 | 为了元学习用于调整残差网络的方法及装置 |
CN110188863A (zh) * | 2019-04-30 | 2019-08-30 | 杭州电子科技大学 | 一种卷积神经网络的卷积核及其压缩算法 |
CN111272148A (zh) * | 2020-01-20 | 2020-06-12 | 江苏方天电力技术有限公司 | 输电线路无人机自主巡检自适应成像质量优化方法 |
CN111310671A (zh) * | 2020-02-19 | 2020-06-19 | 中冶赛迪重庆信息技术有限公司 | 基于深度学习的加热炉底部积水坑异常识别方法、系统及设备 |
CN111368893A (zh) * | 2020-02-27 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111415338A (zh) * | 2020-03-16 | 2020-07-14 | 城云科技(中国)有限公司 | 目标检测模型的构建方法及系统 |
CN111429424A (zh) * | 2020-03-20 | 2020-07-17 | 中冶赛迪重庆信息技术有限公司 | 一种基于深度学习的加热炉入口异常识别方法 |
CN111598038A (zh) * | 2020-05-22 | 2020-08-28 | 深圳市瑞立视多媒体科技有限公司 | 脸部特征点检测方法、装置、设备及存储介质 |
CN111985575A (zh) * | 2020-09-02 | 2020-11-24 | 四川九洲电器集团有限责任公司 | 一种基于卷积神经网络的高光谱图像分类方法 |
Non-Patent Citations (1)
Title |
---|
董洪义: "深度学习之PyTorch物体检测实战", 31 January 2020, 机械工业出版社, pages: 198 - 201 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222983A (zh) * | 2021-06-03 | 2021-08-06 | 北京有竹居网络技术有限公司 | 图像处理方法、装置、可读介质和电子设备 |
CN115620215A (zh) * | 2022-12-20 | 2023-01-17 | 苏州万店掌软件技术有限公司 | 目标检测模型生成方法、目标检测方法 |
CN115620215B (zh) * | 2022-12-20 | 2023-04-07 | 苏州万店掌软件技术有限公司 | 目标检测模型生成方法、目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160406A (zh) | 图像分类模型的训练方法、图像分类方法及装置 | |
WO2021056914A1 (zh) | 一种目标检测模型的自动建模方法及装置 | |
CN112001403B (zh) | 一种图像轮廓检测方法及系统 | |
CN112580581A (zh) | 目标检测方法、装置及电子设备 | |
CN113989616A (zh) | 一种目标检测方法、装置、设备和存储介质 | |
CN114170654A (zh) | 年龄识别模型的训练方法、人脸年龄识别方法及相关装置 | |
CN112307900A (zh) | 面部图像质量的评估方法、装置和电子设备 | |
CN116152938A (zh) | 身份识别模型训练和电子资源转移方法、装置及设备 | |
CN113393385A (zh) | 基于多尺度融合的无监督去雨方法、系统、装置及介质 | |
CN112101456A (zh) | 注意力特征图获取方法及装置、目标检测的方法及装置 | |
WO2024011853A1 (zh) | 人体图像质量检测方法、装置、电子设备及存储介质 | |
CN117173568A (zh) | 目标检测模型训练方法和目标检测方法 | |
CN115862119A (zh) | 基于注意力机制的人脸年龄估计方法及装置 | |
CN114359815B (zh) | 一种快速审核视频内容的处理方法 | |
CN114155417B (zh) | 图像目标的识别方法、装置、电子设备及计算机存储介质 | |
CN114663714A (zh) | 图像分类、地物分类方法和装置 | |
CN111861962B (zh) | 一种数据融合方法及电子设备 | |
CN114638304A (zh) | 图像识别模型的训练方法、图像识别方法及装置 | |
CN114863224A (zh) | 训练方法、图像质量检测方法、装置和介质 | |
CN112434717B (zh) | 一种模型训练方法及装置 | |
CN111127327B (zh) | 一种图片倾斜检测方法及装置 | |
CN111966851A (zh) | 基于少量样本的图像识别方法和系统 | |
CN114648646B (zh) | 一种图像分类方法及装置 | |
CN112132175A (zh) | 对象分类方法、装置、电子设备及存储介质 | |
CN112825145A (zh) | 人体朝向检测方法、装置、电子设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |