CN106909901B - 从图像中检测物体的方法及装置 - Google Patents

从图像中检测物体的方法及装置 Download PDF

Info

Publication number
CN106909901B
CN106909901B CN201710112435.9A CN201710112435A CN106909901B CN 106909901 B CN106909901 B CN 106909901B CN 201710112435 A CN201710112435 A CN 201710112435A CN 106909901 B CN106909901 B CN 106909901B
Authority
CN
China
Prior art keywords
image
detected
information
layer
cascade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710112435.9A
Other languages
English (en)
Other versions
CN106909901A (zh
Inventor
刘晓
谭志羽
陈宇
翁志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710112435.9A priority Critical patent/CN106909901B/zh
Publication of CN106909901A publication Critical patent/CN106909901A/zh
Application granted granted Critical
Publication of CN106909901B publication Critical patent/CN106909901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Abstract

本发明公开了一种从图像中检测物体的方法及装置,涉及图像检测技术领域。其中的方法包括:将图像输入深度学习模型获得图像的特征、物体在图像中的初步预测坐标、图像中物体的坐标回归信息和分类信息;将物体在图像中的初步预测坐标修正为物体在图像中的预测坐标;将图像的特征以及预测坐标输入级联ROIPooling层进行池化处理,得到预测坐标所对应图像区域的特征;将预测坐标所对应图像区域的特征输入级联全连接层进行坐标回归处理,得到物体的修正分类信息和修正坐标回归信息;根据修正分类信息确定图像中物体的分类,并利用修正坐标回归信息对物体在图像中的预测坐标进行修正。从而提高了从图像中检测物体的准确性。

Description

从图像中检测物体的方法及装置
技术领域
本发明涉及图像检测技术领域,特别涉及一种从图像中检测物体的方法及装置。
背景技术
深度学习的出现为图像中的物体检测(Object Detection)提供了强有力的技术支撑,让物体检测从实时性和准确性方面较传统的检测方法都有了很大的提升。基于图像区域的卷积神经网络(Region-based Convolutional Neural Networks,RCNNs)的深度学习算法对于物体检测具有长足发展。其中Faster-RCNN方法的提出,将基于深度学习的物体检测技术引入了实际生产生活中。
物体检测(Object Detection)现阶段主流方法是在基于图像区域的卷积神经网络(Region-based Convolutional Neural Networks,RCNNs)的基础上实现的,其主要实现原理是通过选择性搜索(Selective Search)采样得到的图像区域依次送入卷积神经网络,进行图像区域在整幅图像上坐标点的回归和图像区域物体的分类预测。Fast-RCNN的主要原理是输入任意尺度的图像,在卷积层后接入ROIPooling层,将Selective Search采样的图像区域对应的第五卷积层(CONV5层)特征进行提取,送入神经网络进行回归和分类,使得从图像中检测物体的准确率和时效性都具有较大提升。Faster-RCNN是目前使用最多的物体检测方法,其主要改进是使用全卷积结构取代Selective Search的传统方法,压缩检测速度。
然而,如何对现有的物体检测技术进行改进,以提高从图像中检测物体的准确性,一直是人们关注的焦点。
发明内容
本发明解决的一个技术问题是,如何提高从图像中检测物体的准确性。
根据本发明实施例的一个方面,提供了一种从图像中检测物体的方法,包括:将待检测图像输入深度学习模型进行处理,通过深度学习模型的卷积层提取待检测图像的特征,通过深度学习模型的Proposal层获得物体在待检测图像中的初步预测坐标,通过深度学习模型的全连接层提取待检测图像中物体的坐标回归信息和分类信息;将物体在待检测图像中的初步预测坐标、待检测图像中物体的坐标回归信息和分类信息输入级联处理层,利用待检测图像中物体的坐标回归信息和分类信息将物体在待检测图像中的初步预测坐标修正为物体在待检测图像中的预测坐标;将待检测图像的特征以及物体在待检测图像中的预测坐标输入级联ROIPooling层进行池化处理,得到物体在待检测图像中的预测坐标所对应图像区域的特征;将物体在待检测图像中的预测坐标所对应图像区域的特征输入级联全连接层进行坐标回归处理,得到待检测图像中物体的修正分类信息和修正坐标回归信息;根据待检测图像中物体的修正分类信息确定待检测图像中物体的分类,并利用待检测图像中物体的修正坐标回归信息对物体在待检测图像中的预测坐标进行修正,确定物体在待检测图像中的修正坐标。
在一个实施例中,利用待检测图像中物体的坐标回归信息和分类信息将物体在待检测图像中的初步预测坐标修正为物体在待检测图像中的预测坐标包括:确定每个物体在待检测图像中的初步预测坐标所对应的置信度最高的坐标回归信息和分类信息;利用待检测图像中每个物体的置信度最高的坐标回归信息和分类信息,将每个物体在待检测图像中的初步预测坐标修正为每个物体在待检测图像中的预测坐标。
在一个实施例中,该方法还包括:在深度学习模型的输出端依次接入级联处理层、级联ROI-data层、级联ROIPooling层以及级联全连接层,构建级联神经网络模型;其中,级联ROI-data层存有物体在图像中的实际坐标,级联ROIPooling层接收深度学习模型中的卷积层输出的图像的特征;将训练图像输入级联神经网络模型,将训练图像中物体的分类信息和物体在训练图像中的实际坐标输入级联ROI-data层以及深度学习模型中的ROI-data层,将训练图像中物体的分类信息输入级联全连接层以及深度学习模型中的全连接层,从而对级联神经网络模型进行训练。
在一个实施例中,通过卷积层获得待检测图像的特征包括:提取第五个卷积层中的信息作为待检测图像的特征;通过全连接层获得待检测图像中物体的坐标回归信息和分类信息包括:提取全连接层的回归结果层中的信息作为待检测图像中物体的坐标回归信息;提取全连接层的分类结果层中的信息作为待检测图像中物体的分类信息。
在一个实施例中,深度学习模型为更快速基于图像区域的卷积神经网络Faster-RCNN。
在一个实施例中,该方法还包括:确定置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类;将置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类显示在图片中。
根据本发明实施例的另一个方面,提供了一种从图像中检测物体的装置,其特征在于,包括:初步信息获取模块,用于将待检测图像输入深度学习模型进行处理,通过深度学习模型的卷积层提取待检测图像的特征,通过深度学习模型的Proposal层获得物体在待检测图像中的初步预测坐标,通过深度学习模型的全连接层提取待检测图像中物体的坐标回归信息和分类信息;预测坐标修正模块,用于将物体在待检测图像中的初步预测坐标、待检测图像中物体的坐标回归信息和分类信息输入级联处理层,利用待检测图像中物体的坐标回归信息和分类信息将物体在待检测图像中的初步预测坐标修正为物体在待检测图像中的预测坐标;区域特征获取模块,用于将待检测图像的特征以及物体在待检测图像中的预测坐标输入级联ROIPooling层进行池化处理,得到物体在待检测图像中的预测坐标所对应图像区域的特征;修正信息获取模块,用于将物体在待检测图像中的预测坐标所对应图像区域的特征输入级联全连接层进行坐标回归处理,得到待检测图像中物体的修正分类信息和修正坐标回归信息;物体信息确定模块,用于根据待检测图像中物体的修正分类信息确定待检测图像中物体的分类,并利用待检测图像中物体的修正坐标回归信息对物体在待检测图像中的预测坐标进行修正,确定物体在待检测图像中的修正坐标。
在一个实施例中,预测坐标修正模块包括:信息确定单元,用于确定每个物体在待检测图像中的初步预测坐标所对应的置信度最高的坐标回归信息和分类信息;坐标修正单元,用于利用待检测图像中每个物体的置信度最高的坐标回归信息和分类信息,将每个物体在待检测图像中的初步预测坐标修正为每个物体在待检测图像中的预测坐标。
在一个实施例中,该装置还包括:级联神经网络模型构建模块,用于在深度学习模型的输出端依次接入级联处理层、级联ROI-data层、级联ROIPooling层以及级联全连接层,构建级联神经网络模型;其中,级联ROI-data层存有物体在图像中的实际坐标,级联ROIPooling层接收深度学习模型中的卷积层输出的图像的特征;级联神经网络模型训练模块,用于将训练图像输入级联神经网络模型,将训练图像中物体的分类信息和物体在训练图像中的实际坐标输入级联ROI-data层以及深度学习模型中的ROI-data层,将训练图像中物体的分类信息输入级联全连接层以及深度学习模型中的全连接层,从而对级联神经网络模型进行训练。
在一个实施例中,初步信息获取模块用于:提取第五个卷积层中的信息作为待检测图像的特征;提取全连接层的回归结果层中的信息作为待检测图像中物体的坐标回归信息;提取全连接层的分类结果层中的信息作为待检测图像中物体的分类信息。
在一个实施例中,深度学习模型为更快速基于图像区域的卷积神经网络Faster-RCNN。
在一个实施例中,该装置还包括:类别确定模块,用于确定置信度大于预设值的物体在待检测图像中的修正坐标和图像中物体的分类;显示模块,用于将置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类显示在图片中。
根据本发明实施例的又一个方面,提供了一种从图像中检测物体的装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行上述的从图像中检测物体的方法。
根据本发明实施例的再一个方面,提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机指令,指令被处理器执行时实现上述的从图像中检测物体的方法。
本发明在深度学习模型的基础上构建了新的级联神经网络模型,通过级联神经网络模型检测图像中的物体,能够对物体在待检测图像中的预测坐标进行修正,从而提高了检测图像中物体的准确性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出Faster-RCNN的一个实施例的结构示意图。
图2A示出级联神经网络模型的一个实施例的示意图。
图2B示出使用级联神经网络模型检测图像中的物体的一个实施例的示意图。
图3示出训练级联神经网络模型的一个实施例的流程示意图。
图4示出本发明从图像中检测物体的装置的一个实施例的结构图。
图5示出本发明从图像中检测物体的装置的另一个实施例的结构图。
图6示出本发明从图像中检测物体的装置的又一个实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本文以深度学习模型为Faster-RCNN进行举例,描述如何在现有的深度学习模型基础上构建出新的级联神经网络模型,并对新构建的级联神经网络模型进行训练后,利用级联神经网络模型从图像中检测物体。
首先描述如何构建级联神经网络模型。
图1示出Faster-RCNN的一个实施例的结构示意图。如图1所示,Faster-RCNN在结构上可以划分为卷积层、RPN(Region Proposal Network,区域建议网络)、Proposal建议层、级联ROI-data(Region Of Interest data,感兴趣区域数据)层、ROIPooling(RegionOf Interest Pooling,感兴趣区域池化)层以及全连接层。图2A示出级联神经网络模型的一个实施例的示意图。如图2A所示,在Faster-RCNN中的Proposal层以及全连接层的输出端依次接入级联处理层、级联ROI-data层、级联ROIPooling层以及级联全连接层,以构建级联神经网络模型。级联神经网络模型中各个层的工作过程在级联神经网络模型的训练过程和级联神经网络模型的检测过程中进行描述。
构建级联神经网络模型之后,需要对级联神经网络模型进行训练。对级联神经网络模型进行训练的过程可以离线进行。下面结合图3描述级联神经网络模型的训练过程。
图3示出训练级联神经网络模型的一个实施例的流程示意图。如图3所示,级联神经网络模型的训练过程包括:
步骤S302,将训练图像在保留长宽比的情况下进行缩放。
对训练图像在保留长宽比的情况下进行缩放的目的是,在保留训练图像中原有物体比例的情况下,调整训练图像中的像素个数。如果训练图像中的像素个数过多,可能减缓级联神经网络模型的收敛速度,延长级联神经网络模型的训练时间;如果训练图像中的像素个数太少,又不足以为级联神经网络模型提供足够多的样本,影响级联神经网络模型的训练效果。在实际应用当中,可以将训练图像在保留长宽比的情况下缩放为600至1000个像素。
步骤S304,将训练图像中物体的分类信息和物体在训练图像中的实际坐标输入级联ROI-data层以及Faster-RCNN中的ROI-data层。
其中,物体在训练图像中的实际坐标可以由物体在训练图像中的左上角坐标以及右下角坐标这两个坐标点来表示。
步骤S306,将物体的分类信息输入级联全连接层以及Faster-RCNN中的全连接层。
例如,物体的类别总共有15类,则相应的将图像中的每个物体的类别输入入级联全连接层以及Faster-RCNN中的全连接层。
步骤S308,将训练图像输入级联神经网络模型,对级联神经网络模型进行训练。
通过训练图像、物体在训练图像中的实际坐标以及物体的分类信息,可以对级联神经网络模型进行训练,得到级联神经网络模型中各个层的相关参数。
下面结合图2B描述级联神经网络模型的图片检测过程。
图2B示出使用级联神经网络模型检测图像中的物体的一个实施例的示意图。与图2A相区别,在使用级联神经网络模型进行图像检测过程中,Faster-RCNN中的ROI-data层以及级联ROI-data层不再对数据进行处理。原因是Faster-RCNN中的ROI-data层以及级联ROI-data层仅用于级联神经网络模型的训练过程。如图2B所示,级联神经网络模型的图片检测过程包括:
步骤S202,将待检测图像输入级联神经网络模型的卷积层。
其中,可以参照步骤S302中的方法对待检测图像进行缩放。
步骤S204,卷积层提取待检测图像的特征,并将待检测图像的特征输入RPN层以及ROIPooling层。
其中,可以提取第五个卷积层CONV5层中的信息作为待检测图像的特征,将待检测图像的特征分别用来进行图像物体区域的采样提取和分类回归。
步骤S206,RPN在待检测图像的特征的基础上进行采样,并将是否为一个可检测物体的分数输入Proposal层。
其中,RPN在CONV5层特征的基础上通过全卷积对于每个像素点按照9个可能物体的范围进行采样,并给出是否为一个可检测物体的分数输入Proposal层,
步骤S208,Proposal层将得到的信息进行解析采样出物体在待检测图像中的初步预测坐标,并将物体在待检测图像中的初步预测坐标输入ROIPooling层。
其中,Proposal层输出ROIS信息,ROIS信息中包含了物体在待检测图像中的初步预测坐标。例如,ROIS信息可以表示出待检测图像中的128个建议框,每个建议框表示建议框中的图像区域中具有一个物体,建议框的位置信息表示物体在待检测图像中的初步预测坐标。
步骤S210,将待检测图像的特征以及物体在待检测图像中的初步预测坐标输入ROIPooling层进行池化处理,得到物体在待检测图像中的初步预测坐标所对应图像区域的特征,并将物体在待检测图像中的初步预测坐标所对应图像区域的特征输入全连接层。
步骤S212,通过全连接层获得待检测图像中物体的坐标回归信息和分类信息。
其中,提取全连接层的回归结果层中的信息作为待检测图像中物体的坐标回归信息bbox_pred,并提取全连接层的分类结果层中的信息作为待检测图像中物体的分类信息cls_prob。
步骤S214,将物体在待检测图像中的初步预测坐标、待检测图像中物体的坐标回归信息和分类信息输入级联处理层。
例如,级联处理层通过Proposal层获得物体在待检测图像中的初步预测坐标中包含128个建议框,每个建议框表示一个可能的物体。如果物体的类别总共有15类,那么级联处理层通过Fast-RCNN的全连接层提取待检测图像中物体的分类信息cls_prob中,每个建议框对于每个类别都存在一个置信度,表示该建议框中的物体属于该类别的可能性。因此,cls_prob中包含128×15个数据。相应的,级联处理层通过Fast-RCNN的全连接层提取待检测图像中物体的坐标回归信息bbox_pred中具有128×15组修正数据,其中每组数据中包含四个能够表示修正坐标的坐标数据,每组数据表示一个建议框在建议框中的物体属于某一类时的建议框修正坐标。
步骤S216,利用待检测图像中物体的坐标回归信息和分类信息将物体在待检测图像中的初步预测坐标修正为物体在待检测图像中的预测坐标。
其中,可以先确定每个物体在待检测图像中的初步预测坐标所对应的置信度最高的坐标回归信息和分类信息。例如,通过每个建议框所对应的置信度最高的坐标回归信息和分类信息,得到128个坐标回归信息和分类信息。
然后,利用待检测图像中每个物体的置信度最高的坐标回归信息和分类信息,将每个物体在待检测图像中的初步预测坐标修正为每个物体在待检测图像中的预测坐标,得到修正后的预测坐标信息bbox。例如,通过128个坐标回归信息和分类信息进行修正后可以得到修正后的预测坐标信息bbox中存在128组数据。
步骤S218,将待检测图像的特征以及物体在待检测图像中的预测坐标输入级联ROIPooling层进行池化处理,得到物体在待检测图像中的预测坐标所对应图像区域的特征。级联ROIPooling层的具体处理过程可以参照步骤S210。
步骤S220,将物体在待检测图像中的预测坐标所对应图像区域的特征输入级联全连接层进行坐标回归处理,得到待检测图像中物体的修正分类信息和修正坐标回归信息。级联全连接层的具体处理过程可以参照步骤S212。
步骤S222,根据待检测图像中物体的修正分类信息确定待检测图像中物体的分类,并利用待检测图像中物体的修正坐标回归信息对物体在待检测图像中的预测坐标进行修正,确定物体在待检测图像中的修正坐标。步骤S222的具体处理过程可以参照步骤S216。
步骤S224,确定置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类,并将置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类显示在图片中。
例如,可以将置信度大于0.8的物体在待检测图像中的修正坐标(20,30,300,400)和待检测图像中物体的分类为猫类显示在图片中。
上述实施例中,使用构建的级联神经网络模型对图像中的物体进行检测,能够对物体在待检测图像中的预测坐标进行深度修正,从而得到与物体在待检测图像中的实际坐标更加接近的物体在待检测图像中的修正坐标,从而提高了检测图像中物体的准确性。此外,由于级联神经网络模型中的各个层进行处理所需时间较短,因此能够实现保证图像检测的时效性的同时提高检测图像中物体的准确性。
下面通过实验结果对本发明的技术效果进行说明。在CentOS 7.1系统,64G内存以及NVIDIA Tesla K20上得到的实验结果如下:
表1示出采用VOC2007数据库(应用于图像检测的通用数据库)时,使用MAP(Meanaverage precision)指标进行评测的实验结果。
表1
使用模型 Faster-RCNN 本发明
MAP指标 0.6072 0.6233
其中,MAP指标表示多张图像检测结果单张召回的准确率的平均值。从表1可以看出,在PASCAL VOC2007数据集上,本发明相比Faster-RCNN的MAP指标提高1.61%。
表2示出采用某商家商品数据库时,使用MAP指标以及IOU(Intersection overunion)指标进行评测的实验结果。
表1
使用模型 Faster-RCNN 本发明
MAP指标 0.8616 0.8852
IOU>0.5指标 0.9087 0.9153
其中,IOU指标表示模型检测书来的目标窗口和原来标记窗口的交叠率。从表2可以看出,在某商家商品数据库上,本发明相比Faster-RCNN的MAP指标提高2.36%,IOU>0.5的指标提高0.66%。
下面结合图4描述本发明一个实施例的从图像中检测物体的装置。
图4示出本发明从图像中检测物体的装置的一个实施例的结构示意图。如图4所示,该实施例的从图像中检测物体的装置40包括:
初步信息获取模块403,用于将待检测图像输入深度学习模型进行处理,通过深度学习模型的卷积层提取待检测图像的特征,通过深度学习模型的Proposal层获得物体在待检测图像中的初步预测坐标,通过深度学习模型的全连接层提取待检测图像中物体的坐标回归信息和分类信息。
预测坐标修正模块404,用于将物体在待检测图像中的初步预测坐标、待检测图像中物体的坐标回归信息和分类信息输入级联处理层,利用待检测图像中物体的坐标回归信息和分类信息将物体在待检测图像中的初步预测坐标修正为物体在待检测图像中的预测坐标;
区域特征获取模块405,用于将待检测图像的特征以及物体在待检测图像中的预测坐标输入级联ROIPooling层进行池化处理,得到物体在待检测图像中的预测坐标所对应图像区域的特征;
修正信息获取模块406,用于将物体在待检测图像中的预测坐标所对应图像区域的特征输入级联全连接层进行坐标回归处理,得到待检测图像中物体的修正分类信息和修正坐标回归信息;
物体信息确定模块407,用于根据待检测图像中物体的修正分类信息确定待检测图像中物体的分类,并利用待检测图像中物体的修正坐标回归信息对物体在待检测图像中的预测坐标进行修正,确定物体在待检测图像中的修正坐标。
上述实施例中,使用构建的级联神经网络模型对图像中的物体进行检测,能够对物体在待检测图像中的坐标进行深度修正,从而得到与物体在待检测图像中的实际坐标更加接近的物体在待检测图像中的修正坐标,从而提高了检测图像中物体的准确性。此外,由于级联神经网络模型中的各个层进行处理所需时间较短,因此能够实现保证图像检测的时效性的同时提高检测图像中物体的准确性。
在一个实施例中,预测坐标修正模块404包括:
信息确定单元4042,用于确定每个物体在待检测图像中的初步预测坐标所对应的置信度最高的坐标回归信息和分类信息;
坐标修正单元4044,用于利用待检测图像中每个物体的置信度最高的坐标回归信息和分类信息,将每个物体在待检测图像中的初步预测坐标修正为每个物体在待检测图像中的预测坐标。
在一个实施例中,从图像中检测物体的装置40还包括:
级联神经网络模型构建模块401,用于在深度学习模型的输出端依次接入级联处理层、级联ROI-data层、级联ROIPooling层以及级联全连接层,构建级联神经网络模型;其中,级联ROI-data层存有物体在图像中的实际坐标,级联ROIPooling层接收深度学习模型中的卷积层输出的图像的特征;
级联神经网络模型训练模块402,用于将训练图像输入级联神经网络模型,将训练图像中物体的分类信息和物体在训练图像中的实际坐标输入级联ROI-data层以及深度学习模型中的ROI-data层,将训练图像中物体的分类信息输入级联全连接层以及深度学习模型中的全连接层,从而对级联神经网络模型进行训练。
在一个实施例中,初步信息获取模块403用于:提取第五个卷积层中的信息作为待检测图像的特征;提取全连接层的回归结果层中的信息作为待检测图像中物体的坐标回归信息;提取全连接层的分类结果层中的信息作为待检测图像中物体的分类信息。
在一个实施例中,深度学习模型为更快速基于图像区域的卷积神经网络Faster-RCNN。
在一个实施例中,从图像中检测物体的装置40还包括:
类别确定模块408,用于确定置信度大于预设值的物体在待检测图像中的修正坐标和图像中物体的分类。
显示模块409,用于将置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类显示在图片中。
图5示出了本发明从图像中检测物体的装置的另一个实施例的结构图。如图5所示,该实施例的从图像中检测物体的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行前述任意一个实施例中的从图像中检测物体的方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图6示出了本发明从图像中检测物体的装置的又一个实施例的结构图。如图6所示,该实施例从图像中检测物体的装置60包括:存储器510以及处理器520,还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器510和处理器520之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本发明还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一个实施例中的基于遗传算法的调度方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种从图像中检测物体的方法,其特征在于,包括:
将待检测图像输入深度学习模型进行处理,通过深度学习模型的卷积层提取待检测图像的特征,通过深度学习模型的Proposal建议层获得物体在待检测图像中的初步预测坐标,通过深度学习模型的全连接层提取待检测图像中物体的坐标回归信息和分类信息;
将物体在待检测图像中的初步预测坐标、待检测图像中物体的坐标回归信息和分类信息输入级联处理层,利用待检测图像中物体的坐标回归信息和分类信息将物体在待检测图像中的初步预测坐标修正为物体在待检测图像中的预测坐标;
将待检测图像的特征以及物体在待检测图像中的预测坐标输入级联ROIPooling感兴趣区域池化层进行池化处理,得到物体在待检测图像中的预测坐标所对应图像区域的特征;
将物体在待检测图像中的预测坐标所对应图像区域的特征输入级联全连接层进行坐标回归处理,得到待检测图像中物体的修正分类信息和修正坐标回归信息;
根据待检测图像中物体的修正分类信息确定待检测图像中物体的分类,并利用待检测图像中物体的修正坐标回归信息对物体在待检测图像中的预测坐标进行修正,确定物体在待检测图像中的修正坐标。
2.如权利要求1所述的方法,其特征在于,所述利用待检测图像中物体的坐标回归信息和分类信息将物体在待检测图像中的初步预测坐标修正为物体在待检测图像中的预测坐标包括:
确定每个物体在待检测图像中的初步预测坐标所对应的置信度最高的坐标回归信息和分类信息;
利用待检测图像中每个物体的置信度最高的坐标回归信息和分类信息,将每个物体在待检测图像中的初步预测坐标修正为每个物体在待检测图像中的预测坐标。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
在所述深度学习模型的输出端依次接入所述级联处理层、级联ROI-data感兴趣区域数据层、所述级联ROIPooling感兴趣区域池化层以及所述级联全连接层,构建级联神经网络模型;其中,所述级联ROI-data层存有物体在图像中的实际坐标,所述级联ROIPooling层接收所述深度学习模型中的卷积层输出的图像的特征;
将训练图像输入所述级联神经网络模型,将训练图像中物体的分类信息和物体在训练图像中的实际坐标输入所述级联ROI-data层以及所述深度学习模型中的ROI-data层,将训练图像中物体的分类信息输入所述级联全连接层以及所述深度学习模型中的全连接层,从而对所述级联神经网络模型进行训练。
4.如权利要求1所述的方法,其特征在于,
所述通过卷积层获得待检测图像的特征包括:提取第五个卷积层中的信息作为待检测图像的特征;
所述通过全连接层获得待检测图像中物体的坐标回归信息和分类信息包括:
提取全连接层的回归结果层中的信息作为待检测图像中物体的坐标回归信息;
提取全连接层的分类结果层中的信息作为待检测图像中物体的分类信息。
5.如权利要求1所述的方法,其特征在于,所述深度学习模型为更快速基于图像区域的卷积神经网络Faster-RCNN。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
确定置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类;
将置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类显示在图片中。
7.一种从图像中检测物体的装置,其特征在于,包括:
初步信息获取模块,用于将待检测图像输入深度学习模型进行处理,通过深度学习模型的卷积层提取待检测图像的特征,通过深度学习模型的Proposal层获得物体在待检测图像中的初步预测坐标,通过深度学习模型的全连接层提取待检测图像中物体的坐标回归信息和分类信息;
预测坐标修正模块,用于将物体在待检测图像中的初步预测坐标、待检测图像中物体的坐标回归信息和分类信息输入级联处理层,利用待检测图像中物体的坐标回归信息和分类信息将物体在待检测图像中的初步预测坐标修正为物体在待检测图像中的预测坐标;
区域特征获取模块,用于将待检测图像的特征以及物体在待检测图像中的预测坐标输入级联ROIPooling层进行池化处理,得到物体在待检测图像中的预测坐标所对应图像区域的特征;
修正信息获取模块,用于将物体在待检测图像中的预测坐标所对应图像区域的特征输入级联全连接层进行坐标回归处理,得到待检测图像中物体的修正分类信息和修正坐标回归信息;
物体信息确定模块,用于根据待检测图像中物体的修正分类信息确定待检测图像中物体的分类,并利用待检测图像中物体的修正坐标回归信息对物体在待检测图像中的预测坐标进行修正,确定物体在待检测图像中的修正坐标。
8.如权利要求7所述的装置,其特征在于,所述预测坐标修正模块包括:
信息确定单元,用于确定每个物体在待检测图像中的初步预测坐标所对应的置信度最高的坐标回归信息和分类信息;
坐标修正单元,用于利用待检测图像中每个物体的置信度最高的坐标回归信息和分类信息,将每个物体在待检测图像中的初步预测坐标修正为每个物体在待检测图像中的预测坐标。
9.如权利要求7所述的装置,其特征在于,所述装置还包括:
级联神经网络模型构建模块,用于在所述深度学习模型的输出端依次接入所述级联处理层、级联ROI-data层、所述级联ROIPooling感兴趣区域池化层以及所述级联全连接层,构建级联神经网络模型;其中,所述级联ROI-data层存有物体在图像中的实际坐标,所述级联ROIPooling层接收所述深度学习模型中的卷积层输出的图像的特征;
级联神经网络模型训练模块,用于将训练图像输入所述级联神经网络模型,将训练图像中物体的分类信息和物体在训练图像中的实际坐标输入所述级联ROI-data层以及所述深度学习模型中的ROI-data层,将训练图像中物体的分类信息输入所述级联全连接层以及所述深度学习模型中的全连接层,从而对所述级联神经网络模型进行训练。
10.如权利要求7所述的装置,其特征在于,所述初步信息获取模块用于:
提取第五个卷积层中的信息作为待检测图像的特征;
提取全连接层的回归结果层中的信息作为待检测图像中物体的坐标回归信息;
提取全连接层的分类结果层中的信息作为待检测图像中物体的分类信息。
11.如权利要求7所述的装置,其特征在于,所述深度学习模型为更快速基于图像区域的卷积神经网络Faster-RCNN。
12.如权利要求7所述的装置,其特征在于,所述装置还包括:
类别确定模块,用于确定置信度大于预设值的物体在待检测图像中的修正坐标和图像中物体的分类;
显示模块,用于将置信度大于预设值的物体在待检测图像中的修正坐标和待检测图像中物体的分类显示在图片中。
13.一种从图像中检测物体的装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至6中任一项所述的从图像中检测物体的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述指令被处理器执行时实现如权利要求1至6中任一项所述的从图像中检测物体的方法。
CN201710112435.9A 2017-02-28 2017-02-28 从图像中检测物体的方法及装置 Active CN106909901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710112435.9A CN106909901B (zh) 2017-02-28 2017-02-28 从图像中检测物体的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710112435.9A CN106909901B (zh) 2017-02-28 2017-02-28 从图像中检测物体的方法及装置

Publications (2)

Publication Number Publication Date
CN106909901A CN106909901A (zh) 2017-06-30
CN106909901B true CN106909901B (zh) 2020-06-05

Family

ID=59208085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710112435.9A Active CN106909901B (zh) 2017-02-28 2017-02-28 从图像中检测物体的方法及装置

Country Status (1)

Country Link
CN (1) CN106909901B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697449A (zh) * 2017-10-20 2019-04-30 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置及电子设备
CN108334878B (zh) * 2018-02-07 2021-01-05 北京影谱科技股份有限公司 视频图像检测方法、装置、设备及可读存储介质
CN108347643B (zh) * 2018-03-05 2020-09-15 成都索贝数码科技股份有限公司 一种基于深度学习的字幕叠加截图的实现方法
CN108805004B (zh) * 2018-04-12 2021-09-14 深圳市商汤科技有限公司 功能区域检测方法和装置、电子设备、存储介质
US10956796B2 (en) 2018-10-11 2021-03-23 International Business Machines Corporation Self-guided object detection in regular images
CN112239943B (zh) * 2019-07-17 2023-10-24 青岛海尔智能技术研发有限公司 用于衣服识别的方法、装置及叠衣系统
CN110647946B (zh) * 2019-09-29 2023-04-07 上海依图网络科技有限公司 一种画中画的检测方法、装置和计算机存储介质
CN110910360B (zh) * 2019-11-14 2023-06-13 腾讯云计算(北京)有限责任公司 电网图像的定位方法和图像定位模型的训练方法
CN111062298A (zh) * 2019-12-11 2020-04-24 深圳供电局有限公司 配电网电力设备目标识别方法和系统
CN115116027A (zh) * 2022-06-01 2022-09-27 合众新能源汽车有限公司 目标物体定位方法、装置、可读存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631519A (zh) * 2015-12-31 2016-06-01 北京工业大学 一种基于预决策的卷积神经网络加速方法及系统
CN105975941A (zh) * 2016-05-31 2016-09-28 电子科技大学 一种基于深度学习的多方向车型检测识别系统
CN106022232A (zh) * 2016-05-12 2016-10-12 成都新舟锐视科技有限公司 基于深度学习的车牌检测方法
CN106156807A (zh) * 2015-04-02 2016-11-23 华中科技大学 卷积神经网络模型的训练方法及装置
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156807A (zh) * 2015-04-02 2016-11-23 华中科技大学 卷积神经网络模型的训练方法及装置
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
CN105631519A (zh) * 2015-12-31 2016-06-01 北京工业大学 一种基于预决策的卷积神经网络加速方法及系统
CN106022232A (zh) * 2016-05-12 2016-10-12 成都新舟锐视科技有限公司 基于深度学习的车牌检测方法
CN105975941A (zh) * 2016-05-31 2016-09-28 电子科技大学 一种基于深度学习的多方向车型检测识别系统

Also Published As

Publication number Publication date
CN106909901A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN106909901B (zh) 从图像中检测物体的方法及装置
CN108230323B (zh) 一种基于卷积神经网络的肺结节假阳性筛选方法
CN109543627B (zh) 一种判断驾驶行为类别的方法、装置、及计算机设备
WO2020238054A1 (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN108492294B (zh) 一种图像色彩和谐程度的评估方法及装置
CN112884764A (zh) 提取图像中地块的方法、装置、电子设备及存储介质
CN110751606B (zh) 一种基于神经网络算法的泡沫图像处理方法及系统
CN112819796A (zh) 烟丝异物识别方法及设备
CN111680165A (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN109067708B (zh) 一种网页后门的检测方法、装置、设备及存储介质
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN112883926A (zh) 表格类医疗影像的识别方法及装置
CN114492831A (zh) 联邦学习模型的生成方法及其装置
CN111612747A (zh) 产品表面裂缝快速检测方法及检测系统
CN110889437B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN111461121A (zh) 一种基于yolov3网络的电表示数识别方法
CN116542991A (zh) 一种用于裂缝图像分割的网络架构及其训练方法和分割方法
CN116340548A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN111597845A (zh) 一种二维码检测方法、装置、设备及可读存储介质
JP6838167B2 (ja) ウェブページメイン画像認識方法及び装置
CN113379727A (zh) 基于改进YOLOv4-Tiny特征融合的猕猴桃叶面病害检测方法
CN111369489B (zh) 一种图像识别方法、装置及终端设备
CN108363967A (zh) 一种遥感图像场景的分类系统
CN115937690B (zh) 一种槽线生成方法、装置、存储介质及终端
CN109543716B (zh) 一种基于深度学习的k线形态图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant