CN108230292B - 物体检测方法和神经网络的训练方法、装置及电子设备 - Google Patents
物体检测方法和神经网络的训练方法、装置及电子设备 Download PDFInfo
- Publication number
- CN108230292B CN108230292B CN201710233770.4A CN201710233770A CN108230292B CN 108230292 B CN108230292 B CN 108230292B CN 201710233770 A CN201710233770 A CN 201710233770A CN 108230292 B CN108230292 B CN 108230292B
- Authority
- CN
- China
- Prior art keywords
- image
- detection
- neural network
- sample image
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种物体检测方法、神经网络的训练方法、装置和电子设备,其中,所述物体检测方法包括:通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据;根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。通过本发明实施例,能够在保证对图像中物体的检测精度的同时,还能够减少对图像中物体进行检测的计算量。
Description
技术领域
本发明实施例涉及人工智能技术,尤其涉及一种物体检测方法、装置及电子设备,以及,一种神经网络的训练方法、装置及电子设备。
背景技术
物体检测技术是计算机视觉领域中最重要的技术之一,其被很多其它技术所依赖。物体检测技术以图片作为输入,输出检测到的图片中物体,还可以进一步输出这些物体的位置和大小。其中,图片中物体的位置和大小可以有多种表达方式,例如,物体的外接形状、物体的边界、物体的关键点等。
近年来,基于神经网络的物体检测技术取得了很大的成功,但是过大的计算量限制了物体检测技术的发展和应用。造成基于神经网络的物体检测技术计算量大的原因之一,是神经网络如卷积神经网络自身不具备尺度不变性。尺度不变性指的是针对图片中同一个物体,无论它的分辨率是高是低,神经网络的输出结果均不变的特性。由于在实际应用中,物体在图片中的尺寸难以保持恒定,因此,基于神经网络的物体检测技术一般需要具有多尺度物体检测的能力。
现有的基于神经网络的物体检测技术一般通过两种方式来解决图片中物体尺度的问题。一种方式是通过使用不同尺度的物体图片对神经网络进行训练,来使神经网络在不同尺度的物体上获得相似的检测精度。另一种方式是通过将待检测的图片缩放为多种分辨率,并将每种分辨率的图片通过基于神经网络的物体检测技术进行物体检测,最终将不同分辨率的图片的检测结果合并,实现物体的多尺度检测。
发明内容
本发明实施例的目的在于,提供一种物体检测的技术方案和神经网络训练的技术方案。
根据本发明实施例的第一方面,提供了一种物体检测方法,包括:通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据;根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。
可选地,所述根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体,包括:通过用于物体检测的第二神经网络,从所述待检图像检测目标物体。
可选地,在通过用于物体检测的第二神经网络,从所述待检图像检测目标物体之前,所述根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体,还包括:根据所述第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据;根据所述待检图像的缩放比例数据对所述待检图像进行缩放。
可选地,所述根据所述第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据,包括:分别确定所述物体的尺寸范围的数据的上限和下限以及所述第二神经网络的物体尺度检测范围的上限和下限;将所述物体的尺寸范围的数据的上限和下限分别与所述第二神经网络的物体尺度检测范围的上限和下限进行比较,得到比较结果;根据所述比较结果确定所述待检图像的缩放次数和所述待检图像每次缩放的缩放比例。
可选地,所述待检图像中物体的尺寸范围的数据包括所述待检图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述待检图像中物体的尺寸落入所述元素对应的尺寸范围的概率。
可选地,所述通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据之后,所述方法还包括:对所述尺度向量对应的尺度直方图进行平滑,得到平滑后的尺度直方图;从所述经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合;根据所述集合中预测的物体的尺寸的置信度大于预设阈值的物体的尺寸确定最终预测的物体的尺寸。
可选地,所述物体尺度检测范围的最大检测尺寸为所述物体尺度检测范围的最小检测尺寸的两倍。
根据本发明实施例的第二方面,提供了一种神经网络的训练方法,包括:通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据;根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;根据所述差异调整所述神经网络的网络参数。
可选地,所述各个所述样本图像中物体的尺寸范围的检测数据包括所述各个所述样本图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述样本图像中物体的尺寸落入所述元素对应的尺寸范围的概率。
可选地,所述根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异,包括:根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量;确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
可选地,所述样本图像的物体标注信息包括所述样本图像中每个物体的物体特征的标注信息。
可选地,所述根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量,包括:将所述样本图像中每个物体的物体特征的标注信息进行转换,得到所述样本图像中每个物体的限位框;通过高斯函数,根据所述样本图像中每个物体的限位框的边长计算得到所述样本图像中每个物体的限位框的边长所对应的高斯函数值;对所述高斯函数值进行采样,得到所述样本图像的标定的尺度向量。
可选地,所述确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异,包括:通过交叉熵函数,根据获取得到的各个所述样本图像中物体的尺度向量和各个所述样本图像的标定的尺度向量计算获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
根据本发明实施例的第三方面,提供了一种物体检测装置,包括:第一获取模块,用于通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据;检测模块,用于根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。
可选地,所述检测模块,包括:检测子模块,用于通过用于物体检测的第二神经网络,从所述待检图像检测目标物体。
可选地,所述检测模块,还包括:第一确定子模块,用于根据所述第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据;缩放子模块,用于根据所述待检图像的缩放比例数据对所述待检图像进行缩放。
可选地,所述第一确定子模块,包括:第一确定单元,用于分别确定所述物体的尺寸范围的数据的上限和下限以及所述第二神经网络的物体尺度检测范围的上限和下限;比较单元,用于将所述物体的尺寸范围的数据的上限和下限分别与所述第二神经网络的物体尺度检测范围的上限和下限进行比较,得到比较结果;第二确定单元,用于根据所述比较结果确定所述待检图像的缩放次数和所述待检图像每次缩放的缩放比例。
可选地,所述待检图像中物体的尺寸范围的数据包括所述待检图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述待检图像中物体的尺寸落入所述元素对应的尺寸范围的概率。
可选地,所述装置还包括:平滑模块,用于对所述尺度向量对应的尺度直方图进行平滑,得到平滑后的尺度直方图;提取模块,用于从所述经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合;第一确定模块,用于根据所述集合中预测的物体的尺寸的置信度大于预设阈值的物体的尺寸确定最终预测的物体的尺寸。
可选地,所述物体尺度检测范围的最大检测尺寸为所述物体尺度检测范围的最小检测尺寸的两倍。
根据本发明实施例的第四方面,提供了一种神经网络的训练装置,包括:第二获取模块,用于通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据;第二确定模块,用于根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;调整模块,用于根据所述差异调整所述神经网络的网络参数。
可选地,所述各个所述样本图像中物体的尺寸范围的检测数据包括所述各个所述样本图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述样本图像中物体的尺寸落入所述元素对应的尺寸范围的概率。
可选地,所述第二确定模块,包括:第二确定子模块,用于根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量;第三确定子模块,用于确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
可选地,所述样本图像的物体标注信息包括所述样本图像中每个物体的物体特征的标注信息。
可选地,所述第二确定子模块,包括:转换单元,用于将所述样本图像中每个物体的物体特征的标注信息进行转换,得到所述样本图像中每个物体的限位框;第一计算单元,用于通过高斯函数,根据所述样本图像中每个物体的限位框的边长计算得到所述样本图像中每个物体的限位框的边长所对应的高斯函数值;采样单元,用于对所述高斯函数值进行采样,得到所述样本图像的标定的尺度向量。
可选地,所述第三确定子模块,包括:第二计算单元,用于通过交叉熵函数,根据获取得到的各个所述样本图像中物体的尺度向量和各个所述样本图像的标定的尺度向量计算获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
根据本发明实施例的第五方面,提供了一种电子设备,包括:第一处理器、第一存储器、第一通信元件和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信;所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如本发明实施例第一方面提供的任一项所述的物体检测方法对应的操作。
根据本发明实施例的第六方面,提供了一种电子设备,包括:第二处理器、第二存储器、第二通信元件和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信;所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如本发明实施例第二方面提供的任一项所述的神经网络的训练方法对应的操作。
根据本发明实施例的第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据的可执行指令;用于根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体的可执行指令。
根据本发明实施例的第八方面,提供了另一种计算机可读存储介质,所述计算机可读存储介质存储有:用于通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据的可执行指令;用于根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异的可执行指令;用于根据所述差异调整所述神经网络的网络参数的可执行指令。
根据本发明实施例提供的技术方案,通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据,并根据待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体,相比于在图像中物体的尺寸未知的情况下,对图像中的物体进行多尺度检测,本发明实施例的物体检测方法能够在保证对图像中物体的检测精度的同时,还能够减少对图像中物体进行检测的计算量。
附图说明
图1是根据本发明实施例一的物体检测方法的流程图;
图2是根据本发明实施例二的物体检测方法的流程图;
图3是应用图2的方法实施例的具体场景的示意图;
图4是根据本发明实施例三的神经网络的训练方法的流程图;
图5是根据本发明实施例四的神经网络的训练方法的流程图;
图6是根据本发明实施例五的物体检测装置的结构框图;
图7是根据本发明实施例六的物体检测装置的结构框图;
图8是根据本发明实施例七的物体检测装置的结构框图;
图9是根据本发明实施例八的神经网络的训练装置的结构框图;
图10是根据本发明实施例九的神经网络的训练装置的结构框图;
图11是根据本发明实施例十的神经网络的训练装置的结构框图;
图12是根据本发明实施例十一的电子设备的结构示意图;
图13是根据本发明实施例十二的电子设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
图1是根据本发明实施例一的物体检测方法的流程图。
参照图1,在步骤S101中,通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据。
在本发明实施例中,第一神经网络可以是任意适当的可实现特征提取或目标对象检测的神经网络,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等,本发明实施例对此不作限制。
其中,所述待检图像可以是拍摄的静态图像、视频帧,也可以是合成的图像等等,所述待检图像中物体的尺寸定义为图像中物体的限位框的边长,那么物体尺寸范围指的是图像中物体的限位框的边长所处的范围,例如,8-16、64-128、512-1024等等。在具体的实施中,物体限位框的边长通过限位框的边的像数值来体现的。所述第一神经网络可以通过后文所述的训练方式训练得到。
在步骤S102中,根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。
由于在实际应用中,物体在图像中的尺寸难以保持恒定,就需要对图像进行多尺度检测才能检测到图像中的物体。然而,在本实施例中,在得到待检测图像中物体的尺寸范围的数据之后,可直接根据待检测图像中物体的尺寸范围的数据从所述待检测图像中检测得到目标物体。籍此,在保证对图像中物体的检测精度的同时,可减小对图像中物体进行检测的计算量。
根据本实施例的物体检测方法,通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据,并根据待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体,相比于在图像中物体的尺寸未知的情况下,对图像中的物体进行多尺度检测,本发明实施例的物体检测方法能够在保证对图像中物体的检测精度的同时,还能够减少对图像中物体进行检测的计算量。
本实施例的物体检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。
实施例二
图2是根据本发明实施例二的物体检测方法的流程图。
参照图2,在步骤S201中,通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据。
在本发明的实施例中,所述待检图像中物体的尺寸范围的数据可包括所述待检图像中物体的尺度向量,例如,在人脸的检测中的尺度直方图向量。所述尺度向量的各个元素分别指示所述待检图像中物体的尺寸落入所述元素对应的尺寸范围的概率。在人脸检测中,通过将待检测图像作为所述第一神经网络的卷积层的输入,得到所述待检测图像的尺度响应热度图。然后,将所述尺度响应热度图作为所述第一神经网络的全局最大池化层的输入,得到所述待检测图像中物体的尺度直方图向量。当然,在人脸检测中也可将待检测图像进行重采样之后再将重采样后的待检测图像作为所述第一神经网络的卷积层的输入,所述重采样包括下采样。
在步骤S202中,根据用于物体检测的第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据。
例如,用于物体检测的第二神经网络可为RPN(Region Proposal Network,区域候选网络)、Faster RCNN(Faster Region with CNN,快速卷积神经网络)、R-FCN(Region-based Fully Convolutional Network,基于区域的全卷积网络)、YOLO(You Only LookOnce,一体化检测)、SSD(Single Shot MultiBox Detector,单拍多框检测器)等等。在本发明实施例中,分别确定图像中物体的尺寸范围的上限和下限以及用于物体检测的第二神经网络的物体尺度检测范围的上限和下限。然后,将图像中物体的尺寸范围的上限和下限分别与第二神经网络的物体尺度检测范围的上限和下限进行比较,得到比较结果,并根据所述比较结果确定所述待检图像的缩放次数和所述待检图像每次缩放的缩放比例。具体地,在根据比较结果得到所述物体的尺寸范围的上限小于或等于所述第二神经网络的物体尺度检测范围的上限,并且所述物体的尺寸范围的下限大于或等于所述第二神经网络的物体尺度检测范围的下限时,则判断不需要对所述待检图像进行缩放;在根据比较结果得到所述物体的尺寸范围的上限大于所述第二神经网络的物体尺度检测范围的上限,并且所述物体的尺寸范围的下限小于所述第二神经网络的物体尺度检测范围的下限时,则判断需要对所述待检图像进行缩放,并根据所述物体的尺寸范围的上限大于所述第二神经网络的物体尺度检测范围的上限的程度和所述物体的尺寸范围的下限小于所述第二神经网络的物体尺度检测范围的下限的程度确定待检图像的缩放次数和所述待检图像每次缩放的缩放比例。其中,所述第二神经网络的物体尺度检测范围为单尺度检测范围,检测范围较窄,是第二神经网络预先设定好的。
可选地,所述物体尺度检测范围的最大检测尺寸为所述物体尺度检测范围的最小检测尺寸的两倍。之所以对第二神经网络的物体尺度检测范围的上限和下限进行这种配置,是因为这种配置在保证每张图像的缩放次数低的同时还能够实现较高的检测精度。此外,还能够减轻第二神经网络对图像中物体进行检测的计算量。
在本发明的实施例中,当人脸检测中的尺度直方图向量所对应的尺度直方图具有许多个图像中物体的尺寸范围时,例如,60个物体的尺寸范围,并且每个物体的尺寸范围之间的间隔极小,尺度直方图是趋向于嘈杂的。此外,图像中物体的存在通常会对其相应的尺寸范围和其相邻的尺寸范围带来高响应,这样就使得简单地超越高响应的预测成为不可能。为了从尺度直方图中提取有用的信号,可选地,所述方法还包括:对所述尺度向量对应的尺度直方图进行平滑,得到平滑后的尺度直方图;从所述经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合;根据所述集合中预测的物体的尺寸的置信度大于预设阈值的物体的尺寸确定最终预测的物体的尺寸。籍此,能够在保证最终预测得到的物体的尺寸的数量少的同时,还能够实现很高的灵敏度。
具体地,使用移动平均法对所述尺度直方图进行平滑,得到平滑后的尺度直方图。更为具体地,使用所述第二神经网络的物体尺度检测范围的一半长度的窗口对所述尺度直方图进行平滑,得到平滑后的尺度直方图。通过这种平滑操作,在保留所述尺度直方图具有足够高的分辨率的同时还减少了所述尺度直方图的高频噪声和峰值。然后,使用单维的非最大值抑制法,从所述经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合。其中,单维的非最大值抑制法的窗口大小稍微小于所述第二神经网络的物体尺度检测范围。这样就不会漏掉有用的信号。再然后,将所述集合中预测的物体的尺寸的置信度大于预设阈值的物体的尺寸作为最终预测的物体的尺寸。在得到预测的物体的尺寸之后,将得到的物体尺寸分别与所述物体尺度检测范围的上限和下限进行比较,得到比较结果,并根据所述比较结果确定所述待检图像的缩放次数和所述待检图像每次缩放的缩放比例。当然,除了使用使用单维的非最大值抑制法,从所述经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合之外,还可使用贪心算法从所述经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合,但并不限于此。
在步骤S203中,根据所述待检图像的缩放比例数据对所述待检图像进行缩放。
在本实施例中,根据上述实施例得到的待检图像的缩放次数和所述待检图像每次缩放的缩放比例分别对所述待检图像进行缩放,得到至少一个缩放后的检测图像。
在步骤S204中,通过用于物体检测的第二神经网络,从所述待检图像检测目标物体。
在本实施例中,通过用于物体检测或关键点检测的卷积神经网络,针对每个缩放后的检测图像进行物体检测,得到每个缩放后的检测图像的物体检测结果,并将每个缩放后的检测图像的物体检测结果进行合并,得到所述待检测图像的物体检测结果。
图3是应用图2的方法实施例的具体场景的示意图。如图3所示,待检测图像中具有两张人脸,将该待检测图像输入尺度预测网络中,也即是上述实施例中的第一神经网络,经尺度预测网络对该待检测图像进行处理,得到待检测图像中人脸的尺度直方图,再采用移动平均法和单维的非最大值抑制法对所述尺度直方图进行处理,得到待检测图像中两张人脸的大小,即人脸1的大小和人脸2的大小,再根据两张人脸的大小和单尺度物体检测的范围确定对待检测图像进行缩放的次数和每次缩放的缩放比例,很显然,图中对待检测图像进行了两次缩放,一次是对待检测图像进行缩小,另一次是对待检测图像进行放大,分别经区域候选网络对缩小后的待检测图像和放大后的待检测图像进行人脸检测,分别得到人脸检测结果。最后,将人脸检测结果进行合并,得到待检测图像的人脸检测结果。其中,所述区域候选网络也即是上述实施例中的第二神经网络。
本发明实施例的物体检测方法有着重要的应用,如人脸检测、车辆检测、行人检测等。在手机上,需要进行人脸检测以辅助对焦和曝光,以及进行人脸识别。在汽车上,需要车辆道路行人检测,从而进行辅助驾驶。
根据本实施例的物体检测方法,通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据,并根据用于物体检测的第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据,再根据所述待检图像的缩放比例数据对所述待检图像进行缩放,然后通过用于物体检测的第二神经网络,从所述待检图像检测目标物体,能够针对待检测图像中物体的尺寸范围或尺寸没有完全落入第二神经网络的物体尺度检测范围的情况对待检测图像中的物体进行检测,能够进一步地保证对图像中物体的检测精度的同时,还能够减少对图像中物体进行检测的计算量。
本实施例的图像检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。
实施例三
图4是根据本发明实施例三的神经网络的训练方法的流程图。
参考图4,在步骤S301中,通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据。
在神经网络的训练过程中,通过将经过标注的多个样本图像输入该神经网络,来获取这些样本图像中物体的尺寸范围的检测数据。其中,待训练的神经网络为上述实施例中提到的第一神经网络。
其中,该神经网络具有多个卷积层,并且在最后一个卷积层末端设置有全局最大池化层。通过将样本图像作为所述神经网络的卷积层的输入,得到所述样本图像的尺度响应热度图。然后,将所述尺度响应热度图作为所述神经网络的全局最大池化层的输入,得到所述样本图像中物体的尺寸范围的检测数据。可选地,在所述全局最大池化层的末端还可设置一个或多个全连接层。
在步骤S302中,根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异。
通过计算所述差异,对当前获得的检测数据进行评估,以作为后续训练神经网络的依据。
在步骤S303中,根据所述差异调整所述神经网络的网络参数。
具体地,可将所述差异值反向传输给神经网络,从而迭代地训练该神经网络。神经网络的训练是一个迭代的过程,本发明实施例仅对其中的一次训练过程进行了说明,但本领域技术人员应当明了,对神经网络的每次训练都可采用该训练方式,直至完成神经网络的训练。
本发明的示例性实施例旨在提出一种神经网络的训练方法,通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据,并根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异,再根据所述差异调整所述神经网络的网络参数,以使训练得到的神经网络获取图像中物体的尺寸范围的数据。
本实施例的图像检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。
实施例四
图5是根据本发明实施例四的神经网络的训练方法的流程图。
参考图5,在步骤S401中,通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据。
在本发明的实施例中,所述各个所述样本图像中物体的尺寸范围的检测数据包括所述各个所述样本图像中物体的尺度向量,例如,在人脸的检测中的尺度直方图向量。所述尺度向量的各个元素分别指示所述样本图像中物体的尺寸落入所述元素对应的尺寸范围的概率。在以人脸图像作为样本图像的情况下,通过将样本图像作为所述神经网络的卷积层的输入,得到所述样本图像的尺度响应热度图。然后,将所述尺度响应热度图作为所述神经网络的全局最大池化层的输入,得到所述样本图像中物体的尺度直方图向量。
在步骤S402中,根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量。
可选地,所述样本图像的物体标注信息包括所述样本图像中每个物体的物体特征的标注信息。举例来说,在样本图像为人脸图像时,人脸特征的标注信息包括左眼中心的位置、右眼中心的位置、鼻子的位置、左嘴角的位置和右嘴角的位置等等。如果所述样本图像的物体标注信息为所述样本图像中物体的限位框的标注信息,那么物体的限位框的标注信息中的噪声会损害神经网络进行尺度检测的性能。其中,噪声是由人工标注样本图像中的限位框时的主观因素引起的。而当样本图像的物体标注信息为样本图像中每个物体的物体特征的标注信息时,可保证神经网络进行尺度检测的性能。
具体地,所述根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量,包括:将所述样本图像中每个物体的物体特征的标注信息进行转换,得到所述样本图像中每个物体的限位框;通过高斯函数,根据所述样本图像中每个物体的限位框的边长计算得到所述样本图像中每个物体的限位框的边长所对应的高斯函数值;对所述高斯函数值进行采样,得到所述样本图像的标定的尺度向量。可选地,所述物体限位框为正方形限位框。
在具体的实施方式中,当所述样本图像为人脸图像时,根据以下公式一对样本图像中每个人脸的人脸特征的标注信息进行转换,得到所述样本图像中每个人脸的正方形限位框:
其中,表示人脸的左眼中心的位置坐标,表示人脸的右眼中心的位置坐标,表示人脸的鼻子的位置坐标,表示人脸的左嘴角的位置坐标,表示人脸的右嘴角的位置坐标,表示正方形限位框的中心位置的坐标,表示正方形限位框的边长,ox,oy,os分别表示补偿参数。
然后,根据以下公式二计算得到所述样本图像中每个人脸的正方形限位框的边长所对应的高斯函数值:
其中,s表示人脸的正方形限位框的边长,f(x)表示人脸的正方形限位框的边长所对应的高斯函数值,σ的取值取决于标定的人脸尺寸的分布误差和所述物体尺度检测范围。
在步骤S403中,确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
具体地,所述确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异,包括:通过交叉熵函数,根据获取得到的各个所述样本图像中物体的尺度向量和各个所述样本图像的标定的尺度向量计算获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。当然,还可通过其它函数,例如,softmax损失函数,L1损失函数,L2损失函数等任意损失函数,根据获取得到的各个所述样本图像中物体的尺度向量和各个所述样本图像的标定的尺度向量计算获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
在具体的实施方式中,当所述样本图像为人脸图像时,根据以下公式三计算获取得到的各个所述样本图像中物体的尺度直方图向量分别与对应的标定的尺度直方图向量之间的差异:
其中,L表示交叉熵损失,也即是所述差异,N表示大于或等于1的整数,p表示标定的尺度直方图向量,pn表示标定的尺度直方图向量的第n个元素,n表示大于或等于1的整数,表示所述神经网络获取得到的样本图像中物体的尺度直方图向量,表示所述神经网络获取得到的样本图像中物体的尺度直方图向量的第n个元素。
在步骤S404中,根据所述差异调整所述神经网络的网络参数。
本发明的示例性实施例旨在提出一种神经网络的训练方法,通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据,并根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量,再确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异,再根据所述差异调整所述神经网络的网络参数,以使训练得到的神经网络获取图像中物体的尺寸范围的数据。
本实施例的图像检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。
实施例五
基于相同的技术构思,图6是示出根据本发明实施例五的物体检测装置的结构框图。可用以执行如实施例一所述的物体检测方法流程。
参照图6,该物体检测装置包括第一获取模块501和检测模块502。
第一获取模块501,用于通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据;
检测模块502,用于根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。
通过本实施例提供的物体检测装置,通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据,并根据待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体,相比于在图像中物体的尺寸未知的情况下,对图像中的物体进行多尺度检测,本发明实施例的物体检测方法能够在保证对图像中物体的检测精度的同时,还能够减少对图像中物体进行检测的计算量。
实施例六
基于相同的技术构思,图7是示出根据本发明实施例六的物体检测装置的结构框图。可用以执行如实施例二所述的物体检测方法流程。
参照图7,该物体检测装置包括第一获取模块601和检测模块605。其中,第一获取模块601,用于通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据;检测模块605,用于根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。
可选地,所述检测模块605,包括:检测子模块6051,用于通过用于物体检测的第二神经网络,从所述待检图像检测目标物体。
可选地,所述检测模块605,还包括:第一确定子模块6052,用于根据所述第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据;缩放子模块6053,用于根据所述待检图像的缩放比例数据对所述待检图像进行缩放。
可选地,所述待检图像中物体的尺寸范围的数据包括所述待检图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述待检图像中物体的尺寸落入所述元素对应的尺寸范围的概率。
可选地,所述装置还包括:平滑模块602,用于对所述尺度向量对应的尺度直方图进行平滑,得到平滑后的尺度直方图;提取模块603,用于从所述经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合;第一确定模块604,用于根据所述集合中预测的物体的尺寸的置信度大于预设阈值的物体的尺寸确定最终预测的物体的尺寸。
可选地,所述物体尺度检测范围的最大检测尺寸为所述物体尺度检测范围的最小检测尺寸的两倍。
需要说明的是,对于本发明实施例提供的物体检测装置还涉及的具体细节已在本发明实施例提供的物体检测方法中作了详细的说明,在此不在赘述。
实施例七
基于相同的技术构思,图8是示出根据本发明实施例七的物体检测装置的结构框图。可用以执行如实施例二所述的物体检测方法流程。
参照图8,该物体检测装置包括第一获取模块701和检测模块702。其中,第一获取模块701,用于通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据;检测模块702,用于根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。
可选地,所述第一确定子模块7021,包括:第一确定单元70211,用于分别确定所述物体的尺寸范围的数据的上限和下限以及所述第二神经网络的物体尺度检测范围的上限和下限;比较单元70212,用于将所述物体的尺寸范围的数据的上限和下限分别与所述第二神经网络的物体尺度检测范围的上限和下限进行比较,得到比较结果;第二确定单元70213,用于根据所述比较结果确定所述待检图像的缩放次数和所述待检图像每次缩放的缩放比例。
需要说明的是,对于本发明实施例提供的物体检测装置还涉及的具体细节已在本发明实施例提供的物体检测方法中作了详细的说明,在此不在赘述。
实施例八
基于相同的技术构思,图9是示出根据本发明实施例八的神经网络的训练装置的结构框图。可用以执行如实施例三所述的神经网络的训练方法流程。
参照图9,该神经网络的训练装置包括第二获取模块801、第二确定模块802和调整模块803。
第二获取模块801,用于通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据;
第二确定模块802,用于根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;
调整模块803,用于根据所述差异调整所述神经网络的网络参数。
通过本实施例提供的神经网络的训练装置,通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据,并根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异,再根据所述差异调整所述神经网络的网络参数,以使训练得到的神经网络获取图像中物体的尺寸范围的数据。
实施例九
基于相同的技术构思,图10是示出根据本发明实施例九的神经网络的训练装置的结构框图。可用以执行如实施例四所述的神经网络的训练方法流程。
参照图10,该神经网络的训练装置包括第二获取模块901、第二确定模块902和调整模块903。其中,第二获取模块901,用于通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据;第二确定模块902,用于根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;调整模块903,用于根据所述差异调整所述神经网络的网络参数。
可选地,所述各个所述样本图像中物体的尺寸范围的检测数据包括所述各个所述样本图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述样本图像中物体的尺寸落入所述元素对应的尺寸范围的概率。
可选地,所述第二确定模块902,包括:第二确定子模块9021,用于根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量;第三确定子模块9022,用于确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
可选地,所述样本图像的物体标注信息包括所述样本图像中每个物体的物体特征的标注信息。
需要说明的是,对于本发明实施例提供的神经网络的训练装置还涉及的具体细节已在本发明实施例提供的神经网络的训练方法中作了详细的说明,在此不在赘述。
实施例十
基于相同的技术构思,图11是示出根据本发明实施例十的神经网络的训练装置的结构框图。可用以执行如实施例四所述的神经网络的训练方法流程。
参照图11,该神经网络的训练装置包括第二获取模块1001、第二确定模块1002和调整模块1003。其中,第二获取模块1001,用于通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据;第二确定模块1002,用于根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;调整模块1003,用于根据所述差异调整所述神经网络的网络参数。
可选地,所述第二确定子模块1004,包括:转换单元1005,用于将所述样本图像中每个物体的物体特征的标注信息进行转换,得到所述样本图像中每个物体的限位框;第一计算单元1006,用于通过高斯函数,根据所述样本图像中每个物体的限位框的边长计算得到所述样本图像中每个物体的限位框的边长所对应的高斯函数值;采样单元1007,用于对所述高斯函数值进行采样,得到所述样本图像的标定的尺度向量。
可选地,所述第三确定子模块1008,包括:第二计算单元1009,用于通过交叉熵函数,根据获取得到的各个所述样本图像中物体的尺度向量和各个所述样本图像的标定的尺度向量计算获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
需要说明的是,对于本发明实施例提供的神经网络的训练装置还涉及的具体细节已在本发明实施例提供的神经网络的训练方法中作了详细的说明,在此不在赘述。
实施例十一
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图12,其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备1100的结构示意图。如图12所示,电子设备1100包括一个或多个第一处理器、第一通信元件等,所述一个或多个第一处理器例如:一个或多个中央处理单元(CPU)1101,和/或一个或多个图像处理器(GPU)1113等,第一处理器可以根据存储在只读存储器(ROM)1102中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)1103中的可执行指令而执行各种适当的动作和处理。本实施例中,第一只读存储器1102和随机访问存储器1103统称为第一存储器。第一通信元件包括通信组件1112和/或通信接口1109。其中,通信组件1112可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口1109包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口1109经由诸如因特网的网络执行通信处理。
第一处理器可与只读存储器1102和/或随机访问存储器1103中通信以执行可执行指令,通过第一通信总线1104与通信组件1112相连、并经通信组件1112与其他目标设备通信,从而完成本发明实施例提供的任一项对象属性检测方法对应的操作,例如,通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据;根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。
此外,在RAM 1103中,还可存储有装置操作所需的各种程序和数据。CPU1101或GPU1113、ROM1102以及RAM1103通过第一通信总线1104彼此相连。在有RAM1103的情况下,ROM1102为可选模块。RAM1103存储可执行指令,或在运行时向ROM1102中写入可执行指令,可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1105也连接至第一通信总线1104。通信组件1112可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1109。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
需要说明的,如图12所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图12的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据;根据所述待检图像中物体的尺寸范围的数据,从所述待检图像检测目标物体。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被第一处理器执行时,执行本发明实施例的方法中限定的上述功能。
实施例十二
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图13,其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备1200的结构示意图。如图13所示,电子设备1200包括一个或多个第二处理器、第二通信元件等,所述一个或多个第二处理器例如:一个或多个中央处理单元(CPU)1201,和/或一个或多个图像处理器(GPU)1213等,第二处理器可以根据存储在只读存储器(ROM)1202中的可执行指令或者从存储部分1208加载到随机访问存储器(RAM)1203中的可执行指令而执行各种适当的动作和处理。本实施例中,第二只读存储器1202和随机访问存储器1203统称为第二存储器。第二通信元件包括通信组件1212和/或通信接口1209。其中,通信组件1212可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口1209包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口1209经由诸如因特网的网络执行通信处理。
第二处理器可与只读存储器1202和/或随机访问存储器1203中通信以执行可执行指令,通过第二通信总线1204与通信组件1212相连、并经通信组件1212与其他目标设备通信,从而完成本发明实施例提供的任一项神经网络训练方法对应的操作,例如,通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据;根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;根据所述差异调整所述神经网络的网络参数。
此外,在RAM 1203中,还可存储有装置操作所需的各种程序和数据。CPU1201或GPU1213、ROM1202以及RAM1203通过第二通信总线1204彼此相连。在有RAM1203的情况下,ROM1202为可选模块。RAM1203存储可执行指令,或在运行时向ROM1202中写入可执行指令,可执行指令使第二处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1205也连接至第二通信总线1204。通信组件1212可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1209。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
需要说明的,如图13所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图13的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据;根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;根据所述差异调整所述神经网络的网络参数。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被第二处理器执行时,执行本发明实施例的方法中限定的上述功能。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明实施例的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。
本发明实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (22)
1.一种物体检测方法,包括:
通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据,所述物体的尺寸范围包括所述物体的尺寸范围的上限和下限;
根据用于物体检测的第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,对所述待检图像进行缩放,所述物体尺度检测范围包括物体尺度检测范围的上限和下限;
通过所述第二神经网络,从经过缩放的所述待检图像检测目标物体,
其中,所述根据用于物体检测的第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,对所述待检图像进行缩放,包括:
根据所述第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据;
根据所述待检图像的缩放比例数据对所述待检图像进行缩放。
2.根据权利要求1所述的方法,其中,所述根据所述第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据,包括:
分别确定所述物体的尺寸范围的上限和下限以及所述第二神经网络的物体尺度检测范围的上限和下限;
将所述物体的尺寸范围的上限和下限分别与所述第二神经网络的物体尺度检测范围的上限和下限进行比较,得到比较结果;
根据所述比较结果确定所述待检图像的缩放次数和所述待检图像每次缩放的缩放比例。
3.根据权利要求1~2中任意一项权利要求所述的方法,其中,所述待检图像中物体的尺寸范围的数据包括所述待检图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述待检图像中物体的尺寸落入所述元素对应的尺寸范围的概率。
4.根据权利要求3所述的方法,其中,所述通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据之后,所述方法还包括:
对所述尺度向量对应的尺度直方图进行平滑,得到平滑后的尺度直方图;
从经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合;
根据所述集合中预测的物体的尺寸的置信度大于预设阈值的物体的尺寸确定最终预测的物体的尺寸。
5.根据权利要求1所述的方法,其中,所述物体尺度检测范围的最大检测尺寸为所述物体尺度检测范围的最小检测尺寸的两倍。
6.一种神经网络的训练方法,包括:
通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据,所述各个所述样本图像中物体的尺寸范围的检测数据包括所述各个所述样本图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述样本图像中物体的尺寸落入所述元素对应的尺寸范围的概率;
根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;
根据所述差异调整所述神经网络的网络参数。
7.根据权利要求6所述的方法,其中,所述根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异,包括:
根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量;
确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
8.根据权利要求6-7中任意一项权利要求所述的方法,其中,所述样本图像的物体标注信息包括所述样本图像中每个物体的物体特征的标注信息。
9.根据权利要求7所述的方法,其中,所述根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量,包括:
将所述样本图像中每个物体的物体特征的标注信息进行转换,得到所述样本图像中每个物体的限位框;
通过高斯函数,根据所述样本图像中每个物体的限位框的边长计算得到所述样本图像中每个物体的限位框的边长所对应的高斯函数值;
对所述高斯函数值进行采样,得到所述样本图像的标定的尺度向量。
10.根据权利要求7所述的方法,其中,所述确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异,包括:
通过交叉熵函数,根据获取得到的各个所述样本图像中物体的尺度向量和各个所述样本图像的标定的尺度向量计算获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
11.一种物体检测装置,包括:
第一获取模块,用于通过用于检测物体尺寸范围的第一神经网络,从待检图像获取物体的尺寸范围的数据,所述物体的尺寸范围包括所述物体的尺寸范围的上限和下限;
缩放模块,用于根据用于物体检测的第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,对所述待检图像进行缩放,所述物体尺度检测范围包括物体尺度检测范围的上限和下限;
检测模块,用于通过所述第二神经网络,从所述待检图像检测目标物体,其中,所述缩放模块,还包括:
第一确定子模块,用于根据所述第二神经网络的物体尺度检测范围和所述物体的尺寸范围的数据,确定所述待检图像的缩放比例数据;
缩放子模块,用于根据所述待检图像的缩放比例数据对所述待检图像进行缩放。
12.根据权利要求11所述的装置,其中,所述第一确定子模块,包括:
第一确定单元,用于分别确定所述物体的尺寸范围的上限和下限以及所述第二神经网络的物体尺度检测范围的上限和下限;
比较单元,用于将所述物体的尺寸范围的上限和下限分别与所述第二神经网络的物体尺度检测范围的上限和下限进行比较,得到比较结果;
第二确定单元,用于根据所述比较结果确定所述待检图像的缩放次数和所述待检图像每次缩放的缩放比例。
13.根据权利要求11~12中任意一项权利要求所述的装置,其中,所述待检图像中物体的尺寸范围的数据包括所述待检图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述待检图像中物体的尺寸落入所述元素对应的尺寸范围的概率。
14.根据权利要求13所述的装置,其中,所述装置还包括:
平滑模块,用于对所述尺度向量对应的尺度直方图进行平滑,得到平滑后的尺度直方图;
提取模块,用于从经过平滑处理的尺度直方图提取所述待检图像中预测的物体的尺寸与预测的物体的尺寸的置信度的集合;
第一确定模块,用于根据所述集合中预测的物体的尺寸的置信度大于预设阈值的物体的尺寸确定最终预测的物体的尺寸。
15.根据权利要求11所述的装置,其中,所述物体尺度检测范围的最大检测尺寸为所述物体尺度检测范围的最小检测尺寸的两倍。
16.一种神经网络的训练装置,包括:
第二获取模块,用于通过待训练的神经网络,从含有物体标注信息的多个样本图像中获取各个所述样本图像中物体的尺寸范围的检测数据,所述各个所述样本图像中物体的尺寸范围的检测数据包括所述各个所述样本图像中物体的尺度向量,所述尺度向量的各个元素分别指示所述样本图像中物体的尺寸落入所述元素对应的尺寸范围的概率;
第二确定模块,用于根据各个所述样本图像的物体标注信息和所述样本图像中物体的尺寸范围的检测数据确定物体尺寸检测的差异;
调整模块,用于根据所述差异调整所述神经网络的网络参数。
17.根据权利要求16所述的装置,其中,所述第二确定模块,包括:
第二确定子模块,用于根据各个所述样本图像的物体标注信息确定得到各个所述样本图像的标定的尺度向量;
第三确定子模块,用于确定获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
18.根据权利要求17所述的装置,其中,所述样本图像的物体标注信息包括所述样本图像中每个物体的物体特征的标注信息。
19.根据权利要求18所述的装置,其中,所述第二确定子模块,包括:
转换单元,用于将所述样本图像中每个物体的物体特征的标注信息进行转换,得到所述样本图像中每个物体的限位框;
第一计算单元,用于通过高斯函数,根据所述样本图像中每个物体的限位框的边长计算得到所述样本图像中每个物体的限位框的边长所对应的高斯函数值;
采样单元,用于对所述高斯函数值进行采样,得到所述样本图像的标定的尺度向量。
20.根据权利要求17所述的装置,其中,所述第三确定子模块,包括:
第二计算单元,用于通过交叉熵函数,根据获取得到的各个所述样本图像中物体的尺度向量和各个所述样本图像的标定的尺度向量计算获取得到的各个所述样本图像中物体的尺度向量分别与对应的标定的尺度向量之间的差异。
21.一种电子设备,包括:第一处理器、第一存储器、第一通信元件和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信;
所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如权利要求1-5任一项所述的物体检测方法对应的操作。
22.一种电子设备,包括:第二处理器、第二存储器、第二通信元件和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信;
所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如权利要求6-10任一项所述的神经网络的训练方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710233770.4A CN108230292B (zh) | 2017-04-11 | 2017-04-11 | 物体检测方法和神经网络的训练方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710233770.4A CN108230292B (zh) | 2017-04-11 | 2017-04-11 | 物体检测方法和神经网络的训练方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108230292A CN108230292A (zh) | 2018-06-29 |
CN108230292B true CN108230292B (zh) | 2021-04-02 |
Family
ID=62658070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710233770.4A Active CN108230292B (zh) | 2017-04-11 | 2017-04-11 | 物体检测方法和神经网络的训练方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108230292B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960245B (zh) * | 2018-07-13 | 2022-04-19 | 广东工业大学 | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 |
CN109214282B (zh) * | 2018-08-01 | 2019-04-26 | 中南民族大学 | 一种基于神经网络的三维手势关键点检测方法和系统 |
CN109145931B (zh) * | 2018-09-03 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 物体检测方法、装置及存储介质 |
CN109685718B (zh) * | 2018-12-17 | 2020-11-10 | 中国科学院自动化研究所 | 图片方形化缩放方法、系统及装置 |
CN109829371B (zh) * | 2018-12-26 | 2022-04-26 | 深圳云天励飞技术有限公司 | 一种人脸检测方法及装置 |
CN111435426A (zh) * | 2019-01-14 | 2020-07-21 | 珠海格力电器股份有限公司 | 基于米粒识别结果确定烹饪模式的方法、装置和烹饪器具 |
CN109919214B (zh) * | 2019-02-27 | 2023-07-21 | 南京地平线机器人技术有限公司 | 一种神经网络模型的训练方法及训练装置 |
CN110929756B (zh) * | 2019-10-23 | 2022-09-06 | 广物智钢数据服务(广州)有限公司 | 基于深度学习的钢材尺寸和数量的识别方法、智能设备和存储介质 |
CN110765976B (zh) * | 2019-11-01 | 2021-02-09 | 重庆紫光华山智安科技有限公司 | 人脸特征点的生成方法、数据网络的训练方法及相关装置 |
CN112990237B (zh) * | 2019-12-02 | 2023-04-07 | 上海交通大学 | 基于深度学习的地铁隧道图像渗漏检测的方法 |
CN111428641A (zh) * | 2020-03-24 | 2020-07-17 | 深圳供电局有限公司 | 安全着装检测方法、装置、计算机设备和可读存储介质 |
US11706546B2 (en) * | 2021-06-01 | 2023-07-18 | Sony Semiconductor Solutions Corporation | Image sensor with integrated single object class detection deep neural network (DNN) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1905629A (zh) * | 2005-07-26 | 2007-01-31 | 佳能株式会社 | 摄像装置和摄像方法 |
CN102201057A (zh) * | 2011-05-04 | 2011-09-28 | 华中科技大学 | 一种多尺度空中运动目标检测方法 |
CN104657717A (zh) * | 2015-02-12 | 2015-05-27 | 合肥工业大学 | 一种基于分层核稀疏表示的行人检测方法 |
US9418319B2 (en) * | 2014-11-21 | 2016-08-16 | Adobe Systems Incorporated | Object detection using cascaded convolutional neural networks |
CN106295678A (zh) * | 2016-07-27 | 2017-01-04 | 北京旷视科技有限公司 | 神经网络训练与构建方法和装置以及目标检测方法和装置 |
CN106485230A (zh) * | 2016-10-18 | 2017-03-08 | 中国科学院重庆绿色智能技术研究院 | 基于神经网络的人脸检测模型的训练、人脸检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9665802B2 (en) * | 2014-11-13 | 2017-05-30 | Nec Corporation | Object-centric fine-grained image classification |
-
2017
- 2017-04-11 CN CN201710233770.4A patent/CN108230292B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1905629A (zh) * | 2005-07-26 | 2007-01-31 | 佳能株式会社 | 摄像装置和摄像方法 |
CN102201057A (zh) * | 2011-05-04 | 2011-09-28 | 华中科技大学 | 一种多尺度空中运动目标检测方法 |
US9418319B2 (en) * | 2014-11-21 | 2016-08-16 | Adobe Systems Incorporated | Object detection using cascaded convolutional neural networks |
CN104657717A (zh) * | 2015-02-12 | 2015-05-27 | 合肥工业大学 | 一种基于分层核稀疏表示的行人检测方法 |
CN106295678A (zh) * | 2016-07-27 | 2017-01-04 | 北京旷视科技有限公司 | 神经网络训练与构建方法和装置以及目标检测方法和装置 |
CN106485230A (zh) * | 2016-10-18 | 2017-03-08 | 中国科学院重庆绿色智能技术研究院 | 基于神经网络的人脸检测模型的训练、人脸检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Edge Boxes: Locating Object Proposals from Edges;C. Lawrence Zitnick 等;《European Conference on Computer Vision》;20141230;全文 * |
Learning to Segment Object Candidates;Pedro O. Pinheiro 等;《 Computer Vision and Pattern Recognition》;20150620;全文 * |
Scalable Object Detection Using Deep Neural Networks;Dumitru Erhan 等;《2014 IEEE Conference on Computer Vision and Pattern Recognition》;20141230;第2155页第1栏第2段-2162页第1栏第2段 * |
Also Published As
Publication number | Publication date |
---|---|
CN108230292A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108230292B (zh) | 物体检测方法和神经网络的训练方法、装置及电子设备 | |
US11321593B2 (en) | Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device | |
CN109447154B (zh) | 图片相似度检测方法、装置、介质及电子设备 | |
CN112966587B (zh) | 目标检测模型的训练方法、目标检测方法及相关设备 | |
CN108230354B (zh) | 目标跟踪、网络训练方法、装置、电子设备和存储介质 | |
CN112132959B (zh) | 数字岩心图像处理方法、装置、计算机设备及存储介质 | |
US8908989B2 (en) | Recursive conditional means image denoising | |
US8396303B2 (en) | Method, apparatus and computer program product for providing pattern detection with unknown noise levels | |
CN113781406B (zh) | 电子元器件的划痕检测方法、装置及计算机设备 | |
CN108229495B (zh) | 目标对象检测方法、装置、电子设备和存储介质 | |
CN113221925A (zh) | 一种基于多尺度图像的目标检测方法及装置 | |
CN113705375A (zh) | 一种船舶航行环境视觉感知设备及方法 | |
CN113298763B (zh) | 一种基于显著性窗口策略的图像质量评估方法 | |
CN108647605B (zh) | 一种结合全局颜色与局部结构特征的人眼凝视点提取方法 | |
CN114387642A (zh) | 图像分割方法、装置、设备和存储介质 | |
CN113689412A (zh) | 甲状腺图像处理方法、装置、电子设备及存储介质 | |
CN106778822B (zh) | 基于漏斗变换的图像直线检测方法 | |
CN113436251A (zh) | 一种基于改进的yolo6d算法的位姿估计系统及方法 | |
CN117456376A (zh) | 一种基于深度学习的遥感卫星影像目标检测方法 | |
CN113034387A (zh) | 一种图像去噪方法、装置、设备及介质 | |
CN108416815B (zh) | 大气光值的测定方法、设备及计算机可读存储介质 | |
CN113065585B (zh) | 图像合成模型的训练方法、装置与电子设备 | |
CN117523428B (zh) | 基于飞行器平台的地面目标检测方法和装置 | |
KR101535196B1 (ko) | 질감 특성을 고려한 영상 분할 장치 및 그 방법 | |
CN115953443A (zh) | 基于边缘特征的图像配准方法、装置、用户终端及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |