CN108229455A - 物体检测方法、神经网络的训练方法、装置和电子设备 - Google Patents

物体检测方法、神经网络的训练方法、装置和电子设备 Download PDF

Info

Publication number
CN108229455A
CN108229455A CN201710100676.1A CN201710100676A CN108229455A CN 108229455 A CN108229455 A CN 108229455A CN 201710100676 A CN201710100676 A CN 201710100676A CN 108229455 A CN108229455 A CN 108229455A
Authority
CN
China
Prior art keywords
subnet
target area
feature
fusion feature
area frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710100676.1A
Other languages
English (en)
Other versions
CN108229455B (zh
Inventor
李弘扬
刘宇
欧阳万里
王晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201710100676.1A priority Critical patent/CN108229455B/zh
Priority to JP2019545345A priority patent/JP6902611B2/ja
Priority to SG11201907355XA priority patent/SG11201907355XA/en
Priority to US16/314,406 priority patent/US11321593B2/en
Priority to PCT/CN2018/076653 priority patent/WO2018153319A1/zh
Publication of CN108229455A publication Critical patent/CN108229455A/zh
Application granted granted Critical
Publication of CN108229455B publication Critical patent/CN108229455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种物体检测方法、神经网络的训练方法、装置和电子设备。物体检测方法包括:通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图,其中,从具有至少一个下采样层的第一子网获取多个第一特征图,从具有至少一个上采样层的第二子网获取多个第二特征图,分别由多个第一特征图和多个第二特征图融合得到融合特征图。此后,再根据所述多个融合特征图获取目标区域框数据。由于这些融合特征图较好地表征了图像中高层的语义特征(如布局、前背景信息等)和低层的细节特征(如小物体信息等),根据这些融合特征图能够有效地提取到图像中包含的大小物体的目标区域框数据,从而提高物体检测的准确性和鲁棒性。

Description

物体检测方法、神经网络的训练方法、装置和电子设备
技术领域
本发明实施例涉及图像处理技术,尤其涉及一种物体检测方法、神经网络的训练方法、装置和电子设备。
背景技术
目标区域框检测的目的是从图像检测出若干可能存在物体的矩形框。在目前常规的使用卷积神经网络执行检测的技术中,通过卷积神经网络中的池化层逐渐减小特征图的大小,从而最终确定可能存在物体的矩形框,这种网络结构被称作“缩小网络”(zoom-outstructure)。
然而,通过这种网络结构执行目标区域框检测,不能够有效地利用从卷积神经网络中的高层得到的特征图中的信息协助处理网络底层的信息,使得从网络获取到的特征数据不具有足够的代表性和鲁棒性,不利于小物体的检测。
发明内容
本发明实施例的目的在于,提供一种基于图像进行目标区域框检测的技术。
根据本发明实施例的一方面,提供一种物体检测方法,包括:通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图;其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;根据所述多个融合特征图获取目标区域框数据。
可选地,所述第二子网设置在所述第一子网的末端,所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间,所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
可选地,在至少一个所述第一卷积层设有用于输出所述第一特征图的第一输出分支,在第二卷积层设有用于输出所述第二特征图的第二输出分支。
可选地,所述第二子网还具有多个第三卷积层,所述第三卷积层的输入包括所述第一输出分支和所述第二输出分支;所述预测获取多个融合特征图包括:从所述多个第三卷积层的输出端分别获取所述融合特征图。
可选地,所述融合特征图中的每个点具有与多个物体探测框对应的框融合检测数据以及预测准确信息,所述根据所述多个融合特征图获取目标区域框数据包括:根据各个所述融合特征图中的框融合检测数据以及预测准确信息分别获取与所述融合特征图各自对应的目标区域框数据。
可选地,所述根据所述多个融合特征图获取目标区域框数据包括:分别获取所述融合特征图各自对应的初选目标区域框数据;迭代地执行以下物体区域框回归操作,直到所述迭代满足迭代终止条件为止:通过调整所述融合特征图,从经过调整的融合特征图获取新的初选目标区域框数据;将经过所述迭代得到的所述初选目标区域框数据作为所述待处理的图像中的目标区域框数据。
可选地,所述深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
可选地,所述物体区域框回归操作包括:通过所述第四卷积层分别对当前的所述融合特征图进行卷积,获取调整融合特征图;根据当前的初选目标区域框数据,通过所述池化层对所述调整融合特征图进行区域池化,获取新的融合特征图;从所述新的融合特征图获取所述新的初选目标区域框数据。
可选地,所述第三子网还具有设置在所述池化层输出端的第五卷积层,所述从所述新的融合特征图获取所述新的初选目标区域框数据包括:通过所述第五卷积层对所述新的融合特征图进行规范化卷积,从经过规范化卷积的融合特征图获取所述新的初选目标区域框数据。
可选地,所述第一子网和所述第二子网均为认知―样本归一化(Inception-BN)网络结构,所述第三子网为残差网络(ResNet)结构。
根据本发明实施例的第二方面,提供一种神经网络的训练方法,包括:将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;根据所述多个融合特征图获取所述样本图像的目标区域框数据;根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据;根据所述第一差异数据调整所述深度卷积神经网络的网络参数。
可选地,所述第二子网设置在所述第一子网的末端,所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间,所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
可选地,在至少一个所述第一卷积层设有用于输出所述第一特征图的第一输出分支,在第二卷积层设有用于输出所述第二特征图的第二输出分支。
可选地,所述第二子网还具有多个第三卷积层,所述第三卷积层的输入包括所述第一输出分支和所述第二输出分支;所述检测获取多个融合特征图包括:从所述多个第三卷积层的输出端分别获取所述融合特征图。
可选地,所述融合特征图中的每个点具有与多个物体探测框对应的框融合检测数据以及预测准确信息。
可选地,所述深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
可选地,所述方法还包括:迭代地执行以下目标区域框回归训练操作,直到所述迭代满足迭代终止条件为止:通过所述第四卷积层分别对当前的所述融合特征图进行卷积,获取调整融合特征图;根据当前的初选目标区域框数据,通过所述池化层对所述调整融合特征图进行区域池化,获取新的融合特征图;从所述新的融合特征图获取所述新的初选目标区域框数据;根据未经过调整的初选目标区域框数据和新的初选目标区域框数据之间的框回归数据、新的初选目标区域框数据和相应的目标区域框标注信息确定物体框检测的第二差异数据;根据所述第二差异数据调整所述第三子网的网络参数。
可选地,所述第三子网还具有设置在所述池化层输出端的第五卷积层,所述从所述新的融合特征图获取所述新的初选目标区域框数据包括:通过所述第五卷积层对所述新的融合特征图进行规范化卷积,从经过规范化卷积的融合特征图获取所述新的初选目标区域框数据。
可选地,在将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图之前,所述方法还包括:缩放所述样本图像,使得至少一个物体区域框的真值被物体探测框覆盖。
可选地,所述样本图像的目标区域框标注信息包括正样本区域框的标注信息和负样本区域框的标注信息;所述正样本区域框与物体区域框的真值的重叠率不低于第一重叠比率值,所述负样本区域框与物体区域框的真值的重叠率不高于第二重叠比率值,所述第一重叠比率值大于所述第二重叠比率值。
可选地,所述样本图像的目标区域框标注信息还包括中性样本区域框的标注信息,所述中性样本区域框与物体区域框的真值的重叠率在所述第一重叠比率值和所述第二重叠比率值之间。
可选地,在全部所述样本图像当中,标注的正样本区域框的总和在所述正样本区域框、负样本区域框以及中性样本区域框的框总数中的占比不小于预定的第一比值,所述第一比值大于50%;标注的负样本区域框的总和在框总数中的占比不大于预定的第二比值;标注的中性样本区域框的总和在框总数中的占比不大于预定的第三比值,所述第三比例不大于第一比值和第二比值之和的一半。
可选地,所述第一子网和所述第二子网均为认知―样本归一化网络结构,所述第三子网为残差网络结构。
根据本发明实施例的第三方面,提供一种物体检测装置,包括:融合特征图预测模块,用于通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图;其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;目标区域框预测模块,用于根据所述融合特征图预测模块获取的多个融合特征图获取目标区域框数据。
可选地,所述第二子网设置在所述第一子网的末端,所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间,所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
可选地,在至少一个所述第一卷积层设有用于输出所述第一特征图的第一输出分支,在第二卷积层设有用于输出所述第二特征图的第二输出分支。
可选地,所述第二子网还具有多个第三卷积层,所述第三卷积层的输入包括所述第一输出分支和所述第二输出分支;所述融合特征图预测模块用于从所述多个第三卷积层的输出端分别获取所述融合特征图。
可选地,所述融合特征图中的每个点具有与多个物体探测框对应的框融合检测数据以及预测准确信息,所述目标区域框预测模块用于根据各个所述融合特征图中的框融合检测数据以及预测准确信息分别获取与所述融合特征图各自对应的目标区域框数据。
可选地,所述目标区域框预测模块用于:分别获取所述融合特征图各自对应的初选目标区域框数据;迭代地执行以下物体区域框回归操作,直到所述迭代满足迭代终止条件为止:通过调整所述融合特征图,从经过调整的融合特征图获取新的初选目标区域框数据;将经过所述迭代得到的所述初选目标区域框数据作为所述待处理的图像中的目标区域框数据。
可选地,所述深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
可选地,所述目标区域框预测模块包括:框调整单元,用于通过所述第四卷积层分别对当前的所述融合特征图进行卷积,获取调整融合特征图;区域池化单元,用于根据当前的初选目标区域框数据,通过所述池化层对所述调整融合特征图进行区域池化,获取新的融合特征图;初选框获取单元,用于从所述新的融合特征图获取所述新的初选目标区域框数据。
可选地,所述第三子网还具有设置在所述池化层输出端的第五卷积层,所述初选框获取单元用于通过所述第五卷积层对所述新的融合特征图进行规范化卷积,并且从经过规范化卷积的融合特征图获取所述新的初选目标区域框数据。
可选地,所述第一子网和所述第二子网均为认知―样本归一化(Inception-BN)网络结构,所述第三子网为残差网络(ResNet)结构。
根据本发明实施例的第三方面,提供一种神经网络的训练装置,包括:融合特征图检测模块,用于将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;目标区域框检测模块,用于根据所述多个融合特征图获取所述样本图像的目标区域框数据;第一差异获取模块,用于根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据;第一网络训练模块,用于根据所述第一差异数据调整所述深度卷积神经网络的网络参数。
可选地,所述第二子网设置在所述第一子网的末端,所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间,所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
可选地,在至少一个所述第一卷积层设有用于输出所述第一特征图的第一输出分支,在第二卷积层设有用于输出所述第二特征图的第二输出分支。
可选地,所述第二子网还具有多个第三卷积层,所述第三卷积层的输入包括所述第一输出分支和所述第二输出分支;所述融合特征图检测模块用于从所述多个第三卷积层的输出端分别获取所述融合特征图。
可选地,所述融合特征图中的每个点具有与多个物体探测框对应的框融合检测数据以及预测准确信息。
可选地,所述深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
可选地,所述装置还包括:框回归迭代训练模块,用于迭代地执行以下目标区域框回归训练操作,直到所述迭代满足迭代终止条件为止:通过所述第四卷积层分别对当前的所述融合特征图进行卷积,获取调整融合特征图;根据当前的初选目标区域框数据,通过所述池化层对所述调整融合特征图进行区域池化,获取新的融合特征图;从所述新的融合特征图获取所述新的初选目标区域框数据;根据未经过调整的初选目标区域框数据和新的初选目标区域框数据之间的框回归数据、新的初选目标区域框数据和相应的目标区域框标注信息确定物体框检测的第二差异数据;根据所述第二差异数据调整所述第三子网的网络参数。
可选地,所述第三子网还具有设置在所述池化层输出端的第五卷积层,所述框回归迭代训练模块用于通过所述第五卷积层对所述新的融合特征图进行规范化卷积,并且从经过规范化卷积的融合特征图获取所述新的初选目标区域框数据。
可选地,所述装置还包括:预处理模块,用于在将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图之前,缩放所述样本图像,使得至少一个物体区域框的真值被物体探测框覆盖。
可选地,所述样本图像的目标区域框标注信息包括正样本区域框的标注信息和负样本区域框的标注信息;所述正样本区域框与物体区域框的真值的重叠率不低于第一重叠比率值,所述负样本区域框与物体区域框的真值的重叠率不高于第二重叠比率值,所述第一重叠比率值大于所述第二重叠比率值。
可选地,所述样本图像的目标区域框标注信息还包括中性样本区域框的标注信息,所述中性样本区域框与物体区域框的真值的重叠率在所述第一重叠比率值和所述第二重叠比率值之间。
可选地,在全部所述样本图像当中,标注的正样本区域框的总和在所述正样本区域框、负样本区域框以及中性样本区域框的框总数中的占比不小于预定的第一比值,所述第一比值大于50%;标注的负样本区域框的总和在框总数中的占比不大于预定的第二比值;标注的中性样本区域框的总和在框总数中的占比不大于预定的第三比值,所述第三比例不大于第一比值和第二比值之和的一半。
可选地,所述第一子网和所述第二子网均为认知―样本归一化网络结构,所述第三子网为残差网络结构。
根据本发明实施例的第五方面,提供一种第一电子设备。第一电子设备包括第一处理器、第一存储器、第一通信元件和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信;所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如上述第一方面提供的用于物体检测方法对应的操作。
根据本发明实施例的第六方面,提供一种第二电子设备。第二电子设备包括:第二处理器、第二存储器、第二通信元件和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信;所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如上述第二方面提供的用于神经网络的训练方法对应的操作。
根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图的可执行指令;其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;用于根据所述多个融合特征图获取目标区域框数据的可执行指令。
根据本发明实施例的又一方面,还提供了另一种计算机可读存储介质,所述计算机可读存储介质存储有:用于将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图的可执行指令,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;用于根据所述多个融合特征图获取所述样本图像的目标区域框数据的可执行指令;用于根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据的可执行指令;用于根据所述第一差异数据调整所述深度卷积神经网络的网络参数的可执行指令。
根据本发明实施例提供的物体检测方案、神经网络的训练技术方案,通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图,其中,从具有至少一个下采样层的第一子网获取多个第一特征图,从具有至少一个上采样层的第二子网获取多个第二特征图,分别由多个第一特征图和多个第二特征图融合得到融合特征图。此后,再根据所述多个融合特征图获取目标区域框数据。由于这些融合特征图较好地表征了图像中高层的语义特征(如布局、前背景信息等)和低层的细节特征(如小物体信息等),因此根据这些融合特征图能够有效地提取到图像中包含的大小物体的目标区域框数据,从而提高物体检测的准确性和鲁棒性。
附图说明
图1是示出根据本发明实施例一的物体检测方法的流程图;
图2是示出根据本发明实施例二的物体检测方法的流程图;
图3示出根据本实施例的深度卷积神经网络的一种示例性结构;
图4是示出根据本发明实施例三的物体检测方法的流程图;
图5是示出根据本发明实施例四的神经网络的训练方法的流程图;
图6是示出根据本发明实施例五的神经网络的训练方法的流程图;
图7是示出根据本发明实施例六的神经网络的训练方法的流程图;
图8是示出根据本发明实施例七的物体检测装置的逻辑框图;
图9是示出根据本发明实施例八的物体检测装置的逻辑框图;
图10是示出根据本发明实施例九的神经网络的训练装置的逻辑框图;
图11是示出根据本发明实施例十的神经网络的训练装置的逻辑框图;
图12是示出根据本发明实施例十一的第一电子设备的结构示意图;
图13是示出根据本发明实施例十二的第二电子设备的结构示意图。
具体实施方式
下面结合附图详细描述本发明实施例的示例性实施例。
在本申请中,“多个”指两个或两个以上,“至少一个”指一个、两个或两个以上。对于本申请中提及的任一部件、数据或结构,在没有明确限定一个的情况下,可理解为一个或多个。
实施例一
图1是示出根据本发明实施例一的物体检测方法的流程图。
参照图1,在步骤S110,通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图。其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层。所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到。
这里的待处理的图像是拍摄有一个或多个物体对象的照片或视频帧图像。该图像应满足一定的分辨率要求,至少通过肉眼能够辨别出拍摄到的物体对象。
用于目标区域框检测的深度卷积神经网络中的第一子网通过对待处理的图像进行卷积、池化,可在第一子网不同深度的多个卷积层获取该图像的第一特征图,这些第一特征图表征不同大小程度的区域框的特征。在设置有至少一个下采样层的第一子网中,在较浅的卷积层获得的第一特征图能够较好地表达图像的细节,但是难以区分前景和背景;而在较深卷积层获得的第一特征图能够较好地提取图像中的整体语义特征,但是将损失图像的细节信息,如小物体信息。
具有至少一个上采样层的第二子网进一步对从第一子网末端获取到的第一特征图执行相反的处理,即反卷积和上采样池化,将从第一子网末端获取到的第一特征图逐步放大,在第二子网不同深度的多个卷积层获取与前述第一特征图相应的第二特征图。由于第二特征图均由经过卷积、下采样的第一特征图进行反卷积和上采样,在此过程中,高层语义特征被逐步反卷积并与低层细节特征结合,可协助识别小物体(小物体的区域框)。
由此,通过第一子网和第二子网执行的图像处理途径形成一个沙漏形的结构,从第一子网的第一卷积层生成的第一特征图通过下采样逐步变小;第一子网末端生成的第一特征图通过第二子网的第二卷积层和上采样层被逐步放大。
在此基础上,将各个第一特征图与相应的第二特征图进行融合,得到多个融合特征图,在这些融合特征图可较好地表征图像中高层的语义特征和低层的细节特征,以用于识别不同大小的物体区域框。
在步骤S120,根据所述多个融合特征图获取目标区域框数据。
具体地,可从各个融合特征图提取目标区域框数据,再将从各个融合特征图提取的目标区域框数据整合,作为从待处理的图像检测到的目标区域框数据。
根据本发明实施例一的物体检测方法,通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图,其中,从具有至少一个下采样层的第一子网获取多个第一特征图,从具有至少一个上采样层的第二子网获取多个第二特征图,分别由多个第一特征图和多个第二特征图融合得到融合特征图。此后,再根据所述多个融合特征图获取目标区域框数据。由于这些融合特征图较好地表征了图像中高层的语义特征(如布局、前背景信息等)和低层的细节特征(如小物体信息等),因此根据这些融合特征图能够有效地提取到图像中包含的大小物体的目标区域框数据,从而提高物体检测的准确性和鲁棒性。
实施例二
图2是示出根据本发明实施例二的物体检测方法的流程图。
参照图2,在步骤S210,通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图。
具体地,在该深度卷积神经网络中,第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间;第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间。第二子网设置在所述第一子网的末端,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
可在第一子网中不同深度的多个第一卷积层获取该图像的多个第一特征图,在第二子网中与前述多个第一卷积层对称设置的第二卷积层获取该图像的多个第二特征图。
可选地,在至少一个所述第一卷积层设有用于输出所述第一特征图的第一输出分支,在第二卷积层设有用于输出所述第二特征图的第二输出分支。
根据本发明的一种可选实施方式,第二子网还具有多个第三卷积层,所述第三卷积层的输入包括所述第一输出分支和所述第二输出分支。相应地,从所述多个第三卷积层的输出端分别获取所述融合特征图。
可使用任何具有上述结构的深度卷积神经网络。可选地,将所述第一子网和所述第二子网均构建为在物体检测中性能较佳的认知―样本归一化(Inception-BN)网络结构。Inception-BN网络结构擅长于从图像中提取不同的结构/模式(pattern),适合执行第一子网和第二子网的任务功能。
图3示出根据本实施例的深度卷积神经网络的一种示例性结构。
参照图3,根据本实施例的深度卷积神经网络包括第一子网SN1和第二子网SN2。其中,第一子网SN1具有多个第一卷积层C1和设置在多个第一卷积层C1之间的至少一个下采样层P1,第二子网SN2具有多个第二卷积层C2和设置在多个第二卷积层C2之间的至少一个上采样层P2,其中,下采样层P1和上采样层P2对称地设置,多个第一卷积层C1和多个第二卷积层C2也对称地设置。此外,至少一个所述第一卷积层C1设置有第一输出分支F1,至少一个所述第二卷积层C2设置有第一输出分支F2。第二子网SN2还设有多个第三卷积层C3,自多个第三卷积层C3输出融合特征图。
根据本发明的一种可实施方式,融合特征图中的每个点具有与多个物体探测框对应的框融合检测数据以及预测准确信息。也就是说,在第一卷积层和第二卷积层分别设有用于进行物体区域框探测的物体探测框的信息,如卷积参数或特征参数等。在不同深度的第一卷积层和第二卷积层中设置的物体探测框的信息分别与两个或两个以上物体探测框集合各自对应,这两个或两个以上物体探测框集合分别包括不同探测框大小范围的物体探测框,以用于在该深度卷积神经网络的不同深度获取不同大小的物体区域框的特征数据。
融合特征图中的每个点的框融合检测数据可包括例如与物体探测框集合中的物体探测框相应的坐标数据、位置及大小数据等,该预测准确信息可以是该框融合检测数据的置信度数据,如预测准确概率等。例如,融合特征图中的每个点可具有1个、3个、6个、9个等一个或多个与物体探测框相应的坐标数据以及该坐标数据的置信度数据。
相应地,根据本发明的一种可选实施方式,在步骤S220,根据各个所述融合特征图中的框融合检测数据以及预测准确信息分别获取与所述融合特征图各自对应的目标区域框数据。
具体地,可根据融合特征图中每个点的框融合检测数据的预测准确信息来获取目标区域框数据。例如,如果某个点的某个框坐标数据的置信度大于预定的阈值(如60%、70%等),则可将该框坐标数据对应的区域框确定为目标区域框数据之一。
根据本发明的另一种可选实施方式,在执行步骤S210后,执行步骤S230~S240。
在步骤S230,分别获取所述融合特征图各自对应的初选目标区域框数据。
可例如,执行与前述步骤S220或S120类似的处理,获取初选目标区域框数据,即,将前述步骤S220或S120获取到的目标区域框数据作为步骤S230中的初选目标区域框数据,以进行进一步的调整、修正处理,提高物体区域框检测的准确性。
在步骤S240,迭代地执行以下物体区域框回归操作,直到所述迭代满足迭代终止条件为止:通过调整所述融合特征图,从经过调整的融合特征图获取新的初选目标区域框数据。
也就是说,通过调整各个融合特征图来分别调整其中的初选目标区域框数据,再从经过调整的融合特征图分别获取新的初选目标区域框数据,从而对初选目标区域框进行回归(物体区域框回归操作),来获取更为准确的新的初选目标区域框数据。
在该步骤,迭代地执行这样的物体区域框回归操作,直到满足迭代终止条件为止,以最终获得更为精确的初选目标区域框数据。可根据需要设置该迭代终止条件,如预定的迭代次数、新的初选目标区域框数据与未经过调整的初选目标区域框数据之间的调整值(即框回归)小于预定的框回归值等。
在完成步骤S240的迭代之后,将经过所述迭代得到的所述初选目标区域框数据作为所述待处理的图像中的目标区域框数据。
根据本发明实施例二的物体检测方法,通过具有对称结构的用于目标区域框检测的深度卷积神经网络,从第一子网的多个第一卷积层获取逐步经过卷积、下采样的待处理的图像的多个第一特征图,再从第二子网的对称的多个第二卷积层获取在第一子网的末端获取的第一特征图逐步经过反卷积、上采样的相应多个第二特征图,将多个第一特征图和相应的第二特征图进一步进行卷积,获得较好地表征了图像中高层的语义特征(如布局、前背景信息等)和低层的细节特征(如小物体信息等)的融合特征图,从而能够根据这些融合特征图有效地提取到图像中包含的大小物体的目标区域框数据。
在此基础上,通过调整多个融合特征图来从经过调整的融合特征图获取新的初选目标区域框数据,从而对初选目标区域框数据迭代地进行回归。通过对目标区域框数据进行多次的回归调整,能够更准确地检测到更为精准的包含的大小物体的目标区域框数据,进一步提高物体检测的准确性和鲁棒性。
实施例三
图4是示出根据本发明实施例三的物体检测方法的流程图。实施例三描述前述步骤S240中的一种示例性物体区域框回归操作。
根据实施例三的该深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
也就是说,每组第四卷积层可以包括一个或多个卷积层,每组第四卷积层可连接在前述第三卷积层的输出端,接收融合特征图作为输入。每个池化层设置在对应的第四卷积层的末端,接收经过调整的融合特征图和所述初选目标区域框数据作为输入。
其中,每组第四卷积层用于对从第三卷积层获取到的融合特征图进行卷积,获得调整融合特征图。在此过程中,对从该融合特征图获取的初选目标区域框数据进行调整。第三子网中的池化层用于对经过第四卷积层卷积获得的调整融合特征图进行区域池化,获取新的融合特征图。从而,可从新的融合特征图获取到新的初选目标区域框数据。
具体地,在每次迭代处理的物体区域框回归操作中,涉及当前迭代开始时的多个融合特征图以及初选目标区域框数据,还涉及当前迭代结束时获得的新的多个融合特征图以及新的初选目标区域框数据。
在步骤S410,通过第四卷积层分别对当前的所述融合特征图进行卷积,获取调整融合特征图,从而对当前的初选目标区域框进行调整,该调整包括对初选目标区域框的位置和/或大小的调整。
在步骤S420,根据当前的初选目标区域框数据,通过所述池化层对所述调整融合特征图进行区域池化,获取新的融合特征图。
也就是说,将当前的初选目标区域框作为关注区域,对调整融合特征图进行区域池化,获取新的融合特征图。
通过前述根据当前的初选目标区域框数据对调整融合特征图进行区域池化,获得反映对调整的目标区域框的响应程度的新的融合特征图,以便于后续从新的融合特征图获取新的初选目标区域框数据。
在步骤S430,从所述新的融合特征图获取所述新的初选目标区域框数据,从而可完成目标区域框的回归,使得调整的目标区域框更趋近物体区域框的真值(groundtruth)。可通过与步骤S120或S220类似的处理执行步骤S430的处理。
根据本发明的一种可选实施方式,所述第三子网还具有设置在所述池化层输出端的第五卷积层。相应地,步骤S430具体包括:通过所述第五卷积层对所述新的融合特征图进行规范化卷积,并且从经过规范化卷积的融合特征图获取所述新的初选目标区域框数据。
可使用任何具有上述结构的卷积神经网络来构建第三子网。可选地,将所述第三子网构建为在新近开发的物体检测技术中性能较佳的残差网络(ResNet)结构结构,来执行区域池化和规范化卷积。
根据本发明实施例三的物体检测方法,在前述实施例一和实施例二的基础上,通过对每个融合特征图进一步进行卷积,来对该融合特征图中包含的初选目标区域框数据进行调整,再经过区域池化来获得新的融合特征图,并从新的融合特征图获取新的初选目标区域框数据,从而对预测得到的初选目标区域框数据进行调整、回归,有助于提高物体检测的准确性和鲁棒性。
实施例四
图5是示出根据本发明实施例四的神经网络的训练方法的流程图。
参照图5,在步骤S510,将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图。
如前所述,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到。
通过使用用于深度卷积神经网络,可从含有目标区域框标注信息的样本图像检测获取到多个融合特征图。
通常对多个样本图像执行步骤S510的处理,为每个样本图像检测获取多个融合特征图。
在步骤S520,根据所述多个融合特征图获取所述样本图像的目标区域框数据。
步骤S520的处理与前述步骤S120的处理类似,在此不予赘述。
在步骤S530,根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据。
例如,可根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息计算损失值或偏差值作为该第一差异数据,作为后续训练深度卷积神经网络的依据。
在步骤S540,根据所述第一差异数据调整所述深度卷积神经网络的网络参数。
例如,将确定的第一差异数据反传给该深度卷积神经网络,以调整该深度卷积神经网络的网络参数。
根据本发明实施例四的神经网络的训练方法,将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图;其中,从具有至少一个下采样层的第一子网检测获取多个第一特征图,从具有至少一个上采样层的第二子网检测获取多个第二特征图,分别由多个第一特征图和多个第二特征图融合得到融合特征图,再根据所述多个融合特征图获取目标区域框数据。此后,根据获取到的目标区域框数据以及所述目标区域框标注信息确定第一差异数据,再根据所述第一差异数据调整所述深度卷积神经网络的网络参数。由于从训练获得的深度卷积神经网络的这些融合特征图较好地表征了图像中高层的语义特征(如布局、前背景信息等)和低层的细节特征(如小物体信息等),因此根据这些融合特征图能够有效地提取到图像中包含的大小物体的目标区域框数据。训练获得的深度卷积神经网络能够提高物体检测的准确性和鲁棒性。
实施例五
图6是示出根据本发明实施例五的神经网络的训练方法的流程图。
根据本发明实施例五,在训练的深度卷积神经网络中,第二子网设置在所述第一子网的末端;所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间;所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间。所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
在此基础上,可选地,在至少一个所述第一卷积层设有用于输出所述第一特征图的第一输出分支,在第二卷积层设有用于输出所述第二特征图的第二输出分支。
为此,可选地,所述第二子网还具有多个第三卷积层,所述第三卷积层的输入包括所述第一输出分支和所述第二输出分支。相应地,第三卷积层用于对来自第一输出分支和所述第二输出分支的第一特征图和相应的第二特征图进行卷积,获取相应的融合特征图。
参照图6,在步骤S610,缩放样本图像,使得样本图像中的至少一个物体区域框的真值被物体探测框覆盖。如此,可确保在任何批量的样本图像中具有正样本。
此外,可选地,选取足够数量的正样本,并选取一定数量的负样本,以使得训练得到的第一子网和第二子网较好地收敛。
在此,正样本为正样本区域框,负样本实为负样本区域框。可按照以下标准定义正样本区域框和负样本区域框:正样本区域框与物体区域框的真值的重叠率不低于第一重叠比率值,负样本区域框与物体区域框的真值的重叠率不高于第二重叠比率值,所述第一重叠比率值大于所述第二重叠比率值。
相应地,根据本发明的一种可实施方式,所述样本图像的目标区域框标注信息包括正样本区域框的标注信息和负样本区域框的标注信息。
这里,可根据设计需要,将第一重叠比率值设置为例如,70%~95%中的任何比率值,将第二重叠比率值设置为例如,0%~30%或0~25%范围中的任何比率值。
此外,还可设置中性样本,即中性样本区域框。具体地,可按照以下标准定义中性样本区域框:中性样本区域框与物体区域框的真值的重叠率在所述第一重叠比率值和所述第二重叠比率值之间,如30%~70%之间、25%~80%之间。
进一步地,可例如,按照以下方式控制正样本、负样本和中性样本的数量:在全部所述样本图像当中,标注的正样本区域框的总和在所述正样本区域框、负样本区域框以及中性样本区域框的框总数中的占比不小于预定的第一比值,所述第一比值大于50%;标注的负样本区域框的总和在框总数中的占比不大于预定的第二比值;标注的中性样本区域框的总和在框总数中的占比不大于预定的第三比值,所述第三比例不大于第一比值和第二比值之和的一半。适度地使用中性样本图像有助于更好地区分正样本和负样本,提高训练的第三子网的鲁棒性。
在步骤S620,将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图。其中,从所述多个第三卷积层的输出端分别获取所述融合特征图。
可选地,融合特征图中的每个点的框融合检测数据可包括例如与物体探测框集合中的物体探测框相应的坐标数据、位置及大小数据等,该预测准确信息可以是该框融合检测数据的置信度数据,如预测准确概率等。
可使用任何具有上述结构的深度卷积神经网络。可选地,将所述第一子网和所述第二子网均构建为在物体检测中性能较佳的Inception-BN网络结构。
可选地,融合特征图中的每个点的框融合检测数据可包括例如与物体探测框集合中的物体探测框相应的坐标数据、位置及大小数据等,该预测准确信息可以是该框融合检测数据的置信度数据,如预测准确概率等。相应地,在步骤S630,根据各个所述融合特征图中的框融合检测数据以及预测准确信息分别获取与所述融合特征图各自对应的目标区域框数据。
在步骤S640,根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据。
例如,可根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息计算损失值或偏差值作为该第一差异数据,作为后续训练深度卷积神经网络的依据。
在步骤S650,根据所述第一差异数据调整所述深度卷积神经网络的网络参数。
步骤S640~S650的处理与前述步骤S530~S540的处理类似,在此不予赘述。
根据本发明实施例五的神经网络的训练方法,将含有目标区域框标注信息的样本图像输入具有对称结构的用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图;其中,从具有至少一个下采样层的第一子网检测获取多个第一特征图,从具有至少一个上采样层的第二子网检测获取多个第二特征图,分别由多个第一特征图和多个第二特征图融合得到融合特征图,再根据所述多个融合特征图获取目标区域框数据。此后,根据获取到的目标区域框数据以及所述目标区域框标注信息确定第一差异数据,再根据所述第一差异数据调整所述深度卷积神经网络的网络参数。由于从训练获得的深度卷积神经网络的这些融合特征图较好地表征了图像中高层的语义特征(如布局、前背景信息等)和低层的细节特征(如小物体信息等),因此根据这些融合特征图能够有效地提取到图像中包含的大小物体的目标区域框数据。训练获得的深度卷积神经网络能够提高物体检测的准确性和鲁棒性。
实施例六
图7是示出根据本发明实施例六的神经网络的训练方法的流程图。
如前所述,根据实施例六训练的该深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
也就是说,每组第四卷积层可以包括一个或多个卷积层,每组第四卷积层可连接在前述第三卷积层的输出端,接收融合特征图作为输入。每个池化层设置在对应的第四卷积层的末端,接收经过调整的融合特征图和所述初选目标区域框数据作为输入。
在实施例六中,主要描述该深度卷积神经网络中的第三子网的训练。可先通过实施例四或实施例五所述的方法训练好第一子网和第二子网,再使用自第一子网和第二子网训练过程中获得的融合特征图,根据实施例六所述的方法来训练第三子网。
参照图7,在步骤S710,获取从含有目标区域框标注信息的样本图像获取的多个融合特征图。
如前步骤S510或S610所述,从样本图像获取该多个融合特征图。
在步骤S720,迭代地执行目标区域框回归训练操作,直到所述迭代满足迭代终止条件为止。
具体地,步骤S720包括步骤S721~S726。
在步骤S721,通过第四卷积层分别对当前的所述融合特征图进行卷积,获取调整融合特征图,从而达到对当前的初选目标区域框进行调整的目的。
在步骤S722,根据当前的初选目标区域框数据,通过所述池化层对所述调整融合特征图进行区域池化,获取新的融合特征图。新的融合特征图包含对初选目标区域框进行调整以及反映对调整的目标区域框的响应程度。
在步骤S723,从所述新的融合特征图获取所述新的初选目标区域框数据。
步骤S721~S723的处理与前述步骤S410~S430的处理类似,在此不予赘述。
根据本发明的一种可选实施方式,所述第三子网还具有设置在所述池化层输出端的第五卷积层。相应地,步骤S723具体包括:通过所述第五卷积层对所述新的融合特征图进行规范化卷积,并且从经过规范化卷积的融合特征图获取所述新的初选目标区域框数据。
在步骤S724,根据未经过调整的初选目标区域框数据和新的初选目标区域框数据之间的框回归数据、新的初选目标区域框数据和相应的目标区域框标注信息确定物体框检测的第二差异数据。
例如,可通过新的初选目标区域框数据和相应的目标区域框标注信息确定检测偏移,并且根据检测偏移和框回归数据(即框移动/调整数据)来计算损失值作为第二差异数据。通过综合两个偏移参数(检测偏移和框回归数据)作为物体框检测的第二差异数据,能够提高训练的第三子网的准确性。
在步骤S725,根据所述第二差异数据调整所述第三子网的网络参数。
例如,将确定的第二差异数据反传给第三子网,以调整第三子网的网络参数。
在步骤S726,确定是否满足迭代终止条件。
如果在步骤S726,确定前述的迭代满足迭代终止条件(如达到预定的迭代次数等),则结束对第三子网的训练;如果在步骤S726,确定前述的迭代不满足迭代终止条件(如达到预定的迭代次数等),则返回执行步骤S721,继续进行前述对第三子网的训练,直到确定满足迭代终止条件为止。
现有的用于物体区域框回归的神经网络的训练仅针对一次目标区域框回归执行迭代(如迭代次数N)的训练;而根据本发明实施例六的训练方法,对目标区域框执行多次回归(如回归次数M),每次回归涉及多次迭代(如迭代次数N)的训练,即涉及M×N次迭代训练。由此训练得到的第三子网在进行物体区域框的定位检测上更为准确。
可使用任何具有上述结构的卷积神经网络来构建第三子网。可选地,将所述第三子网构建为在新近开发的物体检测技术中性能较佳的ResNet结构,来执行区域池化和规范化卷积。
根据本发明实施例六的神经网络的训练方法,在前述实施例四和实施例五的的基础上,训练得到的深度卷积神经网络通过对样本图像的每个融合特征图进一步进行卷积,来对该融合特征图中包含的初选目标区域框数据进行调整,再经过区域池化来获得新的融合特征图,并从新的融合特征图获取新的初选目标区域框数据,从而对得到的初选目标区域框数据进行调整、回归,能够进一步提高物体检测的准确性和鲁棒性。
实施例七
图8是示出根据本发明实施例七的物体检测装置的逻辑框图。
参照图8,本实施例的物体检测装置包括融合特征图预测模块810和目标区域框预测模块820。
融合特征图预测模块810用于通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图;其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到。
目标区域框预测模块820用于根据融合特征图预测模块810获取的多个融合特征图获取目标区域框数据。
本实施例的物体检测装置用于实现前述方法实施例中相应的物体检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例八
图9是示出根据本发明实施例八的物体检测装置的逻辑框图。
根据本实施例,在用于目标区域框检测的深度卷积神经网络中,所述第二子网设置在所述第一子网的末端,所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间,所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
根据一种可选的实施方式,在至少一个所述第一卷积层设有用于输出所述第一特征图的第一输出分支,在第二卷积层设有用于输出所述第二特征图的第二输出分支。
根据一种可选的实施方式,所述第二子网还具有多个第三卷积层,所述第三卷积层的输入包括所述第一输出分支和所述第二输出分支。相应地,融合特征图预测模块810用于从所述多个第三卷积层的输出端分别获取所述融合特征图。
可选地,所述融合特征图中的每个点具有与多个物体探测框对应的框融合检测数据以及预测准确信息。相应地,目标区域框预测模块820用于根据各个所述融合特征图中的框融合检测数据以及预测准确信息分别获取与所述融合特征图各自对应的目标区域框数据。
可选地,目标区域框预测模块820用于分别获取所述融合特征图各自对应的初选目标区域框数据;迭代地执行以下物体区域框回归操作,直到所述迭代满足迭代终止条件为止:通过调整所述融合特征图,从经过调整的融合特征图获取新的初选目标区域框数据;将经过所述迭代得到的所述初选目标区域框数据作为所述待处理的图像中的目标区域框数据。
可选地,所述深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
可选地,目标区域框预测模块820包括:
框调整单元821,用于通过所述第四卷积层分别对当前的所述融合特征图进行卷积,获取调整融合特征图;
区域池化单元822,用于根据当前的初选目标区域框数据,通过所述池化层对所述调整融合特征图进行区域池化,获取新的融合特征图;
初选框获取单元823,用于从所述新的融合特征图获取所述新的初选目标区域框数据。
可选地,所述第三子网还具有设置在所述池化层输出端的第五卷积层;相应地,初选框获取单元823用于通过所述第五卷积层对所述新的融合特征图进行规范化卷积,并且从经过规范化卷积的融合特征图获取所述新的初选目标区域框数据。
可选地,所述第一子网和所述第二子网均为认知―样本归一化(Inception-BN)网络结构,所述第三子网为残差网络(ResNet)结构。
本实施例的物体检测装置用于实现前述方法实施例中相应的物体检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例九
图10是示出根据本发明实施例九的神经网络的训练装置的逻辑框图。
参照图10,本实施例的神经网络的训练装置还包括融合特征图检测模块1010、目标区域框检测模块1020、第一差异获取模块1030和第一网络训练模块1040。
融合特征图检测模块1010用于将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到。
目标区域框检测模块1020用于根据所述多个融合特征图获取所述样本图像的目标区域框数据。
第一差异获取模块1030用于根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据。
第一网络训练模块1040用于根据所述第一差异数据调整所述深度卷积神经网络的网络参数。
本实施例的神经网络的训练装置用于实现前述方法实施例中相应的神经网络的训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例十
图11是示出根据本发明实施例十的神经网络的训练装置的逻辑框图。
根据本实施例,在用于目标区域框检测的深度卷积神经网络中,所述第二子网设置在所述第一子网的末端,所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间,所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
根据一种可选的实施方式,在至少一个所述第一卷积层设有用于输出所述第一特征图的第一输出分支,在第二卷积层设有用于输出所述第二特征图的第二输出分支。
根据一种可选的实施方式,所述第二子网还具有多个第三卷积层,所述第三卷积层的输入包括所述第一输出分支和所述第二输出分支。相应地,融合特征图检测模块1010用于从所述多个第三卷积层的输出端分别获取所述融合特征图。
可选地,所述融合特征图中的每个点具有与多个物体探测框对应的框融合检测数据以及预测准确信息。
可选地,所述深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
可选地,所述装置还包括:框回归迭代训练模块1050,用于迭代地执行以下目标区域框回归训练操作,直到所述迭代满足迭代终止条件为止:通过所述第四卷积层分别对当前的所述融合特征图进行卷积,获取调整融合特征图;根据当前的初选目标区域框数据,通过所述池化层对所述调整融合特征图进行区域池化,获取新的融合特征图;从所述新的融合特征图获取所述新的初选目标区域框数据;根据未经过调整的初选目标区域框数据和新的初选目标区域框数据之间的框回归数据、新的初选目标区域框数据和相应的目标区域框标注信息确定物体框检测的第二差异数据;根据所述第二差异数据调整所述第三子网的网络参数。
可选地,所述第三子网还具有设置在所述池化层输出端的第五卷积层;相应地,框回归迭代训练模块1050用于通过所述第五卷积层对所述新的融合特征图进行规范化卷积,并且从经过规范化卷积的融合特征图获取所述新的初选目标区域框数据。
可选地,所述装置还包括:预处理模块1060,用于在迭代地执行目标区域框回归训练操作之前,缩放所述样本图像,使得至少一个物体区域框的真值被物体探测框覆盖。
可选地,所述样本图像的目标区域框标注信息包括正样本区域框的标注信息和负样本区域框的标注信息;所述正样本区域框与物体区域框的真值的重叠率不低于第一重叠比率值,所述负样本区域框与物体区域框的真值的重叠率不高于第二重叠比率值,所述第一重叠比率值大于所述第二重叠比率值。
可选地,所述样本图像的目标区域框标注信息还包括中性样本区域框的标注信息,所述中性样本区域框与物体区域框的真值的重叠率在所述第一重叠比率值和所述第二重叠比率值之间。
可选地,,在全部所述样本图像当中,标注的正样本区域框的总和在所述正样本区域框、负样本区域框以及中性样本区域框的框总数中的占比不小于预定的第一比值,所述第一比值大于50%;标注的负样本区域框的总和在框总数中的占比不大于预定的第二比值;标注的中性样本区域框的总和在框总数中的占比不大于预定的第三比值,所述第三比例不大于第一比值和第二比值之和的一半。
可选地,所述第一子网和所述第二子网均为认知―样本归一化网络结构,所述第三子网为残差网络结构。
本实施例的神经网络的训练装置用于实现前述方法实施例中相应的神经网络的训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例十一
图12是示出根据本发明实施例十一的第一电子设备的结构示意图。
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图12,其示出了适于用来实现本发明实施例的终端设备或服务器的第一电子设备1200的结构示意图。
如图12所示,第一电子设备1200包括一个或多个第一处理器、第一通信元件等,所述一个或多个第一处理器例如:一个或多个第一中央处理单元(CPU)1201,和/或一个或多个第一图像处理器(GPU)1213等,第一处理器可以根据存储在第一只读存储器(ROM)1202中的可执行指令或者从第一存储部分1208加载到第一随机访问存储器(RAM)1203中的可执行指令而执行各种适当的动作和处理。第一通信元件包括第一通信组件1212和第一通信接口1209。其中,第一通信组件1212可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,第一通信接口1209包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,第一通信接口1209经由诸如因特网的网络执行通信处理。
第一处理器可与第一只读存储器1202和/或第一随机访问存储器1230中通信以执行可执行指令,通过第一总线1204与第一通信组件1212相连、并经第一通信组件1212与其他目标设备通信,从而完成本发明实施例提供的任一项方法对应的操作,例如,通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图;其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;根据所述多个融合特征图获取目标区域框数据。
此外,在第一RAM 1203中,还可存储有装置操作所需的各种程序和数据。第一CPU1201、第一ROM1202以及第一RAM1203通过第一总线1204彼此相连。在有第一RAM1203的情况下,第一ROM1202为可选模块。第一RAM1203存储可执行指令,或在运行时向第一ROM1202中写入可执行指令,可执行指令使第一处理器1201执行上述通信方法对应的操作。第一输入/输出(I/O)接口1205也连接至第一总线1204。第一通信组件1212可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至第一I/O接口1205:包括键盘、鼠标等的第一输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第一输出部分1207;包括硬盘等的第一存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的第一通信接口1209。第一驱动器1210也根据需要连接至第一I/O接口1205。第一可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在第一驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入第一存储部分1208。
需要说明的是,如图12所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图12的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,第一通信组件1212可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图;其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;根据所述多个融合特征图获取目标区域框数据。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从第一可拆卸介质1211被安装。在该计算机程序被第一中央处理单元(CPU)1201执行时,执行本发明实施例的方法中限定的上述功能。
本发明实施例十一提供的电子设备,通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图,其中,从具有至少一个下采样层的第一子网获取多个第一特征图,从具有至少一个上采样层的第二子网获取多个第二特征图,分别由多个第一特征图和多个第二特征图融合得到融合特征图。此后,再根据所述多个融合特征图获取目标区域框数据。由于这些融合特征图较好地表征了图像中高层的语义特征(如布局、前背景信息等)和低层的细节特征(如小物体信息等),因此根据这些融合特征图能够有效地提取到图像中包含的大小物体的目标区域框数据,从而提高物体检测的准确性和鲁棒性。
实施例十二
图13是示出根据本发明实施例十二的第二电子设备的结构示意图。
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图13,其示出了适于用来实现本发明实施例的终端设备或服务器的第二电子设备1300的结构示意图。
如图13所示,第二电子设备1300包括一个或多个第二处理器、第二通信元件等,所述一个或多个第二处理器例如:一个或多个第二中央处理单元(CPU)1301,和/或一个或多个第二图像处理器(GPU)1313等,第二处理器可以根据存储在第二只读存储器(ROM)1302中的可执行指令或者从第二存储部分1308加载到第二随机访问存储器(RAM)1303中的可执行指令而执行各种适当的动作和处理。第二通信元件包括第二通信组件1312和第二通信接口1309。其中,第二通信组件1312可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,第二通信接口1309包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,第二通信接口1309经由诸如因特网的网络执行通信处理。
第二处理器可与第二只读存储器1302和/或第二随机访问存储器1330中通信以执行可执行指令,通过第二总线1304与第二通信组件1312相连、并经第二通信组件1312与其他目标设备通信,从而完成本发明实施例提供的任一项方法对应的操作,例如,将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;根据所述多个融合特征图获取所述样本图像的目标区域框数据;根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据;根据所述第一差异数据调整所述深度卷积神经网络的网络参数。
此外,在第二RAM 1303中,还可存储有装置操作所需的各种程序和数据。第二CPU1301、第二ROM1302以及第二RAM1303通过第二总线1304彼此相连。在有第二RAM1303的情况下,第二ROM1302为可选模块。第二RAM1303存储可执行指令,或在运行时向第二ROM1302中写入可执行指令,可执行指令使第二处理器1301执行上述通信方法对应的操作。第二输入/输出(I/O)接口1305也连接至第二总线1304。第二通信组件1312可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至第二I/O接口1305:包括键盘、鼠标等的第二输入部分1306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第二输出部分1307;包括硬盘等的第二存储部分1308;以及包括诸如LAN卡、调制解调器等的网络接口卡的第二通信接口1309。第二驱动器1310也根据需要连接至第二I/O接口1305。第二可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在第二驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入第二存储部分1308。
需要说明的是,如图13所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图13的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,第二通信组件1312可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;根据所述多个融合特征图获取所述样本图像的目标区域框数据;根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据;根据所述第一差异数据调整所述深度卷积神经网络的网络参数。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从第二可拆卸介质1311被安装。在该计算机程序被第二中央处理单元(CPU)1301执行时,执行本发明实施例的方法中限定的上述功能。
本发明实施例十二提供的电子设备,将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图;其中,从具有至少一个下采样层的第一子网检测获取多个第一特征图,从具有至少一个上采样层的第二子网检测获取多个第二特征图,分别由多个第一特征图和多个第二特征图融合得到融合特征图,再根据所述多个融合特征图获取目标区域框数据。此后,根据获取到的目标区域框数据以及所述目标区域框标注信息确定第一差异数据,再根据所述第一差异数据调整所述深度卷积神经网络的网络参数。由于从训练获得的深度卷积神经网络的这些融合特征图较好地表征了图像中高层的语义特征(如布局、前背景信息等)和低层的细节特征(如小物体信息等),因此根据这些融合特征图能够有效地提取到图像中包含的大小物体的目标区域框数据。训练获得的深度卷积神经网络能够提高物体检测的准确性和鲁棒性。
需要指出,根据实施的需要,可将本申请中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明实施例的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种物体检测方法,包括:
通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图;其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;
根据所述多个融合特征图获取目标区域框数据。
2.根据权利要求1所述的方法,其中,所述第二子网设置在所述第一子网的末端,所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间,所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
3.根据权利要求1或2所述的方法,其中,所述根据所述多个融合特征图获取目标区域框数据包括:
分别获取所述融合特征图各自对应的初选目标区域框数据;
迭代地执行以下物体区域框回归操作,直到所述迭代满足迭代终止条件为止:通过调整所述融合特征图,从经过调整的融合特征图获取新的初选目标区域框数据;
将经过所述迭代得到的所述初选目标区域框数据作为所述待处理的图像中的目标区域框数据。
4.一种神经网络的训练方法,包括:
将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;
根据所述多个融合特征图获取所述样本图像的目标区域框数据;
根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据;
根据所述第一差异数据调整所述深度卷积神经网络的网络参数。
5.根据权利要求4所述的方法,其中,所述第二子网设置在所述第一子网的末端,所述第一子网具有多个第一卷积层和所述至少一个下采样层,所述下采样层设置在所述多个第一卷积层之间,所述第二子网具有多个第二卷积层和所述至少一个上采样层,所述上采样层设置在所述多个第二卷积层之间,所述第一卷积层和所述第二卷积层对称设置,所述至少一个下采样层和所述至少一个上采样层分别对称地设置。
6.根据权利要求4或5所述的方法,其中,所述深度卷积神经网络还包括第三子网,所述第三子网具有多组第四卷积层和多个池化层,所述多组第四卷积层分别与所述第三卷积层对应,所述多个池化层分别与所述多组第四卷积层对应,并且每个所述池化层的输入包括所述经过调整的融合特征图和所述初选目标区域框的数据。
7.一种物体检测装置,包括:
融合特征图预测模块,用于通过用于目标区域框检测的深度卷积神经网络,从待处理的图像预测获取多个融合特征图;其中,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;
目标区域框预测模块,用于根据所述融合特征图预测模块获取的多个融合特征图获取目标区域框数据。
8.一种神经网络的训练装置,包括:
融合特征图检测模块,用于将含有目标区域框标注信息的样本图像输入用于目标区域框检测的深度卷积神经网络,检测获取多个融合特征图,所述深度卷积神经网络包括第一子网和第二子网,所述第一子网具有至少一个下采样层,所述第二子网具有至少一个上采样层;所述融合特征图通过第一特征图和第二特征图得到,所述第一特征图从第一子网获取得到,所述第二特征图从第二子网获取得到;
目标区域框检测模块,用于根据所述多个融合特征图获取所述样本图像的目标区域框数据;
第一差异获取模块,用于根据获取到的所述样本图像的目标区域框数据以及所述目标区域框标注信息确定物体框检测的第一差异数据;
第一网络训练模块,用于根据所述第一差异数据调整所述深度卷积神经网络的网络参数。
9.一种电子设备,包括:第一处理器、第一存储器、第一通信元件和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信;
所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如权利要求1~3中任一项所述的物体检测方法对应的操作。
10.一种电子设备,包括:第二处理器、第二存储器、第二通信元件和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信;
所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如权利要求4~6任一项所述的神经网络的训练方法对应的操作。
CN201710100676.1A 2017-02-23 2017-02-23 物体检测方法、神经网络的训练方法、装置和电子设备 Active CN108229455B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201710100676.1A CN108229455B (zh) 2017-02-23 2017-02-23 物体检测方法、神经网络的训练方法、装置和电子设备
JP2019545345A JP6902611B2 (ja) 2017-02-23 2018-02-13 物体検出方法、ニューラルネットワークの訓練方法、装置および電子機器
SG11201907355XA SG11201907355XA (en) 2017-02-23 2018-02-13 Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
US16/314,406 US11321593B2 (en) 2017-02-23 2018-02-13 Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
PCT/CN2018/076653 WO2018153319A1 (zh) 2017-02-23 2018-02-13 物体检测方法、神经网络的训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710100676.1A CN108229455B (zh) 2017-02-23 2017-02-23 物体检测方法、神经网络的训练方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN108229455A true CN108229455A (zh) 2018-06-29
CN108229455B CN108229455B (zh) 2020-10-16

Family

ID=62657296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710100676.1A Active CN108229455B (zh) 2017-02-23 2017-02-23 物体检测方法、神经网络的训练方法、装置和电子设备

Country Status (5)

Country Link
US (1) US11321593B2 (zh)
JP (1) JP6902611B2 (zh)
CN (1) CN108229455B (zh)
SG (1) SG11201907355XA (zh)
WO (1) WO2018153319A1 (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985206A (zh) * 2018-07-04 2018-12-11 百度在线网络技术(北京)有限公司 模型训练方法、人体识别方法、装置、设备及存储介质
CN109360633A (zh) * 2018-09-04 2019-02-19 北京市商汤科技开发有限公司 医疗影像处理方法及装置、处理设备及存储介质
CN109376767A (zh) * 2018-09-20 2019-02-22 中国科学技术大学 基于深度学习的视网膜oct图像分类方法
CN109410240A (zh) * 2018-10-09 2019-03-01 电子科技大学中山学院 一种量体特征点定位方法、装置及其存储介质
CN109461177A (zh) * 2018-09-29 2019-03-12 浙江科技学院 一种基于神经网络的单目图像深度预测方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109543662A (zh) * 2018-12-28 2019-03-29 广州海昇计算机科技有限公司 基于区域提议的目标检测方法、系统、装置和存储介质
CN109800793A (zh) * 2018-12-28 2019-05-24 广州海昇教育科技有限责任公司 一种基于深度学习的目标检测方法和系统
CN109902634A (zh) * 2019-03-04 2019-06-18 上海七牛信息技术有限公司 一种基于神经网络的视频分类方法以及系统
CN109978863A (zh) * 2019-03-27 2019-07-05 北京青燕祥云科技有限公司 基于x射线图像的目标检测方法及计算机设备
CN110111299A (zh) * 2019-03-18 2019-08-09 国网浙江省电力有限公司信息通信分公司 锈斑识别方法及装置
CN110163864A (zh) * 2019-05-28 2019-08-23 北京迈格威科技有限公司 图像分割方法、装置、计算机设备和存储介质
CN110210474A (zh) * 2019-04-30 2019-09-06 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质
CN110263797A (zh) * 2019-06-21 2019-09-20 北京字节跳动网络技术有限公司 骨架的关键点估计方法、装置、设备及可读存储介质
CN110705479A (zh) * 2019-09-30 2020-01-17 北京猎户星空科技有限公司 模型训练方法和目标识别方法、装置、设备及介质
WO2020019612A1 (zh) * 2018-07-24 2020-01-30 北京市商汤科技开发有限公司 医疗影像处理方法及装置、电子设备及存储介质
CN110796115A (zh) * 2019-11-08 2020-02-14 厦门美图之家科技有限公司 图像检测方法、装置、电子设备及可读存储介质
CN110826403A (zh) * 2019-09-27 2020-02-21 深圳云天励飞技术有限公司 跟踪目标确定方法及相关设备
WO2020038205A1 (zh) * 2018-08-24 2020-02-27 腾讯科技(深圳)有限公司 目标检测方法、装置、计算机可读存储介质及计算机设备
CN111210417A (zh) * 2020-01-07 2020-05-29 创新奇智(北京)科技有限公司 基于卷积神经网络的布匹缺陷检测方法
CN111260548A (zh) * 2018-11-30 2020-06-09 浙江宇视科技有限公司 基于深度学习的贴图方法及装置
CN111382647A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种图片处理方法、装置、设备及存储介质
CN111507172A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 通过预测周围物体移动支持安全的自动驾驶的方法和装置
CN111881912A (zh) * 2020-08-19 2020-11-03 Oppo广东移动通信有限公司 数据处理方法、装置以及电子设备
CN111914774A (zh) * 2020-05-07 2020-11-10 清华大学 基于稀疏卷积神经网络的3d物体检测方法及装置
JP2020190926A (ja) * 2019-05-22 2020-11-26 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
CN112088393A (zh) * 2018-09-29 2020-12-15 华为技术有限公司 图像处理方法、装置及设备
CN112288031A (zh) * 2020-11-18 2021-01-29 北京航空航天大学杭州创新研究院 交通信号灯检测方法、装置、电子设备和存储介质
CN112686329A (zh) * 2021-01-06 2021-04-20 西安邮电大学 基于双核卷积特征提取的电子喉镜图像分类方法
WO2021082517A1 (zh) * 2019-10-31 2021-05-06 上海商汤智能科技有限公司 神经网络训练及图像分割方法、装置、设备、介质和程序
CN112906621A (zh) * 2021-03-10 2021-06-04 北京华捷艾米科技有限公司 一种手部检测方法、装置、存储介质和设备
CN114511082A (zh) * 2022-02-16 2022-05-17 腾讯科技(深圳)有限公司 特征提取模型的训练方法、图像处理方法、装置及设备
CN114549883A (zh) * 2022-02-24 2022-05-27 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法、装置和设备
CN114871115A (zh) * 2022-04-28 2022-08-09 五邑大学 一种物体分拣方法、装置、设备及存储介质
CN116994231A (zh) * 2023-08-01 2023-11-03 无锡车联天下信息技术有限公司 一种车内遗留物体的确定方法、装置及电子设备
CN117237746A (zh) * 2023-11-13 2023-12-15 光宇锦业(武汉)智能科技有限公司 基于多交叉边缘融合小目标检测方法、系统及存储介质
CN114871115B (zh) * 2022-04-28 2024-07-05 五邑大学 一种物体分拣方法、装置、设备及存储介质

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701210B (zh) * 2016-02-02 2021-08-17 北京市商汤科技开发有限公司 用于cnn网络适配和对象在线追踪的方法和系统
US10496895B2 (en) * 2017-03-28 2019-12-03 Facebook, Inc. Generating refined object proposals using deep-learning models
CN108230294B (zh) * 2017-06-14 2020-09-29 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
US10586350B2 (en) * 2017-12-03 2020-03-10 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
US10300851B1 (en) * 2018-10-04 2019-05-28 StradVision, Inc. Method for warning vehicle of risk of lane change and alarm device using the same
CN111126421B (zh) * 2018-10-31 2023-07-21 浙江宇视科技有限公司 目标检测方法、装置及可读存储介质
CN111353597B (zh) * 2018-12-24 2023-12-05 杭州海康威视数字技术股份有限公司 一种目标检测神经网络训练方法和装置
CN111401396B (zh) * 2019-01-03 2023-04-18 阿里巴巴集团控股有限公司 图像识别方法及装置
CN111445020B (zh) * 2019-01-16 2023-05-23 阿里巴巴集团控股有限公司 一种基于图的卷积网络训练方法、装置及系统
US10410352B1 (en) * 2019-01-25 2019-09-10 StradVision, Inc. Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
US10402977B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
CN110110617B (zh) * 2019-04-22 2021-04-20 腾讯科技(深圳)有限公司 医学影像分割方法、装置、电子设备和存储介质
CN110097108B (zh) * 2019-04-24 2021-03-02 佳都新太科技股份有限公司 非机动车的识别方法、装置、设备及存储介质
CN110084309B (zh) * 2019-04-30 2022-06-21 北京市商汤科技开发有限公司 特征图放大方法、装置和设备及计算机可读存储介质
CN110148157B (zh) * 2019-05-10 2021-02-02 腾讯科技(深圳)有限公司 画面目标跟踪方法、装置、存储介质及电子设备
CN112001211B (zh) * 2019-05-27 2024-04-19 商汤集团有限公司 对象检测方法、装置、设备及计算机可读存储介质
CN110288082B (zh) * 2019-06-05 2022-04-05 北京字节跳动网络技术有限公司 卷积神经网络模型训练方法、装置和计算机可读存储介质
CN110378398B (zh) * 2019-06-27 2023-08-25 东南大学 一种基于多尺度特征图跳跃融合的深度学习网络改进方法
CN112241665A (zh) * 2019-07-18 2021-01-19 顺丰科技有限公司 一种暴力分拣识别方法、装置、设备及存储介质
CN110503063B (zh) * 2019-08-28 2021-12-17 东北大学秦皇岛分校 基于沙漏卷积自动编码神经网络的跌倒检测方法
KR102287947B1 (ko) * 2019-10-28 2021-08-09 삼성전자주식회사 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
CN111767934B (zh) * 2019-10-31 2023-11-03 杭州海康威视数字技术股份有限公司 一种图像识别方法、装置及电子设备
CN111767935B (zh) * 2019-10-31 2023-09-05 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置及电子设备
CN110826457B (zh) * 2019-10-31 2022-08-19 上海融军科技有限公司 一种复杂场景下的车辆检测方法及装置
CN111222534B (zh) * 2019-11-15 2022-10-11 重庆邮电大学 一种基于双向特征融合和更平衡l1损失的单发多框检测器优化方法
CN112825248A (zh) * 2019-11-19 2021-05-21 阿里巴巴集团控股有限公司 语音处理方法、模型训练方法、界面显示方法及设备
CN111046917B (zh) * 2019-11-20 2022-08-09 南京理工大学 基于深度神经网络的对象性增强目标检测方法
CN110956119B (zh) * 2019-11-26 2023-05-26 大连理工大学 一种图像中目标检测的方法
CN110956122B (zh) * 2019-11-27 2022-08-02 深圳市商汤科技有限公司 图像处理方法及装置、处理器、电子设备、存储介质
CN111079620B (zh) * 2019-12-10 2023-10-17 北京小蝇科技有限责任公司 基于迁移学习的白细胞图像检测识别模型构建方法及应用
CN111091089B (zh) * 2019-12-12 2022-07-29 新华三大数据技术有限公司 一种人脸图像处理方法、装置、电子设备及存储介质
CN111104906A (zh) * 2019-12-19 2020-05-05 南京工程学院 一种基于yolo的输电塔鸟巢故障检测方法
CN111080528B (zh) * 2019-12-20 2023-11-07 北京金山云网络技术有限公司 图像超分辨率和模型训练方法、装置、电子设备及介质
CN110751134B (zh) * 2019-12-23 2020-05-12 长沙智能驾驶研究院有限公司 目标检测方法、装置、存储介质及计算机设备
CN111310633B (zh) * 2020-02-10 2023-05-05 江南大学 基于视频的并行时空注意力行人重识别方法
CN111260019B (zh) * 2020-02-18 2023-04-11 深圳鲲云信息科技有限公司 神经网络模型的数据处理方法、装置、设备及存储介质
CN111339884B (zh) * 2020-02-19 2023-06-06 浙江大华技术股份有限公司 图像识别方法以及相关设备、装置
CN111340048B (zh) * 2020-02-28 2022-02-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN113496150B (zh) * 2020-03-20 2023-03-21 长沙智能驾驶研究院有限公司 密集目标检测方法、装置、存储介质及计算机设备
CN111767919B (zh) * 2020-04-10 2024-02-06 福建电子口岸股份有限公司 一种多层双向特征提取与融合的目标检测方法
CN111881744B (zh) * 2020-06-23 2024-06-21 安徽清新互联信息科技有限公司 一种基于空间位置信息的人脸特征点定位方法及系统
CN112101345A (zh) * 2020-08-26 2020-12-18 贵州优特云科技有限公司 一种水表读数识别的方法以及相关装置
KR20220036061A (ko) * 2020-09-15 2022-03-22 삼성전자주식회사 전자 장치, 그 제어 방법 및 전자 시스템
EP4113382A4 (en) 2020-09-15 2023-08-30 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE, ITS CONTROL METHOD AND SYSTEM
CN112465226B (zh) * 2020-11-27 2023-01-20 上海交通大学 一种基于特征交互和图神经网络的用户行为预测方法
CN112419292B (zh) * 2020-11-30 2024-03-26 深圳云天励飞技术股份有限公司 病理图像的处理方法、装置、电子设备及存储介质
CN112446378B (zh) * 2020-11-30 2022-09-16 展讯通信(上海)有限公司 目标检测方法及装置、存储介质、终端
CN112418165B (zh) * 2020-12-07 2023-04-07 武汉工程大学 基于改进型级联神经网络的小尺寸目标检测方法与装置
CN112633352B (zh) * 2020-12-18 2023-08-29 浙江大华技术股份有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112801266B (zh) * 2020-12-24 2023-10-31 武汉旷视金智科技有限公司 神经网络构建方法、装置、设备及介质
CN112989919B (zh) * 2020-12-25 2024-04-19 首都师范大学 一种从影像中提取目标对象的方法及系统
CN112766137B (zh) * 2021-01-14 2023-02-10 华南理工大学 一种基于深度学习的动态场景异物入侵检测方法
CN112784742B (zh) * 2021-01-21 2024-06-18 宠爱王国(北京)网络科技有限公司 鼻纹特征的提取方法、装置及非易失性存储介质
CN112906485B (zh) * 2021-01-25 2023-01-31 杭州易享优智能科技有限公司 基于改进的yolo模型的视障人士辅助障碍物感知方法
CN113052165A (zh) * 2021-01-28 2021-06-29 北京迈格威科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112990317B (zh) * 2021-03-18 2022-08-30 中国科学院长春光学精密机械与物理研究所 一种弱小目标检测方法
US20240161461A1 (en) * 2021-04-01 2024-05-16 Boe Technology Group Co., Ltd. Object detection method, object detection apparatus, and object detection system
CN113191235B (zh) * 2021-04-22 2024-05-17 上海东普信息科技有限公司 杂物检测方法、装置、设备及存储介质
CN113139543B (zh) * 2021-04-28 2023-09-01 北京百度网讯科技有限公司 目标对象检测模型的训练方法、目标对象检测方法和设备
CN113298130B (zh) * 2021-05-14 2023-05-09 嘉洋智慧安全科技(北京)股份有限公司 目标图像的检测、目标对象检测模型的生成方法
US11823490B2 (en) * 2021-06-08 2023-11-21 Adobe, Inc. Non-linear latent to latent model for multi-attribute face editing
CN113538351B (zh) * 2021-06-30 2024-01-19 国网山东省电力公司电力科学研究院 一种融合多参数电信号的外绝缘设备缺陷程度评估方法
CN113673578A (zh) * 2021-07-27 2021-11-19 浙江大华技术股份有限公司 图像检测方法、图像检测设备及计算机可读存储介质
CN114331946A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 一种图像数据处理方法、设备以及介质
CN113989846A (zh) * 2021-10-29 2022-01-28 北京百度网讯科技有限公司 检测图像中关键点的方法、训练关键点检测模型的方法
CN114005178B (zh) * 2021-10-29 2023-09-01 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质
CN114898385A (zh) * 2022-05-07 2022-08-12 微民保险代理有限公司 数据处理方法、装置、设备、可读存储介质及程序产品
CN115578624A (zh) * 2022-10-28 2023-01-06 北京市农林科学院 农业病虫害模型构建方法、检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424494B1 (en) * 2016-01-28 2016-08-23 International Business Machines Corporation Pure convolutional neural network localization
CN106126579A (zh) * 2016-06-17 2016-11-16 北京市商汤科技开发有限公司 物体识别方法和装置、数据处理装置和终端设备
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN106355573A (zh) * 2016-08-24 2017-01-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
CN106447658A (zh) * 2016-09-26 2017-02-22 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413120B (zh) 2013-07-25 2016-07-20 华南农业大学 基于物体整体性和局部性识别的跟踪方法
WO2016004330A1 (en) * 2014-07-03 2016-01-07 Oim Squared Inc. Interactive content generation
CN105120130B (zh) 2015-09-17 2018-06-29 京东方科技集团股份有限公司 一种图像升频系统、其训练方法及图像升频方法
CN106296728B (zh) 2016-07-27 2019-05-14 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106709532B (zh) 2017-01-25 2020-03-10 京东方科技集团股份有限公司 图像处理方法和装置
CN110647834B (zh) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 人脸和人手关联检测方法及装置、电子设备和存储介质
US11367271B2 (en) * 2020-06-19 2022-06-21 Adobe Inc. Similarity propagation for one-shot and few-shot image segmentation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424494B1 (en) * 2016-01-28 2016-08-23 International Business Machines Corporation Pure convolutional neural network localization
CN106126579A (zh) * 2016-06-17 2016-11-16 北京市商汤科技开发有限公司 物体识别方法和装置、数据处理装置和终端设备
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN106355573A (zh) * 2016-08-24 2017-01-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
CN106447658A (zh) * 2016-09-26 2017-02-22 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ABHINAV SHRIVASTAVA 等: "Beyond Skip Connections: Top-Down Modulation for Object Detection", 《ARXIV》 *
ALEJANDRO NEWELL 等: "Stacked Hourglass Networks for Human Pose Estimation", 《ARXIV》 *
CHENG-YANG FU 等: "DSSD : Deconvolutional Single Shot Detector", 《ARXIV》 *
TSUNG-YI LIN 等: "Feature Pyramid Networks for Object Detection", 《ARXIV》 *
WEI LIU 等: "SSD: Single Shot MultiBox Detector", 《ARXIV》 *

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985206B (zh) * 2018-07-04 2020-07-28 百度在线网络技术(北京)有限公司 模型训练方法、人体识别方法、装置、设备及存储介质
CN108985206A (zh) * 2018-07-04 2018-12-11 百度在线网络技术(北京)有限公司 模型训练方法、人体识别方法、装置、设备及存储介质
TWI715117B (zh) * 2018-07-24 2021-01-01 大陸商北京市商湯科技開發有限公司 醫療影像處理方法及裝置、電子設備及儲存介質
WO2020019612A1 (zh) * 2018-07-24 2020-01-30 北京市商汤科技开发有限公司 医疗影像处理方法及装置、电子设备及存储介质
WO2020038205A1 (zh) * 2018-08-24 2020-02-27 腾讯科技(深圳)有限公司 目标检测方法、装置、计算机可读存储介质及计算机设备
US11710293B2 (en) 2018-08-24 2023-07-25 Tencent Technology (Shenzhen) Company Limited Target detection method and apparatus, computer-readable storage medium, and computer device
CN109360633B (zh) * 2018-09-04 2022-08-30 北京市商汤科技开发有限公司 医疗影像处理方法及装置、处理设备及存储介质
CN109360633A (zh) * 2018-09-04 2019-02-19 北京市商汤科技开发有限公司 医疗影像处理方法及装置、处理设备及存储介质
CN109376767B (zh) * 2018-09-20 2021-07-13 中国科学技术大学 基于深度学习的视网膜oct图像分类方法
CN109376767A (zh) * 2018-09-20 2019-02-22 中国科学技术大学 基于深度学习的视网膜oct图像分类方法
CN109461177B (zh) * 2018-09-29 2021-12-10 浙江科技学院 一种基于神经网络的单目图像深度预测方法
CN109461177A (zh) * 2018-09-29 2019-03-12 浙江科技学院 一种基于神经网络的单目图像深度预测方法
CN112088393A (zh) * 2018-09-29 2020-12-15 华为技术有限公司 图像处理方法、装置及设备
CN109410240A (zh) * 2018-10-09 2019-03-01 电子科技大学中山学院 一种量体特征点定位方法、装置及其存储介质
CN109522966B (zh) * 2018-11-28 2022-09-27 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN111260548A (zh) * 2018-11-30 2020-06-09 浙江宇视科技有限公司 基于深度学习的贴图方法及装置
CN109800793B (zh) * 2018-12-28 2023-12-22 广州海昇教育科技有限责任公司 一种基于深度学习的目标检测方法和系统
CN109800793A (zh) * 2018-12-28 2019-05-24 广州海昇教育科技有限责任公司 一种基于深度学习的目标检测方法和系统
CN109543662A (zh) * 2018-12-28 2019-03-29 广州海昇计算机科技有限公司 基于区域提议的目标检测方法、系统、装置和存储介质
CN109543662B (zh) * 2018-12-28 2023-04-21 广州海昇计算机科技有限公司 基于区域提议的目标检测方法、系统、装置和存储介质
CN111382647B (zh) * 2018-12-29 2021-07-30 广州市百果园信息技术有限公司 一种图片处理方法、装置、设备及存储介质
CN111382647A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种图片处理方法、装置、设备及存储介质
CN111507172B (zh) * 2019-01-31 2023-08-18 斯特拉德视觉公司 通过预测周围物体移动支持安全的自动驾驶的方法和装置
CN111507172A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 通过预测周围物体移动支持安全的自动驾驶的方法和装置
CN109902634A (zh) * 2019-03-04 2019-06-18 上海七牛信息技术有限公司 一种基于神经网络的视频分类方法以及系统
CN110111299A (zh) * 2019-03-18 2019-08-09 国网浙江省电力有限公司信息通信分公司 锈斑识别方法及装置
CN109978863A (zh) * 2019-03-27 2019-07-05 北京青燕祥云科技有限公司 基于x射线图像的目标检测方法及计算机设备
CN110210474A (zh) * 2019-04-30 2019-09-06 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质
US11151358B2 (en) 2019-04-30 2021-10-19 Beijing Sensetime Technology Development Co., Ltd. Target detection method and apparatus, device, and storage medium
CN110210474B (zh) * 2019-04-30 2021-06-01 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质
JP2020190926A (ja) * 2019-05-22 2020-11-26 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP7350515B2 (ja) 2019-05-22 2023-09-26 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
CN110163864B (zh) * 2019-05-28 2020-12-04 北京迈格威科技有限公司 图像分割方法、装置、计算机设备和存储介质
CN110163864A (zh) * 2019-05-28 2019-08-23 北京迈格威科技有限公司 图像分割方法、装置、计算机设备和存储介质
CN110263797A (zh) * 2019-06-21 2019-09-20 北京字节跳动网络技术有限公司 骨架的关键点估计方法、装置、设备及可读存储介质
CN110826403A (zh) * 2019-09-27 2020-02-21 深圳云天励飞技术有限公司 跟踪目标确定方法及相关设备
CN110705479A (zh) * 2019-09-30 2020-01-17 北京猎户星空科技有限公司 模型训练方法和目标识别方法、装置、设备及介质
TWI765386B (zh) * 2019-10-31 2022-05-21 大陸商上海商湯智能科技有限公司 神經網路訓練及圖像分割方法、電子設備和電腦儲存介質
WO2021082517A1 (zh) * 2019-10-31 2021-05-06 上海商汤智能科技有限公司 神经网络训练及图像分割方法、装置、设备、介质和程序
JP2022518583A (ja) * 2019-10-31 2022-03-15 上▲海▼商▲湯▼智能科技有限公司 ニューラルネットワークトレーニングおよび画像分割方法、装置、機器
CN110796115B (zh) * 2019-11-08 2022-12-23 厦门美图宜肤科技有限公司 图像检测方法、装置、电子设备及可读存储介质
CN110796115A (zh) * 2019-11-08 2020-02-14 厦门美图之家科技有限公司 图像检测方法、装置、电子设备及可读存储介质
CN111210417B (zh) * 2020-01-07 2023-04-07 创新奇智(北京)科技有限公司 基于卷积神经网络的布匹缺陷检测方法
CN111210417A (zh) * 2020-01-07 2020-05-29 创新奇智(北京)科技有限公司 基于卷积神经网络的布匹缺陷检测方法
CN111914774A (zh) * 2020-05-07 2020-11-10 清华大学 基于稀疏卷积神经网络的3d物体检测方法及装置
CN111881912A (zh) * 2020-08-19 2020-11-03 Oppo广东移动通信有限公司 数据处理方法、装置以及电子设备
CN112288031A (zh) * 2020-11-18 2021-01-29 北京航空航天大学杭州创新研究院 交通信号灯检测方法、装置、电子设备和存储介质
CN112686329A (zh) * 2021-01-06 2021-04-20 西安邮电大学 基于双核卷积特征提取的电子喉镜图像分类方法
CN112906621A (zh) * 2021-03-10 2021-06-04 北京华捷艾米科技有限公司 一种手部检测方法、装置、存储介质和设备
CN114511082A (zh) * 2022-02-16 2022-05-17 腾讯科技(深圳)有限公司 特征提取模型的训练方法、图像处理方法、装置及设备
CN114549883B (zh) * 2022-02-24 2023-09-05 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法、装置和设备
CN114549883A (zh) * 2022-02-24 2022-05-27 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法、装置和设备
CN114871115A (zh) * 2022-04-28 2022-08-09 五邑大学 一种物体分拣方法、装置、设备及存储介质
CN114871115B (zh) * 2022-04-28 2024-07-05 五邑大学 一种物体分拣方法、装置、设备及存储介质
CN116994231A (zh) * 2023-08-01 2023-11-03 无锡车联天下信息技术有限公司 一种车内遗留物体的确定方法、装置及电子设备
CN117237746A (zh) * 2023-11-13 2023-12-15 光宇锦业(武汉)智能科技有限公司 基于多交叉边缘融合小目标检测方法、系统及存储介质
CN117237746B (zh) * 2023-11-13 2024-03-15 光宇锦业(武汉)智能科技有限公司 基于多交叉边缘融合小目标检测方法、系统及存储介质

Also Published As

Publication number Publication date
WO2018153319A1 (zh) 2018-08-30
US20190156144A1 (en) 2019-05-23
JP6902611B2 (ja) 2021-07-14
JP2020509488A (ja) 2020-03-26
SG11201907355XA (en) 2019-09-27
CN108229455B (zh) 2020-10-16
US11321593B2 (en) 2022-05-03

Similar Documents

Publication Publication Date Title
CN108229455A (zh) 物体检测方法、神经网络的训练方法、装置和电子设备
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
JP7208480B2 (ja) 学習プログラム、検出プログラム、学習装置、検出装置、学習方法および検出方法
CN108399386A (zh) 饼图中的信息提取方法及装置
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN108304761A (zh) 文本检测方法、装置、存储介质和计算机设备
CN113362329B (zh) 病灶检测模型的训练方法及识别图像中的病灶的方法
CN108304835A (zh) 文字检测方法和装置
CN109492638A (zh) 文本检测方法、装置及电子设备
CN108304883A (zh) 基于改进sift的sar图像匹配方法
CN108805131A (zh) 文本行检测方法、装置及系统
CN108460415A (zh) 伪标签生成模型训练方法及伪标签生成方法
CN101178768A (zh) 图像处理设备和方法以及个人识别设备
CN109974721A (zh) 一种基于高精度地图的视觉回环检测方法和装置
CN109858547A (zh) 一种基于bssd的目标检测方法与装置
CN106326802A (zh) 二维码校正方法、装置及终端设备
CN108230354A (zh) 目标跟踪、网络训练方法、装置、电子设备和存储介质
CN110120065A (zh) 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统
CN110490199A (zh) 一种文本识别的方法、装置、存储介质及电子设备
CN108182695A (zh) 目标跟踪模型训练方法及装置、电子设备和存储介质
CN110852257A (zh) 一种人脸关键点的检测方法、装置及存储介质
CN110490232A (zh) 训练文字行方向预测模型的方法、装置、设备、介质
CN112037146A (zh) 医学图像伪影自动校正方法、装置和计算机设备
CN111832561B (zh) 基于计算机视觉的字符序列识别方法、装置、设备和介质
CN104463240A (zh) 一种控制列表界面的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 1101-1117, floor 11, No. 58, Beisihuan West Road, Haidian District, Beijing 100080

Patentee after: BEIJING SENSETIME TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 100084, room 7, floor 3, building 1, No. 710-712, Zhongguancun East Road, Beijing, Haidian District

Patentee before: BEIJING SENSETIME TECHNOLOGY DEVELOPMENT Co.,Ltd.

CP02 Change in the address of a patent holder