CN111523555A - 图像处理方法及装置、电子设备和存储介质 - Google Patents
图像处理方法及装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111523555A CN111523555A CN202010334197.8A CN202010334197A CN111523555A CN 111523555 A CN111523555 A CN 111523555A CN 202010334197 A CN202010334197 A CN 202010334197A CN 111523555 A CN111523555 A CN 111523555A
- Authority
- CN
- China
- Prior art keywords
- density map
- image
- target object
- map
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 103
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012937 correction Methods 0.000 claims description 180
- 238000009826 distribution Methods 0.000 claims description 140
- 239000011159 matrix material Substances 0.000 claims description 121
- 238000012549 training Methods 0.000 claims description 70
- 238000012545 processing Methods 0.000 claims description 53
- 238000010586 diagram Methods 0.000 claims description 31
- 238000002372 labelling Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 230000005484 gravity Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101100208381 Caenorhabditis elegans tth-1 gene Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种图像处理方法及装置、电子设备和存储介质,所述方法包括:利用神经网络对待处理图像进行特征提取,得到待处理图像的第一特征图;根据第一特征图得到第一预测密度图;根据第一预测密度图,确定待处理图像中目标对象的数量。根据本公开的实施例的图像处理方法,可通过扩张率减小目标对象在图像中的尺度对统计结果的影响,并通过第二预测密度图提高目标对象的特征点的位置精度,以提高统计精度。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种图像处理方法及装置、电子设备和存储介质。
背景技术
在图像处理过程中,例如,对安防监控、交通管理或自动驾驶等场景下的监控视频的视频帧进行处理的过程中,常需要对图像中特定类型的目标对象(例如,人、车辆等)的数量进行统计。
例如,在目标图像中的目标对象的数量较多而存在密集或拥堵的情况下,由于透视现象的存在,导致图像中的目标对象难以有效辨别和准确定位,造成目标对象的统计数据存在误差。
发明内容
本公开提出了一种图像处理方法及装置、电子设备和存储介质。
根据本公开的一方面,提供了一种图像处理方法,包括:利用神经网络对待处理图像进行特征提取,得到所述待处理图像的第一特征图,其中,第一特征图基于所述待处理图像中每个目标对象的特征点的扩张率得到;根据所述第一特征图得到第一预测密度图;根据所述第一预测密度图,确定所述待处理图像中目标对象的数量;其中,所述神经网络是将训练样本输入到初始神经网络生成与所述训练样本对应的预测密度图,纠正所述预测密度图中每个特征点的位置并得到网络损失,基于所述网络损失对所述初始神经网络进行更新得到。
根据本公开的实施例的图像处理方法,可通过扩张率减小目标对象在图像中的尺度对统计结果的影响,并通过第二预测密度图提高目标对象的特征点的位置精度,以提高统计精度。
在一种可能的实现方式中,所述对待处理图像进行特征提取,得到所述待处理图像的第一特征图,包括:对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及所述每个特征点对应的扩张率;根据所述每个目标对象的特征点和所述每个特征点对应的扩张率,得到第一特征图。
在一种可能的实现方式中,所述每个目标对象的特征点对应的扩张率为该目标对象对应的像素点所在区域的尺度相对于参考尺度的放大倍数;所述对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及每个特征点对应的扩张率,包括:对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及每个目标对象的所述尺度;将每个目标对象的所述尺度映射成每个所述目标对象的特征点对应的扩张率;根据所述每个目标对象的特征点和所述每个特征点对应的扩张率,得到第一特征图,包括:基于所述每个特征点对应的扩张率,对所述每个目标对象对应的特征点进行特征提取,得到所述第一特征图。
通过这种方式,可通过扩张卷积,得到各像素点的扩张率,减小目标对象在图像中的尺度对统计结果的影响,并通过对密度分布图求和得到目标对象的数量,提高统计精度。
在一种可能的实现方式中,所述根据所述第一预测密度图,确定所述待处理图像中目标对象的数量,包括:对所述第一预测密度图中所述各目标对象对应的像素点进行求和,得到所述待处理图像中目标对象的数量。
在一种可能的实现方式中,所述神经网络通过以下方式训练得到:使用第一状态神经网络对第二训练样本进行处理,得到第三预测密度图,其中,所述第二训练样本包括至少一个具有预设标签的目标对象,所述第三预测密度图中具有与所述目标对象对应位置的像素点;纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图;基于所述第二预测密度图和所述第三预测密度图确定网络损失,以对所述第一状态神经网络进行更新。
在一种可能的实现方式中,所述纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图,包括:根据所述第二样本图像的标注信息、所述第三预测密度图和预设的方差值,得到第一个校正周期的校正分布矩阵;根据上一个校正周期的校正分布矩阵和所述第三预测密度图,确定当前校正周期的校正分布矩阵;在满足校正条件的情况下,将当前校正周期的校正分布矩阵确定为偏差校正分布矩阵;根据所述偏差校正分布矩阵确定所述第二预测密度图。
在一种可能的实现方式中,所述基于所述第二预测密度图和所述第三预测密度图确定网络损失,包括:根据所述第二预测密度图和所述第三预测密度图,确定密度图损失;根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失;根据所述系数损失和所述密度图损失,确定所述网络损失。
在一种可能的实现方式中,所述根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失,包括:根据与所述第二预测密度图对应的偏差校正分布矩阵的方差,确定所述第二预测密度图中各目标对象的比重;根据所述第二预测密度图中各目标对象的比重,确定所述系数损失。
根据本公开的一方面,提供了一种图像处理装置,包括:特征提取模块,用于利用神经网络对待处理图像进行特征提取,得到所述待处理图像的第一特征图,其中,第一特征图基于所述待处理图像中每个目标对象的特征点的扩张率得到;预测模块,用于根据所述第一特征图得到第一预测密度图;统计模块,用于根据所述第一预测密度图,确定所述待处理图像中目标对象的数量;其中,所述神经网络是将训练样本输入到初始神经网络生成与所述训练样本对应的预测密度图,纠正所述预测密度图中每个特征点的位置并得到网络损失,基于所述网络损失对所述初始神经网络进行更新得到。
在一种可能的实现方式中,所述特征提取模块被进一步配置为:对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及所述每个特征点对应的扩张率;根据所述每个目标对象的特征点和所述每个特征点对应的扩张率,得到第一特征图。
在一种可能的实现方式中,所述每个目标对象的特征点对应的扩张率为该目标对象对应的像素点所在区域的尺度相对于参考尺度的放大倍数;所述特征提取模块被进一步配置为:对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及每个目标对象的所述尺度;将每个目标对象的所述尺度映射成每个所述目标对象的特征点对应的扩张率;所述特征提取模块被进一步配置为:基于所述每个特征点对应的扩张率,对所述每个目标对象对应的特征点进行特征提取,得到所述第一特征图。
在一种可能的实现方式中,所述数量模块被进一步配置为:对所述第一预测密度图中所述各目标对象对应的像素点进行求和,得到所述待处理图像中目标对象的数量。
在一种可能的实现方式中,所述神经网络通过以下装置训练得到:处理模块,用于使用第一状态神经网络对第二训练样本进行处理,得到第三预测密度图,其中,所述第二训练样本包括至少一个具有预设标签的目标对象,所述第三预测密度图中具有与所述目标对象对应位置的像素点;纠正模块,用于纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图;更新模块,用于基于所述第二预测密度图和所述第三预测密度图确定网络损失,以对所述第一状态神经网络进行更新。
在一种可能的实现方式中,所述纠正模块被进一步配置为:根据所述第二样本图像的标注信息、所述第三预测密度图和预设的方差值,得到第一个校正周期的校正分布矩阵;根据上一个校正周期的校正分布矩阵和所述第三预测密度图,确定当前校正周期的校正分布矩阵;在满足校正条件的情况下,将当前校正周期的校正分布矩阵确定为偏差校正分布矩阵;根据所述偏差校正分布矩阵确定所述第二预测密度图。
在一种可能的实现方式中,所述纠正模块被进一步配置为:根据所述第二预测密度图和所述第三预测密度图,确定密度图损失;根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失;根据所述系数损失和所述密度图损失,确定所述网络损失。
在一种可能的实现方式中,根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失,包括:根据与所述第二预测密度图对应的偏差校正分布矩阵的方差,确定所述第二预测密度图中各目标对象的比重;根据所述第二预测密度图中各目标对象的比重,确定所述系数损失。
根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行上述图像处理方法。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述图像处理方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的图像处理方法的流程图;
图2示出根据本公开的实施例的扩张卷积的示意图;
图3示出根据本公开的实施例的扩张卷积的示意图;
图4示出根据本公开的实施例的第一预测密度图;
图5示出根据本公开实施例的神经网络训练方法
图6示出根据本公开实施例的图像处理方法的应用示意图;
图7示出根据本公开实施例的图像处理装置的框图;
图8示出根据本公开实施例的电子装置的框图;
图9示出根据本公开实施例的电子装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开实施例的图像处理方法的流程图,所述图像处理方法可以由终端设备或其它处理设备执行,其中,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal DigitalAssistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。其它处理设备可为服务器或云端服务器等。在一些可能的实现方式中,该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,所述方法包括:
步骤S11,利用神经网络对待处理图像进行特征提取,得到所述待处理图像的第一特征图,其中,第一特征图基于所述待处理图像中每个目标对象的特征点的扩张率得到。
步骤S12,根据所述第一特征图得到第一预测密度图。
步骤S13,根据所述第一预测密度图,确定所述待处理图像中目标对象的数量;
其中,所述神经网络是将训练样本输入到初始神经网络生成与所述训练样本对应的预测密度图,纠正所述预测密度图中每个特征点的位置并得到网络损失,基于所述网络损失对所述初始神经网络进行更新得到。
根据本公开的实施例的图像处理方法,可通过扩张率减小目标对象在图像中的尺度对统计结果的影响,并通过第二预测密度图提高目标对象的特征点的位置精度,以提高统计精度。
在一种可能的实现方式中,待处理图像可以是任意图像,例如,可以是监控摄像头拍摄的监控视频帧、车载摄像头拍摄的路况图像或医学影像等,本公开对待处理图像的类别不做限制。待处理图像中可包括n个预设类别的目标对象(例如,行人、车辆、细胞等),其中,n为整数。当n=0时,待处理图像中不包括目标对象。
在一种可能的实现方式中,可对待处理图像中的目标对象的数量进行统计,例如,可确定待处理图像中包括10个行人,3个车辆,100个细胞等,本公开对待处理图像中的目标对象的类别和数量不做限制。
在一种可能的实现方式中,所述图像处理方法可通过神经网络实现,所述神经网络可包括特征提取网络、扩张卷积网络和卷积网络等。本公开对神经网络的结构不做限制。
在一种可能的实现方式中,在步骤S11中,可对待处理图像进行特征提取处理,得到所述待处理图像的第一特征图,第一特征图包括所述待处理图像中每个目标对象的特征点的扩张率。在示例中,可将待处理图像输入神经网络的特征提取网络以及扩张卷积网络进行特征提取处理,得到待处理图像的第一特征图。
在示例中,待处理图像中可包括多个目标对象,但由于拍摄视角等原因,目标对象之间的尺度存在差异。第一特征图中的目标对象的尺度也存在差异。如果直接根据第一特征图对目标对象的数量进行统计,则可能由于尺度差异造成统计误差。
在一种可能的实现方式中,可获取第一特征图中各目标对象的特征点(例如,表示目标对象所在位置的像素点)的扩张率,基于扩张率,对目标对象的数量进行统计,可减小统计误差。所述每个目标对象的特征点对应的扩张率为该目标对象对应的像素点所在区域的尺度相对于参考尺度的放大倍数。例如,参考尺度可以是与实际物体相同的尺度,或者待处理图像中任一目标对象的尺度等,本公开对参考尺度不做限制。
在一种可能的实现方式中,步骤S11可包括:对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及所述每个特征点对应的扩张率;根据所述每个目标对象的特征点和所述每个特征点对应的扩张率,得到第一特征图。
在一种可能的实现方式中,可首先通过特征提取网络获取待处理图像的特征图,并通过扩张卷积网络对特征图进行处理,得到所述第一特征图。所述对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象以及每个目标对象对应的扩张率,包括:对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及每个目标对象的尺度;将所述每个目标对象的尺度映射成每个所述目标对象的特征点的扩张率。
在示例中,可通过特征提取网络对待处理图像进行特征提取处理,得到所述特征图,并通过扩张卷积网络的卷积层对特征图进行处理,得到每个目标对象的尺度。并通过映射处理,将每个目标对象的尺度映射成每个所述目标对象的特征点的扩张率。在示例中,可通过映射处理得到扩张率图。所述扩张率图的尺寸与第一特征图一致,即,扩张率图的像素点的像素值可表示所述特征图中相同位置的像素点的扩张率。
进一步地,所述根据所述每个目标对象和所述每个目标对象对应的扩张率,得到第一特征图,包括:基于所述每个特征点对应的扩张率,对所述每个目标对象对应的特征点进行特征提取,得到所述第一特征图。例如,可根据各像素点的扩张率对各像素点进行卷积处理,例如,可通过各像素点的扩张率来代替卷积处理中固定的卷积核张量来进行卷积处理,以根据目标对象的尺度来调整感受野,得到采样精度较高的第一特征图。
图2示出根据本公开的实施例的扩张卷积的示意图,如图2所示,可通过扩张卷积网络对第一特征图进行自适应扩张卷积处理,即,通过各像素点的扩张率来代替卷积处理中固定的卷积核张量来进行卷积处理。扩张卷积网络可包括卷积层,卷积层可以是卷积核为3×3的二维卷积层,可将特征图进行降维,得到通道数为1,尺寸与特征图一致的扩张率图,即可得到特征图中各像素点的扩张率。
图3示出根据本公开的实施例的扩张卷积的示意图,如图3所示,可通过3×3的二维卷积层对特征图卷积处理。可得到特征图中各像素点的扩张率。并可通过各像素点的扩张率来代替卷积处理中固定的卷积核张量来进行卷积处理,得到第一特征图。例如,可根据扩张率,对特征图中的9个像素点、16个像素点或25个像素点进行卷积处理,而并非根据固定的卷积核张量,对固定数量的像素点进行卷积处理。
在一种可能的实现方式中,可通过以下公式(1)确定第一特征图中各像素点的像素值Fo(xn):
在一种可能的实现方式中,通过公式(1),可使用每个像素点的扩张率代替固定的卷积核张量d来进行卷积处理,得到第一特征图,在第一特征图中,包含各目标对象的尺度信息,有助于提高对目标对象的数量的统计精确度。
在一种可能的实现方式中,所述神经网络可包括多个扩张卷积网络,例如,包括N(N为正整数)个扩张卷积网络,其中,第k(k为小于或等于N的正整数)个扩张卷积网络可接收第k-1个扩张卷积网络输出的特征图,并进行自适应扩张卷积处理。第N个扩张卷积网络输出的特征图即为所述第一特征图。
在一种可能的实现方式中,在步骤S12中,可将所述第一特征图映射成第一预测密度图。例如,所述神经网络中的卷积网络可对第一特征图进行映射处理,得到待处理图像的第一预测密度图。在所述密度分布图中,每个目标对象均具有对应的密度分布,即,以目标对象的位置为密度分布的均值所在位置的密度分布。
图4示出根据本公开的实施例的第一预测密度图,如图4所示,每个目标对象均具有对应的密度分布(例如,高斯分布),图中以每个圆形,示意性地表示每个目标对象对应的密度分布,假设以目标对象上标注的一个特征点来代表该目标对象的位置,密度分布的均值所在位置(即图中每个圆形的圆心)即表示该特征点所在位置,或者说目标对象所在位置,在密度分布图中,目标对象对应的密度分布中任一像素点的像素值即为密度分布的概率密度,该概率密度代表目标对象(或者说目标对象的特征点)位于该位置的概率,而圆心(即,均值)是概率的最大值对应的位置。根据概率密度函数的性质,密度分布中,对概率密度进行求和的结果为1,因此,针对一个目标对象密度分布的所有像素点的像素值之和为1,以图4为例,即每个圆形覆盖的像素点的像素值之和为1。
由于在神经网络训练过程中,训练样本中对目标对象的位置标注可能存在偏差,为了保证所述卷积网络得到的第一预测密度图中目标对象的特征点的位置较准确,通过纠正每个特征点位置的第二预测密度图来纠正偏差,得到准确度较高的位置标注,以此来训练神经网络,并通过神经网络得到所述第一预测密度地图。
在一种可能的实现方式中,在步骤S13中,可根据第一预测密度图,对目标对象的数量进行统计。步骤S13可包括:对所述第一预测密度图中所述各目标对象对应的像素点进行求和,得到所述待处理图像中目标对象的数量。
在一种可能的实现方式中,由于针对一个目标对象密度分布的所有像素点的像素值之和为1,因此,可对密度分布图中的各像素点的像素值进行求和,得到的结果即为目标对象的数量。
承上述,对目标图像处理的过程中通过使用扩张卷积,得到各像素点的扩张率以实现对不同目标对象进行自适应扩张卷积,减小目标对象在图像中的尺度对统计结果的影响,并通过对密度分布图中像素点求和得到目标对象的数量,提高统计精度。
在一种可能的实现方式中,上述神经网络在使用前,需进行训练,以提升神经网络的性能。通常可使用人工标注有目标对象位置的样本图像进行训练,然而,目标对象的标注位置可能存在误差,例如,目标对象所在区域可包括多个像素点,而标注位置可能标注在目标对象所在区域中的任一个像素点,该标注位置可能不能准确表示目标对象的实际位置(例如,该标注位置不是目标对象的中心位置等),因此,在经过训练后,神经网络得到的密度分布图可能存在误差,影响统计结果的精度。因此,可对标注位置进行校正,以提高统计结果精度。
在一种可能的实现方式中,所述神经网络是将训练样本输入到初始神经网络生成与所述训练样本对应的预测密度图,纠正所述预测密度图中每个特征点的位置并得到网络损失,基于所述网络损失对所述初始神经网络进行更新得到。例如,可通过神经网络得到纠正每个特征点位置的第二预测密度图,并通过第二预测密度图训练神经网络,提升神经网络的性能。在示例中,训练样本可包括第一训练样本和第二训练样本。第一训练样本可对神经网络进行初步训练,获得第一状态神经网络,但上述情况可能影响第一状态神经网络的精度。因此,可通过第二训练样本训练神经网络,得到第三预测密度图,经过对第三预测密度图中特征点位置的纠正处理,得到第二预测密度图,进一步地,可基于第二预测密度图和第三预测密度图得到网络损失,并更新神经网络,使得神经网络的精度进一步提升。
示例性地,图5示出根据本公开实施例的神经网络训练方法,如图5所示,所述方法包括:
步骤S21:获取第一训练样本。其中,所述第一训练样本包括至少一个具有预设标签的目标对象。
步骤S22:使用所述第一训练本对初始状态神经网络进行训练,得到所述第一状态神经网络。
步骤S23:获取第二训练样本。其中,所述第二训练样本包括至少一个具有预设标签的目标对象。
步骤S24:使用第一状态神经网络对第二训练样本进行处理,得到第三预测密度图,所述第三预测密度图中具有与所述目标对象对应位置的像素点。
步骤S25:纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图;
步骤S26:基于所述第二预测密度图和所述第三预测密度图确定网络损失,以对所述第一状态神经网络进行更新,得到第二状态神经网络。
在一种可能的实现方式中,在步骤S21中,可获取第一训练样本,例如,可在监控视频的视频帧中选取包括至少一个目标对象的视频帧,并对目标对象进行标注,获得第一训练样本。
在一种可能的实现方式中,在步骤S22中,可通过第一样本图像训练初始状态的神经网络,例如,可将具有至少一个目标对象的标注信息的第一样本图像输入特征提取网络,并将特征提取网络的输出结果输入扩张卷积网络,进一步地,可通过卷积网络对扩张卷积网络的输出结果进行处理,得到预测密度分布图。
在一种可能的实现方式中,可通过标注信息生成密度分布图,例如,可将标注位置作为均值所在的位置,并可设定方差值,通过均值和方差值,可生成密度分布图。进一步地,可根据该生成的密度分布图与预测密度分布图确定神经网络的网络损失,并利用网络损失调整神经网络的网络参数。可迭代执行该训练步骤,得到第一训练状态的神经网络。例如,可在训练次数达到次数阈值,或者网络损失小于或等于预设阈值或者收敛于预设区间时,得到第一训练状态的神经网络。
在一种可能的实现方式中,在上述训练中,标注信息可能存在误差,因此,第一训练状态的神经网络得到的密度分布图可能存在误差,可对该误差进行校正,例如,可通过校正后的密度分布图训练神经网络,以纠正位置误差,提高神经网络的性能。
在一种可能的实现方式中,所述纠正每个像素点位置的第二预测密度图通过以下方式得到:使用第一状态神经网络对第二训练样本进行处理,得到第三预测密度图,其中,所述第二训练样本包括至少一个具有预设标签的目标对象,所述第三预测密度图中具有与所述目标对象对应位置的像素点;纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图;基于所述第二预测密度图和所述第三预测密度图确定网络损失,以对所述第一状态神经网络进行更新。
在一种可能的实现方式中,在步骤S23中,可获取第二训练样本,例如,可在监控视频的视频帧中选取包括至少一个目标对象的视频帧,并对目标对象进行标注,获得第二训练样本。
在一种可能的实现方式中,在步骤S24中,将第二样本图像输入所述第一训练状态的神经网络,得到第三预测密度图,其中,所述第二样本图像包括至少一个目标对象,且所述第二样本图像具有对目标对象的标注信息。
在一种可能的实现方式中,可将具有目标对象的标注信息的第二样本图像输入第一训练状态的神经网络,即,可将具有目标对象的标注信息的第二样本图像输入特征提取网络,并将特征提取网络的输出结果输入扩张卷积网络,进一步地,可通过卷积网络对扩张卷积网络的输出结果进行处理,得到第三预测密度图。其中,第一训练状态的神经网络输出的第三预测密度图可能存在误差。
在一种可能的实现方式中,在步骤S25中,可对第三预测密度图中所述像素点的位置误差进行校正,以减小神经网络的误差。纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图,包括:根据所述第二样本图像的标注信息、所述第三预测密度图和预设的方差值,得到第一个校正周期的校正分布矩阵;根据上一个校正周期的校正分布矩阵和所述第三预测密度图,确定当前校正周期的校正分布矩阵;在满足校正条件的情况下,将当前校正周期的校正分布矩阵确定为偏差校正分布矩阵;根据所述偏差校正分布矩阵确定所述第二预测密度图。
在一种可能的实现方式中,可通过多个校正周期来校正标注的误差。在第一个校正周期中,根据所述第二样本图像的标注信息、所述第三预测密度图和预设的方差值,得到第一个校正周期的校正分布矩阵,可包括:根据第二样本图像的标注信息和所述预设的方差值,得到第一校正矩阵;根据所述第一校正矩阵和所述第三预测密度图,得到第一个校正周期的校正分布矩阵。
在一种可能的实现方式中,可将第二样本图像的标注位置作为均值,并可预设方差值(例如,0.5),通过均值和方差值,可生成与各目标对象对应的第一校正矩阵,即,将每个目标对象的标注位置作为该目标对象对应的第一校正矩阵的均值,并将预设方差值作为该目标对象对应的第一校正矩阵的方差。其中,目标对象对应的第一校正矩阵中的每个元素的值代表该位置处的概率密度,该概率密度的分布方式满足上文确定的第一校正矩阵的均值和方差。在一种可能的实现方式中,根据所述第一校正矩阵和所述第三预测密度图,得到第一个校正周期的校正分布矩阵,包括:将所述第一校正矩阵和所述第三预测密度图进行矩阵乘法,得到第一个校正周期的校正分布矩阵。进一步地,可确定第一个校正周期的校正分布矩阵的均值和方差。
在一种可能的实现方式中,可根据第一个校正周期校正分布矩阵来进行第二个校正周期。在示例中,可利用第一个校正周期的校正分布矩阵确定第二个校正周期中的第一校正矩阵,例如,将第一个周期的校正分布矩阵作为定第二个校正周期中的第一校正矩阵,或者根据第一个周期的校正分布矩阵重新计算第一校正矩阵。并利用该第一校正矩阵与第三预测密度图进行矩阵乘法,以得到第二个校正周期的校正分布矩阵。
在一种可能的实现方式中,以第t个校正周期为例,可利用前一个校正周期(第t-1个周期)的校正分布矩阵确定第t个校正周期中的第一校正矩阵,例如,将第t-1个周期的校正分布矩阵作为定第t个校正周期中的第一校正矩阵,或者根据第t-1个周期的校正分布矩阵重新计算第一校正矩阵。在计算每个目标对象对应的第一校正矩阵时,可利用所有目标对象的对应的第一校正矩阵进行计算。在示例中,可根据以下公式(2)确定第t个校正周期中的各目标对象的第一校正矩阵:
其中,为任一目标对象在第t个周期的第一校正矩阵在(m,n)位置处的元素,为该目标对象在第t-1个周期的校正分布矩阵在(m,n)位置处的元素,为所有目标对象(例如K个目标对象)在第t-1个周期的校正分布矩阵在(m,n)位置处的元素值之和。
在一种可能的实现方式中,可利用第一校正矩阵与第三预测密度图进行矩阵乘法,以得到第t个周期的校正分布矩阵。可通过以下公式(3)确定各目标对象的校正分布矩阵:
其中,Dest(xn)为第三预测密度图中的第n个像素点的像素值,为该目标对象在第t个周期的校正分布矩阵在(m,n)位置处的元素。进一步地,还可确定校正分布矩阵的均值和方差,以用于第t+1个校正周期中。
在一种可能的实现方式中,可迭代执行上述校正步骤,并在满足校正条件的情况下,将当前校正周期的校正分布矩阵确定为所述偏差校正分布矩阵,并可根据偏差校正分布矩阵确定第二预测密度图。所述校正条件可以是校正次数达到预设的次数阈值,例如,次数阈值为2,即,在进行两次上述校正步骤后,可得到偏差校正分布矩阵。该偏差校正分布矩阵可用于得到第二预测密度图,即,对标注误差进行校正后的密度分布图。
在一种可能的实现方式中,跟据所述偏差校正分布矩阵确定所述第二预测密度图,包括:确定所述偏差校正分布矩阵的均值和方差值;根据所述偏差校正分布矩阵的均值和方差值,确定所述第二预测密度图。
在一种可能的实现方式中,偏差校正分布矩阵为对标注误差进行校正后的密度分布矩阵,对于每一个目标对象对应的偏差校正分布矩阵,可将该矩阵对应的密度分布的均值(或者说,最大概率值对应的位置)作为第二预测密度图中的均值,即,目标对象的位置,并利用该矩阵的方差来生成该目标对象对应的概率密度分布图,将各目标对象的概率密度分布图集合起来,就形成了反映各个目标对象的概率密度分布的第二预测密度图。
在一种可能的实现方式中,在步骤S26中,第二预测密度图即为对标注误差校正后的概率密度分布图,可利用该第二预测密度图与神经网络生成的第三预测密度图,以及偏差校正分布矩阵,确定神经网络的网络损失。
在一种可能的实现方式中,基于所述第二预测密度图和所述第三预测密度图确定网络损失,包括:根据所述第二预测密度图和所述第三预测密度图,确定密度图损失;根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失;根据所述系数损失和所述密度图损失,确定所述网络损失。
在一种可能的实现方式中,可根据第二预测密度图与第三预测密度图来确定密度图损失,例如,可根据第二预测密度图与第三预测密度图中的像素点的像素值的差异来确定密度图损失。
在示例中,可根据以下公式(4)确定密度图损失Ldm:
其中,N为第二预测密度图或第三预测密度图中像素点的数量,Dest(xn)为第三预测密度图中的第n个像素点的像素值,Dgt(xn)为第二预测密度图中的第n个像素点的像素值。
在一种可能的实现方式中,根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失,包括:根据与所述第二预测密度图对应的偏差校正分布矩阵的方差,确定所述第二预测密度图中各目标对象的比重;根据所述第二预测密度图中各目标对象的比重,确定所述系数损失。在示例中,由于神经网络可能出现误差,因此,各概率分布之和可能不为1,或者,在两个或多个目标对象的概率密度分布重叠的区域的像素点(例如,目标对象A的概率密度分布的区域包括像素点(m,n),目标对象B的概率密度分布的区域也包括像素点(m,n),则像素点(m,n)的像素值为目标对象A的概率密度分布在像素点(m,n)的概率值与目标对象B的概率密度分布在像素点(m,n)的概率值之和),可能未能准确地区分每个目标对象在该像素点处的概率值,造成各目标对象的概率分布比重不一致。由于目标对象的概率密度分布在特定像素点的概率值可通过均值的位置以及方差来确定,因此,可通过各偏差校正分布矩阵的方差确定第二预测密度图中各目标对象的比重。
在示例中,方差可表示概率分布的集中程度,方差越小,则集中程度越高,即,概率分布越集中,均值以及均值附近的像素值较大,距离均值较远的像素值较小。可根据方差来确定某个目标对象偏差校正分布矩阵的各元素的值,并进行求和,并与目标对象的数量相比,确定该目标对象的比重。
在示例中,每个目标对象的密度分布的概率密度之和均为1,则在包括K个目标对象的第二样本图像中,每个目标对象的偏差校正分布矩阵的元素之和相对于所有目标对象的偏差校正分布矩阵的元素之和所占的比例均应为但由于误差,某个目标对象的比重可能不为可通过公式(5)来缩小各目标对象的偏差校正分布矩阵的元素之和所占比重与之间的差距。
在一种可能的实现方式中,可根据所述第二预测密度图中各目标对象的比重,确定系数损失,例如可根据以下公式(5)偏差校正分布矩阵来确定系数损失Lco:
在一种可能的实现方式中,可根据系数损失Lco和密度图损失Ldm,确定所述网络损失,例如,可根据以下公式(6)来确定网络损失L:
L=λ1Ldm+λ2Lco (6)
其中,λ1和λ2分别为密度图损失Ldm和系数损失Lco的权重,在示例中,λ1=λ2=1,本公开对λ1和λ2的取值不做限制。
在一种可能的实现方式中,可根据网络损失L来训练第一训练状态的神经网络,例如,可将网络损失L进行反向传播,调整第一状态神经网络的网络参数。
在一种可能的实现方式中,可迭代执行上述训练步骤,即,多次输入第二样本图像进行训练,并在每次训练过程中,均对标注误差进行校正,以提高训练的精度。进一步地,可在满足训练条件时,得到训练后的神经网络。例如,训练条件可包括训练次数,即,在训练次数达到次数阈值时完成训练,得到训练后的神经网络。又例如,训练条件可包括网络损失小于或等于预设的损失阈值,或网络损失收敛于预设区间,在满足该训练条件时,可得到训练后的神经网络。并可将训练后的神经网络用于得到图像中的目标对象的密度分布图,并对目标对象的数量进行统计的过程中。
根据本公开的实施例的图像处理方法,可通过自适应扩张卷积,减小目标对象在图像中的尺度对统计结果的影响,并通过对密度分布图求和得到目标对象的数量,提高统计精度。进一步地,可通过第二预测密度图对标注信息的校正,减少标注误差,提高统计精度。
图6示出根据本公开实施例的图像处理方法的应用示意图,如图6所示,可使用特征提取网络、扩张卷积网络和卷积网络来进行上述图像处理方法。在使用神经网络前,可首先对神经网络进行训练。
在一种可能的实现方式中,可首先使用第一样本图像(具有对目标对象的标注)训练所述神经网络,得到第一训练状态的神经网络。由于标注可能存在误差,因此可使用第二样本图像继续对神经网络进行训练,在校正标注误差的同时,可提高神经网络的性能,提高统计精度。
在一种可能的实现方式中,可将具有目标对象的标注信息的第二样本图像输入第一训练状态的神经网络,得到第三预测密度图。可通过多个校正周期来校正标注的误差。在第一个校正周期中,可将第二样本图像的标注位置作为均值,并可预设方差值(例如,0.5),通过均值和方差值,可生成与各目标对象对应的第一校正矩阵,并可将第一校正矩阵与第三预测密度图进行矩阵乘法,得到第一个校正周期的校正分布矩阵。
在一种可能的实现方式中,以第t个校正周期为例,可利用前一个校正周期(第t-1个周期)的校正分布矩阵确定第t个校正周期中的第一校正矩阵,例如,可使用公式(2)来得到第t个校正周期的第一校正矩阵,并使用第t个校正周期的第一校正矩阵与第三预测密度图进行矩阵乘法得到第t个校正周期的校正分布矩阵。
在一种可能的实现方式中,在校正次数达到次数阈值(例如,2次)时,可将当前校正周期的校正分布矩阵确定为偏差校正分布矩阵,并利用各目标对象的偏差校正分布矩阵得到第二预测密度图。
在一种可能的实现方式中,可利用第二预测密度图与第三预测密度图以及公式(4)确定密度图损失Ldm,并利用偏差校正分布矩阵与公式(5)确定系数损失Lco。进一步地,可对密度图损失Ldm和确定系数损失Lco进行加权求和,得到网络损失L。
在一种可能的实现方式中,可利用网络损失L更新上述第一状态神经网络,并在满足训练条件时得到第二状态神经网络,即为得到训练后的神经网络。该神经网络可用于得到待处理图像的密度分布图,并统计待处理图像中目标对象的数量。
结合本申请图1,可以理解的是该神经网络在应用过程中将待处理图像输入第二状态神经网络中,即,首先通过特征提取网络得到待处理图像的特征图,并通过多个扩张卷积网络(例如,6个扩张卷积网络)进行处理,得到第一特征图,提高统计精度。进一步地,可通过卷积网络输出待处理图像的第一预测密度图。
在一种可能的实现方式中,在第一预测密度图中,目标对象对应的概率密度分布中任一像素点的像素值即为概率密度分布的概率值,对概率密度分布进行求和的结果为1,因此,针对一个目标对象概率密度分布的所有像素点的像素值之和为1。可对第一预测密度图中的各像素点的像素值进行求和处理,得到所述待处理图像中目标对象的数量。
在一种可能的实现方式中,所述图像处理方法可用于图像分析、安防监控,城市交通等领域,可对图像中的目标对象的数量进行统计,以进行进一步的决策,例如,判断交通拥堵状况,确定客流量等。本公开对图像处理方法的应用领域不做限制。
图7示出根据本公开实施例的图像处理装置的框图,如图6所示,图像处理装置的框图,包括:
特征提取模块31,用于利用神经网络对待处理图像进行特征提取,得到所述待处理图像的第一特征图,其中,第一特征图基于所述待处理图像中每个目标对象的特征点的扩张率得到;预测模块22,用于根据所述第一特征图得到第一预测密度图;统计模块23,用于根据所述第一预测密度图,确定所述待处理图像中目标对象的数量;其中,所述神经网络是将训练样本输入到初始神经网络生成与所述训练样本对应的预测密度图,纠正所述预测密度图中每个特征点的位置并得到网络损失,基于所述网络损失对所述初始神经网络进行更新得到。
在一种可能的实现方式中,所述特征提取模块31被进一步配置为:对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及所述每个特征点对应的扩张率;根据所述每个目标对象的特征点和所述每个特征点对应的扩张率,得到第一特征图。
在一种可能的实现方式中,所述每个目标对象的特征点对应的扩张率为该目标对象对应的像素点所在区域的尺度相对于参考尺度的放大倍数;所述特征提取模块31被进一步配置为:对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及每个目标对象的所述尺度;将每个目标对象的所述尺度映射成每个所述目标对象的特征点对应的扩张率;所述特征提取模块31被进一步配置为:基于所述每个特征点对应的扩张率,对所述每个目标对象对应的特征点进行特征提取,得到所述第一特征图。
在一种可能的实现方式中,所述统计模块33被进一步配置为:对所述第一预测密度图中所述各目标对象对应的像素点进行求和,得到所述待处理图像中目标对象的数量。
在一种可能的实现方式中,所述神经网络通过以下装置训练得到:处理模块,用于使用第一状态神经网络对第二训练样本进行处理,得到第三预测密度图,其中,所述第二训练样本包括至少一个具有预设标签的目标对象,所述第三预测密度图中具有与所述目标对象对应位置的像素点;纠正模块,用于纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图;更新模块,用于基于所述第二预测密度图和所述第三预测密度图确定网络损失,以对所述第一状态神经网络进行更新。
在一种可能的实现方式中,所述纠正模块被进一步配置为:根据所述第二样本图像的标注信息、所述第三预测密度图和预设的方差值,得到第一个校正周期的校正分布矩阵;根据上一个校正周期的校正分布矩阵和所述第三预测密度图,确定当前校正周期的校正分布矩阵;在满足校正条件的情况下,将当前校正周期的校正分布矩阵确定为偏差校正分布矩阵;根据所述偏差校正分布矩阵确定所述第二预测密度图。
在一种可能的实现方式中,所述纠正模块被进一步配置为:根据所述第二预测密度图和所述第三预测密度图,确定密度图损失;根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失;根据所述系数损失和所述密度图损失,确定所述网络损失。
在一种可能的实现方式中,根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失,包括:根据与所述第二预测密度图对应的偏差校正分布矩阵的方差,确定所述第二预测密度图中各目标对象的比重;根据所述第二预测密度图中各目标对象的比重,确定所述系数损失。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了图像处理装置、电子设备、系统、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种图像处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述图像处理方法。
图8示出根据本公开实施例的一种电子设备的框图。例如,电子设备40可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等终端。电子设备可以被提供为终端、服务器或其它形态的设备。
参照图8,电子设备40可以包括以下一个或多个组件:处理组件41,存储器42,电源组件43,多媒体组件44,音频组件45,输入/输出(I/O)的接口46,传感器组件47,以及通信组件48。
处理组件41通常控制电子设备40的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件41可以包括一个或多个处理器49来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件41可以包括一个或多个模块,便于处理组件41和其他组件之间的交互。例如,处理组件41可以包括多媒体模块,以方便多媒体组件44和处理组件41之间的交互。
存储器42被配置为存储各种类型的数据以支持在电子设备40的操作。这些数据的示例包括用于在电子设备40上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器42可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件43为电子设备40的各种组件提供电力。电源组件43可以包括电源管理系统,一个或多个电源,及其他与为电子设备40生成、管理和分配电力相关联的组件。
多媒体组件44包括在所述电子设备40和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件44包括一个前置摄像头和/或后置摄像头。当电子设备40处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件45被配置为输出和/或输入音频信号。例如,音频组件45包括一个麦克风(MIC),当电子设备40处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器42或经由通信组件48发送。在一些实施例中,音频组件45还包括一个扬声器,用于输出音频信号。
I/O接口46为处理组件41和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件47包括一个或多个传感器,用于为电子设备40提供各个方面的状态评估。例如,传感器组件47可以检测到电子设备40的打开/关闭状态,组件的相对定位,例如所述组件为电子设备40的显示器和小键盘,传感器组件47还可以检测电子设备40或电子设备40一个组件的位置改变,用户与电子设备40接触的存在或不存在,电子设备40方位或加速/减速和电子设备40的温度变化。传感器组件47可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件47还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件47还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件48被配置为便于电子设备40和其他设备之间有线或无线方式的通信。电子设备40可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件48经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件48还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备40可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器42,上述计算机程序指令可由电子设备40的处理器49执行以完成上述方法。
图9示出根据本公开实施例的一种电子设备50的框图。例如,电子设备50可以被提供为一服务器。参照图9,电子设备50包括处理组件51,其进一步包括一个或多个处理器,以及由存储器52所代表的存储器资源,用于存储可由处理组件51的执行的指令,例如应用程序。存储器52中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件51被配置为执行指令,以执行上述方法。
电子设备50还可以包括一个电源组件53被配置为执行电子设备50的电源管理,一个有线或无线网络接口55被配置为将电子设备50连接到网络,和一个输入输出(I/O)接口54。电子设备50可以操作基于存储在存储器52的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器52,上述计算机程序指令可由电子设备50的处理组件51执行以完成上述方法。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任一实施例提供的图像处理方法的指令。
本公开实施例还提供了另一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的图像处理方法的操作。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (11)
1.一种图像处理方法,其特征在于,包括:
利用神经网络对待处理图像进行特征提取,得到所述待处理图像的第一特征图,其中,第一特征图基于所述待处理图像中每个目标对象的特征点的扩张率得到;
根据所述第一特征图得到第一预测密度图;
根据所述第一预测密度图,确定所述待处理图像中目标对象的数量;
其中,所述神经网络是将训练样本输入到初始神经网络生成与所述训练样本对应的预测密度图,纠正所述预测密度图中每个特征点的位置并得到网络损失,基于所述网络损失对所述初始神经网络进行更新得到。
2.根据权利要求1所述的方法,其特征在于,所述对待处理图像进行特征提取,得到所述待处理图像的第一特征图,包括:
对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及所述每个特征点对应的扩张率;
根据所述每个目标对象的特征点和所述每个特征点对应的扩张率,得到第一特征图。
3.根据权利要求2所述的方法,其特征在于,所述每个目标对象的特征点对应的扩张率为该目标对象对应的像素点所在区域的尺度相对于参考尺度的放大倍数;
所述对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及每个特征点对应的扩张率,包括:
对所述待处理图像进行特征提取,得到所述待处理图像中的每个目标对象的特征点以及每个目标对象的所述尺度;
将每个目标对象的所述尺度映射成每个所述目标对象的特征点对应的扩张率;
根据所述每个目标对象的特征点和所述每个特征点对应的扩张率,得到第一特征图,包括:
基于所述每个特征点对应的扩张率,对所述每个目标对象对应的特征点进行特征提取,得到所述第一特征图。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测密度图,确定所述待处理图像中目标对象的数量,包括:
对所述第一预测密度图中所述各目标对象对应的像素点进行求和,得到所述待处理图像中目标对象的数量。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述神经网络通过以下方式训练得到:
使用第一状态神经网络对第二训练样本进行处理,得到第三预测密度图,其中,所述第二训练样本包括至少一个具有预设标签的目标对象,所述第三预测密度图中具有与所述目标对象对应位置的像素点;
纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图;
基于所述第二预测密度图和所述第三预测密度图确定网络损失,以对所述第一状态神经网络进行更新。
6.根据权利要求5所述的方法,其特征在于,所述纠正第三预测密度图中所述像素点的位置,得到所述第二预测密度图,包括:
根据所述第二样本图像的标注信息、所述第三预测密度图和预设的方差值,得到第一个校正周期的校正分布矩阵;
根据上一个校正周期的校正分布矩阵和所述第三预测密度图,确定当前校正周期的校正分布矩阵;
在满足校正条件的情况下,将当前校正周期的校正分布矩阵确定为偏差校正分布矩阵;
根据所述偏差校正分布矩阵确定所述第二预测密度图。
7.根据权利要求5所述的方法,其特征在于,所述基于所述第二预测密度图和所述第三预测密度图确定网络损失,包括:
根据所述第二预测密度图和所述第三预测密度图,确定密度图损失;
根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失;
根据所述系数损失和所述密度图损失,确定所述网络损失。
8.根据权利要求7所述的方法,其特征在于,所述根据与所述第二预测密度图对应的偏差校正分布矩阵,确定系数损失,包括:
根据与所述第二预测密度图对应的偏差校正分布矩阵的方差,确定所述第二预测密度图中各目标对象的比重;
根据所述第二预测密度图中各目标对象的比重,确定所述系数损失。
9.一种图像处理装置,其特征在于,包括:
特征提取模块,用于利用神经网络对待处理图像进行特征提取,得到所述待处理图像的第一特征图,其中,第一特征图基于所述待处理图像中每个目标对象的特征点的扩张率得到;
预测模块,用于根据所述第一特征图得到第一预测密度图;
统计模块,用于根据所述第一预测密度图,确定所述待处理图像中目标对象的数量;
其中,所述神经网络是将训练样本输入到初始神经网络生成与所述训练样本对应的预测密度图,纠正所述预测密度图中每个特征点的位置并得到网络损失,基于所述网络损失对所述初始神经网络进行更新得到。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至8中任意一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010334197.8A CN111523555A (zh) | 2020-04-24 | 2020-04-24 | 图像处理方法及装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010334197.8A CN111523555A (zh) | 2020-04-24 | 2020-04-24 | 图像处理方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111523555A true CN111523555A (zh) | 2020-08-11 |
Family
ID=71903519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010334197.8A Withdrawn CN111523555A (zh) | 2020-04-24 | 2020-04-24 | 图像处理方法及装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523555A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102300A (zh) * | 2020-09-18 | 2020-12-18 | 青岛商汤科技有限公司 | 计数方法及装置、电子设备和存储介质 |
CN112800930A (zh) * | 2021-01-25 | 2021-05-14 | 北京市商汤科技开发有限公司 | 非机动车计数方法、装置、设备及存储介质 |
CN113822314A (zh) * | 2021-06-10 | 2021-12-21 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858424A (zh) * | 2019-01-25 | 2019-06-07 | 佳都新太科技股份有限公司 | 人群密度统计方法、装置、电子设备和存储介质 |
CN110853025A (zh) * | 2019-11-15 | 2020-02-28 | 苏州大学 | 基于多列残差空洞卷积神经网络的人群密度预测方法 |
US20200074186A1 (en) * | 2018-08-28 | 2020-03-05 | Beihang University | Dense crowd counting method and apparatus |
CN111008606A (zh) * | 2019-12-10 | 2020-04-14 | 上海商汤智能科技有限公司 | 图像预测方法及装置、电子设备和存储介质 |
-
2020
- 2020-04-24 CN CN202010334197.8A patent/CN111523555A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200074186A1 (en) * | 2018-08-28 | 2020-03-05 | Beihang University | Dense crowd counting method and apparatus |
CN109858424A (zh) * | 2019-01-25 | 2019-06-07 | 佳都新太科技股份有限公司 | 人群密度统计方法、装置、电子设备和存储介质 |
CN110853025A (zh) * | 2019-11-15 | 2020-02-28 | 苏州大学 | 基于多列残差空洞卷积神经网络的人群密度预测方法 |
CN111008606A (zh) * | 2019-12-10 | 2020-04-14 | 上海商汤智能科技有限公司 | 图像预测方法及装置、电子设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102300A (zh) * | 2020-09-18 | 2020-12-18 | 青岛商汤科技有限公司 | 计数方法及装置、电子设备和存储介质 |
CN112800930A (zh) * | 2021-01-25 | 2021-05-14 | 北京市商汤科技开发有限公司 | 非机动车计数方法、装置、设备及存储介质 |
CN113822314A (zh) * | 2021-06-10 | 2021-12-21 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
CN113822314B (zh) * | 2021-06-10 | 2024-05-28 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647834B (zh) | 人脸和人手关联检测方法及装置、电子设备和存储介质 | |
CN110378976B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110210535B (zh) | 神经网络训练方法及装置以及图像处理方法及装置 | |
US11481574B2 (en) | Image processing method and device, and storage medium | |
CN109522910B (zh) | 关键点检测方法及装置、电子设备和存储介质 | |
CN109697734B (zh) | 位姿估计方法及装置、电子设备和存储介质 | |
CN110287874B (zh) | 目标追踪方法及装置、电子设备和存储介质 | |
CN111507408B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
TWI773945B (zh) | 錨點確定方法、電子設備和儲存介質 | |
CN109919300B (zh) | 神经网络训练方法及装置以及图像处理方法及装置 | |
CN109615006B (zh) | 文字识别方法及装置、电子设备和存储介质 | |
CN110909815A (zh) | 神经网络训练、图像处理方法、装置及电子设备 | |
CN111523555A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
CN110543849B (zh) | 检测器的配置方法及装置、电子设备和存储介质 | |
CN109903252B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111539410A (zh) | 字符识别方法及装置、电子设备和存储介质 | |
CN113139484B (zh) | 人群定位方法及装置、电子设备和存储介质 | |
CN111523599B (zh) | 目标检测方法及装置、电子设备和存储介质 | |
CN111311588B (zh) | 重定位方法及装置、电子设备和存储介质 | |
CN109635926B (zh) | 用于神经网络的注意力特征获取方法、装置及存储介质 | |
CN113807498B (zh) | 模型扩展方法及装置、电子设备和存储介质 | |
CN111988622B (zh) | 视频预测方法及装置、电子设备和存储介质 | |
CN113283343A (zh) | 人群定位方法及装置、电子设备和存储介质 | |
CN113537350B (zh) | 图像处理方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200811 |
|
WW01 | Invention patent application withdrawn after publication |