CN108268863A - 一种图像处理方法、装置和计算机存储介质 - Google Patents
一种图像处理方法、装置和计算机存储介质 Download PDFInfo
- Publication number
- CN108268863A CN108268863A CN201810150684.1A CN201810150684A CN108268863A CN 108268863 A CN108268863 A CN 108268863A CN 201810150684 A CN201810150684 A CN 201810150684A CN 108268863 A CN108268863 A CN 108268863A
- Authority
- CN
- China
- Prior art keywords
- image data
- pedestrian
- feature
- deep neural
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 50
- 230000015654 memory Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012986 modification Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000005286 illumination Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000036544 posture Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 230000001537 neural effect Effects 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图像处理方法、装置和计算机存储介质,所述方法包括:通过第一深度神经网络提取第一图像数据的行人特征,通过第二深度神经网络提取至少一个第二图像数据的目标特征;采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种图像处理方法、装置和计算机存储介质。
背景技术
人物再识别是计算机视觉领域研究的一个热门研究课题,旨在从大型图库数据库中识别同一人物的图像。现有的人物再识别方案多是对图像中的人物进行身份识别,具体是通过特征提取进行身份识别,通过身份相似性匹配的方式识别是否是同一人物。现有提取的特征并非是“纯粹”的特征,很大程度上受非身份信息的影响,例如受人物姿态的影响,从而会导致处于同一姿态的不同行人往往被判定为同一个人。
然而,现有技术中并没有直观有效的方法评估提取的特征是否“纯粹”,特征是通过神经网络产生的,通过数据编码表示,并不能通过数据编码获知其表示的信息,即无法将特征可视化,因此也无法评估特征是否“纯粹”,也即无法发现模型中存在的隐形问题,模型性能的提升空间较小。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种图像处理方法、装置和计算机存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种图像处理方法,所述方法包括:
通过第一深度神经网络提取第一图像数据的行人特征,通过第二深度神经网络提取至少一个第二图像数据的目标特征;
采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;
根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
上述方案中,所述行人特征和所述行人的姿态特征对应于同一行人。
上述方案中,所述目标特征包括行人的姿态特征、环境特征和光照特征中的至少一种特征。
上述方案中,所述根据所述第三图像数据和所述第二图像数据确定所述第三图像数据的分类结果,包括:
计算对应于同一目标特征的所述第三图像数据和所述第二图像数据的差异度;
当所述差异度高于预设阈值时,确定所述第三图像数据的分类结果为假分类;或者,
当所述差异度不高于所述预设阈值时,确定所述第三图像数据的分类结果为真分类。
上述方案中,所述基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络,包括:
根据所述分类结果修正所述反卷积网络、所述深度神经第一网络、所述第二深度神经网络中的至少一个网络的参数;
其中,假分类的分类结果的参数修改幅度高于真分类的分类结果的参数修改幅度。
上述方案中,所述第一图像数据和所述第二图像数据为不同图像采集设备采集的图像数据。
上述方案中,所述采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据,包括:
对所述行人特征进行卷积处理,获得卷积处理后的行人特征;
基于所述反卷积网络,生成所述卷积处理后的行人特征、所述目标特征对应的第三图像数据。
上述方案中,所述方法还包括:获得目标图像数据;
通过所述第一网络提取所述目标图像数据的第一行人特征;
通过所述第一网络提取图像集包括的至少一个待比对图像数据的第二行人特征;
分别计算所述第一行人特征和至少一个第二行人特征的相似度;
基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据;
基于所述至少一个待比对图像数据对应的行人身份确定所述目标图像数据的行人身份信息。
上述方案中,所述基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据之后,所述方法还包括:
确定所述目标图像数据对应的第一行人身份,确定所述至少一个待比对图像数据对应的至少一个第二行人身份;
比较所述第一行人身份和所述至少一个第二行人身份是否相同;
基于比较结果确定行人检索置信度。
本发明实施例还提供了一种图像处理装置,所述装置包括:行人特征提取单元、目标特征提取单元、生成单元和训练单元;其中,
所述行人特征提取单元,用于通过第一深度神经网络提取第一图像数据的行人特征;
所述目标特征提取单元,用于通过第二深度神经网络提取至少一个第二图像数据的目标特征;
所述生成单元,用于采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;
所述训练单元,用于根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
上述方案中,所述行人特征和所述行人的姿态特征对应于同一行人。
上述方案中,所述目标特征包括行人的姿态特征、环境特征和光照特征中的至少一种特征。
上述方案中,所述训练单元,用于计算对应于同一目标特征的所述第三图像数据和所述第二图像数据的差异度;当所述差异度高于预设阈值时,确定所述第三图像数据的分类结果为假分类;或者,当所述差异度不高于所述预设阈值时,确定所述第三图像数据的分类结果为真分类。
上述方案中,所述训练单元,用于根据所述分类结果修正所述反卷积网络、所述深度神经第一网络、所述第二深度神经网络中的至少一个网络的参数;其中,假分类的分类结果的参数修改幅度高于真分类的分类结果的参数修改幅度。
上述方案中,所述第一图像数据和所述第二图像数据为不同图像采集设备采集的图像数据。
上述方案中,所述生成单元,用于对所述行人特征进行卷积处理,获得卷积处理后的行人特征;基于所述反卷积网络,生成所述卷积处理后的行人特征、所述目标特征对应的第三图像数据。
上述方案中,所述装置还包括:获取单元和计算确定单元;其中,
所述获取单元,用于获得目标图像数据;
所述行人特征提取单元,用于通过所述第一网络提取所述目标图像数据的第一行人特征;还用于通过所述第一网络提取图像集包括的至少一个待比对图像数据的第二行人特征;
所述计算确定单元,用于分别计算所述第一行人特征和至少一个第二行人特征的相似度;基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据;基于所述至少一个待比对图像数据对应的行人身份确定所述目标图像数据的行人身份信息。
上述方案中,所述计算确定单元,还用于确定所述目标图像数据对应的第一行人身份,确定所述至少一个待比对图像数据对应的至少一个第二行人身份;比较所述第一行人身份和所述至少一个第二行人身份是否相同;基于比较结果确定行人检索置信度。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机指令,该指令被处理器执行时实现本发明实施例所述方法的步骤。
本发明实施例还提供了一种图像处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述方法的步骤。
本发明实施例提供的图像处理方法、装置和计算机存储介质,所述方法包括:通过第一深度神经网络提取第一图像数据的行人特征,通过第二深度神经网络提取至少一个第二图像数据的目标特征;采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。采用本发明实施例的技术方案,通过可视化方式生成的图像来呈现特征数据,便于评估网络模型的能力,发现网络模型中存在的隐形问题,有效的为模型分析评估、优化等提供了支持,从而可以大大提升模型性能;另外,通过生成的图像与原始图像的分类结果反馈网络,修正网络参数,便于提升网络性能,使提取的行人特征更加“纯粹”,弱化目标特征(例如姿态特征)的影响。
附图说明
图1为本发明实施例的图像处理方法的流程示意图;
图2a和图2b分别为本发明实施例的图像处理方法中的姿态特征示意图;
图3为本发明实施例的图像处理方法的一种处理架构应用示意图;
图4为本发明实施例的图像处理装置的一种组成结构示意图;
图5为本发明实施例的图像处理装置的另一种组成结构示意图;
图6为本发明实施例的图像处理装置的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
实施例一
本发明实施例提供了一种图像处理方法。图1为本发明实施例的图像处理方法的流程示意图;如图1所示,所述方法包括:
步骤101:通过第一深度神经网络提取第一图像数据的行人特征,通过第二深度神经网络提取至少一个第二图像数据的目标特征。
步骤102:采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据。
步骤103:根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
本实施例中,预先获得对应于目标行人的至少一个第一图像数据,以及至少一个第二图像数据,所述至少一个第一图像数据和所述至少一个第二图像数据中包括目标行人。即,所述行人特征和所述行人的姿态特征对应于同一行人。可以理解,第一图像数据和第二图像数据均为属于同一行人的图像数据,第一图像数据用于进行行人特征的提取,第二图像数据用于进行目标特征的提取。
本实施例中,所述目标特征包括行人的姿态特征、环境特征和光照特征中的至少一种特征。作为一种示例,第二图像数据中的行人的姿态可不同于第一图像数据中的行人的姿态。在一种实施方式中,所述第一图像数据和所述第二图像数据为不同图像采集设备采集的图像数据。
本实施例中,所述第一图像数据的行人特征包括但不限于以下特征的至少之一:人脸特征、人物形态特征等等;其中,人物形态特征可包括以下至少之一:人物轮廓特征、人物发型特征、人物服饰特征等等;人物发型特征表征人物的头发颜色和/或形状等特征、人物服饰特征表征任务的服装和/或配饰的形状、颜色以及纹理等特征。其中,可通过预先训练获得的第一深度神经网络对所述第一图像数据的行人特征进行提取,可通过预先训练获得的第二深度神经网络对第二图像数据的目标特征进行提取。
本发明实施例中,所述通过第一深度神经网络提取第一图像数据的行人特征,包括:基于第一深度神经网络获得所述第一图像数据对应的行人特征;其中,所述基于第一深度神经网络获得所述第一图像数据对应的行人特征,包括:以所述第一深度神经网络的特定中间层的输出结果作为所述第一图像数据对应的行人特征。
实际应用中,第一深度神经网络可通过深度学习网络实现,所述深度学习网络例如可以采用ResNet架构。可将深度学习网络中的某一特定层作为行人特征提取层,将该行人特征提取层的输出数据作为行人特征,例如将深度学习网络的池化(Pooling)层的输出作为提取的行人特征。以ResNet50架构为例,将最终完全连通层(final fully-connectedlayer)之前的2048维特征向量压缩为512维特征向量;将最终完全连通层的输出神经元数量修改为行人特征的数量;最终完全连通层之前的512维特征向量作为图像人物之间相似性度量的行人特征。
图2a和图2b分别为本发明实施例的图像处理方法中的姿态特征示意图;如图2a所示,分别为几种姿态的示意图,从图中可以看出,图像(1)与图像(2)和图像(3)均为行人朝左的姿态,可看作为相似姿态;图像(4)和图像(5)为行人朝后的姿态,可将图像(1)与图像(4)、图像(5)归属于不相似姿态。由此可见,对于处于相同姿态的图像,如图像(1)至图像(3),很难区分图像中的行人是否为同一行人。进一步可如图2b所示为例,可将姿态分为姿态(1)至姿态(6)中的几种姿态,比如姿态(1)为行人朝前姿态;姿态(2)为行人朝后姿态,等等,当然不限于图2b中所示的几种姿态示例。
本发明实施例中,通过第二深度神经网络对所述第二图像数据进行分析识别,获得所述第二图像数据对应的目标特征。以所述目标特征为姿态的行人特征为例,首先提取出所述第二图像数据中的行人的人体关节对应的坐标,实际应用中,提取出行人的14个人体关节(28维向量)对应的14个x-y坐标。作为第一种实施方式,通过四个1*1卷积层对14个人体关节对应的14个x-y坐标直接编码获得256维向量表示的姿态特征码。作为第二种实施方式,通过将关联中心的3个像素距离内的像素设置为1,而其他像素设置为0,14个人体关节的坐标首先被分别映射到14个大小为64*64的掩码,分别通过步长为2的四个3*3卷积层和步长1的一个4*4卷积层,将尺寸为64*64的14个掩码中的姿态信息编码为通过256维向量表示的姿态特征码。
本发明实施例中,所述采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据,包括:对所述行人特征进行卷积处理,获得卷积处理后的行人特征;基于所述反卷积网络,生成所述卷积处理后的行人特征、所述目标特征对应的第三图像数据。
实际应用中,以512维特征向量表示的行人特征和256维向量表示的姿态特征码作为输入参数输入反卷积网络,输出对应于行人且满足该姿态特征的第三图像数据。其中,行人特征首先通过两个卷基层,获得适合于图像生成的新的行人特征,即获得新的512维特征向量;将新的512维特征向量与表征姿态特征的256维向量连接,将连接后的特征输入反卷积网络,输出对应于行人且满足该姿态特征的第三图像数据。在一示例中,反卷积网络可包括六个反卷积层,输出的第三图像数据的尺寸为128*128。
本发明实施例中,所述根据所述第三图像数据和所述第二图像数据确定所述第三图像数据的分类结果,包括:计算对应于同一目标特征的所述第三图像数据和所述第二图像数据的差异度;当所述差异度高于预设阈值时,确定所述第三图像数据的分类结果为假分类;或者,当所述差异度不高于所述预设阈值时,确定所述第三图像数据的分类结果为真分类。
进一步地,所述基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络,包括:根据所述分类结果修正所述反卷积网络、所述深度神经第一网络、所述第二深度神经网络中的至少一个网络的参数;其中,假分类的分类结果的参数修改幅度高于真分类的分类结果的参数修改幅度。
可以理解为,本发明实施例中对重构的第三图像数据进行鉴别,鉴别第三图像数据的分类结果是真还是假,也即鉴别第三图像数据与第二图像数据中的行人是否为同一行人。具体的,可通过分析识别第三图像数据和第二图像数据之间的差异度,即计算第三图像数据和第二图像数据之间的差异度判断第三图像数据的分类结果是否为真;当第三图像数据和第二图像数据之间的差异度较大,即差异度大于预设阈值时,判定第三图像数据的分类结果为假分类;当第三图像数据和第二图像数据之间的差异度较小,即差异度小于等于预设阈值时,判定第三图像数据的分类结果为真分类。
本实施例中,无论分类结果为真分类或假分类均反馈反卷积网络、第一深度神经网络、所述第二深度神经网络中的至少一个网络。实际应用中,可分别基于分类结果为真分类和分类结果为假分类对反卷积网络、第一深度神经网络、第二深度神经网络中的至少一个网络的参数按照对应的调整策略进行调整,而假分类的分类结果的参数修改幅度高于真分类的分类结果的参数修改幅度,从而提升网络的性能,便于反复迭代训练的反卷积网络生成更加准确、高质量的图像数据、基于反复迭代训练的第一深度神经网络可提取出更加纯粹、不包含或尽量少包含姿态特征的行人特征。
图3为本发明实施例的图像处理方法的一种处理架构应用示意图;如图3所示,本发明实施例的图像处理方法的处理架构可包括:特征提取器、姿态编码器和图像再现器等;通过特征提取器对第一图像数据进行行人特征提取,通过姿态编码器对第二图像数据进行姿态特征提取;将提取出的行人特征和姿态特征输入至图像再现器;图像再现器中可包括卷积模块、生成器和辨别器;通过卷积模块对行人特征进行卷积处理;卷积处理后的行人特征和姿态特征输入至生成器中进行图像重构,获得第三图像数据;将重构的第三图像数据与初始的第二图像数据输入至辨别器中进行真假类型的辨别。
在一实施例中,所述方法还包括:获得目标图像数据;通过所述第一网络提取所述目标图像数据的第一行人特征;通过所述第一网络提取图像集包括的至少一个待比对图像数据的第二行人特征;分别计算所述第一行人特征和至少一个第二行人特征的相似度;基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据;基于所述至少一个待比对图像数据对应的行人身份确定所述目标图像数据的行人身份信息。
本实施例中,具体的,在针对行人检索任务时,首先获得用于进行行人检索任务的目标图像数据,通过前述反复训练的第一深度神经网络对所述目标图像数据的行人特征进行提取,获得所述目标图像数据的第一行人特征。另外,图像集中包括至少一个待比对图像数据,每个待比对图像数据均标注有对应的行人身份信息。通过该第一深度神经网络对至少一个待比对图像数据的行人特征进行提取,获得所述至少一个待比对图像数据中每个待比对图像数据对应的第二行人特征。通过第一行人特征和每个第二行人特征的相似度的计算,获得与所述目标图像数据属于同一行人的至少一个待比对图像数据。其中,若第一行人特征与某一第二行人特征的相似度大于预设阈值,可确定所述第一行人特征与该第二行人特征对应于同一行人。则进一步基于确定的对应于同一行人的待比对图像数据的行人身份信息确定为所述目标图像数据的行人身份信息。
在一实施例中,所述基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据之后,所述方法还包括:确定所述目标图像数据对应的第一行人身份,确定所述至少一个待比对图像数据对应的至少一个第二行人身份;比较所述第一行人身份和所述至少一个第二行人身份是否相同;基于比较结果确定行人检索置信度。
在本实施方式中,区别于上一实施方式,目标图像数据具有标注的行人身份信息,记为第一行人身份。在确定第一行人特征与某一待比对图像数据的第二行人特征对应于同一行人后,可确定该待比对图像数据标注的第二行人身份。比较所述第一行人身份和第二行人身份是否相同,若相同,则可判定为本次行人检索成功;若不相同,则可判定本次行人检索失败。通过多次的判定结果,利用判定为行人检索成功的次数与行人检索的总次数的比值,确定行人检索的置信度。
采用本发明实施例的技术方案,通过可视化方式生成的图像来呈现特征数据,便于评估网络模型的能力,发现网络模型中存在的隐形问题,有效的为模型分析评估、优化等提供了支持,从而可以大大提升模型性能;另外,通过生成的图像与原始图像的分类结果反馈网络,修正网络参数,便于提升网络性能,使提取的行人特征更加“纯粹”,弱化目标特征(例如姿态特征)的影响。
实施例二
本发明实施例还提供了一种图像处理装置。图4为本发明实施例的图像处理装置的一种组成结构示意图;如图4所示,所述装置包括:行人特征提取单元31、目标特征提取单元32、生成单元33和训练单元34;其中,
所述行人特征提取单元31,用于通过第一深度神经网络提取第一图像数据的行人特征;
所述目标特征提取单元32,用于通过第二深度神经网络提取至少一个第二图像数据的目标特征;
所述生成单元33,用于采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;
所述训练单元34,用于根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
本实施例中,所述行人特征和所述行人的姿态特征对应于同一行人。
本实施例中,所述目标特征包括行人的姿态特征、环境特征和光照特征中的至少一种特征。
在一实施例中,所述训练单元34,用于计算对应于同一目标特征的所述第三图像数据和所述第二图像数据的差异度;当所述差异度高于预设阈值时,确定所述第三图像数据的分类结果为假分类;或者,当所述差异度不高于所述预设阈值时,确定所述第三图像数据的分类结果为真分类。
在一实施例中,所述训练单元34,用于根据所述分类结果修正所述反卷积网络、所述深度神经第一网络、所述第二深度神经网络中的至少一个网络的参数;其中,假分类的分类结果的参数修改幅度高于真分类的分类结果的参数修改幅度。
其中,所述第一图像数据和所述第二图像数据为不同图像采集设备采集的图像数据。
在一实施例中,所述生成单元33,用于对所述行人特征进行卷积处理,获得卷积处理后的行人特征;基于所述反卷积网络,生成所述卷积处理后的行人特征、所述目标特征对应的第三图像数据。
在一实施例中,如图5所示,所述装置还包括:获取单元35和计算确定单元36;其中,
所述获取单元35,用于获得目标图像数据;
所述行人特征提取单元31,用于通过所述第一网络提取所述目标图像数据的第一行人特征;还用于通过所述第一网络提取图像集包括的至少一个待比对图像数据的第二行人特征;
所述计算确定单元36,用于分别计算所述第一行人特征和至少一个第二行人特征的相似度;基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据;基于所述至少一个待比对图像数据对应的行人身份确定所述目标图像数据的行人身份信息。
在一实施例中,所述计算确定单元36,还用于基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据之后,确定所述目标图像数据对应的第一行人身份,确定所述至少一个待比对图像数据对应的至少一个第二行人身份;比较所述第一行人身份和所述至少一个第二行人身份是否相同;基于比较结果确定行人检索置信度。
本发明实施例中,所述图像处理装置中的行人特征提取单元31、目标特征提取单元32、生成单元33、训练单元34、获取单元35、计算确定单元36,在实际应用中均可由中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital SignalProcessor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
需要说明的是:上述实施例提供的图像处理装置在进行图像处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实施例三
本发明实施例还提供了一种图像处理装置,图6为本发明实施例的图像处理装置的硬件组成结构示意图;如图6所示,图像处理装置包括存储器42、处理器41及存储在存储器42上并可在处理器41上运行的计算机程序,所述处理器41执行所述程序时实现:通过第一深度神经网络提取第一图像数据的行人特征,通过第二深度神经网络提取至少一个第二图像数据的目标特征;采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
其中,所述行人特征和所述行人的姿态特征对应于同一行人。所述目标特征包括行人的姿态特征、环境特征和光照特征中的至少一种特征。所述第一图像数据和所述第二图像数据为不同图像采集设备采集的图像数据。
在一实施例中,所述处理器41执行所述程序时实现:计算对应于同一目标特征的所述第三图像数据和所述第二图像数据的差异度;当所述差异度高于预设阈值时,确定所述第三图像数据的分类结果为假分类;或者,当所述差异度不高于所述预设阈值时,确定所述第三图像数据的分类结果为真分类。
在一实施例中,所述处理器41执行所述程序时实现:根据所述分类结果修正所述反卷积网络、所述深度神经第一网络、所述第二深度神经网络中的至少一个网络的参数;其中,假分类的分类结果的参数修改幅度高于真分类的分类结果的参数修改幅度。
在一实施例中,所述处理器41执行所述程序时实现:对所述行人特征进行卷积处理,获得卷积处理后的行人特征;基于所述反卷积网络,生成所述卷积处理后的行人特征、所述目标特征对应的第三图像数据。
在一实施例中,所述处理器41执行所述程序时实现:获得目标图像数据;通过所述第一网络提取所述目标图像数据的第一行人特征;通过所述第一网络提取图像集包括的至少一个待比对图像数据的第二行人特征;分别计算所述第一行人特征和至少一个第二行人特征的相似度;基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据;基于所述至少一个待比对图像数据对应的行人身份确定所述目标图像数据的行人身份信息。
在一实施例中,所述处理器41执行所述程序时实现:基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据之后,确定所述目标图像数据对应的第一行人身份,确定所述至少一个待比对图像数据对应的至少一个第二行人身份;比较所述第一行人身份和所述至少一个第二行人身份是否相同;基于比较结果确定行人检索置信度。
可以理解,图像处理装置中的各个组件通过总线系统43耦合在一起。总线系统43用于实现这些组件之间的连接通信。总线系统43除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统43。
可以理解,存储器42可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器41中,或者由处理器41实现。处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,图像处理装置可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
实施例四
在示例性实施例中,本发明实施例还提供了一种计算机存储介质,例如包括计算机程序的存储器42,上述计算机程序可由图像处理装置的处理器41执行,以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机指令,该指令被处理器执行时实现:通过第一深度神经网络提取第一图像数据的行人特征,通过第二深度神经网络提取至少一个第二图像数据的目标特征;采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
其中,所述行人特征和所述行人的姿态特征对应于同一行人。所述目标特征包括行人的姿态特征、环境特征和光照特征中的至少一种特征。所述第一图像数据和所述第二图像数据为不同图像采集设备采集的图像数据。
在一实施例中,该指令被处理器执行时实现:计算对应于同一目标特征的所述第三图像数据和所述第二图像数据的差异度;当所述差异度高于预设阈值时,确定所述第三图像数据的分类结果为假分类;或者,当所述差异度不高于所述预设阈值时,确定所述第三图像数据的分类结果为真分类。
在一实施例中,该指令被处理器执行时实现:根据所述分类结果修正所述反卷积网络、所述深度神经第一网络、所述第二深度神经网络中的至少一个网络的参数;其中,假分类的分类结果的参数修改幅度高于真分类的分类结果的参数修改幅度。
在一实施例中,该指令被处理器执行时实现:对所述行人特征进行卷积处理,获得卷积处理后的行人特征;基于所述反卷积网络,生成所述卷积处理后的行人特征、所述目标特征对应的第三图像数据。
在一实施例中,该指令被处理器执行时实现:获得目标图像数据;通过所述第一网络提取所述目标图像数据的第一行人特征;通过所述第一网络提取图像集包括的至少一个待比对图像数据的第二行人特征;分别计算所述第一行人特征和至少一个第二行人特征的相似度;基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据;基于所述至少一个待比对图像数据对应的行人身份确定所述目标图像数据的行人身份信息。
在一实施例中,该指令被处理器执行时实现:基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据之后,确定所述目标图像数据对应的第一行人身份,确定所述至少一个待比对图像数据对应的至少一个第二行人身份;比较所述第一行人身份和所述至少一个第二行人身份是否相同;基于比较结果确定行人检索置信度。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括:
通过第一深度神经网络提取第一图像数据的行人特征,通过第二深度神经网络提取至少一个第二图像数据的目标特征;
采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;
根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
2.根据权利要求1所述的方法,其特征在于,所述行人特征和所述行人的姿态特征对应于同一行人。
3.根据权利要求1所述的方法,其特征在于,所述目标特征包括行人的姿态特征、环境特征和光照特征中的至少一种特征。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述第三图像数据和所述第二图像数据确定所述第三图像数据的分类结果,包括:
计算对应于同一目标特征的所述第三图像数据和所述第二图像数据的差异度;
当所述差异度高于预设阈值时,确定所述第三图像数据的分类结果为假分类;或者,
当所述差异度不高于所述预设阈值时,确定所述第三图像数据的分类结果为真分类。
5.根据权利要求4所述的方法,其特征在于,所述基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络,包括:
根据所述分类结果修正所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络的参数;
其中,假分类的分类结果的参数修改幅度高于真分类的分类结果的参数修改幅度。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获得目标图像数据;
通过所述第一网络提取所述目标图像数据的第一行人特征;
通过所述第一网络提取图像集包括的至少一个待比对图像数据的第二行人特征;
分别计算所述第一行人特征和至少一个第二行人特征的相似度;
基于计算结果确定与所述目标图像数据对应于同一行人的至少一个待比对图像数据;
基于所述至少一个待比对图像数据对应的行人身份确定所述目标图像数据的行人身份信息。
7.一种图像处理装置,其特征在于,所述装置包括:行人特征提取单元、目标特征提取单元、生成单元和训练单元;其中,
所述行人特征提取单元,用于通过第一深度神经网络提取第一图像数据的行人特征;
所述目标特征提取单元,用于通过第二深度神经网络提取至少一个第二图像数据的目标特征;
所述生成单元,用于采用反卷积网络,生成所述行人特征、以及所述目标特征对应的第三图像数据;
所述训练单元,用于根据所述第三图像数据和所述第二图像数据分别确定所述第三图像数据的分类结果,基于所述分类结果训练所述反卷积网络、所述第一深度神经网络、所述第二深度神经网络中的至少一个网络。
8.根据权利要求7所述的装置,其特征在于,所述训练单元,用于计算对应于同一目标特征的所述第三图像数据和所述第二图像数据的差异度;当所述差异度高于预设阈值时,确定所述第三图像数据的分类结果为假分类;或者,当所述差异度不高于所述预设阈值时,确定所述第三图像数据的分类结果为真分类。
9.一种计算机存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至6任一项所述方法的步骤。
10.一种图像处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810150684.1A CN108268863B (zh) | 2018-02-13 | 2018-02-13 | 一种图像处理方法、装置和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810150684.1A CN108268863B (zh) | 2018-02-13 | 2018-02-13 | 一种图像处理方法、装置和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108268863A true CN108268863A (zh) | 2018-07-10 |
CN108268863B CN108268863B (zh) | 2020-12-01 |
Family
ID=62774203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810150684.1A Active CN108268863B (zh) | 2018-02-13 | 2018-02-13 | 一种图像处理方法、装置和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268863B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410240A (zh) * | 2018-10-09 | 2019-03-01 | 电子科技大学中山学院 | 一种量体特征点定位方法、装置及其存储介质 |
CN111104925A (zh) * | 2019-12-30 | 2020-05-05 | 上海商汤临港智能科技有限公司 | 图像处理方法、装置、存储介质和电子设备 |
WO2020098158A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 行人重识别方法、装置及计算机可读存储介质 |
CN111209818A (zh) * | 2019-12-30 | 2020-05-29 | 新大陆数字技术股份有限公司 | 视频个体识别方法、系统、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992142A (zh) * | 2015-06-03 | 2015-10-21 | 江苏大学 | 一种基于深度学习和属性学习相结合的行人识别方法 |
WO2017015887A1 (en) * | 2015-07-29 | 2017-02-02 | Nokia Technologies Oy | Object detection with neural network |
-
2018
- 2018-02-13 CN CN201810150684.1A patent/CN108268863B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992142A (zh) * | 2015-06-03 | 2015-10-21 | 江苏大学 | 一种基于深度学习和属性学习相结合的行人识别方法 |
WO2017015887A1 (en) * | 2015-07-29 | 2017-02-02 | Nokia Technologies Oy | Object detection with neural network |
Non-Patent Citations (3)
Title |
---|
ALIAKSANDR SIAROHIN等: "Deformable GANs for Pose-based Human Image Generation", 《ARXIV》 * |
JINGYA WANG等: "Attribute Recognition by Joint Recurrent Learning of Context and Correlation", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
侯畅等: "基于深度编解码网络的运动目标检测算法", 《计算机系统应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410240A (zh) * | 2018-10-09 | 2019-03-01 | 电子科技大学中山学院 | 一种量体特征点定位方法、装置及其存储介质 |
WO2020098158A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 行人重识别方法、装置及计算机可读存储介质 |
CN111104925A (zh) * | 2019-12-30 | 2020-05-05 | 上海商汤临港智能科技有限公司 | 图像处理方法、装置、存储介质和电子设备 |
CN111209818A (zh) * | 2019-12-30 | 2020-05-29 | 新大陆数字技术股份有限公司 | 视频个体识别方法、系统、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108268863B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Multimodal deep autoencoder for human pose recovery | |
CN110728196B (zh) | 一种人脸识别的方法、装置及终端设备 | |
Abaza et al. | A survey on ear biometrics | |
CN108268863B (zh) | 一种图像处理方法、装置和计算机存储介质 | |
Yang et al. | Robust face alignment under occlusion via regional predictive power estimation | |
WO2014040559A1 (zh) | 场景识别的方法和装置 | |
CN109241890B (zh) | 面部图像校正方法、装置及存储介质 | |
Wu et al. | Locality-constrained linear coding based bi-layer model for multi-view facial expression recognition | |
US20230334893A1 (en) | Method for optimizing human body posture recognition model, device and computer-readable storage medium | |
Liu et al. | Attentive cross-modal fusion network for RGB-D saliency detection | |
CN115862120B (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
CN116958957A (zh) | 多模态特征提取网络的训练方法及三维特征表示方法 | |
Ming | Hand fine-motion recognition based on 3D Mesh MoSIFT feature descriptor | |
CN108875496B (zh) | 行人画像的生成及基于画像的行人识别 | |
CN114494543A (zh) | 动作生成方法及相关装置、电子设备和存储介质 | |
Wang et al. | A short survey on deep learning for skeleton-based action recognition | |
Jabnoun et al. | Visual scene prediction for blind people based on object recognition | |
Bhoir et al. | A decision-making tool for creating and identifying face sketches | |
CN108694347B (zh) | 图像处理方法和装置 | |
KR101884874B1 (ko) | 부분 이미지 기반 객체 판별 방법 및 장치 | |
Li et al. | Near-convex decomposition of 2D shape using visibility range | |
Tran et al. | Significant trajectories and locality constrained linear coding for hand gesture representation | |
Ashour et al. | Recognition of stonefish from underwater video | |
CN114821690B (zh) | 关键点识别模型处理方法、关键点识别方法及装置 | |
Zhou et al. | Dynamic spatio-temporal modeling for example-based human silhouette recovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |