CN113673308A - 对象识别方法、装置和电子系统 - Google Patents

对象识别方法、装置和电子系统 Download PDF

Info

Publication number
CN113673308A
CN113673308A CN202110756923.XA CN202110756923A CN113673308A CN 113673308 A CN113673308 A CN 113673308A CN 202110756923 A CN202110756923 A CN 202110756923A CN 113673308 A CN113673308 A CN 113673308A
Authority
CN
China
Prior art keywords
image
target object
neural network
visible
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110756923.XA
Other languages
English (en)
Inventor
张思朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd, Beijing Megvii Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN202110756923.XA priority Critical patent/CN113673308A/zh
Publication of CN113673308A publication Critical patent/CN113673308A/zh
Priority to PCT/CN2022/086920 priority patent/WO2023279799A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种对象识别方法、装置和电子系统,获取包含目标对象的第一图像;如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对该第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置满足指定标准;再从处理后的第一图像中提取目标对象的对象特征,进而识别目标对象。该方式中,当图像中的目标对象的部位不完整时,对图像进行形变和填充处理,使目标对象中各个部位在图像中的相对位置与图像包含目标对象的完整部位时的相对位置相匹配,直接从处理后的图像中提取目标对象的对象特征,即可识别目标对象,无需进行各个部位的局部分割和识别,降低了对象识别的计算复杂度,有利于大规模部署。

Description

对象识别方法、装置和电子系统
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种对象识别方法、装置和电子系统。
背景技术
行人重识别时需要比对不同行人图像的相似性,如果图像中的行人被遮挡,该行人的人体区域出现大面积缺失,图像的表观信息就会出现较大偏差,从而难以与正常行人图像进行匹配。相关技术中,可以将图像划分成多个局部小图,逐个提取每个局部小图的识别特征,再将所提取的每个局部小图的识别特征进行组合来代表整张图像。由于提取的识别特征较多,导致样本间距离计算的复杂度较高,并且,该方式通常需要依赖一个可以准确预测局部可见性的模型,导致模型的复杂度较高,无法大规模部署。相关技术中在对全身图像与半身图像的比对中,还可以根据半身图像的可见程度对全身图像进行裁剪,然后采用深度识别模型对二者进行比较,该方式对不同的半身图像和全身图像,需要重复裁剪以及重新提取特征,导致计算复杂度也较高,同样难以大规模部署。
发明内容
本发明的目的在于提供一种对象识别方法、装置和电子系统,以降低对图像中对象识别的复杂度,便于大规模部署。
本发明提供的一种对象识别方法,方法包括:获取包含目标对象的第一图像;如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;指定标准包括:当第一图像中包含目标对象的全部部位时,可见部位在第一图像中的相对位置;从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象。
进一步的,如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准的步骤包括:将第一图像输入至预先训练好的第一神经网络模型,通过第一神经网络模型识别第一图像中,目标对象的可见部位,基于可见部位确定第一图像的可见区域占比和填充分界标识;其中,填充分界标识用于:指示第一图像中目标对象的不可见部位的位置;如果可见区域占比小于1,确定第一图像中目标对象的可见部位不包含目标对象的全部部位,基于可见区域占比和填充分界标识,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准。
进一步的,基于可见区域占比和填充分界标识,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准的步骤包括:基于可见区域占比,调整第一图像的尺寸,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;基于填充分界标识,对尺寸调整后的第一图像的不可见部位所对应的区域进行填充处理,以将第一图像的尺寸恢复至尺寸调整之前的尺寸。
进一步的,基于可见区域占比和填充分界标识,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准的步骤包括:基于可见区域占比和填充分界标识,对第一图像的不可见部位所对应的区域进行填充处理;调整填充处理后的第一图像的尺寸,以将填充处理后的第一图像的尺寸恢复至填充处理之前的尺寸,且调整后的第一图像中包含的目标对象的可见部位在调整后的第一图像中的相对位置,满足指定标准。
进一步的,从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象的步骤包括:通过第二神经网络模型,从处理后的第一图像中提取目标对象的对象特征;其中,对象特征包括目标对象的可见部位的特征;计算目标对象的对象特征与预设参考图像中指定对象的对象特征之间的特征距离,确定目标对象和指定对象是否为同一对象。
进一步的,预先训练好的第一神经网络模型,通过下述方式确定:获取包含第一对象全部部位的第一样本图像;裁切第一样本图像中,包含第一对象至少一部分部位的指定区域,得到第二样本图像,以及第二样本图像的裁切比例和参考填充分界标识;将第二样本图像输入至初始第一神经网络模型中,以通过初始第一神经网络模型输出第二样本图像的初始可见区域占比和初始填充分界标识;基于初始可见区域占比、初始填充分界标识、裁切比例,和参考填充分界标识确定第一损失值,基于第一损失值更新初始第一神经网络模型的权重参数;继续执行获取包含第一对象全部部位的第一样本图像的步骤,直至初始第一神经网络模型收敛,得到第一神经网络模型。
进一步的,预先训练好的第一神经网络模型,通过下述方式确定:获取包含第二对象的第三样本图像,以及第二对象对应的全部部位检测框和可见部位检测框;将第三样本图像输入至初始第一神经网络模型中,以通过初始第一神经网络模型输出第二对象对应的包含全部部位的第一检测框,以及包含可见部位的第二检测框,基于第一检测框和第二检测框,确定第二对象的初始可见区域占比和初始填充分界标识;基于初始可见区域占比、初始填充分界标识、全部部位检测框和可见部位检测框,确定第二损失值,基于第二损失值更新初始第一神经网络模型的权重参数;继续执行获取包含第二对象的第三样本图像的步骤,直至初始第一神经网络模型收敛,得到第一神经网络模型。
进一步的,第二神经网络模型,通过下述方式确定:获取包含第三对象全部部位的第四样本图像,以及第三对象的目标特征;裁切第四样本图像中,包含第三对象至少一部分部位的指定区域,得到第五样本图像;对第五样本图像进行填充处理,得到第六样本图像;其中,第三对象的指定部位在第六样本图像中的相对位置,与第三对象的指定部位在第四样本图像中的相对位置相匹配;将第六样本图像输入至初始第二神经网络模型中,以通过初始第二神经网络模型输出第六样本图像中,第三对象的初始特征;基于初始特征和目标特征确定第三损失值,基于第三损失值更新初始第二神经网络模型的权重参数;继续执行获取包含第三对象全部部位的第四样本图像的步骤,直至初始第二神经网络模型收敛,得到第二神经网络模型。
本发明提供的一种对象识别装置,装置包括:获取模块,用于获取包含目标对象的第一图像;处理模块,用于如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;指定标准包括:当第一图像中包含目标对象的全部部位时,可见部位在第一图像中的相对位置;识别模块,用于从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象。
本发明提供的一种电子系统,电子系统包括:处理设备和存储装置;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行上述任一项的对象识别方法。
本发明提供的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行上述任一项的对象识别方法的步骤。
本发明提供的对象识别方法、装置和电子系统,首先获取包含目标对象的第一图像;如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对该第一图像进行形变和填充处理,以使该第一图像中包含的目标对象的可见部位在第一图像中的相对位置满足指定标准;该指定标准包括:当第一图像中包含目标对象的全部部位时,可见部位在第一图像中的相对位置;最后从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象。该方式中,当图像中的目标对象的部位不完整时,对图像进行形变和填充处理,使目标对象中各个部位在图像中的相对位置与图像包含目标对象的完整部位时的相对位置相匹配,直接从处理后的图像中提取目标对象的对象特征,即可识别目标对象,无需进行各个部位的局部分割和识别,降低了对象识别的计算复杂度,有利于大规模部署。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子系统的结构示意图;
图2为本发明实施例提供的一种对象识别方法的流程图;
图3为本发明实施例提供的另一种对象识别方法的流程图;
图4为本发明实施例提供的另一种对象识别方法的流程图;
图5为本发明实施例提供的一种图像预处理过程的示意图;
图6为本发明实施例提供的一种对象识别装置的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术;行人重识别时需要比对不同行人图像的相似性,如果图像的表观信息出现较大偏差,就难以与正常行人图像进行匹配,其中,该正常行人图像可以包括行人的全身图像等。相关技术中,可以将图像划分成多个局部小图,逐个提取每个局部小图的识别特征,组合成全身识别特征来代表整张图像。该方式通常需要依赖一个可以准确预测局部可见性的模型,如姿态估计模型、人体parsing模型等,由于模型要求的准确度较高,要达到相应的准确度,需要该模型具有比正常模型更高的模型深度和复杂度,导致模型的复杂度较高,并且,在采用组合成的全身识别特征在与正常行人图像的特征进行距离计算,确认相似度的过程中,由于提取的识别特征较多,导致样本间距离计算的复杂度也较高,无法大规模部署;相关技术在对全身图像与半身图像的比对中,可以根据半身图像的可见程度对全身图像进行裁剪,然后使用深度识别模型对二者进行比较,该方式对不同的半身图像和全身图像需要重复裁剪以及重新提取特征,对模型中间产生的特征图进行多次裁剪、拼接,导致计算复杂度更高,更难以大规模部署。基于此,本发明实施例提供了一种对象识别方法、装置和电子系统,该技术可以应用于对图像中的对象进行识别的应用中,该技术可采用相应的软件和硬件实现,以下对本发明实施例进行详细介绍。
实施例一:
首先,参照图1来描述用于实现本发明实施例的对象识别方法、装置和电子系统的示例电子系统100。
如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子系统也可以具有其他组件和结构。
所述处理设备102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子系统100中的其它组件的数据进行处理,还可以控制所述电子系统100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集设备110可以采集预览视频帧或图像数据,并且将采集到的预览视频帧或图像数据存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的对象识别方法、装置和电子系统的示例电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到目标图像的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
实施例二:
本实施例提供了一种对象识别方法,该方法由上述电子系统中的处理设备执行;该处理设备可以是具有数据处理能力的任何设备或芯片。该处理设备可以独立对接收到的信息进行处理,也可以与服务器相连,共同对信息进行分析处理,并将处理结果上传至云端。如图2所示,该方法包括如下步骤:
步骤S202,获取包含目标对象的第一图像。
上述目标对象可以是人物、动物或其他任何物品等;上述第一图像可以是包含目标对象的照片、图片或视频图像等。为方便说明,以该目标对象是行人为例,该第一图像中可能包含该行人的全部身体部位,也可能只包含该行人的部分身体部位,如果该第一图像包含该行人的全部身体部位,则该第一图像是该行人的全身图像;如果该第一图像只包含该行人的部分身体部位,比如,只包含该行人的头部和上半身,则该第一图像是该行人的半身图像。在实际实现时,当需要对目标对象进行识别时,通常需要先获取到包含该目标对象的第一图像,如,包含该目标对象的部分或全部身体部位的照片、图片或视频图像等。
步骤S204,如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;该指定标准包括:当第一图像中包含目标对象的全部部位时,可见部位在第一图像中的相对位置。
上述可见部位可以理解为在第一图像中所显示的目标对象的部位,比如,如果目标对象是行人,该第一图像是行人的半身图像,则该第一图像中该行人的可见部位可能只包括头部和上半身等;上述全部部位可以理解为目标对象的所有部位,比如,仍以目标对象是行人为例,则该行人的全部部位可以理解为全部身体部位,包括头部、上半身和下半身等。上述对第一图像的形变处理可以理解为对第一图像的显示尺寸进行调整的过程,比如可以缩小第一图像,以减小第一图像的尺寸等;上述填充处理可以理解为在图像的边界左侧、边界右侧、边界上侧和边界下侧中的任意一侧或多侧填充预设数值,通过填充预设数据可以改变图像的尺寸;上述可见部位在第一图像中的相对位置可以包括:可见部位在第一图像中的上半部分、下半部分、左半部分或右半部分等。在实际实现时,如果第一图像中目标对象的可见部位不包含目标对象的全部部位,考虑到当第一图像中包含目标对象的全部部位时,相应的可见部位在第一图像中的相对位置通常会有差异,因此,可以对该第一图像进行形变处理和填充处理,使处理后的第一图像中包含的目标对象的可见部位在第一图像中的相对位置,与当第一图像中包含目标对象的全部部位时,相应的可见部位在第一图像中的相对位置相匹配;比如,该第一图像是包含行人的头部和上半身的半身图像,则可以对该半身图像进行压缩和填充处理,处理后的半身图像中该行人的头部和上半身在第一图像中的相对位置,与当该第一图像中包含该行人的全部身体部位时,该行人的头部和上半身在第一图像中的相对位置相同或对齐,且头部和上半身分别对应的尺寸通常也可以相同。
步骤S206,从处理后的第一图像中提取目标对象的对象特征,基于该对象特征识别目标对象。
上述对象特征可以理解为该目标对象所具有的相关特征,比如,以该目标对象是行人为例,则该行人的对象特征可以包括该行人的性别特征、年龄特征、衣服颜色特征或相貌特征等;在实际实现时,当对获取到的第一图像进行形变和填充处理后,可以从处理后的第一图像中提取出目标对象相应的对象特征,再根据提取到的对象特征对该目标对象进行识别。
本发明实施例提供的对象识别方法,首先获取包含目标对象的第一图像;如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对该第一图像进行形变和填充处理,以使该第一图像中包含的目标对象的可见部位在第一图像中的相对位置满足指定标准;该指定标准包括:当第一图像中包含目标对象的全部部位时,可见部位在第一图像中的相对位置;最后从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象。该方式中,当图像中的目标对象的部位不完整时,对图像进行形变和填充处理,使目标对象中各个部位在图像中的相对位置与图像包含目标对象的完整部位时的相对位置相匹配,直接从处理后的图像中提取目标对象的对象特征,即可识别目标对象,无需进行各个部位的局部分割和识别,降低了对象识别的计算复杂度,有利于大规模部署。
实施例三:
本发明实施例还提供另一种对象识别方法,该方法在上述实施例方法的基础上实现;该方法重点描述如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准的具体实现过程,如图3所示,该方法包括如下步骤:
步骤S302,获取包含目标对象的第一图像。
步骤S304,将第一图像输入至预先训练好的第一神经网络模型,通过第一神经网络模型识别第一图像中,目标对象的可见部位,基于可见部位确定第一图像的可见区域占比和填充分界标识;其中,填充分界标识用于:指示第一图像中目标对象的不可见部位的位置。
上述第一神经网络模型也可以称为可见度预测模型,该模型可以通过多种卷积神经网络实现,如残差网络、VGG网络等,该第一神经网络模型可以是任意大小的卷积神经网络模型,比如,可以是resnet34_05x等;通常该第一神经网络模型是一个轻量卷积神经网络模型,轻量卷积神经网络模型可以在减少消耗计算资源的基础上,保证神经网络模型的精度,在一定程度上提升神经网络模型的效率。
上述可见区域占比可以理解为当第一图像中包含目标对象的全部部位时,该目标对象的可见部位对应的图像区域在第一图像中所占的比例;在实际实现时,在获取到包含目标对象的第一图像后,通常会先对该第一图像中目标对象的可见部位进行识别处理等,比如,以第一图像是行人的半身图像为例,通过对该第一图像中的行人进行识别处理,可以确定该行人的可见部位包括该行人的头部和上半身,该识别处理过程通常还包括对可见部位的定位处理,通过定位处理,就可以确定出该第一图像中,目标对象的头部的位置和上半身的位置等;如果该第一图像是该行人的全身图像,头部和上半身对应的区域占该全身图像的70%,则只包含该行人的头部和上半身的半身图像的可见区域占比即为70%;上述填充分界标识可以指示目标对象中的不可见部位的位置,根据第一图像中目标对象的可见部位的不同,该填充分界标识所指示的该目标对象的不可见部位的位置也不同,比如,仍以第一图像是行人的半身图像,可见部位包括该行人的头部和上半身为例,则该行人的不可见部位是该行人的下半身,相应的填充分界标识所指示的该行人的不可见部位的位置可以是在第一图像的边界下方。
在实际实现时,第一神经网络模型可以包括但不限于以下两种训练方式,下面首先对第一种训练方式进行介绍,具体可以通过下述步骤一至步骤四实现。
步骤一,获取包含第一对象全部部位的第一样本图像。
上述第一对象可以是人物、动物或其他任何物品等;上述第一样本图像可以是包含第一对象的照片、图片或视频图像等。为方便说明,以第一对象是行人为例进行说明,该方式中,为了训练得到第一神经网络模型,首先获取包含行人全部部位的第一样本图像,即该第一样本图像是该行人的全身图像。
步骤二,裁切第一样本图像中,包含第一对象至少一部分部位的指定区域,得到第二样本图像,以及第二样本图像的裁切比例和参考填充分界标识。
上述至少一部分部位可以是第一样本图像中行人的任一部分部位,比如,可以是行人的下半身等,在实际实现时,当获取到上述第一样本图像后,通常需要随机裁切该第一样本图像,得到裁切后的第二样本图像及相应的裁切比例和参考填充分界标识;比如,裁切第一样本图像后,得到包含行人头部和上半身的第二样本图像,相应的裁切比例为30%,参考填充分界标识为第二样本图像的边界下方。
步骤三,将第二样本图像输入至初始第一神经网络模型中,以通过初始第一神经网络模型输出第二样本图像的初始可见区域占比和初始填充分界标识。
在实际实现时,当得到第二样本图像后,通常会将该第二样本图像调整至预设尺寸,然后将调整尺寸后的第二样本图像输入至初始第一神经网络模型中,以通过该初始第一神经网络模型输出第二样本图像的初始可见区域占比和初始填充分界标识。
步骤四,基于初始可见区域占比、初始填充分界标识、裁切比例,和参考填充分界标识确定第一损失值,基于第一损失值更新初始第一神经网络模型的权重参数;继续执行获取包含第一对象全部部位的第一样本图像的步骤,直至初始第一神经网络模型收敛,得到第一神经网络模型。
该方式中,对第一神经网络模型的训练过程可以以随机裁切过程中获取的裁切比例和参考填充分界标识进行监督,基于初始可见区域占比、初始填充分界标识、该裁切比例和参考填充分界标识确定第一损失值,基于该第一损失值更新初始第一神经网络模型的权重参数;继续执行获取包含行人全部部位的第一样本图像的步骤,直至初始第一神经网络模型收敛,得到该第一神经网络模型。
上述对第一神经网络模型的第一种训练方式中,第一神经网络模型采用自学习的方式进行训练,在输入初始第一神经网络模型前,可以对每张图像随机裁切行人下半身对应的图像区域,并将裁切后的图像调整到统一大小,同时记录下裁切比例和参考填充分界标识,该裁切比例可以以r表示,将该裁切比例r和参考填充分界标识作为初始第一神经网络模型的GT(Ground Truth,表示有监督学习的训练集的分类准确性,用于证明或者推翻某个假设)。通过训练好的第一神经网络模型就可以预测出第一图像的可见区域占比和填充分界标识。
下面对第一神经网络模型的第二种训练方式进行介绍,具体可以通过下述步骤五至步骤七实现。
步骤五,获取包含第二对象的第三样本图像,以及第二对象对应的全部部位检测框和可见部位检测框。
上述第二对象可以是人物、动物或其他任何物品等;上述第三样本图像可以是包含第二对象的照片、图片或视频图像等。为方便说明,以第二对象是行人为例进行说明,该方式中,为了训练得到第一神经网络模型,首先获取包含行人的第三样本图像,以及该第三样本图像中包含行人全部部位时所对应的全部部位检测框,以及仅包含行人可见部位的可见部位检测框,该第三样本图像可以是全景图。
步骤六,将第三样本图像输入至初始第一神经网络模型中,以通过初始第一神经网络模型输出第二对象对应的包含全部部位的第一检测框,以及包含可见部位的第二检测框,基于第一检测框和第二检测框,确定第二对象的初始可见区域占比和初始填充分界标识。
在实际实现时,当获取到上述第三样本图像后,将该第三样本图像输入至初始第一神经网络模型中,通过该初始第一神经网络模型输出该行人对应的包含全部部位的第一检测框,以及包含可见部位的第二检测框,其中,该第一检测框也可以称为初始全身框,该第二检测框也可以称为初始可见框等,基于该第二检测框与第一检测框之间的比例和相对位置,确定该第三样本图像中行人的初始可见区域占比和初始填充分界标识。
步骤七,基于初始可见区域占比、初始填充分界标识、全部部位检测框和可见部位检测框,确定第二损失值,基于第二损失值更新初始第一神经网络模型的权重参数;继续执行获取包含第二对象的第三样本图像的步骤,直至初始第一神经网络模型收敛,得到第一神经网络模型。
该方式中,对第一神经网络模型的训练过程可以以该行人的全部部位检测框,及对应的可见部位检测框或行人分割结果等进行监督,结合初始可见区域占比和初始填充分界标识确定第二损失值,基于该第二损失值更新初始第一神经网络模型的权重参数;继续执行获取包含行人的第三样本图像的步骤,直至初始第一神经网络模型收敛,得到该第一神经网络模型。通过训练好的该第一神经网络模型就可以预测出第一图像的可见区域占比和填充分界标识。
上述对第一神经网络模型的第二种训练方式,可以将第一神经网络模型集成到行人检测模型中,其中,该行人检测模型可以采用现有技术中的模型结构,通过该行人检测模型可以在预测出行人全身框的同时,预测出该行人的可见框,再根据可见框和全身框的比例,计算出该第三样本图像的可见区域占比和填充分界标识。
步骤S306,如果可见区域占比小于1,确定第一图像中目标对象的可见部位不包含目标对象的全部部位,基于可见区域占比和填充分界标识,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准。
在实际实现时,通过第一神经网络模型确定的第一图像的可见区域占比可能小于1,也可能等于1,如果可见区域占比等于1,可以理解为第一图像中目标对象的可见部位包含目标对象的全部部位,可以不用填充,或者填充区域的面积为0,如果可见区域占比小于1,可以理解为第一图像中目标对象的可见部位不包含目标对象的全部部位;比如,以目标对象是行人为例,如果可见区域占比等于1,表示第一图像是该行人的全身图像,如果可见区域占比小于1,表示第一图像是该行人的半身图像,该半身图像可能是只包含该行人的头部,或者只包含该行人的头部和上半身等。
如果确定第一图像中目标对象的可见部位不包含目标对象的全部部位,该步骤S306可以通过下述步骤八和步骤九来实现对第一图像的形变和填充处理:
步骤八,基于可见区域占比,调整第一图像的尺寸,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准。
在实际实现时,如果可见区域占比小于1,可以根据该可见区域占比,调整第一图像的尺寸,比如,以目标对象是行人,第一图像中该行人的可见部位包括头部和上半身,可见区域占比是0.7,第一图像的尺寸是256*128像素尺寸为例,由于缺少的是行人的下半身,可以按照可见区域占比,对第一图像的长度方向的尺寸进行调整,调整后的第一图像的长度方向的尺寸为256*0.7=179.2,宽度方向的尺寸保持不变,即调整后的第一图像的尺寸为179.2*128,调整后的第一图像中包含的行人的可见部位的在第一图像中的相对位置,满足上述指定标准,该指定标准包括:当第一图像中包含该行人的全部部位时,上述可见部位即头部和上半身在第一图像中的相对位置。
步骤九,基于填充分界标识,对尺寸调整后的第一图像的不可见部位所对应的区域进行填充处理,以将第一图像的尺寸恢复至尺寸调整之前的尺寸。
上述不可见部位可以理解为第一图像中目标对象的除可见部位以外的其他部位,比如,以目标对象是行人,第一图像中该行人的可见部位包括头部和上半身为例,则不可见部位即为该行人的全部身体部位中除头部和上半身以外的其他部位;在实际实现时,由于填充分界标识可以指示第一图像中目标对象的不可见部位的位置,因此,可以基于该填充分界标识,对尺寸调整后的第一图像的不可见部位所对应的区域进行填充处理,比如,仍以目标对象是行人,第一图像中该行人的可见部位包括头部和上半身,可见区域占比是0.7,第一图像的尺寸是256*128像素尺寸为例,则第一图像中该行人的不可见部位包括下半身,该第一图像的填充分界标识所指示的该行人的不可见部位的位置在该第一图像的边界下方,由于可见区域占比是0.7,则不可见部位所对应的区域占比为1-0.7=0.3,相应的不可见部位所对应的区域在长度方向的尺寸是256*0.3=76.8,宽度方向的尺寸不变,则不可见部位所对应的区域的尺寸为76.8*128;因此可以在尺寸调整后的第一图像的边界下方,对该不可见部位所对应的区域进行填充处理,当完成填充处理后,填充后的第一图像在长度方向上的尺寸为179.2+76.8=256,宽度方向的尺寸不变,因此,填充后的第一图像的尺寸与尺寸调整之前的第一图像的尺寸相同,即填充后的第一图像的尺寸恢复为256*128。
该步骤S306还可以通过下述步骤十和步骤十一来实现对第一图像的形变和填充处理:
步骤十,基于可见区域占比和填充分界标识,对第一图像的不可见部位所对应的区域进行填充处理。
在实际实现时,可以基于上述步骤所确定的可见区域占比和填充分界标识,先对第一图像的不可见部位所对应的区域进行填充,比如,仍以目标对象是行人,第一图像中该行人的可见部位包括头部和上半身,可见区域占比是0.7,第一图像的尺寸是256*128像素尺寸为例,则第一图像中该行人的不可见部位包括下半身,该第一图像的填充分界标识所指示的该行人的不可见部位的位置在该第一图像的边界下方,由于可见区域占比是0.7,则不可见部位所对应的区域占比为1-0.7=0.3,相应的不可见部位所对应的区域在长度方向的尺寸是256/0.7*0.3=109.7,宽度方向的尺寸不变,则不可见部位所对应的区域的尺寸为109.7*128,在第一图像的边界下方,对该不可见部位所对应的区域进行填充处理,当完成填充处理后,填充后的第一图像在长度方向上的尺寸即为256+109.7=365.7,宽度方向的尺寸不变,即填充后的第一图像的尺寸为365.7*128。
步骤十一,调整填充处理后的第一图像的尺寸,以将填充处理后的第一图像的尺寸恢复至填充处理之前的尺寸,且调整后的第一图像中包含的目标对象的可见部位在调整后的第一图像中的相对位置,满足指定标准。
在实际实现时,可以基于上述可见区域占比,调整填充处理后的第一图像的尺寸,继续以上述步骤十中的示例进行说明,由于可见区域占比是0.7,填充后的第一图像的尺寸为365.7*128,并且是在第一图像的边界下方进行的填充处理,因此,基于该可见区域占比,对填充处理后的第一图像的长度方向的尺寸进行调整,调整后第一图像在长度方向上的尺寸即为365.7*0.7=256,宽度方向上的尺寸保持不变,仍为128,即通过该调整处理,使填充处理后的第一图像的尺寸与填充处理之前的第一图像的尺寸相同,仍为256*128,并且,尺寸调整后的第一图像中包含的行人的可见部位在调整后的第一图像中的相对位置,满足指定标准,该指定标准包括:当第一图像中包含该行人的全部部位时,上述可见部位即头部和上半身在第一图像中的相对位置。
步骤S308,从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象。
本发明实施例提供的对象识别方法,首先获取包含目标对象的第一图像;将第一图像输入至预先训练好的第一神经网络模型,通过第一神经网络模型识别第一图像中,目标对象的可见部位,基于可见部位确定第一图像的可见区域占比和填充分界标识;如果可见区域占比小于1,确定第一图像中目标对象的可见部位不包含目标对象的全部部位,基于可见区域占比和填充分界标识,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;最后从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象。该方式中,当图像中的目标对象的部位不完整时,对图像进行形变和填充处理,使目标对象中各个部位在图像中的相对位置与图像包含目标对象的完整部位时的相对位置相匹配,直接从处理后的图像中提取目标对象的对象特征,即可识别目标对象,无需进行各个部位的局部分割和识别,降低了对象识别的计算复杂度,有利于大规模部署。
实施例四:
本发明实施例还提供另一种对象识别方法,该方法在上述实施例方法的基础上实现;该方法重点描述从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象的具体实现过程,如图4所示,该方法包括如下步骤:
步骤S402,获取包含目标对象的第一图像。
步骤S404,如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;指定标准包括:当第一图像中包含目标对象的全部部位时,可见部位在第一图像中的相对位置。
步骤S406,通过第二神经网络模型,从处理后的第一图像中提取目标对象的对象特征;其中,对象特征包括目标对象的可见部位的特征。
上述第二神经网络模型也可以称为行人重识别模型,该模型可以通过多种卷积神经网络实现,如残差网络、VGG网络等;下面对第二神经网络模型的训练方式进行介绍,具体可以通过下述步骤十五至步骤十九实现。
步骤十五,获取包含第三对象全部部位的第四样本图像,以及第三对象的目标特征。
上述第三对象可以是人物、动物或其他任何物品等;上述第四样本图像可以是包含第三对象的照片、图片或视频图像等。为方便说明,以第三对象是行人为例进行说明,参见图5所示的一种图像预处理过程的示意图。如图5所示,该方式中,为了训练得到第二神经网络模型,首先获取包含行人全部部位的训练数据original,即该训练数据original是该行人的全身图像,对应上述第四样本图像。上述目标特征可以是行人的性别特征、年龄特征、衣服颜色特征或相貌特征等。
步骤十六,裁切第四样本图像中,包含第三对象至少一部分部位的指定区域,得到第五样本图像。
上述至少一部分部位可以是第四样本图像中行人的任一部分部位,比如,可以是行人的下半身等,在实际实现时,当获取到上述第四样本图像后,即获取到训练数据original后,可以随机裁切该训练数据original下半身得到partial图像,该partial图像即为该行人的半身图像,对应上述第五样本图像。
步骤十七,对第五样本图像进行填充处理,得到第六样本图像;其中,第三对象的指定部位在第六样本图像中的相对位置,与第三对象的指定部位在第四样本图像中的相对位置相匹配。
在实际实现时,当得到第五样本图像,即得到上述partial图像后,可以用数值v填充partial图像,得到pad,其中,填充数值v可以选择0,下边界数值(replica),128,(103.939,116.779,123.68)等。通常会将其尺寸恢复至填充之前的尺寸,该行人的可见部位在填充处理后的partial图像中的相对位置,与相应的可见部位在训练数据original中的相对位置相同,即填充处理后partial图像中的可见部位,与训练数据original的全身图像中的可见部位,如头部、肩部等身体部位的是对齐的,各个可见部位的尺寸通常也可以对应相同,在对齐后,模型的数据输入分布更统一,可以减小输入的噪声水平,例如对网络来说,半身图像通常总会包括行人的头部和肩部等,网络就可以利用这种空间模式,学习对应位置的辨别能力,上述填充处理后的partial图像对应上述第六样本图像。
对填充后的partial图像通常还会进行形变处理,将其尺寸调整至指定大小,该指定大小受算力约束,尺寸不是固定不变的,一般包含人体的图像尺寸可以为256x128或384x192等。
步骤十八,将第六样本图像输入至初始第二神经网络模型中,以通过初始第二神经网络模型输出第六样本图像中,第三对象的初始特征。
在实际实现时,在对训练数据original完成上述形变和填充处理后,即可输入到初始第二神经网络模型,通过该初始第二神经网络模型输出该处理后的训练数据original的初始特征,在训练过程中可以不需要监督信息,也可以有监督信息,如果有监督信息,则相应的监督信息可以是图像中行人的目标特征。
步骤十九,基于初始特征和目标特征确定第三损失值,基于第三损失值更新初始第二神经网络模型的权重参数;继续执行获取包含第三对象全部部位的第四样本图像的步骤,直至初始第二神经网络模型收敛,得到第二神经网络模型。
在实际实现时,在得到处理后的训练数据original中行人的初始特征后,可以基于初始特征和该目标特征,确定第三损失值,该第三损失值可以用于指示初始特征与目标特征之间的差距;可以基于该第三损失值更新初始第二神经网络模型的权重参数;继续执行获取包含第三对象全部部位的第四样本图像,以及第三对象的目标特征的步骤,直至初始第二神经网络模型收敛,该训练过程中,需要多个训练数据original,可以从预设数据集中获取得到多个训练数据original,每个训练数据original都需要经过上述形变和填充处理的过程,即,采用“pad augmentation”的预训练方式,得到该第二神经网络模型。
在实际实现时,可以将处理后的第一图像,输入至训练好的第二神经网络模型,通过该第二神经网络模型输出目标对象的对象特征,所提取的对象特征中通常包括该目标对象的可见部位的特征。
步骤S408,计算目标对象的对象特征与预设参考图像中指定对象的对象特征之间的特征距离,确定目标对象和指定对象是否为同一对象。
上述指定对象可以理解为在进行对象识别时,希望识别到的对象;上述预设参考图像可以是预先获取到的包含该指定对象的图像,并且通常预先获取到了该指定对象的对象特征;在实际实现时,可以从处理后的第一图像中提取目标对象的对象特征,检测该目标对象的对象特征与指定对象的对象特征之间的特征距离,并根据该特征距离来判断目标对象和指定对象的相似度,进而确认该目标对象和指定对象是否为同一对象,比如,当该特征距离小于或等于预设阈值时,判断目标对象和指定对象为同一对象;当该特征距离大于预设阈值时,判断目标对象和指定对象不是同一对象。
如果参考图像中指定对象的可见部位包含指定对象的全部部位,可以基于现有技术提取该指定对象的对象特征,如果参考图像中指定对象的可见部位不包含指定对象的全部部位,则参考图像中指定对象的对象特征可以通过下述步骤二十和步骤二十一确定:
步骤二十,如果参考图像中指定对象的可见部位不包含指定对象的全部部位,对参考图像进行形变和填充处理,以使参考图像中包含的指定对象的可见部位在参考图像中的相对位置,满足预设标准;预设标准包括:当参考图像中包含指定对象的全部部位时,可见部位在参考图像中的相对位置。
上述参考图像中指定对象的可见部位可能包含该指定对象的全部部位,也可能没有包含该指定对象的全部部位,如果参考图像中指定对象的可见部位不包含该指定对象的全部部位,考虑到当参考图像中包含指定对象的全部部位时,相应的可见部位的在参考图像中的相对位置通常会有差异,因此,可以对该参考图像进行形变处理和填充处理,使处理后的参考图像中包含的指定对象的可见部位在参考图像中的相对位置,与当参考图像中包含指定对象的全部部位时,相应的可见部位在第一图像中的相对位置相匹配;比如,该参考图像是包含行人的头部和上半身的半身图像,则可以对该半身图像进行压缩和填充处理,处理后的半身图像中该行人的头部和上半身在参考图像中的相对位置,与当该参考图像中包含该行人的全部身体部位时,该行人的头部和上半身在参考图像中的相对位置相同或对齐,且头部和上半身分别对应的尺寸通常也可以相同。
步骤二十一,从处理后的参考图像中提取指定对象的对象特征。
当对获取到的参考图像进行形变和填充处理后,就可以从处理后的参考图像中提取出指定对象相应的对象特征。
本发明实施例提供的对象识别方法,首先获取包含目标对象的第一图像;如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;通过第二神经网络模型,从处理后的第一图像中提取目标对象的对象特征。计算目标对象的对象特征与预设参考图像中指定对象的对象特征之间的特征距离,确定目标对象和指定对象是否为同一对象。该方式中,当图像中的目标对象的部位不完整时,对图像进行形变和填充处理,使目标对象中各个部位在图像中的相对位置与图像包含目标对象的完整部位时的相对位置相匹配,直接从处理后的图像中提取目标对象的对象特征,即可识别目标对象,无需进行各个部位的局部分割和识别,降低了对象识别的计算复杂度,有利于大规模部署。
为进一步理解上述实施例,下面以第一图像是行人图像为例,对该对象识别方法作进一步说明,在实际使用时,可以采用自学习的方式训练一个可见度预测模型(对应上述第一神经网络模型),用以感知行人图像中行人的可见部位;然后在训练和测试行人重识别模型(对应上述第二神经网络模型)时,对行人图像进行预处理,根据可见度预测模型预测出的可见部位,对相应的不可见部位用统一数值填充,以保证行人图像长宽比不变,且可见部位与当行人图像中包含该行人的全部部位时,相应的可见部位是对齐的。需要说明的是,考虑到可见度预测模型要求的图像大小可能小于行人重识别模型要求的图像大小,为了保证图像的信息量不会降低,上述可见度预测模型和行人重识别模型的训练过程通常是采用并行结构并行进行,一般不采用串行结构串行进行。
使用本方法训练的行人重识别模型,可以将半身图像和全身图像映射到同一特征子空间,再在该特征子空间中,对该半身图像和全身图像进行相似度比较,使用过程中每张图像只需要抽取一次特征,不论图像是半身图像还是全身图像,都使用这个单一的全局特征进行匹配,计算图像间的相似度,即可同时完成与全身图像和半身图像的匹配,不需要逐个提取局部特征,由于每张图像仅需要提取一次特征,所以降低了模型复杂度,且样本间距离仍然保持两两之间计算一次,距离计算复杂度最低,降低了样本间距离计算的复杂度,方便大规模部署。
相关技术中,半身图像的特征容易形成一个较独立的特征子空间,导致半身图像之间很接近,半身图像和对应的全身图像反而差别很大。本方案将半身图像整体分布调整到和全身图像一致,图像中每个行人可以有该行人对应的身份ID,每个ID可以有多张图像,每个ID的半身图像就可以回到属于自己ID的特征子空间之中,从而提高同ID的半身图像的召回,同时减少不同ID间半身图像中行人的误识别。另外,该方式可以采用自学习的训练方案,不需要额外的标注信息,如人体部件标注、人体姿态标注或人体可见部位标注等,从而进一步简化了对象识别的处理过程。
实施例五:
对应于上述方法实施例,参见图6所示的一种对象识别装置的结构示意图,该装置包括:获取模块60,用于获取包含目标对象的第一图像;处理模块61,用于如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;指定标准包括:当第一图像中包含目标对象的全部部位时,可见部位在第一图像中的相对位置;识别模块62,用于从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象。
本发明实施例提供的对象识别装置,首先获取包含目标对象的第一图像;如果第一图像中目标对象的可见部位不包含目标对象的全部部位,对该第一图像进行形变和填充处理,以使该第一图像中包含的目标对象的可见部位在第一图像中的相对位置满足指定标准;该指定标准包括:当第一图像中包含目标对象的全部部位时,可见部位在第一图像中的相对位置;最后从处理后的第一图像中提取目标对象的对象特征,基于对象特征识别目标对象。该装置中,当图像中的目标对象的部位不完整时,对图像进行形变和填充处理,使目标对象中各个部位在图像中的相对位置与图像包含目标对象的完整部位时的相对位置相匹配,直接从处理后的图像中提取目标对象的对象特征,即可识别目标对象,无需进行各个部位的局部分割和识别,降低了对象识别的计算复杂度,有利于大规模部署。
进一步的,处理模块61还用于:将第一图像输入至预先训练好的第一神经网络模型,通过第一神经网络模型识别第一图像中,目标对象的可见部位,基于可见部位确定第一图像的可见区域占比和填充分界标识;其中,填充分界标识用于:指示第一图像中目标对象的不可见部位的位置;如果可见区域占比小于1,确定第一图像中目标对象的可见部位不包含目标对象的全部部位,基于可见区域占比和填充分界标识,对第一图像进行形变和填充处理,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准。
进一步的,处理模块61还用于:基于可见区域占比,调整第一图像的尺寸,以使第一图像中包含的目标对象的可见部位在第一图像中的相对位置,满足指定标准;基于填充分界标识,对尺寸调整后的第一图像的不可见部位所对应的区域进行填充处理,以将第一图像的尺寸恢复至尺寸调整之前的尺寸。
进一步的,处理模块61还用于:基于可见区域占比和填充分界标识,对第一图像的不可见部位所对应的区域进行填充处理;调整填充处理后的第一图像的尺寸,以将填充处理后的第一图像的尺寸恢复至填充处理之前的尺寸,且调整后的第一图像中包含的目标对象的可见部位在调整后的第一图像中的相对位置,满足指定标准。
进一步的,识别模块62还用于:通过第二神经网络模型,从处理后的第一图像中提取目标对象的对象特征;其中,对象特征包括目标对象的可见部位的特征;计算目标对象的对象特征与预设参考图像中指定对象的对象特征之间的特征距离,确定目标对象和指定对象是否为同一对象。
进一步的,该装置还包括第一确定模块,预先训练好的第一神经网络模型,通过该第一确定模块确定,该第一确定模块用于:获取包含第一对象全部部位的第一样本图像;裁切第一样本图像中,包含第一对象至少一部分部位的指定区域,得到第二样本图像,以及第二样本图像的裁切比例和参考填充分界标识;将第二样本图像输入至初始第一神经网络模型中,以通过初始第一神经网络模型输出第二样本图像的初始可见区域占比和初始填充分界标识;基于初始可见区域占比、初始填充分界标识、裁切比例,和参考填充分界标识确定第一损失值,基于第一损失值更新初始第一神经网络模型的权重参数;继续执行获取包含第一对象全部部位的第一样本图像的步骤,直至初始第一神经网络模型收敛,得到第一神经网络模型。
进一步的,该装置还包括第二确定模块,预先训练好的第一神经网络模型,通过该第二确定模块确定,该第二确定模块用于:获取包含第二对象的第三样本图像,以及第二对象对应的全部部位检测框和可见部位检测框;将第三样本图像输入至初始第一神经网络模型中,以通过初始第一神经网络模型输出第二对象对应的包含全部部位的第一检测框,以及包含可见部位的第二检测框,基于第一检测框和第二检测框,确定第二对象的初始可见区域占比和初始填充分界标识;基于初始可见区域占比、初始填充分界标识、全部部位检测框和可见部位检测框,确定第二损失值,基于第二损失值更新初始第一神经网络模型的权重参数;继续执行获取包含第二对象的第三样本图像的步骤,直至初始第一神经网络模型收敛,得到第一神经网络模型。
进一步的,该装置还包括第三确定模块,第二神经网络模型,通过该第三确定模块确定,该第三确定模块用于:获取包含第三对象全部部位的第四样本图像,以及第三对象的目标特征;裁切第四样本图像中,包含第三对象至少一部分部位的指定区域,得到第五样本图像;对第五样本图像进行填充处理,得到第六样本图像;其中,第三对象的指定部位在第六样本图像中的相对位置,与第三对象的指定部位在第四样本图像中的相对位置相匹配;将第六样本图像输入至初始第二神经网络模型中,以通过初始第二神经网络模型输出第六样本图像中,第三对象的初始特征;基于初始特征和目标特征确定第三损失值,基于第三损失值更新初始第二神经网络模型的权重参数;继续执行获取包含第三对象全部部位的第四样本图像的步骤,直至初始第二神经网络模型收敛,得到第二神经网络模型。
本发明实施例所提供的对象识别装置,其实现原理及产生的技术效果和前述对象识别方法实施例相同,为简要描述,对象识别装置实施例部分未提及之处,可参考前述对象识别方法实施例中相应内容。
实施例六:
本发明实施例还提供了一种电子系统,该电子系统包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取预览视频帧或图像数据;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述对象识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述对象识别方法的步骤。
本发明实施例所提供的对象识别方法、装置和电子系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和/或装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种对象识别方法,其特征在于,所述方法包括:
获取包含目标对象的第一图像;
如果所述第一图像中所述目标对象的可见部位不包含所述目标对象的全部部位,对所述第一图像进行形变和填充处理,以使所述第一图像中包含的所述目标对象的可见部位在所述第一图像中的相对位置,满足指定标准;所述指定标准包括:当所述第一图像中包含所述目标对象的全部部位时,所述可见部位在所述第一图像中的相对位置;
从处理后的所述第一图像中提取所述目标对象的对象特征,基于所述对象特征识别所述目标对象。
2.根据权利要求1所述的方法,其特征在于,所述如果所述第一图像中所述目标对象的可见部位不包含所述目标对象的全部部位,对所述第一图像进行形变和填充处理,以使所述第一图像中包含的所述目标对象的可见部位在所述第一图像中的相对位置,满足指定标准的步骤包括:
将所述第一图像输入至预先训练好的第一神经网络模型,通过所述第一神经网络模型识别所述第一图像中,所述目标对象的可见部位,基于所述可见部位确定所述第一图像的可见区域占比和填充分界标识;其中,所述填充分界标识用于:指示所述第一图像中所述目标对象的不可见部位的位置;
如果所述可见区域占比小于1,确定所述第一图像中所述目标对象的可见部位不包含所述目标对象的全部部位,基于所述可见区域占比和所述填充分界标识,对所述第一图像进行形变和填充处理,以使所述第一图像中包含的所述目标对象的可见部位在所述第一图像中的相对位置,满足指定标准。
3.根据权利要求2所述的方法,其特征在于,所述基于所述可见区域占比和所述填充分界标识,对所述第一图像进行形变和填充处理,以使所述第一图像中包含的所述目标对象的可见部位在所述第一图像中的相对位置,满足指定标准的步骤包括:
基于所述可见区域占比,调整所述第一图像的尺寸,以使所述第一图像中包含的所述目标对象的可见部位在所述第一图像中的相对位置,满足指定标准;
基于所述填充分界标识,对尺寸调整后的所述第一图像的不可见部位所对应的区域进行填充处理,以将所述第一图像的尺寸恢复至尺寸调整之前的尺寸。
4.根据权利要求2所述的方法,其特征在于,基于所述可见区域占比和所述填充分界标识,对所述第一图像进行形变和填充处理,以使所述第一图像中包含的所述目标对象的可见部位在所述第一图像中的相对位置,满足指定标准的步骤包括:
基于所述可见区域占比和所述填充分界标识,对所述第一图像的不可见部位所对应的区域进行填充处理;
调整填充处理后的所述第一图像的尺寸,以将填充处理后的所述第一图像的尺寸恢复至填充处理之前的尺寸,且调整后的所述第一图像中包含的所述目标对象的可见部位在调整后的所述第一图像中的相对位置,满足指定标准。
5.根据权利要求1所述的方法,其特征在于,所述从处理后的所述第一图像中提取所述目标对象的对象特征,基于所述对象特征识别所述目标对象的步骤包括:
通过第二神经网络模型,从处理后的所述第一图像中提取所述目标对象的对象特征;其中,所述对象特征包括所述目标对象的可见部位的特征;
计算所述目标对象的对象特征与预设参考图像中指定对象的对象特征之间的特征距离,确定所述目标对象和所述指定对象是否为同一对象。
6.根据权利要求2所述的方法,其特征在于,所述预先训练好的第一神经网络模型,通过下述方式确定:
获取包含第一对象全部部位的第一样本图像;
裁切所述第一样本图像中,包含所述第一对象至少一部分部位的指定区域,得到第二样本图像,以及所述第二样本图像的裁切比例和参考填充分界标识;
将所述第二样本图像输入至初始第一神经网络模型中,以通过所述初始第一神经网络模型输出所述第二样本图像的初始可见区域占比和初始填充分界标识;
基于所述初始可见区域占比、所述初始填充分界标识、所述裁切比例,和所述参考填充分界标识确定第一损失值,基于所述第一损失值更新所述初始第一神经网络模型的权重参数;继续执行获取包含第一对象全部部位的第一样本图像的步骤,直至所述初始第一神经网络模型收敛,得到所述第一神经网络模型。
7.根据权利要求2所述的方法,其特征在于,所述预先训练好的第一神经网络模型,通过下述方式确定:
获取包含第二对象的第三样本图像,以及所述第二对象对应的全部部位检测框和可见部位检测框;
将所述第三样本图像输入至初始第一神经网络模型中,以通过所述初始第一神经网络模型输出所述第二对象对应的包含全部部位的第一检测框,以及包含可见部位的第二检测框,基于所述第一检测框和所述第二检测框,确定所述第二对象的初始可见区域占比和初始填充分界标识;
基于所述初始可见区域占比、初始填充分界标识、所述全部部位检测框和所述可见部位检测框,确定第二损失值,基于所述第二损失值更新所述初始第一神经网络模型的权重参数;继续执行获取包含第二对象的第三样本图像的步骤,直至所述初始第一神经网络模型收敛,得到所述第一神经网络模型。
8.根据权利要求5所述的方法,其特征在于,所述第二神经网络模型,通过下述方式确定:
获取包含第三对象全部部位的第四样本图像,以及所述第三对象的目标特征;
裁切所述第四样本图像中,包含所述第三对象至少一部分部位的指定区域,得到第五样本图像;
对所述第五样本图像进行填充处理,得到第六样本图像;其中,所述第三对象的指定部位在所述第六样本图像中的相对位置,与所述第三对象的指定部位在所述第四样本图像中的相对位置相匹配;
将所述第六样本图像输入至初始第二神经网络模型中,以通过所述初始第二神经网络模型输出所述第六样本图像中,所述第三对象的初始特征;
基于所述初始特征和所述目标特征确定第三损失值,基于所述第三损失值更新所述初始第二神经网络模型的权重参数;继续执行获取包含第三对象全部部位的第四样本图像的步骤,直至所述初始第二神经网络模型收敛,得到所述第二神经网络模型。
9.一种对象识别装置,其特征在于,所述装置包括:
获取模块,用于获取包含目标对象的第一图像;
处理模块,用于如果所述第一图像中所述目标对象的可见部位不包含所述目标对象的全部部位,对所述第一图像进行形变和填充处理,以使所述第一图像中包含的所述目标对象的可见部位在所述第一图像中的相对位置,满足指定标准;所述指定标准包括:当所述第一图像中包含所述目标对象的全部部位时,所述可见部位在所述第一图像中的相对位置;
识别模块,用于从处理后的所述第一图像中提取所述目标对象的对象特征,基于所述对象特征识别所述目标对象。
10.一种电子系统,其特征在于,所述电子系统包括:图像采集设备、处理设备和存储装置;
所述图像采集设备,用于获取预览视频帧或图像数据;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至8任一项所述的对象识别方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1至8任一项所述的对象识别方法的步骤。
CN202110756923.XA 2021-07-05 2021-07-05 对象识别方法、装置和电子系统 Pending CN113673308A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110756923.XA CN113673308A (zh) 2021-07-05 2021-07-05 对象识别方法、装置和电子系统
PCT/CN2022/086920 WO2023279799A1 (zh) 2021-07-05 2022-04-14 对象识别方法、装置和电子系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110756923.XA CN113673308A (zh) 2021-07-05 2021-07-05 对象识别方法、装置和电子系统

Publications (1)

Publication Number Publication Date
CN113673308A true CN113673308A (zh) 2021-11-19

Family

ID=78538588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110756923.XA Pending CN113673308A (zh) 2021-07-05 2021-07-05 对象识别方法、装置和电子系统

Country Status (2)

Country Link
CN (1) CN113673308A (zh)
WO (1) WO2023279799A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023279799A1 (zh) * 2021-07-05 2023-01-12 北京旷视科技有限公司 对象识别方法、装置和电子系统
CN115731517A (zh) * 2022-11-22 2023-03-03 南京邮电大学 一种基于Crowd-RetinaNet网络的拥挤人群检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017311B2 (en) * 2014-06-30 2021-05-25 Hewlett Packard Enterprise Development Lp Dataset augmentation based on occlusion and inpainting
US10825148B2 (en) * 2018-11-29 2020-11-03 Adobe Inc. Boundary-aware object removal and content fill
CN113673308A (zh) * 2021-07-05 2021-11-19 北京旷视科技有限公司 对象识别方法、装置和电子系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023279799A1 (zh) * 2021-07-05 2023-01-12 北京旷视科技有限公司 对象识别方法、装置和电子系统
CN115731517A (zh) * 2022-11-22 2023-03-03 南京邮电大学 一种基于Crowd-RetinaNet网络的拥挤人群检测方法
CN115731517B (zh) * 2022-11-22 2024-02-20 南京邮电大学 一种基于Crowd-RetinaNet网络的拥挤人群检测方法

Also Published As

Publication number Publication date
WO2023279799A1 (zh) 2023-01-12

Similar Documents

Publication Publication Date Title
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
CN109657533A (zh) 行人重识别方法及相关产品
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN106408037B (zh) 图像识别方法及装置
CN111813997B (zh) 入侵分析方法、装置、设备及存储介质
CN109299658B (zh) 脸部检测方法、脸部图像渲染方法、装置及存储介质
CN111160275B (zh) 行人重识别模型训练方法、装置、计算机设备和存储介质
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
CN113569598A (zh) 图像处理方法和图像处理装置
CN112818821B (zh) 基于可见光和红外光的人脸采集源检测方法和装置
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN114219855A (zh) 点云法向量的估计方法、装置、计算机设备和存储介质
CN112101195A (zh) 人群密度预估方法、装置、计算机设备和存储介质
CN113516146A (zh) 一种数据分类方法、计算机及可读存储介质
CN111353385B (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN114359618A (zh) 神经网络模型的训练方法、电子设备及计算机程序产品
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN112926616B (zh) 图像匹配方法和装置、电子设备、计算机可读存储介质
CN112766176A (zh) 轻量化卷积神经网络的训练方法及人脸属性识别方法
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN115565146A (zh) 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统
CN113743313A (zh) 一种行人识别方法、装置及电子设备
CN114648604A (zh) 一种图像渲染方法、电子设备、存储介质及程序产品
CN114005017A (zh) 目标检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination