CN115100689B - 一种对象检测方法、装置、电子设备和存储介质 - Google Patents

一种对象检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115100689B
CN115100689B CN202211014463.4A CN202211014463A CN115100689B CN 115100689 B CN115100689 B CN 115100689B CN 202211014463 A CN202211014463 A CN 202211014463A CN 115100689 B CN115100689 B CN 115100689B
Authority
CN
China
Prior art keywords
image
boundary information
detected
target
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211014463.4A
Other languages
English (en)
Other versions
CN115100689A (zh
Inventor
潘华东
孙鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202211014463.4A priority Critical patent/CN115100689B/zh
Publication of CN115100689A publication Critical patent/CN115100689A/zh
Application granted granted Critical
Publication of CN115100689B publication Critical patent/CN115100689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像处理技术领域,尤其涉及一种对象检测方法、装置、电子设备和存储介质,用以提高对象检测效率。其中,方法包括:对获取的待检测图像进行特征提取,获得图像特征;将图像特征分别与目标对象对应的多个参考对象特征进行特征融合,获得多个图像融合特征,基于各图像融合特征,对待检测图像进行对象检测,获得各个目标对象各自对应的多个候选边界信息和置信度;基于各候选边界信息和置信度,筛选出各个目标对象在待检测图像中的目标边界信息。本申请在需要检测不同的目标对象时,只需要将待检测图像的图像特征与目标对象对应的参考特征融合,即可基于图像融合特征获得目标对象在待检测图像中的目标边界信息,能够有效提高对象检测效率。

Description

一种对象检测方法、装置、电子设备和存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种对象检测方法、装置、电子设备和存储介质。
背景技术
随着智能化技术的普及,各行各业对于特定对象的检测需求日益增多,例如,在易燃易爆场所检测到烟头时报警,在工厂检测生产的商品进行计数,对工地作业人员是否佩戴安全帽进行检测。通过对特定对象的检测,能够实现提高生产效率,保障公民的生命财产安全等效果。
相关技术中,针对特定对象的检测需求,主要是采用标注图像中的特定对象的位置信息,使用标注后的图像训练深度学习模型,通过训练好的深度学习模型检测图像中的包含的对象。但是,基于上述方式进行对象检测,由于不同行业场景差异性大,模型可复制性低,针对不同对象都需要采集大量图像训练不同的模型,训练成本高,耗费时间长,难以应对不同行业对于不同对象的检测需求。因此,如何提高对象检测效率成为目前亟待解决的问题。
发明内容
本申请实施例提供一种对象检测方法、装置、电子设备和存储介质,用以提高对象检测效率。
本申请实施例提供的第一种对象检测方法,包括:
获取待检测图像,并对所述待检测图像进行特征提取,获得所述待检测图像的图像特征;
获取目标对象对应的多个参考对象特征,每个参考对象特征是通过对包含所述目标对象的一个参考图像进行特征提取获得的;
将所述图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,并分别基于各个图像融合特征,对所述待检测图像进行对象检测,获得所述待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;
基于各个候选边界信息相应的置信度,从所述各个候选边界信息中确定出所述各个目标对象各自在所述待检测图像中的目标边界信息。
本申请实施例提供的第二种对象检测方法,包括:
响应于检测目标对象的触发操作,显示对象检测界面,所述对象检测界面展示有第一上传控件,所述第一上传控件用于上传待检测图像;
响应于基于所述第一上传控件触发的上传操作,显示检测结果界面,通过所述检测结果界面展示包含标注框的所述待检测图像,所述标注框是基于所述目标对象在所述待检测图像中的目标边界信息生成的;所述目标边界信息是通过上述对象检测方法获得的。
在一种可选的实施方式中,所述对象检测展示界面还包括第二上传控件,所述方法还包括:
响应于基于所述第二上传控件触发的上传操作,接收多个包含所述目标对象的参考图像,以通过卷积网络对接收的各个参考图像进行特征提取,获得所述目标对象对应的各个参考对象特征,将所述各个参考对象特征保存到对象特征集合,并基于所述目标对象的对象标识信息,将所述参考对象特征与所述目标对象进行关联。
本申请实施例提供的第一种对象检测装置,包括:
提取单元,用于获取待检测图像,并对所述待检测图像进行特征提取,获得所述待检测图像的图像特征;
获取单元,用于获取目标对象对应的多个参考对象特征,每个参考对象特征是通过对包含所述目标对象的一个参考图像进行特征提取获得的;
融合单元,用于将所述图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,并分别基于各个图像融合特征,对所述待检测图像进行对象检测,获得所述待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;
筛选单元,用于基于各个候选边界信息相应的置信度,从所述各个候选边界信息中确定出所述各个目标对象各自在所述待检测图像中的目标边界信息。可选的,所述装置还包括划分单元,用于:
对每个图像融合特征,分别执行以下操作:
针对一个图像融合特征,基于预设的检测框信息对所述一个图像融合特征进行区域划分,获得至少一个对象检测区域,所述检测框信息用于划分所述图像融合特征中进行对象检测的区域。
可选的,所述融合单元具体用于:
对每个图像融合特征,分别执行以下操作:
针对一个图像融合特征,分别对获得的各个对象检测区域进行分类,获得各个对象检测区域包含所述目标对象的置信度;
基于所述各个对象检测区域对所述目标对象进行对象边界预测,获得所述各个对象检测区域各自对应的候选边界信息,并将所述对象检测区域的置信度作为相应的候选边界信息的置信度。
可选的,所述筛选单元具体用于:
基于所述各个候选边界信息相应的置信度,对所述各个候选边界信息组成的候选集合进行迭代筛选,并将最后一次迭代筛选获得的目标集合中的候选边界信息,作为所述目标边界信息;其中,在一次迭代筛选过程中执行以下步骤:
将当前候选集合中的各个候选边界信息对应的置信度按照大小排序,并将对应的排序结果在预设次序的候选边界信息加入目标集合;
分别确定所述对应的排序结果在预设次序的候选边界信息,与所述候选集合中剩余的各个候选边界信息的交并比,并将所述当前候选集合中交并比小于或等于预设阈值的候选边界信息,保留在所述当前候选集合中。
可选的,所述筛选单元还用于:
若确定的各个交并比均小于预设阈值,则不更新所述候选集合。
可选的,所述筛选单元还用于:
响应于确定的各个交并比均大于所述预设阈值,停止所述迭代筛选。
可选的,所述预设次序的候选边界信息为:排序结果中置信度最高的候选边界信息。
可选的,所述装置还包括关联单元,用于:
对每个参考图像分别执行以下操作:
针对一个参考图像,基于卷积网络对所述一个参考图像进行特征提取,获得对应的参考对象特征;
将所述参考对象特征保存到对象特征集合,并基于所述目标对象的对象标识信息,将所述参考对象特征与所述目标对象进行关联。
可选的,所述提取单元具体用于:
基于所述卷积网络对所述待检测图像进行特征提取,获得所述待检测图像的图像特征。
可选的,所述获取单元具体用于:
获取所述目标对象的对象标识信息;
基于所述对象标识信息,从所述对象特征集合中获取所述目标对象关联的多个参考对象特征。
本申请实施例提供的第二种对象检测装置,包括:
第一响应单元,用于响应于检测目标对象的触发操作,显示对象检测界面,所述对象检测界面展示有第一上传控件,所述第一上传控件用于上传待检测图像;
第二响应单元,用于基于所述第一上传控件触发的上传操作,显示检测结果界面,通过所述检测结果界面展示包含标注框的所述待检测图像,所述标注框是基于所述目标对象在所述待检测图像中的目标边界信息生成的;所述目标边界信息是通过上述对象检测方法获得的。
可选的,所述对象检测展示界面还包括第二上传控件,所述装置还包括上传单元,用于:
响应于基于所述第二上传控件触发的上传操作,接收多个包含所述目标对象的参考图像,以通过卷积网络对接收的各个参考图像进行特征提取,获得所述目标对象对应的各个参考对象特征,将所述各个参考对象特征保存到对象特征集合,并基于所述目标对象的对象标识信息,将所述参考对象特征与所述目标对象进行关联。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种对象检测方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种对象检测方法的步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种对象检测方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种对象检测方法、装置、电子设备和存储介质,本申请通过获取待检测图像,并对待检测图像进行特征提取,获得待检测图像的图像特征;在需要检测不同的目标对象时,无需采集大量图像训练不同的模型,而是获取目标对象对应的多个参考对象特征,并分别将图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息,大大缩短开发周期,能够应对不同行业关于对象检测的碎片化需求,有效提高对象检测效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的一种初始图像的示意图;
图2为本申请实施例中的一种应用场景的一个可选的示意图;
图3为本申请实施例中的一种对象检测方法的实施流程图;
图4为本申请实施例中的一种目标模板小图的示意图;
图5为本申请实施例中的一组参考图像的示意图;
图6A为本申请实施例中的一种对象检测方法的具体流程示意图;
图6B为本申请实施例中的一种对象检测方法的检测过程示意图;
图7为本申请实施例中的另一种对象检测方法的实施流程图;
图8为本申请实施例中的一种对象检测界面的示意图;
图9为本申请实施例中的一种检测结果界面的示意图;
图10为本申请实施例中的另一种对象检测界面的示意图;
图11本申请实施例中的一种对象检测装置的结构示意图;
图12本申请实施例中的另一种对象检测装置的结构示意图;
图13为应用本申请实施例的一种电子设备的一个硬件组成结构示意图;
图14为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
参考图像:指包含目标对象的样本图像,选取的多个参考图像应尽量包含目标对象的多个维度,例如,多个参考图像包含的目标对象可以为不同角度、不同姿态(直立,倾斜,倒地)、不同光照条件下的目标对象,并且参考图像的维度选取的越丰富后续对象检测的准确率越高。
图像融合特征:指通过将待检测图像的图像融合特征与各个参考对象特征进行特征融合获得的特征,图像融合特征与参考对象特征一一对应。
候选边界信息:指基于各个图像融合特征对待检测图像进行对象检测,获得的目标对象可能的边界信息,每个图像融合特征对应至少一个候选边界信息,因此每个待检测图像对应多个候选边界信息。
目标边界信息:指基于候选边界信息的置信度筛选获得的目标对象的目标边界信息,通过对候选边界信息筛选,能够去除同一目标对象对应的多个相似的候选边界信息。由于待检测图像中包含的目标对象可能多于一个,因此目标边界信息的数量不是一定的。
对象检测区域:指待检测图像中进行对象检测的区域,对象检测区域是基于预设的检测框信息获得的,因此可以是检测框的形式,对象检测区域中可能包含目标对象,也可能不包含目标对象,对象检测区域的置信度表示对象检测区域中包含目标对象的概率。
候选集合:候选集合中包含候选边界信息,每次迭代筛选将当前候选集合中置信度最高的候选边界信息移动到目标集合中,直至候选集合中的候选边界信息的数量为零,停止迭代筛选将目标集合中的候选边界信息作为待检测图像中的目标对象的目标边界信息。
目标集合:目标集合中的候选边界信息即为待检测图像中的目标对象的目标边界信息,目标集合中包含的候选边界信息的数量与目标对象的数量相同。
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面对本申请实施例的设计思想进行简要介绍:
随着智能化技术的普及,各行各业对于特定对象的检测需求日益增多,例如,在易燃易爆场所检测到烟头时报警,在工厂检测生产的商品进行计数,对工地作业人员是否佩戴安全帽进行检测。通过对特定对象的检测,能够实现提高生产效率,保障公民的生命财产安全等效果。
相关技术中,针对特定对象的检测需求,主要是采用标注图像中的特定对象的位置信息,使用标注后的图像训练深度学习模型,通过训练好的深度学习模型检测图像中的包含的对象。但是,基于上述方式进行对象检测,由于不同行业场景差异性大,模型可复制性低,针对不同对象都需要采集大量图像训练不同的模型,训练成本高,耗费时间长,难以应对不同行业对于不同对象的检测需求。因此,如何提高对象检测效率成为目前亟待解决的问题。
有鉴于此,本申请实施例提供了一种对象检测方法、装置、电子设备和存储介质,本申请通过获取待检测图像,并对待检测图像进行特征提取,获得待检测图像的图像特征;在需要检测不同的目标对象时,无需采集大量图像训练不同的模型,而是获取目标对象对应的多个参考对象特征,并分别将图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息,大大缩短开发周期,能够应对不同行业关于对象检测的碎片化需求,有效提高对象检测效率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。
在本申请实施例中,终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有对象检测相关的客户端,该客户端可以是软件(例如浏览器、拍照软件等),也可以是网页、小程序等,服务器120则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行对象检测的服务器,本申请不做具体限定。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例中的对象检测方法可以由电子设备执行,该电子设备可以为服务器120或者终端设备110,即,该方法可以由服务器120或者终端设备110单独执行,也可以由服务器120和终端设备110共同执行。比如由服务器120和终端设备110共同执行时,终端设备110获取待检测图像,将待检测图像发送给服务器120,服务器120对待检测图像进行特征提取,获得待检测图像的图像特征;获取目标对象对应的多个参考对象特征,将图像特征与各个参考对象特征进行特征融合,获得多个图像融合特征,并分别基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息,服务器120将目标边界信息发送给终端设备110,以使终端设备110展示目标对象在待检测图像中的标注框。
在一种可选的实施方式中,终端设备110与服务器120之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。
需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
本申请实施例中,当服务器的数量为多个时,多个服务器可组成为一区块链,而服务器为区块链上的节点;如本申请实施例所公开的对象检测方法,其中所涉及的参考对象特征可保存于区块链上。
此外,本申请实施例可应用于各种场景,不仅包括对象检测场景,还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的对象检测方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参阅图2所示,为本申请实施例提供的一种对象检测方法的实施流程图,以执行主体为服务器为例,该方法的具体实施流程包括如下步骤S21-S24:
S21:服务器获取待检测图像,并对待检测图像进行特征提取,获得待检测图像的图像特征;
其中,待检测图像为可能包含目标对象的图像,提取到的图像特征是待检测图像的全部特征,待检测图像可以是图片流数据,也可以是视频流数据中的视频帧图像,本申请在此不做具体限定。参阅图3,其为本申请实施例中的一种待检测图像的示意图,目标对象为便携式灭火器(以下简称灭火器),则需要检测出图像中的两个灭火器的坐标信息(即目标边界信息)。
在一种可选的实施方式中,步骤S21可以实施为:
服务器获取待检测图像,并基于卷积网络对待检测图像进行特征提取,获得待检测图像的图像特征。
其中,对待检测图像进行特征提取的卷积网络可以是ResNet(残差网络)50、ResNet152、VGG(Visual Geometry Group,视觉几何组)、AlexNet等神经网络,本申请在此不做具体限定。
S22:服务器获取目标对象对应的多个参考对象特征;
其中,每个参考对象特征是通过对包含目标对象的一个参考图像进行特征提取获得的,即每个参考对象特征对应一个参考图像。本申请中的目标对象可以是区域内的各种物品,例如水杯、汽车等物品,也可以是人体附属物,例如手套、头盔等物品,还可以是人体手持物,例如灭火器、测温枪等物品,在此不做具体限定。
参考图像为包含目标对象的样本图像,为了使参考对象特征能够更准确的反映目标对象特征,在进行特征提取之前可以通过人工或其他方式对参考图像进行预处理,处理后的参考图像为目标模板小图,即除去背景外不包含其他目标。参阅图4,其为本申请实施例中的一种目标模板小图的示意图,目标对象为灭火器,除去背景外图中不包含其他目标。
选取参考图像的原则:包含目标对象的多个维度信息,以目标对象为灭火器为例,则可以选取不同角度、姿态(直立,倾斜,倒地)、不同光照条件下灭火器,参考图像选取的越丰富后续对象检测的准确率越高。参阅图5,其为本申请实施例中的一组参考图像的示意图,目标对象为灭火器,参考图像1、2、3分别包含不同角度、不同姿态下的灭火器,对参考图像1进行特征提取获得参考对象特征1,对参考图像2进行特征提取获得参考对象特征2,对参考图像3进行特征提取获得参考对象特征3。
在针对目标对象进行对象检测时,为了提高对象检测效率,可以为目标对象和对应的参考对象特征设置标识,能够更快获取到目标对象对应的参考对象特征。在一种可选的实施方式中,在步骤S22之前,还可执行以下步骤:
针对一个参考图像,基于卷积网络对一个参考图像进行特征提取,获得对应的参考对象特征;将参考对象特征保存到对象特征集合,并基于目标对象的对象标识信息,将参考对象特征与目标对象进行关联。
具体地,对于每个参考图像都可以通过上述方法进行特征提取,获得对应的参考图像特征。对参考图像进行特征提取的卷积网络可以是ResNet50、ResNet152、VGG、AlexNet等神经网络模型,并且对参考对象和待检测图像进行特征提取的为同一神经网络模型,例如使用ResNet50对参考对象和待检测图像进行特征提取。
目标对象的对象标识信息可以是与目标对象的名称相关的信息,例如目标对象为灭火器时,对象标识信息为灭火器,对象标识信息也可以是根据预设的编码方式设置的目标对象的唯一标识。在将参考对象特征与目标对象进行关联时,各个参考对象特征的标识信息可以与目标对象的对象标识信息一致,也可以基于对象标识信息生成参考对象的标识信息,例如,将对象标识信息作为前缀,在对象标识信息之后添加后缀区分不同的参考对象特征,以对象标识信息为10125为例,对应的参考对象特征a的标识信息为10125-1,参考对象特征b的标识信息为10125-2。
需要说明的是,上述实施例仅是为了说明将参考对象特征与目标对象进行关联的方式,实际上其他关联方式同样适用于本申请实施例,在此不做具体限定。
在一种可选的实施方式中,将目标对象与参考对象特征进行关联之后,则步骤S22可以实施为:
获取目标对象的对象标识信息;基于对象标识信息,从对象特征集合中获取目标对象关联的多个参考对象特征。
具体地,在获取待检测图像的同时,获取需要检测的目标对象的对象标识信息,基于对象标识信息获取目标对象关联的参考对象特征。
需要说明的是,在本申请实施例中,并不是每次对象检测过程中都需要对参考图像进行特征提取,仅需要在第一次检测目标对象时提取参考对象特征并保存至对象特征集合中(即注册目标模板的方式),后续存在对目标对象的检测需求时,直接从对象特征集合中获取对应的参考对象特征即可。
在本申请实施例中,通过基于目标对象的对象标识信息,将目标对象和对应的参考对象特征关联,在进行对象检测时,能够根据目标对象的对象标识信息,快速查找对应的参考对象特征,提高对象检测效率。
S23:服务器将图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,并分别基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;
具体地,进行特征融合的方式可以是将参考对象特征与图像特征进行点乘,获得的图像融合特征与参考对象特征一一对应。获得的候选边界信息可以是目标对象的坐标信息,例如,候选边界信息1为:左上角坐标(x1,y1),右下角坐标(x2,y2),置信度为0.7;候选边界信息2为:左上角坐标(x3,y3),右下角坐标(x4,y4),置信度为0.6。
需要说明的是,本申请中的对象检测方法不同于特征比对技术,特征比对技术的前提是已经有了目标对象的坐标信息,然后通过坐标信息来实现比对。而本申请是通过注册方式实现对象检测,即通过对包含目标对象的参考图像进行特征提取获得参考特征,实现注册目标对象后,在待检测图像中将目标对象检测出来,并输出目标对象的坐标信息(目标边界信息)以及置信度。
在本申请实施例中,当有新的对象检测需求时无需重新采集大量素材来训练开发不同的神经网络模型,直接通过将待检测的目标对象进行注册即可实现对象检测,大大缩短了开发周期,提升了交付效率。
在一种可选的实施方式中,在步骤S23之前,对每个图像融合特征还可实施以下步骤:
针对一个图像融合特征,基于预设的检测框信息对一个图像融合特征进行区域划分,获得至少一个对象检测区域;
其中,检测框信息用于划分图像融合特征中进行对象检测的区域。由于对图像融合特征的每一个区域以遍历的方式进行目标检测,产生的候选边界信息的数据量很大,并且会减缓对象检测效率,因此可以通过预设的检测框信息对图像融合特征进行划分,在获得的对象检测区域上进行对象检测。
在一种可选的实施方式中,获得对象检测区域之后,步骤S23可以实施为以下步骤1-2:
步骤1:针对一个图像融合特征,分别对获得的各个对象检测区域进行分类,获得各个对象检测区域包含目标对象的置信度;
步骤2:基于各个对象检测区域对目标对象进行对象边界预测,获得各个对象检测区域各自对应的候选边界信息,并将对象检测区域的置信度作为相应的候选边界信息的置信度。
其中,对一个对象检测区域进行分类,即判断此对象检测区域为背景信息还是前景目标,若对象检测区域的类别为前景目标,则表明此对象检测区域内包含目标对象,并获得包含目标对象的置信度;同时,基于对象检测区域预测目标对象的边界信息,将包含目标对象的置信度作为相应的候选边界信息的置信度。
S24:服务器基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息。
其中,由于待检测图像中可能包含多个目标对象,因此获得的目标边界信息的数量不唯一,对于一个目标对象而言,可以确定出多个候选边界信息,需要从中确定该目标对象的目标边界信息。
在本申请实施例中,通过获取待检测图像,并对待检测图像进行特征提取,获得待检测图像的图像特征;在需要检测不同的目标对象时,无需采集大量图像训练不同的模型,而是获取目标对象对应的多个参考对象特征,并分别将图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息,大大缩短开发周期,能够应对不同行业关于对象检测的碎片化需求,有效提高对象检测效率。
在一种可选的实施方式中,步骤S24可以实施为以下步骤S241:
S241:基于各个候选边界信息相应的置信度,对各个候选边界信息组成的候选集合进行迭代筛选,并将最后一次迭代筛选获得的目标集合中的候选边界信息,作为目标边界信息;其中,在一次迭代筛选过程中执行以下步骤:
首先,将当前候选集合中的各个候选边界信息对应的置信度按照大小排序,并将对应的排序结果在预设次序的候选边界信息加入目标集合;然后,分别确定对应的排序结果在预设次序的候选边界信息,与候选集合中剩余的各个候选边界信息的交并比,并将当前候选集合中交并比小于或等于预设阈值的候选边界信息,保留在当前候选集合中。
具体地,在进行迭代筛选之前,将各个候选边界信息加入候选集合,在每一次迭代筛选开始,将当前候选集合中排序结果在预设次序的候选边界信息加入目标集合,最后,迭代筛选结束后,将最后一次迭代筛选获得的目标集合中的候选边界信息作为目标边界信息。
在一次迭代筛选过程中,以排序结果在预设次序的候选边界信息为候选边界信息1为例,将候选边界信息1加入目标集合,候选集合中剩余的候选边界信息为:候选边界信息2、候选边界信息3和候选边界信息4,分别计算候选边界信息1与候选边界信息2-4的交并比,获得候选边界信息2对应的交并比1为0.9,候选边界信息3对应的交并比2为0.1,候选边界信息4对应的交并比3为0.2,预设阈值为0.5,则删除交并比1对应的候选边界信息2,将候选边界信息3和候选边界信息4保留在候选集合中。
在本申请实施例中,通过对各个候选边界信息进行迭代筛选,能够去除针对同一目标对象的多个相似的候选边界信息中置信度较低的,当待检测图像中存在多个目标对象时,获得的目标对象的目标边界信息更准确,提高对象检测准确率。
在一种可选的实施方式中,预设次序的候选边界信息为:排序结果中置信度最高的候选边界信息。
具体地,将当前候选集合中的各个候选边界信息对应的置信度按照大小排序,将排序结果中置信度最高的候选边界信息加入目标集合。
在一种可选的实施方式中,响应于确定的各个交并比均小于预设阈值,不更新候选集合。
具体地,在一次迭代筛选过程中,若确定的各个交并比均小于预设阈值,则直接进入下一次迭代筛选。
在一种可选的实施方式中,响应于确定的各个交并比均大于预设阈值,停止迭代筛选。
具体地,若在一次迭代筛选过程中,确定的各个交并比均大于预设阈值,则不存在需要保留在候选集合中的候选边界信息,删除各个对应的交并比大于预设阈值的候选边界信息后,候选集合中剩余的候选边界信息的数量为零,停止迭代筛选,将最后一次迭代筛选获得的目标集合中的候选边界信息,均作为目标边界信息。
下面对步骤S24中获得各个目标对象各自的目标边界信息的过程进行具体说明,仍以候选边界信息1、2、3、4为例,候选边界信息1的置信度为0.8,候选边界信息2的置信度为0.7,候选边界信息3的置信度为0.6,候选边界信息4的置信度为0.3,第一次迭代筛选:候选边界信息1的置信度最高,将候选边界信息1加入目标集合,分别计算候选边界信息1与候选边界信息2-4的交并比,获得候选边界信息2对应的交并比1为0.9,候选边界信息3对应的交并比2为0.1,候选边界信息4对应的交并比3为0.2,预设阈值为0.5,则删除交并比1对应的候选边界信息2,进入下一次迭代;第二次迭代筛选:当前候选集合中的候选边界信息为候选边界信息3和候选边界信息4,候选边界信息3的置信度最高,将候选边界信息3加入目标集合,计算候选边界信息3和候选边界信息4的交并比4为0.6,大于预设阈值,则删除候选边界信息4,此时候选集合中包含的候选边界信息的数量为零,停止迭代筛选,并将目标集合中的候选边界信息1和候选边界信息3作为目标边界信息。
在本申请实施例中,在迭代筛选过程中,每一次都会先确定出一个置信度最高的作为目标边界信息加入目标集合,并且删除与这个目标边界信息的交并比大于预设阈值的候选边界信息,最后当剩余的候选边界信息为零时(也即各个交并比均大于预设阈值,全部删除)停止迭代,将目标集合中的每一次迭代筛选出的置信度最高的,都作为目标边界信息。通过这种方式能够保留针对同一目标对象的多个相似的候选边界信息中置信度最高的,提高对象检测准确率。
参阅图6A,其为本申请实施例中的一种对象检测方法的具体流程示意图,首先确定待检测的物品(目标对象),选取N张待检测物品图像作为待检测目标模板图,选取模板的原则:包含物品多个维度信息,以灭火器为例,选取不同角度,姿态(直立,倾斜,倒地),不同光照条件下灭火器。模板选取的越丰富对后续检测效果越好。在注册目标模板过程中,通过已经训练好的CNN模型(特征提取模型)提取N个目标模板特征f1⋯fn,并保存到模板特征库中。这里的目标模板特征指的是通过CNN模型提取到的M维的特征向量。在目标检测过程中,当获取视频流数据或者图片流数据后,通过与注册目标模板过程中的特征提取模型提取待检测图像的场景图特征,这部分提取的场景图特征为待检测图像的全部特征信息。将得到的场景图特征与目标模板特征f1⋯fn成对送入已经训练好的目标检测模型,输出待检测图像包含的目标的坐标信息和置信度,实现注册物品检测目的。
下面以目标对象为灭火器为例介绍本申请中的对象检测方法,参阅图6B,其为本申请实施例中的一种对象检测方法的检测过程示意图,主要分为注册灭火器模板和灭火器检测两部分。第一部分注册灭火器模板:将三个灭火器模板图(即参考图像)输入特征提取模型(即卷积网络),提取灭火器模板特征(即参考对象特征),并将提取到的灭火器模板特征1、灭火器模板特征2和灭火器模板特征3,保存到模板特征库中。其中,灭火器模板图选取时保证尽可能的包含多个角度的图像,模板图越多检测效果越好,其可通过人工方式在场景图中截取,截取尽量减少背景图像。选取好灭火器模板图后,提取其特征存入模板特征库。
第二部分灭火器检测:实际使用时,输入待检测图像,为包含灭火器的场景图,同样使用特征提取模型提取特征,提取待检测图像的场景图特征(即图像特征)后,将其与模板特征库中的灭火器模板特征1、灭火器模板特征2和灭火器模板特征3分别成对送入目标检测网络,目标检测网络可以执行本申请中对各个参考对象特征与图像特征进行特征融合,基于各个图像融合特征,对待检测图像进行对象检测,并对候选边界信息进行筛选的步骤,最后输出目标坐标信息(即目标边界信息)和置信度。其中,目标检测网络可以为区域生成网络(Region Proposal Network,RPN),通过输入的特征回归出目标的坐标信息。
在本申请实施例中,通过注册方式实现通用物品检测,支持从未训练过的物品检测,对于新的物品检测需求无需重新采集大量素材重新训练不同的模型,能够大大缩短开发周期,可快速部署,应对各行业关于物品的碎片化检测需求,提高交付效率,并且可支持区域内物品检测、人体附属物检测和人体手持物检测等不同方面的检测任务。
参阅图7所示,为本申请实施例提供的另一种对象检测方法的实施流程图,应用于终端设备上安装的客户端,该方法的具体实施流程包括如下步骤S71-S72:
S71:客户端响应于检测目标对象的触发操作,显示对象检测界面;
其中,对象检测界面展示有第一上传控件,第一上传控件用于上传待检测图像,参阅图8,其为本申请实施例中的一种对象检测界面的示意图,其中S81为第一上传控件,用户可以通过第一上传控件上传待检测图像。
S72:客户端响应于基于第一上传控件的上传操作,显示检测结果界面,通过检测结果界面展示包含标注框的待检测图像。
其中,检测结果界面展示包含标注框的待检测图像,标注框是基于目标对象在待检测图像中的目标边界信息生成的;目标边界信息是基于上述实施例中的对象检测方法获得的,即目标边界信息是基于各个候选边界信息和相应的置信度,对各个候选边界信息进行筛选获得的,每个候选边界信息及相应的置信度是:基于将各个参考对象特征与待检测图像的图像特征进行特征融合获得的图像融合特征,对待检测图像进行对象检测得到的,每个参考对象特征是通过对包含目标对象的一个参考图像进行特征提取获得的,图像特征是对待检测图像进行特征提取获得的。上传待检测图像之后,获得目标对象在待检测图像中的目标边界信息的过程参见上述实施例,在此不做赘述。
参阅图9,其为本申请实施例中的一种检测结果界面的示意图,用户可以通过对第一上传控件S81的触发操作上传待检测图像,客户端响应于用户基于S81的上传操作,呈现检测结果界面,检测结果界面中展示待检测图像中的目标对象以标注框的形式突出显示。其中,触发操作可以是点击等操作,本申请在此不做具体限定。
在本申请实施例中,通过获取待检测图像,并对待检测图像进行特征提取,获得待检测图像的图像特征;在需要检测不同的目标对象时,无需采集大量图像训练不同的模型,而是获取目标对象对应的多个参考对象特征,并分别将图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息,大大缩短开发周期,能够应对不同行业关于对象检测的碎片化需求,有效提高对象检测效率。
在一种可选的实施方式中,对象检测展示界面还包括第二上传控件,客户端响应于基于第二上传控件触发的上传操作,接收多个包含目标对象的参考图像,以通过卷积网络对接收的各个参考图像进行特征提取,获得目标对象对应的各个参考对象特征,将各个参考对象特征保存到对象特征集合,并基于目标对象的对象标识信息,将参考对象特征与目标对象进行关联。
具体地,通过卷积网络对参考图像进行特征提取,获得参考对象特征的过程可参见上述实施例,在此不做赘述。参阅图10,其为本申请实施例中的另一种对象检测界面的示意图,其中,S1001为第二上传控件。实际上,在对象检测过程中,用户先通过第二上传控件上传参考图像,然后通过第一上传控件上传待检测图像,进而可以基于参考图像对待检测图像进行对象检测,获得目标对象的目标边界信息。
基于相同的发明构思,本申请实施例还提供一种对象检测装置。如图11所示,其为对象检测装置1100的结构示意图,可以包括:
提取单元1101,用于获取待检测图像,并对待检测图像进行特征提取,获得待检测图像的图像特征;
获取单元1102,用于获取目标对象对应的多个参考对象特征,每个参考对象特征是通过对包含目标对象的一个参考图像进行特征提取获得的;
融合单元1103,用于将图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,并分别基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;
筛选单元1104,用于基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息。
可选的,装置还包括划分单元1105,用于:
对每个图像融合特征,分别执行以下操作:
针对一个图像融合特征,基于预设的检测框信息对一个图像融合特征进行区域划分,获得至少一个对象检测区域,检测框信息用于划分图像融合特征中进行对象检测的区域。
可选的,融合单元1103具体用于:
对每个图像融合特征,分别执行以下操作:
针对一个图像融合特征,分别对获得的各个对象检测区域进行分类,获得各个对象检测区域包含目标对象的置信度;
基于各个对象检测区域对目标对象进行对象边界预测,获得各个对象检测区域各自对应的候选边界信息,并将对象检测区域的置信度作为相应的候选边界信息的置信度。
可选的,筛选单元1104具体用于:
基于各个候选边界信息相应的置信度,对各个候选边界信息组成的候选集合进行迭代筛选,并将最后一次迭代筛选获得的目标集合中的候选边界信息,作为目标边界信息;其中,在一次迭代筛选过程中执行以下步骤:
将当前候选集合中的各个候选边界信息对应的置信度按照大小排序,并将对应的排序结果在预设次序的候选边界信息加入目标集合;
分别确定对应的排序结果在预设次序的候选边界信息,与候选集合中剩余的各个候选边界信息的交并比,并将当前候选集合中交并比小于或等于预设阈值的候选边界信息,保留在当前候选集合中。
可选的,筛选单元1104还用于:
若确定的各个交并比均小于预设阈值,则不更新候选集合。
可选的,筛选单元1104还用于:
响应于确定的各个交并比均大于预设阈值,停止迭代筛选。
可选的,预设次序的候选边界信息为:排序结果中置信度最高的候选边界信息。
可选的,装置还包括关联单元1106,用于:
对每个参考图像分别执行以下操作:
针对一个参考图像,基于卷积网络对一个参考图像进行特征提取,获得对应的参考对象特征;
将参考对象特征保存到对象特征集合,并基于目标对象的对象标识信息,将参考对象特征与目标对象进行关联。
可选的,提取单元1101具体用于:
基于卷积网络对待检测图像进行特征提取,获得待检测图像的图像特征。
可选的,获取单元1102具体用于:
获取目标对象的对象标识信息;
基于对象标识信息,从对象特征集合中获取目标对象关联的多个参考对象特征。
在本申请实施例中,通过获取待检测图像,并对待检测图像进行特征提取,获得待检测图像的图像特征;在需要检测不同的目标对象时,无需采集大量图像训练不同的模型,而是获取目标对象对应的多个参考对象特征,并分别将图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息,大大缩短开发周期,能够应对不同行业关于对象检测的碎片化需求,有效提高对象检测效率。
基于相同的发明构思,本申请实施例还提供另一种对象检测装置。如图12所示,其为对象检测装置1200的结构示意图,可以包括:
第一响应单元,用于响应于检测目标对象的触发操作,显示对象检测界面,对象检测界面展示有第一上传控件,第一上传控件用于上传待检测图像;
第二响应单元,用于基于第一上传控件触发的上传操作,显示检测结果界面,通过检测结果界面展示包含标注框的待检测图像,标注框是基于目标对象在待检测图像中的目标边界信息生成的;目标边界信息是通过上述对象检测方法获得的。
可选的,对象检测展示界面还包括第二上传控件,装置还包括上传单元,用于:
响应于基于第二上传控件触发的上传操作,接收多个包含目标对象的参考图像,以通过卷积网络对接收的各个参考图像进行特征提取,获得目标对象对应的各个参考对象特征,将各个参考对象特征保存到对象特征集合,并基于目标对象的对象标识信息,将参考对象特征与目标对象进行关联。
在本申请实施例中,通过获取待检测图像,并对待检测图像进行特征提取,获得待检测图像的图像特征;在需要检测不同的目标对象时,无需采集大量图像训练不同的模型,而是获取目标对象对应的多个参考对象特征,并分别将图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,基于各个图像融合特征,对待检测图像进行对象检测,获得待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;基于各个候选边界信息相应的置信度,从各个候选边界信息中确定出各个目标对象各自在待检测图像中的目标边界信息,大大缩短开发周期,能够应对不同行业关于对象检测的碎片化需求,有效提高对象检测效率。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器130。在该实施例中,电子设备的结构可以如图13所示,包括存储器1301,通讯模块1303以及一个或多个处理器1302。
存储器1301,用于存储处理器1302执行的计算机程序。存储器1301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1301可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1301也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1301是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1301可以是上述存储器的组合。
处理器1302,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1302,用于调用存储器1301中存储的计算机程序时实现上述对象检测方法。
通讯模块1303用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1301、通讯模块1303和处理器1302之间的具体连接介质。本申请实施例在图13中以存储器1301和处理器1302之间通过总线1304连接,总线1304在图13中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1304可以分为地址总线、数据总线、控制总线等。为便于描述,图13中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1301中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的对象检测方法。处理器1302用于执行上述的对象检测方法,如图2所示。
在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图14所示,包括:通信组件1410、存储器1420、显示单元1430、摄像头1440、传感器1450、音频电路1460、蓝牙模块1470、处理器1480等部件。
通信组件1410用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器1420可用于存储软件程序及数据。处理器1480通过运行存储在存储器1420的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1420存储有使得终端设备110能运行的操作系统。本申请中存储器1420可以存储操作系统及各种应用程序,还可以存储执行本申请实施例对象检测方法的计算机程序。
显示单元1430还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1430可以包括设置在终端设备110正面的显示屏1432。其中,显示屏1432可以采用液晶显示器、发光二极管等形式来配置。显示单元1430可以用于显示本申请实施例中的对象检测用户界面等。
显示单元1430还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元1430可以包括设置在终端设备110正面的触摸屏1431,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触摸屏1431可以覆盖在显示屏1432之上,也可以将触摸屏1431与显示屏1432集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1430可以显示应用程序以及对应的操作步骤。
摄像头1440可用于捕获静态图像,用户可以将摄像头1440拍摄的图像通过应用发布评论。摄像头1440可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1480转换成数字图像信号。
终端设备还可以包括至少一种传感器1450,比如加速度传感器1451、距离传感器1452、指纹传感器1453、温度传感器1454。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1460、扬声器1461、传声器1462可提供用户与终端设备110之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号,传输到扬声器1461,由扬声器1461转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460接收后转换为音频数据,再将音频数据输出至通信组件1410以发送给比如另一终端设备110,或者将音频数据输出至存储器1420以便进一步处理。
蓝牙模块1470用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1470与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1480是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1420内的软件程序,以及调用存储在存储器1420内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1480可包括一个或多个处理单元;处理器1480还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1480中。本申请中处理器1480可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的对象检测方法。另外,处理器1480与显示单元1430耦接。
在一些可能的实施方式中,本申请提供的对象检测方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的对象检测方法中的步骤,例如,电子设备可以执行如图2或图7中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种对象检测方法,其特征在于,该方法包括:
获取待检测图像,并对所述待检测图像进行特征提取,获得所述待检测图像的图像特征;
获取目标对象对应的多个参考对象特征,每个参考对象特征是通过对包含所述目标对象的一个参考图像进行特征提取获得的;
将所述图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,并分别基于各个图像融合特征,对所述待检测图像进行对象检测,获得所述待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;
基于各个候选边界信息相应的置信度,从所述各个候选边界信息中确定出所述各个目标对象各自在所述待检测图像中的目标边界信息。
2.如权利要求1所述的方法,其特征在于,在所述分别基于各个图像融合特征,对所述待检测图像进行对象检测,获得所述待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度之前,还包括:
对每个图像融合特征,分别执行以下操作:
针对一个图像融合特征,基于预设的检测框信息对所述一个图像融合特征进行区域划分,获得至少一个对象检测区域,所述检测框信息用于划分所述图像融合特征中进行对象检测的区域。
3.如权利要求2所述的方法,其特征在于,所述分别基于各个图像融合特征,对所述待检测图像进行对象检测,获得所述待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度,包括:
对每个图像融合特征,分别执行以下操作:
针对一个图像融合特征,分别对获得的各个对象检测区域进行分类,获得各个对象检测区域包含所述目标对象的置信度;
基于所述各个对象检测区域对所述目标对象进行对象边界预测,获得所述各个对象检测区域各自对应的候选边界信息,并将所述对象检测区域的置信度作为相应的候选边界信息的置信度。
4.如权利要求1所述的方法,其特征在于,所述基于各个候选边界信息相应的置信度,从所述各个候选边界信息中确定出所述各个目标对象各自在所述待检测图像中的目标边界信息,包括:
基于所述各个候选边界信息相应的置信度,对所述各个候选边界信息组成的候选集合进行迭代筛选,并将最后一次迭代筛选获得的目标集合中的候选边界信息,作为所述目标边界信息;其中,在一次迭代筛选过程中执行以下步骤:
将当前候选集合中的各个候选边界信息对应的置信度按照大小排序,并将对应的排序结果在预设次序的候选边界信息加入目标集合;
分别确定所述对应的排序结果在预设次序的候选边界信息,与所述候选集合中剩余的各个候选边界信息的交并比,并将所述当前候选集合中交并比小于或等于预设阈值的候选边界信息,保留在所述当前候选集合中。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
响应于确定的各个交并比均大于所述预设阈值,停止所述迭代筛选。
6.如权利要求4所述的方法,其特征在于,所述预设次序的候选边界信息为:排序结果中置信度最高的候选边界信息。
7.如权利要求1所述的方法,其特征在于,在所述获取所述目标对象对应的多个参考对象特征之前,还包括:
对每个参考图像分别执行以下操作:
针对一个参考图像,基于卷积网络对所述一个参考图像进行特征提取,获得对应的参考对象特征;
将所述参考对象特征保存到对象特征集合,并基于所述目标对象的对象标识信息,将所述参考对象特征与所述目标对象进行关联。
8.如权利要求7所述的方法,其特征在于,所述对所述待检测图像进行特征提取,获得所述待检测图像的图像特征:
基于所述卷积网络对所述待检测图像进行特征提取,获得所述待检测图像的图像特征。
9.如权利要求7所述的方法,其特征在于,所述获取目标对象对应的多个参考对象特征,包括:
获取所述目标对象的对象标识信息;
基于所述对象标识信息,从所述对象特征集合中获取所述目标对象关联的多个参考对象特征。
10.一种对象检测方法,其特征在于,所述方法包括:
响应于检测目标对象的触发操作,显示对象检测界面,所述对象检测界面展示有第一上传控件,所述第一上传控件用于上传待检测图像;
响应于基于所述第一上传控件触发的上传操作,显示检测结果界面,通过所述检测结果界面展示包含标注框的所述待检测图像,所述标注框是基于所述目标对象在所述待检测图像中的目标边界信息生成的;所述目标边界信息是通过权利要求1~9任一项所述的方法获得的。
11.如权利要求10所述的方法,其特征在于,所述对象检测展示界面还展示有第二上传控件,所述方法还包括:
响应于基于所述第二上传控件触发的上传操作,接收多个包含所述目标对象的参考图像,以通过卷积网络对接收的各个参考图像进行特征提取,获得所述目标对象对应的各个参考对象特征,将所述各个参考对象特征保存到对象特征集合,并基于所述目标对象的对象标识信息,将所述参考对象特征与所述目标对象进行关联。
12.一种对象检测装置,其特征在于,包括:
提取单元,用于获取待检测图像,并对所述待检测图像进行特征提取,获得所述待检测图像的图像特征;
获取单元,用于获取目标对象对应的多个参考对象特征,每个参考对象特征是通过对包含所述目标对象的一个参考图像进行特征提取获得的;
融合单元,用于将所述图像特征分别与各个参考对象特征进行特征融合,获得多个图像融合特征,并分别基于各个图像融合特征,对所述待检测图像进行对象检测,获得所述待检测图像中的各个目标对象各自对应的多个候选边界信息和各个候选边界信息相应的置信度;
筛选单元,用于基于各个候选边界信息相应的置信度,从所述各个候选边界信息中确定出所述各个目标对象各自在所述待检测图像中的目标边界信息。
13.一种对象检测装置,其特征在于,包括:
第一响应单元,用于响应于检测目标对象的触发操作,显示对象检测界面,所述对象检测界面展示有第一上传控件,所述第一上传控件用于上传待检测图像;
第二响应单元,用于基于所述第一上传控件触发的上传操作,显示检测结果界面,通过所述检测结果界面展示包含标注框的所述待检测图像,所述标注框是基于所述目标对象在所述待检测图像中的目标边界信息生成的;所述目标边界信息是通过权利要求1~10任一项所述的方法获得的。
14.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~11中任一所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~11中任一所述方法的步骤。
CN202211014463.4A 2022-08-23 2022-08-23 一种对象检测方法、装置、电子设备和存储介质 Active CN115100689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211014463.4A CN115100689B (zh) 2022-08-23 2022-08-23 一种对象检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211014463.4A CN115100689B (zh) 2022-08-23 2022-08-23 一种对象检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115100689A CN115100689A (zh) 2022-09-23
CN115100689B true CN115100689B (zh) 2022-11-01

Family

ID=83301162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211014463.4A Active CN115100689B (zh) 2022-08-23 2022-08-23 一种对象检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115100689B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3620966A1 (en) * 2018-09-07 2020-03-11 Baidu Online Network Technology (Beijing) Co., Ltd. Object detection method and apparatus for object detection
CN114372999A (zh) * 2021-12-20 2022-04-19 浙江大华技术股份有限公司 一种对象检测方法、装置、电子设备和存储介质
CN114511046A (zh) * 2022-04-19 2022-05-17 阿里巴巴(中国)有限公司 对象识别方法以及装置
CN114764870A (zh) * 2021-01-13 2022-07-19 腾讯科技(深圳)有限公司 对象定位模型处理、对象定位方法、装置及计算机设备
CN114764911A (zh) * 2022-06-15 2022-07-19 小米汽车科技有限公司 障碍物信息检测方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476306B (zh) * 2020-04-10 2023-07-28 腾讯科技(深圳)有限公司 基于人工智能的物体检测方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3620966A1 (en) * 2018-09-07 2020-03-11 Baidu Online Network Technology (Beijing) Co., Ltd. Object detection method and apparatus for object detection
CN114764870A (zh) * 2021-01-13 2022-07-19 腾讯科技(深圳)有限公司 对象定位模型处理、对象定位方法、装置及计算机设备
CN114372999A (zh) * 2021-12-20 2022-04-19 浙江大华技术股份有限公司 一种对象检测方法、装置、电子设备和存储介质
CN114511046A (zh) * 2022-04-19 2022-05-17 阿里巴巴(中国)有限公司 对象识别方法以及装置
CN114764911A (zh) * 2022-06-15 2022-07-19 小米汽车科技有限公司 障碍物信息检测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Feature Fusion Human Object Detection Algorithm";Yao Nan 等;《IEEE》;20210524;456-462 *
一种多特征融合的图像检索新方法;金铭等;《电子测量技术》;20160815(第08期);90-94 *
基于深度学习算法的图像融合;刘小利;《国外电子测量技术》;20200715(第07期);46-50 *

Also Published As

Publication number Publication date
CN115100689A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
US11812160B2 (en) Fast video capture and sensor adjustment
US20230362232A1 (en) Content collection navigation and autoforwarding
CA3016921C (en) System and method for deep learning based hand gesture recognition in first person view
JP7407856B2 (ja) 環境センサデータを用いる効率的な画像解析
US20220172448A1 (en) Neural network-based image stream modification
KR20220062338A (ko) 스테레오 카메라들로부터의 손 포즈 추정
US10397469B1 (en) Dynamic image-based adjustment of image capture parameters
US10839007B1 (en) Generating a probability of music
US11557080B2 (en) Dynamically modeling an object in an environment from different perspectives
KR102467015B1 (ko) 옵트아웃 인터스티셜을 이용한 미디어 컬렉션 탐색
CN108564274B (zh) 一种客房的预订方法、装置及移动终端
CN110089117B (zh) 处理和格式化视频用于交互式呈现
CN114882437A (zh) 一种识别模型的训练方法、装置、电子设备和存储介质
CN114267041B (zh) 场景中对象的识别方法及装置
US20190294879A1 (en) Clickless identification and online posting
KR102337209B1 (ko) 주변 상황 정보를 통지하기 위한 방법, 전자 장치 및 저장 매체
EP3800561A1 (en) Electronic device and control method for electronic device
CN115100689B (zh) 一种对象检测方法、装置、电子设备和存储介质
CN109218620B (zh) 基于环境亮度的拍照方法、装置、存储介质及移动终端
CN114332826A (zh) 一种车辆图像识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant