CN116958523A - 图像目标检测方法、装置、设备、存储介质及程序产品 - Google Patents

图像目标检测方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN116958523A
CN116958523A CN202310107690.XA CN202310107690A CN116958523A CN 116958523 A CN116958523 A CN 116958523A CN 202310107690 A CN202310107690 A CN 202310107690A CN 116958523 A CN116958523 A CN 116958523A
Authority
CN
China
Prior art keywords
image
detection
target
image area
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310107690.XA
Other languages
English (en)
Inventor
杨一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310107690.XA priority Critical patent/CN116958523A/zh
Publication of CN116958523A publication Critical patent/CN116958523A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种图像目标检测方法、装置、设备、存储介质及程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;方法包括:对待检测图像进行第一目标检测处理,得到待检测图像中的至少一个第一图像区域和至少一个第二图像区域;第一图像区域包括一个第一检测目标,第二图像区域包括一个第二检测目标,第一检测目标为第二检测目标的一部分;分别对各第二图像区域进行第二目标检测处理,得到各第二图像区域中的第三图像区域,第三图像区域包括一个第一检测目标;对各第二图像区域中的第三图像区域、以及至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域;通过本申请,能够提高图像目标检测精度。

Description

图像目标检测方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像目标检测方法、装置、设备、存储介质及程序产品。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图像目标检测也是人工智能的一个重要应用方向。相关技术中,通过目标检测模型直接对图像进行一次目标检测,得到图像中每个目标的图像区域。但是,由于相关技术中仅对图像进行一次目标检测,导致目标检测精度不够。
发明内容
本申请实施例提供一种图像目标检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高图像目标检测精度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种图像目标检测方法,包括:
获取待检测图像,所述待检测图像包括待检测的至少一个第一检测目标;
对所述待检测图像进行第一目标检测处理,得到所述待检测图像中的至少一个第一图像区域和至少一个第二图像区域;
其中,所述第一图像区域包括一个所述第一检测目标,所述第二图像区域包括一个第二检测目标,所述第一检测目标为所述第二检测目标的一部分;
分别对各所述第二图像区域进行第二目标检测处理,得到各所述第二图像区域中的第三图像区域,所述第三图像区域包括一个所述第一检测目标;
对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域,所述目标图像区域包括一个所述第一检测目标。
本申请实施例还提供一种图像目标检测装置,包括:
获取模块,用于获取待检测图像,所述待检测图像包括待检测的至少一个第一检测目标;
第一目标检测模块,用于对所述待检测图像进行第一目标检测处理,得到所述待检测图像中的至少一个第一图像区域和至少一个第二图像区域;
其中,所述第一图像区域包括一个所述第一检测目标,所述第二图像区域包括一个第二检测目标,所述第一检测目标为所述第二检测目标的一部分;
第二目标检测模块,用于分别对各所述第二图像区域进行第二目标检测处理,得到各所述第二图像区域中的第三图像区域,所述第三图像区域包括一个所述第一检测目标;
融合去重模块,用于对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域,所述目标图像区域包括一个所述第一检测目标。
在上述方案中,所述融合去重模块,还用于从各所述第二图像区域中的第三图像区域以及所述至少一个第一图像区域中,确定对应各所述第一检测目标的候选图像区域,并从所述至少一个第一检测目标中,确定对应多个候选图像区域的至少一个第三检测目标;针对各所述第三检测目标,从所述第三检测目标对应的多个候选图像区域中,选取满足区域条件的第一候选图像区域作为所述目标图像区域,并将多个候选图像区域中除所述第一候选图像区域之外的候选图像区域,作为所述第三检测目标对应的第二候选图像区域;从各所述第二图像区域中的第三图像区域以及所述至少一个第一图像区域中,删除各所述第三检测目标对应的第二候选图像区域,得到至少一个目标图像区域。
在上述方案中,所述融合去重模块,还用于获取各所述候选图像区域的置信度分数,所述置信度分数,用于指示所述候选图像区域中包括所述第三检测目标的可能程度;从所述第三检测目标对应的多个候选图像区域中,选取置信度分数最高的候选图像区域作为所述第一候选图像区域,并将所述第一候选图像区域作为所述目标图像区域。
在上述方案中,所述融合去重模块,还用于获取各所述候选图像区域的置信度分数,所述置信度分数,用于指示所述候选图像区域中包括所述第三检测目标的可能程度;从所述多个候选图像区域中,确定置信度分数最高的候选图像区域为第三候选图像区域,并将所述多个候选图像区域中除所述第三候选图像区域之外的候选图像区域,作为第四候选图像区域;确定各所述第四候选图像区域分别和所述第三候选图像区域之间的区域重叠程度;从所述多个候选图像区域中,删除区域重叠程度达到重叠程度阈值的所述第四候选区域,并将删除后所剩余的候选图像区域作为所述第一候选图像区域,以及将所述第一候选图像区域作为所述目标图像区域。
在上述方案中,所述融合去重模块,还用于针对各所述第四候选图像区域,分别执行如下处理:确定所述第四候选图像区域和所述第三候选图像区域的交集图像区域,并获取所述交集图像区域的第一区域面积;确定所述第四候选图像区域和所述第三候选图像区域的并集图像区域,并获取所述并集图像区域的第二区域面积;将所述第一区域面积除以所述第二区域面积所得到的结果,作为所述第四候选图像区域和所述第三候选图像区域之间的区域重叠程度。
在上述方案中,当所述待检测的至少一个第一检测目标归属于目标类别时,所述融合去重模块,还用于在所述对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域之后,对所述待检测图像中的各所述目标图像区域,分别执行所述目标类别所对应的图像处理任务,得到所述待检测图像的任务处理图像。
在上述方案中,所述融合去重模块,还用于针对所述待检测图像中的各所述目标图像区域,分别执行如下处理,以得到所述待检测图像的任务处理图像:通过图像类别预测模型,对所述目标图像区域进行类别预测,得到所述目标图像区域所包括第一检测目标所归属的类别;当所述类别为所述目标类别时,对所述目标图像区域执行所述目标类别所对应的图像处理任务。
在上述方案中,所述融合去重模块,还用于获取携带标签的图像区域样本,所述图像区域样本包括一个检测目标样本;通过所述图像类别预测模型,对所述图像区域样本进行类别预测,得到所述图像区域样本中所述检测目标样本所归属的预测类别;基于所述预测类别和所述标签间的差异,确定所述图像类别预测模型的损失函数的值;基于所述图像类别预测模型的损失函数的值,更新所述图像类别预测模型的模型参数,以对所述图像类别预测模型进行训练。
在上述方案中,当所述待检测的至少一个第一检测目标归属于目标类别时,所述第二目标检测模块,还用于针对各所述第二图像区域,分别执行如下处理:通过第二目标检测模型,对所述第二图像区域进行至少一个类别的目标的目标检测,得到检测结果;其中,所述至少一个类别包括所述目标类别,所述检测结果包括至少一个检测框、以及各所述检测框内候选检测目标所归属的候选类别,所述检测框用于指示所述候选检测目标在所述第二图像区域的位置;基于所述检测结果,确定候选类别为所述目标类别的第一候选检测目标为所述第一检测目标,并确定所述第一候选检测目标所在的检测框所包围的区域,为所述第二图像区域中的第三图像区域。
在上述方案中,所述第二目标检测模块,还用于在所述通过第二目标检测模型,对所述第二图像区域进行至少一个类别的目标的目标检测,得到检测结果之前,获取携带标签的图像区域样本,所述标签包括所述图像区域样本中检测目标样本的真实检测框、以及所述检测目标样本所归属的真实类别;通过所述第二目标检测模型,对所述图像区域样本进行目标检测,得到预测结果,所述预测结果包括所述图像区域样本中检测目标样本的预测检测框、以及所述检测目标样本所归属的预测类别;获取所述预测检测框和所述真实检测框之间的第一差异,并基于所述第一差异,确定所述第二目标检测模型的第一损失函数的值;获取所述预测类别和所述真实类别之间的第二差异,并基于所述第二差异,确定所述第二目标检测模型的第二损失函数的值;基于所述第一损失函数的值和所述第二损失函数的值,更新所述第二目标检测模型的模型参数,以对所述第二目标检测模型进行训练。
在上述方案中,当所述待检测的至少一个第一检测目标归属于目标类别、且所述目标类别包括多个子类别时,所述第二目标检测模块,还用于针对各所述第二图像区域,分别执行如下处理:针对各所述子类别,对所述第二图像区域进行所述子类别的第一检测目标的目标检测,得到所述第二图像区域中的子第三图像区域,所述子第三图像区域包括一个所述子类别的第一检测目标;将所述第二图像区域中各所述子类别对应的子第三图像区域,作为所述第二图像区域中的第三图像区域。
在上述方案中,当所述待检测的至少一个第一检测目标归属于第一目标类别,且所述第二检测目标归属于第二目标类别时,所述第一目标检测模块,还用于通过第一目标检测模型,对所述待检测图像进行至少两个类别的目标的目标检测,得到检测结果;其中,所述至少两个类别包括所述第一目标类别和所述第二目标类别,所述检测结果包括至少一个检测框、以及各所述检测框内候选检测目标所归属的候选类别,所述检测框用于指示所述候选检测目标在所述待检测图像的位置;基于所述检测结果,确定候选类别为所述第一目标类别的第一候选检测目标为所述第一检测目标,并确定所述第一候选检测目标所在的检测框所包围的区域,为所述第一图像区域;基于所述检测结果,确定候选类别为所述第二目标类别的第二候选检测目标为所述第二检测目标,并确定所述第二候选检测目标所在的检测框所包围的区域,为所述第二图像区域。
在上述方案中,所述装置应用于移动终端;所述获取模块,还用于所述移动终端接收到针对所述待检测图像的图像传输指令;响应于所述图像传输指令,获取所述待检测图像;当所述至少一个第一检测目标为敏感信息时,所述融合去重模块,还用于在对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域之后,对所述待检测图像中的各所述目标图像区域,分别执行图像脱敏处理,得到待传输图像,并传输所述待传输图像。
本申请实施例还提供一种电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的图像目标检测方法。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令或计算机程序,所述计算机可执行指令或计算机程序被处理器执行时,实现本申请实施例提供的图像目标检测方法。
本申请实施例还提供一种计算机程序产品,包括计算机可执行指令或计算机程序,所述计算机可执行指令或计算机程序被处理器执行时,实现本申请实施例提供的图像目标检测方法。
本申请实施例具有以下有益效果:
应用本申请上述实施例,1)针对待检测图像进行了两个阶段的目标检测处理,包括第一目标检测处理和第二目标检测处理。其中,第一目标检测处理用于检测待检测图像中的第一检测目标和第二检测目标,实现对待检测图像中第一检测目标的初步检测,第二目标检测处理用于检测待检测图像的第二图像区域(包括第二检测目标)中的第一检测目标,实现对待检测图像中第一检测目标的进一步检测,提高图像目标检测精度;2)由于第一检测目标为第二检测目标的一部分,即针对待检测图像中的每个第一检测目标来说,第一检测目标的尺寸要小于该第一检测目标所在第二检测目标的尺寸,因此通过先同时检测第一检测目标和第二检测目标,再单独对第二检测目标所在图像区域进行第一检测目标的检测,最后对第一阶段和第二阶段的检测结果进行融合去重处理,得到待检测图像中每个第一检测目标所在的图像区域,能够提高图像中小尺寸目标的检测精度,从而进一步提高图像目标检测精度。
附图说明
图1是本申请实施例提供的图像目标检测系统100的架构示意图;
图2是本申请实施例提供的实施图像目标检测方法的电子设备500的结构示意图;
图3是本申请实施例提供的图像目标检测方法的流程示意图;
图4是本申请实施例提供的待检测图像的显示示意图;
图5是本申请实施例提供的第一目标检测处理的结果示意图;
图6是本申请实施例提供的基于图像目标检测方法的图像脱敏流程示意图;
图7是本申请实施例提供的第一目标检测模型中特征金字塔的结构示意图;
图8是本申请实施例提供的特征金字塔中卷积结构的示意图;
图9是本申请实施例提供的待检测图像中目标的检测框示意图;
图10是本申请实施例提供的车载图像的脱敏效果示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)客户端,终端中运行的用于提供各种服务的应用程序,例如支持图像目标检测的客户端。
2)响应于,用于表示所执行的操作所依赖的条件或状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
本申请实施例提供一种图像目标检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高图像目标检测精度。接下来分别进行说明。需要说明的是,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面说明本申请实施例提供的图像目标检测系统。参见图1,图1是本申请实施例提供的图像目标检测系统100的架构示意图,为实现支撑一个示例性应用,终端(示例性示出了终端400-1)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
终端(例如400-1),用于响应于针对待检测图像的图像目标检测指令,发送针对待检测图像的图像目标检测请求至服务器200,该待检测图像包括待检测的至少一个第一检测目标;
服务器200,用于接收并响应于针对待检测图像的图像目标检测请求,获取待检测图像,以对待检测图像进行图像目标检测:对待检测图像进行第一目标检测处理,得到待检测图像中的至少一个第一图像区域和至少一个第二图像区域;其中,该第一图像区域包括一个第一检测目标,该第二图像区域包括一个第二检测目标,该第一检测目标为第二检测目标的一部分;分别对各第二图像区域进行第二目标检测处理,得到各第二图像区域中的第三图像区域,该第三图像区域包括一个第一检测目标;对各第二图像区域中的第三图像区域、以及至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域,该目标图像区域包括一个第一检测目标;
服务器200,还用于将待检测图像的检测结果返回至终端,该检测结果包括该至少一个目标图像区域;
终端(例如400-1),还用于接收服务器200返回的待检测图像的检测结果,并显示该检测结果。
在一些实施例中,本申请实施例提供的图像目标检测方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器协同实施。本申请实施例提供的图像目标检测方法可应用于各种场景,包括但不限于云技术、人工智能、智慧城市、智慧交通、辅助驾驶、游戏、视频、数字孪生城市等。
在一些实施例中,本申请实施例提供的实施图像目标检测方法的电子设备可以是各种类型的终端或服务器。其中,服务器(例如服务器200)可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。终端(例如终端400-1)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、智能家电(例如智能电视)、智能手表、车载终端、可穿戴设备、虚拟现实(Virtual Reality,VR)设备等,但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例对此不做限制。
在一些实施例中,本申请实施例提供的图像目标检测方法可以借助于云技术(Cloud Technology)实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算资源和存储资源。作为示例,服务器(例如服务器200)还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一些实施例中,多个服务器可组成为一区块链,而服务器为区块链上的节点,区块链中的每个节点之间可以存在信息连接,节点之间可以通过信息连接进行信息传输。其中,本申请实施例提供的图像目标检测方法所相关的数据(例如待检测图像、多个包括第一检测目标的目标图像区域、第一目标检测模型、以及第二目标检测模型等)可保存于区块链上。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的图像目标检测方法,举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(Application,APP),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
下面说明本申请实施例提供的实施图像目标检测方法的电子设备。参见图2,图2是本申请实施例提供的实施图像目标检测方法的电子设备500的结构示意图。本申请实施例提供的电子设备500可以是终端,也可以是服务器。本申请实施例提供的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(Digital Signal Processor,DSP),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。存储器550可以包括在物理位置上远离处理器510的一个或多个存储设备。存储器550包括易失性存储器或非易失性存储器,也可包括易失性存储器和非易失性存储器两者。非易失性存储器可以是只读存储器(Read Only Memory,ROM),易失性存储器可以是随机存取存储器(Random Access Memory,RAM)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他电子设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus,USB)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的图像目标检测装置可以采用软件方式实现,图2示出了存储在存储器550中的图像目标检测装置555,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块5551、第一目标检测模块5552、第二目标检测模块5553和融合去重模块5554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
下面说明本申请实施例提供的图像目标检测方法。在一些实施例中,本申请实施例提供的图像目标检测方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器协同实施。以终端实施为例,参见图3,图3是本申请实施例提供的图像目标检测方法的流程示意图,本申请实施例提供的图像目标检测方法包括:
步骤101:终端获取待检测图像。
其中,该待检测图像包括待检测的至少一个第一检测目标。
在步骤101中,该终端可以设置有客户端,比如支持图像目标检测的客户端。当需要对待检测图像进行图像目标检测时,可以在终端触发针对客户端的运行指令,终端响应于该运行指令,运行该客户端,并获取待检测图像,以对该待检测图像进行图像目标检测。在实际应用中,终端可通过如下方式获取待检测图像:1)终端通过图像采集设备(例如相机、摄像头)自己采集待检测图像;2)终端从指定存储区域(例如可以是用户设置的)获取待检测图像。
在实际应用中,该待检测图像包括待检测的至少一个第一检测目标。该第一检测目标可以是待检测图像中待进行检测的目标,可以是用户根据需要设置的,例如用户想要对待检测图像中的车辆、人物、人脸、车辆牌照等目标进行检测,那么该第一检测目标则为车辆、人物、人脸、车辆牌照等。作为示例,参见图4,图4是本申请实施例提供的待检测图像的显示示意图。这里,待检测图像为车载终端拍摄的图像,该待检测图像中包括多个第一检测目标:车辆、人物、人脸、车辆牌照。
步骤102:对待检测图像进行第一目标检测处理,得到待检测图像中的至少一个第一图像区域和至少一个第二图像区域。
其中,第一图像区域包括一个第一检测目标,第二图像区域包括一个第二检测目标,第一检测目标为第二检测目标的一部分。
在本申请实施例中,针对待检测图像进行了两个阶段的目标检测处理,包括第一目标检测处理和第二目标检测处理。在步骤102中,终端在获取到待检测图像之后,可以首先对待检测图像进行第一目标检测处理。具体的,该第一目标检测处理用于对待检测图像进行第一检测目标的检测、以及对待检测图像进行第二检测目标的检测,得到待检测图像中的至少一个第一图像区域和至少一个第二图像区域,以实现对待检测图像中第一检测目标的初步检测。
这里,该第一图像区域包括一个第一检测目标。在实际应用中,当对待检测图像进行第一检测目标的检测时,实际是得到第一检测目标所在的第一检测框,该第一检测框包围该第一检测目标,该第一检测框用于指示该第一检测目标在待检测图像中的位置信息。该第一检测目标所在的第一检测框所包围的区域即为该第一图像区域。同样的,该第二图像区域包括一个第二检测目标。在实际应用中,当对待检测图像进行第二检测目标的检测时,实际是得到第二检测目标所在的第二检测框,该第二检测框包围该第二检测目标,该第二检测框用于指示该第二检测目标在待检测图像中的位置信息。该第二检测目标所在的第二检测框所包围的区域即为该第二图像区域。
这里,第一检测目标为第二检测目标的一部分,即针对待检测图像中的每个第一检测目标来说,第一检测目标的尺寸要小于该第一检测目标所在第二检测目标的尺寸。在进行第一目标检测处理时,所检测得到的每个第二图像区域,该第二图像区域内第二检测目标上的第一检测目标可能会检测不出来,也可能会检测出来,因此第一图像区域和第二图像区域可以不是一一对应的。作为示例,参见图5,图5是本申请实施例提供的第一目标检测处理的结果示意图。这里,第一图像区域1包括一个第一检测目标:车辆牌照;第二图像区域1包括一个第二检测目标:车辆(包括第一图像区域1所包括的第一检测目标);第二图像区域2包括一个第二检测目标:人物(位于该第二检测目标上的第一检测目标“人脸”未被检测出来,即图5中虚线框所包围的部分)。
在一些实施例中,在对待检测图像进行第一目标检测处理时,可以是采用预先训练完成的第一目标检测模型来实现。在实际应用中,待检测图像中可以包括多个类别(比如人脸、车牌、人物、车辆等)的目标,而希望从待检测图像中检测到的第一检测目标归属于第一目标类别(比如人脸、车牌),第二检测目标归属于第二目标类别(比如人物、车辆)。
基于此,当待检测的至少一个第一检测目标归属于第一目标类别,且第二检测目标归属于第二目标类别时,终端可通过如下方式对待检测图像进行第一目标检测处理,得到待检测图像中的至少一个第一图像区域和至少一个第二图像区域:通过第一目标检测模型,对待检测图像进行至少两个类别的目标的目标检测,得到检测结果;其中,该至少两个类别包括第一目标类别和第二目标类别,检测结果包括至少一个检测框、以及各检测框内候选检测目标所归属的候选类别,检测框用于指示候选检测目标在待检测图像的位置;基于检测结果,确定候选类别为第一目标类别的第一候选检测目标为第一检测目标,并确定第一候选检测目标所在的检测框所包围的区域,为第一图像区域;基于检测结果,确定候选类别为第二目标类别的第二候选检测目标为第二检测目标,并确定第二候选检测目标所在的检测框所包围的区域,为第二图像区域。
在实际应用中,当对第一目标检测模型进行训练时,可以构建第一目标检测模型的检测框损失(即基于样本的真实检测框和预测检测款之间的差异确定),类别损失(即基于样本的真实类别和预测类别之间的差异确定)等。
步骤103:分别对各第二图像区域进行第二目标检测处理,得到各第二图像区域中的第三图像区域。
其中,第三图像区域包括一个第一检测目标。
当对待检测图像进行第一目标检测处理之后,在步骤103中,继续对第一目标检测处理得到的各第二图像区域进行第二目标检测处理。该第二目标检测处理为待检测图像的第二图像区域(包括第二检测目标)进行第一检测目标的检测,以实现对待检测图像中第一检测目标的进一步检测。由于针对待检测图像中的每个第一检测目标来说,第一检测目标的尺寸要小于该第一检测目标所在第二检测目标的尺寸,因此,通过首先进行第二检测目标的检测,再对包括第二检测目标的第二图像区域进行第一检测目标的检测,由于第二图像区域是待检测图像的一部分,如此可以降低小尺寸目标的检测难度,并提升小尺寸目标的检测精度。
这里,该第三图像区域包括一个第一检测目标。在实际应用中,当对待第二图像区域进行第一检测目标的检测时,实际是得到第一检测目标所在的第三检测框,该第三检测框包围该第一检测目标,该第三检测框用于指示该第一检测目标在第二图像区域中的位置信息。该第一检测目标所在的第三检测框所包围的区域即为该第三图像区域。
在一些实施例中,在对第二图像区域进行第二目标检测处理时,可以是采用预先训练完成的第二目标检测模型来实现。在实际应用中,待检测图像中可以包括多个类别(比如人脸、车牌、背景等)的目标,而希望从待检测图像中检测到的第一检测目标归属于目标类别,基于此,当待检测的至少一个第一检测目标归属于目标类别时,终端可通过如下方式分别对各第二图像区域进行第二目标检测处理,得到各第二图像区域中的第三图像区域:针对各第二图像区域,分别执行如下处理:通过第二目标检测模型,对第二图像区域进行至少一个类别的目标的目标检测,得到检测结果;其中,至少一个类别包括目标类别,检测结果包括至少一个检测框、以及各检测框内候选检测目标所归属的候选类别,检测框用于指示候选检测目标在第二图像区域的位置;基于检测结果,确定候选类别为目标类别的第一候选检测目标为第一检测目标,并确定第一候选检测目标所在的检测框所包围的区域,为第二图像区域中的第三图像区域。
这里,该第二目标检测模型是通过如下方式训练得到的:获取携带标签的图像区域样本,该标签包括图像区域样本中检测目标样本的真实检测框、以及检测目标样本所归属的真实类别;通过第二目标检测模型,对图像区域样本进行目标检测,得到预测结果,该预测结果包括图像区域样本中检测目标样本的预测检测框、以及检测目标样本所归属的预测类别;获取预测检测框和真实检测框之间的第一差异,并基于第一差异,确定第二目标检测模型的第一损失函数的值;获取预测类别和真实类别之间的第二差异,并基于第二差异,确定第二目标检测模型的第二损失函数的值;基于第一损失函数的值和第二损失函数的值,更新第二目标检测模型的模型参数,以对第二目标检测模型进行训练。
在一些实施例中,当待检测的至少一个第一检测目标归属于目标类别、且目标类别包括多个子类别时,终端可通过如下方式分别对各第二图像区域进行第二目标检测处理,得到各第二图像区域中的第三图像区域:针对各第二图像区域,分别执行如下处理:针对各子类别,对第二图像区域进行子类别的第一检测目标的目标检测,得到第二图像区域中的子第三图像区域,子第三图像区域包括一个子类别的第一检测目标;将第二图像区域中各子类别对应的子第三图像区域,作为第二图像区域中的第三图像区域。
这里,想要从待检测图像中检测出来的第一检测目标归属于目标类别,该目标类别包括多个子类别。例如,目标类别为敏感信息类别,目标类别包括的子类别可以为:人脸类别、车牌类别等。
当对第二图像区域进行第一检测目标的检测时,可以针对各子类别,分别执行如下处理:对第二图像区域进行子类别的第一检测目标的目标检测,得到第二图像区域中的子第三图像区域,子第三图像区域包括一个子类别的第一检测目标。具体地,可以获取该子类别所对应的子类别目标检测模型,从而采用该子类别目标检测模型,对第二图像区域进行子类别的第一检测目标的目标检测。比如,采用人脸类别目标检测模型,对第二图像区域进行人脸类别的第一检测目标的目标检测。如此,最后将第二图像区域中各子类别对应的子第三图像区域,作为第二图像区域中的第三图像区域。
步骤104:对各第二图像区域中的第三图像区域、以及至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域。
其中,该目标图像区域包括一个第一检测目标。
由于在步骤102中是对待检测图像进行第一检测目标的检测,在步骤103中是对待检测图像中的第二图像区域进行第一检测目标的检测,因此,针对同一个第一检测目标,可能会存在重复的、包括该第一检测目标的图像区域。基于此,在步骤104中,对各第二图像区域中的第三图像区域、以及至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域,该目标图像区域包括一个第一检测目标。
在一些实施例中,终端可通过如下方式对各第二图像区域中的第三图像区域、以及至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域:从各第二图像区域中的第三图像区域以及至少一个第一图像区域中,确定对应各第一检测目标的候选图像区域,并从至少一个第一检测目标中,确定对应多个候选图像区域的至少一个第三检测目标;针对各第三检测目标,从第三检测目标对应的多个候选图像区域中,选取满足区域条件的第一候选图像区域作为目标图像区域,并将多个候选图像区域中除第一候选图像区域之外的候选图像区域,作为第三检测目标对应的第二候选图像区域;从各第二图像区域中的第三图像区域以及至少一个第一图像区域中,删除各第三检测目标对应的第二候选图像区域,得到至少一个目标图像区域。
在一些实施例中,终端可通过如下方式从第三检测目标对应的多个候选图像区域中,选取满足区域条件的第一候选图像区域作为目标图像区域:获取各候选图像区域的置信度分数,该置信度分数,用于指示候选图像区域中包括第三检测目标的可能程度;从第三检测目标对应的多个候选图像区域中,选取置信度分数最高的候选图像区域作为第一候选图像区域,并将第一候选图像区域作为目标图像区域。
这里,在实际应用中,当进行第一检测目标的检测的过程中,在输出包括第三检测目标(至少一个第一检测目标中的一部分)的多个候选图像区域时,还会同时输出各候选图像区域的置信度分数,该置信度分数指示候选图像区域中包括第三检测目标的可能程度,如此,则可以从第三检测目标对应的多个候选图像区域中,选取置信度分数最高的候选图像区域作为第一候选图像区域,从而得到目标图像区域。
在一些实施例中,终端可通过如下方式从第三检测目标对应的多个候选图像区域中,选取满足区域条件的第一候选图像区域作为目标图像区域:获取各候选图像区域的置信度分数,该置信度分数,用于指示候选图像区域中包括第三检测目标的可能程度;从多个候选图像区域中,确定置信度分数最高的候选图像区域为第三候选图像区域,并将多个候选图像区域中除第三候选图像区域之外的候选图像区域,作为第四候选图像区域;确定各第四候选图像区域分别和第三候选图像区域之间的区域重叠程度;从多个候选图像区域中,删除区域重叠程度达到重叠程度阈值的第四候选区域,并将删除后所剩余的候选图像区域作为第一候选图像区域,以及将第一候选图像区域作为目标图像区域。
这里,在实际应用中,当进行第一检测目标的检测的过程中,在输出包括第三检测目标(至少一个第一检测目标中的一部分)的多个候选图像区域时,还会同时输出各候选图像区域的置信度分数,该置信度分数指示候选图像区域中包括第三检测目标的可能程度。如此,可以从多个候选图像区域中,确定置信度分数最高的候选图像区域为第三候选图像区域,并将多个候选图像区域中除第三候选图像区域之外的候选图像区域,作为第四候选图像区域,然后确定各第四候选图像区域分别和第三候选图像区域之间的区域重叠程度,以通过区域重叠程度,去除重复的候选图像区域。具体地,首先从多个候选图像区域中,删除区域重叠程度达到重叠程度阈值的第四候选区域,然后将删除后所剩余的候选图像区域作为第一候选图像区域,从而得到目标图像区域。
在一些实施例中,终端可通过如下方式确定各第四候选图像区域分别和第三候选图像区域之间的区域重叠程度:针对各第四候选图像区域,分别执行如下处理:确定第四候选图像区域和第三候选图像区域的交集图像区域,并获取交集图像区域的第一区域面积;确定第四候选图像区域和第三候选图像区域的并集图像区域,并获取并集图像区域的第二区域面积;将第一区域面积除以第二区域面积所得到的结果,作为第四候选图像区域和第三候选图像区域之间的区域重叠程度。需要说明的是,交集图像区域为第四候选图像区域和第三候选图像区域的交集所指示的图像区域;并集图像区域为第四候选图像区域和第三候选图像区域的并集所指示的图像区域。
在一些实施例中,当待检测的至少一个第一检测目标归属于目标类别时,终端在对各第二图像区域中的第三图像区域、以及至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域之后,还可执行如下处理:对待检测图像中的各目标图像区域,分别执行目标类别所对应的图像处理任务,得到待检测图像的任务处理图像。
在实际应用中,对待检测图像进行图像目标检测,可以是为了对待检测图像中所检测到的第一检测目标执行图像处理任务。这里,针对不同类别的第一检测目标,可以执行不同的图像处理任务。例如,第一检测目标为待检测图像中的敏感信息(如人脸、姓名、车辆牌照等),归属于敏感信息类别(即目标类别),那么该图像处理任务可以是对待检测图像中第一检测目标所在的目标图像区域进行脱敏处理(比如对目标图像区域进行模糊处理、遮盖处理等)。如此,当第一检测目标归属于目标类别时,则对待检测图像中的各目标图像区域,分别执行目标类别所对应的图像处理任务,得到待检测图像的任务处理图像。
在一些实施例中,终端可通过如下方式对待检测图像中的各目标图像区域,分别执行目标类别所对应的图像处理任务,得到待检测图像的任务处理图像:针对待检测图像中的各目标图像区域,分别执行如下处理,以得到待检测图像的任务处理图像:通过图像类别预测模型,对目标图像区域进行类别预测,得到目标图像区域所包括第一检测目标所归属的类别;当类别为目标类别时,对目标图像区域执行目标类别所对应的图像处理任务。
在实际应用中,对目标图像区域执行目标类别对应的图像处理任务时,为保证图像目标的检测准确度,还可以对检测到的包括第一检测目标的目标图像区域进行类别预测,以进一步确认所检测到的目标图像区域所包括的第一检测目标是否真的归属于目标类别。具体地,可以通过图像类别预测模型,对目标图像区域进行类别预测,得到目标图像区域所包括第一检测目标所归属的类别,只有当类别为目标类别时,才对目标图像区域执行目标类别所对应的图像处理任务,以提高图像处理任务所执行目标(即包括第一检测目标的目标图像区域)的准确性。
在一些实施例中,终端可通过如下方式训练得到图像类别预测模型:获取携带标签的图像区域样本,图像区域样本包括一个检测目标样本;通过图像类别预测模型,对图像区域样本进行类别预测,得到图像区域样本中检测目标样本所归属的预测类别;基于预测类别和标签间的差异,确定图像类别预测模型的损失函数的值;基于图像类别预测模型的损失函数的值,更新图像类别预测模型的模型参数,以对图像类别预测模型进行训练。
在实际应用中,可以预先构建该图像类别预测模型,该图像类别预测模型可以是基于神经网络构建的,在构建完成后,可以对该图像类别预测模型进行训练,以得到训练完成的图像类别预测模型。具体地,可以获取携带标签的图像区域样本,该图像区域样本包括一个检测目标样本,然后通过图像类别预测模型,对图像区域样本进行类别预测,得到图像区域样本中检测目标样本所归属的预测类别,从而基于预测类别和标签间的差异,确定图像类别预测模型的损失函数的值,最后基于图像类别预测模型的损失函数的值,更新图像类别预测模型的模型参数,以对图像类别预测模型进行训练。在实际应用中,该图像类别预测模型的损失函数可以是交叉熵损失函数等,在此不作限定。
在一些实施例中,本申请实施例提供的图像目标检测方法可应用于移动终端。这里,该移动终端可通过如下方式获取待检测图像:移动终端接收到针对待检测图像的图像传输指令;响应于图像传输指令,获取待检测图像;相应的,当至少一个第一检测目标为敏感信息时,该移动终端在对各第二图像区域中的第三图像区域、以及至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域之后,还可对待检测图像中的各目标图像区域,分别执行图像脱敏处理,得到待传输图像,并传输待传输图像。
在实际应用中,移动终端在对待检测图像进行图像目标检测时,是因为要将采集的待检测图像传输至其他方(比如移动终端的后台服务器),而待检测图像中可能包含一些敏感信息,因此需要对待检测图像进行图像目标检测,即检测待检测图像中的敏感信息。基于此,当移动终端接收到针对待检测图像的图像传输指令时,则响应于图像传输指令,获取待检测图像,并对待检测图像执行本申请实施例提供的图像目标检测方法,以对待检测图像进行图像目标检测,得到待检测图像中的各目标图像区域。该各目标图像区域即包括敏感信息的区域,因此,可以对待检测图像中的各目标图像区域进行图像脱敏处理,比如对待检测图像中的各目标图像区域进行模糊处理、遮盖处理等等,得到脱敏处理后的待检测图像,该脱敏处理后的待检测图像即为可以用于传输的待传输图像。此时,将该待传输图像进行传输。
这里,由于移动终端的计算能力有限,而本申请实施例提供的图像目标检测方法通过先同时检测第一检测目标和第二检测目标,再单独对第二检测目标所在图像区域进行第一检测目标的检测,最后对第一阶段和第二阶段的检测结果进行融合去重处理,既能够提高图像目标检测精度,还能够降低目标检测所需的计算资源,从而更好更高效地适配于移动终端的图像目标检测任务。
在一些示例中,该移动终端可以是车载终端,在车辆行驶的过程中,车载终端可以采集图像,比如对车辆外部或内部的环境或人物进行图像采集;同时,还可以将采集的图像上传至服务器,以通过服务器对采集的图像进行处理(比如服务器根据采集的图像进行车辆行驶辅助,如提示车辆变道、提示车辆减速等)。由于车载终端采集的图像中可能包含敏感信息(比如车辆牌照信息、人脸信息等),因此,车载终端在上传图像至服务器之前,可以对图像中的敏感信息进行处理。而针对图像中的敏感信息进行处理,则需要提前确定图像中敏感信息所对应的目标图像区域。因此,车载终端可以将采集的图像作为该待检测图像,对待检测图像进行图像目标检测,该图像目标即为图像中的敏感信息。这里,终端可以通过本申请实施例提供的图像目标检测方法,对待检测图像进行图像目标检测,得到包括敏感信息的多个目标图像区域。从而,还可以进一步对待检测图像中的目标图像区域进行图像脱敏处理,比如对待检测图像中的目标图像区域进行模糊处理、遮盖处理等等,得到脱敏处理后的待检测图像,该脱敏处理后的待检测图像则可以上传至服务器进行处理。如此,保护了图像中敏感信息的安全性。
在一些示例中,本申请实施例提供的图像目标检测方法还可以应用于数字孪生城市的构建中。在构建数字孪生城市时,通过摄像头采集真实世界中的交通车辆图像,将采集的交通车辆图像上传到服务器,为避免真实世界中的交通车辆图像中的敏感信息(比如车辆牌照信息、人脸信息等)在仿真的数字孪生城市出现,服务器在构建数字孪生城市时,可以将采集的交通车辆图像作为该待检测图像,对待检测图像进行图像目标检测,该图像目标即为图像中的敏感信息。具体地,可以通过本申请实施例提供的图像目标检测方法,对待检测图像进行图像目标检测,得到包括敏感信息的多个目标图像区域。从而,还可以进一步对待检测图像中的目标图像区域进行图像脱敏处理,比如对待检测图像中的目标图像区域进行模糊处理、遮盖处理等等,得到脱敏处理后的待检测图像,即脱敏处理后的交通车辆图像,从而基于脱敏处理后的交通车辆图像构建数字孪生城市。
应用本申请上述实施例,1)针对待检测图像进行了两个阶段的目标检测处理,包括第一目标检测处理和第二目标检测处理。其中,第一目标检测处理用于检测待检测图像中的第一检测目标和第二检测目标,实现对待检测图像中第一检测目标的初步检测,第二目标检测处理用于检测待检测图像的第二图像区域(包括第二检测目标)中的第一检测目标,实现对待检测图像中第一检测目标的进一步检测,提高图像目标检测精度;2)由于第一检测目标为第二检测目标的一部分,即针对待检测图像中的每个第一检测目标来说,第一检测目标的尺寸要小于该第一检测目标所在第二检测目标的尺寸,因此通过先同时检测第一检测目标和第二检测目标,再单独对第二检测目标所在图像区域进行第一检测目标的检测,最后对第一阶段和第二阶段的检测结果进行融合去重处理,得到待检测图像中每个第一检测目标所在的图像区域,能够提高图像中小尺寸目标的检测精度,从而进一步提高图像目标检测精度。
下面将以本申请实施例提供的图像目标检测方法应用于图像脱敏场景为例,说明本申请实施例在一个实际的应用场景中的示例性应用。
以图像脱敏场景为车载图像脱敏场景为例,随着车载传输图像技术在车端得到大量应用,许多车端应用的背后都需要使用图像传输技术来回传车端收集的图像信息,然而,这也带来了一些隐性的问题,车端图像中很可能会拍摄到一些关于用户隐私的信息,例如人脸、车牌等,若将这些信息不加处理的回传,会触犯到用户隐私,甚至导致安全数据泄露等问题。在本申请实施例中,提出了一种基于深度学习的轻量且高效的车端图像脱敏技术,用于检测车载图像中的人脸和车牌等敏感信息,后续可使用涂抹或者统一色块方式去除敏感信息,能够使车端图像传输达到合规需求。
本申请实施例提供的图像目标检测方法应用于图像脱敏场景时的整体流程分成三个阶段,如图6所示,图6是本申请实施例提供的基于图像目标检测方法的图像脱敏流程示意图。这里,第一阶段检测负责检测含有脱敏目标(比如人脸、车牌)的潜在脱敏目标(比如车辆、行人、骑手等)、以及直接检测脱敏目标;第二阶段检测负责检测潜在脱敏目标里可能存在的脱敏目标,然后将一二阶段的脱敏目标融合并送入第三阶段检测中,第三阶段检测负责将前述阶段的脱敏目标做去噪处理,即过滤误检产生的非脱敏目标。
这里,本申请实施例提供的图像目标检测方法的第一阶段检测负责待检测图像中容易检出的脱敏目标,但是由于人脸和车牌等目标的尺寸较小,往往较难检出,为了避免造成较严重的漏召,因此加入了第二阶段检测来避免这种问题。由于第二阶段检测直接输入车辆或者行人等可能含有脱敏目标的第二图像区域,因此第二阶段检测检出脱敏目标的难度比第一阶段低很多。如此,通过多阶段融合的方式,可以保证在低计算量下获得较好的检测效果。最后,通过脱敏去噪模型把非脱敏目标的检出目标给过滤掉,保证了在高召回的同时,有一个高的准确率。接下来进行详细说明。
(2)一阶段检测模型(即上述第一目标检测模型)。一阶段检测模型的输入为待检测图像(例如车载图像),输出是一阶段脱敏目标(即上述第一检测目标)的第一检测框(即上述第一图像区域)和潜在脱敏目标(即上述第二检测目标)的第二检测框(即上述第二图像区域)。由于人脸、车牌等第一检测目标通常面积较小,直接从原图(即车载图像)中进行检测的检测难度较大,因此一阶段检测模型输出的潜在脱敏目标所在的第二图像区域,后续会被送入二阶段检测模型进行再次检测,下面首先说明一阶段检测模型的实现细节。
a)一阶段检测模型的网络配置。如图6所示,一阶段检测模型包括基础网络(Backbone)、特征金字塔(Feature Pyramid Networks,FPN)和检测头(Head)。在实际应用中,可以基于深度可分离卷积来搭建一阶段检测模型的backbone,然后基于特征金字塔结构(特征金字塔也可以采用深度可分离卷积,具备计算量低的优点),由网络的最后三层特征图作为检测头,来负责检测待检测图像中的待检测目标。一阶段检测模型的总体计算量约为120MFLOPs。
这里,表3-1描述了一阶段检测模型backbone的网络配置。其中,线性瓶颈层为mobilenetV2中的基础结构,后面的扩展系数、卷积核数量、重复次数及步幅为线性瓶颈层的参数,特征金字塔为√的表示需要经过特征金字塔的特征融合。参见图7,图7是本申请实施例提供的第一目标检测模型中特征金字塔的结构示意图。这里,对于特征金字塔结构,可以选用nanodet-plus中的ghost pan结构,ghost convolution(即Ghost conv结构,如图8所示)在ghost pan结构中被当成是普通的卷积引入了进来。最后,使用ghost pan最后的三层特征图来当做是后续检测头的输入。
b)一阶段检测模型的损失设计。
对于检测框的编码,每一个待检测目标都被编码成如式3-1所示的形式,代表特征图网格的中点分别到目标上下左右边界的距离,如图9所示。这里,假设黑色网格的高宽为网络输出的特征图大小(图9中特征图大小为4×8),假设位于[4,2](以左上角为起点,从0开始计数)处的网格(黑色原点处的黑色网格)负责预测图9中的车辆,那么该黑色网格所代表的特征向量就是其中点到车辆上下左右边界的距离。
box:{up,down,left,right} 式3-1
对于预测输出的检测框,可以使用softmax概率来描述检测框的上下左右边界距离属性,采用softmax概率而不是硬编码(即狄利克雷分布)的原因是:现实场景中目标的边界往往是不确定的,由于遮挡或者模糊的原因,不能准确地描述目标的边界,因此,采用了概率分布的方式。具体地,假设现在要预测某一目标的左边界距离disl,采用检测头输出的k个向量pi(i<k)来描述这个左边界距离disl,目的是使得式3-2成立,此时pi就代表该距离disl的可能性。综合来看,该k个向量所代表的期望就是左边界距离disl,即式3-2。其他边界距离的表示同理。
其中,wf为特征图的宽度(因为描述的是左边界距离,若描述的是上下边界,则为特征图高度),s是特征图相对于原图输入大小的步幅(stride)。
对于正负例的选择,可以采用自适应训练样本选择(Adaptive Training SampleSelection,ATSS)的方式进行。具体的,将特征图网格视为锚点框,通过真值框和锚点框的IOU,采用ATSS(即均值+标准差)计算一个iou阈值,大于此阈值的网格,就负责预测待检测目标,其他网格就负责预测背景。
对于分类损失(一阶段检测模型有4个分类,即车辆,行人(含骑手等),人脸和车牌),可以直接使用特征图的其中4个向量来代表其属于哪类目标的置信度,同时,其置信度是和其预测框质量有关的(可以更好的过滤质量不高的预测框),可以使用预测框和真值框的交并比(IOU)来表示其质量,最终,使用式3-3来帮助一阶段检测模型学习目标的分类能力。
其中,σ表示一阶段检测模型预测的类别分数,y表示质量分数,β是一个预定义的实数,用于控制背景类的损失占比,σgt表示真值标签。
对于目标的检测框的坐标损失,可以通过式3-2中的期望边界得到一阶段检测模型对于目标的检测框的上下左右边界值{disu,isd,isl,isr}pred,然后可以通过常用的坐标损失函数和真值{disu,disd,disl,disr}gt进行损失构建,如L1损失(均绝对误差损失),L2损失(均方误差损失),smoothL1损失,IOU相关的损失(在本申请实施例中采用了GIOU损失lossgiou)等。其次,为了让一阶段检测模型的预测分布可以快速收敛到真值附近(不让分布产生歧义性,因为边界概率分布和真值是多对一的),可以通过式3-4的损失构建方式来构建边界坐标损失。
其中,α代表需要预测的数值(即目标的检测框的一条边界的边界坐标),cell代表向上取整,floor代表向下取整,Si+1代表边界坐标在αi+1上的概率,Si代表边界坐标在αi上的概率。
最终,一阶段检测模型的总体损失如式3-5所示。
loss=α·losscls+β·lossgiou+γ·lossdist式3-5
其中,α,β和γ是预定义的实数,用于调整不同种类损失的权重。
(3)二阶段检测模型(即上述第二目标检测模型)。这里,二阶段检测模型的输入为一阶段检测模型检出的潜在脱敏物体(即上述第二检测目标,比如车辆和行人)所在的第二图像区域,输出为第二图像区域中包含第一检测目标(如人脸或车牌)的第三图像区域。在实际应用中,该二阶段检测对脱敏的召回具有重要的作用,可以帮助检出面积极小的检测目标。在本申请实施例中,车牌和人脸的二阶段检测模型的检测方法是相同的,但是分开训练的,即是两个单独的模型(如图6所示),这样不会影响脱敏整体的计算量。
a)二阶段检测模型的网络配置。如图6所示,二阶段检测模型包括两个二阶段子检测模型,分别为车辆目标检测模型和人物目标检测模型。二阶段子检测模型包括基础网络(Backbone)和检测头(Head)。二阶段检测模型的网络配置和一阶段检测模型的网络配置基本类似,二阶段检测模型的基础网络(Backbone)的网络配置如表3-2所示。不同点在于输入大小调整为96x96;同时,二阶段检测模型不设置FPN结构,目的是为了尽可能减少计算量,此时,该二阶段检测模型的整体计算量约为6MFLOPs,是一个极其低的计算量。
/>
b)二阶段检测模型的损失设计。二阶段检测模型的检测头输出的特征图大小为h×w×6(按表3-2配置时,h和w也是6)。这里,通道维度上的6代表如下信息[pbackgraund,pobject,x,y,w,h]。其中,[pbackground,pobject,x,y,w,h]前两维代表该第二图像区域中目标是背景或是物体的概率,后四维代表目标的位置和大小。此处,目标的坐标通过直接预测目标的中心位置(x,y)和高宽(h,w)确定。具体地,可以采用类似于yolo检测器的方式进行正负例的区分,即目标的中心位置落入的这个特征图网格,就负责预测这个目标,其他特征图网格就当成背景类进行处理。
对于二阶段检测模型的分类损失(区分目标和背景),可以采用交叉熵损失函数进行构建,如式3-6所示:
其中,c是类别编码(包括0、1);0是背景,1是目标,M为类别总数(此处是2);yc为目标指示函数,若第二图像区域内的目标属于类别c,则yc为1,若不是,则yc为0,pc表示二阶段检测模型预测的第二图像区域内的目标属于类别c的概率。
对于目标的坐标损失,可以采用L1损失进行构建,如式3-7所示:
lossbox=sum(|boxpred-boxgt|) 式3-7
其中,boxpred代表目标的预测检测框的大小和高宽;boxgt代表目标的真值框的大小和高宽,sum表示向量里的数值求和操作。
c)阶段结果融合。一阶段和二阶段产出的脱敏目标可能会存在重复的情况,可以通过基于非极大值抑制的方式把可能重复的检测框进行删除,在实际实施时,使用的IOU阈值是较高的(比如0.9),这样才能有效的抑制重复的检测框。
(4)三阶段检测模型(即脱敏去噪模型)。由于前述阶段的目标检测处理可能不完全检测准确,尤其是在脱敏合规的高召回条件下,会产生较多的误检(比如不是人脸、车牌的目标也可能被检出),因此,在本申请实施例中,还可以通过脱敏去噪模型(即上述图像类别预测模型)对可能存在的误检目标进行过滤,以作为本申请实施例提供的图像脱敏技术的第三阶段。该脱敏去噪模型的输入是:前述阶段产生的脱敏目标所在的目标图像区域,该脱敏去噪模型的输出是:分类结果(包括非脱敏目标、人脸、车牌)。
a)脱敏去噪模型的网络配置。这里,脱敏去噪模型的网络配置和二阶段的第二目标检测模型的网络配置相似,脱敏去噪模型的网络配置如表3-3所示。脱敏去噪模型的输入是64×64,整体计算量约为4MFLOPs,最后接一个全局平均池化层,输出三个类别(包括非脱敏目标、人脸、车牌)的logist分数。
b)脱敏去噪模型的损失设计。这里,该脱敏去噪模型可以采用交叉熵损失函数进行分类损失构建,如式3-8所示:
其中,c是类别编码(包括0、1、2);0是非脱敏目标,1是人脸,2是车牌,M为类别总数(此处是3);yc为目标指示函数,若目标图像区域内的目标属于类别c,则yc为1,若不是,则yc为0;pc表示脱敏去噪模型预测的目标图像区域内的目标属于类别c的概率。
应用本申请上述实施例,1)本申请实施例提供一种轻量的车端视频脱敏技术,可以直接部署在车端并且达到实时处理性能。2)本申请实施例融合多阶段目标检测,在低输入分辨率和低计算量下,也能有效且准确地检测图像中面积较小的脱敏目标。参见图10,图10是本申请实施例提供的车载图像的脱敏效果示意图。这里,对车载图像中的敏感信息(如人脸、车辆牌照信息)通过方块进行了遮挡处理。继续参见表4-1和表4-2,其中,表4-1展示了本申请实施例在“高通8155”车机上的检测帧率,表4-2展示了本申请实施例在“联发科8666”车机上的检测帧率,可以看到本申请实施例在车机不同硬件下均能达到实时要求(24FPS以上)。表4-3展示了本申请实施例在某一车载验证集中的检测指标(包括召回率指标和准确率指标)。
下面继续说明本申请实施例提供的图像目标检测装置555的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器550的图像目标检测装置555中的软件模块可以包括:获取模块5551,用于获取待检测图像,所述待检测图像包括待检测的至少一个第一检测目标;第一目标检测模块5552,用于对所述待检测图像进行第一目标检测处理,得到所述待检测图像中的至少一个第一图像区域和至少一个第二图像区域;其中,所述第一图像区域包括一个所述第一检测目标,所述第二图像区域包括一个第二检测目标,所述第一检测目标为所述第二检测目标的一部分;第二目标检测模块5553,用于分别对各所述第二图像区域进行第二目标检测处理,得到各所述第二图像区域中的第三图像区域,所述第三图像区域包括一个所述第一检测目标;融合去重模块5554,用于对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域,所述目标图像区域包括一个所述第一检测目标。
在一些实施例中,所述融合去重模块5554,还用于从各所述第二图像区域中的第三图像区域以及所述至少一个第一图像区域中,确定对应各所述第一检测目标的候选图像区域,并从所述至少一个第一检测目标中,确定对应多个候选图像区域的至少一个第三检测目标;针对各所述第三检测目标,从所述第三检测目标对应的多个候选图像区域中,选取满足区域条件的第一候选图像区域作为所述目标图像区域,并将多个候选图像区域中除所述第一候选图像区域之外的候选图像区域,作为所述第三检测目标对应的第二候选图像区域;从各所述第二图像区域中的第三图像区域以及所述至少一个第一图像区域中,删除各所述第三检测目标对应的第二候选图像区域,得到至少一个目标图像区域。
在一些实施例中,所述融合去重模块5554,还用于获取各所述候选图像区域的置信度分数,所述置信度分数,用于指示所述候选图像区域中包括所述第三检测目标的可能程度;从所述第三检测目标对应的多个候选图像区域中,选取置信度分数最高的候选图像区域作为所述第一候选图像区域,并将所述第一候选图像区域作为所述目标图像区域。
在一些实施例中,所述融合去重模块5554,还用于获取各所述候选图像区域的置信度分数,所述置信度分数,用于指示所述候选图像区域中包括所述第三检测目标的可能程度;从所述多个候选图像区域中,确定置信度分数最高的候选图像区域为第三候选图像区域,并将所述多个候选图像区域中除所述第三候选图像区域之外的候选图像区域,作为第四候选图像区域;确定各所述第四候选图像区域分别和所述第三候选图像区域之间的区域重叠程度;从所述多个候选图像区域中,删除区域重叠程度达到重叠程度阈值的所述第四候选区域,并将删除后所剩余的候选图像区域作为所述第一候选图像区域,以及将所述第一候选图像区域作为所述目标图像区域。
在一些实施例中,所述融合去重模块5554,还用于针对各所述第四候选图像区域,分别执行如下处理:确定所述第四候选图像区域和所述第三候选图像区域的交集图像区域,并获取所述交集图像区域的第一区域面积;确定所述第四候选图像区域和所述第三候选图像区域的并集图像区域,并获取所述并集图像区域的第二区域面积;将所述第一区域面积除以所述第二区域面积所得到的结果,作为所述第四候选图像区域和所述第三候选图像区域之间的区域重叠程度。
在一些实施例中,当所述待检测的至少一个第一检测目标归属于目标类别时,所述融合去重模块5554,还用于在所述对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域之后,对所述待检测图像中的各所述目标图像区域,分别执行所述目标类别所对应的图像处理任务,得到所述待检测图像的任务处理图像。
在一些实施例中,所述融合去重模块5554,还用于针对所述待检测图像中的各所述目标图像区域,分别执行如下处理,以得到所述待检测图像的任务处理图像:通过图像类别预测模型,对所述目标图像区域进行类别预测,得到所述目标图像区域所包括第一检测目标所归属的类别;当所述类别为所述目标类别时,对所述目标图像区域执行所述目标类别所对应的图像处理任务。
在一些实施例中,所述融合去重模块5554,还用于获取携带标签的图像区域样本,所述图像区域样本包括一个检测目标样本;通过所述图像类别预测模型,对所述图像区域样本进行类别预测,得到所述图像区域样本中所述检测目标样本所归属的预测类别;基于所述预测类别和所述标签间的差异,确定所述图像类别预测模型的损失函数的值;基于所述图像类别预测模型的损失函数的值,更新所述图像类别预测模型的模型参数,以对所述图像类别预测模型进行训练。
在一些实施例中,当所述待检测的至少一个第一检测目标归属于目标类别时,所述第二目标检测模块5553,还用于针对各所述第二图像区域,分别执行如下处理:通过第二目标检测模型,对所述第二图像区域进行至少一个类别的目标的目标检测,得到检测结果;其中,所述至少一个类别包括所述目标类别,所述检测结果包括至少一个检测框、以及各所述检测框内候选检测目标所归属的候选类别,所述检测框用于指示所述候选检测目标在所述第二图像区域的位置;基于所述检测结果,确定候选类别为所述目标类别的第一候选检测目标为所述第一检测目标,并确定所述第一候选检测目标所在的检测框所包围的区域,为所述第二图像区域中的第三图像区域。
在一些实施例中,所述第二目标检测模块5553,还用于在所述通过第二目标检测模型,对所述第二图像区域进行至少一个类别的目标的目标检测,得到检测结果之前,获取携带标签的图像区域样本,所述标签包括所述图像区域样本中检测目标样本的真实检测框、以及所述检测目标样本所归属的真实类别;通过所述第二目标检测模型,对所述图像区域样本进行目标检测,得到预测结果,所述预测结果包括所述图像区域样本中检测目标样本的预测检测框、以及所述检测目标样本所归属的预测类别;获取所述预测检测框和所述真实检测框之间的第一差异,并基于所述第一差异,确定所述第二目标检测模型的第一损失函数的值;获取所述预测类别和所述真实类别之间的第二差异,并基于所述第二差异,确定所述第二目标检测模型的第二损失函数的值;基于所述第一损失函数的值和所述第二损失函数的值,更新所述第二目标检测模型的模型参数,以对所述第二目标检测模型进行训练。
在一些实施例中,当所述待检测的至少一个第一检测目标归属于目标类别、且所述目标类别包括多个子类别时,所述第二目标检测模块5553,还用于针对各所述第二图像区域,分别执行如下处理:针对各所述子类别,对所述第二图像区域进行所述子类别的第一检测目标的目标检测,得到所述第二图像区域中的子第三图像区域,所述子第三图像区域包括一个所述子类别的第一检测目标;将所述第二图像区域中各所述子类别对应的子第三图像区域,作为所述第二图像区域中的第三图像区域。
在一些实施例中,当所述待检测的至少一个第一检测目标归属于第一目标类别,且所述第二检测目标归属于第二目标类别时,所述第一目标检测模块5552,还用于通过第一目标检测模型,对所述待检测图像进行至少两个类别的目标的目标检测,得到检测结果;其中,所述至少两个类别包括所述第一目标类别和所述第二目标类别,所述检测结果包括至少一个检测框、以及各所述检测框内候选检测目标所归属的候选类别,所述检测框用于指示所述候选检测目标在所述待检测图像的位置;基于所述检测结果,确定候选类别为所述第一目标类别的第一候选检测目标为所述第一检测目标,并确定所述第一候选检测目标所在的检测框所包围的区域,为所述第一图像区域;基于所述检测结果,确定候选类别为所述第二目标类别的第二候选检测目标为所述第二检测目标,并确定所述第二候选检测目标所在的检测框所包围的区域,为所述第二图像区域。
在一些实施例中,所述装置应用于移动终端;所述获取模块5551,还用于所述移动终端接收到针对所述待检测图像的图像传输指令;响应于所述图像传输指令,获取所述待检测图像;当所述至少一个第一检测目标为敏感信息时,所述融合去重模块5554,还用于在对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域之后,对所述待检测图像中的各所述目标图像区域,分别执行图像脱敏处理,得到待传输图像,并传输所述待传输图像。
应用本申请上述实施例,1)针对待检测图像进行了两个阶段的目标检测处理,包括第一目标检测处理和第二目标检测处理。其中,第一目标检测处理用于检测待检测图像中的第一检测目标和第二检测目标,实现对待检测图像中第一检测目标的初步检测,第二目标检测处理用于检测待检测图像的第二图像区域(包括第二检测目标)中的第一检测目标,实现对待检测图像中第一检测目标的进一步检测,提高图像目标检测精度;2)由于第一检测目标为第二检测目标的一部分,即针对待检测图像中的每个第一检测目标来说,第一检测目标的尺寸要小于该第一检测目标所在第二检测目标的尺寸,因此通过先同时检测第一检测目标和第二检测目标,再单独对第二检测目标所在图像区域进行第一检测目标的检测,最后对第一阶段和第二阶段的检测结果进行融合去重处理,得到待检测图像中每个第一检测目标所在的图像区域,能够提高图像中小尺寸目标的检测精度,从而进一步提高图像目标检测精度。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机可执行指令或计算机程序,该计算机可执行指令或计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令或计算机程序,处理器执行该计算机可执行指令或计算机程序,使得该电子设备执行本申请实施例提供的图像目标检测方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令或计算机程序,当该计算机可执行指令或计算机程序被处理器执行时,将引起处理器执行本申请实施例提供的图像目标检测方法。
在一些实施例中,计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(Hyper TextMarkup Language,HTML)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (17)

1.一种图像目标检测方法,其特征在于,所述方法包括:
获取待检测图像,所述待检测图像包括待检测的至少一个第一检测目标;
对所述待检测图像进行第一目标检测处理,得到所述待检测图像中的至少一个第一图像区域和至少一个第二图像区域;
其中,所述第一图像区域包括一个所述第一检测目标,所述第二图像区域包括一个第二检测目标,所述第一检测目标为所述第二检测目标的一部分;
分别对各所述第二图像区域进行第二目标检测处理,得到各所述第二图像区域中的第三图像区域,所述第三图像区域包括一个所述第一检测目标;
对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域,所述目标图像区域包括一个所述第一检测目标。
2.如权利要求1所述的方法,其特征在于,所述对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域,包括:
从各所述第二图像区域中的第三图像区域以及所述至少一个第一图像区域中,确定对应各所述第一检测目标的候选图像区域,并从所述至少一个第一检测目标中,确定对应多个候选图像区域的至少一个第三检测目标;
针对各所述第三检测目标,从所述第三检测目标对应的多个候选图像区域中,选取满足区域条件的第一候选图像区域作为所述目标图像区域,并将多个候选图像区域中除所述第一候选图像区域之外的候选图像区域,作为所述第三检测目标对应的第二候选图像区域;
从各所述第二图像区域中的第三图像区域以及所述至少一个第一图像区域中,删除各所述第三检测目标对应的第二候选图像区域,得到至少一个目标图像区域。
3.如权利要求2所述的方法,其特征在于,所述从所述第三检测目标对应的多个候选图像区域中,选取满足区域条件的第一候选图像区域作为所述目标图像区域,包括:
获取各所述候选图像区域的置信度分数,所述置信度分数,用于指示所述候选图像区域中包括所述第三检测目标的可能程度;
从所述第三检测目标对应的多个候选图像区域中,选取置信度分数最高的候选图像区域作为所述第一候选图像区域,并将所述第一候选图像区域作为所述目标图像区域。
4.如权利要求2所述的方法,其特征在于,所述从所述第三检测目标对应的多个候选图像区域中,选取满足区域条件的第一候选图像区域作为所述目标图像区域,包括:
获取各所述候选图像区域的置信度分数,所述置信度分数,用于指示所述候选图像区域中包括所述第三检测目标的可能程度;
从所述多个候选图像区域中,确定置信度分数最高的候选图像区域为第三候选图像区域,并将所述多个候选图像区域中除所述第三候选图像区域之外的候选图像区域,作为第四候选图像区域;
确定各所述第四候选图像区域分别和所述第三候选图像区域之间的区域重叠程度;
从所述多个候选图像区域中,删除区域重叠程度达到重叠程度阈值的所述第四候选区域,并将删除后所剩余的候选图像区域作为所述第一候选图像区域,以及将所述第一候选图像区域作为所述目标图像区域。
5.如权利要求4所述的方法,其特征在于,所述确定各所述第四候选图像区域分别和所述第三候选图像区域之间的区域重叠程度,包括:
针对各所述第四候选图像区域,分别执行如下处理:
确定所述第四候选图像区域和所述第三候选图像区域的交集图像区域,并获取所述交集图像区域的第一区域面积;
确定所述第四候选图像区域和所述第三候选图像区域的并集图像区域,并获取所述并集图像区域的第二区域面积;
将所述第一区域面积除以所述第二区域面积所得到的结果,作为所述第四候选图像区域和所述第三候选图像区域之间的区域重叠程度。
6.如权利要求1所述的方法,其特征在于,当所述待检测的至少一个第一检测目标归属于目标类别时,所述对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域之后,所述方法还包括:
对所述待检测图像中的各所述目标图像区域,分别执行所述目标类别所对应的图像处理任务,得到所述待检测图像的任务处理图像。
7.如权利要求6所述的方法,其特征在于,所述对所述待检测图像中的各所述目标图像区域,分别执行所述目标类别所对应的图像处理任务,得到所述待检测图像的任务处理图像,包括:
针对所述待检测图像中的各所述目标图像区域,分别执行如下处理,以得到所述待检测图像的任务处理图像:
通过图像类别预测模型,对所述目标图像区域进行类别预测,得到所述目标图像区域所包括第一检测目标所归属的类别;
当所述类别为所述目标类别时,对所述目标图像区域执行所述目标类别所对应的图像处理任务。
8.如权利要求7所述的方法,其特征在于,所述通过图像类别预测模型,对所述目标图像区域进行类别预测之前,所述方法还包括:
获取携带标签的图像区域样本,所述图像区域样本包括一个检测目标样本;
通过所述图像类别预测模型,对所述图像区域样本进行类别预测,得到所述图像区域样本中所述检测目标样本所归属的预测类别;
基于所述预测类别和所述标签间的差异,确定所述图像类别预测模型的损失函数的值;
基于所述图像类别预测模型的损失函数的值,更新所述图像类别预测模型的模型参数,以对所述图像类别预测模型进行训练。
9.如权利要求1所述的方法,其特征在于,当所述待检测的至少一个第一检测目标归属于目标类别时,所述分别对各所述第二图像区域进行第二目标检测处理,得到各所述第二图像区域中的第三图像区域,包括:
针对各所述第二图像区域,分别执行如下处理:
通过第二目标检测模型,对所述第二图像区域进行至少一个类别的目标的目标检测,得到检测结果;
其中,所述至少一个类别包括所述目标类别,所述检测结果包括至少一个检测框、以及各所述检测框内候选检测目标所归属的候选类别,所述检测框用于指示所述候选检测目标在所述第二图像区域的位置;
基于所述检测结果,确定候选类别为所述目标类别的第一候选检测目标为所述第一检测目标,并确定所述第一候选检测目标所在的检测框所包围的区域,为所述第二图像区域中的第三图像区域。
10.如权利要求9所述的方法,其特征在于,所述通过第二目标检测模型,对所述第二图像区域进行至少一个类别的目标的目标检测,得到检测结果之前,所述方法还包括:
获取携带标签的图像区域样本,所述标签包括所述图像区域样本中检测目标样本的真实检测框、以及所述检测目标样本所归属的真实类别;
通过所述第二目标检测模型,对所述图像区域样本进行目标检测,得到预测结果,所述预测结果包括所述图像区域样本中检测目标样本的预测检测框、以及所述检测目标样本所归属的预测类别;
获取所述预测检测框和所述真实检测框之间的第一差异,并基于所述第一差异,确定所述第二目标检测模型的第一损失函数的值;
获取所述预测类别和所述真实类别之间的第二差异,并基于所述第二差异,确定所述第二目标检测模型的第二损失函数的值;
基于所述第一损失函数的值和所述第二损失函数的值,更新所述第二目标检测模型的模型参数,以对所述第二目标检测模型进行训练。
11.如权利要求1所述的方法,其特征在于,当所述待检测的至少一个第一检测目标归属于目标类别、且所述目标类别包括多个子类别时,所述分别对各所述第二图像区域进行第二目标检测处理,得到各所述第二图像区域中的第三图像区域,包括:
针对各所述第二图像区域,分别执行如下处理:
针对各所述子类别,对所述第二图像区域进行所述子类别的第一检测目标的目标检测,得到所述第二图像区域中的子第三图像区域,所述子第三图像区域包括一个所述子类别的第一检测目标;
将所述第二图像区域中各所述子类别对应的子第三图像区域,作为所述第二图像区域中的第三图像区域。
12.如权利要求1所述的方法,其特征在于,当所述待检测的至少一个第一检测目标归属于第一目标类别,且所述第二检测目标归属于第二目标类别时,所述对所述待检测图像进行第一目标检测处理,得到所述待检测图像中的至少一个第一图像区域和至少一个第二图像区域,包括:
通过第一目标检测模型,对所述待检测图像进行至少两个类别的目标的目标检测,得到检测结果;
其中,所述至少两个类别包括所述第一目标类别和所述第二目标类别,所述检测结果包括至少一个检测框、以及各所述检测框内候选检测目标所归属的候选类别,所述检测框用于指示所述候选检测目标在所述待检测图像的位置;
基于所述检测结果,确定候选类别为所述第一目标类别的第一候选检测目标为所述第一检测目标,并确定所述第一候选检测目标所在的检测框所包围的区域,为所述第一图像区域;
基于所述检测结果,确定候选类别为所述第二目标类别的第二候选检测目标为所述第二检测目标,并确定所述第二候选检测目标所在的检测框所包围的区域,为所述第二图像区域。
13.如权利要求1所述的方法,其特征在于,所述方法应用于移动终端;所述获取待检测图像,包括:
所述移动终端接收到针对所述待检测图像的图像传输指令;
响应于所述图像传输指令,获取所述待检测图像;
当所述至少一个第一检测目标为敏感信息时,所述对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域之后,所述方法还包括:
对所述待检测图像中的各所述目标图像区域,分别执行图像脱敏处理,得到待传输图像,并传输所述待传输图像。
14.一种图像目标检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图像,所述待检测图像包括待检测的至少一个第一检测目标;
第一目标检测模块,用于对所述待检测图像进行第一目标检测处理,得到所述待检测图像中的至少一个第一图像区域和至少一个第二图像区域;
其中,所述第一图像区域包括一个所述第一检测目标,所述第二图像区域包括一个第二检测目标,所述第一检测目标为所述第二检测目标的一部分;
第二目标检测模块,用于分别对各所述第二图像区域进行第二目标检测处理,得到各所述第二图像区域中的第三图像区域,所述第三图像区域包括一个所述第一检测目标;
融合去重模块,用于对各所述第二图像区域中的第三图像区域、以及所述至少一个第一图像区域进行融合去重处理,得到至少一个目标图像区域,所述目标图像区域包括一个所述第一检测目标。
15.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至13任一项所述的图像目标检测方法。
16.一种计算机可读存储介质,存储有计算机可执行指令或计算机程序,其特征在于,所述计算机可执行指令或计算机程序被处理器执行时,实现权利要求1至13任一项所述的图像目标检测方法。
17.一种计算机程序产品,包括计算机可执行指令或计算机程序,其特征在于,所述计算机可执行指令或计算机程序被处理器执行时,实现权利要求1至13任一项所述的图像目标检测方法。
CN202310107690.XA 2023-01-29 2023-01-29 图像目标检测方法、装置、设备、存储介质及程序产品 Pending CN116958523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310107690.XA CN116958523A (zh) 2023-01-29 2023-01-29 图像目标检测方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310107690.XA CN116958523A (zh) 2023-01-29 2023-01-29 图像目标检测方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN116958523A true CN116958523A (zh) 2023-10-27

Family

ID=88457049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310107690.XA Pending CN116958523A (zh) 2023-01-29 2023-01-29 图像目标检测方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN116958523A (zh)

Similar Documents

Publication Publication Date Title
CN111079619B (zh) 用于检测图像中的目标对象的方法和装置
WO2022078077A1 (zh) 驾驶风险的预警方法、装置、计算设备及存储介质
CN112200129A (zh) 一种基于深度学习的三维目标检测方法、装置及终端设备
JP7329572B2 (ja) 通行状態取得方法及び装置、路側装置、並びに、クラウド制御プラットフォーム
CN112233428B (zh) 车流量预测方法、装置、存储介质及设备
CN114429528A (zh) 图像处理方法、装置、设备、计算机程序及存储介质
CN111127516A (zh) 无搜索框的目标检测和跟踪方法及系统
CN114926791A (zh) 一种路口车辆异常变道检测方法、装置、存储介质及电子设备
CN117015792A (zh) 有凹图像放大用于自动驾驶生成物体检测标签的系统和方法
CN114385662A (zh) 路网更新方法、装置、存储介质及电子设备
CN114332484A (zh) 关键点检测方法、装置、计算机设备和存储介质
CN112434753A (zh) 模型训练方法、目标检测方法、装置、设备及存储介质
CN110057377B (zh) 路径导航方法及相关产品
KR102143031B1 (ko) 정지 영상에서 객체의 미래 움직임을 예측하는 방법 및 시스템
CN116434173A (zh) 道路图像检测方法、装置、电子设备及存储介质
CN116704203A (zh) 目标检测方法、装置、电子设备、计算机可读存储介质
CN116958523A (zh) 图像目标检测方法、装置、设备、存储介质及程序产品
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
Hamzah et al. Parking Violation Detection on The Roadside of Toll Roads with Intelligent Transportation System Using Faster R-CNN Algorithm
CN117882116A (zh) 车辆识别模型的参数调整及数据处理方法和装置、车辆
CN111858987A (zh) Cad图像的问题查看方法、电子设备及相关产品
Dai Semantic Detection of Vehicle Violation Video Based on Computer 3D Vision
CN115205808A (zh) 一种端到端的车道线检测方法、系统、设备和介质
CN116959026A (zh) 目标检测方法、装置、设备、存储介质及计算机程序产品
CN116958570A (zh) 图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40098979

Country of ref document: HK