CN117392074A - 图像中物体检测的方法、装置、计算机设备和存储介质 - Google Patents

图像中物体检测的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117392074A
CN117392074A CN202311301734.9A CN202311301734A CN117392074A CN 117392074 A CN117392074 A CN 117392074A CN 202311301734 A CN202311301734 A CN 202311301734A CN 117392074 A CN117392074 A CN 117392074A
Authority
CN
China
Prior art keywords
detection
detected
image
region
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311301734.9A
Other languages
English (en)
Inventor
董云霄
陈强
王家威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311301734.9A priority Critical patent/CN117392074A/zh
Publication of CN117392074A publication Critical patent/CN117392074A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像中物体检测的方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取包括待检测物体的待检测图像;对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果;对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度;通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。采用本方法能够提升图像中物体检测的准确性以及检测效率。

Description

图像中物体检测的方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能领域的图像处理技术,特别是涉及一种图像中物体检测的方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的飞速发展,以及随着游戏娱乐行业的发展,计算机设备的处理能力也越来越强而游戏类型也越来越多,而基于不同的游戏场景,可能存在部分不符合游戏场景到的物体、或者涉及不合规图像的物体,而前述物体会导致游戏上线问题,或者游戏出现违规问题,因此需要对游戏中物体图案进行检测,是保证游戏顺利上线且合规的前提。目前,对图像中进行物体检测通常采取人工检查的方式,也就是通过人工遍历多个游戏场景,通过人工审核的方式确定游戏是否存在不合规物体。然而,通过人工遍历的方式检测耗时较久且容易遗漏不明显的不合规物体。因此,如何提升图像中物体检测的准确性以及检测效率是亟需解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升图像中物体检测的准确性以及检测效率的图像中物体检测的方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种图像中物体检测的方法。所述方法包括:
获取包括待检测物体的待检测图像;
对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度;
对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度;
通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。
第二方面,本申请还提供了一种图像中物体检测装置。所述装置包括:
图像获取模块,用于获取包括待检测物体的待检测图像;
检测结果获取模块,用于对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度;
置信度获取模块,用于对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度;
物体检测模块,用于通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取包括待检测物体的待检测图像;
对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度;
对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度;
通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取包括待检测物体的待检测图像;
对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度;
对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度;
通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取包括待检测物体的待检测图像;
对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度;
对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度;
通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。
上述图像中物体检测的方法、装置、计算机设备、存储介质和计算机程序产品,通过物体区域检测与物体类别检测,先确定各待检测物体的物体类别以及各待检测物体在待检测图像中所处区域,由于类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度,因此对类别置信度与区域置信度进行加权处理得到检测置信度,以通过检测置信度选择所类别检测结果表征为目标物体类别的目标物体,并进一步地确定目标物体在待检测图像中的目标区域,由于检测置信度能够从区域检测与类别检测两个维度评估检测结果的准确度,由此保证所得到的结果的准确度,且无需人工参与检测遍历的过程,因此可以提升图像中物体检测的准确性以及检测效率。
附图说明
图1为一个实施例中图像中物体检测的方法的应用环境图;
图2为一个实施例中图像中物体检测的方法的流程示意图;
图3为一个实施例中待检测图像的图像示意图;
图4为一个实施例中获取区域检测结果与类别检测结果的流程示意图;
图5为一个实施例中确定目标物体与目标区域的流程示意图;
图6为一个实施例中图像检测模型的获取的流程示意图;
图7为一个实施例中获取图像样本的流程示意图;
图8为一个实施例中图像增广处理后的初始图像样本的图像示意图;
图9为另一个实施例中获取图像样本的流程示意图;
图10为一个实施例中物体调整处理后的初始图像样本的图像示意图;
图11为一个实施例中区域调整处理后的初始图像样本的图像示意图;
图12为一个实施例中对初始图像检测模型进行训练的流程示意图;
图13为一个实施例中图像中物体检测的方法的完整流程示意图;
图14为一个实施例中图像中物体检测装置的结构框图;
图15为另一个实施例中图像中物体检测装置的结构框图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着互联网技术的飞速发展,以及随着游戏娱乐行业的发展,计算机设备的处理能力也越来越强而游戏类型也越来越多,而基于不同的游戏场景,可能存在部分不符合游戏场景到的物体、或者涉及不合规图像的物体,而前述物体会导致游戏上线问题,或者游戏出现违规问题,因此需要对游戏中物体图案进行检测,是保证游戏顺利上线且合规的前提。目前,对图像中进行物体检测通常采取人工检查的方式,也就是通过人工遍历多个游戏场景,通过人工审核的方式确定游戏是否存在不合规物体。然而,通过人工遍历的方式检测耗时较久且容易遗漏不明显的不合规物体。
基于此,本申请实施例提供一种能够提升图像中物体检测的准确性以及检测效率的图像中物体检测的方法。本申请实施例提供的图像中物体检测的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
具体地,以应用于服务器104为例进行说明,服务器104先获取包括待检测物体的待检测图像,然后服务器104对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度。再对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度,从而通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。由于检测置信度能够从区域检测与类别检测两个维度评估检测结果的准确度,由此保证所得到的结果的准确度,且无需人工参与检测遍历的过程,因此可以提升图像中物体检测的准确性以及检测效率。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。以及申请实施例提供的图像中物体检测的方法可应用于各种场景,包括但不限于云技术、以及人工智能等。
进一步地,本申请实施例提供的图像中物体检测的方法还涉及人工智能(Artificial Intelligence,AI)技术,下面将对AI技术进行简述:AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例主要是对图像进行物体检测,因此还涉及计算机视觉技术(Computer Vision,CV),计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
其次,在图像中物体检测的过程中,需要基于机器学习进行图像检测模型的训练获取,这个过程涉及机器学习技术(Machine Learning,ML),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉技术以及机器学习技术,具体通过如下实施例进行说明:在一个实施例中,如图2所示,提供了一种图像中物体检测的方法,以该方法应用于图1中的服务器104为例进行说明,可以理解的是,该方法也可以应用于终端102,还可以应用于包括终端102和服务器104的系统,并通过终端102和服务器104的交互实现。本实施例中,该方法包括以下步骤:
步骤202,获取包括待检测物体的待检测图像。
其中,待检测图像中包括至少一个待检测物体,例如,待检测图像中包括:待检测物体A1、待检测物体A2以及待检测物体A3。其次,待检测物体为待检测图像中待检测区域位置与物体类别的物体,且待检测物体具体为物体在待检测图像中展示的图案,如,角色或人物在待检测图像中展示的图案或图像,或者某个物件在待检测图像中展示的图案或图像。
具体地,服务器获取包括待检测物体的待检测图像。服务器可以基于与数据存储系统之间的通信连接,从数据存储系统中获取所存储的待检测图像,数据存储系统所存储的待检测图像可以为人工输入的,可以为通过对视频进行图像帧提取处理得到的,还可以为对图像进行部分截图处理得到的。其次,服务器还可以实时获取待检测图像,实时获取的待检测图像也可以为人工实时输入的,或者,实时对视频进行图像帧提取处理得到待检测图像的。因此,本实施例中不对获取待检测图像的具体方式进行具体限定。
为便于理解,以应用于游戏场景为例,可以遍历多个游戏布局场景以获取在不同视角下的实时游戏场景图像,此时可以将实时游戏场景图像确定为待检测图像。具体如图3所示,图3中(A)图示出的为游戏场景下所确定的待检测图像,且待检测图像中显示有待检测物体302,此时待检测物体302为树在待检测图像中所显示的图像。其次,图3中(B)图示出的为另一游戏场景下所确定的待检测图像,且待检测图像中显示有待检测物体304,此时待检测物体304为某角色在待检测图像中所显示的图像。
步骤204,对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度。
其中,物体区域检测用于检测物体在图像中的位置区域,基于此,所得到的区域检测结果用于表征:待检测物体在待检测图像中的位置区域,且具体以区域框的形式描述待检测物体的区域检测结果。其次,而物体类别检测用于检测物体的物体类别,那么所得到类别检测结果用于表征:待检测物体的物体类别。
进一步地,置信度为用于评估检测结果与真实结果之间的差距的参数,因此,类别置信度用于评估类别检测结果与待检测物体的真实类别之间的差距,即类别置信度可以百分数值,用于描述类别检测结果与待检测物体的真实类别的相似度,或者,类别置信度为类别检测结果所表征的物体类别为真实类别的概率,如,类别置信度为80%,即类别检测结果所表征待检测物体的物体类别,与待检测物体的真实类别之间的相似度为80%,或者说,类别检测结果所表征的物体类别为真实类别的概率为80%。其次,类别置信度也可以直接描述:类别检测结果可信,或者类别检测结果不可信,例如,类别置信度为“0”,说明该类别检测结果不可信,即类别检测结果所表征的物体类别为错误的物体类别,类似地,类别置信度为“1”,说明该类别检测结果可信,即类别检测结果所表征的物体类别为真实类别。
同理可知,而区域置信度用于评估区域检测结果与待检测物体的真实区域之间的差距。且由于本实施例中以区域框的形式描述待检测物体的区域检测结果,此时区域置信度具体表征:待检测物体在待检测图像中的预测区域框,与待检测物体在待检测图像中真实区域框之间的重叠度。
具体地,服务器对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,在获取到待检测物体的区域检测结果时,还能够获取区域检测结果对应的区域置信度,同理,在获取到待检测物体的类别检测结果时,还能够获取类别检测结果对应的类别置信度。待检测图像中包括:待检测物体A1、待检测物体A2以及待检测物体A3,那么对待检测图像中待检测物体A1、待检测物体A2以及待检测物体A3进行物体区域检测与物体类别检测,可以得到待检测物体A1的区域检测结果B1与类别检测结果C1。同理可知,还可以得到待检测物体A2的区域检测结果B2与类别检测结果C2,以及待检测物体A3的区域检测结果B3与类别检测结果C3。
基于此,还可以得到区域检测结果B1对应的区域置信度D1,以及类别检测结果C1对应的类别置信度E1。同理可知,还可以得到区域检测结果B2对应的区域置信度D2,与类别检测结果C2对应的类别置信度E2。以及区域检测结果B3对应的区域置信度D3,以及类别检测结果C3对应的类别置信度E3。
步骤206,对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度。
其中,由于置信度为用于评估检测结果与真实结果之间的差距的参数,那么检测置信度用于共同评估类别检测结果与区域检测结果与真实结果之间的差距。具体地,服务器对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度。即服务器先获取为类别置信度配置的类别权值,以及为区域置信度配置的区域权值,然后对类别置信度与类别权值进行乘积处理,并对区域置信度与区域权值进行乘积处理,然后将乘积处理得到的类别数值与乘积处理得到的区域数值进行求和处理,即可得到待检测物体的检测置信度。
示例性地,以类别权值为0.5以及区域权值为0.5作为示例进行说明,针对待检测物体A1而言,若区域检测结果B1对应的区域置信度D1具体为0.5,而类别检测结果C1对应的类别置信度E1具体为0.7,那么可以得到待检测物体A1的检测置信度F1为0.6(0.5×0.5+0.7×0.5)。同理可知,针对待检测物体A2而言,若区域检测结果B2对应的区域置信度D2具体为0.8,而类别检测结果C2对应的类别置信度E2具体为0.6,那么可以得到待检测物体A2的检测置信度F2为0.7(0.8×0.5+0.6×0.5)。以及针对待检测物体A3而言,若区域检测结果B3对应的区域置信度D3具体为0.7,而类别检测结果C3对应的类别置信度E3具体为0.9,那么可以得到待检测物体A3的检测置信度F3为0.8(0.7×0.5+0.9×0.5)。
步骤208,通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。
其中,目标物体类别可以为不合规物体类别、以及异常物体类别等,例如,涉及某宗教的物体类别,或者涉及血腥暴力的物体类别,或者显示为不符合应用场景的物体类别。
具体地,服务器通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。由于检测置信度用于共同评估类别检测结果与区域检测结果与真实结果之间的差距,也就是先通过各待检测物体的检测置信度确定类别检测结果与区域检测结果的精准度,在满足置信度阈值的情况下,即确定类别检测结果可以准确表征所得到的物体类别,以及确定区域检测结果可以准确表征在待检测图像中的区域。然后,再从各待检测物体的区域检测结果中选择表征为目标物体类别的目标类别检测结果,以及目标类别检测结果匹配的目标物体,然后从各待检测物体的区域检测结果中选择目标物体的目标区域检测结果,再将目标区域检测结果所表征的区域作为目标区域。
以及在实际应用中,若应用于游戏场景的物体检测,在确定目标物体与目标区域后,可以对目标区域内的目标物体进行物体处理,如:抹除目标区域内的目标物体,或遮挡目标区域内的目标物体等,此处不做限定。可以理解的是,本实施例中所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
上述图像中物体检测的方法中,由于类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度,因此对类别置信度与区域置信度进行加权处理得到检测置信度,以通过检测置信度选择所类别检测结果表征为目标物体类别的目标物体,并进一步地确定目标物体在待检测图像中的目标区域,由于检测置信度能够从区域检测与类别检测两个维度评估检测结果的准确度,由此保证所得到的结果的准确度,且无需人工参与检测遍历的过程,因此可以提升图像中物体检测的准确性以及检测效率。
在一个实施例中,如图4所示,对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,包括:
步骤402,获取各待检测物体在待检测图像中的物体边缘信息。
其中,物体边缘信息用于表征待检测物体的物体边缘的相关信息。具体地,服务器获取各待检测物体在待检测图像中的物体边缘信息,也就是服务器对待检测物体进行边缘检测,以得到的各待检测物体的物体边缘信息。基于此,由于边缘信息主要集中在高频段,也就是在待检测图像中各待检测物体的物体边缘处会产生梯度突变,那么考虑前述特征,服务器可以对图像进行高频滤波或图像锐化来以获取待检测物体的物体边缘信息,也就是服务器对待检测物体进行边缘检测的过程的实质上就是高频滤波的过程。可以理解的是,服务器还可以构建的待检测图像的热力图,从而通过待检测图像中获取各待检测物体的物体边缘信息。本实施例中不对物体边缘信息的获取进行限定。
步骤404,基于各待检测物体的物体边缘信息对待检测图像进行物体区域检测,获取各待检测物体各自的区域检测结果。
具体地,服务器基于各待检测物体的物体边缘信息对待检测图像进行物体区域检测,获取各待检测物体各自的区域检测结果。也就是服务器对待检测图像中各待检测物体进行物体区域检测的过程中,进一步地考虑到待检测物体的物体边缘信息,以获取更为准确的区域检测结果,与前述实施例介绍的类似,在获取到待检测物体的区域检测结果时,还能够获取区域检测结果对应的区域置信度。
步骤406,基于各待检测物体的物体边缘信息对待检测图像进行物体类别检测,获取各待检测物体各自的类别检测结果。
具体地,服务器基于各待检测物体的物体边缘信息对待检测图像进行物体类别检测,获取各待检测物体各自的类别检测结果。也就是服务器对待检测图像中各待检测物体进行物体类别检测的过程中,进一步地考虑到待检测物体的物体边缘信息,以获取更为准确的类别检测结果,与前述实施例介绍的类似,在获取到待检测物体的类别检测结果时,还能够获取类别检测结果对应的类别置信度。
本实施例中,在进行物体区域检测与物体类别检测的过程中,均考虑到各待检测物体的物体边缘信息,由于物体边缘信息能够描述待检测物体的物体边缘的相关信息,那么通过物体边缘信息能够减少待检测物体附近的冗余信息,从而能更为准确地定位待检测物体所处位置,即能够提升区域检测结果的准确度,那么在此基础上,基于更为准确的待检测物体所处位置,也能够提升对该待检测物体的类别进行检测的准确度。
在一个实施例中,如图5所示,通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域,包括:
步骤502,将检测置信度大于检测置信度阈值、且类别检测结果表征为目标物体类别的待检测物体确定为目标物体。
其中,目标物体可以为单个或多个,以及目标物体的物体类别为目标物体类别。具体地,在确定目标物体与目标区域之前,服务器先判定待检测物体的检测置信度是否大于检测置信度阈值,若否,即可能存在区域检测结果与类别检测结果均不够准确的问题,此时服务器不对检测置信度小于检测置信度阈值的待检测物体进行进一步地的判定确定。若是,即服务器需要选择检测置信度大于检测置信度阈值的待检测物体,然后通过检测置信度大于检测置信度阈值的待检测物体的类别检测结果所表征的物体类别,确定表征为目标物体类别的待检测物体为目标物体。
为便于理解,以检测置信度阈值为0.65为例进行说明,且基于前述示例可知,待检测物体A1的检测置信度F1为0.6,待检测物体A2的检测置信度F2为0.7,以及待检测物体A3的检测置信度F3为0.8,由此可以先筛选大于检测置信度阈值的检测置信度F2以及检测置信度F2,进而确定与检测置信度F2匹配的待检测物体A2、以及与检测置信度F3匹配的待检测物体A3为待判定物体。基于此,若目标物体类别为物体类别G1,而待检测物体A2的类别检测结果C2表征物体类别G1,待检测物体A3的类别检测结果C3表征物体类别G2,此时可以确定类别检测结果C2表征物体类别G1(即目标物体类别)的待检测物体A2为目标物体。
步骤504,从区域检测结果中选择目标物体的目标区域检测结果,并根据目标区域检测结果确定目标物体在待检测图像中的目标区域。
其中,由于目标物体可以为单个或多个,因此目标区域检测结果也可以单个目标物体的区域检测结果,或者为多个目标物体的多个区域检测结果。具体地,服务器通过前述步骤确定目标物体之后,从各待检测物体的区域检测结果中选择目标物体的目标区域检测结果,然后再根据目标区域检测结果所表征的区域,以确定目标物体在待检测图像中的目标区域。
为便于理解,若待检测物体A1的区域检测结果B1表征待检测物体A1在待检测图像中处于区域H1,待检测物体A2的区域检测结果B2表征待检测物体A2在待检测图像中处于区域H2,以及待检测物体A3的区域检测结果B3表征待检测物体A3在待检测图像中处于区域H3。基于前述示例可知,类别检测结果C2表征物体类别G1(即目标物体类别)的待检测物体A2为目标物体,而待检测物体A2的区域检测结果B2表征待检测物体A2在待检测图像中处于区域H2,那么可以确定待检测物体A2的目标区域为区域H2。
可以理解的是,本实施例中所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
本实施例中,选择检测置信度大于检测置信度阈值的待检测物体进行类别与区域判定,由于检测置信度用于共同评估类别检测结果与区域检测结果与真实结果之间的差距,因此大于检测置信度阈值的检测置信度可以表征类别检测结果与区域检测结果的与真实结果的差距符合场景需求,由此所确定的目标物体以及目标物体所处的目标区域能够更为接近实际检测需求,进而提升图像中物体检测的准确性。
在一个实施例中,如图6所示,获取区域检测结果与类别检测结果是基于图像检测模型进行的。
具体地,服务器通过图像检测模型对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果。若在前述实施例中所介绍的进步一地考虑待检测物体的物体边缘信息,即服务器可以基于各待检测物体的物体边缘信息,通过图像检测模型对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果。
基于此,图像检测模型的获取步骤包括:
步骤602,获取图像样本,图像样本中显示有被标记为目标物体类别的已分类物体,图像样本中标记有已分类物体的区域信息,且图像样本是通过数据增广处理后得到的。
其中,图像样本中显示有被标记为目标物体类别的已分类物体,即已分类物体的物体类别为目标物体类别,以及已分类物体在图像样本中的区域信息也被标记,区域信息与前述实施例中区域检测结果所表征的位置区域一致,具体以区域框的形式描述已分类物体在图像样本中所处的区域。其次,图像样本是通过数据增广处理后得到的,数据增广处理可以为以下处理方式中至少一项:图像增广处理、物体调整处理以及区域调整处理。
具体地,服务器获取图像样本。服务器可以基于与数据存储系统之间的通信连接,从数据存储系统中获取所存储的图像样本,数据存储系统所存储的图像样本可以为人工标记物体类别与区域信息后,进行数据增广处理后得到的。其次,服务器还可以实时获取图像样本,实时获取的图像样本也可以为人工实时标记物体类别与区域信息后,进行数据增广处理后得到的。因此,本实施例中不对获取图像样本的具体方式进行具体限定。
步骤604,通过初始图像检测模型对图像样本进行物体区域检测与物体类别检测,获取已分类物体的预测类别结果与预测区域结果。
其中,与前述实施例介绍的类似,物体区域检测用于检测物体在图像中的位置区域,因此,模型输出的预测区域结果用于表征已分类物体在图像样本中的位置区域,且具体以区域框的形式描述已分类物体的预测区域结果。其次,物体类别检测用于检测物体的物体类别,因此,模型输出的预测类别结果用于表征:已分类物体的物体类别。预测类别结果与预测区域结果与前述实施例中的介绍的区域检测结果与类别检测结果类似,此处不再详细赘述。具体地,服务器将图像样本作为初始图像检测模型的输入,由此初始图像检测模型对图像样本进行物体区域检测与物体类别检测,以输出已分类物体的预测类别结果与预测区域结果。
进一步地,通过前述实施例可知,在进行物体区域检测与物体类别检测时还可以考虑物体边缘信息,因此,通过初始图像检测模型获取已分类物体的预测类别结果与预测区域结果,具体包括:服务器基于已分类物体在图像样本中的区域信息,构建图像样本对应的热力图,并基于热力图获取已分类物体在图像样本中的物体边缘信息,然后再基于物体边缘信息与图像样本,通过初始图像检测模型获取已分类物体的预测类别结果与预测区域结果。
其次,初始图像检测模型可以为基于YOLOV5(You Only Look Once Version5)的检测模型,也可以为基于其他目标检测算法的检测模型,此处不做限定。
步骤606,通过预测类别结果与目标物体类别、以及预测区域结果与区域信息,对初始图像检测模型进行训练,得到图像检测模型。
具体地,服务器通过预测类别结果与目标物体类别、以及预测区域结果与区域信息,对初始图像检测模型进行训练,得到图像检测模型,即通过预测类别结果与目标物体类别、以及预测区域结果与区域信息,调整初始图像检测模型的参数,以得到图像检测模型。也就是服务器通过预测类别结果与目标物体类别、以及预测区域结果与区域信息共同计算损失值,然后通过损失值判断初始图像检测模型的损失函数是否达到收敛条件,若未达到收敛条件,则利用损失值调整初始图像检测模型的模型参数。基于此,直至初始图像检测模型的损失函数达到收敛条件,则根据最后一次对模型参数进行调整后获得的模型参数获得图像检测模型,从而在实际应用中通过训练得到的图像检测模型进行物体区域检测与物体类别检测。
前述损失函数的收敛条件可以为损失值小于或等于第一预设阈值,作为示例,例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值。也可以为损失函数的相邻两次的所得到的损失值的差值小于或等于第二预设阈值,第二阈值的取值可以与第一阈值的取值相同或不同,作为示例,例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等。也可以为初始图像检测模型的模型参数更新此处达到更新迭代阈值等,在实际应用中,还可以采用其它收敛条件等,此处不做限定。
应理解,本实施例中的示例仅用于理解本方案,而不应理解为对本方案的具体限定。
本实施例中,通过预测类别结果与目标物体类别,使得初始图像检测模型学习到可靠地类别检测能力,以及通过预测区域结果与区域信息,使得初始图像检测模型学习到可靠地区域检测能力,由此提升训练所到的图像检测模型的可靠性,从而提升在实际应用中所获取区域检测结果与类别检测结果的准确度,进而提升图像中物体检测的准确性。
在一个实施例中,如图7所示,获取图像样本,包括:
步骤702,获取初始图像样本,初始图像样本显示有被标记为目标物体类别的已分类物体。
其中,初始图像样本显示有被标记为目标物体类别的已分类物体,已分类物体的物体类别为目标物体类别。具体地,服务器获取初始图像样本,即服务器可以基于与数据存储系统之间的通信连接,从数据存储系统中获取所存储的初始图像样本,数据存储系统所存储的图像样本可以为人工标记物体类别与区域信息后得到的。其次,服务器还可以实时获取初始图像样本,实时获取的图像样本也可以为人工实时标记物体类别与区域信息后得到的。因此,本实施例中不对获取图像样本的具体方式进行具体限定。
步骤704,对初始图像样本进行图像增广处理,以得到图像增广后的初始图像样本。
其中,图像样本包括初始图像样本、与图像增广后的初始图像样本。前述图像增广处理具体为对初始图像样本进行处理,也就是图像增广处理不会单独对初始图像样本中的已分类物体进行针对性处理。具体地,服务器对初始图像样本进行图像增广处理,以得到图像增广后的初始图像样本。前述图像增广处理包括但不限于:图像模糊、图像亮度修改、图像饱和度修改、图像宽高比修改、图像像素比修改、图像水平旋转、图像随机噪声添加、图像随机旋转、图像转灰度图等。
为便于理解,如图8所示,图8中(A)图示出的为初始图像样本,基于图8中(A)图示出初始图像样本进行图像增广处理,由此可知,图8中(B)图示出的为:对初始图像样本进行图像亮度修改后的初始图像样本。图8中(C)图示出的为:对初始图像样本进行图像饱和度修改后的初始图像样本。图8中(D)图示出的为:对初始图像样本进行转灰度图后的初始图像样本。图8中(E)图示出的为:对初始图像样本进行随机噪声添加后的初始图像样本。以及图8中(F)图示出的为:对初始图像样本进行图像宽高比修改后的初始图像样本。应理解,图示示例仅用于理解本方案,而不应理解为对本方案的具体限定。
本实施例中,通过对初始图像样本进行图像增广处理,以保证图像样本包括初始图像样本与图像增广后的初始图像样本,从而提升图像样本的多样性以及复杂性,从而保证在模型训练过程中能学习到更复杂准确的检测能力,进而提升训练所到的图像检测模型的可靠性,进一步地提升图像中物体检测的准确性。
在一个实施例中,如图9示,获取图像样本,包括:
步骤902,获取初始图像样本,初始图像样本显示有被标记为目标物体类别的初始已分类物体,以及初始图像样本中标记有初始已分类物体的初始区域信息。
其中,初始图像样本显示有被标记为目标物体类别的初始已分类物体,初始已分类物体的物体类别为目标物体类别。其次,初始已分类物体在初始图像样本中的区域信息也被标记为初始区域信息,初始区域信息与前述实施例中区域信息类似,此处不再赘述。
具体地,服务器获取初始图像样本,即服务器可以基于与数据存储系统之间的通信连接,从数据存储系统中获取所存储的初始图像样本,数据存储系统所存储的图像样本可以为人工标记物体类别与区域信息后得到的。其次,服务器还可以实时获取初始图像样本,实时获取的图像样本也可以为人工实时标记物体类别与区域信息后得到的。因此,本实施例中不对获取图像样本的具体方式进行具体限定。
步骤904,对初始已分类物体进行物体调整处理,以得到物体调整后的初始图像样本。
其中,物体调整处理具体为对初始图像样本中的初始已分类物体进行处理,也就是图像增广处理仅对初始已分类物体进行针对性处理。具体地,服务器对初始已分类物体进行物体调整处理,以得到物体调整后的初始图像样本。前述物体调整处理包括但不限于:物体添加随机噪声、物体放大、物体缩小、物体随机旋转等。可以理解的是,在物体放大、物体缩小、物体随机旋转的时候,初始已分类物体的初始区域信息也会对应发生变化。
为便于理解,如图10所示,图10中(A)图示出的为初始图像样本,基于图10中(A)图示出初始图像样本中的初始已分类物体1002进行物体调整处理,由此可知,图10中(B)图示出的为:对初始已分类物体1002进行物体随机旋转后的初始图像样本。图10中(C)图示出的为:对初始已分类物体1002进行物体缩小后的初始图像样本。图10中(D)图示出的为:对初始已分类物体1002进行物体放大后的初始图像样本。图10中(E)图示出的为:对初始已分类物体1002进行物体添加随机噪声后的初始图像样本。应理解,图示示例仅用于理解本方案,而不应理解为对本方案的具体限定。
步骤906,对初始已分类物体的初始区域信息进行区域调整处理,以得到区域调整后的初始图像样本。
其中,图像样本包括物体调整后的初始图像样本、与区域调整后的初始图像样本中至少一项,以及初始图像样本。也就是图像样本可以包括:物体调整后的初始图像样本以及初始图像样本,区域调整后的初始图像样本以及初始图像样本,物体调整后的初始图像样本、区域调整后的初始图像样本以及初始图像样本。其次,区域调整处理具体为对初始图像样本中的初始已分类物体的初始区域信息进行处理,也就是图像增广处理仅对初始已分类物体的初始区域信息进行针对性处理。具体地,服务器对初始已分类物体的初始区域信息进行区域调整处理,以得到区域调整后的初始图像样本。前述区域调整处理具体为物体位置信息调整,前述物体位置信息调整可以为向初始图像样本的上下左右任一位置调整。
为便于理解,如图11所示,图11中(A)图示出的为初始图像样本,基于图11中(A)图示出初始图像样本中的初始已分类物体1102进行物体调整处理,由此可知,图11中(B)图示出的为:将初始已分类物体1102的初始区域信息向左上方调整后的初始图像样本。图11中(C)图示出的为:将初始已分类物体1102的初始区域信息向右下方调整后的初始图像样本。应理解,图示示例仅用于理解本方案,而不应理解为对本方案的具体限定。
本实施例中,通过分别针对初始图像样本中的初始已分类物体进行物体调整处理,以及针对初始已分类物体的初始区域信息进行区域调整处理,能够进一步地提升图像样本的多样性以及复杂性,从而保证在模型训练过程中能学习到更复杂准确的检测能力,进而提升训练所到的图像检测模型的可靠性,进一步地提升图像中物体检测的准确性。
在一个实施例中,如图12所示,通过预测类别结果与目标物体类别、以及预测区域结果与区域信息,对初始图像检测模型进行训练,包括:
步骤1202,通过预测类别结果与目标物体类别计算类别损失值,并通过预测区域结果与区域信息计算区域损失值。
其中,类别损失值用于描述预测类别结果所表征的已分类物体的物体类别,与已分类物体的目标物体类别之间的差距。区域损失值用于描述预测区域结果所表征的已分类物体在图像样本中的位置区域,与已分类物体在图像样本中的区域信息之间的差距。
具体地,服务器计算预测类别结果与目标物体类别之间的差距以得到类别损失值,以及计算预测区域结果与区域信息之间的差距以得到区域损失值。类别损失值可以通过交叉熵损失函数对预测类别结果与目标物体类别进行计算得到,此时类别损失值为交叉熵损失值。而区域损失值可以通过计算预测区域结果与区域信息之间的平均绝对误差(Mean Absolute Error,MAE)得到,此时区域损失值为平均绝对损失值。其次,区域损失值还可以通过计算预测区域结果与区域信息之间的均方误差损失(Mean Square Error,MSE)得到,此时区域损失值为均方误差损失值。因此,此处不对区域损失值与类别损失值进行具体限定。
步骤1204,对类别损失值与区域损失值进行加权处理得到检测损失值,并通过检测损失值与区域损失值调整初始图像检测模型的模型参数。
具体地,服务器对类别损失值与区域损失值进行加权处理得到检测损失值,加权处理的过程具体需要考虑类别权重与区域权重,然后对类别损失值与类别权重进行乘积处理,并对区域损失值与区域权重进行乘积处理,然后将乘积处理得到的类别数值与乘积处理得到的区域数值进行求和处理,即可得到检测损失值。进一步地,服务器检测损失值判断初始图像检测模型的损失函数是否达到收敛条件,若未达到收敛条件,则利用检测损失值调整初始图像检测模型的模型参数。基于此,直至初始图像检测模型的损失函数达到收敛条件,则根据最后一次对模型参数进行调整后获得的模型参数获得图像检测模型,从而在实际应用中通过训练得到的图像检测模型进行物体区域检测与物体类别检测。
可选地,在游戏图像的不合规物体的检测场景下,需要对可能疑似为目标物体类别的物体进行检测,即应检尽检,因此在调整初始图像检测模型的模型参数的过程中,若以较高阈值进行训练调整可能会存在漏测问题,例如,漏检的不合规物体常见为:颜色较淡的不合规物体,与背景颜色相近的不合规物体,或者受到部分遮挡的不合规物体。因此,需要将训练阈值设置得较低,以提升模型的泛化能力,从而避免对目标物体类别的物体的漏检情况。
本实施例中,通过类别损失值学习物体类别与目标物体类别之间的差距,以及通过区域损失值学习位置区域与区域信息之间的差距,然后通过加权处理得到检测损失值,从而在模型参数调整的过程中学习到更复杂准确的检测能力,进而提升训练所到的图像检测模型的可靠性,进一步地提升图像中物体检测的准确性。其次,通过调整模型训练阈值以提升模型的泛化能力,从而避免对目标物体类别的物体的漏检情况。
基于前述实施例的详细介绍,下面将介绍本申请实施例中图像中物体检测的方法的完整流程,在一个实施例中,如图13所示,提供了一种图像中物体检测的方法,以该方法应用于图1中的服务器104为例进行说明,可以理解的是,该方法也可以应用于终端102,还可以应用于包括终端102和服务器104的系统,并通过终端102和服务器104的交互实现。本实施例中,该方法包括以下步骤:
步骤1301,获取初始图像样本。
其中,初始图像样本显示有被标记为目标物体类别的初始已分类物体,初始已分类物体的物体类别为目标物体类别。其次,初始已分类物体在初始图像样本中的区域信息也被标记为初始区域信息。具体地,服务器获取初始图像样本,即服务器可以基于与数据存储系统之间的通信连接,从数据存储系统中获取所存储的初始图像样本,数据存储系统所存储的图像样本可以为人工标记物体类别与区域信息后得到的。其次,服务器还可以实时获取初始图像样本,实时获取的图像样本也可以为人工实时标记物体类别与区域信息后得到的。因此,本实施例中不对获取图像样本的具体方式进行具体限定。
步骤1302,对初始图像样本进行数据增广处理,以得到数据增广处理后的初始图像样本,图像样本包括初始图像样本以及数据增广处理后的初始图像样本。
其中,数据增广处理可以为以下处理方式中至少一项:图像增广处理、物体调整处理以及区域调整处理。具体地,服务器对初始图像样本进行数据增广处理,以得到数据增广处理后的初始图像样本,图像样本包括初始图像样本以及数据增广处理后的初始图像样本。即服务器可以对初始图像样本进行图像增广处理,以得到图像增广后的初始图像样本。以及服务器还可以对初始已分类物体进行物体调整处理,以得到物体调整后的初始图像样本。服务器还可以对初始已分类物体的初始区域信息进行区域调整处理,以得到区域调整后的初始图像样本。因此,数据增广处理后的初始图像样本包括以下至少一项:图像增广后的初始图像样本、物体调整后的初始图像样本、以及区域调整后的初始图像样本。
步骤1303,基于已分类物体在图像样本中的区域信息,构建图像样本对应的热力图,基于热力图获取已分类物体在图像样本中的物体边缘信息,并基于物体边缘信息与图像样本,通过初始图像检测模型获取已分类物体的预测类别结果与预测区域结果。
其中,物体区域检测用于检测物体在图像中的位置区域,因此,模型输出的预测区域结果用于表征已分类物体在图像样本中的位置区域,且具体以区域框的形式描述已分类物体的预测区域结果。其次,物体类别检测用于检测物体的物体类别,因此,模型输出的预测类别结果用于表征:已分类物体的物体类别。具体地,服务器先基于已分类物体在图像样本中的区域信息,构建图像样本对应的热力图,再基于热力图获取已分类物体在图像样本中的物体边缘信息,从而使得服务器基于物体边缘信息与图像样本,通过初始图像检测模型获取已分类物体的预测类别结果与预测区域结果。
步骤1304,通过预测类别结果与目标物体类别计算类别损失值,并通过预测区域结果与区域信息计算区域损失值。
其中,类别损失值用于描述预测类别结果所表征的已分类物体的物体类别,与已分类物体的目标物体类别之间的差距。区域损失值用于描述预测区域结果所表征的已分类物体在图像样本中的位置区域,与已分类物体在图像样本中的区域信息之间的差距。具体地,服务器计算预测类别结果与目标物体类别之间的差距以得到类别损失值,以及计算预测区域结果与区域信息之间的差距以得到区域损失值。
步骤1305,对类别损失值与区域损失值进行加权处理得到检测损失值,并通过检测损失值与区域损失值调整初始图像检测模型的模型参数,得到图像检测模型。
具体地,服务器对类别损失值与区域损失值进行加权处理得到检测损失值,加权处理的过程具体需要考虑类别权重与区域权重,然后对类别损失值与类别权重进行乘积处理,并对区域损失值与区域权重进行乘积处理,然后将乘积处理得到的类别数值与乘积处理得到的区域数值进行求和处理,即可得到检测损失值。进一步地,服务器检测损失值判断初始图像检测模型的损失函数是否达到收敛条件,若未达到收敛条件,则利用检测损失值调整初始图像检测模型的模型参数。基于此,直至初始图像检测模型的损失函数达到收敛条件,则根据最后一次对模型参数进行调整后获得的模型参数获得图像检测模型,从而在实际应用中通过训练得到的图像检测模型进行物体区域检测与物体类别检测。
步骤1306,获取包括待检测物体的待检测图像,并获取各待检测物体在待检测图像中的物体边缘信息。
其中,待检测图像中包括至少一个待检测物体。其次,待检测物体为待检测图像中待检测区域位置与物体类别的物体,且待检测物体具体为物体在待检测图像中展示的图案,如,角色或人物在待检测图像中展示的图案或图像,或者某个物件在待检测图像中展示的图案或图像。以及物体边缘信息用于表征待检测物体的物体边缘的相关信息。
具体地,服务器获取包括待检测物体的待检测图像。服务器可以基于与数据存储系统之间的通信连接,从数据存储系统中获取所存储的待检测图像,数据存储系统所存储的待检测图像可以为人工输入的,可以为通过对视频进行图像帧提取处理得到的,还可以为对图像进行部分截图处理得到的。其次,服务器还可以实时获取待检测图像,实时获取的待检测图像也可以为人工实时输入的,或者,实时对视频进行图像帧提取处理得到待检测图像的。因此,本实施例中不对获取待检测图像的具体方式进行具体限定。
进一步地,服务器获取各待检测物体在待检测图像中的物体边缘信息,也就是服务器对待检测物体进行边缘检测,以得到的各待检测物体的物体边缘信息。基于此,由于边缘信息主要集中在高频段,也就是在待检测图像中各待检测物体的物体边缘处会产生梯度突变,那么考虑前述特征,服务器可以对图像进行高频滤波或图像锐化来以获取待检测物体的物体边缘信息,也就是服务器对待检测物体进行边缘检测的过程的实质上就是高频滤波的过程。可以理解的是,服务器还可以构建的待检测图像的热力图,从而通过待检测图像中获取各待检测物体的物体边缘信息。本实施例中不对物体边缘信息的获取进行限定。
步骤1307,基于各待检测物体的物体边缘信息,通过图像检测模型对待检测图像进行物体区域检测以及物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果。
其中,物体区域检测用于检测物体在图像中的位置区域,基于此,所得到的区域检测结果用于表征:待检测物体在待检测图像中的位置区域,且具体以区域框的形式描述待检测物体的区域检测结果。其次,而物体类别检测用于检测物体的物体类别,那么所得到类别检测结果用于表征:待检测物体的物体类别。
以及置信度为用于评估检测结果与真实结果之间的差距的参数,因此,类别置信度用于评估类别检测结果与待检测物体的真实类别之间的差距。同理可知,而区域置信度用于评估区域检测结果与待检测物体的真实区域之间的差距。且由于本实施例中以区域框的形式描述待检测物体的区域检测结果,此时区域置信度具体表征:待检测物体在待检测图像中的预测区域框,与待检测物体在待检测图像中真实区域框之间的重叠度。
具体地,服务器基于各待检测物体的物体边缘信息,通过图像检测模型对待检测图像进行物体区域检测以及物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果。以及在获取到待检测物体的区域检测结果时,还能够获取区域检测结果对应的区域置信度,同理,在获取到待检测物体的类别检测结果时,还能够获取类别检测结果对应的类别置信度。
步骤1308,对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度。
其中,由于置信度为用于评估检测结果与真实结果之间的差距的参数,那么检测置信度用于共同评估类别检测结果与区域检测结果与真实结果之间的差距。具体地,服务器对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度。即服务器先获取为类别置信度配置的类别权值,以及为区域置信度配置的区域权值,然后对类别置信度与类别权值进行乘积处理,并对区域置信度与区域权值进行乘积处理,然后将乘积处理得到的类别数值与乘积处理得到的区域数值进行求和处理,即可得到待检测物体的检测置信度。
步骤1309,将检测置信度大于检测置信度阈值、且类别检测结果表征为目标物体类别的待检测物体确定为目标物体。
其中,目标物体可以为单个或多个,以及目标物体的物体类别为目标物体类别。具体地,在确定目标物体与目标区域之前,服务器先判定待检测物体的检测置信度是否大于检测置信度阈值,若否,即可能存在区域检测结果与类别检测结果均不够准确的问题,此时服务器不对检测置信度小于检测置信度阈值的待检测物体进行进一步地的判定确定。若是,即服务器需要选择检测置信度大于检测置信度阈值的待检测物体,然后通过检测置信度大于检测置信度阈值的待检测物体的类别检测结果所表征的物体类别,确定表征为目标物体类别的待检测物体为目标物体。
步骤1310,从区域检测结果中选择目标物体的目标区域检测结果,并根据目标区域检测结果确定目标物体在待检测图像中的目标区域。
其中,由于目标物体可以为单个或多个,因此目标区域检测结果也可以单个目标物体的区域检测结果,或者为多个目标物体的多个区域检测结果。具体地,服务器通过前述步骤确定目标物体之后,从各待检测物体的区域检测结果中选择目标物体的目标区域检测结果,然后再根据目标区域检测结果所表征的区域,以确定目标物体在待检测图像中的目标区域。
应理解,步骤1301至步骤1310的具体实施方式与前述实施例均类似,此处不再赘述。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像中物体检测的方法的图像中物体检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像中物体检测装置实施例中的具体限定可以参见上文中对于图像中物体检测的方法的限定,在此不再赘述。
在一个实施例中,如图14所示,提供了一种图像中物体检测装置,包括:图像获取模块1402、检测结果获取模块1404、置信度获取模块1406和物体检测模块1408,其中:
图像获取模块1402,用于获取包括待检测物体的待检测图像;
检测结果获取模块1404,用于对待检测图像中各待检测物体进行物体区域检测与物体类别检测,获取各待检测物体各自的区域检测结果与类别检测结果,类别检测结果具有对应的类别置信度,以及区域检测结果具有对应的区域置信度;
置信度获取模块1406,用于对类别置信度与区域置信度进行加权处理,得到待检测物体的检测置信度;
物体检测模块1408,用于通过检测置信度,确定类别检测结果表征为目标物体类别的目标物体,并基于区域检测结果确定目标物体在待检测图像中的目标区域。
在一个实施例中,检测结果获取模块1404,具体用于获取各待检测物体在待检测图像中的物体边缘信息;基于各待检测物体的物体边缘信息对待检测图像进行物体区域检测,获取各待检测物体各自的区域检测结果;基于各待检测物体的物体边缘信息对待检测图像进行物体类别检测,获取各待检测物体各自的类别检测结果。
在一个实施例中,物体检测模块1408,具体用于将检测置信度大于检测置信度阈值、且类别检测结果表征为目标物体类别的待检测物体确定为目标物体;从区域检测结果中选择目标物体的目标区域检测结果,并根据目标区域检测结果确定目标物体在待检测图像中的目标区域。
在一个实施例中,如图15所示,还包括图像检测模型获取模块1502;
图像检测模型获取模块1502,用于获取图像样本,图像样本中显示有被标记为目标物体类别的已分类物体,图像样本中标记有已分类物体的区域信息,且图像样本是通过数据增广处理后得到的;通过初始图像检测模型对图像样本进行物体区域检测与物体类别检测,获取已分类物体的预测类别结果与预测区域结果;通过预测类别结果与目标物体类别、以及预测区域结果与区域信息,对初始图像检测模型进行训练,得到图像检测模型。
在一个实施例中,图像检测模型获取模块1502,具体用于获取初始图像样本,初始图像样本显示有被标记为目标物体类别的已分类物体;对初始图像样本进行图像增广处理,以得到图像增广后的初始图像样本;其中,图像样本包括初始图像样本、与图像增广后的初始图像样本。
在一个实施例中,图像检测模型获取模块1502,具体用于获取初始图像样本,初始图像样本显示有被标记为目标物体类别的初始已分类物体,以及初始图像样本中标记有初始已分类物体的初始区域信息;对初始已分类物体进行物体调整处理,以得到物体调整后的初始图像样本;对初始已分类物体的初始区域信息进行区域调整处理,以得到区域调整后的初始图像样本;其中,图像样本包括物体调整后的初始图像样本、与区域调整后的初始图像样本中至少一项,以及初始图像样本。
在一个实施例中,图像检测模型获取模块1502,具体用于通过预测类别结果与目标物体类别计算类别损失值,并通过预测区域结果与区域信息计算区域损失值;对类别损失值与区域损失值进行加权处理得到检测损失值,并通过检测损失值与区域损失值调整初始图像检测模型的模型参数。
在一个实施例中,图像检测模型获取模块1502,具体用于基于已分类物体在图像样本中的区域信息,构建图像样本对应的热力图,并基于热力图获取已分类物体在图像样本中的物体边缘信息;基于物体边缘信息与图像样本,通过初始图像检测模型获取已分类物体的预测类别结果与预测区域结果。
上述图像中物体检测装置中的各模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器也可以为终端,本实施例中以计算机设备为服务器作为示例进行介绍,其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于待检测图像、图像检测模型以及图像样本,等与本申请实施例相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像中物体检测的方法。
本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的对象信息(包括但不限于对象设备信息、对象个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经对象授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征信息可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征信息所有可能的组合都进行描述,然而,只要这些技术特征信息的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种图像中物体检测的方法,其特征在于,包括:
获取包括待检测物体的待检测图像;
对所述待检测图像中各所述待检测物体进行物体区域检测与物体类别检测,获取各所述待检测物体各自的区域检测结果与类别检测结果,所述类别检测结果具有对应的类别置信度,以及所述区域检测结果具有对应的区域置信度;
对所述类别置信度与所述区域置信度进行加权处理,得到所述待检测物体的检测置信度;
通过所述检测置信度,确定所述类别检测结果表征为目标物体类别的目标物体,并基于所述区域检测结果确定所述目标物体在所述待检测图像中的目标区域。
2.根据权利要求1所述的方法,其特征在于,所述对所述待检测图像中各所述待检测物体进行物体区域检测与物体类别检测,获取各所述待检测物体各自的区域检测结果与类别检测结果,包括:
获取各所述待检测物体在所述待检测图像中的物体边缘信息;
基于各所述待检测物体的物体边缘信息对所述待检测图像进行物体区域检测,获取各所述待检测物体各自的区域检测结果;
基于各所述待检测物体的所述物体边缘信息对所述待检测图像进行物体类别检测,获取各所述待检测物体各自的类别检测结果。
3.根据权利要求1所述的方法,其特征在于,所述通过所述检测置信度,确定所述类别检测结果表征为目标物体类别的目标物体,并基于所述区域检测结果确定所述目标物体在所述待检测图像中的目标区域,包括:
将所述检测置信度大于检测置信度阈值、且所述类别检测结果表征为目标物体类别的待检测物体确定为目标物体;
从所述区域检测结果中选择所述目标物体的目标区域检测结果,并根据所述目标区域检测结果确定所述目标物体在所述待检测图像中的目标区域。
4.根据权利要求1所述的方法,其特征在于,获取所述区域检测结果与所述类别检测结果是基于图像检测模型进行的;
所述图像检测模型的获取步骤包括:
获取图像样本,所述图像样本中显示有被标记为所述目标物体类别的已分类物体,所述图像样本中标记有所述已分类物体的区域信息,且所述图像样本是通过数据增广处理后得到的;
通过初始图像检测模型对所述图像样本进行物体区域检测与物体类别检测,获取所述已分类物体的预测类别结果与预测区域结果;
通过所述预测类别结果与所述目标物体类别、以及所述预测区域结果与所述区域信息,对所述初始图像检测模型进行训练,得到所述图像检测模型。
5.根据权利要求4所述的方法,其特征在于,所述获取图像样本,包括:
获取初始图像样本,所述初始图像样本显示有被标记为所述目标物体类别的已分类物体;
对所述初始图像样本进行图像增广处理,以得到图像增广后的初始图像样本;
其中,所述图像样本包括所述初始图像样本、与所述图像增广后的初始图像样本。
6.根据权利要求4所述的方法,其特征在于,所述获取图像样本,包括:
获取初始图像样本,所述初始图像样本显示有被标记为所述目标物体类别的初始已分类物体,以及所述初始图像样本中标记有所述初始已分类物体的初始区域信息;
对所述初始已分类物体进行物体调整处理,以得到物体调整后的初始图像样本;
对所述初始已分类物体的初始区域信息进行区域调整处理,以得到区域调整后的初始图像样本;
其中,所述图像样本包括所述物体调整后的初始图像样本、与所述区域调整后的初始图像样本中至少一项,以及所述初始图像样本。
7.根据权利要求4所述的方法,其特征在于,所述通过所述预测类别结果与所述目标物体类别、以及所述预测区域结果与所述区域信息,对所述初始图像检测模型进行训练,包括:
通过所述预测类别结果与所述目标物体类别计算类别损失值,并通过所述预测区域结果与所述区域信息计算区域损失值;
对所述类别损失值与所述区域损失值进行加权处理得到检测损失值,并通过所述检测损失值与所述区域损失值调整所述初始图像检测模型的模型参数。
8.根据权利要求4所述的方法,其特征在于,所述通过初始图像检测模型获取所述已分类物体的预测类别结果与预测区域结果,包括:
基于所述已分类物体在所述图像样本中的区域信息,构建所述图像样本对应的热力图,并基于所述热力图获取所述已分类物体在所述图像样本中的物体边缘信息;
基于所述物体边缘信息与所述图像样本,通过初始图像检测模型获取所述已分类物体的预测类别结果与预测区域结果。
9.一种图像中物体检测装置,其特征在于,所述装置包括:
图像获取模块,用于获取包括待检测物体的待检测图像;
检测结果获取模块,用于对所述待检测图像中各所述待检测物体进行物体区域检测与物体类别检测,获取各所述待检测物体各自的区域检测结果与类别检测结果,所述类别检测结果具有对应的类别置信度,以及所述区域检测结果具有对应的区域置信度;
置信度获取模块,用于对所述类别置信度与所述区域置信度进行加权处理,得到所述待检测物体的检测置信度;
物体检测模块,用于通过所述检测置信度,确定所述类别检测结果表征为目标物体类别的目标物体,并基于所述区域检测结果确定所述目标物体在所述待检测图像中的目标区域。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202311301734.9A 2023-10-08 2023-10-08 图像中物体检测的方法、装置、计算机设备和存储介质 Pending CN117392074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311301734.9A CN117392074A (zh) 2023-10-08 2023-10-08 图像中物体检测的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311301734.9A CN117392074A (zh) 2023-10-08 2023-10-08 图像中物体检测的方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117392074A true CN117392074A (zh) 2024-01-12

Family

ID=89464108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311301734.9A Pending CN117392074A (zh) 2023-10-08 2023-10-08 图像中物体检测的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117392074A (zh)

Similar Documents

Publication Publication Date Title
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
CN110852316B (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN113762138B (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN114445670B (zh) 图像处理模型的训练方法、装置、设备及存储介质
CN112052877A (zh) 一种基于级联增强网络的图片细粒度分类方法
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN117576248B (zh) 基于姿态引导的图像生成方法和装置
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
Wu et al. Context-based local-global fusion network for 3D point cloud classification and segmentation
Hepburn et al. Enforcing perceptual consistency on generative adversarial networks by using the normalised laplacian pyramid distance
CN116977315A (zh) 异常检测模型处理方法、异常对象检测方法、装置和设备
CN116977265A (zh) 缺陷检测模型的训练方法、装置、计算机设备和存储介质
Pang et al. Salient object detection via effective background prior and novel graph
CN114841887B (zh) 一种基于多层次差异学习的图像恢复质量评价方法
CN113627404B (zh) 基于因果推断的高泛化人脸替换方法、装置和电子设备
CN117392074A (zh) 图像中物体检测的方法、装置、计算机设备和存储介质
CN116958615A (zh) 图片识别方法、装置、设备和介质
CN110489584B (zh) 基于密集连接的MobileNets模型的图像分类方法及系统
Kola Generation of synthetic plant images using deep learning architecture
CN117197134B (zh) 缺陷检测方法、装置、设备及存储介质
More et al. Overcoming the Drawbacks of Convolutional Neural Network Using Capsule Network
CN118262276B (zh) 视频的伪造检测方法、装置、电子设备及存储介质
Jam et al. V-LinkNet: Learning Contextual Inpainting Across Latent Space of Generative Adversarial Network
CN113591893B (zh) 基于人工智能的图像处理方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication