CN113762031A - 一种图像识别方法、装置、设备及存储介质 - Google Patents

一种图像识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113762031A
CN113762031A CN202110423112.8A CN202110423112A CN113762031A CN 113762031 A CN113762031 A CN 113762031A CN 202110423112 A CN202110423112 A CN 202110423112A CN 113762031 A CN113762031 A CN 113762031A
Authority
CN
China
Prior art keywords
recognition
target
target object
frame
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110423112.8A
Other languages
English (en)
Inventor
侯昊迪
余亭浩
张绍明
陈少华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110423112.8A priority Critical patent/CN113762031A/zh
Publication of CN113762031A publication Critical patent/CN113762031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像识别方法、装置、设备及存储介质,涉及人工智能技术领域,该方法包括:对待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象分别对应的识别框,以及确定获得的各个识别框的部位残缺识别结果。基于各个识别框的面积,从至少一个目标对象中确定目标分析对象。基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果。再基于目标分析对象的整体识别结果,确定待识别图像的图像识别结果。通过目标分析对象在多个方面的特征,确定目标分析对象的完整程度,从而提高识别目标分析对象的完整程度的准确性,进而提高检测待识别图像是否存在对象不完整问题的准确性和召回率。

Description

一种图像识别方法、装置、设备及存储介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种图像识别方法、装置、设备及存储介质。
背景技术
随着信息流及短小视频的普及和发展,大量自媒体或普通用户开始制作并发布图像以及视频等多媒体内容。然而,一些多媒体内容并非原创,而是通过二次加工生成的。在图像视频的二次加工过程中,由于不同平台所支持的图像尺寸以及比例不同,因此用户经常会对原始图像进行裁剪等操作,从而导致一些视频和图像中的人体因被裁剪而不完整,进而影响观看体验。
相关技术通过对图像上的人体关键点进行检测,判断图像是否存在人体不完整的问题。然而,现实应用中的图像内容比较丰富,很多图像内容会使关键点检测结果错误,从而导致在识别图像是否存在人体不完整问题时,其准确性较低。
发明内容
本申请实施例提供了一种图像识别方法、装置、设备及存储介质,用于在识别图像是否存在对象不完整问题时,提高识别的准确性。
一方面,本申请实施例提供了一种图像识别方法,该方法包括:
对待识别图像中的至少一个目标对象进行检测,获得所述至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果;
基于所述各个识别框的面积,从所述至少一个目标对象中确定目标分析对象;
基于所述目标分析对象对应的各个识别框的部位残缺识别结果,确定所述目标分析对象的整体识别结果;
基于所述目标分析对象的整体识别结果,确定所述待识别图像的图像识别结果。
一方面,本申请实施例提供了一种图像识别装置,该装置包括:
检测模块,用于对待识别图像中的至少一个目标对象进行检测,获得所述至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果;
选择模块,用于基于所述各个识别框的面积,从所述至少一个目标对象中确定目标分析对象;
匹配模型,用于基于所述目标分析对象对应的各个识别框的部位残缺识别结果,确定所述目标分析对象的整体识别结果;
判别模块,用于基于所述目标分析对象的整体识别结果,确定所述待识别图像的图像识别结果。
可选地,所述检测模块具体用于:
通过已训练的目标检测模型,对所述待识别图像中的至少一个目标对象进行检测,获得至少一个识别框,以及确定所述至少一个识别框的部位残缺识别结果,其中,用于训练所述目标检测模型的样本图像,是对已分割出目标对象的图像进行随机裁剪获得的;
基于所述至少一个识别框之间的位置关系,对所述至少一个识别框进行分组,获得所述至少一个目标对象分别对应的识别框。
可选地,所述至少一个识别框包括至少一个目标对象识别框和至少一个子目标对象识别框,子目标对象为目标对象的部分区域,所述至少一个识别框的部位残缺识别结果包括目标对象识别结果和子目标对象识别结果,其中,所述目标对象识别结果用于表征目标对象识别框内的目标对象是否完整,所述子目标对象识别结果用于表征子目标对象识别框内的子目标对象是否完整;
所述检测模块具体用于:
通过所述已训练的目标检测模型,对所述待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象识别框和至少一个子目标对象识别框,以及确定至少一个目标对象识别框的目标对象识别结果和所述至少一个子目标对象识别框的子目标对象识别结果。
可选地,所述目标对象识别框为人体识别框,所述子目标对象识别框包括以下至少一种:脸部识别框、头部识别框。
可选地,所述检测模块还用于:
基于所述至少一个识别框之间的位置关系,对所述至少一个识别框进行分组,获得所述至少一个目标对象分别对应的识别框之前,针对第一筛选对象迭代执行筛选操作,直到所述第一筛选对象满足第一预设条件,其中,初始的第一筛选对象为所述至少一个目标对象识别框,且每次迭代过程包括以下筛选操作:
从所述第一筛选对象中,获得目标对象识别结果概率最大的第一分析基准识别框;
确定所述第一分析基准识别框,分别与所述第一筛选对象中其他各个目标对象识别框之间第一交并比;
去除所述其他各个目标对象识别框中,所述第一交并比大于第一阈值的目标对象识别框;
将所述第一筛选对象更新为所述其他各个目标对象识别框中保留的目标对象识别框。
可选地,所述检测模块还用于:
针对第二筛选对象迭代执行筛选操作,直到所述第二筛选对象满足第二预设条件,其中,初始的第二筛选对象为所述至少一个子目标对象识别框,且每次迭代过程包括以下筛选操作:
从所述第二筛选对象中,获得子目标对象识别结果概率最大的第二分析基准识别框;
确定所述第二分析基准识别框,分别与所述第二筛选对象中其他各个子目标对象识别框之间第二交并比;
去除所述其他各个子目标对象识别框中,所述第二交并比大于第二阈值的子目标对象识别框;
将所述第二筛选对象更新为所述其他各个子目标对象识别框中保留的子目标对象识别框。
可选地,所述选择模块具体用于:
分别针对所述至少一个目标对象中各个目标对象对应的识别框,执行以下操作:
针对一个目标对象对应的各个识别框,从所述一个目标对象对应的各个识别框中,获得面积最大的候选识别框;
从获得的各个候选识别框中,选取面积最大的候选识别框,作为目标识别框;
将至少一个目标对象中所述目标识别框对应的目标对象,作为目标分析对象。
可选地,所述匹配模块具体用于:
若所述目标分析对象对应的各个识别框的部位残缺识别结果均表征部位不残缺,则确定所述目标分析对象的整体识别结果为对象完整,否则,确定所述目标分析对象的整体识别结果为对象不完整。
可选地,所述判别模块具体用于:
若所述目标分析对象的整体识别结果为对象完整,则确定所述待识别图像的图像识别结果为完整图像;
若所述目标分析对象的整体识别结果为对象不完整,则确定所述待识别图像的图像识别结果为不完整图像。
一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述图像识别方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述图像识别方法的步骤。
本申请实施例中,基于至少一个目标对象分别对应的识别框的面积,从至少一个目标对象中确定目标分析对象,然后基于目标分析对象的整体识别结果,直接确定待识别图像的图像识别结果,而不需要识别图像中每个目标对象的整体识别结果,从而提高了在识别图像是否存在对象不完整问题时的准确性和效率。其次,基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,即基于目标分析对象在多个方面的特征,确定目标分析对象的完整程度,从而提高识别目标分析对象的完整程度的准确性,进而提高检测待识别图像是否存在对象不完整问题的准确性和召回率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图文或视频审核的流程示意图;
图2为本申请实施例提供的一种封面选图的流程示意图;
图3为本申请实施例提供的一种系统架构的示意图;
图4为本申请实施例提供的一种图像识别方法的流程示意图;
图5为本申请实施例提供的一种识别框的示意图;
图6为本申请实施例提供的一种初始图像的示意图;
图7a为本申请实施例提供的一种样本图像的示意图;
图7b为本申请实施例提供的一种样本图像的示意图;
图8a为本申请实施例提供的一种人体识别框的示意图;
图8b为本申请实施例提供的一种脸部识别框的示意图;
图9为本申请实施例提供的一种人体识别框、头部识别框和脸部识别框的示意图;
图10为本申请实施例提供的一种人体识别框、头部识别框和脸部识别框的示意图;
图11为本申请实施例提供的一种人体识别框的示意图;
图12为本申请实施例提供的一种脸部识别框的示意图;
图13为本申请实施例提供的一种人体识别框、头部识别框和脸部识别框的示意图;
图14为本申请实施例提供的一种图像识别方法的流程示意图;
图15为本申请实施例提供的一种图像识别装置的结构示意图;
图16为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。比如,本申请实施例中采用计算机视觉技术识别图像中的目标对象是否完整的情况。
下面对本申请实施例的设计思想进行介绍。
随着信息流及短小视频的普及和发展,大量自媒体或普通用户开始制作并发布图像以及视频等多媒体内容。然而,一些多媒体内容并非原创,而是通过二次加工生成的。在图像视频的二次加工过程中,由于不同平台所支持的图像尺寸以及比例不同,因此用户经常会对原始图像进行裁剪等操作,从而导致一些视频和图像中的人体因被裁剪而不完整,进而影响观看体验。
相关技术通过对图像上的人体关键点进行检测,判断图像是否存在人体不完整的问题。然而,现实应用中的图像内容比较丰富,很多图像内容会使关键点检测结果错误,从而导致在识别图像是否存在人体不完整问题时,其准确性较低。而且,当图像中包括多个人体,且多个人物中既有完整人体又有不完整的人体时,基于关键点检测的方法在识别图像是否存在人体不完整问题时,其准确性将更低。
通过分析发现,用户在观看图像或视频时,若图像或视频中的主要人物的人体是完整的,而其他次要的人物的人体并不完整,也并不会影响用户的观看体验。同时,在检测人体是否完整时,若从多个方面检测人体的完整性,将有利于提高检测人体完整性的准确性。
鉴于此,本申请实施例中提供了一种图像识别方法,该方法包括:对待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果。然后基于各个识别框的面积,从至少一个目标对象中确定目标分析对象。基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,再基于目标分析对象的整体识别结果,确定待识别图像的图像识别结果。
本申请实施例中,基于至少一个目标对象分别对应的识别框的面积,从至少一个目标对象中确定目标分析对象,然后基于目标分析对象的整体识别结果,直接确定待识别图像的图像识别结果,而不需要识别图像中每个目标对象的整体识别结果,从而提高了在识别图像是否存在对象不完整问题时的准确性和效率。其次,基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,即基于目标分析对象在多个方面的特征,确定目标分析对象的完整程度,从而提高识别目标分析对象的完整程度的准确性,进而提高检测待识别图像是否存在对象不完整问题的准确性和召回率。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
应用场景一、图文或视频审核场景。
请参见图1,当用户通过多媒体应用上传或发布图文或视频内容后,后台采用本申请实施例中的图像识别方法,识别图文或视频内容中的人体的完整程度。若图文或视频内容中存在人体不完整的情况,则对图文或视频内容进行拦截或降权等处理,否则将图文或视频内容保存至后台的内容推荐池中。
应用场景二、封面选图场景。
请参见图2,在信息流及短小视频产品中,为了吸引用户阅读,需要从图文或视频内容中选择合适美观的封面图。具体地,当用户通过多媒体应用上传或发布图文或视频内容后,从图文或视频内容获取多张候选封面图像,然后采用本申请实施例中的图像识别方法,对多张候选封面图像进行识别,确定每张候选封面图像中人体的完整程度。若候选封面图像存在人体不完整的情况,则移除该候选封面图像,否则进入封面选图下一步流程,将候选封面图像交由封面图处理模块处理。
应用场景三、驾乘人员身份识别的场景。
车载终端获取摄像头采集的驾乘人员图像,然后采用本申请实施例中的图像识别方法,对驾乘人员图像进行识别,确定驾乘人员图像中人脸的完整程度。若驾乘人员图像中人脸不完整,则通知身份验证不通过,不允许启动车辆,否则,确定驾乘人员图像中的人脸特征与预先上传的驾驶人员的人脸特征之间的相似度,若相似度大于预设阈值,则通知身份验证通过,允许启动车辆,否则,通知身份验证不通过,不允许启动车辆。
需要说明的是,本申请实施例中的图像识别方法并不仅仅应用于上述几个应用场景,还可以是其他识别图像中目标对象不完整情况的任意场景,对此,本申请不做具体限定。
参考图3,其为本申请实施例提供的图像识别方法的系统架构图。该架构至少包括终端设备301以及服务器302。
终端设备301中可以安装有多媒体应用,其中,多媒体应用可以是视频播放应用、小视频应用、直播应用等与多媒体内容关联的应用,多媒体应用的类型包括是客户端应用、网页版应用、小程序应用等。终端设备301可以包括一个或多个处理器3011、存储器3012、与服务器302交互的I/O接口3013以及显示面板3014等。终端设备301可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载设备等,但并不局限于此。
服务器302可以是多媒体应用的后台服务器,为多媒体应用提供相应的服务,服务器302可以包括一个或多个处理器3021、存储器3022以及与终端设备301交互的I/O接口3023等。此外,服务器302还可以配置数据库3024。服务器302可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备301与服务器302可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的图像识别方法可以是终端设备301执行,也可以是服务器302执行。
第一种情况,图像识别方法可以是终端设备301执行。
终端设备301获取待识别图像,并对待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果。然后基于各个识别框的面积,从至少一个目标对象中确定目标分析对象。再基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,之后再基于目标分析对象的整体识别结果,确定待识别图像的图像识别结果。
第二种情况,图像识别方法可以是服务器302执行。
终端设备301获取待识别图像,并将待识别图像发送给服务器302。服务器302对待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果。然后基于各个识别框的面积,从至少一个目标对象中确定目标分析对象。再基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,之后再基于目标分析对象的整体识别结果,确定待识别图像的图像识别结果。
基于图3所示的系统架构图,本申请实施例提供了一种图像识别方法的流程,如图4所示,该方法的流程可以由图3所示的终端设备或服务器执行,包括以下步骤:
步骤S401,对待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果。
具体地,目标对象的类型可以是人物、动物、植物、建筑等。一张待识别图像中可以包括一个或多个目标对象,当一张待识别图像中包括多个目标对象时,多个目标对象的类型可以是完全相同的。比如,一张待识别图像中包括三个人物。多个目标对象的类型也可以是不完全相同的,又比如,一张待识别图像中包括两个人物和一只小狗。
一个目标对象对应的一个或多个识别框,一个识别框覆盖目标对象的部分区域,也可以覆盖整个目标对象,不同的识别框可以覆盖目标对象不同的区域。部位残缺识别结果用于表征识别框内的目标对象或子目标对象是否存在部位残缺,即识别框内的目标对象或子目标对象是否完整,其中,子目标对象为目标对象的部分区域。
比如,目标对象为人体,则人体识别框的部位残缺识别结果用于表征识别框内的人体是否存在部位残缺,即人体识别框内的人体是否完整。子目标对象为脸部,则脸部识别框的部位残缺识别结果用于表征识别框内的脸部是否存在部位残缺,即脸部识别框内的脸部是否完整。
具体实施中,可以使用识别结果概率和/或识别结果标签表示部位残缺识别结果。
示例性地,如图5所示,待识别图像中包括两个人物,分别为人物A和人物B,通过对待识别图像中的人物进行检测,获得人物A对应的人体识别框501和人物B对应的人体识别框502,其中,人体识别框501的部位残缺识别结果为人体完整,人体识别框502的部位残缺识别结果为人体不完整。
步骤S402,基于各个识别框的面积,从至少一个目标对象中确定目标分析对象。
具体地,识别框的面积即识别框的长度与宽度的乘积。比如,假设图5所示的人体识别框A的长度为10cm,宽度为5cm,则人体识别框A的覆盖面的为50cm2
从各个识别框中选出面积满足预设条件的识别框,然后将选出的识别框对应的目标对象作为目标分析对象,目标分析对象表示待识别图像中的主要目标对象,预设条件可以根据实际情况进行设置。
步骤S403,基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果。
步骤S404,基于目标分析对象的整体识别结果,确定待识别图像的图像识别结果。
具体地,基于目标分析对象对应的各个识别框的部位残缺识别结果,综合确定目标分析对象的整体识别结果,其中,目标分析对象的整体识别结果包括对象完整和对象不完整。针对不同的裁剪方向,对象不完整可以细分为左右裁剪、上部裁剪和下部裁剪。
采用目标分析对象的整体识别结果表征整张待识别图像的图像识别结果。若目标分析对象的整体识别结果为对象完整,则确定待识别图像的图像识别结果为完整图像,若目标分析对象的整体识别结果为对象不完整,则确定待识别图像的图像识别结果为不完整图像。
本申请实施例中,基于至少一个目标对象分别对应的识别框的面积,从至少一个目标对象中确定目标分析对象,然后基于目标分析对象的整体识别结果,直接确定待识别图像的图像识别结果,而不需要识别图像中每个目标对象的整体识别结果,从而提高了在识别图像是否存在对象不完整问题时的准确性和效率。其次,基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,即基于目标分析对象在多个方面的特征,确定目标分析对象的完整程度,从而提高识别目标分析对象的完整程度的准确性,进而提高检测待识别图像是否存在对象不完整问题的准确性和召回率。
可选地,在上述步骤S401中,通过已训练的目标检测模型,对待识别图像中的至少一个目标对象进行检测,获得至少一个识别框,以及确定至少一个识别框的部位残缺识别结果,其中,用于训练所述目标检测模型的样本图像,是对已分割出目标对象的图像进行随机裁剪获得的。然后基于至少一个识别框之间的位置关系,对至少一个识别框进行分组,获得至少一个目标对象分别对应的识别框。
具体地,目标检测模型可以是EfficientDet模型、YOLO(You Only Look Once)模型、SSD(Single Shot MultiBox Detector)模型、R-CNN(Regions with CNN features)模型等检测模型。可选地,本申请实施例中,训练获得的目标检测模型可保存于区块链上。
在准备用于训练目标检测模型的样本图像时,先获取已分割出每个目标对象的各个部位的初始图像,其中,在分割过程中对各个部位进行了像素级标注,初始图像可以是目前公开的分割训练数据。然后对这些初始图像进行随机裁剪,获得样本图像,并基于已有的分割标注,确定出样本图像中的各个识别框的位置和大小,之后再标记出各个识别框的部位残缺标签。
以目标对象为人体来说,初始图像如图6所示,初始图像中包括已分割出的人物A的各个身体部位。对图6所示的初始图像进行随机裁剪后,获得图7a所示的第一样本图像和图7b所示的第二样本图像,其中,第一样本图像中包括人物A的左半部分的分割标注,基于人物A左半部分的分割标注,确定出识别框701,并标记识别框701的部位残缺标签为人体左右裁剪。第二样本图像中包括人物A的下半部分的分割标注,则基于人物A的下半部分的分割标注,确定出识别框702,并标记识别框702的部位残缺标签为人体上部裁剪。
需要说明的是,本申请实施例中构造用于训练目标检测模型的训练数据的方法不仅限于上述描述的一种方法,还可以采用人工标注、目标检测、关键点检测以及人体分割等方法。
通过已训练的目标检测模型,对待识别图像中的至少一个目标对象进行检测,获得至少一个识别框之后,根据各个识别框之间的位置关系,确定各个识别框之间是否存在交叉以及各个识别框之间的交叉程度,其中,交叉程度可以是指识别框之间的交叉面积,也可以指识别框之间的交并比等。然后将交叉程度大于预设阈值的识别框,确定为同一目标对象的识别框,之后再将同一目标对象的识别框划为一组,获得各个目标对象分别对应的部位识别框。
本申请实施例中,通过对目前公开的人体分割训练数据进行随机裁剪,获得用于训练目标检测模型的样本图像,并基于已有的分割标注确定样本图像中的识别框的位置、大小以及部位残缺标签,而不需要人工标注识别框的位置、大小以及部位残缺标签,从而大大减少了样本标注的成本,同时提高了样本标注的效率。
一种可能的实施方式,至少一个识别框包括至少一个目标对象识别框,至少一个识别框的部位残缺识别结果包括目标对象识别结果,其中,目标对象识别结果用于表征目标对象识别框内的目标对象是否完整。通过已训练的目标检测模型,对待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象识别框,以及确定至少一个目标对象识别框的目标对象识别结果。
具体地,每个目标对象对应一个目标对象识别框,通过已训练的目标检测模型对待识别图像中的目标对象进行整体检测,获得目标对象的目标对象识别框。目标对象识别框的目标对象识别结果包括目标对象完整和目标对象不完整。针对不同的裁剪方向,目标对象不完整可以进一步细分为不同类别的部位残缺情况。
具体实施中,裁剪方向为左右方向时,目标对象识别框内只包括目标对象的左半部分或者右半部分。由于目标对象一般是左右对称的,因此可以将部位残缺情况设定为目标对象左右裁剪。裁剪方向为上下方向时,目标对象识别框内只包括目标对象的上半部分或者下半部分。当目标对象识别框内包括目标对象的上半部分时,将部位残缺情况设定为目标对象下部裁剪。当目标对象识别框内包括目标对象的下半部分时,将部位残缺情况设定为目标对象上部裁剪。
针对目标对象识别框,通过已训练的目标检测模型,确定目标对象识别框分别为目标对象完整、目标对象左右裁剪、目标对象上部裁剪和目标对象下部裁剪的目标对象识别结果概率,将概率最大的目标对象识别结果作为目标对象识别框的目标对象识别结果。
示例性地,如图8a所示,通过目标检测模型对待识别图像中的人物进行检测,获得两个人体识别框,分别为人体识别框801和人体识别框802,其中,人体识别框801内包括完整的人体,即人体识别框801的人体识别结果为人体完整。人体识别框802内包括下半部分人体,即人体识别框802的人体识别结果为人体上部裁剪。
一种可能的实施方式,至少一个识别框包括至少一个子目标对象识别框,子目标对象为目标对象的部分区域,至少一个识别框的部位残缺识别结果包括子目标对象识别结果,其中,子目标对象识别结果用于表征子目标对象识别框内的子目标对象是否完整。通过已训练的目标检测模型,对待识别图像中的至少一个目标对象进行检测,获得至少一个子目标对象识别框,以及确定至少一个子目标对象识别框的子目标对象识别结果。
以目标对象为人体举例来说,子目标对象识别框包括以下至少一种:脸部识别框、头部识别框。子目标对象识别框的子目标对象识别结果包括子目标对象完整和子目标对象不完整。
针对不同的裁剪方向,子目标对象不完整也可以进一步细分为不同类别的部位残缺情况。
具体实施中,裁剪方向为左右方向时,子目标对象识别框内只包括子目标对象的左半部分或者右半部分。由于子目标对象一般是左右对称的,因此可以将部位残缺情况设定为子目标对象左右裁剪。裁剪方向为上下方向时,子目标对象识别框内只包括子目标对象的上半部分或者下半部分。当子目标对象识别框内包括子目标对象的上半部分时,将部位残缺情况设定为子目标对象下部裁剪。当子目标对象识别框内包括子目标对象的下半部分时,将部位残缺情况设定为子目标对象上部裁剪。
针对子目标对象识别框,通过已训练的目标检测模型,确定子目标对象识别框分别为子目标对象完整、子目标对象左右裁剪、子目标对象上部裁剪和子目标对象下部裁剪的子目标对象识别结果概率,将概率最大的子目标对象识别结果作为子目标对象识别框的子目标对象识别结果。
示例性地,如图8b所示,通过目标检测模型对待识别图像中的人物进行检测,获得两个脸部识别框,分别为脸部识别框803和脸部识别框804,其中,脸部识别框803内包括完整的脸部,即脸部识别框803的脸部识别结果为脸部完整。脸部识别框804内包括左半部分脸部,即脸部识别框804的脸部识别结果为脸部左右裁剪。
可选地,通过已训练的目标检测模型,对待识别图像中的至少一个目标对象进行检测,获得至少一个子目标对象识别框之后,根据各个子目标对象识别框之间的位置关系,确定各个子目标对象识别框之间是否存在交叉以及各个子目标对象识别框之间的交叉程度,然后将交叉程度大于预设阈值的子目标对象识别框确定为同一目标对象的子目标对象识别框,之后再将同一目标对象的子目标对象识别框划为一组,获得各个目标对象对应的子目标对象识别框。
一种可能的实施方式,至少一个识别框包括至少一个目标对象识别框和至少一个子目标对象识别框,子目标对象为目标对象的部分区域,至少一个识别框的部位残缺识别结果包括目标对象识别结果和子目标对象识别结果,其中,目标对象识别结果用于表征目标对象识别框内的目标对象是否完整,子目标对象识别结果用于表征子目标对象识别框内的子目标对象是否完整。
通过已训练的目标检测模型,对待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象识别框和至少一个子目标对象识别框,以及确定至少一个目标对象识别框的目标对象识别结果和至少一个子目标对象识别框的子目标对象识别结果。
具体地,每个目标对象对应一个目标对象识别框和至少一个子目标对象识别框。通过已训练的目标检测模型对待识别图像中的目标对象进行整体检测,获得目标对象的目标对象识别框。通过已训练的目标检测模型,对待识别图像中的目标对象的部分区域进行检测,获得目标对象的子目标对象识别框。
以目标对象为人体来说,目标对象识别框为人体识别框,子目标对象识别框包括以下至少一种:脸部识别框、头部识别框。目标对象识别框的目标对象识别结果包括目标对象完整和目标对象不完整,子目标对象识别框的子目标对象识别结果包括子目标对象完整和子目标对象不完整。
针对不同的裁剪方向,目标对象不完整可以进一步细分为不同类别的部位残缺情况,同样,子目标对象不完整也可以进一步细分为不同类别的部位残缺情况,具体细分前文已有介绍,此处不再赘述。
示例性地,以目标对象为人体,子目标对象为脸部和头部举例来说,图9示例性示出了人体、脸部和头部分别对应的识别框以及识别框的部位残缺识别结果。
在图9中,人体识别框901的人体识别结果为人体完整,人体识别结果概率为0.91;人体识别框902的人体识别结果为人体左右裁剪,人体识别结果概率为0.68;人体识别框903的人体识别结果为人体上部裁剪,人体识别结果概率为0.75;由于正常情况下,图像或视频中也可能只包括人体的上半部分,比如直播视频中大多只包括主播的上半身,因此,将人体下部裁剪的情况归属于人体完整的情况。
头部识别框904的头部识别结果为头部完整,头部识别结果概率为0.90;头部识别框905的头部识别结果为头左右裁剪,头部识别结果概率为0.83;头部识别框906的头部识别结果为头上部裁剪,头部识别结果概率为0.69;头部识别框907的头部识别结果为头下部裁剪,头部识别结果概率为0.77。
脸部识别框908的脸部识别结果为脸部完整,脸部识别结果概率为0.90;脸部识别框909的脸部识别结果为脸左右裁剪,脸部识别结果概率为0.69;脸部识别框910的脸部识别结果为脸上部裁剪,脸部识别结果概率为0.78;脸部识别框911的脸部识别结果为脸下部裁剪,脸部识别结果概率为0.70。
可选地,通过已训练的目标检测模型,对待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象识别框和至少一个子目标对象识别框之后,根据各个识别框之间的位置关系,确定各个识别框之间是否存在交叉以及各个识别框之间的交叉程度,然后将交叉程度大于预设阈值的识别框确定为同一目标对象的识别框,之后再将同一目标对象的识别框划为一组,获得各个目标对象对应的识别框。
示例性地,如图10所示,通过目标检测模型对待识别图像中的人体进行检测,获得6个识别框,分别为人体识别框1001、人体识别框1002、头部识别框1003、头部识别框1004、脸部识别框1005和脸部识别框1006,其中,人体识别框1001、头部识别框1003以及脸部识别框1005之间的交叉程度大于预设阈值,人体识别框1002、头部识别框1004以及脸部识别框1006之间的交叉程度大于预设阈值,则将人体识别框1001、头部识别框1003以及脸部识别框1005分为一组,获得目标识别框集合A,将人体识别框1002、头部识别框1004以及脸部识别框1006分为一组,获得目标识别框集合B。
本申请实施例中,通过目标检测模型,检测获得目标对象识别框和子目标对象识别框,以及确定目标对象识别框的目标对象识别结果和子目标对象识别框的子目标对象识别结果,实现对目标对象进行多方面的识别和检测,使获得的目标对象的特征更加全面,从而提高识别目标对象不完整情况的准确性。
可选地,由于通过目标检测模型,对待识别图像中的至少一个目标对象进行检测,获得的识别框可能存在识别框冗余的情况,为了便于后续基于识别框判定待识别图像中的目标对象的不完整情况,需要对识别框进行筛选,去除冗余的识别框。其次,由于本申请中,目标检测模型检测获得的识别框包括目标对象识别框和子目标对象识别框,且子目标对象也可能包括多个类型,为了避免因目标对象识别框与子目标对象识别框之间存在交叉,或者不同类型的子目标对象识别框之间存在交叉,而误将有效的识别框过滤掉,本申请实施例中提出基于类别敏感的非极大值抑制算法,分别对目标对象识别框和不同类型的子目标对象识别框进行筛选。
具体地,针对第一筛选对象迭代执行筛选操作,直到第一筛选对象满足第一预设条件,其中,初始的第一筛选对象为至少一个目标对象识别框,且每次迭代过程包括以下筛选操作:
从第一筛选对象中,获得目标对象识别结果概率最大的第一分析基准识别框,然后确定第一分析基准识别框,分别与第一筛选对象中其他各个目标对象识别框之间第一交并比。去除其他各个目标对象识别框中,第一交并比大于第一阈值的目标对象识别框。之后再将第一筛选对象更新为其他各个目标对象识别框中保留的目标对象识别框。
具体地,交并比为交集与并集的比值,第一预设条件可以是第一筛选对象中没有目标对象识别框。
以目标对象为人体举例来说,如图11所示,设定待识别图像中包括6个人体识别框,分别为人体识别框A(人体识别结果概率为0.89)、人体识别框B(人体识别结果概率为0.69)、人体识别框C(人体识别结果概率为0.78)、人体识别框D(人体识别结果概率为0.90)、人体识别框E(人体识别结果概率为0.88)、人体识别框F(人体识别结果概率为0.70)。
从6个人体识别框中,确定出人体识别结果概率最大的第一分析基准识别框为人体识别框D,然后分别计算人体识别框D与人体识别框A、人体识别框B、人体识别框C、人体识别框E、人体识别框F之间的第一交并比。由于人体识别框D与人体识别框A、人体识别框B、人体识别框C之间的第一交并比不大于第一阈值,则保留人体识别框A、人体识别框B、人体识别框C。由于人体识别框D与人体识别框E、人体识别框F之间的第一交并比大于第一阈值,则去除人体识别框E、人体识别框F。
从保留的3个人体识别框中,确定出人体识别结果概率最大的第一分析基准识别框为人体识别框A,然后分别计算人体识别框A与人体识别框B、人体识别框C之间的第一交并比。由于人体识别框A与人体识别框B、人体识别框C之间的第一交并比均大于第一阈值,则去除人体识别框B、人体识别框C。由于没有保留的人体识别框,则筛选结束。
可选地,针对第二筛选对象迭代执行筛选操作,直到第二筛选对象满足第二预设条件,其中,初始的第二筛选对象为至少一个子目标对象识别框,且每次迭代过程包括以下筛选操作:
从第二筛选对象中,获得子目标对象识别结果概率最大的第二分析基准识别框,然后确定第二分析基准识别框,分别与第二筛选对象中其他各个子目标对象识别框之间第二交并比。去除其他各个子目标对象识别框中,第二交并比大于第二阈值的子目标对象识别框。将第二筛选对象更新为其他各个子目标对象识别框中保留的子目标对象识别框。
具体地,初始的第二筛选对象包括的各个子目标对象识别框为同一类型的子目标对象识别框,比如,均为脸部识别框,或者均为头部识别框。
以子目标对象为脸部举例来说,如图12所示,设定待识别图像中包括6个脸部识别框,分别为脸部识别框a1(脸部识别结果概率为0.87)、脸部识别框b1(脸部识别结果概率为0.93)、脸部识别框c1(脸部识别结果概率为0.78)、脸部识别框d1(脸部识别结果概率为0.86)、脸部识别框e1(脸部识别结果概率为0.69)、脸部识别框f1(脸部识别结果概率为0.76)。
从6个脸部识别框中,确定出脸部识别结果概率最大的第二分析基准识别框为脸部识别框b1,然后分别计算脸部识别框b1与脸部识别框a1、脸部识别框c1、脸部识别框d1、脸部识别框e1、脸部识别框f1之间的第二交并比。由于脸部识别框b1与脸部识别框d1、脸部识别框e1、脸部识别框f1之间的第二交并比不大于第二阈值,则保留脸部识别框d1、脸部识别框e1、脸部识别框f1。由于脸部识别框b1与脸部识别框a1、脸部识别框c1之间的第二交并比大于第二阈值,则去除脸部识别框a1、脸部识别框c1。
从保留的3个脸部识别框中,确定出脸部识别结果概率最大的第二分析基准识别框为脸部识别框d1,然后分别计算脸部识别框d1与脸部识别框e1、脸部识别框f1之间的第二交并比。由于脸部识别框d1与脸部识别框e1、脸部识别框f1之间的第二交并比均大于第二阈值,则去除脸部识别框e1、脸部识别框f1。由于没有保留的脸部识别框,则筛选结束。
本申请实施例中,分别对目标对象识别框和不同类型的子目标对象识别框进行筛选,避免因目标对象识别框与子目标对象识别框之间存在交叉,或者不同类型的子目标对象识别框之间存在交叉,而误将有效的识别框过滤掉,提高了识别框筛选的准确性,进而提高后续基于识别框确定待识别图像中目标对象不完整情况的准确性。
可选地,在上述步骤S402中,当识别框的面积越大时,说明识别框内的目标对象在待识别图像中占用的区域也就越大,用户在查看该图像时,也就越容易注意到该目标对象,该目标对象也可以称之为待识别图像中的主要目标对象。当用户查看待识别图像时,若待识别图像中的主要目标对象是完整的,而其他次要的目标对象并不完整,也并不会影响用户的观看体验。鉴于此,本申请实施例选取面积最大的识别框所对应的目标对象作为目标分析对象。
具体地,分别针对至少一个目标对象中各个目标对象对应的识别框,执行以下操作:
针对一个目标对象对应的各个识别框,从一个目标对象对应的各个识别框中,获得面积最大的候选识别框。然后从获得的各个候选识别框中,选取面积最大的候选识别框,作为目标识别框。将至少一个目标对象中目标识别框对应的目标对象,作为目标分析对象。
具体地,一个目标对象对应的各个识别框中可以只包括目标对象识别框,也可以只包括子目标对象识别框,还可以既包括目标对象识别框,又包括子目标对象识别框。先从每个目标对象对应的各个识别框中选出面积最大的候选识别框,然后再从各个候选识别框中选出面积最大的目标识别框。将目标识别框内的目标对象作为目标分析对象,即待识别图像中的主要目标对象。
举例来说,如图13所示,待识别图像中包括两个人物,分别为人物M和人物N,其中,人物M对应的各个识别框中包括人体识别框1301、头部识别框1302、脸部识别框1303。人物N对应的各个识别框中包括人体识别框1304、头部识别框1305和脸部识别框1306。
通过比较发现,人体识别框1301、头部识别框1302、脸部识别框1303中面积最大的识别框为人体识别框1301,则将人体识别框1301作为候选识别框。通过比较发现,人体识别框1304、头部识别框1305和脸部识别框1306中,面积最大的识别框为人体识别框1304,则将人体识别框1304作为候选识别框。之后再比较人体识别框1301和人体识别框1304的面积,确定人体识别框1301的面积更大,则将人体识别框1301作为目标识别框,将人物M作为目标分析对象。
需要说明的是,本申请实施例中并不仅限于上述一种方式确定目标分析对象,还可以是其他实施方式,比如将各个目标对象对应的识别框合并为一个总集合,然后直接从总集合中确定面积最大的目标识别框,并将目标识别框对应的目标对象作为目标分析对象。
本申请实施例中,从各个目标对象对应的识别框获取面积最大的识别框,然后将面积最大的识别框对应的目标对象作为目标分析对象,再基于目标分析对象的整体识别结果,直接确定待识别图像的图像识别结果,在不需要识别图像中每个目标对象的整体识别结果的情况下,有效解决了图像中存在多个目标对象时识别目标对象不完整情况的问题,同时提高了识别图像中目标对象不完整情况的准确性和效率。
可选地,在上述步骤S403中,若目标分析对象对应的各个识别框的部位残缺识别结果均表征部位不残缺,则确定目标分析对象的整体识别结果为对象完整,否则,确定目标分析对象的整体识别结果为对象不完整。
具体地,识别框的部位残缺识别结果表征部位不残缺,指的是识别框内的目标对象或子目标对象是完整的。
一种可能的实施方式,目标对象对应的识别框中只包括目标对象识别框。当目标对象识别框的目标对象识别结果为目标对象完整时,确定目标分析对象的整体识别结果为对象完整;若目标对象识别框的目标对象识别结果为以下任意一项:目标对象左右裁剪、目标对象下部裁剪、目标对象上部裁剪,则确定目标分析对象的整体识别结果为对象不完整。
一种可能的实施方式,目标对象对应的识别框中只包括子目标对象识别框,当各个子目标对象识别框的子目标对象识别结果均为子目标对象完整时,确定目标分析对象的整体识别结果为对象完整;若各个子目标对象识别框的子目标对象识别结果中存在以下至少一项:子目标对象左右裁剪、子目标对象下部裁剪、子目标对象上部裁剪,则确定目标分析对象的整体识别结果为对象不完整。
示例性地,设定待识别图像中包括两个人物,分别为人物X和人物Y,其中,人物X为目标分析人物。目标分析人物对应的识别框中包括头部识别框和脸部识别框,其中,头部识别框的头部识别结果为头上部裁剪,脸部识别框的脸部识别结果为脸部完整,则确定人物X的整体识别结果为人物X不完整,进而可以确定待识别图像为不完整图像。
一种可能的实施方式,目标对象对应的识别框中既包括目标对象识别框,又包括子目标对象识别框。当目标对象识别框的目标对象识别结果为目标对象完整,且各个子目标对象识别框的子目标对象识别结果均为子目标对象完整时,确定目标分析对象的整体识别结果为对象完整;若目标对象识别框的目标对象别结果为以下任意一项:目标对象左右裁剪、目标对象下部裁剪、目标对象上部裁剪,或者各个子目标对象识别框的子目标对象识别结果存在以下至少一项:子目标对象左右裁剪、子目标对象下部裁剪、子目标对象上部裁剪,则确定目标分析对象的整体识别结果为对象不完整。
示例性地,设定待识别图像中包括两个人物,分别为人物X和人物Y,其中,人物X为目标分析人物。目标分析人物对应的目标识别框集合中包括人体识别框、头部识别框和脸部识别框。
若人体识别框的人体识别结果为人体完整,头部识别框的头部识别结果为头部完整,脸部识别框的脸部识别结果为脸部完整,则确定人物X的整体识别结果为人物完整,进而可以确定待识别图像为完整图像。
若人体识别框的人体识别结果为人体上部裁剪,头部识别框的头部识别结果为头部完整,脸部识别框的脸部识别结果为脸部完整,则确定人物X的整体识别结果为人物不完整,进而可以确定待识别图像为不完整图像。
本申请实施例中,基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,即通过目标分析对象在多个方面的特征,确定目标分析对象的完整程度,从而提高识别图像中目标对象不完整情况的准确性。
可选地,在上述步骤S403中,若目标分析对象对应的各个识别框的部位残缺识别结果均表征不残缺,且表征不残缺的识别结果概率均大于对应的判决阈值,则确定目标分析对象的整体识别结果为对象完整,否则,确定目标分析对象的整体识别结果为对象不完整。
具体地,预先设置目标对象识别框以及各类型的子目标对象识别框分别对应的判决阈值。识别框的部位残缺识别结果表征部位不残缺,指的是识别框内的目标对象或子目标对象是完整的。表征不残缺的识别结果概率指的是,识别框内的目标对象或子目标对象为完整的概率。
一种可能的实施方式,目标对象对应的识别框中只包括目标对象识别框。当目标对象识别框的目标对象识别结果为目标对象完整,且目标对象完整的概率大于对应的判决阈值时,确定目标分析对象的整体识别结果为对象完整,否则确定目标分析对象的整体识别结果为对象不完整。
一种可能的实施方式,目标对象对应的识别框中只包括子目标对象识别框。当各个子目标对象识别框的子目标对象识别结果均为子目标对象完整,且子目标对象完整的概率均大于对应的判决阈值时,确定目标分析对象的整体识别结果为对象完整,否则确定目标分析对象的整体识别结果为对象不完整。
示例性地,设定待识别图像中包括两个人物,分别为人物X和人物Y,其中,人物X为目标分析人物。目标分析人物对应的目标识别框中包括头部识别框和脸部识别框。
若头部识别框的头部识别结果为头上部裁剪,脸部识别框的脸部识别结果为脸部完整,且脸部完整的概率大于脸部判决阈值(0.7),则确定人物X的整体识别结果为人物不完整,进而可以确定待识别图像为不完整图像。
若头部识别框的头部识别结果为头部完整,且头部完整的概率大于头部判决阈值(0.7),脸部识别框的脸部识别结果为脸部完整,且脸部完整的概率大于脸部判决阈值(0.7),则确定人物X的整体识别结果为人物完整,进而可以确定待识别图像为完整图像。
一种可能的实施方式,目标对象对应的识别框中既包括目标对象识别框,又包括子目标对象识别框。当目标对象识别框的目标对象识别结果为目标对象完整,各个子目标对象识别框的子目标对象识别结果均为子目标对象完整,且目标对象完整的概率和各个子目标对象完整的概率,均大于对应的判决阈值时,确定目标分析对象的整体识别结果为对象完整,否则确定目标分析对象的整体识别结果为对象不完整。
示例性地,设定待识别图像中包括两个人物,分别为人物X和人物Y,其中,人物X为目标分析人物。目标分析人物对应的识别框中包括人体识别框、头部识别框和脸部识别框。
若人体识别框的人体识别结果为人体完整,且人体完整的概率大于人体判决阈值(0.6),头部识别框的头部识别结果为头部完整,且头部完整的概率大于头部判决阈值(0.7),脸部识别框的脸部识别结果为脸部完整,且脸部完整的概率大于脸部判决阈值(0.7),则确定人物X的整体识别结果为人物完整,进而可以确定待识别图像为完整图像。
若人体识别框的人体识别结果为人体上部裁剪,头部识别框的头部识别结果为头部完整,头部完整的概率大于头部判决阈值(0.7),脸部识别框的脸部识别结果为脸部完整,且脸部完整的概率大于脸部判决阈值(0.7),则确定人物X的整体识别结果为人物不完整,进而可以确定待识别图像为不完整图像。
本申请实施例中,基于目标分析对象对应的各个识别框的部位残缺识别结果以及识别结果概率,确定目标分析对象的整体识别结果,即通过目标分析对象在多个方面的特征,确定目标分析对象的完整程度,从而提高识别图像中目标对象不完整情况的准确性。
为了更好地解释本申请实施例,下面以图文或视频审核场景为例,介绍本申请实施例提供的一种图像识别方法,该方法由服务器执行,如图14所示,包括以下步骤:
获取用户上传或发布的图像A,图像A可以是视频中的图像,也可以是用户直接上传的图像。采用已训练的目标检测模型,对图像A中的至少一个人物进行检测,获得人体识别框1401、头部识别框1402、脸部识别框1403以及脸部识别框1404,其中,人体识别框1401的人体识别结果为人体完整,对应的人体识别结果概率为0.806,头部识别框1402的头部识别结果为头部完整,对应的头部识别结果概率为0.841,脸部识别框1403的脸部识别结果为脸部完整,对应的脸部识别结果概率为0.984。脸部识别框1404的脸部识别结果为脸左右裁剪,对应的脸部识别结果概率为0.362。
人体识别框1401、头部识别框1402、脸部识别框1403之间的交叉程度大于预设阈值,则将人体识别框1401、头部识别框1402、脸部识别框1403对应到一个识别框集合,脸部识别框1404对应一个识别框集合。比较人体识别框1401、头部识别框1402、脸部识别框1403的面积,确定人体识别框1401的面积最大。然后比较人体识别框1401与脸部识别框1404的面积,确定人体识别框1401的面积更大,则将人体识别框1401内的人体作为目标分析人体。
由于目标分析人体对应的人体识别框1401的人体识别结果为人体完整,目标分析人体对应的头部识别框1402的头部识别结果为头部完整,目标分析人体对应的脸部识别框1403的脸部识别结果为脸部完整,则确定目标分析人体的整体识别结果为人体完整,进而可以确定图像A为完整图像。将图像A放入推荐池中,以便后续将图像A相关的内容推荐给其他用户。
本申请实施例中,基于至少一个目标对象分别对应的各个识别框的面积,从至少一个目标对象中确定目标分析对象,然后基于目标分析对象的整体识别结果,直接确定待识别图像的图像识别结果,而不需要识别图像中每个目标对象的整体识别结果,从而提高了在识别图像是否存在对象不完整问题时的准确性和效率。其次,基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,即通过目标分析对象在多个方面的特征,确定目标分析对象的完整程度,从而提高识别目标分析对象的完整程度的准确性,进而提高检测待识别图像是否存在对象不完整问题的准确性和召回率。将本申请实施例中的图像识别方法应用于信息流产品的封面选图及内容审核后,产品中的封面图不完整问题占比显著下降,从而提升了用户体验。
基于相同的技术构思,本申请实施例提供了一种图像识别装置的结构示意图,如图15所示,该装置1500包括:
检测模块1501,用于对待识别图像中的至少一个目标对象进行检测,获得所述至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果;
选择模块1502,用于基于所述各个识别框的面积,从所述至少一个目标对象中确定目标分析对象;
匹配模型1503,用于基于所述目标分析对象对应的各个识别框的部位残缺识别结果,确定所述目标分析对象的整体识别结果;
判别模块1504,用于基于所述目标分析对象的整体识别结果,确定所述待识别图像的图像识别结果。
可选地,所述检测模块1501具体用于:
通过已训练的目标检测模型,对所述待识别图像中的至少一个目标对象进行检测,获得至少一个识别框,以及确定所述至少一个识别框的部位残缺识别结果,其中,用于训练所述目标检测模型的样本图像,是对已分割出目标对象的图像进行随机裁剪获得的;
基于所述至少一个识别框之间的位置关系,对所述至少一个识别框进行分组,获得所述至少一个目标对象分别对应的识别框。
可选地,所述至少一个识别框包括至少一个目标对象识别框和至少一个子目标对象识别框,子目标对象为目标对象的部分区域,所述至少一个识别框的部位残缺识别结果包括目标对象识别结果和子目标对象识别结果,其中,所述目标对象识别结果用于表征目标对象识别框内的目标对象是否完整,所述子目标对象识别结果用于表征子目标对象识别框内的子目标对象是否完整;
所述检测模块1501具体用于:
通过所述已训练的目标检测模型,对所述待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象识别框和至少一个子目标对象识别框,以及确定至少一个目标对象识别框的目标对象识别结果和所述至少一个子目标对象识别框的子目标对象识别结果。
可选地,所述目标对象识别框为人体识别框,所述子目标对象识别框包括以下至少一种:脸部识别框、头部识别框。
可选地,所述检测模块1501还用于:
基于所述至少一个识别框之间的位置关系,对所述至少一个识别框进行分组,获得所述至少一个目标对象分别对应的识别框之前,针对第一筛选对象迭代执行筛选操作,直到所述第一筛选对象满足第一预设条件,其中,初始的第一筛选对象为所述至少一个目标对象识别框,且每次迭代过程包括以下筛选操作:
从所述第一筛选对象中,获得目标对象识别结果概率最大的第一分析基准识别框;
确定所述第一分析基准识别框,分别与所述第一筛选对象中其他各个目标对象识别框之间第一交并比;
去除所述其他各个目标对象识别框中,所述第一交并比大于第一阈值的目标对象识别框;
将所述第一筛选对象更新为所述其他各个目标对象识别框中保留的目标对象识别框。
可选地,所述检测模块1501还用于:
针对第二筛选对象迭代执行筛选操作,直到所述第二筛选对象满足第二预设条件,其中,初始的第二筛选对象为所述至少一个子目标对象识别框,且每次迭代过程包括以下筛选操作:
从所述第二筛选对象中,获得子目标对象识别结果概率最大的第二分析基准识别框;
确定所述第二分析基准识别框,分别与所述第二筛选对象中其他各个子目标对象识别框之间第二交并比;
去除所述其他各个子目标对象识别框中,所述第二交并比大于第二阈值的子目标对象识别框;
将所述第二筛选对象更新为所述其他各个子目标对象识别框中保留的子目标对象识别框。
可选地,所述选择模块1502具体用于:
分别针对所述至少一个目标对象中各个目标对象对应的识别框,执行以下操作:
针对一个目标对象对应的各个识别框,从所述一个目标对象对应的各个识别框中,获得面积最大的候选识别框;
从获得的各个候选识别框中,选取面积最大的候选识别框,作为目标识别框;
将至少一个目标对象中所述目标识别框对应的目标对象,作为目标分析对象。
可选地,所述匹配模块1503具体用于:
若所述目标分析对象对应的各个识别框的部位残缺识别结果均表征部位不残缺,则确定所述目标分析对象的整体识别结果为对象完整,否则,确定所述目标分析对象的整体识别结果为对象不完整。
可选地,所述判别模块1504具体用于:
若所述目标分析对象的整体识别结果为对象完整,则确定所述待识别图像的图像识别结果为完整图像;
若所述目标分析对象的整体识别结果为对象不完整,则确定所述待识别图像的图像识别结果为不完整图像。
本申请实施例中,基于至少一个目标对象分别对应的各个识别框的面积,从至少一个目标对象中确定目标分析对象,然后基于目标分析对象的整体识别结果,直接确定待识别图像的图像识别结果,而不需要识别图像中每个目标对象的整体识别结果,从而提高了在识别图像是否存在对象不完整问题时的准确性和效率。其次,基于目标分析对象对应的各个识别框的部位残缺识别结果,确定目标分析对象的整体识别结果,即通过目标分析对象在多个方面的特征,确定目标分析对象的完整程度,从而提高识别目标分析对象的完整程度的准确性,进而提高检测待识别图像是否存在对象不完整问题的准确性和召回率。将本申请实施例中的图像识别方法应用于信息流产品的封面选图及内容审核后,产品中的封面图不完整问题占比显著下降,从而提升了用户体验。
基于相同的技术构思,本申请实施例提供了一种计算机设备,如图16所示,包括至少一个处理器1601,以及与至少一个处理器连接的存储器1602,本申请实施例中不限定处理器1601与存储器1602之间的具体连接介质,图16中处理器1601和存储器1602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1602存储有可被至少一个处理器1601执行的指令,至少一个处理器1601通过执行存储器1602存储的指令,可以执行前述图像识别方法中所包括的步骤。
其中,处理器1601是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1602内的指令以及调用存储在存储器1602内的数据,从而进行图像识别。可选的,处理器1601可包括一个或多个处理单元,处理器1601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1601中。在一些实施例中,处理器1601和存储器1602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述图像识别方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种图像识别方法,其特征在于,包括:
对待识别图像中的至少一个目标对象进行检测,获得所述至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果;
基于所述各个识别框的面积,从所述至少一个目标对象中确定目标分析对象;
基于所述目标分析对象对应的各个识别框的部位残缺识别结果,确定所述目标分析对象的整体识别结果;
基于所述目标分析对象的整体识别结果,确定所述待识别图像的图像识别结果。
2.如权利要求1所述的方法,其特征在于,所述对待识别图像中的至少一个目标对象进行检测,获得所述至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果,包括:
通过已训练的目标检测模型,对所述待识别图像中的至少一个目标对象进行检测,获得至少一个识别框,以及确定所述至少一个识别框的部位残缺识别结果,其中,用于训练所述目标检测模型的样本图像,是对已分割出目标对象的图像进行随机裁剪获得的;
基于所述至少一个识别框之间的位置关系,对所述至少一个识别框进行分组,获得所述至少一个目标对象分别对应的识别框。
3.如权利要求2所述的方法,其特征在于,所述至少一个识别框包括至少一个目标对象识别框和至少一个子目标对象识别框,子目标对象为目标对象的部分区域,所述至少一个识别框的部位残缺识别结果包括目标对象识别结果和子目标对象识别结果,其中,所述目标对象识别结果用于表征目标对象识别框内的目标对象是否完整,所述子目标对象识别结果用于表征子目标对象识别框内的子目标对象是否完整;
所述通过已训练的目标检测模型,对所述待识别图像中的至少一个目标对象进行检测,获得至少一个识别框,以及确定所述至少一个识别框的部位残缺识别结果,包括:
通过所述已训练的目标检测模型,对所述待识别图像中的至少一个目标对象进行检测,获得至少一个目标对象识别框和至少一个子目标对象识别框,以及确定至少一个目标对象识别框的目标对象识别结果和所述至少一个子目标对象识别框的子目标对象识别结果。
4.如权利要求3所述的方法,其特征在于,所述目标对象识别框为人体识别框,所述子目标对象识别框包括以下至少一种:脸部识别框、头部识别框。
5.如权利要求3所述的方法,其特征在于,所述基于所述至少一个识别框之间的位置关系,对所述至少一个识别框进行分组,获得所述至少一个目标对象分别对应的识别框之前,还包括:
针对第一筛选对象迭代执行筛选操作,直到所述第一筛选对象满足第一预设条件,其中,初始的第一筛选对象为所述至少一个目标对象识别框,且每次迭代过程包括以下筛选操作:
从所述第一筛选对象中,获得目标对象识别结果概率最大的第一分析基准识别框;
确定所述第一分析基准识别框,分别与所述第一筛选对象中其他各个目标对象识别框之间第一交并比;
去除所述其他各个目标对象识别框中,所述第一交并比大于第一阈值的目标对象识别框;
将所述第一筛选对象更新为所述其他各个目标对象识别框中保留的目标对象识别框。
6.如权利要求5所述的方法,其特征在于,还包括:
针对第二筛选对象迭代执行筛选操作,直到所述第二筛选对象满足第二预设条件,其中,初始的第二筛选对象为所述至少一个子目标对象识别框,且每次迭代过程包括以下筛选操作:
从所述第二筛选对象中,获得子目标对象识别结果概率最大的第二分析基准识别框;
确定所述第二分析基准识别框,分别与所述第二筛选对象中其他各个子目标对象识别框之间第二交并比;
去除所述其他各个子目标对象识别框中,所述第二交并比大于第二阈值的子目标对象识别框;
将所述第二筛选对象更新为所述其他各个子目标对象识别框中保留的子目标对象识别框。
7.如权利要求1至6任一所述的方法,其特征在于,所述基于所述各个识别框的面积,从所述至少一个目标对象中确定目标分析对象,包括:
分别针对所述至少一个目标对象中各个目标对象对应的识别框,执行以下操作:
针对一个目标对象对应的各个识别框,从所述一个目标对象对应的各个识别框中,获得面积最大的候选识别框;
从获得的各个候选识别框中,选取面积最大的候选识别框,作为目标识别框;
将至少一个目标对象中所述目标识别框对应的目标对象,作为目标分析对象。
8.如权利要求7所述的方法,其特征在于,所述基于所述目标分析对象对应的各个识别框的部位残缺识别结果,确定所述目标分析对象的整体识别结果,包括:
若所述目标分析对象对应的各个识别框的部位残缺识别结果均表征部位不残缺,则确定所述目标分析对象的整体识别结果为对象完整,否则,确定所述目标分析对象的整体识别结果为对象不完整。
9.如权利要求7所述的方法,其特征在于,所述基于所述目标分析对象的整体识别结果,确定所述待识别图像的图像识别结果,包括:
若所述目标分析对象的整体识别结果为对象完整,则确定所述待识别图像的图像识别结果为完整图像;
若所述目标分析对象的整体识别结果为对象不完整,则确定所述待识别图像的图像识别结果为不完整图像。
10.一种图像识别装置,其特征在于,包括:
检测模块,用于对待识别图像中的至少一个目标对象进行检测,获得所述至少一个目标对象分别对应的识别框,以及确定各个识别框的部位残缺识别结果;
选择模块,用于基于所述各个识别框的面积,从所述至少一个目标对象中确定目标分析对象;
匹配模型,用于基于所述目标分析对象对应的各个识别框的部位残缺识别结果,确定所述目标分析对象的整体识别结果;
判别模块,用于基于所述目标分析对象的整体识别结果,确定所述待识别图像的图像识别结果。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~9任一权利要求所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~9任一所述方法的步骤。
CN202110423112.8A 2021-04-20 2021-04-20 一种图像识别方法、装置、设备及存储介质 Pending CN113762031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110423112.8A CN113762031A (zh) 2021-04-20 2021-04-20 一种图像识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110423112.8A CN113762031A (zh) 2021-04-20 2021-04-20 一种图像识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113762031A true CN113762031A (zh) 2021-12-07

Family

ID=78786855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110423112.8A Pending CN113762031A (zh) 2021-04-20 2021-04-20 一种图像识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113762031A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460502A (zh) * 2022-11-11 2022-12-09 成都智元汇信息技术股份有限公司 一种基于缩小目标区域的戴耳机识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460502A (zh) * 2022-11-11 2022-12-09 成都智元汇信息技术股份有限公司 一种基于缩小目标区域的戴耳机识别方法及系统
CN115460502B (zh) * 2022-11-11 2023-02-14 成都智元汇信息技术股份有限公司 一种基于缩小目标区域的戴耳机识别方法及系统

Similar Documents

Publication Publication Date Title
WO2021212659A1 (zh) 视频数据处理方法、装置、计算机设备及存储介质
CN111950424B (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
CN109657533A (zh) 行人重识别方法及相关产品
CN110826484A (zh) 车辆重识别的方法、装置、计算机设备及模型训练方法
KR101996371B1 (ko) 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
CN113111880B (zh) 证件图像校正方法、装置、电子设备及存储介质
CN112232203B (zh) 行人识别方法、装置、电子设备及存储介质
CN112084812A (zh) 图像处理方法、装置、计算机设备及存储介质
CN113762326A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN112712051A (zh) 对象跟踪方法、装置、计算机设备及存储介质
CN114870384A (zh) 一种基于动态识别的太极拳训练方法及系统
CN111738199A (zh) 图像信息验证方法、装置、计算装置和介质
CN113762031A (zh) 一种图像识别方法、装置、设备及存储介质
CN113627576A (zh) 扫码信息检测方法、装置、设备及存储介质
CN113569613A (zh) 图像处理方法、装置、图像处理设备及存储介质
CN113591603A (zh) 证件的验证方法、装置、电子设备及存储介质
CN113673308A (zh) 对象识别方法、装置和电子系统
CN110659631A (zh) 车牌识别方法和终端设备
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN117252947A (zh) 图像处理方法、装置、计算机、存储介质及程序产品
CN112257628A (zh) 一种户外比赛运动员的身份识别方法、装置及设备
CN112529116B (zh) 场景元素融合处理方法、装置和设备及计算机存储介质
CN115018886A (zh) 运动轨迹识别方法、装置、设备及介质
CN115115976A (zh) 视频处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination