CN112733802A - 图像的遮挡检测方法、装置、电子设备及存储介质 - Google Patents

图像的遮挡检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112733802A
CN112733802A CN202110098961.0A CN202110098961A CN112733802A CN 112733802 A CN112733802 A CN 112733802A CN 202110098961 A CN202110098961 A CN 202110098961A CN 112733802 A CN112733802 A CN 112733802A
Authority
CN
China
Prior art keywords
image
features
processing
fusion
occlusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110098961.0A
Other languages
English (en)
Other versions
CN112733802B (zh
Inventor
周红花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110098961.0A priority Critical patent/CN112733802B/zh
Publication of CN112733802A publication Critical patent/CN112733802A/zh
Application granted granted Critical
Publication of CN112733802B publication Critical patent/CN112733802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种图像的遮挡检测方法、装置、电子设备及计算机可读存储介质;涉及人工智能领域中的计算机视觉技术;方法包括:获取包含对象的待检测图像;对所述待检测图像进行特征提取处理,以获得图像特征;将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;对所述融合特征进行映射处理,以获得所述对象的不同部位的遮挡概率;将所具有的遮挡概率大于遮挡概率阈值的部位,确定为所述对象的被遮挡部位。通过本申请,能够以计算资源集约的方式对图像中的遮挡进行准确检测。

Description

图像的遮挡检测方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种图像的遮挡检测方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用。
以图像的遮挡检测为例,图像的遮挡检测是指判断包含对象(例如人脸、手掌、肢体等)的图像中是否存在被遮挡部位。相关技术通常是基于图像语义分割技术和关键点检测技术识别被遮挡部位,该方案在识别过程中需要对待检测图像中的每个像素进行分类,不仅耗时较多,而且需要大量的计算资源支撑,因此无法灵活地在计算能力受限的设备(例如终端)中部署。
对于准确检测图像中的遮挡和消耗大量计算资源之间的矛盾,相关技术尚无有效解决方案。
发明内容
本申请实施例提供一种图像的遮挡检测方法、装置、电子设备及计算机可读存储介质,能够以计算资源集约的方式对图像中的遮挡进行准确检测。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种图像的遮挡检测方法,包括:
获取包含对象的待检测图像;
对所述待检测图像进行特征提取处理,以获得图像特征;
将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;
对所述融合特征进行映射处理,以获得所述对象的不同部位的遮挡概率;
将所具有的遮挡概率大于遮挡概率阈值的部位,确定为所述对象的被遮挡部位。
在上述方案中,所述遮挡检测方法是通过第二神经网络模型实现的,所述方法还包括:
通过以下方式训练所述第二神经网络模型:
获取包含对象的样本图像、以及所述样本图像的标注数据,其中,所述标注数据包括针对所述对象标注的未遮挡部位和对应的位置;
基于所述样本图像、以及所述样本图像的标注数据,对所述第二神经网络模型进行训练;
其中,训练后的所述第二神经网络模型用于预测所述待检测图像包含的对象的未遮挡部位和对应的位置;
其中,所述样本图像是通过以下方式至少之一生成的:拍摄包含所述对象的无遮挡图像;拍摄所述对象使用不同物品时的有遮挡图像;将任意图像合成到所述对象的无遮挡图像中,以形成所述对象的有遮挡图像。
在上述方案中,所述基于所述样本图像、以及所述样本图像的标注数据,对所述第二神经网络模型进行训练,包括:
通过所述第二神经网络模型执行以下处理:
获得与所述样本图像中的多个包围框一一对应的多个图像特征;
针对对应每个包围框的图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得对应每个包围框的融合特征;
基于每个包围框的融合特征确定每个包围框的预测遮挡数据,所述预测遮挡数据包括预测遮挡部位和对应的位置;
确定每个包围框的预测遮挡数据与所述标注数据之间的损失;
将所述多个包围框的损失分别代入第二损失函数中,并通过梯度下降确定所述第二损失函数取得最小值时所述第二神经网络模型的参数;
根据确定的所述第二神经网络模型的参数更新所述第二神经网络模型。
在上述方案中,当所述待检测图像是拍摄的照片或视频帧时,所述方法还包括:
在人机交互界面中显示提示信息;
其中,所述提示信息用于提示所述被遮挡部位,并提示重新拍摄。
在上述方案中,当所述待检测图像是用于对用户账号进行身份验证而拍摄的图像时,所述方法还包括:
当满足验证条件时,确定所述待检测图像和所述用户账号的已认证图像之间的相似度;
当所述相似度低于相似度阈值时,确定身份验证失败,并在人机交互界面中提示重新拍摄;
其中,所述验证条件包括以下至少之一:
所述对象的遮挡比例不超过验证比例阈值,所述遮挡比例是所述对象的被遮挡部位的数量与所述对象包括的部位的完整数量之间的比值;
所述对象的被遮挡部位不属于目标部位。
本申请实施例提供一种图像的遮挡检测装置,包括:
获取模块,用于获取包含对象的待检测图像;
特征提取模块,用于对所述待检测图像进行特征提取处理,以获得图像特征;
融合模块,用于将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;
识别模块,用于对所述融合特征进行映射处理,以获得所述对象的不同部位的遮挡概率;
所述识别模块,还用于将所具有的遮挡概率大于遮挡概率阈值的部位,确定为所述对象的被遮挡部位。
在上述方案中,所述特征提取模块,还用于将所述待检测图像中每个通道包含的数据进行逐深度卷积处理,以获得对应每个通道的标量积;将对应每个通道的标量积进行堆叠,并将堆叠后的标量积进行逐点卷积处理,以获得所述待检测图像的图像特征。
在上述方案中,所述特征提取模块,还用于对所述待检测图像进行对象识别,并从所述待检测图像中裁剪出包含所述对象、且为预设尺寸的图像;将裁剪出的图像包含的像素进行归一化处理,以获得所述待检测图像中包含多个通道的归一化图像数据。
在上述方案中,所述融合模块,还用于将所述图像特征中每个通道包含的多个数据进行数据处理,以获得降维图像特征;其中,所述数据处理的类型包括:取平均值、取最大值、取最小值;将所述降维图像特征进行全连接处理,以获得与所述对象的多个部位一一对应的多个融合子特征;将与所述对象的多个部位一一对应的多个融合子特征组合为融合特征。
在上述方案中,所述识别模块,还用于针对所述融合特征包括的与所述对象的每个部位对应的融合子特征,执行以下处理:通过激活函数将所述融合子特征映射为对应部位的遮挡概率。
在上述方案中,所述遮挡检测方法是通过第一神经网络模型实现的,所述图像的遮挡检测装置还包括:训练模块,用于通过以下方式训练所述第一神经网络模型:获取包含对象的样本图像、以及所述样本图像的标注数据,其中,所述标注数据包括针对所述对象标注的被遮挡部位和未遮挡部位;基于所述样本图像、以及所述样本图像的标注数据,对所述第一神经网络模型进行训练;其中,训练后的所述第一神经网络模型用于预测所述待检测图像包含的对象的多个部位的遮挡概率。
在上述方案中,所述训练模块,还用于通过以下方式至少之一生成所述样本图像:拍摄包含所述对象的无遮挡图像;拍摄所述对象使用不同物品时的有遮挡图像;将任意图像合成到所述对象的无遮挡图像中,以形成所述对象的有遮挡图像。
在上述方案中,所述训练模块,还用于对所述样本图像中的对象进行关键点识别,以确定所述对象的每个部位中显露的关键点的数量;针对每个部位执行以下处理:确定所述部位的显露比例,其中,所述显露比例为所述部位中显露的关键点的数量与所述部位包括的关键点的完整数量之间的比例;当所述显露比例大于第一显露比例阈值时,标注所述部位为未遮挡部位;当所述显露比例小于第二显露比例阈值时,标注所述部位为被遮挡部位;其中,所述第一显露比例阈值大于或等于所述第二显露比例阈值。
在上述方案中,所述训练模块,还用于将所述样本图像沿所述对象的对称轴进行翻转处理,以获得新样本图像;将所述样本图像中具有对称性的部位所对应的标注数据进行交换,以作为所述新样本图像的标注数据。
在上述方案中,所述训练模块,还用于通过所述第一神经网络模型执行以下处理:对所述样本图像进行特征提取处理,以获得图像特征;将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;将所述融合特征映射为所述对象的不同部位的预测遮挡概率;确定所述对象的多个部位的预测遮挡概率和标注遮挡概率之间的损失;其中,当所述部位被标注为被遮挡部位时对应的标注遮挡概率为1,当所述部位被标注为未遮挡部位时对应的标注遮挡概率为0;将所述多个部位的损失分别代入第一损失函数中,并通过梯度下降确定所述第一损失函数取得最小值时所述第一神经网络模型的参数;根据确定的所述第一神经网络模型的参数更新所述第一神经网络模型。
在上述方案中,所述特征提取模块,还用于通过不同尺寸的滑窗,在所述待检测图像中依次选取多个包围框;对每个包围框进行特征提取处理,以获得与所述多个包围框一一对应的多个图像特征。
在上述方案中,所述融合模块,还用于针对对应每个包围框的图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得对应每个包围框的融合特征。
在上述方案中,所述识别模块,还用于针对所述待检测图像中每个包围框对应的融合特征执行以下处理:基于所述每个包围框对应的融合特征,映射为分别对应多个候选部位的概率,将大于概率阈值的概率对应的候选部位,确定为所述包围框包括的部位,并将所述包围框包括的部位确定为未遮挡部位;将所述对象预关联的多个部位分别与每个包围框包括的部位比较,以确定未从所述待检测图像中识别出的部位,将未从所述待检测图像中识别出的部位确定为被遮挡部位;对包含所述未遮挡部位的包围框进行边框回归处理,以获得所述未遮挡部位的位置。
在上述方案中,所述遮挡检测方法是通过第二神经网络模型实现的,所述训练模块,还用于通过以下方式训练所述第二神经网络模型:获取包含对象的样本图像、以及所述样本图像的标注数据,其中,所述标注数据包括针对所述对象标注的未遮挡部位和对应的位置;基于所述样本图像、以及所述样本图像的标注数据,对所述第二神经网络模型进行训练;其中,训练后的所述第二神经网络模型用于预测所述待检测图像包含的对象的未遮挡部位和对应的位置;其中,所述样本图像是通过以下方式至少之一生成的:拍摄包含所述对象的无遮挡图像;拍摄所述对象使用不同物品时的有遮挡图像;将任意图像合成到所述对象的无遮挡图像中,以形成所述对象的有遮挡图像。
在上述方案中,所述训练模块,还用于通过所述第二神经网络模型执行以下处理:获得与所述样本图像中的多个包围框一一对应的多个图像特征;针对对应每个包围框的图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得对应每个包围框的融合特征;基于每个包围框的融合特征确定每个包围框的预测遮挡数据,所述预测遮挡数据包括预测遮挡部位和对应的位置;确定每个包围框的预测遮挡数据与所述标注数据之间的损失;将所述多个包围框的损失分别代入第二损失函数中,并通过梯度下降确定所述第二损失函数取得最小值时所述第二神经网络模型的参数;根据确定的所述第二神经网络模型的参数更新所述第二神经网络模型。
在上述方案中,当所述待检测图像是拍摄的照片或视频帧时,所述图像的遮挡检测装置还包括:显示模块,用于在人机交互界面中显示提示信息;其中,所述提示信息用于提示所述被遮挡部位,并提示重新拍摄。
在上述方案中,当所述待检测图像是用于对用户账号进行身份验证而拍摄的图像时,所述图像的遮挡检测装置还包括:验证模块,用于当满足验证条件时,确定所述待检测图像和所述用户账号的已认证图像之间的相似度;当所述相似度低于相似度阈值时,确定身份验证失败,并在人机交互界面中提示重新拍摄;其中,所述验证条件包括以下至少之一:所述对象的遮挡比例不超过验证比例阈值,所述遮挡比例是所述对象的被遮挡部位的数量与所述对象包括的部位的完整数量之间的比值;所述对象的被遮挡部位不属于目标部位。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的图像的遮挡检测方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的图像的遮挡检测方法。
本申请实施例具有以下有益效果:
将待检测图像的图像特征进行降维和融合处理,将处理后的融合特征直接映射为对象的不同部位的遮挡概率,以确定被遮挡部位,相较于相关技术中需要针对待检测图像中的每个像素进行分类才能确定被遮挡部位,本申请实施例不仅能够提高识别速度和准确性,而且能够节约识别所消耗的计算资源,适用于计算能力受限的设备,从而具有广泛的适应性。
附图说明
图1是相关技术提供的图像的遮挡检测方法的原理示意图;
图2是本申请实施例提供的图像的遮挡检测系统100的架构示意图;
图3是本申请实施例提供的终端400的结构示意图;
图4A是本申请实施例提供的第一神经网络模型的架构示意图;
图4B是本申请实施例提供的第二神经网络模型的架构示意图;
图5是本申请实施例提供的图像的遮挡检测方法的流程示意图;
图6是本申请实施例提供的图像的遮挡检测方法的流程示意图;
图7是本申请实施例提供的图像的遮挡检测方法的流程示意图;
图8是本申请实施例提供的图像的遮挡检测方法的应用场景示意图;
图9是本申请实施例提供的图像的遮挡检测方法的原理示意图;
图10A、图10B、图10C和图10D是本申请实施例提供的图像的遮挡检测方法的原理示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)计算机视觉技术(CV,Computer Vision)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
2)神经网络模型的参数,在神经网络模型的训练过程中自动更新或自行学习所获得的参数,包括有特征权重、偏置等。
3)样本图像,或称训练样本、训练数据,是经过预处理后,有相对稳妥、精确的特征描述的数据集,以“样本”形式参与神经网络模型的训练过程。
4)梯度,在神经网络模型的训练过程中用于对模型参数进行梯度计算。模型计算节点每次根据各自所接收的样本数据的子集训练神经网络模型的过程均包括有正向传播和反向传播。其中,正向传播是指在训练模型中输入样本数据的子集并获得预测结果,计算预测结果与期望结果的差异的过程;反向传播则是指按照输出层、中间层、输入层的顺序,在根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值),从而根据梯度来更新模型参数。
5)对象,是指图像中的成像的目标,通常是指图像中的前景部分,在一些情况下,前景会被不同程度地遮挡。对象可以是人脸、动物脸、手掌、肢体等。对象包括多个部位,举例来说,当对象是人脸时,部位可以是人脸中的多个器官(例如,鼻子、眼睛、嘴巴、耳朵等);当对象是手掌时,部位可以是各个手指、指关节等;当对象是肢体时,部位可以是胳膊、大腿、小腿等。
6)激活函数(Activation Function),就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,激活函数可以增加神经网络模型的非线性。
参见图1,图1是相关技术提供的图像的遮挡检测方法的原理示意图。图1中,相关技术通过语义分割模型对待检测图像中的对象(例如人脸)进行像素级别的分割,即针对每个像素判断是否被遮挡,从而得到分割图,其中分割图包括分割区域和背景区域;同时,使用关键点检测模型检测对象的每个部位(例如人脸器官)的多个关键点坐标,获得每个部位的区域框位置信息,再根据部位的区域框位置信息从分割图中截取部位的背景区域,并根据部位的区域框中背景区域占比判断该部位是否被遮挡,当背景区域占比超过预设阈值时,判断该部位被遮挡,并提示用户存在遮挡。
由上述分析可知,相关技术使用图像语义分割技术和关键点检测技术,其中,语义分割模型的模型训练阶段需要人工标注的大量样本图像的支持,并且需要针对样本图像中每个像素的前景区域(即上述的分割区域)和遮挡区域(即上述的背景区域)进行判断,在训练阶段需要端到端针对每个像素进行分类,语义分割模型需要有下采样阶段(即卷积层之间的池化操作,用于过滤作用小、信息冗余的特征,保留关键信息)和上采样阶段(即将提取到的特征进行放大,从而以更高的分辨率显示图像),语义分割模型对下采样阶段的特征提取能力要求极高,需要网络深度非常深,训练耗时且不易训练。语义分割模型推理耗时在秒级响应,在计算资源有限的终端中难以部署,更无法实时检测。
综上所述,相关技术存在标注数据复杂导致的人力成本高、训练模型复杂、推理耗时导致的性能不佳、模型支持文件巨大和推理耗时导致的不易在客户端部署等问题。
针对上述技术问题,本申请实施例提供一种图像的遮挡检测方法,能够以计算资源集约的方式对图像中的遮挡进行准确检测。下面说明本申请实施例提供的图像的遮挡检测方法的示例性应用,本申请实施例提供的图像的遮挡检测方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由终端和服务器协同实施。
接下来,以由服务器和终端协同实施为例说明本申请实施例,参见图2,图2是本申请实施例提供的图像的遮挡检测系统100的架构示意图。其中,图像的遮挡检测系统100包括有:服务器200、网络300、以及终端400,将分别进行说明。
服务器200,是客户端410的后台服务器,用于训练具备图像的遮挡检测功能的神经网络模型,并向客户端410发送训练后的神经网络模型。
网络300,用于作为服务器200和终端400之间通信的媒介,可以是广域网或者局域网,又或者是二者的组合。
终端400,用于运行客户端410,客户端410是具备图像的遮挡检测功能的客户端,例如游戏客户端、防作弊客户端或图像采集客户端等。客户端410,用于接收服务器200发送的神经网络模型;还用于采集包含对象的待检测图像,并通过神经网络模型确定对象的不同部位的遮挡概率,将所具有的遮挡概率大于遮挡概率阈值的部位确定为对象的被遮挡部位;还用于在人机交互界面中显示用于提示被遮挡部位的提示信息。
在一些实施例中,客户端410还可以将待检测图像发送至服务器200;服务器200通过神经网络模型确定对象的被遮挡部位,并将包含被遮挡部位的信息发送至客户端410,以使客户端410在人机交互界面中显示用于提示被遮挡部位的提示信息。
本申请实施例可应用于多种场景,举例来说,作弊检测应用场景、照片或视频拍摄应用场景、门禁应用场景、检测未佩戴口罩的人脸的应用场景、或监控应用场景等。
以作弊检测应用场景为例,客户端410可以在竞赛前后分别采集两张图像,竞赛前采集的图像是已认证图像,竞赛过程中采集的图像是待检测图像;当客户端410检测到待检测图像中对象的遮挡比例(即对象的被遮挡部位的数量与对象包括的部位的完整数量之间的比值)不超过验证比例阈值时,表征采集的待检测图像中被遮挡部位较少,因此,可以将待检测图像和对应的已认证图像进行相似度判断,当待检测图像和已认证图像之间的相似度超过相似度阈值时,表征竞赛过程中始终是一位选手在参赛不存在冒名顶替的情况,从而可以确定竞赛选手未作弊。
以照片或视频拍摄应用场景为例,客户端410可以在照片或视频拍摄时检测对象是否存在被遮挡部位,当存在被遮挡部位时,显示用于提示被遮挡部位的提示信息,便于用户调整拍摄姿势,从而提高照片或视频的拍摄质量。
以门禁应用场景为例,客户端410可以是门禁客户端,待检测图像是用于对门禁账号进行身份验证而拍摄的图像;当客户端410检测到待检测图像中对象的遮挡比例(即对象的被遮挡部位的数量与对象包括的部位的完整数量之间的比值)不超过验证比例阈值时,表征采集的待检测图像中被遮挡部位较少,因此,可以将待检测图像和门禁账号的已认证图像进行相似度判断,当待检测图像和已认证图像之间的相似度超过相似度阈值时,表征待检测图像中的对象认证通过,从而可以开启门禁。
以检测未佩戴口罩的人脸的应用场景为例,对象可以是人脸,客户端410可以将所具有的遮挡概率不大于遮挡概率阈值的部位,确定为对象的未遮挡部位,当未遮挡部位包括鼻子和嘴巴时,确定待检测图像中的人脸未佩戴口罩,从而可以在公共场合中快速检测未佩戴口罩的人。
以监控应用场景为例,当监控目标处于复杂环境中时,客户端410可以从监控过程中采集的多个视频帧中识别出包括完整人脸的图像,例如,在视频帧1中识别出监控目标的未遮挡的鼻子和嘴巴,在视频帧2中识别出监控目标的未遮挡的眼睛,在视频帧3中识别出监控目标的未遮挡的眉毛,如此,结合视频帧1、视频帧2和视频帧3即可获取包括完整人脸的图像,从而可以调用人脸识别接口通过包括完整人脸的图像快速确定监控目标的身份信息。
本申请实施例可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。
作为示例,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、车载终端、智能穿戴设备、笔记本电脑、台式电脑等各种类型的用户终端。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
接下来说明图2中的终端400的结构。参见图3,图3是本申请实施例提供的终端400的结构示意图,图3所示的终端400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等。
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口)。
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的图像的遮挡检测装置可以采用软件方式实现,图3示出了存储在存储器450中的图像的遮挡检测装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、特征提取模块4552、融合模块4553和识别模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
下面示例性说明实现本申请实施例的遮挡检测方法的神经网络模型。
在一些实施例中,神经网络模型可以检测图像中的对象的被遮挡部位,例如识别人脸中被遮挡的器官。参见图4A,图4A是本申请实施例提供的第一神经网络模型的架构示意图,第一神经网络模型包括特征提取网络、池化网络、融合网络、以及分类网络。
作为示例,通过特征提取网络,对待检测图像进行特征提取处理,以获得整体性图像特征;通过池化网络,将整体性图像特征进行降维处理,以获得降维图像特征;通过融合网络,对降维图像特征进行融合处理,以获得融合特征;通过分类网络,根据融合特征确定对象的被遮挡部位。
在另一些实施例中,神经网络模型可以检测图像中的对象的被遮挡部位、未遮挡部位、以及未遮挡部位的位置,例如识别人脸中被遮挡的器官、未遮挡的器官、以及未遮挡的器官在图像中的位置。参见图4B,图4B是本申请实施例提供的第二神经网络模型的架构示意图,第二神经网络模型包括特征提取网络、池化网络、融合网络、分类网络、以及回归网络。
作为示例,通过特征提取网络,在待检测图像中依次选取多个包围框,并对每个包围框进行特征提取处理,以获得与多个包围框一一对应的多个局部性图像特征;通过池化网络,将每个局部性图像特征进行降维处理,以获得与多个包围框一一对应的多个降维图像特征;通过融合网络,对每个降维图像特征进行融合处理,以获得与多个包围框一一对应的多个融合特征;通过分类网络,根据融合特征确定对象的未遮挡部位,并基于未遮挡部位确定被遮挡部位;通过回归网络,根据包含未遮挡部位的包围框,确定未遮挡部位的位置。
下面,以由图2中的终端400执行本申请实施例提供的图像的遮挡检测方法为例说明。参见图5,图5是本申请实施例提供的图像的遮挡检测方法的流程示意图,将结合图5示出的步骤进行说明。
需要说明的是,图5示出的方法可以由终端400运行的各种形式计算机程序执行,并不局限于上述的客户端410,例如上文的操作系统451、软件模块和脚本。
在步骤S101中,获取包含对象的待检测图像。
在一些实施例中,对象可以是人脸、手掌、肢体等。例如,终端可以通过输入装置432中的摄像头采集包含对象的照片或视频帧。如此,可以对终端采集的照片或视频帧进行遮挡识别。
在步骤S102中,对待检测图像进行特征提取处理,以获得图像特征。
在一些实施例中,当图像特征的类型是整体性图像特征时,将待检测图像中每个通道包含的数据进行逐深度卷积处理,以获得对应每个通道的标量积;将对应每个通道的标量积进行堆叠,并将堆叠后的标量积进行逐点卷积处理,以获得从整体上表征待检测图像的图像特征。
作为承接图4A的示例,通过第一神经网络模型的特征提取网络,将待检测图像中每个通道包含的数据进行逐深度卷积处理,以获得对应每个通道的标量积;将对应每个通道的标量积进行堆叠,并将堆叠后的标量积进行逐点卷积处理,以获得整体性图像特征。
相较于从待检测图像中需要提取多个局部性特征来说,本申请实施例直接提取整体性图像特征的速度更快,耗费的计算资源更小,适用于计算能力受限的设备。
作为示例,逐深度卷积(或称逐通道卷积)和逐点卷积是深度可分离卷积(Depthwise Separable Convolution)的组成部分,逐深度卷积是一个卷积核负责一个通道,一个通道只被一个卷积核卷积,这个过程产生的标量积的数量和输入的通道数完全一样。逐点卷积则会将在逐深度卷积过程中得到的标量积在深度方向上进行加权组合,从而获得待检测图像的图像特征。标量积是指卷积的运算结果,通常是以矩阵或向量的形式存在。
以待检测图像的尺寸是224×224×3为例,通过3个通道数为1的卷积核,将待检测图像中每个通道包含的数据进行卷积,获得3个7×7×1的标量积;将得到的3个7×7×1的标量积进行堆叠,获得7×7×3的图像数据;通过1280个通道数为3的卷积核分别对7×7×3的图像数据进行卷积,以获得7×7×1280的图像特征。
本申请实施例中实际上只对待检测图像进行了1次真正的变换(逐深度卷积处理),然后将变换后的图像简单地拉长到1280个通道(逐点卷积处理),无需多次变换图像,从而节省计算资源,提高特征提取的速度。
作为示例,在将待检测图像中每个通道包含的数据进行逐深度卷积处理之前,还可以对待检测图像进行对象识别,并从待检测图像中裁剪出包含对象、且为预设尺寸的图像;将裁剪出的图像包含的像素进行归一化处理,以获得待检测图像中包含多个通道的归一化图像数据。
举例来说,神经网络模型输入的图像尺寸通常为224×224×3,因此,需要将待检测图像进行预处理,具体包括:从待检测图像中裁剪出包含对象、且长和宽都是224个像素的图像,将裁剪出的图像中的每个像素值除以255,转换成0到1之间的数值,这样相较于不进行归一化处理来说更容易检测。另外,图像拥有红、绿、蓝共3个通道的图片数据,所以最终得到224×224×3的尺寸统一的图片数据来进行遮挡检测。
在一些实施例中,当图像特征的类型是局部性图像特征时,通过不同尺寸的滑窗,在待检测图像中依次选取多个包围框;对每个包围框进行特征提取处理,以获得与多个包围框一一对应的多个图像特征。
作为示例,包围框的尺寸和滑窗的尺寸相对应,每个尺寸的滑窗对应多个尺寸相同的包围框。
作为承接图4B的示例,通过第二神经网络模型的特征提取网络,使用不同尺寸的滑窗,在待检测图像中依次选取多个包围框;对每个包围框进行特征提取处理,以获得与多个包围框一一对应的多个局部性图像特征。
作为示例,对每个包围框进行特征提取处理,以获得与多个包围框一一对应的多个图像特征可以包括针对每个包围框执行以下处理:将包围框中每个通道包含的数据进行逐深度卷积处理,以获得对应每个通道的标量积;将对应每个通道的标量积进行堆叠,并将堆叠后的标量积进行逐点卷积处理,以获得对应包围框的图像特征。对每个包围框进行特征提取处理的过程和上述提取整体性图像特征的过程类似,在此将不再进行赘述。
相较于从待检测图像中提取整体性特征来说,本申请实施例提取的局部性图像特征更能表征待检测图像的局部特点,从而能够在后续识别的过程中不仅能够识别部位的遮挡情况,还能够识别未遮挡部位的位置。
在步骤S103中,将图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征。
在一些实施例中,当图像特征的类型是整体性图像特征时,将图像特征中每个通道包含的多个数据进行数据处理(或称池化处理),以获得降维图像特征;其中,数据处理的类型包括:取平均值、取最大值、取最小值;将降维图像特征进行全连接处理,以获得与对象的多个部位一一对应的多个融合子特征;将与对象的多个部位一一对应的多个融合子特征组合为融合特征。
作为承接图4A的示例,通过第一神经网络模型的池化网络,将图像特征中每个通道包含的多个数据进行数据处理,以获得降维图像特征;通过第一神经网络模型的融合网络,将降维图像特征进行全连接处理,以获得与对象的多个部位一一对应的多个融合子特征,并将与对象的多个部位一一对应的多个融合子特征组合为融合特征。
举例来说,将7×7×1280的图像特征中每个通道的7×7=49个数据取平均值,得到1×1280的1维特征向量(即上述的降维图像特征);将1×1280的特征向量和维度为1280×6的转化矩阵相乘,得到1×6的一维特征向量(即上述的融合特征),其中,1×6的特征向量中包括6个数据(即上述的融合子特征),每个数据均对应一个部位;当然,也可以将1×1280的特征向量分别和六个维度为1280×1的转化矩阵相乘,得到6个数据,将得到的6个数据组合为1×6的一维特征向量。
在一些实施例中,当图像特征的类型是局部性图像特征时,针对对应每个包围框的图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得对应每个包围框的融合特征。
作为承接图4B的示例,通过第二神经网络模型的池化网络,针对对应每个包围框的图像特征进行降维处理,以获得对应每个包围框的降维图像特征;通过第二神经网络模型的融合网络,针对对应每个包围框的降维图像特征进行融合处理,以获得对应每个包围框的融合特征。对每个包围框的图像特征进行降维处理和融合处理的过程和上述针对整体性图像特征进行降维处理和融合处理的过程类似,在此将不再进行赘述。
本申请实施例中将图像特征进行降维处理和融合处理,能够减小图像特征的维数,从而不仅能够降低训练和检测的难度,而且能够提高泛化能力,防止模型过拟合。
在步骤S104中,对融合特征进行映射处理,以获得对象的不同部位的遮挡概率。
在一些实施例中,当图像特征的类型是整体性图像特征时,针对融合特征包括的与对象的每个部位对应的融合子特征,执行以下处理:通过激活函数将融合子特征映射为对应部位的遮挡概率。
作为示例,激活函数可以是
Figure BDA0002915334410000191
函数或
Figure BDA0002915334410000192
函数等。
作为承接图4A的示例,通过第一神经网络模型的分类网络,针对每个融合子特征执行以下处理:通过分类网络的输入层接收融合子特征,并传播到分类网络的隐层;通过隐层的激活函数对融合子特征进行映射,并将映射得到的向量继续在隐层中进行正向传播;通过分类网络的输出层接收隐层传播的向量,并通过输出层的激活函数映射为对应的部位被遮挡的概率,从而可以提高第一神经网络模型的非线性和鲁棒性。
本申请实施例通过端对端的方式将整体性图像特征映射为对象的不同部位的遮挡概率来确定被遮挡部位,相较于相关技术中需要针对待检测图像中的每个像素进行分类才能确定被遮挡部位,本申请实施例计算步骤少、且难度低,从而能够节约识别所消耗的计算资源,而且能够提高识别速度和准确性。
在步骤S105中,将所具有的遮挡概率大于遮挡概率阈值的部位,确定为对象的被遮挡部位。
在一些实施例中,将所具有的遮挡概率不大于遮挡概率阈值的部位,确定为对象的未遮挡部位。
作为示例,遮挡概率阈值可以是在神经网络模型的训练过程中通过对样本图像进行训练所获得的参数,例如,图4A或图4B中的分类网络中所包含的参数;也可以是用户、客户端或服务器设定的值;还可以是根据对象所有部位对应的遮挡概率所确定的,例如,将所有部位对应的遮挡概率的平均值作为遮挡概率阈值。
在一些实施例中,当图像特征的类型是整体性图像特征时,通过步骤S104可以获得对象的每个部位的遮挡概率。以对象是人脸、且遮挡概率阈值是0.9为例,鼻子的遮挡概率是0.8,嘴巴的遮挡概率是0.98,左眼睛的遮挡概率是0.92,右眼睛的遮挡概率是0.95,此时可以确定人脸中嘴巴、左眼睛和右眼睛被遮挡,鼻子未遮挡。
在一些实施例中,当图像特征的类型是局部性图像特征时,步骤S104和步骤S105可以包括:针对待检测图像中每个包围框对应的融合特征执行以下处理:基于每个包围框对应的融合特征,映射为分别对应多个候选部位的概率,将大于概率阈值的概率对应的候选部位,确定为包围框包括的部位,并将包围框包括的部位确定为未遮挡部位;将对象预关联的多个部位分别与每个包围框包括的部位比较,以确定未从待检测图像中识别出的部位,将未从待检测图像中识别出的部位确定为被遮挡部位;对包含未遮挡部位的包围框进行边框回归处理,以获得未遮挡部位的位置。
作为示例,概率阈值可以是在神经网络模型的训练过程中获得的参数,也可以是用户、客户端或服务器设定的值。对象预关联的多个部位可以是对象所包括的全部部位或部分部位,例如,当对象是人脸时,对象预关联的多个部位可以是人脸所包含的全部器官,如此,人脸中除了未遮挡的器官就是被遮挡的器官,从而能够根据未遮挡部位确定被遮挡的部位。
作为承接图4B的示例,通过第二神经网络模型的分类网络,针对待检测图像中每个包围框对应的融合特征执行以下处理:基于每个包围框对应的融合特征,映射为分别对应多个候选部位的概率,将大于概率阈值的概率对应的候选部位,确定为包围框包括的部位,并将包围框包括的部位确定为未遮挡部位;将对象预关联的多个部位分别与每个包围框包括的部位比较,以确定未从待检测图像中识别出的部位,将未从待检测图像中识别出的部位确定为被遮挡部位;通过第二神经网络模型的回归网络,对包含未遮挡部位的包围框进行边框回归处理,以获得未遮挡部位的位置。
本申请实施例基于局部性图像特征进行分类处理和回归处理,不仅能够识别出未遮挡部位和被遮挡部位,还能够识别出未遮挡部位所在的位置,从而能够提高遮挡检测的准确性。
在一些实施例中,在步骤S105之后还可以包括:在人机交互界面中显示提示信息;其中,提示信息用于提示被遮挡部位,并提示重新拍摄。
作为示例,图8中,当用户脸部存在遮挡时,就会在照片拍摄界面902上显示请勿遮挡脸部的提示信息903,直至用户拍摄照片质量达标(即不遮挡脸部的部位)。
当然,也可以在图8中显示用于提示被遮挡部位的提示信息,例如,在左1的照片拍摄界面902中显示“请勿遮挡鼻子”的提示信息,在左2的照片拍摄界面902中显示“请勿遮挡嘴巴和左眼”的提示信息,左3的照片拍摄界面902中显示“请勿遮挡鼻子和嘴巴”的提示信息,左4的照片拍摄界面902中显示“请勿遮挡鼻子和嘴巴”的提示信息,如此,能够便于用户根据提示信息调整拍摄姿势,从而提高照片或视频的拍摄质量。
在一些实施例中,当待检测图像是用于对用户账号进行身份验证而拍摄的图像时,在步骤S105之后还可以包括:当满足验证条件时,确定待检测图像和用户账号的已认证图像之间的相似度;当相似度低于相似度阈值时,确定身份验证失败,并在人机交互界面中提示重新拍摄。
作为示例,验证条件包括以下至少之一:对象的遮挡比例不超过验证比例阈值,遮挡比例是对象的被遮挡部位的数量与对象包括的部位的完整数量之间的比值;对象的被遮挡部位不属于目标部位。
作为示例,目标部位可以是缺省部位,也可以是用户、客户端或服务器设定的部位,以对象是人脸、且目标部位是眼睛和嘴巴为例,只要不遮挡眼睛和嘴巴就可以确定待检测图像满足验证条件。相似度阈值和验证比例阈值可以是缺省值,也可以是用户、客户端或服务器设定的值。
以对象是人脸为例,人脸包括的部位的完整数量可以是6,例如,左眉毛、右眉毛、左眼睛、右眼睛、鼻子和嘴巴,当待检测图像中的左眼睛和左眉毛被遮挡时,可以确定遮挡比例为2/6,当验证比例阈值是0.5时,可以确定待检测图像的遮挡比例小于验证比例阈值,如此,可以确定待检测图像满足验证条件。
以门禁应用场景为例,待检测图像是用于对门禁账号进行身份验证而拍摄的图像;当待检测图像满足验证条件时,表征采集的待检测图像中被遮挡部位较少,因此,可以将待检测图像和门禁账号的已认证图像进行相似度判断,当待检测图像和已认证图像之间的相似度超过相似度阈值时,确定待检测图像中的对象认证通过,从而可以开启门禁。
以游戏(例如,射击游戏或多人在线战术竞技游戏)作弊检测应用场景为例,可以在游戏比赛(例如电竞比赛)前后分别针对比赛选手采集两张人脸图像,游戏比赛前采集的人脸图像是游戏账号的已认证人脸图像(例如游戏账号注册时所上传的照片,或通过摄像头实时采集的选手照片),游戏比赛后采集的人脸图像是待检测图像;当待检测图像满足验证条件时,表征采集的待检测图像中人脸被遮挡的部位较少,因此,可以将待检测图像和对应的已认证人脸图像进行相似度判断,当待检测图像和已认证人脸图像之间的相似度超过相似度阈值时,表征游戏比赛过程中进行比赛的选手和游戏账号所对应的选手是一致的,因此可以确定始终是该选手在参加游戏比赛不存在冒名顶替的情况,从而可以确定比赛选手未作弊。当然,当检测到游戏比赛后多次采集的人脸图像均不满足验证条件时,可以通过其他方式验证(例如短信验证或身份证验证)。
在一些实施例中,当图像特征的类型是整体性图像特征时,遮挡检测方法是通过第一神经网络模型实现的,参见图6,图6是本申请实施例提供的图像的遮挡检测方法的流程示意图,基于图5,在步骤S102之前还可以包括步骤S106和步骤S107。
在步骤S106中,获取包含对象的样本图像、以及样本图像的标注数据。
在一些实施例中,标注数据包括针对对象标注的被遮挡部位和未遮挡部位,被遮挡部位对应的标注遮挡概率为1,未遮挡部位对应的标注遮挡概率为0。
例如,图10C左1的图中,标注数据是“左眉毛:遮挡;右眉毛:未遮挡;左眼睛:遮挡;右眼睛:未遮挡;鼻子:未遮挡;嘴巴:未遮挡”。
在一些实施例中,通过以下方式至少之一生成样本图像:拍摄包含对象的无遮挡图像(照片、视频帧);拍摄对象使用不同物品时的有遮挡图像(照片、视频);将任意图像合成到对象的无遮挡图像中,以形成对象的有遮挡图像。
作为示例,将任意图像合成到对象的无遮挡图像中,以形成对象的有遮挡图像,包括:提取实物图片中的实物前景,将实物前景合成在对象的无遮挡图像中;对场景图片进行裁剪,将裁剪后的场景图片合成在对象的无遮挡图像中;将色彩图块合成在对象的无遮挡图像中。
本申请实施例能够解决采集到的样本图像整体遮挡标签远远少于未遮挡标签形成的数据不平衡的问题,避免第一神经网络模型欠拟合,提高第一神经网络模型检测的准确性。
在一些实施例中,对样本图像中的对象进行关键点识别,以确定对象的每个部位中显露的关键点的数量;针对每个部位执行以下处理:确定部位的显露比例,其中,显露比例为部位中显露的关键点的数量与部位包括的关键点的完整数量之间的比例;当显露比例大于第一显露比例阈值时,标注部位为未遮挡部位(即标注遮挡概率为0);当显露比例小于第二显露比例阈值时,标注部位为被遮挡部位(即标注遮挡概率为1)。
作为示例,第一显露比例阈值和第二显露比例阈值可以是缺省值,也可以是用户、客户端或服务器设定的值,第一显露比例阈值大于或等于第二显露比例阈值。
在另一些实施例中,对样本图像中的对象进行关键点识别,以确定对象的每个部位中显露的关键点的数量;针对每个部位执行以下处理:当部位显露的关键点的数量大于部位对应的关键点阈值时,标注部位为未遮挡部位;当部位显露的关键点的数量不大于部位对应的关键点阈值时,标注部位为被遮挡部位。
作为示例,每个部位对应的关键点阈值可以相同,也可以不同;每个部位对应的关键点阈值可以是缺省值,也可以是用户、客户端或服务器设定的值。
本申请实施例通过关键点检测技术对样本图像自动识别并标注,能够减少数据标注的人力成本,降低了模型训练复杂度,提升了训练效率。
在一些实施例中,还可以对获取的样本图像进行数据增强处理,可以包括:将样本图像沿对象的对称轴进行翻转处理,以获得新样本图像;将样本图像中具有对称性的部位所对应的标注数据进行交换,以作为新样本图像的标注数据。
以对象是人脸为例,图10C中,针对人脸的特殊性(即人脸左右对称),可以将样本图像左右翻转,得到新样本图像;并将左眉毛和右眉毛的标注标签交换、左眼睛和右眼睛的标注标签交换、以及鼻子和嘴巴的标注标签不改变,即可得到新样本图像的标注数据,从而提高了样本图像的数量,避免第一神经网络模型欠拟合,提高第一神经网络模型检测的准确性。
在步骤S107中,基于样本图像、以及样本图像的标注数据,对第一神经网络模型进行训练。
在一些实施例中,训练后的第一神经网络模型用于预测待检测图像包含的对象的多个部位的遮挡概率。
在一些实施例中,通过第一神经网络模型执行以下处理:对样本图像进行特征提取处理,以获得整体上表征样本图像的图像特征(即整体性图像特征);将图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;将融合特征映射为对象的不同部位的预测遮挡概率;确定对象的多个部位的预测遮挡概率和标注遮挡概率之间的损失;将多个部位的损失分别代入第一损失函数中,并通过梯度下降确定第一损失函数取得最小值时第一神经网络模型的参数;根据确定的第一神经网络模型的参数更新第一神经网络模型。
作为示例,当部位被标注为被遮挡部位时对应的标注遮挡概率为1,当部位被标注为未遮挡部位时对应的标注遮挡概率为0。
作为示例,对样本图像进行特征提取处理、降维处理、融合处理和映射处理的过程和上述对待检测图像进行特征提取处理、降维处理、融合处理和映射处理的过程类似,再次将不再进行赘述。
作为示例,第一损失函数可以是多个二分类的交叉熵损失函数之和,二分类的交叉熵损失函数的数量是对象中包括的所有部位的数量。
以对象是人脸、且人脸中包含6个部位为例,损失函数可以是
Figure BDA0002915334410000251
Figure BDA0002915334410000252
其中,6代表针对6个不同部位的分类器,yi是标注遮挡概率,pi是预测遮挡概率。
本申请实施例采用端到端的第一神经网络模型,摒弃了像素级别的语义分割模型,降低了模型训练复杂度,提升了训练效率,并且相对于语义分割模型,第一神经网络模型大小更小、检测速度更快,可以适用于在计算能力受限的设备中部署,从而具有广泛的适应性。
在一些实施例中,当图像特征的类型是局部性图像特征时,遮挡检测方法是通过第二神经网络模型实现的,参见图7,图7是本申请实施例提供的图像的遮挡检测方法的流程示意图,基于图5,在步骤S102之前还可以包括步骤S108和步骤S109。
在步骤S108中,获取包含对象的样本图像、以及样本图像的标注数据。
在一些实施例中,标注数据包括针对对象标注的未遮挡部位和对应的位置。
在一些实施例中,通过以下方式至少之一生成样本图像:拍摄包含对象的无遮挡图像(照片、视频帧);拍摄对象使用不同物品时的有遮挡图像(照片、视频);将任意图像合成到对象的无遮挡图像中,以形成对象的有遮挡图像。
作为示例,将任意图像合成到对象的无遮挡图像中,以形成对象的有遮挡图像,包括:提取实物图片中的实物前景,将实物前景合成在对象的无遮挡图像中;对场景图片进行裁剪,将裁剪后的场景图片合成在对象的无遮挡图像中;将色彩图块合成在对象的无遮挡图像中。
本申请实施例能够解决采集到的样本图像整体遮挡标签远远少于未遮挡标签形成的数据不平衡的问题,避免第二神经网络模型欠拟合,提高第二神经网络模型检测的准确性。
在步骤S109中,基于样本图像、以及针对样本图像的标注数据,对第二神经网络模型进行训练。
在一些实施例中,训练后的第二神经网络模型用于预测待检测图像包含的对象的未遮挡部位和对应的位置。
在一些实施例中,通过第二神经网络模型执行以下处理:获得与样本图像中的多个包围框一一对应的多个图像特征;针对对应每个包围框的图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得对应每个包围框的融合特征;基于每个包围框的融合特征确定每个包围框的预测遮挡数据,预测遮挡数据包括预测遮挡部位和对应的位置;确定每个包围框的预测遮挡数据与标注数据之间的损失;将多个包围框的损失分别代入第二损失函数中,并通过梯度下降确定第二损失函数取得最小值时第二神经网络模型的参数;根据确定的第二神经网络模型的参数更新第二神经网络模型。
作为示例,获得与样本图像中的多个包围框一一对应的多个图像特征可以包括:通过不同尺寸的滑窗,在待检测图像中依次选取多个包围框,对每个包围框进行特征提取处理,以获得与样本图像中的多个包围框一一对应的多个图像特征。
作为示例,确定每个包围框的预测遮挡数据与标注数据之间的损失可以包括:将每个包围框的融合特征映射为分别对应多个候选部位的概率;将超出概率阈值的概率对应的候选部位确定为预测未遮挡部位;将包含预测未遮挡部位的包围框进行边框回归处理,以获得预测未遮挡部位的预测位置;根据预测未遮挡部位、标注未遮挡部位、预测未遮挡部位的预测位置、以及标注的未遮挡部位对应的位置确定损失。
本申请实施例中的第二神经网络模型相较于第一神经网络模型,不仅能够识别未遮挡部位和被遮挡部位,还能够识别未遮挡部位的位置;并且第二神经网络模型也是摒弃了像素级别的语义分割模型,降低了模型训练复杂度,提升了训练效率,并且相对于语义分割模型,第二神经网络模型大小更小、检测速度更快,可以适用于在计算能力受限的设备中部署,从而具有广泛的适应性。
下面,以游戏作弊检测应用场景为例说明本申请实施例提供的图像的遮挡检测方法。
电竞比赛(即电子游戏比赛)中,可能会出现电竞选手让他人代替参赛(以下简称代打)进行作弊的情况,如此,将会由于虚假的比赛成绩影响电竞比赛的公正性。因此,需要在游戏的比赛过程中或比赛结束后,采集电竞选手的人脸图像,并检测采集的电竞选手的人脸图像和游戏账号的已认证人脸图像(例如游戏账号注册时所上传的照片,或通过摄像头在比赛开始前实时采集的选手照片)中的人脸是否一致。当采集的电竞选手的人脸图像和游戏账号的已认证人脸图像中的人脸一致时,可以确定始终是该选手在参加游戏比赛不存在冒名顶替的情况,从而可以确定该电竞选手未作弊;当采集的电竞选手的人脸图像和游戏账号的已认证人脸图像中的人脸不一致时,可以确定该电竞选手存在代打作弊的行为。
为了保证能够成功检测采集的电竞选手的人脸图像和游戏账号的已认证人脸图像中的人脸是否一致,需要通过游戏客户端采集电竞选手高质量的照片来进行人脸对比,然而采集到的照片中可能存在人脸局部遮挡的情况,因此后续在进行人脸对比判断人脸是否一致时,可能会出现由于人脸局部遮挡导致误判的问题,因此,需要检测电竞选手上传的包含人脸的照片中每个人脸器官是否被遮挡。相关技术针对人脸遮挡检测时需要通过语义分割模型进行人脸区域分割,然而因为语义分割模型太大、推理耗时等因素无法在游戏客户端中应用。
针对上述技术问题,本申请实施例采用端到端的轻量化神经网络模型检测人脸图像中是否存在遮挡,该模型较小、且推理速度较快,因此可以在游戏客户端中实现部署,并且该模型在使用过程中,由于运行时所消耗的计算资源较少所以不会对游戏的运行造成影响,例如,不会出现游戏卡顿或丢帧等情况。
参见图8,图8是本申请实施例提供的图像的遮挡检测方法的应用场景示意图。
图8中,电竞比赛前,当电竞选手点击开始比赛按钮901后,游戏客户端会自动为选手拍摄一张照片,并且此时会进入照片拍摄界面902,当选手脸部存在遮挡情况时,就会在照片拍摄界面902上显示提示信息903,直至选手拍摄照片质量达标。
由上述分析可知,本申请实施例应用于游戏客户端时,采集处理和判断、反馈操作都在游戏客户端中进行。本申请实施例可以使用深度神经网络训练模型的方法,首先采集多样化的人脸图片作为训练样本,并将人脸图片进行预标注,把人脸图片和相应的标注数据送入到多标签分类神经网络模型中训练,最后把得到的模型文件和神经网络结构部署在客户端中进行人脸器官遮挡的判断。
本申请实施例能够基于图像识别的端到端的方式判断包含人脸的图片中的各个器官是否被遮挡,本申请实施例主要包含以下内容:
(1)采集训练样本(即上述的样本图像),样本图像的来源包括:1)采集带有人脸的自拍照片,检测并裁剪出人脸图片框的内容作为训练样本;2)将遮挡物品合成在人脸图片前,遮住部分器官,作为训练样本;3)拍摄人物使用不同的物品的遮脸视频,并将视频解析成图片作为训练样本。
(2)搭建一个端到端的神经网络模型,输入是三通道(即RGB通道)的图片数据,输出为6个二分类结果,这6个二分类结果分别代表6个器官(例如左眉毛、右眉毛、左眼、右眼、鼻子、嘴)的遮挡情况。通过包含标注数据的训练样本训练神经网络模型,从而得到神经网络模型参数。
(3)支持将训练完成的神经网络模型部署至游戏客户端中,向游戏客户端上传一张电竞选手的人脸图片,就可以输出这个电竞选手的人脸图片的每个器官是否被遮挡的模型输出结果。例如,当检测到电竞选手上传的自拍照片的脸部有被遮挡时,可以提示电竞选手重拍照片上传,并不要遮挡脸部。
本申请实施例具有人力成本低、模型训练容易、模型文件小、推理速度极快、逻辑简单、效果好等优点。在采集样本图像之后,只需要对样本图像进行器官的整体的二分类标注,也就是说,只需要标注样本图像中的6个器官(例如左眉毛、右眉毛、左眼、右眼、鼻子、嘴)分别是否被遮挡就可以输入至神经网络模型中进行训练。
在一些实施例中,可以通过预标注技术实现样本图像的数据标注,具体可以包括:使用机器自动判断样本图像的人脸区域是否被遮挡,并自动化标注,从而可以将标注任务转化成检查任务,降低了标注成本。
本申请实施例中,用于人脸遮挡检测的模型文件只有一个分类模型文件,和语义分割模型相比,只有下采样过程,没有上采样过程,并且分类模型不需要模型很深,所以模型文件很小,模型推理速度很快,即使在移动终端(例如手机)部署也不会占用很多存储资源,并且在推理方面可以达到实时检测的程度。
参见图9,图9是本申请实施例提供的图像的遮挡检测方法的原理示意图,图9中,向人脸器官遮挡检测模型中输入人脸图片,即可输出人脸中每个器官是否被遮挡的检测结果。
参见图10A、图10B、图10C和图10D,图10A、图10B、图10C和图10D是本申请实施例提供的图像的遮挡检测方法的原理示意图,将结合图10A、图10B、图10C和图10D说明本申请实施例提供的图像的遮挡检测方法的具体实现方式。
(一)人脸遮挡检测应用过程
图10A中,首先需要接收一张带有电竞选手的人的照片,再从照片中检测到电竞选手的人脸,并把人脸图片裁剪下来。接下来需要对人脸图片进行数据处理,即将人脸图片缩放成224×224像素的大小,并且将人脸图片中的每个像素值都除以255得到输入图谱(即归一化处理,用于将人脸图片中的每个像素值转换为0到1之间的数值),将输入图谱输入到人脸遮挡检测模型中,输出电竞选手的人脸图片的各个器官是否被遮挡的结果,并根据结果显示是否需要提示遮挡并重拍。
当向电竞选手提示后多次采集的电竞选手的人脸照片中仍然存在被遮挡的器官时,可以认定该电竞选手存在作弊行为,并暂停游戏;也可以通过其他方式辅助验证,例如,验证与游戏账号关联的手机号、验证与游戏账号关联的身份证号、语音验证或指纹验证等,只有在验证通过时才可以允许电竞选手继续游戏。
(二)训练样本生成过程
图10B中,需要训练样本才能训练人脸遮挡检测模型,首先采集多个来源的数据,并选取部分数据进行遮挡合成,再进行预识别标注,最后可以通过水平翻转数据增强来扩充数据集。
(1)数据采集
为了保证训练数据的全面性,采集了三种来源的人脸数据,分别是:1)人脸证件照;2)从互联网中爬取多样化的人脸照片;3)拍摄真实人员使用多种不同的物品遮挡脸部不同区域的视频,并剪辑成图片形式的人脸图片。
(2)遮挡数据合成
为了解决采集到的人脸数据整体遮挡标签远远少于未遮挡标签形成的数据不平衡的问题,本申请实施例采用了自动化合成人脸遮挡数据的方案。
合成方案包括:1)使用实物前景遮挡,例如,获取常见的遮挡物(茶杯、书本、证件等)图片,使用图片处理软件(例如photoshop)去掉实物的背景,按照概率生成遮挡位置和大小,并根据图片透明度通道将实物前景部分合成在人脸上,遮挡住人脸的部分器官;2)使用其他任意图片进行遮挡,例如,采集一批任意场景的图片,按照随机概率裁剪图片上的一部分矩形内容,并把它合成在人脸上,得到图片内容遮挡住人脸器官的图片;3)随机生成带有色彩的图片块(例如灰块),合成在人脸前面,遮住人脸的部分器官,以生成灰块遮住人脸器官的图片。
(3)预识别标注
为了减少标注人力,本申请实施例采用了自动化预识别标注的方案,具体的,使用人脸关键点检测技术分别检测人脸的多个关键点,确定每个器官的关键点被遮挡的比例,当被遮挡的比例高于设定阈值时,就预判定为此器官被遮挡。然后将每个器官的遮挡情况写入到标注文件中,作为机器自动化的标注数据,其中,标注数据仅包括各个器官被遮挡的情况,不包括各个器官所在的位置。
(4)数据增强
图10C中,针对人脸的特殊性(即人脸左右对称),可以将人脸左右翻转,并将左眉毛和右眉毛的标注标签交换、左眼睛和右眼睛的标注标签交换、以及鼻子和嘴巴的标注标签不改变,即可得到新的人脸遮挡标注数据。
(三)模型的生成和使用过程
(1)模型结构
图10D中,人脸遮挡检测模型采用端到端的图像多标签分类模型,摒弃了相关技术中针对图像中的每个像素进行分类的语义分割模型。人脸遮挡检测模型接收经过增强的训练数据集,并对训练数据集中的每张样本图像进行规范化预处理,即可将预处理后的样本图像输入至模型中进行训练。
(a)数据预处理
模型输入的图片尺寸统一为224×224×3,因此,模型训练之前需要将训练样本进行预处理,具体包括:把图片缩放成长和宽都是224个像素,并进行归一化处理(即将图片中的每个像素值除以255,转换成0到1之间的数值),这样相较于不进行归一化处理来说更容易训练。另外,图片拥有红、绿、蓝共3个通道的图片数据,所以最终得到n张224×224×3的尺寸统一的图片数据,其中,n是训练数据集中训练样本的数量。
(b)主干网络
本申请实施例采用的模型主干结构可以是轻量级的网络结构(例如mobile netv2结构),经过主干网络,可以得到7×7×1280的图像特征(Feature Map,也称为特征图)。
(c)平均池化
将7×7×1280的Feature Map中每个通道的7×7=49个数值取整体平均值,得到1×1280的1维特征向量。
(d)全连接层
转化矩阵的维度为1280×6,经过转化矩阵处理,得到6个数据,其中,得到的6个数据相当于是一个1×6的一维特征向量,一维特征向量中的每一个数值和每个器官相对应。
(e)数据转化成概率
将上述得到的6个数据后面接6个激活函数(例如
Figure BDA0002915334410000321
函数),激活函数可以把预测值转化为概率值,从而得到6个概率值,分别代表6个器官分别被遮挡的概率(例如,左眉毛被遮挡的概率、右眉毛被遮挡的概率、左眼被遮挡的概率、右眼被遮挡的概率、鼻子被遮挡的概率、嘴巴被遮挡的概率)。
(2)模型训练
模型本身是很多参数组成的数据集合,这就是模型的参数,模型训练的目标就是寻找最佳参数数据集。模型训练首先需要给模型参数设置初始值,然后根据损失(Loss)函数的设计,使用最小损失(Min Loss)的目标,即以最小化损失函数作为目标,使用一个优化策略进行训练,让Loss尽量接近0。
1)初始化:训练初始化采用迁移学习的方式,即将在图像识别数据库(Imagenet)上训练好的模型参数数据作为模型的初始化参数数据,使用这种方式,让模型在训练前就拥有了重要特征的提取能力,优于随机初始化的模型参数。并且采用全部参数都参与训练的方式,此方法的效果优于固定前半部分参数不参加训练,只训练少数后半部分参数的方法,因为基于初始化的模型参数提取出的特征与人脸遮挡的特征不同,人脸遮挡的特征还和各个器官的位置相关。
2)损失函数:训练过程使用6个二分类的交叉熵损失函数之和作为整个神经网络的损失函数。
损失函数可以是
Figure BDA0002915334410000322
其中,6代表针对6个不同器官的分类器,yi代表样本真实数据标签(即上述的标注遮挡概率),当对应的器官被遮挡时取值为1,当对应的器官未遮挡时取值为0,pi代表模型预测样本被遮挡的概率(即上述的预测遮挡概率)。
3)优化方法:使用小批量梯度下降法(MBGD,Mini-Batch Gradient Descent)进行参数训练优化,具体的,每次使用一小批(例如将64个数据作为一批)数据进行参数更新,不断地逼近最优值。这种方式在计算量上优于全批量梯度下降法,在收敛性上优于随机梯度下降法,整体易于快速训练。
(3)模型效果:在验证机上测试模型时,识别准确率高达99.5%,将该模型应用在游戏客户端中,可以有效规避电竞选手恶意遮挡脸部的风险。
(4)模型推理方法:
模型参数存储在模型文件中,经过模型固化操作把模型前向推理结构一起存储在文件中,形成.pb格式的文件。在推理使用时,可以使用OpenCV的DNN模块加载模型文件,从而可以加载模型结构和模型参数,形成推理函数。如此,就可以实现首先接收一张电竞选手的照片,然后经过缩放、归一化处理以获得224×224×3的人脸图片,最后输出电竞选手的脸部的6个器官是否被遮挡的结果。
本申请实施例的技术效果具体包括:1)从产品应用层面,可以完成接收一张电竞选手的照片精准判断照片的脸部的6个器官是否被遮挡,从而规避了电竞选手恶意遮挡脸部的异常情况。2)从技术实现层面,采用端到端的神经网络模型,摒弃了像素级别的语义分割模型,并且采用训练数据预标注的方法,极大的减轻了数据标注的人力成本,降低了模型训练复杂度,提升了训练效率。3)从效果层面,模型识别精准度更高。4)从应用部署层面,模型大小更小、推理速度更快,可实现移动终端(例如手机)的中央处理器(CPU,CentralProcessing Unit)推理部署,并可以达到对采集的电竞选手的人脸图像进行实时识别的程度。
在一些实施例中,在游戏客户端中应用时除了提醒用户请勿遮挡脸部之外,还可以更精确的提醒用户什么部位被遮挡,让用户更有方向的调整拍照姿势。除了在游戏客户端中应用,本申请实施例也可以在服务器端部署,当检测到电竞选手的照片存在恶意遮挡时,即可判定为疑似作弊,从而进行深度调查。
在一些实施例中,还可以选择任意部位的组合进行检测识别,包括但不限于:左眉毛、右眉毛、左眼睛、右眼睛、鼻子、嘴巴、下巴、左脸颊、右脸颊、额头,左耳朵、右耳朵等。
在一些实施例中,可以使用任意分类模型和结构,包括:残差结构、组卷积、注意力机制、以及胶囊网络等,只要在整体结构上是端到端的图像识别模型均可应用于本申请实施例中。在模型设计方面,也可以使用目标检测的模型,即分别对需要判断遮挡的目标器官进行检测定位,在数据标注阶段只标注未被遮挡的器官和位置,被遮挡的器官不必标注,训练得到目标检测模型。如此,推理阶段即为检测人脸器官,能够被检测到的器官就是未被遮挡的器官,不能够被检测的器官就是被遮挡的器官,从而在游戏客户端提示电竞选手重新拍摄上传照片。
由上述分析可知,本申请实施例采用端到端的轻量化神经网络模型能够检测游戏过程中采集到的电竞选手照片中的人脸是否存在遮挡,进而能够判断游戏过程中电竞选手是否作弊,并且该模型较小、且推理速度较快,因此可以在游戏客户端中实现部署,并且该模型在使用过程中,由于运行时所消耗的计算资源较少所以不会对游戏的运行造成影响,例如,不会出现游戏卡顿或丢帧等情况。
下面结合图3说明本申请实施例提供的图像的遮挡检测装置的实施为软件模块的示例性结构。
在一些实施例中,如图3所示,存储在存储器450的图像的遮挡检测装置455中的软件模块可以包括:
获取模块4551,用于获取包含对象的待检测图像;特征提取模块4552,用于对待检测图像进行特征提取处理,以获得图像特征;融合模块4553,用于将图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;识别模块4554,用于对融合特征进行映射处理,以获得对象的不同部位的遮挡概率;识别模块4554,还用于将所具有的遮挡概率大于遮挡概率阈值的部位,确定为对象的被遮挡部位。
在上述方案中,特征提取模块4552,还用于将待检测图像中每个通道包含的数据进行逐深度卷积处理,以获得对应每个通道的标量积;将对应每个通道的标量积进行堆叠,并将堆叠后的标量积进行逐点卷积处理,以获得待检测图像的图像特征。
在上述方案中,特征提取模块4552,还用于对待检测图像进行对象识别,并从待检测图像中裁剪出包含对象、且为预设尺寸的图像;将裁剪出的图像包含的像素进行归一化处理,以获得待检测图像中包含多个通道的归一化图像数据。
在上述方案中,融合模块4553,还用于将图像特征中每个通道包含的多个数据进行数据处理,以获得降维图像特征;其中,数据处理的类型包括:取平均值、取最大值、取最小值;将降维图像特征进行全连接处理,以获得与对象的多个部位一一对应的多个融合子特征;将与对象的多个部位一一对应的多个融合子特征组合为融合特征。
在上述方案中,识别模块4554,还用于针对融合特征包括的与对象的每个部位对应的融合子特征,执行以下处理:通过激活函数将融合子特征映射为对应部位的遮挡概率。
在上述方案中,遮挡检测方法是通过第一神经网络模型实现的,图像的遮挡检测装置455还包括:训练模块,用于通过以下方式训练第一神经网络模型:获取包含对象的样本图像、以及样本图像的标注数据,其中,标注数据包括针对对象标注的被遮挡部位和未遮挡部位,对第一神经网络模型进行训练;其中,训练后的第一神经网络模型用于预测待检测图像包含的对象的多个部位的遮挡概率。
在上述方案中,训练模块,还用于通过以下方式至少之一生成样本图像:拍摄包含对象的无遮挡图像;拍摄对象使用不同物品时的有遮挡图像;将任意图像合成到对象的无遮挡图像中,以形成对象的有遮挡图像。
在上述方案中,训练模块,还用于对样本图像中的对象进行关键点识别,以确定对象的每个部位中显露的关键点的数量;针对每个部位执行以下处理:确定部位的显露比例,其中,显露比例为部位中显露的关键点的数量与部位包括的关键点的完整数量之间的比例;当显露比例大于第一显露比例阈值时,标注部位为未遮挡部位;当显露比例小于第二显露比例阈值时,标注部位为被遮挡部位;其中,第一显露比例阈值大于或等于第二显露比例阈值。
在上述方案中,训练模块,还用于将样本图像沿对象的对称轴进行翻转处理,以获得新样本图像;将样本图像中具有对称性的部位所对应的标注数据进行交换,以作为新样本图像的标注数据。
在上述方案中,训练模块,还用于通过第一神经网络模型执行以下处理:对样本图像进行特征提取处理,以获得图像特征;将图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;将融合特征映射为对象的不同部位的预测遮挡概率;确定对象的多个部位的预测遮挡概率和标注遮挡概率之间的损失;其中,当部位被标注为被遮挡部位时对应的标注遮挡概率为1,当部位被标注为未遮挡部位时对应的标注遮挡概率为0;将多个部位的损失分别代入第一损失函数中,并通过梯度下降确定第一损失函数取得最小值时第一神经网络模型的参数;根据确定的第一神经网络模型的参数更新第一神经网络模型。在上述方案中,特征提取模块4552,还用于通过不同尺寸的滑窗,在待检测图像中依次选取多个包围框;对每个包围框进行特征提取处理,以获得与多个包围框一一对应的多个图像特征。
在上述方案中,融合模块4553,还用于针对对应每个包围框的图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得对应每个包围框的融合特征。
在上述方案中,识别模块4554,还用于针对待检测图像中每个包围框对应的融合特征执行以下处理:基于每个包围框对应的融合特征,映射为分别对应多个候选部位的概率,将大于概率阈值的概率对应的候选部位,确定为包围框包括的部位,并将包围框包括的部位确定为未遮挡部位;将对象预关联的多个部位分别与每个包围框包括的部位比较,以确定未从待检测图像中识别出的部位,将未从待检测图像中识别出的部位确定为被遮挡部位;对包含未遮挡部位的包围框进行边框回归处理,以获得未遮挡部位的位置。
在上述方案中,遮挡检测方法是通过第二神经网络模型实现的,训练模块,还用于通过以下方式训练第二神经网络模型:获取包含对象的样本图像、以及样本图像的标注数据,其中,标注数据包括针对对象标注的未遮挡部位和对应的位置;基于样本图像、以及样本图像的标注数据,对第二神经网络模型进行训练;其中,训练后的第二神经网络模型用于预测待检测图像包含的对象的未遮挡部位和对应的位置;其中,样本图像是通过以下方式至少之一生成的:拍摄包含对象的无遮挡图像;拍摄对象使用不同物品时的有遮挡图像;将任意图像合成到对象的无遮挡图像中,以形成对象的有遮挡图像。在上述方案中,训练模块,还用于通过第二神经网络模型执行以下处理:获得与样本图像中的多个包围框一一对应的多个图像特征;针对对应每个包围框的图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得对应每个包围框的融合特征;基于每个包围框的融合特征确定每个包围框的预测遮挡数据,预测遮挡数据包括预测遮挡部位和对应的位置;确定每个包围框的预测遮挡数据与标注数据之间的损失;将多个包围框的损失分别代入第二损失函数中,并通过梯度下降确定第二损失函数取得最小值时第二神经网络模型的参数;根据确定的第二神经网络模型的参数更新第二神经网络模型。
在上述方案中,当待检测图像是拍摄的照片或视频帧时,图像的遮挡检测装置455还包括:显示模块,用于在人机交互界面中显示提示信息;其中,提示信息用于提示被遮挡部位,并提示重新拍摄。
在上述方案中,当待检测图像是用于对用户账号进行身份验证而拍摄的图像时,图像的遮挡检测装置455还包括:验证模块,用于当满足验证条件时,确定待检测图像和用户账号的已认证图像之间的相似度;当相似度低于相似度阈值时,确定身份验证失败,并在人机交互界面中提示重新拍摄;其中,验证条件包括以下至少之一:对象的遮挡比例不超过验证比例阈值,遮挡比例是对象的被遮挡部位的数量与对象包括的部位的完整数量之间的比值;对象的被遮挡部位不属于目标部位。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的图像的遮挡检测方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的图像的遮挡检测方法,例如,图5、图6和图7示出的图像的遮挡检测方法,计算机包括智能终端和服务器在内的各种计算设备。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标注语言文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例将待检测图像的图像特征进行降维和融合处理,将处理后的融合特征直接映射为对象的不同部位的遮挡概率,以确定被遮挡部位,相较于相关技术中需要针对待检测图像中的每个像素进行分类才能确定被遮挡部位,本申请实施例不仅能够提高识别速度和准确性,而且能够节约识别所消耗的计算资源,从而具有广泛的适应性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种图像的遮挡检测方法,其特征在于,所述方法包括:
获取包含对象的待检测图像;
对所述待检测图像进行特征提取处理,以获得图像特征;
将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;
对所述融合特征进行映射处理,以获得所述对象的不同部位的遮挡概率;
将所具有的遮挡概率大于遮挡概率阈值的部位,确定为所述对象的被遮挡部位。
2.根据权利要求1所述的方法,其特征在于,所述对所述待检测图像进行特征提取处理,以获得图像特征,包括:
将所述待检测图像中每个通道包含的数据进行逐深度卷积处理,以获得对应每个通道的标量积;
将对应每个通道的标量积进行堆叠,并将堆叠后的标量积进行逐点卷积处理,以获得所述待检测图像的图像特征。
3.根据权利要求2所述的方法,其特征在于,在所述将所述待检测图像中每个通道包含的数据进行逐深度卷积处理之前,所述方法还包括:
对所述待检测图像进行对象识别,并从所述待检测图像中裁剪出包含所述对象、且为预设尺寸的图像;
将裁剪出的图像包含的像素进行归一化处理,以获得所述待检测图像中包含多个通道的归一化图像数据。
4.根据权利要求1所述的方法,其特征在于,所述将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征,包括:
将所述图像特征中每个通道包含的多个数据进行数据处理,以获得降维图像特征;
其中,所述数据处理的类型包括:取平均值、取最大值、取最小值;
将所述降维图像特征进行全连接处理,以获得与所述对象的多个部位一一对应的多个融合子特征;
将与所述对象的多个部位一一对应的多个融合子特征组合为融合特征。
5.根据权利要求1所述的方法,其特征在于,所述对所述融合特征进行映射处理,以获得所述对象的不同部位的遮挡概率,包括:
针对所述融合特征包括的与所述对象的每个部位对应的融合子特征,执行以下处理:通过激活函数将所述融合子特征映射为对应部位的遮挡概率。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述遮挡检测方法是通过第一神经网络模型实现的,所述方法还包括:
通过以下方式训练所述第一神经网络模型:
获取包含所述对象的样本图像、以及所述样本图像的标注数据,其中,所述标注数据包括针对所述对象标注的被遮挡部位和未遮挡部位;
基于所述样本图像、以及所述样本图像的标注数据,对所述第一神经网络模型进行训练;
其中,训练后的所述第一神经网络模型用于预测所述待检测图像包含的所述对象的多个部位的遮挡概率。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过以下方式至少之一生成所述样本图像:
拍摄包含所述对象的无遮挡图像;拍摄所述对象使用不同物品时的有遮挡图像;将任意图像合成到所述对象的无遮挡图像中,以形成所述对象的有遮挡图像。
8.根据权利要求6所述的方法,其特征在于,所述获取包含所述对象的样本图像、以及所述样本图像的标注数据,包括:
对所述样本图像中的对象进行关键点识别,以确定所述对象的每个部位中显露的关键点的数量;
针对每个部位执行以下处理:
确定所述部位的显露比例,其中,所述显露比例为所述部位中显露的关键点的数量与所述部位包括的关键点的完整数量之间的比例;
当所述显露比例大于第一显露比例阈值时,标注所述部位为未遮挡部位;
当所述显露比例小于第二显露比例阈值时,标注所述部位为被遮挡部位;
其中,所述第一显露比例阈值大于或等于所述第二显露比例阈值。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
将所述样本图像沿所述对象的对称轴进行翻转处理,以获得新样本图像;
将所述样本图像中具有对称性的部位所对应的标注数据进行交换,以作为所述新样本图像的标注数据。
10.根据权利要求6所述的方法,其特征在于,所述基于所述样本图像、以及所述样本图像的标注数据,对所述第一神经网络模型进行训练,包括:
通过所述第一神经网络模型执行以下处理:对所述样本图像进行特征提取处理,以获得图像特征;将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;将所述融合特征映射为所述对象的不同部位的预测遮挡概率;
确定所述对象的多个部位的预测遮挡概率和标注遮挡概率之间的损失;其中,当所述部位被标注为被遮挡部位时对应的标注遮挡概率为1,当所述部位被标注为未遮挡部位时对应的标注遮挡概率为0;
将所述多个部位的损失分别代入第一损失函数中,并通过梯度下降确定所述第一损失函数取得最小值时所述第一神经网络模型的参数;
根据确定的所述第一神经网络模型的参数更新所述第一神经网络模型。
11.根据权利要求1所述的方法,其特征在于,
所述对所述待检测图像进行特征提取处理,以获得图像特征,包括:
通过不同尺寸的滑窗,在所述待检测图像中依次选取多个包围框;
对每个包围框进行特征提取处理,以获得与所述多个包围框一一对应的多个图像特征;
所述将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征,包括:
针对对应每个包围框的图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得对应每个包围框的融合特征。
12.根据权利要求1所述的方法,其特征在于,所述对所述融合特征进行映射处理,以获得所述对象的不同部位的遮挡概率;将所具有的遮挡概率大于遮挡概率阈值的部位,确定为所述对象的被遮挡部位,包括:
针对所述待检测图像中每个包围框对应的融合特征执行以下处理:基于所述每个包围框对应的融合特征,映射为分别对应多个候选部位的概率,将大于概率阈值的概率对应的候选部位,确定为所述包围框包括的部位,并将所述包围框包括的部位确定为未遮挡部位;
将所述对象预关联的多个部位分别与每个包围框包括的部位比较,以确定未从所述待检测图像中识别出的部位,将未从所述待检测图像中识别出的部位确定为被遮挡部位;
对包含所述未遮挡部位的包围框进行边框回归处理,以获得所述未遮挡部位的位置。
13.一种图像的遮挡检测装置,其特征在于,所述装置包括:
获取模块,用于获取包含对象的待检测图像;
特征提取模块,用于对所述待检测图像进行特征提取处理,以获得图像特征;
融合模块,用于将所述图像特征进行降维处理,并对得到的降维图像特征进行融合处理,以获得融合特征;
识别模块,用于对所述融合特征进行映射处理,以获得所述对象的不同部位的遮挡概率;
所述识别模块,还用于将所具有的遮挡概率大于遮挡概率阈值的部位,确定为所述对象的被遮挡部位。
14.一种电子设备,其特征在于,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至12任一项所述的图像的遮挡检测方法。
15.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令被执行时用于实现权利要求1至12任一项所述的图像的遮挡检测方法。
CN202110098961.0A 2021-01-25 2021-01-25 图像的遮挡检测方法、装置、电子设备及存储介质 Active CN112733802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110098961.0A CN112733802B (zh) 2021-01-25 2021-01-25 图像的遮挡检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110098961.0A CN112733802B (zh) 2021-01-25 2021-01-25 图像的遮挡检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112733802A true CN112733802A (zh) 2021-04-30
CN112733802B CN112733802B (zh) 2024-02-09

Family

ID=75595298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110098961.0A Active CN112733802B (zh) 2021-01-25 2021-01-25 图像的遮挡检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112733802B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284041A (zh) * 2021-05-14 2021-08-20 北京市商汤科技开发有限公司 一种图像处理方法、装置、设备及计算机存储介质
CN113298037A (zh) * 2021-06-18 2021-08-24 重庆交通大学 一种基于胶囊网络的车辆重识别方法
CN114549921A (zh) * 2021-12-30 2022-05-27 浙江大华技术股份有限公司 目标识别方法、电子设备及计算机可读存储介质
CN114565087A (zh) * 2022-04-28 2022-05-31 苏州浪潮智能科技有限公司 一种人物意图推理方法、装置、设备及存储介质
CN115423695A (zh) * 2022-07-15 2022-12-02 清华大学 一种用于城市预测任务的街景图像采样方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960974A (zh) * 2017-12-22 2019-07-02 北京市商汤科技开发有限公司 人脸关键点检测方法、装置、电子设备及存储介质
WO2019218826A1 (zh) * 2018-05-17 2019-11-21 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN110569723A (zh) * 2019-08-02 2019-12-13 西安工业大学 一种结合特征融合与模型更新的目标跟踪方法
CN111523480A (zh) * 2020-04-24 2020-08-11 北京嘀嘀无限科技发展有限公司 一种面部遮挡物的检测方法、装置、电子设备及存储介质
WO2020238560A1 (zh) * 2019-05-27 2020-12-03 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960974A (zh) * 2017-12-22 2019-07-02 北京市商汤科技开发有限公司 人脸关键点检测方法、装置、电子设备及存储介质
WO2019218826A1 (zh) * 2018-05-17 2019-11-21 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
WO2020238560A1 (zh) * 2019-05-27 2020-12-03 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、计算机设备及存储介质
CN110569723A (zh) * 2019-08-02 2019-12-13 西安工业大学 一种结合特征融合与模型更新的目标跟踪方法
CN111523480A (zh) * 2020-04-24 2020-08-11 北京嘀嘀无限科技发展有限公司 一种面部遮挡物的检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高秀洋;房胜;李哲;: "融合遮挡检测与HOG特征协作表示的鲁棒人脸识别", 山东科技大学学报(自然科学版), no. 01, pages 111 - 116 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284041A (zh) * 2021-05-14 2021-08-20 北京市商汤科技开发有限公司 一种图像处理方法、装置、设备及计算机存储介质
TWI780995B (zh) * 2021-05-14 2022-10-11 中國商北京市商湯科技開發有限公司 圖像處理方法、設備及電腦儲存媒體
CN113284041B (zh) * 2021-05-14 2023-04-18 北京市商汤科技开发有限公司 一种图像处理方法、装置、设备及计算机存储介质
CN113298037A (zh) * 2021-06-18 2021-08-24 重庆交通大学 一种基于胶囊网络的车辆重识别方法
CN114549921A (zh) * 2021-12-30 2022-05-27 浙江大华技术股份有限公司 目标识别方法、电子设备及计算机可读存储介质
CN114565087A (zh) * 2022-04-28 2022-05-31 苏州浪潮智能科技有限公司 一种人物意图推理方法、装置、设备及存储介质
WO2023206951A1 (zh) * 2022-04-28 2023-11-02 苏州元脑智能科技有限公司 一种人物意图推理方法、装置、设备及存储介质
CN115423695A (zh) * 2022-07-15 2022-12-02 清华大学 一种用于城市预测任务的街景图像采样方法及装置

Also Published As

Publication number Publication date
CN112733802B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
WO2021077984A1 (zh) 对象识别方法、装置、电子设备及可读存储介质
Nguyen et al. Use of a capsule network to detect fake images and videos
CN112733802B (zh) 图像的遮挡检测方法、装置、电子设备及存储介质
TWI754887B (zh) 活體檢測方法和裝置、電子設備及儲存介質
US10832069B2 (en) Living body detection method, electronic device and computer readable medium
WO2020103700A1 (zh) 一种基于微表情的图像识别方法、装置以及相关设备
CN103731583B (zh) 用于拍照智能化合成、打印处理方法
US11816880B2 (en) Face recognition method and apparatus, computer device, and storage medium
CN112215180B (zh) 一种活体检测方法及装置
CN112036331B (zh) 活体检测模型的训练方法、装置、设备及存储介质
CN111914812B (zh) 图像处理模型训练方法、装置、设备及存储介质
US11676390B2 (en) Machine-learning model, methods and systems for removal of unwanted people from photographs
CN110738116B (zh) 活体检测方法及装置和电子设备
CN108108711B (zh) 人脸布控方法、电子设备及存储介质
CN112084917A (zh) 一种活体检测方法及装置
CN109299658B (zh) 脸部检测方法、脸部图像渲染方法、装置及存储介质
CN110163111A (zh) 基于人脸识别的叫号方法、装置、电子设备及存储介质
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN109670517A (zh) 目标检测方法、装置、电子设备和目标检测模型
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
CN111666976A (zh) 基于属性信息的特征融合方法、装置和存储介质
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN110287765A (zh) 基于人脸识别的宝宝长相预测方法、装置及存储介质
CN112528760B (zh) 图像处理方法、装置、计算机设备及介质
CN111866573B (zh) 视频的播放方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042647

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant