CN116958615A

CN116958615A - 图片识别方法、装置、设备和介质

Info

Publication number: CN116958615A
Application number: CN202210346679.4A
Authority: CN
Inventors: 郜思睿; 林庆祥; 龚迪洪; 郭春超; 刘威; 王红法; 李志锋; 杨帆; 吴隆煌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-10-27

Abstract

本申请公开了图片识别方法、装置、设备和介质，涉及大数据技术领域，具体涉及图像内容审核技术领域。该方法包括：对目标图片进行人脸识别，根据人脸识别的结果对所述目标图片进行敏感人物检测；对所述目标图片进行多模态检测，所述多模态检测包括敏感文本检测、图文融合检测以及敏感图像检测中的至少一项；根据所述敏感人物检测的结果以及所述多模态检测的结果确定所述目标图片是否为敏感图片，能够结合多模态的识别结果判断图片是否敏感，大大提升了敏感图片的识别准确度。

Description

图片识别方法、装置、设备和介质

技术领域

本公开一般涉及大数据技术领域，具体涉及图像内容审核技术领域，尤其涉及一种图片识别方法、装置、设备和介质。

背景技术

随着互联网大数据技术的蓬勃发展，海量的网络数据持续不断的爆发式增长，网络信息规范也成为一个至关重要的话题。为了创建安全、规范的网络环境，对网络图片(例如，网页上展示的广告投放图片)的审核、过滤成为了必不可少的环节。

现有的技术方案中，使用卷积神经网络以及色彩直方分析等方法对图片中的像素信息进行特征提取，根据图片中的像素信息判断人体暴露区域占比，从而根据确定的占比识别该图片是否为低俗敏感图片。

由于网络图片内容多样且复杂，单纯依靠人体暴露区域占比不能准确识别低俗敏感图片，当前技术对敏感图片的识别准确度较低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种图片识别方法、装置、设备和介质，结合多模态的识别结果判断图片是否敏感，大大提升了敏感图片的识别准确度。

第一方面，本申请提供了一种图片识别方法，该方法包括：对目标图片进行人脸识别，根据人脸识别的结果对目标图片进行敏感人物检测；还可以对目标图片进行多模态检测，其中，多模态检测包括敏感文本检测、图文融合检测以及敏感图像检测中的至少一项；敏感文本检测用于对目标图片进行文本识别，并基于识别到的文本判断目标图片是否包含敏感文本；敏感图像检测用于提取目标图片的图像特征，并基于图像特征确定目标图片的敏感类型以及目标图片在敏感类型下的敏感属性；图文融合检测用于对目标图片的图像特征和文本特征进行融合处理，基于融合处理的结果检测目标图片是否敏感。

第二方面，本申请提供了一种图片识别装置，该装置包括：敏感人物检测单元，用于对目标图片进行人脸识别，根据人脸识别的结果对目标图片进行敏感人物检测；多模态检测单元，用于对目标图片进行多模态检测，多模态检测包括敏感文本检测、图文融合检测以及敏感图像检测中的至少一项；其中，敏感文本检测用于对目标图片进行文本识别，并基于识别到的文本判断目标图片是否包含敏感文本；敏感图像检测用于提取目标图片的图像特征，并基于图像特征确定目标图片的敏感类型以及目标图片在敏感类型下的敏感属性；图文融合检测用于对目标图片的图像特征和文本特征进行融合处理，基于融合处理的结果检测目标图片是否敏感。识别单元，用于根据敏感人物检测的结果以及多模态检测的结果确定目标图片是否为敏感图片。

在第二方面的一种可能的实现方式中，多模态检测单元具体用于，将所述目标图片输入检测模型，获得所述检测模块的输出结果；所述输出结果包括所述目标图片对应的敏感类型，以及所述目标图片在所述敏感类型下的多个敏感属性。其中，敏感类型用于表征目标图片包含的图像的敏感类型，敏感属性用于表征目标图片包含的图像的敏感属性。

在第二方面的一种可能的实现方式中，图片识别装置还包括训练单元。训练单元具体用于，基于训练样本集，以损失函数最小为目的进行模型训练，获得所述检测模型；

其中，所述损失函数为包含第一子函数与第二子函数的关系式；所述第一子函数用于表征所述检测模型输出的敏感类型与训练样本的真实敏感类型之间的差异，所述第二子函数用于表征所述检测模型输出的敏感属性与所述训练样本的真实敏感属性之间的差异。

在第二方面的一种可能的实现方式中，所述第一子函数、所述第二子函数以及所述损失函数之间满足以下关系式：

Y＝w₁*y₁+w₂*y₂；其中，Y为所述损失函数，y₁为所述第一子函数，w₁为所述第一子函数的权重系数，y₂为所述第二子函数，w₂为所述第二子函数的权重系数。

Y＝w₁*y₁+w₂*y₂+λ||w₁-w₂-α||²；

其中，Y为所述损失函数，y₁为所述第一子函数，w₁为所述第一子函数的权重系数，y₂为所述第二子函数，w₂为所述第二子函数的权重系数，||w₁-w₂-α||²为w₁、w₂的正则项，λ为预先设置的正则项系数，α为w₁、w₂的期望差值。

在第二方面的一种可能的实现方式中，训练单元还用于，根据业务需求确定图片敏感类型与图片敏感属性的重要度比例；

根据所述重要度比例确定所述第一子函数的权重系数以及所述第二子函数的权重系数。

在第二方面的一种可能的实现方式中，多模态检测单元具体用于，利用所述检测模型中的卷积网络对所述目标图片进行特征提取，获得多个特征图；

确定所述特征图的权重系数，以及所述特征图中各个区域的权重系数；

根据所述特征图的权重系数以及所述特征图中各个区域的权重系数更新所述特征图，基于更新后的特征图获得所述第一检测模块的输出结果；所述特征图的权重系数与所述特征图对应通道的受关注程度相关，所述各个区域的权重系数与所述各个区域的受关注程度相关。

在第二方面的一种可能的实现方式中，多模态检测单元还用于，对所述卷积网络中的深层网络输出的特征图进行放大处理，并将获得的特征图与浅层网络输出的特征图进行融合，以更新所述深层网络输出的特征图；

其中，所述浅层网络为靠近所述检测模型的输入的N个卷积网络，所述深层网络为所述检测模型中除所述浅层网络以外的卷积网络，所述N为大于等于1的整数。

在第二方面的一种可能的实现方式中，训练单元还用于，对原始训练样本集中的每一样本图片进行图像处理，获得所述样本图像对应的多个扩充样本；

基于所述原始训练样本集以及每一所述样本图一对应的多个扩充样本，生成所述训练样本集。

在第二方面的一种可能的实现方式中，训练单元还用于，对所述训练样本集中的原始训练样本进行分块处理，获得多个图像块，对所述多个图像块进行顺序合并，获得正序样本，对所述多个图像块进行乱序合并，获得乱序样本；

对所述正序样本、所述乱序样本分别进行图像块序号预测，根据预测结果与真实序号之间的损失，对所述检测模型进行反哺训练。

在第二方面的一种可能的实现方式中，多模态检测单元具体用于，对所述目标图片进行特征向量提取，获得视觉编码向量以及文本编码向量；

对所述视觉编码向量以及所述文本编码向量进行融合处理，获得融合向量；

基于所述融合向量识别所述目标图片是否敏感。

在第二方面的一种可能的实现方式中，识别单元具体用于，所述根据所述敏感人物检测的结果以及所述多模态检测的结果确定所述目标图片是否为敏感图片，包括：

若所述目标图片通过了所述多模态检测，且包含敏感人物，则确定所述目标图片为敏感图片；

若所述目标图片未通过所述多模态检测，且不包含敏感人物，则确定所述目标图片为敏感图片；

若所述目标图片通过了所述多模态检测，且不包含敏感人物，则确定所述目标图片为正常图片；

若所述目标图片未通过所述多模态检测，且包含敏感人物，则确定所述目标图片为敏感图片。

在第二方面的一种可能的实现方式中，多模态检测单元具体用于，若所述目标图片中包含文本，则对所述目标图片中的文本进行敏感文本检测；若所述文本通过所述敏感文本检测，则对所述目标图片进行所述敏感图像检测以及所述图文融合检测中的至少一项；若所述文本未通过所述敏感文本检测，则终止对所述目标图片的检测；

若所述目标图片中不包含文本，则对所述目标图片进行所述敏感图像检测。

在第二方面的一种可能的实现方式中，敏感人物检测单元具体用于，所述对目标图片进行人脸识别，根据人脸识别的结果对所述目标图片进行敏感人物检测，包括：

对所述目标图片进行人脸识别，获得人脸特征；

将所述人脸特征与人脸特征库中的人脸特征进行比对，确定与所述人脸特征匹配的敏感人物；所述人脸特征库包括多个敏感人物的人脸特征。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本申请实施例描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例描述的方法。

第五方面，本申请实施例提供一种计算机程序产品，该计算机程序产品包括指令，当该指令被运行时，使得如本申请实施例描述的方法被执行。

本申请提出的图片识别方法、装置、设备和介质，通过两个检测通道(即，敏感人物检测以及多模态检测)对图片进行检测，并根据两个检测通道的检测结果识别图片是否敏感。其中，敏感人物检测通道可以对图片进行人脸识别，从人脸特征这一模态出发识别图片是否包敏感人物。另外，多模态检测更是涉及了文本检测、图像检测以及图文融合检测，为敏感图片的识别提供了多个模态的参考依据。

可见，本申请可以结合多模态的识别结果判断图片是否敏感，相比现有技术单纯依靠人体暴露区域占比来识别敏感图片的方案，基于多个模态的特征能够更为精准、全面地把握图片的整体内容，获得更为准确的识别结果，从而大大提升了敏感图片的识别准确度。还可以应用于网络图片审核系统中，对网络视频类素材中的敏感内容(例如，低俗色情、暴力、血腥等)进行准确的识别、判断，极大地提升审核的质量与效率，为构建绿色健康的网络氛围提供强有力的支持。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例的实施环境示意图；

图2为本申请实施例提供的图片识别方法的流程示意图；

图3为本申请实施例提供的敏感文本检测的示意图；

图4为本申请实施例提供的图片识别流程示意图；

图5为本申请实施例提供的检测模型示意图；

图6为本申请实施例提供的特征图处理示意图；

图7为本申请实施例提供的另一特征图处理示意图；

图8为本申请实施例提供的训练样本扩充处理示意图；

图9为本申请实施例提供的另一训练样本扩充处理示意图；

图10为本申请实施例提供的模型训练示意图；

图11为本申请实施例提供的另一模型训练示意图；

图12为本申请实施例提供的向量融合示意图；

图13为本申请实施例提供的另一向量融合示意图；

图14为本申请实施例提供的敏感人物检测的示意图；

图15为本申请实施例提供的图片识别装置的结构示意图；

图16为本申请实施例提供的图片识别装置的另一结构示意图；

图17为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

目前，在对网络图片进行审核、过滤时，主要参考图片中人体暴露区域占比识别该图片是否为低俗敏感图片，当前技术对敏感图片的识别准确度较低。还有一些方案可以利用深度学习模型对敏感图片进行分类，但这些模型能够识别的模态往往比较单一，导致对敏感图像的识别精度较低。

基于此，本申请提出一种图片识别方法、装置、设备和存储介质，能够结合多模态的识别结果判断图片是否敏感，从而大大提升了敏感图片的识别准确度。

图1为本申请实施例的实施环境示意图。参考图1，在图片内容审核领域，可以由计算机设备10对海量的网络视频、图像进行检测，识别其中的敏感图片或敏感视频。计算机设备10在对网络视频进行检测时，可以通过抽帧技术获得视频中的图像帧，并对图像帧进行识别，从而实现对视频的检测。

或者，也可以是审核员通过终端20的显示设备观察图像、视频，凭借人工经验识别各种敏感图像、敏感视频。

本申请实施例主要改进计算机设备10对图片的识别方案，提高计算机设备10对敏感图片的识别准确率。可以应用于计算机设备10涉及的多个审核领域，例如，广告图片审核、社交媒体软件图片审核以及网络视频类素材审核等。

其中，计算机设备10可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content deliverynetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端20可以是包括但不限于个人计算、平台电脑、智能手机、车载终端等设备，本申请实施例对此不作限定。

本申请实施例提供一种图片识别方法，该方法可以应用于图1所示的计算机设备10。如图2所示，该方法包括如下步骤：

201、对目标图片进行人脸识别，根据人脸识别的结果对目标图片进行敏感人物检测；

其中，目标图片可以是计算机设备10待审核的单个图片，也可以是计算机设备10对待审核的视频进行抽帧处理后获得的单个图像帧。可以理解的是，敏感图片通常中会包含一些敏感人物。本申请实施例中的敏感人物可以是具有网络敏感属性的人物，即敏感人物的呈现往往伴随一些敏感网络内容，是内容审核关注的重点人物。例如，敏感人物可以是涉及色情、低俗、暴力等内容的一些人物。示例性的，一些低俗色情图片中会包括一些敏感女性头像。因此，图片中是否存在敏感人物是影响图片内容审核结果的一个重要因素，计算机设备10在对目标图片进行敏感判断时，可以将目标图片输入敏感人物检测通道，以便识别目标图片中是否包含敏感人物。

具体实现中，计算机设备10可以对目标图片进行人脸识别，提取其中的人脸特征，以便根据提取到的人脸特征识别目标图片中是否包含敏感人物，从而可以基于目标图片是否包含敏感人物来判断目标图片是否敏感。

需要说明的是，本申请实施例中的敏感人物可以是图片内容审核领域被认定为敏感的人物，具体实现中，可以根据本申请提供的图片识别方法所适用的业务场景来预先确定哪些人物为敏感人物，本申请实施例对此不做限制。

202、对目标图片进行多模态检测，多模态检测包括敏感文本检测、图文融合检测以及敏感图像检测中的至少一项；

其中，多模态检测指的是对图片进行文本、图像、图文融合这三个模态的检测，以便更全面、准确地提取到目标图片的特征，通过多模态识别的方式提高敏感图片的审核准确度。可以理解的是，敏感文本检测用于对目标图片进行文本识别，并基于识别到的文本判断目标图片是否包含敏感文本；敏感图像检测用于提取目标图片的图像特征，并基于图像特征确定目标图片的敏感类型以及目标图片在敏感类型下的敏感属性；图文融合检测用于对目标图片的图像特征和文本特征进行融合处理，基于融合处理的结果检测目标图片是否敏感。

本申请实施例中，敏感文本检测是对目标图片进行文字识别，根据识别到的文本判断目标图片中是否包含文本。若目标图片中包含文本，进一步判断目标图片中的文本是否敏感。一种可能的实现方式中，可以对目标图片进行光学字符识别(Optical CharacterRecognition，OCR)处理，识别出目标图片中的文本。进一步，可以将识别出的文本(例如，词汇、语句等)与敏感词库进行比对，若文本中的词汇与敏感词汇匹配，或者，文本中的语句与敏感语句匹配，则确定目标图片中包含敏感文本，即目标图片未通过敏感文本检测。反之，则确定目标图片通过了敏感文本检测。

图3为敏感文本检测的具体实现流程。参考图3，可以通过线上调用的方式调用web服务对目标图片进行OCR识别，识别出目标图片包含的文本后，将文本输入分词处理模块进行分词，获得多个候选词。进一步，可以调用多个进程(例如，图中所示的mp0、mp1、mp2)执行候选词与敏感词库的匹配任务，输出匹配结果。根据匹配结果确定目标图片是否通过敏感文本检测。

一种可能的实现方式中，敏感图像检测可以是将目标图片输入预先训练好的神经网络模型中，根据神经网络模型的输出可以确定目标图片是否敏感。该神经网络模型可以提取目标图片的图像特征，并基于提取到的图像特征确定目标图片的敏感类型以及目标图片在该敏感类型下的敏感属性。

可以理解的是，上述神经网络模型的输出可以包括一个主标签和多个子标签。其中，主标签用于表征目标图片“不敏感”或表征目标图片具体的“敏感类型”。例如，敏感类型可以是“色情导向”、“低俗导向”、“暴力导向”、“违背社会公序导向”等。子标签用于表征目标图片在该敏感类型下具体的敏感属性，例如，“性感”、“着装暴露”、“拍摄角度敏感”、“表情敏感”等。敏感图像检测能够实现多标签、多粒度的敏感图片识别，将图片归类到更为精细的标签下，有助于提升敏感图片识别的精细度。

具体实现中，计算机设备10将多模态检测通道下的三个检测方式配合执行，得出多模态检测通道的识别结果。一种可能的实现方式中，首先对目标图片进行文本识别，确定目标图片中是否包含文本。

一方面，若目标图片中包含文本，则对目标图片中的文本进行敏感文本检测，判断目标图片中是否包含敏感文本。

进一步，若文本通过了敏感文本检测，即目标图片中不包含敏感文本，则对目标图片进行敏感图像检测以及图文融合检测中的至少一项。具体地，可以先对目标图片进行敏感图像检测，若目标图片通过了敏感图像检测，则对目标图片进行图文融合检测，最终根据图文融合检测的结果确定多模态检测的结果。当然，若目标图片未通过敏感图像检测，在该检测中被识别为敏感图片，则可以不进行后续的图文融合检测，以敏感图像检测作为多模态检测的结果。

若文本未通过敏感文本检测，即目标图片中包含敏感文本，则终止对目标图片的检测，不进行敏感图像检测以及图文融合检测，直接输出结果，提示目标图片未通过多模态检测。

另一方面，若目标图片中不包含文本，则对目标图片进行敏感图像检测。也就是说，在目标图片不包含文本的情况下，可以依靠图像来识别目标图片是否敏感，跳过敏感文本检测和图文融合检测，借助敏感图像检测识别目标图片是否敏感，以敏感图像检测作为多模态检测的结果。

需要说明的是，上述实现方式中多模态检测通道下各个检测方式的先后顺序仅仅作为一种示例，在具体实现中对三种检测方式的组合以及先后顺序不做限定。另外，对201、202的执行先后顺序也不做限定，可以如前文所述先执行201再执行202，也可以先执行202再执行201。201以及202均执行后可以执行下文所述的203。

203、根据敏感人物检测的结果以及多模态检测的结果确定目标图片是否为敏感图片。

需要说明的是，敏感图片可以是具有敏感内容的图片，例如，可以是具体暴力、色情、诈骗等导向的图片。

具体实现中，敏感人物检测的结果可以是目标图片包含敏感人物，或者，目标图片不包含敏感人物。多模态检测的结果与多模态检测通道下最后一个进行的检测有关。例如，对目标图片依次进行了敏感文本检测、敏感图像检测以及图文融合检测，若目标图片通过了图文融合检测，则多模态检测的结果为通过。相反地，若目标图片未通过图文融合检测，则多模态检测的结果为未通过。

一种可能的实现方式中，根据敏感人物检测的结果以及多模态检测的结果判断敏感图片的具体实现包括：若目标图片通过了多模态检测，且包含敏感人物，则确定目标图片为敏感图片；

若目标图片未通过多模态检测，且不包含敏感人物，则确定目标图片为敏感图片；

若目标图片通过了多模态检测，且不包含敏感人物，则确定目标图片为正常图片；

若目标图片未通过多模态检测，且包含敏感人物，则确定目标图片为敏感图片。

以下再结合图4对敏感人物检测以及多模态检测的具体执行流程进行解释说明：

参考图4，首先将目标图片并行输入多模态检测通道和敏感人物检测通道。在多模态检测通道中，区别于目标图片是否包含文字，对目标图片有以下两种不同的处理：

第一、目标图片中包含文本

具体地，利用OCR技术识别目标图片中是否包含文本。若包含，则可以调用多进程在敏感词库中检索识别出的文本。若目标图片中的文本命中了敏感词，则确定目标图片中包含敏感词，从而输出结果提示目标图片敏感。

若目标图片中不包含敏感词，则将目标图片输入检测模型进行敏感图像检测，若检测模型输出的输出值小于阈值T1，即检测模型预测的目标图片的打分值(敏感类型的打分以及多个敏感属性的打分)小于预设的阈值T1，目标图片没有命中检测模型能够识别的敏感类型以及敏感属性，通过了敏感图像检测。当然，若检测模型输出的输出值大于或等于阈值T1，则认为目标图片未通过敏感图像检测，直接输出结果提示目标图片敏感。

目标图片通过了敏感图像检测之后，对目标图片进行图文融合检测。若图文融合检测后输出的输出值小于阈值T2，即图文融合检测过程对目标图片的打分值小于预设的阈值T2，目标图片通过了图文融合检测。当然，若输出值大于或等于阈值T2，则认为目标图片未通过图文融合检测，直接输出结果提示目标图片敏感。

在目标图片通过了敏感图像检测、图文融合检测之后，可以结合敏感人物检测通道的结果得出目标图片最终的识别结果。例如，目标图片通过了图文融合检测，且目标图片不包含敏感人物，则确定目标图片为正常图片。若目标图片未通过图文融合检测，且目标图片包含敏感人物，则确定目标图片为敏感图片。若目标图片通过了图文融合检测，且目标图片包含敏感人物，则确定目标图片为敏感图片。若目标图片未通过图文融合检测，且目标图片不包含敏感人物，则确定目标图片为敏感图片。

第二、若目标图片中不包含文本，则可以跳过敏感文本检测，对目标图片进行敏感图像检测，基于敏感图像检测的结果以及敏感人物检测的结果判断目标图片是否为敏感图片。其中，敏感人物检测的结果包括目标图片包含敏感人物，或者，目标图片不包含敏感人物。

例如，OCR技术对目标图片进行识别，未识别到文本。则对目标图片进行敏感图像检测。若敏感图像检测的结果为通过，且目标图片不包括敏感人物，则目标图片为正常图片；若敏感图像检测的结果为不通过，且目标图片不包括敏感人物，则目标图片为敏感图片；若敏感图像检测的结果为通过，但目标图片包括敏感人物，则目标图片为敏感图片；若敏感图像检测的结果为不通过，且目标图片包括敏感人物，则目标图片为敏感图片。

需要说明的是，在敏感人物检测通道中，可以对目标图片进行人脸检测，提取出人脸特征(feature)，将提取到的人脸特征与人脸库中存储的人脸特征进行比对，以确定目标图片中是否包含敏感人物。

本申请实施例提供的图片识别方法中，通过两个检测通道(即，敏感人物检测以及多模态检测)对图片进行检测，并根据两个检测通道的检测结果识别图片是否敏感。也就是说，可以结合两个检测通道的多模态识别结果判断图片是否敏感，相比现有技术单纯依靠人体暴露区域占比或依靠单一模态来识别敏感图片的方案，能够更为精准、全面地把握图片的整体内容，获得更为准确的识别结果，从而大大提升了敏感图片的识别准确度。

在本申请的另一实施例中，提供了敏感图像检测的具体实现方式。一种可能的实现方式中，上述敏感图像检测具体可以是将目标图片输入检测模型，获得检测模块的输出结果；其中，输出结果包括目标图片对应的敏感类型，以及目标图片在敏感类型下的多个敏感属性。示例性的，敏感类型可以表征目标图片包含的图像的敏感类型，敏感属性可以表征目标图片包含的图像的敏感属性。

需要说明的是，检测模型可以输出一个主标签和多个子标签。其中，主标签可以是上述敏感类型，子标签可以是上述敏感属性。检测模型的处理包括对目标图片进行特征提取，获得特征图。进一步，可以将特征图输入分类函数获得检测模型输出的主标签和子标签。具体的，检测模型包括两个并行的分类函数：多分类函数f₁(x)和多元二分类函数f₂(x)。将特征图输入f₁(x)进行运算，输出目标图片的敏感分类标签；将上述特征图输入f₂(x)进行运算，输出目标图片的敏感属性标签。

一种可能的实现中，上述多分类函数为softmax函数，上述多元二分类函数可以是多个sigmoid函数，一个sigmoid函数可以实现一个二分类预测。

示例性的，以3分类为例，介绍多分类函数的输出。多分类函数能够预测的敏感类型用1、2、3表示，其输出可以是一个3*1的向量，该向量中的每一个元素对应一个敏感类型，元素的值(打分值)表示输入样本为对应标签的概率，各打分值之和等于1。打分值越高表明目标图片命中该打分值对应的敏感类型标签的概率越高，因此可以选择最高打分值所对应的标签为模型预测的敏感类型标签。假设多分类函数的输出为[0.09，0.24，0.67]，则表示这个输入样本为第1类的概率为0.09，输入样本为第2类的概率为0.24，输入样本为第3类的概率为0.67。此时，可以将打分值最高的“第3类”作为多分类函数的预测结果，即检测模型预测的目标图片的敏感类型为“第3类”。进一步，若该打分值“0.67”大于预先设置的门限，则可以确定目标图片命中了敏感类型“第3类”。

以3元二分类为例，介绍多元二分类函数的输出。多元二分类函数能够预测的敏感属性用A、B、C、D表示，其输出可以是一个4*1的向量，该向量中的每一个元素对应一个敏感属性，元素的值(打分值)表示输入样本属于该元素对应的敏感属性的概率。与多分类函数不同的是，多元二分类函数的输出中各个打分值是独立的，而多分类函数输出的打分值相加等于1。多元二分类函数输出的各个打分值中，打分值越高表明目标图片命中该打分值对应的敏感属性标签的概率越高，因此可以选择较高的打分值(例如，高于阈值的打分值)所对应的标签为模型预测的敏感属性标签。假设3元二分类函数的输出为[0.53，0.25，0.77、0.34]，则表示这个输入样本为A类的概率为0.53，输入样本为B类的概率为0.25，输入样本为C类的概率为0.77，输入样本为D类的概率为0.34。若打分值0.53、0.77大于预设的阈值，可以将“A类”、“C类”作为多元二分类函数的预测结果，即检测模型预测的目标图片的敏感属性为“A类”、“C类”，目标图片命中了敏感属性为“A类”、“C类”。

可以理解的是，若目标图片命中了某个敏感类型标签，且命中了敏感属性标签，认为目标图片为敏感图片。若目标图片命未命中敏感类型标签，但命中了敏感属性标签，也认为目标图片为敏感图片。若目标图片命中了敏感类型标签，但未命中敏感属性标签，也认为目标图片为敏感图片。当然，若目标图片既命中了敏感类型标签，也命中了敏感属性标签，目标图片为敏感图片。若目标图片未命中敏感类型标签和敏感属性标签，目标图片为正常图片。

示例的，参考图5，将目标图片输入检测模型，检测模型的预测结果可以是“敏感”标签或“不敏感”标签。其中，“不敏感”标签用于指示图片为正常图片。“敏感”标签还可以称为“敏感类型”标签，用于指示图片具体的敏感类型。例如，敏感类型标签(多分类预测)可以是“色情导向”、“低俗导向”、“暴力导向”、“违背社会公序导向”中的一个。

检测模型的输出还可以包括敏感属性标签(多元二分类预测)，可以是“性感”、“着装暴露”、“拍摄角度敏感”、“表情敏感”中的多个。

另外，若检测模型的输出为“不敏感”标签，且敏感属性的打分值均小于预设的阈值，则表明目标图片通过了敏感图像检测，可以进行下一步的检测(例如，前文所述的图文融合检测)；若检测模型的输出的敏感类型的打分值、敏感属性的打分值大于预设的阈值，则表明目标图片未通过敏感图像检测，可以输出结果提示目标图片为敏感图片。

本申请实施例中，大大提升了识别算法的精度，对敏感图像的识别粒度也做了更为精细的设计，能够满足图片内容审核的细粒度标签需求，对图像进行更为精细的敏感标签划分。借助于这些细粒度的标签能够识别困难样本中的隐蔽细节，实现更高精度的敏感图片识别。

需要说明的是，上述检测模型是本申请实施例提供的一种能够实现细粒度标签预测的分类模型，其输出包括一个主标签和多个子标签。该检测模型的应用场景不仅仅局限于本申请实施例所述的图片识别场景，还可以应用其他需要实现细粒度标签预测的场景中。例如，利用上述检测模型实现对警情的分类预测。将视频设备采集到的图像输入检测模型，不仅可以预测警情类型(即模型的主标签，例如，火警、水警等)，还可以预测警情的属性(即模型的子标签，可以是警情的等级，例如，一级、二级等)。总之，本申请实施例对检测模型的应用场景不做限制，任何应用上述检测模型实现细粒度标签预测的方案都属于本申请的保护范围。

在本申请的另一实施例中，还提供了上述检测模型的训练方法。模型训练可以在图片识别方法的应用端(例如，图1中的计算机设备10)执行，也可以在其它后台服务器上进行，模型训练好后可以部署在计算机设备10上用于实现对敏感图片的识别。

该训练方法具体包括：基于训练样本集，以损失函数最小为目的进行模型训练，获得检测模型；其中，损失函数为包含第一子函数与第二子函数的关系式；第一子函数用于表征检测模型输出的敏感类型与训练样本的真实敏感类型之间的差异，第二子函数用于表征检测模型输出的敏感属性与训练样本的真实敏感属性之间的差异。

其中，训练样本集包括多个历史图片，将历史图片输入初始模型后，模型可以输出预测的敏感类型、敏感属性。进一步，可以根据模型的预测以及历史图片的真实标签(即历史图片的真实敏感类型、真实敏感属性)确定损失函数，并基于损失函数自动调整模型参数，使得模型的预测与历史图片的真实标签无限接近，最终得到稳定的模型，即最终用于敏感图像检测的检测模型。

一种可能的实现方式中，检测模型基于多分类函数输出一个主标签，即“敏感类型”，第一子函数可以是多分类函数对应的损失函数，用于计算主标签和输入样本的真实敏感类型之间的差异，例如，第一子函数可以是多分类损失函数LOSS_softmax。

检测模型可以基于多元二类函数输出多个子标签，即多个“敏感属性”，第二子函数可以是多元二分类函数对应的损失函数，用于计算子标签和输入样本的真实敏感属性之间的差异，例如，第二子函数可以是多元二分类交叉熵损失(multi binary crossentropy，MBCE)函数LOSS_MBCE。

需要说明的是，第一子函数、第二子函数都属于损失函数。训练样本集可能存在困难样本、正负样本数量不均衡的问题，从而影响模型精度。本申请实施例中，第一子函数、第二子函数可以是FocalLoss函数，在一定程度上减少了困难样本、正负样本数量不均衡对模型性能的限制。可以理解的是，困难样本可以是训练样本集中敏感因素较为隐蔽、不易被识别的图片，正样本可以是训练样本集中标签为“正常”的图片，负样本可以是训练样本集中标签为“敏感”的图片。

本申请实施例中，提供了一种新的模型训练方法，损失函数综合了多分类函数的预测差异以及多元二分类函数的预测差异，基于该损失函数对模型进行训练，能够获得模型多分类预测精度的提升以及多元二分类预测精度的提升，为提高敏感图片识别精度提供支持。本申请实施例进行检测模型训练所采用的初始模型可以是MobileNetV3网络，但在模型训练时使用本申请提供的损失函数替换了MobileNetV3网络原本的损失函数，实现了检测模型的多分类预测以及多元二分类预测。

在本申请的另一实施例中，在模型训练过程中，还可以为多分类损失函数、多元二分类损失函数分配合理的权重系数，使得模型的预测差异与实际业务需求高度匹配，也能带来模型性能的提升。在一种可能的实现方式中，上述第一子函数、第二子函数以及损失函数之间满足以下公式(1)：

Y＝w₁*y₁+w₂*y₂(1)

上述公式(1)中，Y为上述检测模型训练过程中的损失函数，y₁为第一子函数，w₁为第一子函数的权重系数，y₂为第二子函数，w₂为第二子函数的权重系数。

在本申请实施例中，还可以根据图片识别方法应用的业务场景，合理确定第一子函数、第二子函数的权重系数。一种可能的实现方式中，根据业务需求确定图片敏感类型与图片敏感属性的重要度比例；根据重要度比例确定第一子函数的权重系数以及第二子函数的权重系数。

示例性的，将本申请实施例提供的图片识别方法应用于某些场景时，更为关注图片的敏感类型，例如，图片敏感类型与图片敏感属性的重要度比例为65％：35％，则第一子函数的权重系数可以是0.65，第二子函数的权重系数可以是0.35。

在本申请的另一实施例中，第一子函数和第二子函数的权重系数是检测模型可以学习的模型参数，从而可以引入权重系数正则项来制约第一子函数和第二子函数的权重分配，避免第一子函数、第二子函数的权重系数出现偏移失衡的问题。在一种可能的实现方式中，第一子函数、第二子函数以及损失函数之间满足以下公式(2)：

Y＝w₁*y₁+w₂*y₂+λ||w₁-w₂-α||²(2)

其中，Y为所述损失函数，y₁为所述第一子函数，w₁为所述第一子函数的权重系数，y₂为所述第二子函数，w₂为所述第二子函数的权重系数。||w₁-w₂-α||²为w₁、w₂的正则项，用于限制w₁、w₂，保证w₁、w₂的合理性，避免w₁、w₂出现偏移失衡的情况。λ为预先设置的正则项系数，α为w₁、w₂的期望差值，也可以是预先设置的。通过该期望差值控制w₁、w₂的差值，使得两个LOSS分量(即第一子函数和第二子函数)的权重系数达到期望的差异。

需要说明的是，w₁、w₂是检测模型可以学习的参数，即在模型训练中，可以根据损失函数(2)调整模型的参数(包括w₁、w₂)，如此，在检测模型的训练过程中可以对损失函数的权重系数进行训练。具体地，在训练模型的过程中，可以有一个“w₁、w₂的差值尽可能接近期望差值α”的训练目标，再结合上述正则项，使得模型学习出w₁、w₂差值的最优解，从而不仅可以保证模型的综合预测性能达到最优，还可以保证w₁、w₂的差值与预先设置的期望差值较为接近，避免w₁、w₂出现偏移失衡。

在本申请的另一实施例中，以LOSS_softmax函数、LOSS_MBCE函数为例，给出了上述损失函数的具体实现，详见以下公式(3)：

其中，LOSS_softmax(x_i，y_i)表示当输入为(x_i，y_i)，检测模型预测的敏感类型与输入的真实敏感类型之间的差异；LOSS_MBCE(x_i，y_i)表示当输入为(x_i，y_i)，检测模型预测的多个敏感属性与输入的真实敏感属性之间的差异。y_ij为输入的真实标签，c代表多元二分类函数能够预测的敏感属性的数量，为y_ij对应的预测打分值，即y_ij输入模型后模型所得的输出。

在本申请的另一实施例中，利用检测模型对图片进行识别时，可以引入注意力机制，实现模型对卷积图不同区域的不同注意程度，以及不同卷积通道的不同注意程度，进一步可以实现模型对局部细节特征的高效提取。

可以理解的是，图片输入检测模型后，可以由卷积网络对图片进行特征提取，获得特征图。还可以通过检测模型的分类函数对特征图进行运算，获得模型的输出。不同的卷积网络对应不同的卷积通道(channel)，例如，提取眼睛特征的通道、提取嘴巴特征的通道等。本申请实施例中，为了提高检测模型对局部细节特征的高效提取，可以根据受关注程度的不同为各个通道分配不同的权重系数。此外，针对同一特征图内的不同区域，也可以根据受关注程度的不同为各个区域设置不同的权重系数，实现更为精细的特征提取。

示例性的，前文涉及的“将目标图片输入检测模型，获得第一检测模块的输出结果”的具体实现包括：

将目标图片输入检测模型，检测模型中的多个卷积网络(也可以称为通道)可以对目标图片进行特征提取，每一卷积网络获得多个特征图。进一步，还可以根据各个通道的受关注程度确定各个卷积图的权重系数，根据特征图中各个区域的受关注程度确定各个区域的权重系数；

最后，可以根据特征图的权重系数以及特征图中各个区域的权重系数更新特征图，基于更新后的特征图获得第一检测模块的输出结果。具体实现中，将更新后的特征图代入检测模型的分类函数，输出检测模型的预测结果，即前文所述的敏感类型以及敏感属性。

也就是说，特征图的权重系数与特征图对应通道的受关注程度相关，特征图中各个区域的权重系数与各个区域的受关注程度相关。其中，特征图对应通道可以是输出该特征图的卷积网络对应的通道。

一种可能的实现方式中，特征图的权重系数的大小与对应通道的受关注程度正相关，即对应通道的受关注程度越高，特征图的权重系数越大。特征图中各个区域的权重系数的大小与各个区域的受关注程度正相关，区域的受关注程度越高，该区域的权重系数越大。

图6是检测模型注意力机制的具体实现示意图。参考图6，在卷积网络对目标图片进行处理，获得特征图后，CBAM可以对特征图进行更新。具体地，参考图6，特征图输入CBAM模块后，可以利用特征图的权重系数k1处理特征图，例如，对特征图中每一像素值和权重系数k1进行乘运算，每一像素值得到更新。

进一步，利用特征图中各个区域的权重系数对特征图进行处理。例如，区域1的权重系数为Q1，区域2的权重系数为Q2，区域3的权重系数为Q3。区域1内各个像素值乘以Q1、区域2内各个像素值乘以Q2、区域3内各个像素值乘以Q3，得到最终的特征图。最后将该特征图输入相应的分类函数获得模型的预测结果(即输出结果)。

具体实现中，检测模型包括卷积块注意模块(convolutional block attentionmodule，CBAM)。以MobileNetV3网络为例，可以将MobileNetV3网络中的压缩和权值评比(suqeeze and excitation，SE)模块替换成CBAM，实现特征图(feature map)层面的注意力机制，以及特征图内特殊区域(spatial attention)的注意力机制。也就是说检测模型可以包括1x1卷积模块、3x3卷积模块以及CBAM。其中，图片输入检测模型后，首先使用1x1的卷积对特征图进行升维。之后再由3x3卷积模块进行深度可分离卷积，再通过1x1的卷积模块对3x3卷积模块输出的特征图进行融合。最后，融合后的特征图输入CBAM模块进行权重调整，之后再输入分类函数得到模型输出。CBAM对特征图的权重调整主要有特征图层面以及不同区域层面的，详细过程可参考前文所示的图6以及图6相关描述，在此不做赘述。

在本申请的另一实施例中，在利用检测模型对图片进行识别时，还可以对上述检测模型的深层网络输出的特征图进行放大处理，使得深层网络的特征图与浅层网络的尺寸相同，再将深层网络的特征图与浅层网络的特征图进行融合，经过上述处理后所得的深层网络特征图不仅具备了深层网络特征图的语义表达能力，还具备了浅层网络特征图的细节表达能力。

示例性的，前文所述的图片识别方法还包括：在敏感图像检测中，可以对卷积网络中的深层网络输出的特征图进行反卷积处理(deconvolution)、上采样处理，以将特征图进行放大至于浅层网络特征图相同的尺寸。例如，深层网络输出的3*3特征图，放大为4*4的特征图。

随后，将放大后的特征图与浅层网络输出的特征图进行融合，以更新特征图。具体地，可以对多个浅层网络的特征图进行降维处理，获得一个特征图，再将该特征图与深层网络的特征图进行融合，最终获得深层网络更新后的特征图。示例性的，可以利用1*1卷积网络对浅层网络进行降维，将N个特征图减少为1个特征图，最后与相同尺寸的深层网络特征图(经过反卷积、上采样后的深层网络特征图)直接相加，获得最终的深层网络特征图。

示例性的，参考图7，检测模型包括多个卷积网络，可以将靠近模型输入的N个卷积网络称为浅层网络，将靠近模型输出的卷积网络称为深层网络。通常，深层网络用于提取输入图片的高层特征，浅层网络用于提取输入图片的低层特征。低层特征可以是图片的细节特征，例如，轮廓、边缘、颜色、纹理和形状特征等；高层特征接近于人眼的识别结果，例如，对人像提取低层特征可以提取到鼻子、眼睛等，高层特征就显示为一张人脸。

可以理解的是，深层网络的感受野比较大，语义信息表征能力强，但深层网络输出的特征图分辨率低，缺乏空间几何特征细节。浅层网络的感受野比较小，几何细节信息表征能力强，虽然分辨率高，但是语义信息表征能力弱。

在本申请实施例中，检测模型可以采用特征金字塔(feature pyramid network，FPN)，增强对不同尺度、不同粒度关键特征的检测识别能力。具体地，参考图7，深层网络输出的特征图的尺寸比高层浅层网络的特征图的尺寸小。例如，目标图片输入检测模型后，浅层网络输出的特征图是4*4的特征图11、特征图12以及特征图13，深层网络输出的特征图是3*3的特征图2。

进一步，可以对特征图2进行反卷积、上采样处理，获得4*4的特征图3。对特征图11、特征图12以及特征图13进行降维，获得特征图4，将特征图4与特征图3进行融合，获得新的特征图。最后可以将该特征图输入相应的分类函数。

其中，特征图4和特征图3的融合，可以是相同位置的像素值相加。示例性的，参考图7，特征图4的第一个像素值和特征图3的第一个像素值相加，特征图4的第二个像素值和特征图3的第二个像素值相加，以此类推，直至遍历特征图4、特征图3的每一个像素值。

本申请实施例提供的方法中，目标图片输入深层网络进行特征提取后，不是将深层网络输出的特征图直接输入相应的分类函数进行结果预测，而是对特征图逐级进行反卷积、上采样处理，对特征图依次进行放大，之后再与对应的浅层网络的特征图进行融合，获得深层网络更新后的特征图，将更新的多级特征图经过相应的全链接层统一输入相应的分类函数。

需要说明的是，图6、图7所示的对特征图的处理，可以择一执行，例如，根据特征图权重系数、区域权重系数对特征图进行更新后，输入模型的分类函数。或者，对深层网络的特征图进行反卷积、上采样，并与对应的浅层网络特征图进行融合，将获得的特征图输入模型的分类函数。

在一种可能的实现方式中，按照串联顺序执行图6、图7所示的处理。例如，先根据特征图权重系数、区域权重系数对特征图进行更新，再对深层网络的特征图进行反卷积、上采样，并与对应的浅层网络特征图进行融合处理，之后将获得的特征图输入模型的分类函数。

在本申请的另一实施例中，在上述检测模型的训练过程中，还可以对参与模型训练的样本进行图像处理、变化，提升训练数据的多样性，从而获得模型性能的提升。示例性的，前文所述的图片识别方法还包括：对原始训练样本集中的每一样本图片进行图像处理，获得样本图像对应的多个扩充样本；进一步，还可以基于原始训练样本集以及每一样本图对应的多个扩充样本，生成训练样本集，用于模型训练。最终生成的训练样本集相较于原始训练样本集在数量、多样性等方面有很大提升。

图8示出了几种可能的图像处理方式。参考图8，上述图像处理方式可以是随机混合数据增强方法，例如，随机裁剪(crop)、仿射变换(affine)、高斯模糊(Gaussian blur)、彩色变换(colorjittering)、高斯噪声(Gaussian noise)、椒盐噪声(pepper-saltnoise)、运动模糊(motion blur)、卡通变化(cartoon)等。经过上述处理，获得多个扩充样本。

需要特别说明的是，对训练样本进行卡通变化，将变化后的图片加入训练样本集，不仅可以增加训练样本的数量，还可以在一定程度上克服训练样本中真实世界图片与卡通图片数量分别不均的问题，得到模型性能的提升。

图9也是本申请实施例提供的一种图像处理方式。参考图9，可以将正样本、负样本进行前景、背景的融合，获得新的扩充样本。例如，可以对样本A、样本B进行前景、背景融合，获得样本C。

另外，还可以对扩充样本进行随机干扰处理，增强模型对无关背景的抗干扰能力，提升模型对关键区域细节特征的识别性能。上述随机干扰处理可以是透明度变化、尺度随机干扰等。其中，尺度随机干扰可以是对样本的前景图片进行尺度缩放，构造不同尺度的训练样本。由于模型对小尺度样本识别难度更大，这样可以提升模型训练样本集中困难样本的丰富性，从而提高模型对困难样本(例如，细微关键区域)的识别能力。

一种可能的实现方式中，可以基于cutmix、mixup等数据增强算法对正、负样本进行处理。示例性的，参考图9，还可以对样本C进行透明度变化，获得样本D。

在本申请的另一实施例中，在上述检测模型的训练过程中，可以对训练样本进行分块、打乱，以便基于乱序图片、正常图片对检测模型进行反哺训练，提升模型对对细小特征的识别能力。

示例性的，在上述检测模型的训练过程中，还可以对训练样本集中的原始训练样本进行分块处理，获得多个图像块，对多个图像块进行顺序合并，获得正序样本，对多个图像块进行乱序合并，获得乱序样本；

之后还可以分别对正序样本、乱序样本分别进行图像块序号预测，根据预测结果与真实序号之间的损失，对检测模型进行反哺训练。

具体地，可以将正序样本、乱序样本分别输入检测模型，检测模型的卷积网络对正序样本进行特征提取获得正序特征图，检测模型的卷积网络对乱序样本进行特征提取获得乱序特征图；

将正序特征图输入顺序识别模型，获得正序特征图中每一图像块的预测序号，根据正序特征图中每一图像块的预测序号与正序特征图对应的真实序号之间的损失调整检测模型的模型参数，使得预测序号接近真实序号；

将乱序特征图输入顺序识别模型，获得乱序特征图中每一图像块的预测序号，根据乱序特征图中每一图像块的预测序号与乱序特征图对应的真实序号之间的损失调整检测模型的模型参数，使得预测序号接近真实序号。

需要说明的是，顺序识别模型可以对输入图像块进行排序，输出图像块的序号。图像块的真实序号指的是在对训练样本进行分块处理时，为图像块分配的序号，可以表征图像块在训练样本中的相对位置。一种可能的实现方式中，顺序识别模型还可以称为区域对齐网络。顺序识别模型可以对分类网络卷积层的输出特征图进行1x 1卷积处理，得到具有两个通道的输出。还可以对上述两个通道的输出输入校正线性单元(rectified linearunit，ReLu)和平均池化层，得到一个大小为2×N×N的特征图。2×N×N特征图的每个空间位置点预测一个区域位置，包括预测区域的横坐标以及预测的纵坐标，也就是说2×N×N特征图包括N×N个子区域，即可以用来实现N×N个打乱的子图像块的二维位置坐标的回归拟合。其中，在顺序识别模型的训练过程中，采用区域对齐损失(region alignment loss)定义为预测坐标和原始坐标之间的距离。

图10为本申请实施例提供的反哺训练示意图。在检测模型的训练过程中，可以进行多个训练任务，包括检测模型的主训练任务(major task)，以及利用顺序识别模型反哺检测模型的子训练任务1(pretext task1)。

参考图10，对原始训练样本A进行分块处理，获得9个图像块，确定每一图像块的真实序号。图像块的真实序号可以用坐标来表示，指示图像块在未分块图像中的相对位置。或者，图像块的真实序号可以是一个索引(index)，对应一个坐标。如图10所示，9个图像块的坐标分别为(1,1)(1,2)(1,3)(2,1)(2,2)(2,3)(3,1)(3,2)(3,3)。

随后可以对9个图像块进行顺序合并，获得图像B1。9个图像块在图像B1中的位置与在原始训练样本A中的位置相同。还可以对9个图像块进行乱序合并，获得图像B2。例如，将9个图像块随机打乱，根据打乱后的图像块组合成图像B2。

进一步，将图像B1输入检测模型，检测模型的卷积网络对图像B1进行特征提取，获得顺序特征图C1。还可以将顺序特征图C1输入顺序识别模型，获得顺序识别模型预测的原始输入图像中每一图像块的序号。最后根据图像块的预测序号和真实序号之间的损失(例如，图像块的预测坐标与图像块的真实坐标之间的距离损失)，调整检测模型的参数。

也可以将图像B2输入检测模型，检测模型的卷积网络对图像B2进行特征提取，获得乱序特征图C2。还可以将乱序特征图C2输入顺序识别模型，获得顺序识别模型预测的原始输入图像中每一图像块的序号。最后根据图像块的预测序号和真实序号之间的损失(例如，图像块的预测坐标与图像块的真实坐标之间的距离损失)，调整检测模型的参数。

需要说明的是，检测模型提取的特征图具备的细节特征越多，特征图抗乱序的能力越强，即顺序识别模型能够预测的图像块序号与真实序号之间的损失越小。通过反哺检测模型，使得上半部分的检测模型除了具备敏感图像分类的性能外，还可以提升检测模型对于整张图微小区域、细节特征的提取能力有更好的表征性能，有助于对细粒度分类性能的提升。

在本申请的另一实施例中，为了防止打乱原始输入图像的操作引入不必要的空间分布差异，在训练检测模型的同时还可以进行一个子训练任务2(pretext task2)，以对抗图片打乱操作引入的噪声。

具体地，参考图11，在训练过程中，还可以基于乱序特征图、正序特征图进行“原始图片”或“打乱图片”的预测，根据预测结果进一步反哺训练检测模型。

例如，上述乱序特征图C2、顺序特征图C1分别经过全连接层向量化处理后输入一个对抗模型。对抗模型是一个二分类模型，可以预测输入为“原始图片”还是“打乱图片”。训练过程中可以根据输出的预测结果与输入的真实标签之间的损失，调整检测模型的参数，反哺检测模型，提升模型对打乱图片的特征提取能力，对抗打乱图片操作引入的噪声。

具体地，对抗模型可以包括一个二分类的全连接层、一个非线性层以及Dropout层。首先，图片输入非线性层进行特征提取，随后可以进入Dropout层过滤掉一些卷积核提取出的特征图，最后将过滤后的特征图输入全连接层，得到模型的预测结果。

在本申请的另一实施例中，还提供了上述图文融合检测的具体实现。在图文融合检测中，可以对目标图片中的图像、文字两种模态的语义特征进行融合，基于融合向量得到更准确的识别结果。

示例性的，上述图文融合检测，包括：首先对目标图片进行特征向量提取，获得视觉编码向量(visual embedding)以及文本编码向量(textual embedding)；其中，视觉编码向量指的是目标图片中的图像特征进行(例如，帽子、眼镜等)向量化处理后获得的编码向量，文本编码向量指的是目标图片中的文本特征(例如，汉字、英文等)进行向量化处理后获得的编码向量。

进一步，还可以将视觉编码向量、文本编码向量作为输入多模态判断模型，多模态判断模型负责视觉编码向量、文本编码向量的向量信息交互、融合，并根据向量信息交互、融合的结果得出目标图片的分类结果。

一种可能的实现方式中，上述多模态判断模型可以是多模态Transformer模型。

图12为本申请实施例提供的图文融合检测的一个示意图。将目标图片输入图文融合检测的通道，首先可以对目标图片进行文本识别，识别出文本“我在这里”。另外，目标图片还包括人物图像。进一步，基于图像视觉编码模块对“人物头像”进行向量化处理获得视觉编码向量V₁₁、V₁₂、V₁₃、V₁₄，基于语言文本编码模块对“我在这里”进行向量化处理获得文本编码向量V₂₁、V₂₂、V₂₃、V₂₄。进一步，将V₁₁、V₁₂、V₁₃、V₁₄、V₂₁、V₂₂、V₂₃、V₂₄输入多模态判断模型，多模态判断模型进行向量信息的交互、融合，最终输出预测值。若多模态判断模型的预测值大于阈值T2，则表明图文融合检测的结果是“目标图片敏感”，即目标图片未通过图文融合检测。相反地，若多模态判断模型的预测值小于阈值T2，则表明图文融合检测的结果是“目标图片正常”，即目标图片通过了图文融合检测。

图13为本申请实施例提供的图文融合检测的一个示意图。参考图13，除基础的图像视觉编码向量外，可以基于多个模态获取不同维度的视觉编码向量，作为图像融合检测输入的视觉编码向量。多个模态可以是人像识别领域、人体识别领域的先验标签(例如，年龄、性别、人数、表情等)，可以通过相应先验标签子任务算法模型获取各个先验标签对应的视觉编码向量。例如，“年龄”编码向量r1、“性别”编码向量r2、“人数”编码向量r3、“表情”编码向量r4等。将对r1、r2、r3、r4、V₂₁、V₂₂、V₂₃、V₂₄输入多模态判断模型，多模态判断模型进行向量信息的交互、融合，在图文融合检测中纳入更多人为先验知识信息，最终输出预测值。

需要说明的是，前文涉及的多模态判断模型包括两个模态的处理模型：处理模块1包括视觉编码器、multi-head-co-attention模块和self-attention模块；处理模块2包括文本编码器、multi-head-co-attention模块和self-attention模块。

其中，处理模块1中采用视觉编码器对输入图片中的图像进行编码获得视觉编码向量，处理模块2中采用文本编码器对输入图片中的文本进行编码获得文本编码向量。之后，可以由两个处理模块中的multi-head-co-attention模块和self-attention模块对视觉编码向量以及文本编码向量进行交互、融合处理，获得多模态判断模型的预测结果。

其中，每一个self-attention模块可以通过模块本身的注意力机制实现特征提取，multi-head-co-attention模块可以将模块本身获得的Query矩阵与另一模态的Value矩阵和Key矩阵做点积相似度计算，获得的特征可以表征不同的注意力程度。

在本申请的另一实施例中，还提供了敏感人物检测的具体实现方式。具体地，前文涉及的“对目标图片进行人脸识别，根据人脸识别的结果对目标图片进行敏感人物检测”，包括以下处理：

首先对目标图片进行人脸检测，若检测到人脸则进行人脸特征提取，获得人脸特征；

将上述人脸特征与人脸特征库中的特征进行比对，确定与上述人脸特征匹配的敏感人物；其中，人脸特征库包括多个敏感人物头像的人脸特征。可以计算上述人脸特征与特征库中各个敏感人物头像的人脸特征的匹配度，筛选出匹配度高于预设阈值的候选敏感人物图像，再将其中匹配度打分值最高的敏感人物头像作为识别结果，即目标图片命中(包含)的敏感人物头像。

示例性的，目标图片输入敏感人物检测通道后，首先进行人脸检测。一种可能的实现方式中，参考图14，具体地，可以首先定位出人脸框，进一步检测出人脸关键点，还可以基于人脸关键点对人脸框中的人脸进行转正、对齐等处理。

在完成人脸检测后，进行人脸特征提取，例如，提取人脸轮廓、五官、皮肤等。最后根据提取到的人脸特征在人脸特征库中进行检索、比对，判断是否存在上述人脸特征匹配的敏感人物。进一步，输出敏感人物检测的结果：包括敏感人物，或者，不包括敏感人物。

本申请实施例可以应用于各种网络图片素材的审核场景但并不局限于上述场景，也可以应用到其它计算机视觉场景，例如，图片性感度打分系统、性感分类系统等。

本申请实施例提供的方法中，还可以采用C++语言将本申请涉及的各种模型(例如，前文所述的检测模型)部署在应用端，其中使用的推理引擎可以是TensorRT模型，能够降低模型应用过程的资源占用，提高整个敏感图像识别系统的运行速度。

本发明提出了一种基于多模态、多通道的敏感图片识别系统，该系统融合了OCR文字识别技术、词检索技术、人脸识别技术、图文多模态识别技术等，高效地从多个模态出发获得较为准确的识别结果。另外，该系统采用的模型能够实现细粒度识别、多标签识别，能够实现敏感图片的精细化分类。可以简捷、高效的应用于现有的网络图片审核场景中，极大地节约人力审核的开支、提升审核的质量与效率，为构建绿色健康的网络氛围提供强有力的支持。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。

图15为本申请一个实施例的图片识别装置的方框示意图。

如图15所示，图片识别装置包括：敏感人物检测单元1501、多模态检测单元1502以及识别单元1503。

敏感人物检测单元1501，用于对目标图片进行人脸识别，根据人脸识别的结果对所述目标图片进行敏感人物检测；

多模态检测单元1502，用于对所述目标图片进行多模态检测，所述多模态检测包括敏感文本检测、图文融合检测以及敏感图像检测中的至少一项；其中，敏感文本检测用于对目标图片进行文本识别，并基于识别到的文本判断目标图片是否包含敏感文本；敏感图像检测用于提取目标图片的图像特征，并基于图像特征确定目标图片的敏感类型以及目标图片在敏感类型下的敏感属性；图文融合检测用于对目标图片的图像特征和文本特征进行融合处理，基于融合处理的结果检测目标图片是否敏感。

识别单元1503，用于根据所述敏感人物检测的结果以及所述多模态检测的结果确定所述目标图片是否为敏感图片。

在一些实施例中，多模态检测单元1502具体用于，将所述目标图片输入检测模型，获得所述检测模块的输出结果；所述输出结果包括所述目标图片对应的敏感类型，以及所述目标图片在所述敏感类型下的多个敏感属性。检测模型用于提取目标图片的图像特征，根据提取到的图像特征确定目标图片的敏感类型以及目标图片在该敏感类型下的敏感属性。

在一些实施例中，参考图16，图片识别装置还包括训练单元1504。训练单元1504具体用于，基于训练样本集，以损失函数最小为目的进行模型训练，获得所述检测模型；

在一些实施例中，所述第一子函数、所述第二子函数以及所述损失函数之间满足以下关系式：

Y＝w₁*y₁+w₂*y₂+λ||w₁-w₂-α||²；

在一些实施例中，训练单元1504还用于，根据业务需求确定图片敏感类型与图片敏感属性的重要度比例；

在一些实施例中，多模态检测单元1502具体用于，利用所述检测模型中的卷积网络对所述目标图片进行特征提取，获得多个特征图；

在一些实施例中，多模态检测单元1502还用于，对所述卷积网络中的深层网络输出的特征图进行放大处理，并将获得的特征图与浅层网络输出的特征图进行融合，以更新所述深层网络输出的特征图；

在一些实施例中，训练单元1504还用于，对原始训练样本集中的每一样本图片进行图像处理，获得所述样本图像对应的多个扩充样本；

在一些实施例中，训练单元1504还用于，对所述训练样本集中的原始训练样本进行分块处理，获得多个图像块，对所述多个图像块进行顺序合并，获得正序样本，对所述多个图像块进行乱序合并，获得乱序样本；

在一些实施例中，多模态检测单元1502具体用于，对所述目标图片进行特征向量提取，获得视觉编码向量以及文本编码向量；

基于所述融合向量识别所述目标图片是否敏感。

在一些实施例中，识别单元1503具体用于，所述根据所述敏感人物检测的结果以及所述多模态检测的结果确定所述目标图片是否为敏感图片，包括：

在一些实施例中，多模态检测单元1502具体用于，若所述目标图片中包含文本，则对所述目标图片中的文本进行敏感文本检测；若所述文本通过所述敏感文本检测，则对所述目标图片进行所述敏感图像检测以及所述图文融合检测中的至少一项；若所述文本未通过所述敏感文本检测，则终止对所述目标图片的检测；

在一些实施例中，敏感人物检测单元1501具体用于，所述对目标图片进行人脸识别，根据人脸识别的结果对所述目标图片进行敏感人物检测，包括：

对所述目标图片进行人脸识别，获得人脸特征；

本申请实施例提出的图片识别装置，可以结合多模态的识别结果判断图片是否敏感，相比现有技术单纯依靠人体暴露占比来识别敏感图片的方案，基于多个模态的特征能够更为精准、全面地把握图片的整体内容，获得更为准确的识别结果，从而大大提升了敏感图片的识别准确度。还可以应用于网络图片审核系统中，对网络视频类素材中的敏感内容(例如，低俗色情、暴力、血腥等)进行准确的识别、判断，极大地提升审核的质量与效率，为构建绿色健康的网络氛围提供强有力的支持。

应当理解，图片识别装置中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于图片识别装置及其中包含的单元，在此不再赘述。图片识别装置可以预先实现在计算机设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到计算机设备的浏览器或其安全应用中。图片识别装置中的相应单元可以与计算机设备中的单元相互配合以实现本申请实施例的方案。

在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

需要说明的是，本申请实施例的图片识别装置中未披露的细节，请参照本申请上述实施例中所披露的细节，这里不再赘述。

下面参考图17，图17示出了适于用来实现本申请实施例的计算机设备的结构示意图，如图17所示，计算机系统1700包括中央处理单元(CPU)1701，其可以根据存储在只读存储器(ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。在RAM1703中，还存储有系统的操作指令所需的各种程序和数据。CPU1701、ROM1702以及RAM1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。

以下部件连接至I/O接口1705；包括键盘、鼠标等的输入部分1706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1707；包括硬盘等的存储部分1708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1710上，以便于从其上读出的计算机程序根据需要被安装入存储部分1708。

特别地，根据本申请的实施例，上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1709从网络上被下载和安装，和/或从可拆卸介质1711被安装。在该计算机程序被中央处理单元(CPU)1701执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连接表示的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括敏感人物检测单元、多模态检测单元以及识别单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的计算机设备中所包含的，也可以是单独存在，而未装配入该计算机设备中的。上述计算机可读存储介质存储有一个或多个程序，当上述程序被一个或者一个以上的处理器用来执行本申请所述的图片识别方法。例如，可以执行图2所示的图片识别方法的各个步骤。

本申请实施例提供一种计算机程序产品，该计算机程序产品包括指令，当该指令被运行时，使得如本申请实施例描述的方法被执行。例如，可以执行图2所示的图片识别方法的各个步骤。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图片识别方法，其特征在于，包括：

对目标图片进行人脸识别，根据人脸识别的结果对所述目标图片进行敏感人物检测；

对所述目标图片进行多模态检测，所述多模态检测包括敏感文本检测、图文融合检测以及敏感图像检测中的至少一项；所述敏感文本检测用于对所述目标图片进行文本识别，并基于识别到的文本判断所述目标图片是否包含敏感文本；所述敏感图像检测用于提取所述目标图片的图像特征，并基于所述图像特征确定所述目标图片的敏感类型以及所述目标图片在所述敏感类型下的敏感属性；所述图文融合检测用于对所述目标图片的图像特征和所述目标图片的文本特征进行融合处理，基于融合处理的结果检测所述目标图片是否敏感；

根据所述敏感人物检测的结果以及所述多模态检测的结果确定所述目标图片是否为敏感图片。

2.根据权利要求1所述的方法，其特征在于，所述敏感图像检测，包括：

将所述目标图片输入检测模型，获得所述检测模块的输出结果；所述检测模型用于提取所述目标图片的图像特征，并基于所述目标图片的图像特征确定所述输出结果；所述输出结果包括所述目标图片对应的敏感类型，以及所述目标图片在所述敏感类型下的多个敏感属性。

3.根据权利要求2所述的方法，其特征在于，所述检测模型的训练过程，包括：

基于训练样本集，以损失函数最小为目的进行模型训练，获得所述检测模型；

4.根据权利要求3所述的方法，其特征在于，所述第一子函数、所述第二子函数以及所述损失函数之间满足以下关系式：

5.根据权利要求3所述的方法，其特征在于，所述第一子函数、所述第二子函数以及所述损失函数之间满足以下关系式：

Y＝w₁*y₁+w₂*y₂+λ||w₁-w₂-α||²；

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

根据业务需求确定图片敏感类型与图片敏感属性的重要度比例；

7.根据权利要求2所述的方法，其特征在于，将所述目标图片输入检测模型，获得所述第一检测模块的输出结果，包括：

利用所述检测模型中的卷积网络对所述目标图片进行特征提取，获得多个特征图；

8.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述检测模型的卷积网络中的深层网络输出的特征图进行放大处理，并将获得的特征图与浅层网络输出的特征图进行融合，以更新所述深层网络输出的特征图；

9.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对原始训练样本集中的每一样本图片进行图像处理，获得所述样本图像对应的多个扩充样本；

10.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对所述训练样本集中的原始训练样本进行分块处理，获得多个图像块，对所述多个图像块进行顺序合并，获得正序样本，对所述多个图像块进行乱序合并，获得乱序样本；

11.根据权利要求1所述的方法，其特征在于，所述图文融合检测，包括：

对所述目标图片包含的图像进行编码处理，获得视觉编码向量；

对所述目标图片包含的文本进行编码处理，获得文本编码向量；

基于所述融合向量识别所述目标图片是否敏感。

12.根据权利要求1所述的方法，其特征在于，所述根据所述敏感人物检测的结果以及所述多模态检测的结果确定所述目标图片是否为敏感图片，包括：

13.根据权利要求1所述的方法，其特征在于，所述对所述目标图片进行多模态检测，包括：

若所述目标图片中包含文本，则对所述目标图片中的文本进行敏感文本检测；若所述文本通过所述敏感文本检测，则对所述目标图片进行所述敏感图像检测以及所述图文融合检测中的至少一项；若所述文本未通过所述敏感文本检测，则终止对所述目标图片的检测；

14.根据权利要求1所述的方法，其特征在于，所述对目标图片进行人脸识别，根据人脸识别的结果对所述目标图片进行敏感人物检测，包括：

对所述目标图片进行人脸识别，获得人脸特征；

15.一种图片识别装置，其特征在于，包括：

敏感人物检测单元，用于对目标图片进行人脸识别，根据人脸识别的结果对所述目标图片进行敏感人物检测；

多模态检测单元，用于对所述目标图片进行多模态检测，所述多模态检测包括敏感文本检测、图文融合检测以及敏感图像检测中的至少一项；所述敏感文本检测用于检测所述目标图片是否包含敏感文本；所述敏感图像检测用于检测所述目标图片是否包含敏感图像；所述图文融合检测用于对所述目标图片包含的文本以及图像进行融合处理，基于融合处理的结果检测所述目标图片是否敏感；

识别单元，用于根据所述敏感人物检测的结果以及所述多模态检测的结果确定所述目标图片是否为敏感图片。

16.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1-14任一项所述的图片识别方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-14中任一所述的图片识别方法。

18.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令被运行时，使得如权利要求1至14任一项所述的方法被执行。