CN112016345A

CN112016345A - 一种图像识别方法和装置

Info

Publication number: CN112016345A
Application number: CN201910451827.7A
Authority: CN
Inventors: 卢建东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2020-12-01

Abstract

本申请实施例公开了一种图像识别方法和装置，针对待识别图像，确定其中是否包括人像区域，若包括人像区域，判断人像区域中是否仅包括非低俗对象，若并非仅仅包括非低俗对象，根据分类模型识别待识别图像的人像区域中是否包括低俗内容，根据识别结果确定待识别图像是否为低俗图像。由于低俗图像的特点多为包括暴露的人像部位，即均有人像区域，故通过识别图像中是否包括人像区域，有效筛除了完全不包括人像的待识别图像，避免分类模型对这类图像进行识别而出现误判。而且，低俗图像中暴露的人像部位较为特定，故通过判断人像区域中的非低俗对象，有效筛除了完全不具有前述特定人像部位的待识别图像，避免分类模型对这类图像进行识别而出现误判。

Description

一种图像识别方法和装置

技术领域

本申请涉及图像处理领域，特别是涉及一种图像识别方法和装置。

背景技术

随着互联网的发展，图像可以便捷的在网络上传播。用户可以方便的在网络上浏览其他用户分享、发布各类图像、或者被推送包括图像的各类广告。

然而，一些别有用心的用户可能会借此在网络上传播包含低俗内容的图像，这类图像在网络上的扩散会对浏览这类图像的用户带来不良影响或诱导。为此，为了净化网络环境，需要对这类图像准确的识别、过滤。

目前传统的图像过滤方式主要使用二分类模型，直接将网络中获取的图像输入分类器，然后二分类模型预测该图像的是否包括低俗内容。然而，这种方式准确性并不高，容易出现误判。

发明内容

为了解决上述技术问题，本申请提供了一种图像识别方法和装置，可以减少分类模型对图像的误判。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种图像识别方法，所述方法包括：

确定待识别图像中是否包括人像区域；

若是，判断所述人像区域中是否仅包括非低俗对象；

若否，根据分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容；

根据识别结果确定所述待识别图像是否为低俗图像。

第二方面，本申请实施例提供了一种图像识别装置，所述装置包括第一确定单元、判断单元、识别单元和第二确定单元：

所述第一确定单元，用于确定待识别图像中是否包括人像区域；

所述判断单元，用于若是，判断所述人像区域中是否仅包括非低俗对象；

所述识别单元，用于若否，根据分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容；

所述第二确定单元，用于根据识别结果确定所述待识别图像是否为低俗图像。

第三方面，本申请实施例提供了一种用于图像识别的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的图像识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的图像识别方法。

由上述技术方案可以看出，针对待识别图像，确定待识别图像中是否包括人像区域，若包括人像区域，判断所述人像区域中是否仅包括非低俗对象，若并非仅仅包括非低俗对象，根据分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容，根据识别结果确定所述待识别图像是否为低俗图像。由于低俗图像的特点多为包括暴露的人像部位，即均有人像区域，故通过识别图像中是否包括人像区域，有效了筛除了完全不包括人像的待识别图像，避免分类模型对这类图像进行识别而出现误判。而且，低俗图像中暴露的人像部位较为特定，故通过判断人像区域中的非低俗对象，有效了筛除了完全不具有前述特定人像部位的待识别图像，避免分类模型对这类图像进行识别而出现误判。除此之外，分类模型主要根据待识别图像中的人像区域进行低俗识别，进一步的过滤了待识别图像中其他背景信息对识别带来的干扰，提高了识别精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种通过二分类模型识别图像的方法示意图；

图2为一种通过二分类模型被误判为低俗图像的示例图；

图3为本申请实施例提供的一种图像识别方法的应用场景示意图；

图4为本申请实施例提供的一种图像识别方法的流程图；

图5为本申请实施例提供的一种检测人像区域的方法示意图；

图6为本申请实施例提供的一种识别人像区域中非低俗对象的方法示意图；

图7为本申请实施例提供的一种识别人像区域中非低俗对象的方法示意图；

图8为本申请实施例提供的一种向审核人员发送的待识别图像属于低俗图像的提示信息示意图；

图9为本申请实施例提供的一种摘要信息的匹配方法流程图；

图10为本申请实施例提供的一种图像识别方法流程图；

图11为本申请实施例提供的一种三种不同图像识别模型的识别结果对比图；

图12为本申请实施例提供的一种图像识别装置的结构图；

图13为本申请实施例提供的一种用于图像识别的设备的结构图；

图14为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

目前，主要通过二分类模型来预测图像中是否包括低俗内容。参见图1，该图示出了一种通过二分类模型识别图像的方法示意图。如图1所示，通过二分类模型识别图像是否为低俗图像的方法为：将图像输入至二分类模型中，二分类模型对该图像进行识别，并输出识别结果。其中，当识别结果为图像属于低俗图像时，可以提示审核人员；当识别结果为该图像属于非低俗图像(正常图像)时，可以令其正常通过。然而，这种方式准确性并不高，容易出现误判。比如：在通过二分类模型对一些不包括低俗内容的图像进行识别时，可能将这些图像预测为低俗图像。参见图2，该图示出了一种通过二分类模型被误判为低俗图像的示例图。

为此，本申请实施例提供了一种图像识别方法，主要通过多层级过滤的方式，以在每一层级相应的过滤掉那些不包括低俗内容的图像，从而避免了分类模型对这些类型图像的误判。此外，对于未被过滤掉的待识别图像，在为待识别图像通过分类模型进行低俗识别时，分类模型可以主要根据待识别图像中的人像区域进行低俗识别，从而进一步过滤了待识别图像中其他背景信息对识别带来的干扰，提高了识别精度。

首先，对本申请实施例的应用场景进行介绍。本申请实施例提供的图像识别方法可以应用到服务器中，所述服务器可以是仅用于图像识别的专用服务器，所述服务器也可以是还包含其它数据处理功能的公用服务器，本申请实施例不做限定。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的图像识别方法进行介绍。

参见图3，该图示出了本申请实施例提供的一种图像识别方法的应用场景示意图。该应用场景中包括服务器301。由于低俗图像的特点多为包括暴露的人像部位。也就是说，低俗图像中应当包括人像区域。其中，所述人像区域可以是包括完整人像或部分人像(包括一个或多个人像部位)的图像区域。

基于此，首先，服务器301可以确定待识别图像中是否包括人像区域。如果待识别图像中包括人像区域，则表明该待识别图像有可能为低俗图像，为其进行接下来的图像的低俗识别步骤。如果待识别图像中不包括人像区域，可以表明该待识别图像不可能为低俗图像，将该待识别图像确定为非低俗图像，并进行过滤。这样，通过仅针对包括人像区域的待识别图像进行图像的低俗识别，而将那些完全不包括人像的待识别图像进行过滤，由此可以避免分类模型对这种不包括人像的待识别图像的误判。

比如：针对于图2所示的图像，由于其中不包括人像区域，因此通过该步骤，可以将图2所示的图像进行过滤，从而避免了分类模型对这种不包括人像的待识别图像的误判。

接下来，由于低俗图像中暴露的人像部位较为特定。因此，对于确定出的包括人像区域的待识别图像，可以针对该待识别图像中的人像区域，确定其中是否仅包括非低俗对象。这里所述的非低俗对象可以包括不属于低俗内容的对象，比如非低俗对象可以是头部等。

如果确定出待识别图像的人像区域中仅包括这样的非低俗对象，则可以表明该待识别图像的人像区域中完全没有具有前述的特定人像部位的可能性，由此可以确定该待识别图像为非低俗图像(正常图像)，并进行过滤。如果确定出该待识别图像的人像区域中并非仅包括非低俗对象，即该待识别图像的人像区域中除了非低俗对象外还包括有其他的人像部位，则可以表明该待识别图像中可能包括前述的特定人像部位，为其进行接下来的图像的低俗识别步骤。

这样，如果待识别图像的人像区域中仅包括这样的非低俗对象，则可以确定该待识别图像的人像区域中完全不具有前述的特定人像部位。由此，可以将这样的人像区域中仅包括非低俗对象的待识别图像进行有效的过滤，由此避免了分类模型对这种待识别图像的误判。

最后，对于经过前述过滤步骤的未被过滤的待识别图像，可以通过分类模型对其进行低俗识别，并根据识别结果确定该待识别图像是否为低俗图像。其中，在通过分类模型对该待识别图像进行识别时，由于主要是根据待识别图像中的人像区域进行低俗识别的，因此可以进一步的过滤待识别图像中其他背景信息对识别带来的干扰，提高了识别精度。

接下来，将结合附图对本申请实施例提供的图像识别方法进行介绍。

参见图4，该图示出了一种图像识别方法的流程图，所述方法包括：

S401：确定待识别图像中是否包括人像区域,若是，执行S402。

在本申请实施例中，对于待识别图像，可以确定其中是否包括人像区域，如果确定其中包括人像区域，执行S302。如果确定其中不包括人像区域，则可以确定其为正常图像，令其正常通过。

具体实现中，可以基于卷积神经网络的图像检测模型，以及单发多盒检测(SingleShot MultiBox Detection，SSD)算法，构建用于人物检测的神经网络模型，使其能够实现从输入图像中检测人像区域的功能。并将该构建出的用于人物检测的神经网络模型作为人物检测模块。

其中，参见图5，该图示出了本申请实施例提供的一种检测人像区域的方法示意图。如图5所示，可以将待识别图像输入至该人物检测模块中，如果人物检测模块在该待识别图像中检测到人像区域，则可以将该人像区域框出，并进行接下来的S402的处理。如果未在该待识别图像中检测到人像区域，则可以确定该待识别图像中不存在人物，将其确定为非低俗图像(正常图像)，并令其自动通过。

通过将那些完全不包括人像的待识别图像进行过滤，可以避免分类模型对这种待识别图像的误判。

S402：判断人像区域中是否仅包括非低俗对象，若否，执行S403。

其中，所述非低俗对象可以包括不属于低俗内容的对象，实际场景中，比如人体的头部、手部、脚步等都可以属于非低俗对象。此外，虽然孕妇和婴儿这两种人像中可能会出现前述特定人像部位的裸露，比如孕妇的腹部，但是这两种人像不属于低俗内容。基于此，在一种可能的实现方式中，所述非低俗对象可以包括孕妇、婴儿、人体的头部、手部或脚部中的任意一种或多种的组合。

由于低俗图像中暴露的人像部位较为特定，因此，在确定出待识别图像中包括人像区域后，可以判断该人像区域中是否仅包括非低俗对象。如果确定出该待识别图像的人像区域中仅包括非低俗对象，则可以确定该待识别图像为非低俗图像，令其正常通过。如果确定出该待识别图像的人像区域中并非仅包括非低俗对象，则为其进行接下来的S403的处理。

在具体实现中，针对于孕妇或和婴儿这两种特殊人物，可以相应的构建特殊人物分类模型，以使其能够实现从人像区域中识别出孕妇或婴儿的功能。此外，还可以构建人体部位分类模型，以使其能够实现从人像区域中识别出人体各个部位的功能。其中，针对于特殊人物分类模型和人体部位分类模型，它们都可以是基于50层的卷积神经网络的图片分类模型中训练得到的。

基于此，参见图6，该图示出了本申请实施例提供的一种识别人像区域中非低俗对象的方法示意图。如图6所示，可以将待识别图像分别输入至特殊人物分类模型和人体部位分类模型中，其中，特殊人物分类模型在对待识别图像进行识别后，如果确定出该待识别图像的人像区域包括婴儿或孕妇，可以将婴儿或孕妇确定为等非低俗对象，人体部位分类模型在对待识别图像进行识别后，如果确定出该待识别图像的人像区域包括人体头部、手部、脚部、腿部等，可以将人体头部、手部、脚部、腿部等确定为非低俗对象。

这样，可以根据特殊人物分类模型和人体部位分类模型分别对待识别图像中人像区域的识别结果，对该待识别图像进行决策，确定该待识别图像中是否仅包括非低俗对象，若是，即该待识别图像的人像区域中仅包括非低俗对象，则确定该待识别图像为非低俗图像，并令其自动通过，以进行之后的步骤。

如果根据特殊人物识别模型和人体部位识别模型确定出该待识别图像的人像区域中并非仅包括非低俗对象，则为该待识别图像进行接下来的S403的处理。

通过将这样的人像区域中仅包括非低俗对象的待识别图像进行有效的过滤，由此避免了分类模型对这种待识别图像的误判。

S403：根据分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容。

如果待识别图像在经过S401-S402后未被过滤，则可以通过分类模型对该待识别图像进行识别，并得到识别结果。其中，所述识别结果可以是待识别图像的人像区域中是否包括低俗内容的结果，比如识别结果可以是：待识别图像包括低俗内容，或者，待识别图像不包括低俗内容。

S404：根据识别结果确定所述待识别图像是否为低俗图像。

在本申请实施例中，可以根据识别结果，确定该待识别图像是否为低俗图像。比如若识别结果为待识别图像包括低俗内容，则可以根据该识别结果确定待识别图像为低俗图像；若识别结果为待识别图像不包括低俗内容，则可以根据该识别结果确定待识别图像是非低俗图像。

在本申请实施例中，主要是根据待识别图像中的人像区域进行低俗识别的，由此可以进一步的过滤待识别图像中其他背景信息对识别带来的干扰，提高了识别精度。

综上所述，针对待识别图像，确定待识别图像中是否包括人像区域，若包括人像区域，判断所述人像区域中是否仅包括非低俗对象，若并非仅仅包括非低俗对象，根据分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容，根据识别结果确定所述待识别图像是否为低俗图像。由于低俗图像的特点多为包括暴露的人像部位，即均有人像区域，故通过识别图像中是否包括人像区域，有效了筛除了完全不包括人像的待识别图像，避免分类模型对这类图像进行识别而出现误判。而且，低俗图像中暴露的人像部位较为特定，故通过判断人像区域中的非低俗对象，有效了筛除了完全不具有前述特定人像部位的待识别图像，避免分类模型对这类图像进行识别而出现误判。除此之外，分类模型主要根据待识别图像中的人像区域进行低俗识别，进一步的过滤了待识别图像中其他背景信息对识别带来的干扰，提高了识别精度。

为了使得待识别图像的识别结果具有解释性，在一种可能的实现方式中，针对于S403中的分类模型可以包括真人分类模型和非真人分类模型。其中，所述真人分类模型可以用于为对应于真实人物的人像区域进行识别；所述非真人分类模型可以用于为对应于非真实人物的人像区域进行识别。比如非真实人物可以是动漫人物、游戏人物等。则，对于S403的方法可以包括：

S501：判断人像区域中包括的图像内容对应真人还是非真人，若对应真人，执行S502，若对应非真人，执行S503。

S502：根据真人分类模型识别待识别图像的人像区域中是否包括低俗内容。

S503：根据非真人分类模型识别待识别图像的人像区域中是否包括低俗内容。

在本申请实施例中，可以判断待识别图像的人像区域中所包括的图像内容对应真人还是非真人，如果对应真人，执行S502，即：根据真人分类模型识别待识别图像的人像区域中是否包括低俗内容，并得到识别结果。如果对应非真人，执行S503，即根据非真人分类模型识别待识别图像的人像区域中是否包括低俗内容，并得到识别结果。

这样，可以使得待识别图像的识别结果具有解释性，即：如果对待识别图像进行了误判，可以确定此次误判属于真人误判或是非真人误判。

下面以非真人为动漫人物(非真人分类模型对应于动漫分类模型)为例，对S501-S503对应的具体实现方式进行说明：

在本申请实施例中，可以预先构建一个真人/动漫分类模型，使其可以实现区分人像区域中的图像内容对应真人或是动漫人物的功能。以及，可以预先构建一个真人分类模型，使其可以实现为对应真人的人像区域识别其中是否包括低俗内容的功能。还可以预先构建一个动漫分类模型，使其可以实现为对应动漫人物的人像区域识别其中是否包括低俗内容的功能。

参见图7，该图示出了本申请实施例提供的一种根据真人分类模型或者动漫分类模型识别待识别图像的方法流程图。如图7所示，针对于S501，可以将待识别图片输入到真人/动漫分类模型中，以识别该待识别图像的人像区域中图像内容对应真人或是动漫人物，若确定该人像区域的图像内容对应于真人，则可以将该待识别图像输入至真人分类模型中进行识别。

如果真人分类模型对该待识别图像进行识别后的识别结果为：该待识别图像的人像区域中包括低俗内容，则可以在待识别图像中框出其中的低俗图像区域，并对该低俗图像区域的低俗程度进行打分，从而得到该待识别图像的低俗分数。进而，在S404中，根据该识别结果确定出该待识别图像为低俗图像。其中，该低俗得分可以用于标识该待识别图像的低俗程度，低俗分数越高，表明该待识别图像的低俗程度越深。如果真人分类模型对该待识别图像进行识别后的识别结果为：该待识别图像的人像区域中不包括低俗内容，则可以在S404中，以此将该待识别图像确定为非低俗图像。

此外，若真人/动漫分类模型确定该人像区域的图像内容对应于动漫人物，则可以将该待识别图像输入至动漫分类模型中进行识别。相应的，如果动漫分类模型对该待识别图像进行识别后的识别结果为：该待识别图像的人像区域中包括低俗内容，则可以在待识别图像中框出其中的低俗图像区域，并对该低俗图像区域的低俗程度进行打分，从而得到该待识别图像的低俗分数。进而，在S404中，根据该识别结果确定出该待识别图像为低俗图像。如果动漫分类模型对该待识别图像进行识别后的识别结果为：该待识别图像的人像区域中不包括低俗内容，则可以在S404中，以此将该待识别图像确定为非低俗图像。

在具体实现中，本申请实施例提供的图像识别方法可以应用于广告审核系统中。这样，如果确定待识别图像为非低俗图像后，可以将其自动通过，以进行之后的检测步骤。审核人员可以对正常图像不再进行进一步的审核。若确定待识别图像为低俗图像，可以向审核人员发送该待识别图像属于低俗图像的提示信息，该提示信息可以包括：待识别图像中包括的低俗内容的信息、待识别图像(其中框出了低俗图像区域)以及该待识别图像的低俗得分。由此，审核人员可以根据其中框出的低俗图像区域进行审核，提升了审核效率。

举例来说，参见图8，该图示出了本申请实施例提供的一种向审核人员发送的待识别图像属于低俗图像的提示信息示意图。如图8所示，在图8的左下方示出了“动漫人物低俗”的信息(待识别图像中包括的低俗内容的信息)，图8中的黑色实线框划分出了该待识别图像中的低俗图像区域，以及，在图8的右下方示出了该待识别图像的低俗得分为0.999。可见，审核人员可以根据该提示信息进行判断，提高了审核效率。

在本申请实施例中，为了避免对相同的图像进行重复的图像识别，在一种可能的实现方式中，针对于已经进行图像识别、且识别结果为低俗图像的每一个图像(比如用于训练神经网络模型的训练图像，以及在此之前已经完成图像识别的图像)，可以对这样的图像的摘要信息以及对它的识别结果进行存储，从而形成一个摘要集合。其中，所述图像的摘要信息可以是用于标识该图像的信息。这样，形成的摘要集合中的图像摘要信息可以为已识别为低俗图像的摘要信息。

基于此，对于当前的待识别图像来说，在进行S401之前，所述方法还可以包括：

S601：确定所述待识别图像的目标摘要信息。

其中，可以确定该待识别图像的摘要信息，并将该摘要信息作为该待识别图像的目标摘要信息。

S602：根据所述目标摘要信息匹配摘要集合中的图像摘要信息，若与已识别为低俗图像的摘要信息相匹配，执行S603，若与已识别为低俗图像的摘要信息不相匹配，执行S604，所述摘要集合中的图像摘要信息为已识别为低俗图像的摘要信息。

S603：确定所述待识别图像为低俗图像。

S604：执行所述确定待识别图像中是否包括人像区域的步骤。

在本申请实施例中，可以将该待识别图像的目标摘要信息与摘要集合中的图像摘要信息进行匹配，如果该目标摘要信息可以与某一个已识别为低俗图像的摘要信息相匹配，则表示待识别图像与该已被识别为低俗图像的图像属于同一张图像，因此，可以执行S603，即：可以确定该待识别图像为低俗图像。

如果该目标摘要信息未与该摘要集合中的全部已识别为低俗图像的摘要信息相匹配，可以表示当前未对与待识别对象相同的图像进行识别，则，可以执行S604，即：可以通过前述S401-S404的图像识别方法对该待识别图像进行低俗识别。在对待识别图像通过S401-S404进行图像识别之后，在一种可能的实现方式中，如果根据识别结果确定待识别图像为低俗图像，可以将待识别图像的目标摘要信息加入摘要集合，便于之后的与该待识别图像相同的图像可以根据摘要集合进行图像识别，避免重复处理相同的图片，提高效率。

另外，在一种可能的实现方式中，针对于已经通过S401-S404的图像识别方法进行识别、且识别结果为非低俗图像(即正常图像)的每一个图像，也可以对该图像的摘要信息以及对它的识别结果进行存储，也就是说，摘要集合中的图像摘要信息还可以包括已识别为非低俗图像的摘要信息。

因此，针对于S602的方法还包括：

S605：确定所述待识别图像为非低俗图像。

在根据目标摘要信息匹配摘要集合中的图像摘要信息之后，若该目标摘要信息与已识别为非低俗图像的摘要信息相匹配，则表示待识别图像与该已被识别为非低俗图像的图像属于同一张图像，可以执行S605，即：可以确定该待识别图像为非低俗图像。以

如果该目标摘要信息未与该摘要集合中的摘要信息相匹配，可表示当前未对与待识别对象相同的图像进行识别，则，可以通过前述S401-S404的图像识别方法对该待识别图像进行低俗识别。相应的，在对待识别图像通过S401-S404进行图像识别之后，如果根据识别结果确定待识别图像为非低俗图像，可以将待识别图像的目标摘要信息加入摘要集合，便于之后的与该待识别图像相同的图像可以根据摘要集合进行图像识别，避免重复处理相同的图片，提高效率。

通过该种方式，在为每个待识别图像执行S401-S404的方法之前，可以将该待识别图像的目标摘要信息与摘要集合中的图像摘要信息进行匹配，以确定在此之前是否已经对该待识别图像进行了低俗识别。如果相匹配，则可以直接根据该相匹配的已识别为低俗图像(或者非低俗图像)的图像，确定该待识别图像为低俗图像(或者非低俗图像)，而无需对待识别图像进行S401-S404的识别，由此避免了重复处理相同的图片，提升了图像识别效率。

在具体实现中，针对于用于训练前述神经网络模型的训练图像，以及在此之前已经完成图像识别的图像，可以通过消息摘要算法5(Message Digest Algorithm 5，MD5)对这些图像中的每个图像确定一个128位的散列值，作为该图像的键(key)，并对该图像的识别结果作为该图像的值(value)，从而形成一个哈希表。其中，MD5算法可以是一种被广泛使用的密码散列函数，它可以用于确保信息传输的完整一致。

在本申请实施例中，可以将该形成的哈希表作为摘要集合，其中的每个图像的key作为每个图像的摘要信息。

基于此，参见图9，该图示出了本申请实施例提供的一种摘要信息的匹配方法流程图，如图9所示，针对于待识别图像，在为其执行S401的方法之前，可以先通过MD5算法计算该待识别图像的128位的散列值，并将该散列值作为该待识别图像的目标摘要信息，根据该目标摘要信息，在摘要集合中与其中的已完成图像识别的图像的摘要信息进行匹配，如果匹配不成功，则为该待识别图像通过S401-S404的图像识别方法进行识别。如果匹配成功，可以根据该匹配的已完成图像识别的图像的识别结果(value)，确定该待识别图像是否为低俗图像。其中，若该相匹配的已完成图像识别的图像的识别结果为非低俗图像，确定该待识别图像为非低俗图像，若该相匹配的已完成图像识别的图像的识别结果为低俗图像，确定该待识别图像为低俗图像。

接下来，将结合实际应用场景对本申请实施例提供的图像识别方法进行介绍。参见图10，该图示出了本申请实施例提供的一种图像识别方法流程图，在该应用场景中，针对于当前的待识别图像，首先，可以将其对应的目标摘要信息与摘要集合中的图像摘要信息进行匹配，如果匹配成功，且目标摘要信息与其中的非低俗图像的摘要信息相匹配，则可以确当该待识别图像为非低俗图像(即正常图像)，并令其自动通过，以进行之后的步骤。如果匹配成功，且目标摘要信息与其中的低俗图像的摘要信息相匹配，则可以确当该待识别图像为低俗图像，并向审核人员发送该待识别图像属于低俗图像的提示信息，以使得审核人员进行进一步的审核。

如果未匹配成功，则可以将其中的人像区域框出，并将该待识别图像输入至人物检测模块，以确定其中是否包括人像区域，如果确定其中不包括人像区域，则可以确定其为正常图像，可以令其正常通过，以进行之后的步骤。

如果确定其中包括人像区域，则可以将该待识别图像分别输入至特殊人物分类模型和人体部位分类模型中，其中，特殊人物分类模型在对待识别图像进行识别后，如果确定出该待识别图像的人像区域包括婴儿或孕妇，可以将婴儿或孕妇确定为等非低俗对象，人体部位分类模型在对待识别图像进行识别后，如果确定出该待识别图像的人像区域包括人体头部、手部、脚部等，可以将人体头部、手部、脚部等确定为非低俗对象。这样，可以根据特殊人物分类模型和人体部位分类模型分别对待识别图像中人像区域的识别结果，对该待识别图像进行决策，确定该待识别图像中是否仅包括非低俗对象，若是，即该待识别图像的人像区域中仅包括非低俗对象，则确定该待识别图像为非低俗图像(正常图像)，并令其自动通过，以进行之后的步骤。

其中，通过特殊人物分类模型和人体部位分类模型对待识别图像的人像区域进行非低俗对象的检测，还可以实现对前述人物检测模型的检测结果进行两次校准(包括驳回人物检测模型的检测结果)。

若否，即确定该待识别图像的人像区域中并非仅包括非低俗对象，则可以将该待识别图片输入到真人/动漫分类模型中，以识别该待识别图像的人像区域中图像内容对应真人或是动漫人物，若确定该人像区域的图像内容对应于真人，则可以将该待识别图像输入至真人分类模型中进行识别。

如果真人分类模型识别该待识别图像中包括低俗内容，则可以在待识别图像中框出其中的低俗图像区域，并对该低俗图像区域的低俗程度进行打分，从而得到该待识别图像的低俗分数，以及在接下来的汇总判断中将该待识别图像确定为低俗图像。并如果真人分类模型识别该待识别图像中不包括低俗内容，则可以在接下来的汇总判断中将该待识别图像确定为非低俗图像(正常图像)，并令其自动通过，以进行之后的步骤。

若真人/动漫分类模型确定该人像区域的图像内容对应于动漫人物，则可以将该待识别图像输入至动漫分类模型中进行识别。相应的，如果动漫分类模型识别该待识别图像中包括低俗内容，则可以在待识别图像中框出其中的低俗图像区域，并对该低俗图像区域的低俗程度进行打分，从而得到该待识别图像的低俗分数，以及在接下来的汇总判断中将该待识别图像确定为低俗图像。如果动漫分类模型识别该待识别图像中不包括低俗内容，则可以在接下来的汇总判断中将该待识别图像确定为非低俗图像。

相比于目前的图像识别方法，本申请实施例提供的基于多级过滤的图像识别方法，可以有效减少误判概率，提高识别的准确率和召回率。

接下来，通过实验证明本申请实施例提供的图像识别方法的优势，可以预先构建一个广告图像的评测集，该广告图像的测评集中包括22008张正常图像和962张低俗图像。通过现有图像识别模型1、现有图像识别模型2和本申请实施例提供的图像识别模型3，以为该测评集中的图像进行识别。参见图11，该图示出了本申请实施例提供的三种不同图像识别模型的识别结果对比图。

如图11所示，在相同的召回率下，本申请实施例提供的图像识别模型3的识别准确率高于现有图像识别模型1和现有图像识别模型2的识别准确率。

本申请实施例提供的图像识别模型，可以应用于广告审核系统，它可以从全部广告图像中识别出2％的低俗图片，以提示审核人员进行进一步审核。其中，这2％的图片包含了全部广告图像中的90％的低俗图像，从而降低了审核人员98％的审核量。

接下来，对本申请实施例提供的神经网络模型的训练和用于训练的数据进行介绍。针对于本申请实施例中的各个神经网络模型，可以采用对每个模型进行单独训练及优化的方式，然后进行相应的连接，以应用于本申请实施例的技术方案。其中，针对于训练数据的获得，可以是从搜索引擎中通过检索关键词以拉取大量图像，并对它们通过人工标注，从而得到训练数据。在本申请实施例中，总共使用40万张图像，其中，使用2万张图像进行人物检测模块的模型训练。

在本申请实施例中，对模型的训练及优化方法可以基于深度学习框架(Convolutional Architecture For Fast Feature Embedding，caffe)，并使用随机梯度下降方法(Stochastic Gradient Descent，SGD)进行优化。

针对于特殊人物分类模型、人体部位分类模型等分类模型中的损失(Loss)函数，可以应用归一化指数损失(Softmax Loss)函数。其中，softmaxloss函数为：

针对于人物检测模块等检测模型中的Loss函数，可以应用softmax Loss函数和L1-loss函数的加权，即：L(x,c,l,g)＝1/N(L_conf(x,c)+αL_loc(x,l,g))，L1loss＝|f(x)-Y|。其中，L_conf(x,c)可以是指分类损失，应用Softmax Losss函数，L_loc(x,l,g)可以是指回归损失，应用L1-loss函数。α可以是指加权因子，用于平衡分类损失和回归损失。

基于前述实施例提供的一种图像识别方法，本申请实施例还提供一种图像识别装置，参见图12，该图示出了本申请实施例提供的一种图像识别装置的结构图，所述图像识别装置1200包括第一确定单元1201、判断单元1202、识别单元1203和第二确定单元1204：

所述第一确定单元1201，用于确定待识别图像中是否包括人像区域；

所述判断单元1202，用于若是，判断所述人像区域中是否仅包括非低俗对象；

所述识别单元1203，用于若否，根据分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容；

所述第二确定单元1204，用于根据识别结果确定所述待识别图像是否为低俗图像。

可选的，所述分类模型包括真人分类模型和非真人分类模型，所述识别单元1203，还具体用于：

判断所述人像区域中包括的图像内容对应真人还是非真人；

若对应真人，根据真人分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容；

若对应非真人，根据非真人分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容。

可选的，所述非低俗对象包括孕妇、婴儿、头部、手部或脚部中任意一种或多种的组合。

可选的，所述第一确定单元1201，还具体用于：

在所述确定待识别图像中是否包括人像区域之前，确定所述待识别图像的目标摘要信息；

根据所述目标摘要信息匹配摘要集合中的图像摘要信息，所述摘要集合中的图像摘要信息为已识别为低俗图像的摘要信息；

若与已识别为低俗图像的摘要信息相匹配，确定所述待识别图像为低俗图像；

若不匹配，执行所述确定待识别图像中是否包括人像区域的步骤。

可选的，所述第一确定单元1201，还具体用于：

若与已识别为非低俗图像的摘要信息相匹配，确定所述待识别图像为非低俗图像，所述摘要集合中的图像摘要信息还包括已识别为非低俗图像的摘要信息，。

可选的，所述第一确定单元1201，还具体用于：

若根据识别结果确定所述待识别图像为低俗图像，将所述待识别图像的目标摘要信息加入所述摘要集合。

综上，针对待识别图像，确定待识别图像中是否包括人像区域，若包括人像区域，判断所述人像区域中是否仅包括非低俗对象，若并非仅仅包括非低俗对象，根据分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容，根据识别结果确定所述待识别图像是否为低俗图像。由于低俗图像的特点多为包括暴露的人像部位，即均有人像区域，故通过识别图像中是否包括人像区域，有效了筛除了完全不包括人像的待识别图像，避免分类模型对这类图像进行识别而出现误判。而且，低俗图像中暴露的人像部位较为特定，故通过判断人像区域中的非低俗对象，有效了筛除了完全不具有前述特定人像部位的待识别图像，避免分类模型对这类图像进行识别而出现误判。除此之外，分类模型主要根据待识别图像中的人像区域进行低俗识别，进一步的过滤了待识别图像中其他背景信息对识别带来的干扰，提高了识别精度。

本申请实施例还提供了一种用于图像识别的设备，下面结合附图对用于图像识别的设备进行介绍。请参见图13所示，本申请实施例提供了一种用于视频剪辑的设备1300，该设备1300还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，简称RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity，简称WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路1310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1380处理；另外，将设计上行的数据发送给基站。通常，RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1341。进一步的，触控面板1031可覆盖显示面板1341，当触控面板1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图13中，触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经RF电路1310以发送给比如另一手机，或者将音频数据输出至存储器1320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

手机还包括给各个部件供电的电源1390(比如电池)，优选的，电源可以通过电源管理系统与处理器1380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1380还具有以下功能：

确定待识别图像中是否包括人像区域；

若是，判断所述人像区域中是否仅包括非低俗对象；

根据识别结果确定所述待识别图像是否为低俗图像。

本申请实施例提供的用于视频剪辑的设备可以是服务器，请参见图14所示，图14为本申请实施例提供的服务器1400的结构图，服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

确定待识别图像中是否包括人像区域；

若是，判断所述人像区域中是否仅包括非低俗对象；

根据识别结果确定所述待识别图像是否为低俗图像。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

确定待识别图像中是否包括人像区域；

若是，判断所述人像区域中是否仅包括非低俗对象；

根据识别结果确定所述待识别图像是否为低俗图像。

2.根据权利要求1所述的方法，其特征在于，所述分类模型包括真人分类模型和非真人分类模型，所述根据分类模型识别所述待识别图像的所述人像区域中是否包括低俗内容，包括：

判断所述人像区域中包括的图像内容对应真人还是非真人；

3.根据权利要求1所述的方法，其特征在于，所述非低俗对象包括孕妇、婴儿、头部、手部或脚部中任意一种或多种的组合。

4.根据权利要求1所述的方法，其特征在于，在所述确定待识别图像中是否包括人像区域之前，所述方法还包括：

确定所述待识别图像的目标摘要信息；

5.根据权利要求4所述的方法，其特征在于，所述摘要集合中的图像摘要信息还包括已识别为非低俗图像的摘要信息，

所述根据所述目标摘要信息匹配摘要集合中的图像摘要信息，包括：

若与已识别为非低俗图像的摘要信息相匹配，确定所述待识别图像为非低俗图像。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.一种图像识别装置，其特征在于，所述装置包括第一确定单元、判断单元、识别单元和第二确定单元：

8.根据权利要求7所述的装置，其特征在于，所述分类模型包括真人分类模型和非真人分类模型，所述识别单元，还具体用于：

判断所述人像区域中包括的图像内容对应真人还是非真人；

9.根据权利要求7所述的装置，其特征在于，所述非低俗对象包括孕妇、婴儿、头部、手部或脚部中任意一种或多种的组合。

10.根据权利要求7所述的装置，其特征在于，所述第一确定单元，还具体用于：