CN109522925A

CN109522925A - 一种图像识别方法、装置和存储介质

Info

Publication number: CN109522925A
Application number: CN201811163496.9A
Authority: CN
Inventors: 徐嵚嵛; 李琳; 周冰; 李敏
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-03-26
Anticipated expiration: 2038-09-30
Also published as: CN109522925B

Abstract

本发明公开了一种图像识别方法，包括：获得第一图像；基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果表征所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度；至少根据所述第一识别结果确定所述第一图像是否为目标类图像。本发明还公开了一种图像识别装置和计算机可读存储介质。

Description

一种图像识别方法、装置和存储介质

技术领域

本发明涉及场景识别技术，尤其涉及一种图像识别方法、装置和计算机可读存储介质。

背景技术

由于多媒体信息技术(例如：网络、智能手机等)的不断发展，游行、集会、抗议活动、暴乱等图像能够第一时间在网络上快速传播。为了不造成社会恐慌，探测出哪些活动具有暴力性质就变得非常有必要。

目前的场景识别方法只能对较为单一的场景进行判别，例如：游行、枪支等，而暴力场景却是多种多样的，但现有技术中还没有一种较完备的、能够针对不同的暴力场景的图片识别方法。

发明内容

有鉴于此，本发明的主要目的在于提供一种图像识别方法、装置和计算机可读存储介质。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供了一种图像识别方法，所述方法包括：

获得第一图像；

基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果包含所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度；

至少根据所述第一识别结果确定所述第一图像是否为目标类图像。

上述方案中，所述至少根据所述第一识别结果确定所述第一图像是否为目标类图像，包括：

确定所述第一识别结果符合第一预设条件时，确定所述第一图像为目标类图像；所述第一预设条件为所述第一识别结果中至少两个第一属性各自对应的置信度的和大于第一预设阈值；

确定所述第一识别结果不符合第一预设条件时，确定所述至少一个第一属性各自对应的权重，根据所述至少一个第一属性各自对应的置信度和权重，获得第一置信度；根据所述第一置信度确定所述第一图像是否为目标类图像。

上述方案中，所述获得第一置信度之后，所述方法还包括：

识别所述第一图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种情感类型和所述至少一种情感类型各自对应的置信度；

相应的，所述根据所述第一置信度确定所述第一图像是否为目标类图像，包括：

根据所述第一置信度和所述第二识别结果，确定所述第一图像是否为目标类图像。

上述方案中，所述根据所述第一置信度和所述第二识别结果，确定所述第一图像是否为目标类图像，包括：

确定所述第二识别结果符合第二预设条件时，确定所述第一图像为目标类图像；所述第二预设条件为所述第二识别结果中目标情感类型对应的置信度大于第二预设阈值；

确定所述第二识别结果不符合第二预设条件时，确定所述至少一种情感类型各自对应的权重，根据所述至少一种情感类型各自对应的权重和置信度，确定第二置信度；结合所述第一置信度和所述第二置信度，确定所述第一图像是否为目标类图像。

上述方案中，所述识别所述第一图像，获得第二识别结果，包括：

确定所述第一图像包含人脸时，从所述第一图像中提取至少一个人脸图像；基于预设的第二图像识别模型识别所述人脸图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种人脸情感类型和所述至少一种人脸情感类型各自对应的置信度；

确定所述第一图像不包含人脸时，从所述第一图像中提取场景特征；基于预设的第三图像识别模型识别所述场景特征，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种环境情感类型和所述至少一种环境情感类型各自对应的置信度。

上述方案中，所述方法还包括：生成第一图像识别模型；

所述生成第一图像识别模型，包括：

获取预设数量的样本图像，所述预设数量的样本图像中每个样本图像对应有至少一个第一属性；

根据所述预设数量的样本图像以及每个样本图像对应的至少一个第一属性进行基于卷积神经网络的学习训练，获得所述第一图像识别模型。

上述方案中，所述根据所述预设数量的样本图像以及每个样本图像对应的至少一个第一属性进行基于卷积神经网络的学习训练，包括：

设定所述卷积神经网络采用多标记分类Multi-label方式，且所述卷积神经网络的卷积层包括多个进行学习训练的卷积模块，不同的卷积模块对应不同的图像特征；

根据所述预设数量的样本图像，运用多个卷积模块对所述至少一个第一属性中的每个第一属性分别进行学习训练；

获得用于识别至少一个第一属性的所述第一图像识别模型。

本发明实施例提供了一种图像识别装置，所述装置包括：第一处理模块、第二处理模块和第三处理模块；其中，

所述第一处理模块，用于获得第一图像；

所述第二处理模块，用于基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果包含所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度；

所述第三处理模块，用于至少根据所述第一识别结果确定所述第一图像是否为目标类图像。

本发明实施例提供了一种图像识别装置，所述装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行以上所述的任意一种图像识别方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上所述的任意一种图像识别方法的步骤。

本发明实施例所提供的图像识别方法、装置和计算机可读存储介质，获得第一图像；基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果包含所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度；至少根据所述第一识别结果确定所述第一图像是否为目标类图像。本发明实施例中可以识别出图像的多种第一属性，根据识别结果确定是否为目标类图像，极大提高识别范围和识别准确率。

附图说明

图1为本发明实施例提供的一种图像识别方法的流程示意图；

图2为本发明实施例提供的另一种图像识别方法的流程示意图；

图3为本发明实施例提供的一种卷积神经网络的结构示意图；

图4为本发明实施例提供的一种Inception模块的结构示意图；

图5为本发明实施例提供的一种卷积流程示意图；

图6为本发明实施例提供的一种最大值池化流程示意图；

图7为本发明实施例提供的一种标定方法的流程示意图；

图8为本发明实施例提供的一种CNNs的结构示意图；

图9为本发明实施例提供的一种ResNet34的结构示意图；

图10为本发明实施例提供的一种降采样模块的结构示意图；

图11为本发明实施例提供的一种图像识别装置的结构示意图；

图12为本发明实施例提供的另一种图像识别装置的结构示意图。

具体实施方式

在本发明的各种实施例中，获得第一图像；基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果包含所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度；至少根据所述第一识别结果确定所述第一图像是否为目标类图像。

下面结合实施例对本发明再作进一步详细的说明。

图1为本发明实施例提供的一种图像识别方法的流程示意图；所述方法可以应用于图像识别设备中，所述图像识别设备可以为具有图像识别功能的服务器等；如图1所示，所述方法包括：

步骤101、获得第一图像。

这里，所述第一图像为待进行图像识别的图像。

所述第一图像可以是由所述图像识别设备从网络抓取的、由其他设备发送给所述图像识别设备或者所述图像识别设备本地存储的。

步骤102、基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果包含所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度。

具体地，所述第一属性可以包括：标语、爆炸火灾、执法者、大于20人团体、大于100人团体、旗帜、枪支、军事武器、血腥、尸体等图像中可见的某一物体或某一特征。

本实施例中，所述方法还包括：生成所述第一图像识别模型。具体来说，所述生成第一图像识别模型，包括：

获取预设数量的样本图像，所述预设数量的样本图像中每个样本图像对应有至少一个第一属性；根据所述预设数量的样本图像以及每个样本图像对应的至少一个第一属性进行基于卷积神经网络的学习训练，获得所述第一图像识别模型。

这里，可以通过网络爬虫或者预设的暴恐图像数据库获取预设数量的暴恐图像作为样本图像，通过人工质检筛除非暴恐图像，提高训练准确度。每个样本图像对应有至少一个第一属性，所述第一属性作为训练所需的标签。

本实施例中，针对每个样本图像可以同时对应多个第一属性，因此需对卷积神经网络进行调整，使得最终获得的第一图像识别模型可以识别多个属性。

具体来说，所述根据所述预设数量的样本图像以及每个样本图像对应的至少一个第一属性进行基于卷积神经网络的学习训练，包括：

设定所述卷积神经网络采用多标记分类(Multi-label)方式，且所述卷积神经网络的卷积层包括多个进行学习训练的卷积模块，不同的卷积模块对应不同的图像特征；根据所述预设数量的样本图像，运用多个卷积模块对所述至少一个第一属性中的每个第一属性分别进行学习训练；从而，获得用于识别至少一个第一属性的所述第一图像识别模型。这里，所述卷积神经网络可以为GoogLeNet网络。

步骤103、至少根据所述第一识别结果确定所述第一图像是否为目标类图像。

这里，所述目标类图像为具有暴力、恐怖色彩的暴恐图像。

本实施例中，所述至少根据所述第一识别结果确定所述第一图像是否为目标类图像，包括：

举例来说，所述第一预设条件可以为以下任意一种：

第一识别结果中有以上10种第一属性中的任意两种、且所述任意两种的第一属性对应的置信度之和大于1.4，则确定所述第一图像为目标类图像；

第一识别结果中有以上10种第一属性中的任意三种、且所述任意三种的第一属性对应的置信度之和大于1.8，则确定所述第一图像为目标类图像；

第一识别结果中有以上10种第一属性中的任意四种或四种以上、且所述任意四种或四种以上的第一属性对应的置信度均大于0.5，则确定所述第一图像为目标类图像。

具体地，所述根据所述至少一个第一属性各自对应的置信度和权重，获得第一置信度，包括：

确定所述至少一个第一属性各自对应的置信度为C₁、C₂、……、C_n；

确定所述至少一个第一属性各自对应的权重为w₁、w₂、……、w_n；

获得第一置信度为：C₁*w₁+C₂*w₂+……+C_n*w_n；其中，n为第一属性的类别数；w₁+w₂+……+w_n＝1。

本实施例中，考虑到仅根据第一属性判断所述第一图像是否为目标类图像的准确率，所述获得第一置信度之后，所述方法还包括：

识别所述第一图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种情感类型和所述至少一种情感类型各自对应的置信度。

相应的，所述根据所述第一置信度确定所述第一图像是否为目标类图像，包括：根据所述第一置信度和所述第二识别结果，确定所述第一图像是否为目标类图像。

这里，结合第一图像表现的情感类型(即第二识别结果)判断所述第一图像是否为目标类图像，以提高判定的准确度。

本实施例中，所述根据所述第一置信度和所述第二识别结果，确定所述第一图像是否为目标类图像，包括：

所述情感类型可以包括：高兴、难过、恐惧、愤怒、暴力等；所述暴力可以为目标情感类型。当确定暴力的置信度超过第二预设阈值时，则确定所述第二识别结果符合第二预设条件。

这里，所述第二预设阈值可以由图像识别设备的开发人员预先设定并保存，所述第二预设阈值可以为60％、70％等。

这里，所述根据所述至少一种情感类型各自对应的权重和置信度，确定第二置信度，包括：

确定所述至少一种情感类型各自对应的置信度为F₁、F₂、……、F_m；

确定所述至少一种情感类型各自对应的权重为v₁、v₂、……、v_m；

确定第二置信度为：F₁*v₁+F₂*v₂+……+F_m*v_m；其中，m为情感类型的类别数；v₁+v₂+……+v_m＝1。

本实施例中，所述结合所述第一置信度和所述第二置信度，确定所述第一图像是否为目标类图像，包括：

确定所述第一置信度对应的第一权重和所述第二置信度对应的第二权重；

根据所述第一置信度、所述第一权重、所述第二置信度和所述第二权重获得目标置信度，根据所述目标置信度确定所述第一图像是否为目标类图像。

这里，所述目标置信度为第一置信度和第一权重的乘积、与第二置信度和第二权重的乘积之和。所述第一权重和所述第二权重的取值可以由图像识别设备的开发人员预先设定并保存，所述第一权重和所述第二权重之和可以为1。

本实施例中，所述第一图像中可能包含人物(即可以检测到人脸)，则根据人脸可以获得人脸情感类型，作为第二识别结果。所述第二图像中也可能不存在人物(即无法检测到人脸)，则无法根据人脸获得人脸情感类型，此时，可以检测第一图像的环境，获得环境情感类型，作为第二识别结果；这里，不同环境表达的情感不同，例如处于花园中可以认为表达的情感为高兴，而处于战场，则认为表达的情感为暴力。

具体来说，所述识别所述第一图像，获得第二识别结果，包括：

这里，所述第二图像识别模型和所述第三图像识别模型可以由图像识别设备的开发人员预先训练并保存。所述第二图像识别模型可以提取人脸图像，并对所述人脸图像进行识别以确定人脸表现的情感类型；所述第三图像识别模型可以提取场景特征，并对所述场景特征进行识别以确定环境情感类型。

图2为本发明实施例提供的另一种图像识别方法的流程示意图；如图2所示，所述方法包括：

步骤201、采集预设数量的样本图像。

具体地，采集预设数量的暴恐图像作为所述样本图像。所述暴恐图像可以是具有暴力、恐怖色彩的图像。

步骤202、根据采集到的样本图像训练卷积神经网络，获得第一图像识别模型。

具体地，所述步骤202包括：确定样本图像对应的标签，所述标签包含标语、爆炸火灾、执法者、大于20人团体、大于100人团体、旗帜、枪支、军事武器、血腥、尸体等；将所述样本图像及其对应的标签输入卷积神经网络进行训练，获得第一图像识别模型。

这里，可以将样本图像的大小调整为224×224后，再输入卷积神经网络。所述卷积神经网络可以采用经可视化数据库(ImageNet)预训练过的GoogLeNet网络。GoogLeNet网络可以采用如图3所示的网络结构，其中Inception模块可以采用如图4所示的结构。

训练前，可以对预训练过的GoogLeNet网络进行微调(Finetune)，并设定GoogLeNet网络采用Multi-label分类方式(即类别之间是独立的但不要求是互斥)。具体可以将全连接层的激活函数归一化指数函数(softmax)改写为S型函数(Sigmoid)，损失函数采用加权交叉熵损失函数(sigmoidcrossentropy)，从而实现Multi-label的分类方式，获得一个可以识别多个类别或属性的分类器。

这里，Sigmoid函数具体如下：x_n经Sigmoid函数输出为1时的概率。

Sigmoidcrossentropy函数为：

所述对预训练过的GoogLeNet网络进行微调包括：

步骤001、在已训练的基础网络上改变网络结构。确定第一属性的类别数为10，则将GoogLeNet网络的全连接层的节点数设定为10；

步骤002、冻结平均池化层之前的网络的权重，即卷积核的系数在训练时不会变动；

步骤003、训练步骤001修改的部分网络，如上述全连接层；

步骤004、解冻GoogLeNet网络的Inception模块5a和5b；

步骤005、共同训练GoogLeNet网络的Inception模块5a、5b以及步骤001修改的全连接层。

卷积层中的低层编码具有通用、可重用的特征，而更高层的编码则更抽象且高层所得到的特征与需要处理的新问题紧密联系，因此，Finetune较高层的网络结构更有效。

卷积层是通过对图像进行卷积操作来提取图像特征。在卷积神经网络中，每个卷积层通常会包含多个可训练的卷积模板(即卷积核)，不同的卷积模板对应不同的图像特征。卷积核和输入图像进行卷积操作之后，经过非线性激活函数，如Sigmoid函数、修正线性单元(RELU，Rectified Linear Unit)函数、ELU函数等，便可以映射得到对应的特征图(Feature Map)。其中，卷积核的参数通常是采用特定的学习算法(如：随机梯度下降算法)计算得出的。所述卷积指的是用模板中的参数与图像对应位置的像素值进行加权求和的操作。一个典型的卷积过程可以如图5所示，通过滑动模板窗口，对输入图像中的所有位置进行卷积操作，之后便可以得到对应的特征图。

本实施例中，采用卷积神经网络作为基础，其优势在于：放弃传统神经网络中相邻层之间的“全连接”设计，采用局部连接和权值共享的方式，大大缩减需要训练的模型参数个数，减少计算量。所述局部连接指在卷积神经网络中每个神经元只与输入图像中的一个局部区域相连接，而不是与所有神经元全连接。所述权值共享指在输入图像的不同区域，共享连接参数(即卷积核参数)。另外，卷积神经网络的局部连接和权值共享的设计方式，使得网络提取出的特征具有高度的稳定性，对平移、缩放以及变形等不敏感。

池化层通常和卷积层成对出现，在卷积层之后，用来对输入特征图进行降采样操作。通常输入图像经过卷积操作后，会得到的大量特征图，特征维度过高会导致网络计算量剧增。池化层通过降低特征图的维度，大大减少了模型的参数个数。该方法一方面减少了网络运行的计算量，另一方面也降低了网络过拟合的风险。池化得到的特征图与卷积层的特征图是一一对应的，因此池化操作只是降低了特征图维度，其个数并没有变化。

本实施例中卷积神经网络所涉及的池化方法有：最大值池化(Max Pooling)、均值池化(Mean Pooling)和随机池化(Stochastic Pooling)。对于一个采样子区域来说，最大值池化指的是选取其中像素值最大的点作为该区域的输出结果；均值池化指的是计算其中所有像素点的均值，用该均值作为采样区域的输出；随机池化指的是从采样区域中随机选取一个像素值作为结果输出，通常像素值越大，被选择的几率就越高。最大值池化过程如下图6所示。

步骤203、获取待识别的目标图像，根据所述第一图像识别模型识别所述目标图像，获得第一识别结果。

这里，所述第一识别结果包含所述目标图像表现的至少一种第一属性，及各第一属性对应的置信度。

所述第一属性指图像中可见的某一物体或某一特征，包括以下10类：标语、爆炸火灾、执法者、大于20人团体、大于100人团体、旗帜、枪支、军事武器、血腥、尸体等；每种第一属性均可以对应输出一个置信度。

步骤204、判断所述第一识别结果是否符合第一预设条件；符合则确定目标图像为暴恐图像；不符合则进入步骤205。

具体地，所述目标图像符合第一预设条件，包括以下任意一种情况：

第一识别结果中有以上10种第一属性中的任意两种、且所述任意两种的第一属性的置信度之和大于1.4，则确定所述目标图像为暴恐图像；

第一识别结果中有以上10种第一属性中的任意三种、且所述任意三种的第一属性的置信度之和大于1.8，则确定所述目标图像为暴恐图像；

第一识别结果中有以上10种第一属性中的任意四种或四种以上、所述任意四种或四种以上的第一属性的置信度均大于0.5，则确定所述目标图像为暴恐图像。

步骤205、根据所述第一识别结果确定第一置信度。

这里，所述步骤205，包括：确定所述至少一个第一属性各自对应的权重，根据所述至少一个第一属性各自对应的置信度和权重，获得第一置信度。

这里，针对不同第一属性分配不同的权重，例如，以上述10类第一属性为例，为血腥、尸体、爆炸火灾分配较大的权重，为枪支、军事武器等分配次之的权重，为标语、执法者等分配较小的权重，具体权重比例可以仅以这10个第一属性考虑，10种第一属性的权重之和为1，从而可以计算出对应第一属性的一个总和置信度，即所述第一置信度。

或者，在此步骤中并不分配权重，而是分别输出识别出的第一属性的置信度，即第一置信度是一个集合。

这里，可以根据第一置信度直接判断所述目标图像是否为暴恐图像，如当第一置信度超过一定阈值时则确定所述目标图像为暴恐图像。但考虑到仅根据第一属性进行判断可能不够准确，则可以结合情感类型进行判断，即进入步骤206。

步骤206、识别所述目标图像，获得第二识别结果。

具体地，步骤206包括：第一种情况、确定目标图像中存在人脸时，则使用多任务级联卷积神经网络(MTCNN，Multi-task Cascaded Convolutional Networks)截取人脸，并利用多个卷积神经网络(CNNs，Convolutional Neural Networks)进行识别，得到第二识别结果；所述第二识别结果包含所述目标图像表现的至少一种人脸情感类型和所述至少一种人脸情感类型各自对应的置信度。所述人脸情感类型可以包括：高兴、难过、恐惧、愤怒、暴力。这里MTCNN和CNNs相当于图1所示方法中的第二图像识别模型。

或者，所述步骤206包括：第二种情况、确定目标图像中不存在人脸时，则利用第三图像识别模型，提取目标图像的场景特征进行识别，获得第二识别结果；所述第二识别结果包含所述目标图像表现的至少一种环境情感类型和所述至少一种环境情感类型各自对应的置信度。这里，为表征图像整体氛围，可以采用二分类，即所述第二识别结果可以分为暴力或非暴力、及暴力或非暴力对应的置信度。

针对第一种情况来说，每种人脸情感类型对应一个置信度，可以选取其中最大值作为第二置信度；或者以预先为各个情感类型分配的权重(例如，为正面情感属性分配正权重，为负面情感属性分配负权重)，确定各情感类型的置信度之和作为第二置信度。这里，当确定暴力的置信度大于一定阈值时也可直接判定为暴恐图像。

所述MTCNN是一种级联的卷积神经网络框架，通过多任务学习的方式将人脸检测和特征点定位两个任务集成在一起。其网络结构主要包含三个阶段，每个阶段都由一个卷积神经网络(CNN，Convolutional Neural Network)构成。首先，在第一个阶段通过一个浅层的卷积神经网络(P-Net，Proposal Network)快速生成大量候选窗口；其次，在第二阶段，通过使用一个相对较复杂的卷积神经网络(R-Net，Refine Network)排除大量非人脸窗口来优化候选窗口；最后，在第三阶段，使用一个更加复杂的卷积神经网络(O-Net，OutputNetwork)再次优化输出窗口，同时输出五个人脸特征点的坐标。

以图7的输入图像为例，该算法首先将输入图像的尺寸调整为不同大小，从而构建其图像金字塔(Image Pyramid)，得到的图像金字塔将作为MTCNN三个级联网络结构的输入图像。截取人脸图像输入如图8所示的CNNs网络，截图的人脸图像的尺寸可以统一调整为96×112。

所述CNNs网络的损失函数定义为Large-margin softmax loss，Large-marginsoftmax loss判别学习可以有效减少过拟合的问题，L-Softmax可以通过角边缘约束来获得紧凑的类内距离和稀疏的内间距离。在Finetune中，对人脸特征xi，损失的计算如下：

其中，yi为xi的标签，Wyi为j类全连接层的权重，m为预设角边缘约束，k是一个整数，K∈[0，m-1]。

针对第二种情况中的第三图像识别模型来说，可以采用经ImageNet预训练的ResNet34网络，对其进行训练后获得。具体包括：获取进行训练的图像，对图像的大小进行调整，使其大小变为224×224，取出80％的图像作为训练集，20％的图像作为测试；确定图像为暴力或非暴力作为标签；根据所述图像及对应标签进行训练，获得第三图像识别模型。

所述ResNet34的网络结构如图9所示，其中，Softmax函数分类为二分类，ResNet模块如图10所示，BN为Batch Normalization，即批规范化；RELU是修正线性单元(RectifiedLinear Unit)函数，RELU函数形式为θ(x)＝max(0，x)；x为网络里面的激活函数；在使用该RELU函数时，选择0和x中数值大的值。

所述步骤206还包括：确定所述至少一种情感类型(人脸情感类型或环境情感类型)各自对应的权重，根据所述至少一种情感类型各自对应的权重和置信度，确定第二置信度。

步骤207、基于第一置信度和第二置信度，确定所述目标图像的目标置信度。

具体地，所述步骤207包括：确定所述第一置信度对应的第一权重和所述第二置信度对应的第二权重；根据所述第一置信度、所述第一权重、所述第二置信度和所述第二权重获得目标置信度；所述目标置信度用于确定所述第一图像是否为目标类图像。

步骤208、根据所述目标置信度确定所述目标图像是否为暴恐图像。

这里，当确定所述目标置信度大于预设阈值，则确定目标图像为暴恐图像。

图11为本发明实施例提供的一种图像识别装置的结构示意图；如图11所示，所述装置包括：第一处理模块301、第二处理模块302和第三处理模块303。

所述第一处理模块301，用于获得第一图像。

所述第二处理模块302，用于基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果包含所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度。

所述第三处理模块303，用于至少根据所述第一识别结果确定所述第一图像是否为目标类图像。

具体地，所述第三处理模块303，具体用于确定所述第一识别结果符合第一预设条件时，确定所述第一图像为目标类图像；所述第一预设条件为所述第一识别结果中至少两个第一属性各自对应的置信度的和大于第一预设阈值；

具体地，所述第三处理模块303，还用于在获得第一置信度之后，识别所述第一图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种情感类型和所述至少一种情感类型各自对应的置信度。

相应的，所述第三处理模块303，还用于根据所述第一置信度和所述第二识别结果，确定所述第一图像是否为目标类图像。

具体地，所述第三处理模块303，具体用于确定所述第二识别结果符合第二预设条件时，确定所述第一图像为目标类图像；所述第二预设条件为所述第二识别结果中目标情感类型对应的置信度大于第二预设阈值；以及，

确定所述第二识别结果不符合第二预设条件时，确定所述至少一个情感类型各自对应的权重，根据所述至少一种情感类型各自对应的权重和置信度，确定第二置信度；结合所述第一置信度和所述第二置信度，确定所述第一图像是否为目标类图像。

具体地，所述第三处理模块303，具体用于确定所述第一置信度对应的第一权重和所述第二置信度对应的第二权重；以及，根据所述第一置信度、所述第一权重、所述第二置信度和所述第二权重获得目标置信度，根据所述目标置信度确定所述第一图像是否为目标类图像。

具体地，所述第三处理模块303，具体用于确定所述第一图像包含人脸时，从所述第一图像中提取至少一个人脸图像；基于预设的第二图像识别模型识别所述人脸图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种人脸情感类型和所述至少一种人脸情感类型各自对应的置信度；以及，确定所述第一图像不包含人脸时，从所述第一图像中提取场景特征；基于预设的第三图像识别模型识别所述场景特征，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种环境情感类型和所述至少一种环境情感类型各自对应的置信度。

具体地，所述装置还包括：预处理模块，用于生成第一图像识别模型；

所述预处理模块，具体用于获取预设数量的样本图像，所述预设数量的样本图像中每个样本图像对应有至少一个第一属性；

具体地，所述预处理模块，具体用于设定所述卷积神经网络采用Multi-label方式，且所述卷积神经网络的卷积层包括多个进行学习训练的卷积模块，不同的卷积模块对应不同的图像特征；根据所述预设数量的样本图像，运用多个卷积模块对所述至少一个第一属性中的每个第一属性分别进行学习训练；获得用于识别至少一个第一属性的所述第一图像识别模型。

需要说明的是：上述实施例提供的图像识别装置在进行图像识别时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的图像识别装置与图像识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12为本发明实施例提供的另一种图像识别装置的结构示意图；所述图像识别装置可以应用于服务器；如图12所示，所述装置40包括：处理器401和用于存储能够在所述处理器上运行的计算机程序的存储器402；其中，所述处理器401用于运行所述计算机程序时，执行：获得第一图像；基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果包含所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度；至少根据所述第一识别结果确定所述第一图像是否为目标类图像。

在一实施例中，所述处理器401还用于运行所述计算机程序时，执行：确定所述第一识别结果符合第一预设条件时，确定所述第一图像为目标类图像；所述第一预设条件为所述第一识别结果中至少两个第一属性各自对应的置信度的和大于第一预设阈值；确定所述第一识别结果不符合第一预设条件时，确定所述至少一个第一属性各自对应的权重，根据所述至少一个第一属性各自对应的置信度和权重，获得第一置信度；根据所述第一置信度确定所述第一图像是否为目标类图像。

在一实施例中，所述处理器401还用于运行所述计算机程序时，执行：识别所述第一图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种情感类型和所述至少一种情感类型各自对应的置信度；相应的，所述根据所述第一置信度确定所述第一图像是否为目标类图像，包括：根据所述第一置信度和所述第二识别结果，确定所述第一图像是否为目标类图像。

在一实施例中，所述处理器401还用于运行所述计算机程序时，执行：确定所述第二识别结果符合第二预设条件时，确定所述第一图像为目标类图像；所述第二预设条件为所述第二识别结果中目标情感类型对应的置信度大于第二预设阈值；确定所述第二识别结果不符合第二预设条件时，确定所述至少一种情感类型各自对应的权重，根据所述至少一种情感类型各自对应的权重和置信度，确定第二置信度；结合所述第一置信度和所述第二置信度，确定所述第一图像是否为目标类图像。

在一实施例中，所述处理器401还用于运行所述计算机程序时，执行：确定所述第一置信度对应的第一权重和所述第二置信度对应的第二权重；根据所述第一置信度、所述第一权重、所述第二置信度和所述第二权重获得目标置信度，根据所述目标置信度确定所述第一图像是否为目标类图像。

在一实施例中，所述处理器401还用于运行所述计算机程序时，执行：确定所述第一图像包含人脸时，从所述第一图像中提取至少一个人脸图像；基于预设的第二图像识别模型识别所述人脸图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种人脸情感类型和所述至少一种人脸情感类型各自对应的置信度；确定所述第一图像不包含人脸时，从所述第一图像中提取场景特征；基于预设的第三图像识别模型识别所述场景特征，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种环境情感类型和所述至少一种环境情感类型各自对应的置信度。

在一实施例中，所述处理器401还用于运行所述计算机程序时，执行：获取预设数量的样本图像，所述预设数量的样本图像中每个样本图像对应有至少一个第一属性；根据所述预设数量的样本图像以及每个样本图像对应的至少一个第一属性进行基于卷积神经网络的学习训练，获得所述第一图像识别模型。

在一实施例中，所述处理器401还用于运行所述计算机程序时，执行：设定所述卷积神经网络采用Multi-label方式，且所述卷积神经网络的卷积层包括多个进行学习训练的卷积模块，不同的卷积模块对应不同的图像特征；根据所述预设数量的样本图像，运用多个卷积模块对所述至少一个第一属性中的每个第一属性分别进行学习训练；获得用于识别至少一个第一属性的所述第一图像识别模型。

需要说明的是：上述实施例提供的图像识别装置与图像识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

实际应用时，所述装置40还可以包括：至少一个网络接口403。图像识别装置40中的各个组件通过总线系统404耦合在一起。可理解，总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图12中将各种总线都标为总线系统404。其中，所述处理器404的个数可以为至少一个。网络接口403用于图像识别装置40与其他设备之间有线或无线方式的通信。

本发明实施例中的存储器402用于存储各种类型的数据以支持图像识别装置40的操作。

上述本发明实施例揭示的方法可以应用于处理器401中，或者由处理器401实现。处理器401可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器402，处理器401读取存储器402中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，图像识别装置40可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行：获得第一图像；基于预设的第一图像识别模型识别所述第一图像，获得第一识别结果；所述第一识别结果包含所述第一图像表现的至少一个第一属性及所述至少一个第一属性各自对应的置信度；至少根据所述第一识别结果确定所述第一图像是否为目标类图像。

在一实施例中，所述计算机程序被处理器运行时，执行：确定所述第一识别结果符合第一预设条件时，确定所述第一图像为目标类图像；所述第一预设条件为所述第一识别结果中至少两个第一属性各自对应的置信度的和大于第一预设阈值；确定所述第一识别结果不符合第一预设条件时，确定所述至少一个第一属性各自对应的权重，根据所述至少一个第一属性各自对应的置信度和权重，获得第一置信度；根据所述第一置信度确定所述第一图像是否为目标类图像。

在一实施例中，所述计算机程序被处理器运行时，执行：识别所述第一图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种情感类型和所述至少一种情感类型各自对应的置信度；相应的，所述根据所述第一置信度确定所述第一图像是否为目标类图像，包括：根据所述第一置信度和所述第二识别结果，确定所述第一图像是否为目标类图像。

在一实施例中，所述计算机程序被处理器运行时，执行：确定所述第二识别结果符合第二预设条件时，确定所述第一图像为目标类图像；所述第二预设条件为所述第二识别结果中目标情感类型对应的置信度大于第二预设阈值；确定所述第二识别结果不符合第二预设条件时，确定所述至少一种情感类型各自对应的权重，根据所述至少一种情感类型各自对应的权重和置信度，确定第二置信度；结合所述第一置信度和所述第二置信度，确定所述第一图像是否为目标类图像。

在一实施例中，所述计算机程序被处理器运行时，执行：确定所述第一置信度对应的第一权重和所述第二置信度对应的第二权重；根据所述第一置信度、所述第一权重、所述第二置信度和所述第二权重获得目标置信度，根据所述目标置信度确定所述第一图像是否为目标类图像。

在一实施例中，所述计算机程序被处理器运行时，执行：确定所述第一图像包含人脸时，从所述第一图像中提取至少一个人脸图像；基于预设的第二图像识别模型识别所述人脸图像，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种人脸情感类型和所述至少一种人脸情感类型各自对应的置信度；确定所述第一图像不包含人脸时，从所述第一图像中提取场景特征；基于预设的第三图像识别模型识别所述场景特征，获得第二识别结果；所述第二识别结果包含所述第一图像表现的至少一种环境情感类型和所述至少一种环境情感类型各自对应的置信度。

在一实施例中，所述计算机程序被处理器运行时，执行：获取预设数量的样本图像，所述预设数量的样本图像中每个样本图像对应有至少一个第一属性；根据所述预设数量的样本图像以及每个样本图像对应的至少一个第一属性进行基于卷积神经网络的学习训练，获得所述第一图像识别模型。

在一实施例中，所述计算机程序被处理器运行时，执行：设定所述卷积神经网络采用Multi-label方式，且所述卷积神经网络的卷积层包括多个进行学习训练的卷积模块，不同的卷积模块对应不同的图像特征；根据所述预设数量的样本图像，运用多个卷积模块对所述至少一个第一属性中的每个第一属性分别进行学习训练；获得用于识别至少一个第一属性的所述第一图像识别模型。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获得第一图像；

2.根据权利要求1所述的方法，其特征在于，所述至少根据所述第一识别结果确定所述第一图像是否为目标类图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述获得第一置信度之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一置信度和所述第二识别结果，确定所述第一图像是否为目标类图像，包括：

5.根据权利要求3所述的方法，其特征在于，所述识别所述第一图像，获得第二识别结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：生成第一图像识别模型；

所述生成第一图像识别模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述预设数量的样本图像以及每个样本图像对应的至少一个第一属性进行基于卷积神经网络的学习训练，包括：

获得用于识别至少一个第一属性的所述第一图像识别模型。

8.一种图像识别装置，其特征在于，所述装置包括：第一处理模块、第二处理模块和第三处理模块；其中，

所述第一处理模块，用于获得第一图像；

9.一种图像识别装置，其特征在于，所述装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。