CN109145940A

CN109145940A - 图像识别方法和装置

Info

Publication number: CN109145940A
Application number: CN201810708389.3A
Authority: CN
Inventors: 王慧敏; 孙海涌; 张默
Original assignee: Beijing Moshanghua Technology Co Ltd
Current assignee: Beijing Moshanghua Technology Co Ltd
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2019-01-04
Anticipated expiration: 2038-07-02
Also published as: CN109145940B

Abstract

本申请公开了一种图像识别方法和装置。该图像识别方法包括采集第一目标图像；将所述第一目标图像输入预设神经网络训练得到目标图像识别模型；基于目标图像识别模型构建目标区域特征库；根据所述目标区域特征库判断出第二目标图像；其中，在训练所述预设神经网络模型过程中至少包括：注意力分支和编解码层，所述第一目标图像，用于作为训练图像集；所述第二目标图像，用于作为待识别血腥图像集。本申请解决了血腥图像识别准确性低的技术问题。本申请用于血腥图像的识别。

Description

图像识别方法和装置

技术领域

本申请涉及图像识别技术领域，具体而言，涉及一种图像识别方法和装置。

背景技术

随着智能手机及互联网技术发展，网络图像和视频数据呈爆发式增长，同时也增大了血腥图像等敏感内容的人工审核难度。

图像识别方法一般分为基于传统的机器学习方法和基于深度学习的图像识别方法。传统机器学习方法通常依赖于大量的工程技术和专业领域知识，提取的特征不能很好地适应光照变化、旋转角度、物体形变等变化，识别效果也太理想。

针对相关技术中血腥图像识别准确性低的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种图像识别方法和装置，以解决血腥图像识别准确性低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种图像识别方法。

根据本申请的图像识别方法包括：

采集第一目标图像；

将所述第一目标图像输入预设神经网络模型训练得到目标图像识别模型；

基于目标图像识别模型构建目标区域特征库；

根据所述目标区域特征库判断出第二目标图像；

其中，在训练所述预设神经网络模型过程中至少包括：注意力分支和编解码层，

所述第一目标图像，用于作为训练图像集；

所述第二目标图像，用于作为待识别血腥图像集。

进一步地，所述将所述第一目标图像输入预设神经网络模型训练得到目标图像识别模型包括：

构建至少包括注意力分支和编解码层的预设神经网络模型；

确定所述第一目标图像的图像标签；

将带有所述图像标签的所述第一目标图像输入所述预设神经网络模型训练得到具有血腥图像识别能力的神经网络模型。

进一步地，所述注意力分支至少包括：

在池化层将所述图像训练集特征均值池化为预设尺寸；

在压缩层将所述图像训练集特征按照预设比例压缩；

在激励层输出处理后的图像训练集特征。

进一步地，所述根据所述目标区域特征库判断出第二目标图像包括：

将第一目标图像输入所述目标图像识别模型训练得到第二目标图像；

计算所述第二目标图像与目标区域特征库中图像的相似度；

判断所述相似度是否大于预设阈值；

如果所述相似度大于预设阈值，则判断出第二目标图像为血腥图像。

进一步地，所述计算所述第二目标图像与目标区域特征库中图像的相似度包括：

采用图像搜索方式匹配目标区域特征库中图像；

计算所述第二目标图像与目标区域特征库中图像的相似度。

为了实现上述目的，根据本申请的另一方面，提供了一种图像识别装置。

根据本申请的图像识别装置包括：

采集模块，用于采集第一目标图像；

训练模块，用于将所述第一目标图像输入预设神经网络模型训练得到目标图像识别模型；

构建模块，用于基于目标图像识别模型构建目标区域特征库；

判断模块，用于根据所述目标区域特征库判断出第二目标图像；

所述第一目标图像，用于作为训练图像集；

所述第二目标图像，用于作为待识别血腥图像集。

进一步的，所述训练模块包括：

构建单元，用于构建至少包括注意力分支和编解码层的预设神经网络模型；

确定单元，用于确定所述第一目标图像的图像标签；

训练单元，用于将带有所述图像标签的所述第一目标图像输入所述预设神经网络模型训练得到具有血腥图像识别能力的神经网络模型。

进一步的，所述注意力分支至少包括：

池化单元，用于在池化层将所述图像特征均值池化为预设尺寸；

压缩单元，用于在压缩层将所述图像特征按照预设比例压缩；

激励单元，用于在激励层输出处理后的图像特征。

进一步的，所述判断模块包括：

第二目标图像单元，用于将第一目标图像输入所述目标图像识别模型训练得到第二目标图像；

相似度单元，用于计算所述第二目标图像与目标区域特征库中图像的相似度；

判断单元，用于判断所述相似度是否大于预设阈值；

血腥图像单元，用于如果所述相似度大于预设阈值，则判断出第二目标图像为血腥图像。

进一步的，所述相似度单元包括：

图搜单元，用于采用图像搜索方式匹配目标区域特征库中图像；

计算单元，用于计算所述第二目标图像与目标区域特征库中图像的相似度。

在本申请实施例中，采用构建具有注意力机制和编解码思想神经网络模型的方式，通过训练目标图像识别模型，基于目标图像识别模型构建目标区域特征库，从而实现了识别血腥图像的技术效果，进而解决了血腥图像识别准确性低的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的图像识别方法示意图；

图2是根据本申请第二实施例的图像识别方法示意图；

图3是根据本申请实施例的注意力机制示意图；

图4是根据本申请实施例的编解码层示意图；

图5是根据本申请实施例的注意力机制步骤示意图；

图6是根据本申请第三实施例的图像识别方法示意图；

图7是根据本申请第四实施例的图像识别方法示意图；

图8是根据本申请实施例的残差神经网络示意图；

图9是根据本申请实施例的图像识别方法流程示意图；

图10是根据本申请第一实施例的图像识别装置示意图；

图11是根据本申请第二实施例的图像识别装置示意图；

图12是根据本申请第三实施例的图像识别装置示意图；

图13是根据本申请第三实施例的图像识别装置示意图；以及

图14是根据本申请第三实施例的图像识别装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本发明实施例，提供了一种图像识别方法，如图1所示，该方法包括如下的步骤S102至步骤S108：

步骤S102，采集第一目标图像；

优选地，第一目标图像可以是待识别图像。

例如，可以通过网络爬虫方式得到血腥图片，同时采集了与血腥图片特征相近的负样本，正负样本比例均衡，并按一定比例分为训练集、验证集和测试集。

还可以从本地获取到待识别图像，上传至服务器进行识别。

步骤S104，将所述第一目标图像输入预设神经网络模型训练得到目标图像识别模型；

优选地，所述第一目标图像可以为训练集和/或验证集。

预设神经网络可以是具有注意力机制和编解码思想的ResNet神经网络。

目标网络模型是经过训练的网络模型。

将训练集和验证集作为输入训练预设神经网络得到目标图像识别模型。

采用ImageNet上的1000类预训练模型作血腥分类网络参数初始化，图像标签作为监督信号，通过反向传播算法在现有血腥图像数据库上微调与原网络相同的网络层，重新训练不同的网络层，逐步迭代学习得到最终网络模型。

步骤S106，基于目标图像识别模型构建目标区域特征库；

优选地，构建基于步骤S104中目标图像识别模型的血腥区域神经网络特征库。

步骤S108，根据所述目标区域特征库判断出第二目标图像；

优选地，将测试数据通过步骤S104得到的网络模型提取深层神经网络特征，计算待测图像特征与步骤S106中种子库特征的余弦距离判断是否为血腥图像。

如图2所示，所述将所述第一目标图像输入预设神经网络模型训练得到目标图像识别模型包括如下的步骤S202至步骤S206：

步骤S202，构建包括注意力分支和编解码层的预设神经网络模型；

步骤S204，确定所述第一目标图像的图像标签；

步骤S206，将带有所述图像标签的所述第一目标图像输入所述预设神经网络模型训练得到具有血腥图像识别能力的神经网络模型。

优选地，如图3所示，构建具有注意力机制和编解码思想的残差神经网络。残差神经网络通过在一个浅层网络基础上叠加y＝x的层(称identity mappings，恒等映射)，可以让网络随深度增加而不退化。在每个残差单元中新增注意力分支，残差单元可有选择性学习必要内容。注意力分支为先将原始特征图AVE Pool为1x1大小，接着在压缩层中将特征通道压缩为原特征的1/16，激励层中输出通道数与残差单元输出相同。相当于对原始残差单元的选择输出。一方面可滤除不必要的信息，减小网络学习复杂度；另一方面可使网络专注于有用信息，更利于特征学习。

编解码思想示意图如图4所示，编解码思想为在原始网络的最后部分加入编解码层，即本血腥分类网络原始特征输出为2维，先将2维特征编码输出为32维，再解码输出为2维。在网络中加入编解码思想，解码出来的特征为网络实际学习到的特征，此特征预测输出与网络真实标签的差异为网络训练的指导方向，有利于网络下一步迭代优化。

具有注意力机制和编解码思想的ResNet网络。注意力机制既可使网络保留有用信息，又可过滤无用信息。

如图5所示，所述注意力分支至少包括如下的步骤S302至步骤S306：

步骤S302，在池化层将所述图像训练集特征均值池化为预设尺寸；

优选地，均值池化：计算图像区域的平均值作为该区域池化后的值。

将原始特征图AVE Pool为预设尺寸，例如可以均值池化为1x1大小。

步骤S304，在压缩层将所述图像训练集特征按照预设比例压缩；

优选地，压缩层是执行媒体解码的系统组件，接收从同步层传来的压缩数据，并完成解码操作。

例如，在压缩层中将特征通道压缩为原特征的1/16。

步骤S306，在激励层输出处理后的图像训练集特征。

优选地，激励函数在神经网络的作用通俗上讲就是讲多个线性输入转换为非线性的关系。不使用激励函数的话，神经网络的每层都只是做线性变换，多层输入叠加后也还是线性变换。因为线性模型的表达能力不够，激励函数可以引入非线性因素。

其中，激励层中输出通道数与残差单元输出相同。例如，残差单元可以是高维，例如可以是128维。

如图6所示，所述根据所述目标区域特征库判断出第二目标图像包括如下的步骤S402至步骤S408：

步骤S402，将第一目标图像输入所述目标图像识别模型训练得到第二目标图像；

优选地，第一目标图像可以是待识别图像，也可以是测试集，例如，网络上可疑的血腥图片。

将第一目标图像作为模型输入部分，放置进模型中进行训练，目标图像识别模型经过训练输出第二目标图像，第二目标图像可以是经过处理后的结果。

步骤S404，计算所述第二目标图像与目标区域特征库中图像的相似度；

步骤S406，判断所述相似度是否大于预设阈值；

步骤S408，如果所述相似度大于预设阈值，则判断出第二目标图像为血腥图像。

优选地，第一目标图像中的部分图像的目标区域输入所述目标图像识别模型中得到目标区域特征库；第二目标图像输入图像识别模型提取目标特征，计算第二目标特征与目标区域特征库的相似度。

计算待测图像特征与步骤S402中得到的第二目标图像与种子库特征的余弦距离判断是否为血腥图像。

如图7所示，所述计算所述第二目标图像与目标区域特征库中图像的相似度包括如下的步骤S502至步骤S504：

步骤S502，采用图像搜索方式匹配目标区域特征库中图像；

优选地，在相似度计算时采用图搜方式，关键信息相似度计算使得网络模型的容错率更高，算法测试更具有鲁棒性。

步骤S504，计算所述第二目标图像与目标区域特征库中图像的相似度。

如图8所示，采用ImageNet上的1000类预训练模型作血腥分类网络初始化，图像标签作为监督信号，通过反向传播算法在现有血腥图像数据库上微调与原网络相同的网络层，重新训练不同的网络层，逐步迭代学习得到最终网络模型。

如图9所示，本发明公开了一种基于卷积神经网络的血腥图像识别方法。该方法包括血腥图像采集、数据库制作、网络模型训练和算法测试。其中，网络模型设计及测试是算法的关键部分。本发明提出在模型设计中考虑注意力机制和编解码思想，在模型测试中采用图像搜索(图搜)方式判断待测图像是否为血腥图像。在原始残差网络的残差模块中增加注意力分支，旨在模型训练过程中使网络学习更专注于有用信息，有利于模型收敛；在残差网络的通道融合阶段引入编解码思想，原始特征先编码成一定维度的特征后再解码输出，使得训练阶段的损失计算更有意义；在模型测试中采用图搜的方式得到血腥图像预测结果，先用训练好的模型对正样本中的血腥区域做深层特征提取建立种子库，通过比较待测图像的深层特征与种子库特征的余弦距离判断待测图像的类别属性。

从以上的描述中，可以看出，本发明实现了如下技术效果：第一，提出在ResNet-50网络中引入注意力机制，使网络更专注于有用信息的学习，一定程度上可减小网络学习难度。第二，提出在ResNet-50网络中加入编解码思想，解码出网络实际学习的信息，计算网络预测与真实标签的差异，使得网络更容易收敛。第三，在模型测试中采用图搜方式，关键信息相似度计算使得网络模型的容错率更高，算法测试更具有鲁棒性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述图像识别方法的图像识别装置，如图10所示，该装置包括：

采集模块10，用于采集第一目标图像；

训练模块20，用于将所述第一目标图像输入预设神经网络训练得到目标图像识别模型；

构建模块30，用于基于目标图像识别模型构建目标区域特征库；

判断模块40，用于根据所述目标区域特征库判断出第二目标图像；

所述第一目标图像，用于作为训练图像集；

所述第二目标图像，用于作为待识别血腥图像集。

如图11所示，所述训练模块20包括：

构建单元201，用于构建至少包括注意力分支和编解码层的预设神经网络模型；

确定单元202，用于确定所述第一目标图像的图像标签；

训练单元203，用于将带有所述图像标签的所述第一目标图像输入所述预设神经网络模型训练得到具有血腥图像识别区域的神经网络模型。

如图12所示，所述注意力分支至少包括：

池化单元501，用于在池化层将所述图像训练集特征均值池化为预设尺寸；

压缩单元502，用于在压缩层将所述图像训练集特征按照预设比例压缩；

激励单元503，用于在激励层输出处理后的图像训练集特征。

如图13所示，所述判断模块40包括：

第二目标图像单元401，用于将第一目标图像输入所述目标图像识别模型训练得到第二目标图像；

相似度单元402，用于计算所述第二目标图像与目标区域特征库中图像的相似度；

判断单元403，用于判断所述相似度是否大于预设阈值；

如图14所示，所述相似度单元402包括：

图搜单元4021，用于采用图像搜索方式匹配目标区域特征库中图像；

计算单元4022，用于计算所述第二目标图像与目标区域特征库中图像的相似度。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

采集第一目标图像；

基于目标图像识别模型构建目标区域特征库；

根据所述目标区域特征库判断出第二目标图像；

所述第一目标图像，用于作为训练图像集；

所述第二目标图像，用于作为待识别血腥图像集。

2.根据权利要求1所述的图像识别方法，其特征在于，所述将所述第一目标图像输入预设神经网络模型训练得到目标图像识别模型包括：

构建至少包括注意力分支和编解码层的预设神经网络模型；

确定所述第一目标图像的图像标签；

3.根据权利要求1所述的图像识别方法，其特征在于，所述注意力分支至少包括：

在池化层将所述图像训练集特征均值池化为预设尺寸；

在压缩层将所述图像训练集特征按照预设比例压缩；

在激励层输出处理后的图像训练集特征。

4.根据权利要求1所述的图像识别方法，其特征在于，所述根据所述目标区域特征库判断出第二目标图像包括：

计算所述第二目标图像与目标区域特征库中图像的相似度；

判断所述相似度是否大于预设阈值；

5.根据权利要求4所述的图像识别方法，其特征在于，

所述计算所述第二目标图像与目标区域特征库中图像的相似度包括：

采用图像搜索方式获取目标区域特征库中图像；

计算所述第二目标图像与目标区域特征库中图像的相似度。

6.一种图像识别装置，其特征在于，包括：

采集模块，用于采集第一目标图像；

所述第一目标图像，用于作为训练图像集；

所述第二目标图像，用于作为待识别血腥图像集。

7.根据权利要求6所述的图像识别装置，其特征在于，所述训练模块包括：

确定单元，用于确定所述第一目标图像的图像标签；

8.根据权利要求6所述的图像识别装置，其特征在于，所述注意力分支至少包括：

池化单元，用于在池化层将所述图像训练集特征均值池化为预设尺寸；

压缩单元，用于在压缩层将所述图像训练集特征按照预设比例压缩；

激励单元，用于在激励层输出处理后的图像训练集特征。

9.根据权利要求6所述的图像识别装置，其特征在于，所述判断模块包括：

判断单元，用于判断所述相似度是否大于预设阈值；

10.根据权利要求9所述的图像识别装置，其特征在于，所述相似度单元包括：