CN110399890B

CN110399890B - 图像识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN110399890B
Application number: CN201910690212.XA
Authority: CN
Inventors: 王辰龙; 赵雷
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-08-20
Anticipated expiration: 2039-07-29
Also published as: CN110399890A

Abstract

本申请实施例提供了一种图像识别方法、装置、电子设备及可读存储介质，涉及计算机视觉领域。该方法首先基于预先建立的特征提取模型，获取待处理图像对应的待识别图像特征，接着，计算所述待识别图像特征与预设的多个聚类中心中各所述聚类中心之间的距离，其中，预设的多个所述聚类中心为预先对训练样本进行聚类操作所获得的，最后，根据所述待识别图像特征与各所述聚类中心之间的距离及各所述聚类中心对应的分组类型确定所述待处理图像的类别。如此，通过特征提取模型提取待识别图像特征，从而减少了图像特征中的冗余信息，在提升了识别的准确率的同时使得处理速率加快，使用不同种类的聚类中心判断类别可支持辨别多种目标对象，降低了误检率。

Description

图像识别方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机视觉领域，具体而言，涉及一种图像识别方法、装置、电子设备及可读存储介质。

背景技术

由于互联网技术的不断进步，网络信息分享变的越来越方便快捷，极大地丰富了人们所获得信息量。然而，快捷的信息获取方法也使得不适信息，特别是一些不适的图片充斥网络。

在社交网络中，用户上传的图片中存在大量的不适图片，如皮肤炎类、伤口类或其他不适的图片，这些图片的观感较差，不能在社交网络的推荐流中出现，因此，需要及时识别避免影响用户体验。但是，目前的识别方式存在识别准确率低，识别速度慢的问题。

发明内容

基于上述问题，本申请提供了一种图像识别方法、装置、电子设备及可读存储介质。

本申请的实施例可以这样实现：

第一方面，本申请实施例提供一种图像识别方法，所述方法包括：

基于预先建立的特征提取模型，获取待处理图像对应的待识别图像特征；

计算所述待识别图像特征与预设的多个聚类中心中各所述聚类中心之间的距离，其中，预设的多个所述聚类中心为预先对训练样本进行聚类操作所获得的；

根据所述待识别图像特征与各所述聚类中心之间的距离及各所述聚类中心对应的分组类型确定所述待处理图像的类别。

进一步地，所述根据所述待识别图像特征与各所述聚类中心之间的距离及各所述聚类中心对应的分组类型确定所述待处理图像的类别的步骤，包括：

获取各所述聚类中心对应的分组类型，其中，所述分组类型包括目标类型、伪目标类型及非目标类型；

根据所述待识别图像特征与各所述聚类中心之间的距离，确定所述待识别图像特征对应的分组类型；

在所述待识别图像特征对应的分组类型为目标类型时，确定所述待处理图像为目标图像；

在所述待识别图像特征对应的分组类型为非目标类型或伪目标类型时，确定所述待处理图像为非目标图像。

进一步地，所述根据所述待识别图像特征与各所述聚类中心之间的距离，确定所述待识别图像特征对应的分组类型的步骤，包括：

将所述待识别图像特征与各所述聚类中心之间的距离从小到大排序，获得排在前三个的所述距离对应的第一聚类中心、第二聚类中心及第三聚类中心；

判断所述第一聚类中心是否与所述目标类型对应的聚类中心匹配，若不匹配，则确定所述待识别图像特征对应的分组类型为所述非目标类型；

若匹配，则判断所述第二聚类中心和所述第三聚类中心中是否存在与所述伪目标类型对应的聚类中心匹配的聚类中心，若存在，则确定所述待识别图像特征对应的分组类型为伪目标类型，若不存在，则确定所述待识别图像特征对应的分组类型为目标类型。

进一步地，所述方法还包括对训练样本进行聚类操作获得预设的多个聚类中心的步骤，该步骤包括：

基于预先建立的特征提取模型，获取多张训练样本中各所述训练样本对应的样本特征；

针对每个所述样本特征，计算所述样本特征到预设的各个初始聚类中心的距离，并将所述样本特征分组至计算得到的最小距离对应的初始聚类中心所属的组别，其中，各所述初始聚类中心为从多个所述样本特征中选取获得；

根据分组后各所述样本特征所属的组别，重新设置初始聚类中心，直到所述初始聚类中心不再发生变化，以获得预设的多个聚类中心。

进一步地，所述获取待处理图像对应的待识别图像特征的步骤，包括：

提取待处理图像的深度图像特征；

对所述深度图像特征进行数据降维，得到待识别图像特征。

进一步地，所述对所述深度图像特征进行数据降维，得到待识别图像特征的步骤，包括：

将所述深度图像特征排列为初始特征矩阵，其中，所述初始特征矩阵包括多行多列特征元素；

针对所述初始特征矩阵的各行特征元素，计算该行特征元素的行均值，计算该行中各所述特征元素与该行均值的差值，以对所述初始特征矩阵零均值化；

计算零均值化后的所述初始特征矩阵的协方差矩阵及所述协方差矩阵的特征值及特征向量；

将所述特征向量按对应的所述特征值的大小对应排列，获得前预设行数包括的特征元素，以获得目标特征矩阵；

将所述目标特征矩阵与所述初始特征矩阵相乘，以得到待识别图像特征。

进一步地，所述距离为欧式距离、绝对距离或切比雪夫距离。

第二方面，本申请实施例提供一种图像识别装置，所述装置包括：

特征提取模型，用于获取待处理图像对应的待识别图像特征；

计算模块，用于计算所述待识别图像特征与预设的多个聚类中心中各所述聚类中心之间的距离，其中，预设的多个所述聚类中心为预先对训练样本进行聚类操作所获得的；

类别确定模块，用于根据所述待识别图像特征与各所述聚类中心之间的距离及各所述聚类中心对应的分组类型确定所述待处理图像的类别。

第三方面，本申请实施例提供一种电子设备，所述设备包括处理器、存储器及总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器及所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如前述实施方式任意一项所述的图像识别方法的步骤。

第四方面，本申请实施例提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现前述实施方式中任一项所述的图像识别方法。

本申请实施例提供了一种图像识别方法、装置、电子设备及可读存储介质，通过深度学习提取待识别图像的图像特征，并对图像特征进行数据降维，基于训练好的预设的聚类中心对图像特征结合欧式距离进行处理，进而识别出待识别图像是否是具有不适内容的目标图像。如此，通过特征提取模型提取待识别图像特征，从而减少了图像特征中的冗余信息，在提升了识别的准确率的同时使得处理速率加快，使用不同种类的聚类中心判断类别可支持辨别多种目标对象，降低了误检率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的目标图像示意图；

图2为本申请实施例提供的电子设备的结构框图；

图3为本申请实施例提供的图像识别方法的流程图；

图4为本申请实施例提供的图像识别方法中的子步骤流程图之一；

图5为本申请实施例提供的图像识别方法中的子步骤流程图之二；

图6为本申请实施例提供的图像识别装置的功能模块框图。

图标：100-电子设备；110-存储器；120-处理器；130-图像识别装置；131-特征提取模型；132-计算模块；133-类别确定模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

经发明人研究发现，目前，一种方式是通过人工对不适图片进行标注识别，来避免此类图片出现在社交网络的推荐流中，但是，在图片的数量较多时，无法做到及时处理。

另一种方式是通过分类算法对不适图片进行标注识别，来避免此类图片出现在社交网络的推荐流中，但是，由于不同位置的图像，视觉效果差别较大，有些图片是拼图的形式(如图1所示包含皮肤炎的拼图图像)，使得此类图片与单图的视觉效果差别较大或者在整体数据集中，不适的图片占比较少，数据不均衡或者训练数据的数量较少等原因导致无论是机器学习或是深度学习，都存在着训练出的模型，识别不适图片的效果较差的问题。

基于上述研究，本申请提供了一种图像识别方法、装置、电子设备及可读存储介质，该方法通过深度学习提取待识别图像的图像特征，基于训练好的预设聚类中心对图像特征进行处理，进而识别出待识别图像是否是具有不适内容的目标图像，下面对上述方法进行详细阐述。

请参阅图2，图2为本申请实施例提供的一种电子设备100的结构示意图。所述设备可以包括处理器120、存储器110、图像识别装置130及总线，所述存储器110存储有所述处理器120可执行的机器可读指令，当电子设备100运行时，所述处理器120及所述存储器110之间通过总线通信，所述处理器120执行所述机器可读指令，并执行图像识别方法的步骤。

所述存储器110、处理器120以及其他各元件相互之间直接或间接地电性连接，以实现信号的传输或交互。

例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。图像识别装置130包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120用于执行存储器110中存储的可执行模块，例如所述图像识别装置130所包括的软件功能模块或计算机程序。

其中，存储器110可以是，但不限于，随机读取存储器(Random Access memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器120可以是一种集成电路芯片，具有信号处理能力。上述处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等。

还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本实施例中，存储器110用于存储程序，处理器120用于在接收到执行指令后，执行所述程序。本申请实施例任一实施方式所揭示的流程定义的方法可以应用于处理器120中，或者由所述处理器120实现。

可以理解，图2所示的结构仅为示意。电子设备100还可以具有比图2所示更多或者更少的组件，或者具有与图2所示不同的配置。图2所示的各组件可以采用硬件、软件或其组合实现。

请参阅图3，图3为本实施例提供的一种图像识别方法的流程图。下面对图3所示的具体流程进行详细描述。

S1，基于预先建立的特征提取模型，获取待处理图像对应的待识别图像特征。

预先建立的特征提取模型通过提取待处理图像的深度图像特征后，对深度图像特征进行数据降维，得到待识别图像特征。例如，将待识别图像输入预先建立的特征提取模型中，得到1024维的深度图像特征后，对深度图像特征进一步进行数据降维，获得256维的待识别图像特征。

其中，预先建立的特征提取模型可通过样本图像经过训练深度神经网络获得，其具体原理及实施方式可参考现有技术，在此不做赘述。

可选地，请参阅图4，对所述深度图像特征进行数据降维，获取待处理图像对应的待识别图像特征的步骤通过以下步骤S11-S15实现：

S11，将所述深度图像特征排列为初始特征矩阵，其中，所述初始特征矩阵包括多行多列特征元素。

为了使得实施例更加简洁直观，本申请实施例中以两行三列矩阵

进行说明，通过本实施例提供的方法，将这组二维数据降到一维。可以理解，这里仅为说明，不代表将本申请中的特征元素限定为例举的矩阵C中的元素。

S12，针对所述初始特征矩阵的各行特征元素，计算该行特征元素的行均值，计算该行中各所述特征元素与该行均值的差值，以对所述初始特征矩阵零均值化。

因为这个矩阵C的每行特征元素已经是零均值，因此不做变化。

S13，计算零均值化后的所述初始特征矩阵的协方差矩阵及所述协方差矩阵的特征值及特征向量。

计算该矩阵的协方差矩阵B，有：

然后，计算其特征值和特征向量，具体计算方式不再详述，可以参考相关资料。求解后特征值为：

λ₁＝2，λ₂＝2/5

其对应的特征向量分别是：

其中，对应的特征向量为通解，B₁与B₂可以取任意实数。标准化后的特征向量为：

S14，将所述特征向量按对应的所述特征值的大小对应排列，获得前预设行数包括的特征元素，以获得目标特征矩阵。

将所述特征向量按对应的所述特征值的大小对应排列，有：

在需要将两维数据降维至一维时，即预设行数为1行，因此，可取前1行的特征元素，得到目标特征矩阵P：

S15，将所述目标特征矩阵与所述初始特征矩阵相乘，以得到待识别图像特征。

将目标特征矩阵P与初始特征矩阵C相乘，得到降维后的待识别图像特征Y：

如此，通过上述步骤提取出原始数据的主要特征分量，将多维数据变换为预设维度的数据，以简化S2及S3的复杂耗时的运算，降低了特征向量中的冗余信息，提升了准确率。

S2，计算所述待识别图像特征与预设的多个聚类中心中各所述聚类中心之间的距离，其中，预设的多个所述聚类中心为预先对训练样本进行聚类操作所获得的。

需要说明的是，本申请所述距离为可以是欧式距离、绝对距离或切比雪夫距离。其具体原理和计算公式可参照现有技术，在此不做赘述。特别地，本申请中以欧式距离为判断依据，对待识别图像特征进行判别。

进一步地，其中，所述方法还包括对训练样本进行聚类操作获得预设的多个聚类中心的步骤，该步骤包括：

首先，基于预先建立的特征提取模型，获取多张训练样本中各所述训练样本对应的样本特征。

其次，针对每个所述样本特征，计算所述样本特征到预设的各个初始聚类中心的距离，并将所述样本特征分组至计算得到的最小距离对应的初始聚类中心所属的组别，其中，各所述初始聚类中心为从多个所述样本特征中选取获得。

最后，根据分组后各所述样本特征所属的组别，重新设置初始聚类中心，直到所述初始聚类中心不再发生变化，以获得预设的多个聚类中心。

需要说明的是，本申请实施例采用K-Means聚类算法对训练样本进行聚类操作获得预设的多个聚类中心。该算法认为类是由距离靠近的对象组成的，因此本申请实施例将得到紧凑且独立的类作为最终目标。

如此，通过聚类操作将训练样本中的对象进行分组，将训练样本中相似的对象归为一类，不相似的对象归为不同类，如此，可获得目标对象的聚类中心(聚类中心表示一类分组的中心)。

作为一种实施方式，以目标对象为皮肤炎图像为例，假定预设的聚类中心为768个(即，将所有的训练图像进行聚类后分为768个组别)通过上述聚类操作，从中选取4个作为初始聚类中心，可以获得皮肤炎图像的聚类中心为82、273、645、717。当使用时，可将这4个聚类中心设置为预设聚类中心。可以理解，当目标对象不同时，获取到的聚类中心也不相同。

目标对象还可以是其他的不适内容，采用聚类中心判断不同的类别，可以支持多种视觉样式，本申请实施例不仅仅限于识别目标对象为皮肤炎的图像。

由于待识别图像特征与聚类中心之间的距离可以用来描述待识别图像特征与聚类中心之间的亲疏距离，因此，本申请实施例中使用待识别图像特征与各所述聚类中心之间的距离进一步判别待处理图像的类别，具体可参见S3。

S3，根据所述待识别图像特征与各所述聚类中心之间的距离及各所述聚类中心对应的分组类型确定所述待处理图像的类别。

可选地，请参阅图5，S3中确定所述待处理图像的类别可以通过S31-S34实现：

S31，获取各所述聚类中心对应的分组类型，其中，所述分组类型包括目标类型、伪目标类型及非目标类型。

接着以皮肤炎图像为例，经过上述S1与S2处理后获得的聚类中心为82、273、645、717，其对应的分组类型即为目标类型。

伪目标类型即为与目标类型极为相似的类型，如，与皮肤炎极为相似的皮肤发红或其他红色物质(如带有红色色块的衣物及口红等图像)。特别地，本申请实施例中，经过筛选可以知道伪目标类型对应的聚类中心，例如可以对应为编号为245、304、496等的聚类中心。

可以理解，本实施方式中，除去目标类型与伪目标类型，其他聚类中心对应的分组类型即为非目标类型。

S32，根据所述待识别图像特征与各所述聚类中心之间的距离，确定所述待识别图像特征对应的分组类型。

作为一种实施方式，确定所述待识别图像特征对应的分组类型可通过以下方式实现：

首先，将所述待识别图像特征与各所述聚类中心之间的距离从小到大排序，获得排在前三个的所述距离对应的第一聚类中心、第二聚类中心及第三聚类中心。

接着，判断所述第一聚类中心是否与所述目标类型对应的聚类中心匹配，若不匹配，则确定所述待识别图像特征对应的分组类型为所述非目标类型。

S33，在所述待识别图像特征对应的分组类型为目标类型时，确定所述待处理图像为目标图像。

S34，在所述待识别图像特征对应的分组类型为非目标类型或伪目标类型时确定所述待处理图像为非目标图像。

例如，作为一种实施方式，经过S31的步骤处理待识别图像特征后，将一待识别图像特征与各所述聚类中心之间的距离从小到大排序，假设其前三个距离对应的第一聚类中心为729，第二聚类中心为245，第三聚类中心为109。

由于第一聚类中心729不属于目标类型对应的聚类中心为82、273、645、717中的任意一个，因此，可确定待识别图像特征对应的分组类型为非目标类型，也可进一步确定待处理图像为非目标图像。

作为另一种实施方式，经过S31的步骤处理待识别图像特征后，将一待识别图像特征与各所述聚类中心之间的距离从小到大排序，假设其前三个距离对应的第一聚类中心为82，第二聚类中心为245，第三聚类中心为109。

由于第一聚类中心82属于目标类型对应的聚类中心为82、273、645、717中的一个，同时第二聚类中心245属于伪目标类型对应的聚类中心为245、304、496中的一个。因此，可以确定待识别图像特征对应的分组类型为伪目标类型，也可进一步确定待处理图像为非目标图像。

作为又一种实施方式，经过S31的步骤处理待识别图像特征后，将一待识别图像特征与各所述聚类中心之间的距离从小到大排序，假设其前三个距离对应的第一聚类中心为82，第二聚类中心为500，第三聚类中心为304。

由于第一聚类中心82属于目标类型对应的聚类中心为82、273、645、717中的一个，同时第三聚类中心304属于伪目标类型对应的聚类中心为245、304、496中的一个。因此，可以确定待识别图像特征对应的分组类型为伪目标类型，也可进一步确定待处理图像为非目标图像。

本申请实施例通过深度学习提取待识别图像的图像特征，并对图像特征进行数据降维，基于预设的聚类中心对图像特征结合欧式距离进行处理，进而识别出待识别图像是否是具有不适内容的目标图像。如此，通过数据降维减少了图像特征中的冗余信息，提升了识别的准确率，同时使得处理速率加快，使用不同种类的聚类中心判断类别可支持辨别多种目标对象，同时降低了误伤率。

请参阅图6，本申请实施例也提供了一种图像识别装置130，所述装置包括：

特征提取模型131，用于获取待处理图像对应的待识别图像特征。

计算模块132，用于计算所述待识别图像特征与预设的多个聚类中心中各所述聚类中心之间的距离，其中，预设的多个所述聚类中心为预先对训练样本进行聚类操作所获得的。

类别确定模块133，用于根据所述待识别图像特征与各所述聚类中心之间的距离及各所述聚类中心对应的分组类型确定所述待处理图像的类别。

可以理解，本申请实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

本申请实施例还提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现前述实施方式中任一项所述的图像识别方法。

综上所述，本申请实施例提供了一种图像识别方法、装置、电子设备100及可读存储介质，该方法基于预先建立的特征提取模型131，获取待处理图像对应的待识别图像特征，接着，计算所述待识别图像特征与预设的多个聚类中心中各所述聚类中心之间的距离，其中，预设的多个所述聚类中心为预先对训练样本进行聚类操作所获得的，最后，根据所述待识别图像特征与各所述聚类中心之间的距离及各所述聚类中心对应的分组类型确定所述待处理图像的类别。如此，通过特征提取模型提取待识别图像特征，从而减少了图像特征中的冗余信息，在提升了识别的准确率的同时使得处理速率加快，使用不同种类的聚类中心判断类别可支持辨别多种目标对象，降低了误检率。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

若匹配，则判断所述第二聚类中心和所述第三聚类中心中是否存在与所述伪目标类型对应的聚类中心匹配的聚类中心，若存在，则确定所述待识别图像特征对应的分组类型为伪目标类型，若不存在，则确定所述待识别图像特征对应的分组类型为目标类型；

2.根据权利要求1所述的图像识别方法，其特征在于，所述方法还包括对训练样本进行聚类操作获得预设的多个聚类中心的步骤，该步骤包括：

3.根据权利要求1所述的图像识别方法，其特征在于，所述获取待处理图像对应的待识别图像特征的步骤，包括：

提取待处理图像的深度图像特征；

对所述深度图像特征进行数据降维，得到待识别图像特征。

4.根据权利要求3所述的图像识别方法，其特征在于，所述对所述深度图像特征进行数据降维，得到待识别图像特征的步骤，包括：

5.根据权利要求1-4任意一项所述的图像识别方法，其特征在于，所述距离为欧式距离、绝对距离或切比雪夫距离。

6.一种图像识别装置，其特征在于，所述装置包括：

类别确定模块，用于获取各所述聚类中心对应的分组类型，其中，所述分组类型包括目标类型、伪目标类型及非目标类型；

7.一种电子设备，其特征在于，所述设备包括处理器、存储器及总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器及所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-5任意一项所述的图像识别方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-5中任一项所述的图像识别方法。