CN107122375B

CN107122375B - 基于图像特征的图像主体的识别方法

Info

Publication number: CN107122375B
Application number: CN201611140854.5A
Authority: CN
Inventors: 魏子涵; 王李娜; 刘继振
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2020-11-06
Anticipated expiration: 2036-12-12
Also published as: CN107122375A

Abstract

本发明公开了一种基于图像特征的图像主体的识别方法。该方法首先进行图像的初步处理，通过图片增强深化图片特征，将前景和背景大致区分开；形态学处理主要用于提取图像特征，分割过程则将一幅图像划分为组成部分或目标对象；研究图像特征提取则是要将前面提取出来的图像元素或目标对象表示为适合计算机后续处理的数值形式，最终形成能够直接供机器学习生成的分类器模型使用的特征；分布式环境提供搜索效率和并行计算能力；输入图像经过上述方法识别得到特征数据后搜索与之相似度最高的图像并输出，判断二者是否匹配。本发明不仅提供了稳定可行的图像搜索方法，对图像的语义进行深度的分析学习，提高了当前搜索算法的时间和速度，同时避免了网络制约，普适性很高。

Description

基于图像特征的图像主体的识别方法

技术领域

本发明涉及如何提取图像隐藏信息完成大型图像库的分类后进行高效识别，并将结果输出以供使用的方法，特别是一种基于图像特征的图像主体的识别方法。

在提高检索效率方面做出了非常大的进步提升，故应用前景广泛。

背景技术

基于图像特征的图像主体的识别方法是指仅需消费者提供所需物品的图片，便可通过本方法获得改物品的特征信息。随着WWW的急剧增长以及多媒体技术的飞速发展，快速有效地进行互联网图片信息检索、查询和浏览，成为人们的迫切需求。目前，一些现存的方法的图片搜索方法，大多是采用基于文本关键字和链接信息来进行图片的搜索和检索，并没有利用图片本身的视觉内容信息，其检索精确度受到一定的限制。而一些基于内容的图片检索系统则仅仅利用图片的内容信息来进行图片检索，难于解决语义鸿沟的问题。如果用户手上有一张图片，用以上方法查询这张图片的内部信息显然很不方便，因为一般来说，图片搜索只是分析同关键词有关的网络图片，而图片的内容因为多种原因不会被纳入到搜索的范畴里，例如在搜图网站上搜索一个用户感兴趣的物品，用户手上有它的照片，但是不知道它的具体信息如图片所描述的对象的种类，那就无从下手进行搜索，所以此时传统的搜索方式已无法满足消费者的要求。而通过简单的文字搜索再对搜索结果进行浏览的方式，会因关键字的不准确而极大地限制用户的选择空间，所以本发明基于图像特征的图像主体的识别是目前最有效的可以满足高精度检索的方法。

现有的以图搜图技术即Google Search by Image，L Van Heerden，SI Duminy，NJLuwes三位学者在Google search by image:a system evaluation of adjusted imagesfor the detection of visual plagiarismv中提到了google现有的图像搜索算法进行了概括，基本包括三个步骤：首先将目标图片进行特征提取，描述的算法有很多，可以根据不同的图像，设计不同的算法，比如图像局部N阶矩的方法提取图像特征；然后将图像特征信息进行编码，并将海量图像编码做查找表，最后进行相似度匹配运算：利用目标图像的编码值，在图像搜索引擎中的图像数据库进行全局或是局部的相似度计算；根据所需要的鲁棒性，设定阈值，然后将相似度高的图片预保留下来；最后应该还有一步筛选最佳匹配图片。该方法对图像特征信息进行编码后做成查找表，特征标注越多，虽然可以提高搜索精度，但是无法避免查找时间会受到的限制；在相似度匹配计算时，阈值的确定虽然依据所需要的鲁棒性确定，但是在选择时还是需要多次试验才能最终确认。该方法在图片语义的分析上仍停留在较为基础的阶段，致使一些特殊输入图片得不到正确的匹配结果，而且大多时候会受到网络限制，真正应用于国内会不太容易实现。

发明内容

本发明的目的在于可以在用户搜索时手中仅有物品图片其他相关信息较少的的情况下，提供一种能够有效地根据用户提供的图片分析，得到正确的物体种类特征继而进行高效搜索的工具。

实现本发明目的的技术解决方案为：一种基于图像特征的图像主体的识别方法，步骤如下：

第一步，标注选取好的训练集的特征，首先判断图片中物品的所属物种，根据不同的物种细化特征，如动物则标记具体所属科族，全身颜色，眼睛，鼻子的特性等；详细标注后作为训练集待用；

第二步，选取n万张图片，对这n万张图像进行裁剪，达到统一的长宽规格，裁剪过程中若产生物体形变则替换为其他图片，继而利用高斯函数完成图像平滑，去除图像噪声排除干扰项；循环平滑过程直到处理结果不再改变，完成图像预处理过程，送至第三步；

第三步，形态学处理即图像增强，利用直方图均衡化将原始图像的直方图通过积分概率密度函数转化为概率密度为1的图像，凸显图像边缘点，然后利用图像分割，将图像划分为目标对象和其他部分；特征提取过程将前面提取出来的目标对象利用opencv中的格式转换算法转换为适合计算机后续处理的数值形式，最终形成能够直接供神经网络分辨的特征值，此时测试集的处理完成，等待第五步神经网络训练好后使用；

第四步，分布式环境的搭建，首先在虚拟器中开三台ubuntu的虚拟机，将下载好的辅助软件完成安装，为每一台搭建好java环境，正常安装hadoop，继而完成伪分布式配置；然后将上述实验过程转移到ubuntu的服务器上；利用搭建好的分布式环境试验hadoop自带的例子——词频统计，后台观察数据量相同时的不同数量机器的工作效率，发现六台时达到一个小顶点；

第五步，用标注好特征的训练集训练人工神经网络(ANN)，编程创建由多个简单的神经元相互密集连接形成的神经网络，其中每个神经元由三部分构成：输入、计算激励函数的细胞体和输出，神经元具有两种状态：1和0，神经元之间由可调节的权值相连，权值的设定采用监督性的多变量线性回归函数；每个神经元代表一个特征并接受一定数量的来自其他神经元的实数值输入，人工神经细胞通过激励函数对这些输入信号进行并进行阈值处理；如果整合后刺激值超过某一阈值，则神经元被激活进入1状态，否则处于0状态，当一系列的神经元被触发后即得到一个实际输出值；然后利用成本函数评估实际输出与目标输出的误差，若误差很小，则强化该权值，若误差很大，则改变学习的算法以弱化该权值；最后会得到一个成熟的神经网络，用这个神经网络为前面处理好的测试集标注特征；

第六步，利用上述训练完成的神经网络为输入的新的测试图像标注特征，输入一张图像，神经网络完成特征的识别并标注后，利用分布式环境，并行加速的在测试集中搜索最相近的图片并输出，根据输出值判断是否需要再次对神经网络进行强化权值的训练过程。

本发明与现有技术相比，其显著优点为：(1)分布式处理配合搜索过程可以提高机器学习效率和搜索速率，在处理过程中各步骤的所用时间被及时的记录。比较在不同数量的分布式处理机下对提高效率的影响，及时调整处理机的数量；(2)神经网络可以发掘图像的隐含特征，简单图像所包含的隐式特征不会对识别造成太多影响，但是动物类或家具类等复杂图像的隐式特征若不经多次分层提取，会严重降低正确率，我们的方法有效避免了这种问题；(3)手动标记特征的图片作为机器学习的训练库，在模型标记后进行抽样检查，进一步提高知识库的质量，从两方面提高识别结果的正确性；(4)没有网络限制，服务器位于国内，增添了极大的使用价值和搜索稳定性，充分满足用户的需求。

附图说明

图1是本发明基于图像特征的图像主体的识别方法2000张手动标记好特征的训练库。

图2是本发明基于图像特征的图像主体的识别方法神经元结构图。

图3是本发明基于图像特征的图像主体的识别方法神经网络训练模型流程。

图4是本发明基于图像特征的图像主体的识别方法利用caffe完成图像特征提取结果。

图5是本发明基于图像特征的图像主体的识别方法六个分布节点均配置成功,采用hadoop dfsadmin-report查看集群状态,发现六个节点均运行正常。

图6是本发明基于图像特征的图像主体的识别方法对10万张图处理多次运行结果可以得到平均时间为22.4s。

具体实施方式

本发明利用人工标记好的正确图片特征，通过特征提取和神经网络训练成熟的模型，标记大型知识库，继而检索输入图片的特征输出具有相似特征的图片。

具体技术可分为六部分：

一是训练集的特征标注

标注选取好的训练集的特征，首先判断图片中物品的所属物种，根据不同的物种细化特征，如动物则标记具体科族，全身颜色，眼睛，鼻子的特性；详细标注后作为训练集待用。

二是测试集图片的预处理

对不同规格的图像进行处理，达到统一的格式，首先裁剪成最适宜处理的大小128*128，裁剪过程中产生的物体形变在不影响特征提取的前提下忽略不计，继而利用高斯函数完成图像平滑，即去除图像噪声排除干扰项。人工检查后若发现不符合则适当调整其他参数(尽量不改变图形的大小)，没发现则继续，多次循环完成所有图像的预处理。

三是测试集的形态学处理、边缘检测与图像分割、特征提取

主要完成从单纯图像处理向图像识别(机器视觉)的过渡，这一阶段的特点是输入是图像，输出则是在识别意义上我们感兴趣的图像元素，形态学处理即图像增强，利用直方图均衡化将原始图像的直方图通过积分概率密度函数转化为概率密度为1(理想情况)的图像，提高对比度，凸显图像边缘点，然后利用分割过程则将图像划分为目标对象和其他部分；特征提取过程将前面提取出来的目标对象利用opencv中的格式转换算法转换为适合计算机后续处理的数值形式，最终形成能够直接供神经网络使用的特征。图像识别以上述结果为基础，每个图像都有其特征，如字母A有个尖，P有个圈，Y的中心有个锐角等，实验中模拟人眼在识别图像时视线总是集中在图像的主要特征上，也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方，这些地方信息量大，是否可以准确的捕捉到作为算法选择的关键因素。

四是分布式环境的搭建

首先确定是hadoop分布式环境和spark并行计算配合，由于服务器容错率低，故先进行伪分布式的搭建，首先在虚拟器中开三台ubuntu的虚拟机，将下载好的辅助软件完成安装，为每一台搭建好java环境，正常安装hadoop，继而完成伪分布式配置。看到三台均正常工作时可以理解为技术成熟，并将相关实验过程如数转移到ubuntu的服务器上。利用搭建好的分布式环境试验hadoop自带的例子—词频统计，后台观察数据量相同时的不同数量机器的工作效率，发现六台时达到一个小顶点，考虑经济条件的情况下，确定环境为六台服务器同时工作的分布式。

五是训练人工神经网络(ANN)

训练集训练人工神经网络(ANN)，编程创建由多个简单的神经元相互密集连接形成的神经网络，其中每个神经元由三部分构成：输入、计算激励函数的细胞体和输出，神经元具有两种状态：1和0，神经元之间由可调节的权值相连，权值的设定采用监督性的多变量线性回归函数。每个神经元代表一个特征并接受一定数量的来自其他神经元的实数值输入，人工神经细胞通过激励函数对这些输入信号进行并进行阈值处理。如果整合后刺激值超过某一阈值，则神经元被激活进入1状态，否则处于0状态，当一系列的神经元被触发后即得到一个实际输出值；然后利用成本函数评估实际输出与目标输出的误差，若误差很小，则强化该权值，若误差很大，则改变学习的算法以弱化该权值。最后会得到一个成熟的神经网络，用这个神经网络为前面处理好的测试集标注特征。

ANN通过不断调整神经元之间连接的权值(卷积核或feature map层数)以使得网络更加适应训练集合。在实验的训练过程中，训练样本向量是ANN的输入，网络的输出是样本特征的数值形式。初始情况下，网络权值被带有经验主义的初始化为一种随机状态，当把某个训练样本输入网络时，由此产生的网络输出与训练样本目标输出之间的差异称为误差；接下来，ANN会利用线性回归函数的学习监督算法计算权值并密切观察误差的变化，使得训练误差逐步减小，随着这种训练和调整过程的进行，网络对于训练样本的实际输出将越来越接近于目标输出。

六是分布式环境下的技术综合应用，输入一张图像，神经网络完成特征的识别后，利用分布式环境，并行加速的在测试集中搜索最相近的图片并输出，根据输出值判断是否需要再次对神经网络进行强化权值的训练过程。

下面结合附图对本发明作进一步详细说明。

本发明基于图像特征的图像主体的识别方法，包括以下步骤：

第一部分：算法与模型的建立

第一步，手动标记2000张图像的特征

1.准备2000个左右样本，手工标注物体形状，明确整件、部件(二者有装配或连接关系)，时期、形质、材质(或称材料)、颜色、名称、编码(多级编码)等特征，另外定义十几种基本形状(先考虑二维形状：长方形、圆柱形、正方形、矩形、圆形、菱形、星形等)，在训练用例图片上标注清楚。具体见图1。

第二步，训练神经网络生成模型

采用监督型学习算法，主要工具和环境利用相对成熟的caffe，caffe是一个关于ANN的深度学习框架。生物大脑由大量的神经细胞构成，这些细胞相互连接成十分复杂的网络。通过传递电化学信号完成神经网络的功能。并且若一个神经元在一段时间内频繁受到激励，则它与连接至输入的神经元之间的连接强度就会相应地改变，从而使得该神经元细胞再次受到激励时更易兴奋；相反，一段时间内不受激励的神经元的连接有效性会慢慢衰减。这一现象说明神经元之间的连接具有可训练型。利用第一步得到的2000张图像特征训练神经网络，设置神经网络的参数，包括feature map的层数，和卷积核的大小。流程图如图3。

2.1神经网络是由很多节点构成的，即人工神经元结构如图2，x1～xn是输入信号，Wij表示从神经元j到神经元i的连接权值，θ表示一个阈值，神经元i的输出与输入的关系表示为：

y_i＝f(net_i)

yi表示神经元i的输出，函数f称为激活函数(Activation Function)或转移函数(Transfer Function)，本发明采用了Sigmoid函数如下，net称为净激活(netactivation)。

导数：

若将阈值看成是神经元i的一个输入x0的权重wi0，则上面的式子可以简

化为：y_i＝f(net_i)

参数含义如上。

若用X表示输入向量，用W表示权重向量，即：

X＝[x()，x1，x2，.......，xn]

则神经元的输出可以表示为向量相乘的形式：

net_i＝XW

y_i＝f(net_i)＝f(XW)

参数含义如上。

2.2将一组训练集(training set)送入网络，根据网络的实际输出与期望输出间的差别来调整连接权。成本函数也称代价函数如下：

其中，C表示代价，x表示样本，y表示实际值，a表示输出值，n表示样本的总数；

依次选择训练集的样本(Ai，y)，Ai为数据、y为特征(所属类别等)，送入网络，计算网络的实际输出a(此时网络中的权重应该都是随机量)，计算D＝y-a(即预测值与实际值相差多少)，根据误差D调整权重矩阵W，对每个用例重复上述过程，直到对整个样本集来说，代价C不超过规定范围，得到成熟网络模型。

第三步，对10万张待标记图片进行预处理

由多种渠道得来的10万张图，由人工粗略分类，经过细致的图像预处理，对采集到的图像进行灰度化、图像增强，滤波、二值化等处理以克服图像干扰；图像增强利用直方图均衡化，即统计直方图每个灰度级出现的次数，累计归一化的直方图，然后计算新的像素值，映射函数如下：

Sk表示处理后每个像素的新值，n为像素个数，Nj表示处理前的像素值。

图像平滑利用高斯滤波，经过实验发现距离中心象素3倍的σ距离的象素，其权重已经降到了可以忽略的程度，是0.0111，所以采用三维卷积核，高斯函数如下：

第四步，利用特征提取算法为预处理好的图片提取特征

依旧选择caffe库提供的特征抽取算法，为10万张输入图像做特征提取。算法主要实现是在给定的图片上找出多边形，只需要找到边缘点，即其周围像素的灰度有阶跃变化或者屋顶状变化的点，由于灰度变化剧烈的地方可能是边界，用这种算法可以较容易地识别出零部件对应的多边形，将背景弱化后可以较为容易的分辨出家具的具体细节。具体步骤涉及命令和路径，10万张输入图像过于庞大，图4仅显示成功提取500张图片时结果。

第五步，利用训练好的模型为图像标记特征

利用第二步训练好的网络模型对上述完成特征提取测试集的图像进行特征标记，识别对应的零件种类及其他特征。输入图片，输出对应的部件形状类别和出现次数。对上述完成标注识别得到的图片集抽样，手动修正标注的特征，达到可作为知识库的程度，这部分内容也是比较关键的。

第六步，分布式环境下根据识别出的输入图像的特征进行搜索

hadoop是一个集成性很高的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，对大文件的存储和大数据量的统计有明显优势，故被广泛的采用和模仿。

5.1hadoop分布式搭建，首先进行伪分布式实验，需要vmware虚拟机，ubuntu的iso镜像文件，java(sdk)的支持，hadoop安装包等。

5.2在虚拟机中模拟出三台一模一样的ubuntu处理机，在root权限下配置java环境，安装ssh，安装rsync，安装hadoop，完成单机模式。

5.3配置伪分布式模式，主要操作是修改hadoop中的一些核心配置文件，并按照相同的方法完成对另外两台的安装搭建。

5.4伪分布式搭建成功后将实验成果，包括搭建步骤，搭建过程中遇到的问题及其解决方法等转移到真机上。

5.5在经过多次实验并考虑经济条件的基础上，发现在六台处理器同时工作时，效率达到一个顶峰，具体配置完成后结果显示在图5。

5.6利用hadoop迭代计算进行目标特征的搜索，抽象成一个递归公式，对10万张图处理多次运行结果可以得到平均时间为22.4s，如图6.

Ri+1为迭代计算下一层的输入值(即上层输出)，Ri表示当前层的值，R0为输入的初值，L为当前层数据个数。

第二部分：算法的具体应用

本发明在用户应用时，首先用户输入一张图片，后台接收到后首先进行预处理，经过特征提取算法后送入神经网络完成特征标记，利用标记好的模型在知识库中检索，找到相似度最高的图片并输出。方法主要以软件的形式提供给用户使用，具体实现形式可分为网站和插件两种形式。网站形式是用户登陆具体网站上传图片，我们提供相应的输出信息，这种形式合作范围广，但初期推广工作不易进行。插件形式可以网页插件或软件插件形式提供，可与具体单位建立合作，为其提供以图搜图服务的服务，这种形式风险小，但合作范围局限。这部分的主要内容在于UI设计与插件制作，UI设计将带给客户不同的使用体验，提高客户的好感度，对于软件的推广有不可忽视的作用。

Claims

1.一种基于图像特征的图像主体的识别方法，其特征在于步骤如下：

第一步，标注选取好的训练集的特征，首先判断图片中物品的所属物种，根据不同的物种细化特征，详细标注后作为训练集待用；

第四步，分布式环境的搭建，首先在虚拟器中开三台ubuntu的虚拟机，将下载好的辅助软件完成安装，为每一台搭建好java环境，正常安装hadoop，继而完成伪分布式配置；然后将实验过程转移到ubuntu的服务器上；利用搭建好的分布式环境试验hadoop自带的例子——词频统计，后台观察数据量相同时的不同数量机器的工作效率，发现六台时达到一个小顶点；

2.根据权利要求1所述的基于图像特征的图像主体的识别方法，其特征在于第三步的实现过程如下：

3.1选取多个种类物品的图像，创建为数据图库存放在caffe/data下新建目录wln，新建文件夹val；通过网络收集涉及的所有种类物品图片n万张，在caffe/data/wln目录下，新建train作为训练库；

3.2创建数据库，在caffe/example目录下新建目录wln；并将caffe/examples/imagenet目录下create_imagenet.sh文件拷贝到wln中，此时需要将输入转为相应格式，通过imagenet例子中给出的create_imagenet.sh对自己的数据库进行转换；接下来训练网络，使用的网络是AlexNet；

3.3最后使用命令：./build/tools/caffe.bintest-model＝examples/wln/train_val.prototxt—weights＝examples/wln/caffenet_model/caffenet_train_iter_16000.caffemodel对网络进行测试，过程中可以./build/tools/caffetime—model＝models/bvlc_reference_caffenet/train_val.prototxt观察各个阶段的运行时间。

3.根据权利要求1所述的基于图像特征的图像主体的识别方法，其特征在于：步骤二所述对这n万张图像进行裁剪，达到统一的格式，利用高斯函数完成图像平滑，即去除图像噪声排除潜在的干扰项，多次循环平滑过程直到处理结果不再改变，高斯函数的卷积核选取3*3大小。

4.根据权利要求1所述的基于图像特征的图像主体的识别方法，其特征在于：步骤四所述分布式环境的搭建，完成伪分布式配置后将实验过程转移到ubuntu的服务器上；利用搭建好的分布式环境试验hadoop自带的例子——词频统计，后台观察数据量相同时的不同数量机器的工作效率，发现六台时达到一个小顶点。

5.根据权利要求1所述的基于图像特征的图像主体的识别方法，其特征在于：步骤五所述人工神经网络训练，采用监督型的学习算法，每次完成一次训练则利用成本函数评估，尽量精确预测结果；神经元同样具有两种状态：1和0，每个神经元的激励函数相同，神经细胞对这些输入信号进行整合并进行阈值处理；如果整合后刺激值超过某一阈值，则神经元被激活进入1状态，否则处于0状态；当一系列的神经元被触发后即得到一个实际输出值；然后利用成本函数评估实际输出与目标输出的误差，若误差很小，则强化该权值，若误差很大，则改变学习的算法以弱化该权值。