CN105069136A

CN105069136A - 一种大数据环境下的图像识别方法

Info

Publication number: CN105069136A
Application number: CN201510507897.1A
Authority: CN
Inventors: 许驰
Original assignee: CHENGDU DINGZHIHUI SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: CHENGDU DINGZHIHUI SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2015-08-18
Filing date: 2015-08-18
Publication date: 2015-11-18

Abstract

本发明提出了一种大数据环境下的图像识别方法，包括：步骤S200，训练集图像提取，训练集提取模块负责对原始图像集进行基于pLSA模型的主题聚类分析，通过用户交互的形式选取出训练集图像；步骤S300，分类器训练，分类器学习模块根据用户提供的训练集图像进行分类器的训练，得到用于进行图像标注的分类器；步骤S400，图像标注，分类标注模块利用步骤S300得到的分类器完成对输入的图像或者图像序列进行分类标注的任务；步骤S500，图像检测，所述图像检测包括输入带有标注的一幅图像，在互联网上和/或本地图像数据库中检测与所输入图像的相似度大于给定阈值的图像。本发明采用分布式的云计算方式，能够快速有效的采集网络上的图像数据，有效的提高图像检测的效率和准确性。

Description

一种大数据环境下的图像识别方法

技术领域

本发明涉及图像处理领域，具体涉及一种大数据环境下的图像识别方法。

背景技术

随着多媒体技术和网络技术的快速发展，越来越多的信息以图像的形式呈现出来，而且图像已广泛应用于医学、通信、工农业生产、航天、教育、军事等多个领域。为了更好管理和利用这些海量图片信息，建立有效的分类和检索方式已成为迫切需要解决的问题。前期人们已经在图像检索方面作了大量的研究，就目前的检索趋势而言，大致可分为三个不同的着眼点：一是基于文本的图像检索；二是基于内容的图像检索；三是基于语义的图像检索。

传统的方法是基于文本的图像检索需要人工对图像添加关键字，从而将视觉信息检索转换成成熟的文本检索问题。虽然这种方法简单易行，但是文本描述难以充分表达图像的丰富含义，而且具有主观性；另外，人工标注费时费力，效率低，已远不能满足当今图像快速增长的需要。因此，基于内容的图像检索技术应运而生。区别于基于文本的图像检索它通过自动提取图像的低层特征，主要包括图像的颜色、纹理和形状等低层视觉特征及其组合，该技术解决了基于文本图像检索所存在的一些问题。但对于普通的一般用户而言，提供实例图像并不是一件容易的事，而且图像低层视觉特征与图像的高层语义间还存在“语义鸿沟”，所以采用低层特征进行检索并不能充分的表达图像的深层语义。因此，建立图像语义表示和检索机制势在必行，解决该问题的关键就是要对图像进行自动语义标注。语义标注的实质是通过对图像视觉特征的分析来提取高层语义用于表示图像的含义，从而在图像低层特征和高层语义之间建立一座桥梁，解决低层特征和高层语义间的“鸿沟”问题。其主要思想是从大量图像样本中自动学习语义概念模型，并用此概念模型标注新的图像。目前，人们对图像语义标注的研究已经取得了一定的成果，建立了语义标注的模型，如翻译模型[9]，跨媒体相关模型，还有根据相关模型改进的连续相关模型和MBRM(Multiple-BernoulliRelevanceModel)等。

云计算是一种新的IT资源提供模式，依靠强大的分布式计算能力，使成千上万的终端用户能够依靠网络连接的硬件平台的计算能力实施多种应用。Hadoop是一个分布式系统基础架构，由Apache基金会开发。使用者可以在不了解分布式底层细节的情况下，搭建分布式计算平台。Hadoop的核心组件有两个：Hadoop分布式文件系统(HDFS)和MapReduce。HDFS是一个隐藏下层负载均衡、冗余复制等细节的分布式文件系统，适合部署在廉价的机器上。它能提供高吞吐量的数据访问，非常适合大规模数据集上的应用，并对上层程序提供一个统一的文件系统API(应用程序接口)。HDFS只有一个名字节点，负责管理元数据操作和控制数据块的放置，由数据节点实际保存数据块。另外，MapReduce代表了map和reduce两种操作。大多数分布式运算可以抽象为MapReduce操作。map是把输入分解成中间的key/value对，reduce把key/value合成最终输出。这两个函数由程序员提供给系统，下层设施把map和reduce操作分布在集群上运行，并把结果存储在分布式文件系统上。用户提交MapReduce任务给主节点，JobTracker负责将任务分配到各个子节点上，实现并行处理。

发明内容

为解决现有技术中存在的大数据环境下图像识别处理效率低、准确性差的问题，本发明提出一种大数据环境下的图像识别方法。

本发明提出的一种大数据环境下的图像识别方法，包括：

步骤S200，训练集图像提取

训练集提取模块负责对原始图像集进行基于pLSA模型的主题聚类分析，通过用户交互的形式选取出训练集图像；

步骤S300，分类器训练

分类器学习模块根据用户提供的训练集图像进行分类器的训练，得到用于进行图像标注的分类器；

步骤S400，图像标注

分类标注模块利用步骤S300得到的分类器完成对输入的图像或者图像序列进行分类标注的任务；

步骤S500，图像识别

所述图像识别包括输入带有标注的一幅图像，在互联网上和/或本地图像数据库中识别与所输入图像的相似度大于给定阈值的图像。

其中，步骤S200包括：

训练集提取模块分为3个子模块：更新参数模块、pLSA聚类模块和选取训练集模块；用户通过更新参数模块设置训练集提取任务的参数，pLSA聚类模块根据用户的参数设置进行原始图像的主题聚类分析，完成后用户通过选取训练集模块选取所需的训练集图像。

步骤S500包括：

所述图像识别包括：首先将所述输入图像的内容与互联网上和/或本地图像数据库中的图像的内容进行相似度比较，识别出相似度大于第一阈值的图像；再将输入图像的标注与所述相似度大于第一阈值时的图像的标注进行相似度比较，识别出相似度大于第二阈值的图像；将相似度大于第二阈值的图像作为最终图像识别结果。

其中，所述将所述输入图像的内容与互联网上和/或本地图像数据库中的图像的内容进行相似度比较包括：

对于所述输入图像,通过图像灰度值和纹理特征得到图像的全局特征。

所述的大数据环境下的图像识别方法，进一步包括：

将得到的全局特征进一步转换为一个二进制信号和残差信号。

所述将所述输入图像的内容与互联网上和/或本地图像数据库中的图像的内容进行相似度比较进一步包括：

利用提取的特征信号进行图像识别查找经过以下两个步骤:1)基于二进制信号的哈希查找；2)基于残差信号的重排序。

本发明采用分布式的云计算方式，能够快速有效的采集网络上的图像数据，通过考虑图像标注和图像内容的不同特性，在图像识别时采取不同的策略，能够有效的提高图像识别的效率和准确性。

附图说明

图1为本发明大数据环境下的图像识别方法的流程图；

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述。这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

参见图1，本发明提出的一种大数据环境下的图像识别方法，包括

步骤S100，原始图像采集

图像抓取模块负责将用户的抓取任务提交到图像抓取平台，通过SSH协议连接到云计算平台的主节点，从互联网中抓取所需的原始图像集。

本发明基于现有文本图像搜索引擎的图像抓取器，实现基于云计算的图像抓取平台，达到了高效快速抓取原始图像的效果。

步骤S200，训练集图像提取

训练集提取模块分为3个子模块：更新参数模块、pLSA聚类模块和选取训练集模块。用户通过更新参数模块设置训练集提取任务的参数，pLSA聚类模块根据用户的参数设置进行原始图像的主题聚类分析，完成后用户可以通过选取训练集模块选取所需的训练集图像。

步骤S300，分类器训练

本发明所用的分类器采用支持向量机SVM。

分类器学习模块进一步分为更新参数、SVM学习和更新分类器模块3个子模块。用户通过更新参数模块设置分类器学习任务的参数，SVM学习模块根据用户的参数设置从训练集中学习分类器模型，运行成功后更新分类器模块负责存储更新分类器模型。

本发明中的分类器还可以采用其他的分类器。

步骤S200得到的图像I_i都存储在图像数据库I＝{I₁,I₂,…,I_N}中，Ⅰ将作为训练图像样本集，N为训练图像样本个数.描述图像内容的视觉特征用F＝{F₁,F₂,…,F_N}表示，用于标注图片的语义关键词ω_i构成语义词汇表W＝{ω₁,ω₂,…,ω_M}。给定一幅未标注的图像I，其语义图像自动标注的目标就是抽取最佳关键字集W^*来描述图像的内容。与生成模型通过估计视觉特征和语义概念之间的联合概率分布来建立两者之间的联系不同，该标注模型将图像标注看作多类的分类问题，语义词汇表中的每个标注词定义一个语义类，那么，假设待标注图像I的视觉特征向量为X，利用贝叶斯规则，图像标注可以表示为：

P (ω_{i} | X) = \frac{P (X | ω_{i}) P (ω_{i})}{P (X)},

其中，P(ω_i)是第i个标注词的先验概率，可以看作是均匀分布的；P(X|ω_i)是第i个语义类的类条件概率密度，可用多维变量的正态密度函数来模拟。此时，正态分布的贝叶斯分类器判别函数可表示为：

\begin{matrix} h_{i} (X) = P (X | ω_{i}) P (ω_{i}) \\ = \frac{1}{{(2 π)}^{n / 2} {| S_{i} |}^{1 / 2}} \exp [- \frac{1}{2} (X - \overset{&OverBar;}{X^{(ω_{i})}}) S_{i}^{- 1} (X - \overset{&OverBar;}{X^{(ω_{i})}})] P (ω_{i}), \end{matrix}

其中，为ω_i类的均值向量。将每个语义概念都看作是相互独立的，对于测试图像I，其最佳标注为

ω_{i}^{*} = \underset{i}{\arg m a x} P (ω_{i} | X) = \underset{i}{\arg m a x} h_{i} (X)

一幅图像的语义关键词可能不止一个，因此，可通过P(ω_i|X)或h_i(X)的排序来选择多个标注词。

步骤S400，图像标注

分类标注模块利用步骤S300得到的分类器完成对输入的图像或者图像序列进行分类标注的任务。

分类标注模块分为更新参数、SVM分类和生成类别标注3个子模块。用户通过更新参数设置模块设置任务的参数，SVM分类模块根据用户的参数设置对图像或图像序列进行分类标注，并通过生成类别标注模块生成类别标注文件。

分类标注要满足4个功能需求：原始图像抓取、训练集提取、分类器模型学习和分类标注。用户通过训练集提取可以从原始数据集中生成训练集，然后学习分类器模型，利用分类器模型进行图像的分类和标注，并对分类标注结果进行存储，以供用户查询或者检索系统。

结合系统的架构，本发明把系统分为图像抓取模块、训练集提取模块、分类器学习模块、分类标注模块。其中，图像抓取模块负责将用户的抓取任务提交到图像抓取平台，通过SSH协议连接到云计算平台的主节点，从互联网中抓取所需的原始图像集；训练集提取模块负责对原始图像集进行基于pLSA模型的主题聚类分析，通过用户交互的形式选取出训练集图像；分类器学习模块的任务是根据用户提供的训练集图像学习分类器模型，并保存为分类器模型文件；分类标注模块完成对图像或者图像序列进行分类标注的任务，并生成分类标注文件。

在本发明中，首先，利用云技术发挥互联网中多台硬件的计算能力，加快图像抓取的速度，并获取所需要的原始图像集。其次，当抓取到足够的原始数据集以后，使用训练集提取模块通过交互的方式帮助用户选取恰当的训练集。第三，通过分类器学习模块训练分类器。最后，分类标注模块利用这些分类器对新图像进行分类标注。

步骤S500，图像识别

所述图像识别包括：首先将输入图像的标注与互联网上和/或本地图像数据库中的图像的标注进行相似度比较，识别出相似度大于第一阈值的图像；再将所述输入图像的内容与所述相似度大于第一阈值时的图像的内容进行相似度比较，识别出相似度大于第二阈值的图像；将相似度大于第二阈值的图像作为最终图像识别结果。

本发明上述实施例中，先使用图像的标注进行识别比较，可以首先识别出与输入图像标注语义上相关的图像集合，然后再进行图像内容的比较，识别出内容相近的图像。由于基于图像标注的识别比较速度较快，而基于图像内容的识别比较要耗时得多，因此，该实施例能够在提高图像识别准确性的同时加快识别速度。

或者，

本发明上述实施例中，先使用图像的内容进行识别比较，可以首先识别出与输入图像内容上相关的图像集合，然后再进行图像标注的比较，识别出标注相近的图像。由于内容相似的图像有时所要表达的含义并不相似，该实施例能够识别到内容和语义上与输入图像都相关的图像。

或者，

所述图像识别包括：将输入图像的标注和内容与互联网上和/或本地图像数据库中的图像的标注和内容分别进行相似度比较，根据以下公式进行计算：

D＝αB+βN，

其中，B为图像标注之间的相似度，N为图像内容之间的相似度，α、β分别为图像标注和图像内容所占的权重，D为综合考虑了图像标注和图像内容相似度之后得出的图像之间的相似度；识别出D大于给定阈值的图像；将D大于给定阈值的图像作为最终图像识别结果。

本发明上述实施例中，同时考虑了图像标注和图像内容对图像识别结果的影响，可以得到相对更加客观的识别结果。

所述输入的一幅图像和本地图像数据库中的图像均是通过步骤S400进行的图像标注，当然也可以不对图像的标注进行特殊限制。

对于所述的图像内容的比较，对于所述输入的一幅图像,首先将其均匀地分成8x8的区域块,然后在每个区域中计算其所包含像素的灰度值的中值,进而生成一个64维的灰度值向量。为了更好地表示图像旳视觉内容,除了颜色特征以外,还将纹理特性作为一种重要的补充；在提取纹理特征时首先将图像分成2x2的区域块然后统计每个区域内的梯度直方图,统计过程中用12Bins对梯度方向进行量化同时用一个特征维度记录梯度值为零的像素所占的比例,最终形成一个8x8+2x2x(12+1)＝116维的全局特征。

在超大规模全局特征组成的特征空间中线性扫描依然是一件十分费时的操作过程,为了进一步提高检索和匹配的效率,利用了一种简单又有效的哈希算法将原始特征进一步转换为一个二进制信号和残差信号。具体地,首先使用PCA对原始特征进行主成分分析,保留方差大于给定阈值的特征维度并利用特征空间中保留的每一维特征的中值对原始特征进行二值量化操作(特征值大于中值的量化为1,否则量化为0)从而得到相应的二进制信号。除了保留这些二进制信号,为了提高匹配精度,我们还保留了PCA处理后的前24维特征作为残差信号用于进一步的相似度比较。

利用提取的特征信号进行图像识别查找需要经过以下两个步骤:1)基于二进制信号的哈希查找；2)基于残差信号的重排序。

哈希查找:由于特征信号的生成过程中利用的是PCA对应的线性变换,因而图像对应的特征信号之间的距离也相近,通过度量二进制特征信号之间的汉明距离就可以有效的发现候选图像。具体地,通过图像对应的二进制特征信号可以方便的构建一个哈希表,将具有不同特征信号的图像编号放入不同的哈希桶中。这样给定一幅查询图像,就可以通过哈希操作快速地找出与查询图像特征信号的汉明距离小于或等于2的哈希桶,对于一个16维的二进制信号而言,这样的哈希桶最多有个,因而我们只需要对这137个哈希桶包含的图像做进一步的比较,就可以得到最终的图像查找结果,有效地避免无谓的操作和计算。

上述哈希查找即:通过度量二进制特征信号之间的汉明距离发现候选图像，具体地,通过图像对应的二进制特征信号构建一个哈希表,将具有不同二进制特征信号的图像编号放入不同的哈希桶中，给定一幅查询图像,通过哈希操作找出与查询图像二进制特征信号的汉明距离小于或等于2的哈希桶,对所述哈希桶包含的图像做进一步的比较,得到的图像查找结果作为候选图像。

残差排序:在利用残差信息进行重排序的过程中,我们利用哈希桶中保存的图像编号取出与之相对应的图像残差信号,并通过度量残差信号之间的欧氏距离对候选图像进行重排序。排名靠前并且与查询图像的残差距离小于一定阈值的图像输出作为最终图像查找的识别结果。

上述残差排序即:利用所述哈希桶中保存的图像编号取出与之相对应的图像残差信号,并通过度量残差信号之间的欧氏距离对所述候选图像进行重排序，排名靠前并且与查询图像的残差距离小于一定阈值的图像输出作为最终图像查找的识别结果。

步骤S600，图像输出

将步骤S500中的识别结果图像按照相似度由大到小排序并输出给用户。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种大数据环境下的图像识别方法，包括：

步骤S200，训练集图像提取

步骤S300，分类器训练

步骤S400，图像标注

步骤S500，图像识别

2.如权利要求1所述的大数据环境下的图像识别方法，其中，步骤S200包括：

3.如权利要求1所述的大数据环境下的图像识别方法，其中，步骤S500包括：

4.如权利要求3所述的大数据环境下的图像识别方法，其中，所述将所述输入图像的内容与互联网上和/或本地图像数据库中的图像的内容进行相似度比较包括：

5.如权利要求4所述的大数据环境下的图像识别方法，进一步包括：

6.如权利要求5所述的大数据环境下的图像识别方法，所述将所述输入图像的内容与互联网上和/或本地图像数据库中的图像的内容进行相似度比较进一步包括：