CN103310460A

CN103310460A - 图像特征提取的方法及系统

Info

Publication number: CN103310460A
Application number: CN2013102532906A
Authority: CN
Inventors: 雷桥兵; 吴金勇; 秦兴德
Original assignee: China Security and Surveillance Technology PRC Inc
Current assignee: China Security and Surveillance Technology PRC Inc
Priority date: 2013-06-24
Filing date: 2013-06-24
Publication date: 2013-09-18

Abstract

本发明适用于数据领域，提供了一种图像特征提取的方法及系统，所述方法包括步骤：S1、主节点将待特征提取的图像数据分布于至少二个子节点；S2、当主节点收到图像特征提取的任务时，将所述任务及对应的特征提取算法分发至所述子节点；S3、所述子节点根据收到的任务及特征提取算法对本地的图像数据进行特征提取，得到图像特征值；S4、所述主节点将所述子节点的图像特征值进行归并。本发明实施例的方法及系统可提交图像处理的效率。

Description

图像特征提取的方法及系统

技术领域

本发明属于数据处理领域，尤其涉及一种图像特征提取的方法及系统。

背景技术

多媒体数据挖掘技术是数据挖掘技术和多媒体技术结合的产物，是数据挖掘、人工智能、机器学习、数据库技术、多媒体技术等学科的交叉领域，包括图像挖掘、视频挖掘、音频挖掘、文本挖掘等专业领域内的知识挖掘及综合性挖掘。多媒体数据挖掘在行为分析、个性化推荐、舆情监测、视频检索、图片过滤、欺诈检测等领域有着广泛的应用。

图像特征提取是跨媒体数据预处理的重要组成部分，也是图像识别和图像挖掘基础环节，图像原始的数据空间难以表达具体的图像特征，通过特征提取算法将图像描述为具体的底层特征，比如边缘特征、纹理特征等。传统的图像特征提取技术采用串行计算的方法，特征提取装置运行在单台机子上，其处理能力低下尤其是需要对海量图像数据进行特征提取时难以满足用户需求。

发明内容

本发明实施例的目的在于提供一种图像特征提取的方法及系统，旨在解决现有的使用串行算法进行图像特征提取导致效率低下的问题。

本发明实施例是这样实现的，一种图像特征提取的方法，所述方法包括步骤：

S1、主节点将待特征提取的图像数据分布于至少二个子节点；

S2、当主节点收到图像特征提取的任务时，将所述任务及对应的特征提取算法分发至所述子节点；

S3、所述子节点根据收到的任务及特征提取算法对本地的图像数据进行特征提取，得到图像特征值；

S4、所述主节点将所述子节点的图像特征值进行归并。

进一步地，在执行步骤S3之后，还包括：

所述主节点根据各子节点输出的图像特征值数量动态调整所述各子节点的任务，并返回步骤S3，直到所有子节点的任务结束。

进一步地，所述步骤S3具体包括：

所述子节点将收到的图像数据转换为灰度图像数据；

将所述灰度图像数据进行直方均衡化。

进一步地，还包括：

当某一子节点的任务失败时，该子节点重新启动任务直到预设的次数或启动备份子节点执行所述失败的任务。

进一步地，所述当某一子节点的任务失败时，该子节点启动备份子节点执行所述失败的任务具体包括：

所述任务失败的子节点向备份子节点发出执行请求，启动所述备份子节点执行所述失败的任务；

当超过预设数量的备份子节点执行所述失败的任务不成功时，结束所述失败的任务。

本发明还提出一种图像特征提取的系统，所述系统包括主节点和至少二个子节点，其中，

所述主节点包括：

建立数据库模块，用于将待特征提取的图像数据分布于所述子节点；

任务分发模块，用于当收到图像特征提取的任务时，将所述任务及对应的特征提取算法分发至所述子节点；

归并模块，用于将所述子节点的图像特征值进行归并；

所述子节点包括：

特征提取模块，用于根据收到的任务及特征提取算法对本地的图像数据进行特征提取，得到图像特征值。

进一步地，所述主节点还包括：

动态均衡模块，用于根据各子节点输出的图像特征值数量动态调整所述各子节点的任务，并返回由所述子节点继续根据收到的任务及特征提取算法对本地的图像数据进行特征提取，直到所有子节点的任务结束。

进一步地，所述特征提取模块包括：

数据转换单元，用于将收到的图像数据转换为灰度图像数据；

直方均衡单元，用于将所述灰度图像数据进行直方均衡化。

进一步地，所述子节点还包括：

故障处理模块，当任务失败时，重新启动任务直到预设的次数或启动备份子节点执行所述失败的任务。

进一步地，所述故障处理模块包括：

请求单元，用于向备份子节点发出执行请求，启动所述备份子节点执行所述失败的任务；

结束任务单元，用于当超过预设数量的备份子节点执行所述失败的任务不成功时，结束所述失败的任务。

本发明实施例在图像特征提取过程中采用并行计算方式，能够提高图像处理的效率，降低图像特征提取的时间复杂度，有着优秀的海量数据处理性能。进一步地，本发明实施例采用Hadoop系统的Map/Reduce框架，可以根据输入图像数据分布等信息自动创建多个并行子任务，有效地按照集群中各个节点的负载情况动态地接受特征提取任务，将子任务调度到合适的集群节点上并行执行，有效的利用了Hadoop系统的并行计算功能和大规模数据存储功能。

附图说明

图1是本发明实施例一提供的图像特征提取的方法的流程图；

图2是本发明实施例一提供的图像特征提取的方法中步骤S2的流程图；

图3是本发明实施例一提供的图像特征提取的方法中步骤S3的流程图；

图4是本发明实施例一提供的图像特征提取的方法中步骤S4的流程图；

图5是本发明实施例一提供的图像特征提取的方法的另一流程图；

图6是本发明实施例二提供的图像特征提取的系统的结构图；

图7是本发明实施例二提供的图像特征提取的系统中主节点的结构图；

图8是本发明实施例二提供的图像特征提取的系统中子节点的结构图；

图9是本发明实施例二提供的图像特征提取的系统中特征提取模块的结构图；

图10是本发明实施例二提供的图像特征提取的系统中故障处理模块的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

本发明实施例一提供一种图像特征提取的方法。如图1所示，本发明实施例一的方法包括如下步骤：

S1、主节点将待特征提取的图像数据分布于至少二个子节点，建立图像数据库。本发明实施例一的方法预先建立了集群，集群中包括一主节点和至少两个子节点，实际应用中，可根据需要特征提取的图像数据的数量拓展该集群主节点下子节点的数量。集群上每个子节点均是一台普通的计算机。

S2、当主节点收到图像特征提取的任务时，将任务及对应的特征提取算法分发至子节点。

该步骤中，主节点将任务分发到各个子节点的TaskTracker中，每个TaskTracker将运行任务，调用本地的图像数据进行处理。同时主节点还将各子节点对应的特征提取算法分发到对应的子节点。上述任务包括各子节点需要处理的图像数据以及需要提取的图像特征。

如图2所示，该步骤中，任务分配具体为：

步骤S201、由Map/Reduce程序定义输入文件格式、Map操作和Reduce操作，指定HDFS输入／输出文件的位置，启动作业。

步骤S202、复制作业。客户端根据配置大小将输入的图像数据集切割成若干个Split，将Split信息、打包的作业程序以及相关的配置信息复制到共享存储如HDFS后给Job Tracker，随后用户程序进入等待状态。

步骤S203、Job Tracker初始化作业，根据客户端提交到HDFS上的Split分块信息和配置文构建映射任务。

步骤S204、子节点的Task Tracker通过一个简单循环周期性地向Job Tracker发送心跳，请求一个新映射任务或合并任务，并从共享存储获取任务相关的资源如数据和程序，启动本机子进程创建任务。

步骤S205、Job Tracker将构成该作业的所有映射任务和合并任务加入任务队列。

S3、子节点根据收到的任务及特征提取算法对本地的图像数据进行特征提取，得到图像特征值。

收到任务时，各子节点采用Hadoop系统的Map/Reduce开源框架的集群图像处理方式，通过图像解码器将图像数据读入进行预处理。预处理的过程包括将子节点本地的图像数据转换为灰度图像数据（如256级灰度级的图像数据），然后灰度图像数据将进行直方图均衡化，经过直方图均衡化后，可以提高图像数据的对比度，减少后续特征提取的运算量。

需要注意的是，本步骤中的预处理过程也可以在步骤S1之后，步骤S2之前进行，即各子节点在收到分布的图像数据后进行预处理，并存储在本端。

上述Hadoop系统是一个开源的云计算框架，它是一个适合处理海量数据的并行编程系统，可以根据输入数据分布等信息自动创建多个并行子任务，并将子任务高度至合适的集群节点上并行执行。Map/Reduce是Hadoop系统的一个核心模块，它使得开发人员不必关心节点失败、任务失效及任务之间的数据等问题，而只需按照MapReduce编程规范定义好map函数、reduce函数以及一些数据格式信息，即可完成分布式数据处理。

该步骤中，如果其中一个子节点特征提取失败，重启特征提取任务，当在该子节点的失败超过预设的次数时，报告任务失败。或者，主节点此时可重新在拥有备份的另一个子节点（失败子节点的备份子节点）上执行特征提取的任务，或由失败的子节点向备份子节点发出执行请求，使得备份子节点执行上述失败的任务，如果超过预设数量的备份子节点的特征提取都失败（如超过3个备份的特征提取失败，备份的数量可根据需要进行预设），则表示此子节点的任务失败，结束该失败的任务。

步骤S3可采用计算效率高、特征表达能力强的SIFT、U-LBP、HOG、Tamura和GLCM等特征提取方法提取图像特征值。

上述基于共生矩阵的（GLCM）特征提取方法，首先灰度直方图均衡化技术把灰度级降为16，然后计算能量(energy)、对比度(contrast)、相关性(correlation)、熵(entropy)、逆差矩(Homogeneity)、差异性(Dissimilarity)六种特征的0、45、90、135度四个方向上的灰度共生矩阵特征值。Tamura纹理特征的提取方法，提取粗糙度(coarseness)、对比度(contrast)、方向度(directionality)三个特征值。U-LBP（Uniform local binary pattern）算子的纹理特征提取方法，首先通过U-LBP算子计算灰度图的纹理图像，然后提取其直方图。HOG特征提取方法，提取归一化后的图像每一个细胞单元的梯度方向直方图，把这些直方图组合起来构成HOG特征描述器。

步骤S3中，各子节点并行处理图像数据过程是在Mapper类的map()函数完成的。map()函数的工作流程如图3所示，包括：

步骤S301、图像数据或者图像数据分片存储在HDFS上，需要将图像数据的文件从HDFS上下载到本地，map()函数读取键值对<PicFileName，FileSplit>。

步骤S302、解析出图像数据的文件在HDFS上的存储位置。

步骤S303、将图像数据或者图像数据的分片下载到本地。

步骤S304、在本地完成特征提取的工作。map()函数调用子节点内相应的特征提取算法完成特征提取工作。

步骤S305、将提取的图像特征值写入键值对，其输出的键值对是<图片文件名，特征值>。

S4、主节点将所述子节点的图像特征值进行归并。

该步骤中，通过Reducer将各个子节点提取的图像特征值归并到统一特征库中进行存储。主节点的归并处理工作是由Reducer的reduce()函数完成的，reduce()函数的工作流程如图4所示，包括：

步骤S401、reduce()函数读取map（）函数输出的键值对。

步骤S402、解析map()函数传递过来的图片特征值的位置信息。

步骤S403、调用图像特征值合并方法对图片特征值进行合并。

步骤S404、将合并结果存储到统一特征库中，reduce函数不输出键值对。

如图5所示，本发明实施例一中，在执行步骤S3之后，还可进一步包括：

步骤S5：判断各个子节点的任务是否完成，是则结束本流程，否则进入步骤S6。

步骤S6：主节点根据各子节点输出的图像特征值数量动态调整各子节点的任务。主节点的Job Tracker通过动态均衡器执行各子节点任务的均匀分配，并返回步骤S3。

步骤S6中，动态均衡器的运行由负责根据每一个子节点TaskTracker反馈的分桶情况和完成比例产生一个自适应当前任务数据的静态哈希函数，并采用该静态哈希函数用于数据划分。将各子节点输出的数据采用动态哈希函数划分方法进行分桶保存，其中各子节点的Map输出的数据中，同一key对应的记录保存在同一桶内；当一桶包含不同key时，其记录个数或占用的存储空间不得超过预先设定的该子节点的阈值。动态均衡器根据Job Tracker中提供的当前任务下的所有子节点的Map输出数据的桶的分布情况(<桶号，记录大小>集合)，产生一个静态的哈希函数和特定的Reduce设置的个数，并且把这个哈希函数发送给所有映射端。该静态的哈希函数为针对各子节点所有数据的分布特点的一种静态的划分方法，划分方法将尽可能保证所有数据经过Map操作之后能够自适应地均匀把数据分配给各个Reduce中，也就是分区中的均匀程度不得低于一定的阈值。而且划分成的集合的个数等于所需要Reduce的个数。

本发明实施例一的方法将图像特征提取的任务分布在各个子节点，将大规模的图像数据处理移植到Hadoop系统，在Map/Reduce并行计算框架下实现图像特征的快速提取，满足了海量图像数据特征提取的高效率。此外，本发明实施例一采用Map/Reduce模型下负载均衡策略，通过一个动态均衡器可以有效地按照集群中各个子节点的负载情况动态地调整各子节点的特征提取任务，避免子节点负载过重或过轻的情况。本发明实施例一支持动态扩容，随着需求的不断增加，当现有处理能力无法满足处理总量时，只需要增加子节点，无需停止服务，即可动态地增加处理性能，具有良好的可扩充性，能满足未来业务量和应用需求的增加，在增加新特征提取算法、新模块时进行平滑升级，不影响现有特征提取方法和功能模块的正常使用。

实施例二

本发明实施例二提出一种图像特征提取的系统。如图6所示，本发明实施例二的系统包括主节点10和至少二个子节点20。实际应用中，可根据需要特征提取的图像数据的数量拓展该主节点10下子节点20的数量。每个子节点20均是一台普通的计算机。

如图7所示，主节点10可包括：

建立数据库模块11，用于将待特征提取的图像数据分布于子节点20；

任务分发模块12，用于当收到图像特征提取的任务时，将任务及对应的特征提取算法分发至子节点20；

动态均衡模块13，用于根据各子节点20输出的图像特征值数量动态调整各子节点20的任务，并返回由子节点20继续根据收到的任务及特征提取算法对本地的图像数据进行特征提取，直到所有子节点20的任务结束。

归并模块14，用于将子节点20的图像特征值进行归并。

如图8所示，子节点20可包括：

特征提取模块21，用于根据收到的任务及特征提取算法对本地的图像数据进行特征提取，得到图像特征值；

故障处理模块22，当任务失败时，重新启动任务直到预设的次数或启动备份子节点执行该失败的任务。

如图9所示，特征提取模块21包括：

数据转换单元211，用于将收到的图像数据转换为灰度图像数据；

直方均衡单元212，用于将灰度图像数据进行直方均衡化。

如图10所示，故障处理模块22包括：

请求单元221，用于向备份子节点发出执行请求，启动备份子节点执行失败的任务；

结束任务单元222，用于当超过预设数量的备份子节点执行失败的任务不成功时，结束该失败的任务。

本发明实施例二的系统工作过程如下：

首先，主节点10的建立数据库模块11将待特征提取的图像数据分布存储在集群的各个子节点20中，建立图像数据库。

其次，当主节点10接收到客户端提交的任务后，任务分发模块12将任务分发到各个子节点20的TaskTracker中，每个TaskTracker将运行任务，调用本地的图像数据进行处理。同时任务分发模块12还将各子节点20对应的特征提取算法分发到对应的子节点20。上述任务包括各子节点20需要处理的图像数据以及需要提取的图像特征。

上述任务分发模块12任务分配具体过程为：由Map/Reduce程序定义输入文件格式、Map操作和Reduce操作，指定HDFS输入／输出文件的位置，启动作业。客户端根据配置大小将输入的图像数据集切割成若干个Split，将Split信息、打包的作业程序以及相关的配置信息复制到共享存储如HDFS后给JobTracker，随后用户程序进入等待状态。Job Tracker初始化作业，根据客户端提交到HDFS上的Split分块信息和配置文构建映射任务。子节点20的Task Tracker通过一个简单循环周期性地向Job Tracker发送心跳，请求一个新映射任务或合并任务，并从共享存储获取任务相关的资源如数据和程序，启动本机子进程创建任务。Job Tracker将构成该作业的所有映射任务和合并任务加入任务队列。

各子节点20的特征提取模块21根据分发到的特征提取算法并行执行各自被分配的任务，得到图像特征值。

子节点20接收到任务时，特征提取模块21采用Hadoop系统的Map/Reduce开源框架的集群图像处理方式，通过图像解码器将图像数据读入进行预处理。预处理的过程包括将数据转换单元211本地的图像数据转换为灰度图像数据（如256级灰度级的图像数据），然后直方均衡单元212将灰度图像数据进行直方图均衡化，经过直方图均衡化后，可以提高图像数据的对比度，减少后续特征提取的运算量。

需要注意的是，上述预处理过程也可以在子节点20收到图像数据后立即进行，即各子节点20在收到分布的图像数据后进行预处理，并存储在本端。

随后，特征提取模块21采用计算效率高、特征表达能力强的SIFT、U-LBP、HOG、Tamura和GLCM等特征提取方法提取图像特征值。上述基于共生矩阵的（GLCM）特征提取方法，首先灰度直方图均衡化技术把灰度级降为16，然后计算能量(energy)、对比度(contrast)、相关性(correlation)、熵(entropy)、逆差矩(Homogeneity)、差异性(Dissimilarity)六种特征的0、45、90、135度四个方向上的灰度共生矩阵特征值。Tamura纹理特征的提取方法，提取粗糙度(coarseness)、对比度(contrast)、方向度(directionality)三个特征值。U-LBP（Uniform local binary pattern）算子的纹理特征提取方法，首先通过U-LBP算子计算灰度图的纹理图像，然后提取其直方图。HOG特征提取方法，提取归一化后的图像每一个细胞单元的梯度方向直方图，把这些直方图组合起来构成HOG特征描述器。

各子节点20并行处理图像数据过程是在Mapper类的map()函数完成的。map()函数的工作流程如图3所示。图像数据或者图像数据分片存储在HDFS上，需要将图像数据的文件从HDFS上下载到本地，map()函数接收键值对<PicFileName，FileSplit>，从中解析出图像数据的文件在HDFS上的存储位置后将图像数据或者图像数据的分片下载到本地，在本地完成特征提取的工作。map()函数调用子节点20内相应的特征提取算法完成特征提取工作，其输出的键值对是<图片文件名，特征值>。

如果其中一个子节点20特征提取失败，则该子节点20的故障处理模块22重启特征提取任务，当在该子节点20的失败超过预设的次数时，报告任务失败。或者，主节点10此时可重新在拥有备份的另一个子节点20（失败子节点20的备份子节点）上执行特征提取的任务，或由故障处理模块22的请求单元221向备份子节点发出执行请求，使得备份子节点执行上述失败的任务，如果超过预设数量的备份子节点的特征提取都失败（如超过3个备份的特征提取失败，备份的数量可根据需要进行预设），则表示此子节点的任务失败，结束任务单元222结束该失败的任务。

在子节点20处理图像数据过程中，主节点10实时通过动态均衡模块13调整各子节点20任务的分发，直到所有子节点20的任务结束，各子节点20得到提取后的图像特征值。

动态均衡模块13的运行由负责根据每一个子节点20TaskTracker反馈的分桶情况和完成比例产生一个自适应当前任务数据的静态哈希函数，并采用该静态哈希函数用于数据划分。

动态均衡模块13将各子节点20输出的数据采用动态哈希函数划分方法进行分桶保存，其中各子节点20的Map输出的数据中，同一key对应的记录保存在同一桶内；当一桶包含不同key时，其记录个数或占用的存储空间不得超过预先设定的该子节点20的阈值。

动态均衡模块13根据Job Tracker中提供的当前任务下的所有子节点20的Map输出数据的桶的分布情况(<桶号，记录大小>集合)，产生一个静态的哈希函数和特定的Reduce设置的个数，并且把这个哈希函数发送给所有映射端。该静态的哈希函数为针对各子节点20所有数据的分布特点的一种静态的划分方法，划分方法将尽可能保证所有数据经过Map操作之后能够自适应地均匀把数据分配给各个Reduce中，也就是分区中的均匀程度不得低于一定的阈值。而且划分成的集合的个数等于所需要Reduce的个数。

最后，归并模块14通过Reducer将各个子节点20提取的图像特征值归并到统一特征库中进行存储。归并模块14的归并处理工作是由Reducer的reduce()函数完成的。reduce()函数接收map()函数传递过来的图片特征值的位置信息，调用图像特征值合并方法对图片特征值进行合并，并将结果存储到特征库中，reduce函数不输出键值对。

本发明实施例二的系统将图像特征提取的任务分布在各个子节点20，将大规模的图像数据处理移植到Hadoop系统，在Map/Reduce并行计算框架下实现图像特征的快速提取，满足了海量图像数据特征提取的高效率。此外，本发明实施例二采用Map/Reduce模型下负载均衡策略，通过一个动态均衡器可以有效地按照集群中各个子节点20的负载情况动态地调整各子节点20的特征提取任务，避免子节点20负载过重或过轻的情况。本发明实施例二支持动态扩容，随着需求的不断增加，当现有处理能力无法满足处理总量时，只需要增加子节点20，无需停止服务，即可动态地增加处理性能，具有良好的可扩充性，能满足未来业务量和应用需求的增加，在增加新特征提取算法、新模块时进行平滑升级，不影响现有特征提取方法和功能模块的正常使用。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像特征提取的方法，其特征在于，所述方法包括步骤：

S4、所述主节点将所述子节点的图像特征值进行归并。

2.如权利要求1所述的方法，其特征在于，在执行步骤S3之后，还包括：

3.如权利要求1或2所述的方法，其特征在于，所述步骤S3具体包括：

所述子节点将收到的图像数据转换为灰度图像数据；

将所述灰度图像数据进行直方均衡化。

4.如权利要求1或2所述的方法，其特征在于，还包括：

5.如权利要求4所述的方法，其特征在于，所述当某一子节点的任务失败时，该子节点启动备份子节点执行所述失败的任务具体包括：

6.一种图像特征提取的系统，其特征在于，所述系统包括主节点和至少二个子节点，其中，

所述主节点包括：

归并模块，用于将所述子节点的图像特征值进行归并；

所述子节点包括：

7.如权利要求6所述的系统，其特征在于，所述主节点还包括：

8.如权利要求6或7所述的系统，其特征在于，所述特征提取模块包括：

直方均衡单元，用于将所述灰度图像数据进行直方均衡化。

9.如权利要求6或7所述的系统，其特征在于，所述子节点还包括：

10.如权利要求9所述的系统，其特征在于，所述故障处理模块包括：