CN103577604A - 一种用于Hadoop分布式环境的图像索引结构 - Google Patents

一种用于Hadoop分布式环境的图像索引结构 Download PDF

Info

Publication number
CN103577604A
CN103577604A CN201310583105.XA CN201310583105A CN103577604A CN 103577604 A CN103577604 A CN 103577604A CN 201310583105 A CN201310583105 A CN 201310583105A CN 103577604 A CN103577604 A CN 103577604A
Authority
CN
China
Prior art keywords
image
file
index
data
hadoop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310583105.XA
Other languages
English (en)
Other versions
CN103577604B (zh
Inventor
董乐
林智煜
封宁
梁燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201310583105.XA priority Critical patent/CN103577604B/zh
Publication of CN103577604A publication Critical patent/CN103577604A/zh
Application granted granted Critical
Publication of CN103577604B publication Critical patent/CN103577604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种用于Hadoop分布式环境的图像索引结构,该图像索引结构包括索引模块和解析模块,所述索引模块含有一个用于存放图像文件ID和偏移量的索引文件和一个用于存放所有图像文件数据的数据文件。本发明通过将大量图像小文件集合到一个大文件中,并且加入了索引结构,通过使用分布式系统进行处理时,解决了海量图像处理开销大且效率低下的问题;文件数量减少之后,系统节省大量管理所需存储空间;文件数量减少之后,任务调度的资源也将减少;文件数量减少之后,启动任务也将变少,达到系统瓶颈的机会大大减少。

Description

一种用于Hadoop分布式环境的图像索引结构
技术领域
本发明涉及图像数据检索技术领域,尤其涉及一种用于Hadoop分布式环境的图像索引结构,其在Hadoop分布式环境下对索引文件进行解析,读取数据文件中的图像数据用于Hadoop Mapreduce框架处理。
背景技术
目前,随着互联网的广泛普及和多媒体技术的飞速发展,多媒体在互联网流量中所占的比重越来越高,尤其是基于图像处理的应用服务已经渐渐取代了传统的文字信息应用。在图像处理领域,由于数字图像处理数据量较大,复杂度高,传统的单机处理已经达到了明显的瓶颈,使用并行处理无疑是一个好的解决方案。
针对目前网络上大部分数据信息都有对应的图像的情况,目前也有一些技术提出:用户在进行信息搜索时,可以以图像作为其输入的内容,从而基于用户输入的图像,通过获取该图像所包含的与图像相关的信息(以下简称图像信息),就可以从图像库中搜索具备与获取的图像信息相匹配的图像信息的图像以克服基于关键词的信息检索方法存在的上述弊端。 
与基于关键词的信息检索方法需要以生成信息索引为前提类似,基于图像的信息检索方法也需要针对图像库中海量的图像生成索引,从而为后续的检索流程提供数据支持。现有技术中,传统的基于图像的信息检索技术,针对图像库中的图像生成图像索引时主要采用的是依据图像的文件名(或其他针对图像的文字描述信息)的方式,该方式的实现前提是需要操作人员手工为图像添加相应的文字描述信息。基于手工添加文字描述信息的方式生成图像索引的缺陷在于:图像库中的图像数量往往非常庞大,基于手工添加文字描述信息的方式生成图像索引势必导致耗费较多的处理资源。并且,由于操作人员在添加文字描述信息时难免带入自身对于图像的一些主观感受,从而上述图像索引生成方式还可能存在生成的图像索引在一定程度上受到操作人员主观感受的影响从而准确性不高的问题。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 可依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop同时是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
(1).高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
(2).高扩展性: Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
(3).高效性: Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
(4).高容错性: Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
但是面对着规模越来越大的海量文件,Hadoop分布式系统在并行处理过程中,也逐渐遇到一些问题,主要有三个方面:一、文件系统管理大量小文件需要极大存储空间;二、大量小文件的任务调度需要占用大量资源;三、由于每个文件都需要启动一个任务,在大量小文件的输入下,不仅浪费调度资源,而且极易达到系统瓶颈造成任务排队。以往的解决方案分为2类:一是扩展整个分布式系统,但是这只能解决并发任务数量的问题,并且扩展系统的成本较高;二是对这些小文件进行压缩合并,如使用Hadoop自带的SequenceFile,但是这样在处理图片文件时会带来另一个问题——Hadoop本身对于图像文件并没有提供专门的接口,怎样让Hadoop可以识别这些图像文件。
发明内容
针对上述现有技术,本发明的目的在于如何提供一种用于Hadoop分布式环境的图像索引结构及检索方法,其旨在解决在海量图像处理中由于处理大量小文件所造成的如下技术问题:一、文件系统管理大量小文件需要极大存储空间;
二、大量小文件的任务调度需要占用大量资源;三、由于每个文件都需要启动一个任务,在大量小文件的输入下,不仅浪费调度资源,而且极易达到系统瓶颈造成任务排队。
为了解决上述技术问题,本发明采用如下技术方案:
一种用于Hadoop分布式环境的图像索引结构,其特征在于,该图像索引结构包括索引模块和解析模块,所述索引模块含有一个用于存放图像文件ID和偏移量的索引文件和一个用于存放所有图像文件数据的数据文件;
解析模块包含自定义的用于解析索引模块中的图像数据并分片转换成ImageWritable的ImageFileInputFormat接口类和ImageWritable接口类。
所述ImageFileInputFormat接口类从索引模块中的索引文件中读取图像文件的ID和偏移量在数据文件中定位并读取数据再通过ImageWritable接口类反序列化成ImageWritable。
与现有技术相比,本发明具有以下有益效果:
本发明通过将大量图像小文件集合到一个大文件中,并且加入了索引结构,通过使用分布式系统进行处理时,解决了海量图像处理开销大且效率低下的问题;文件数量减少之后,系统节省大量管理所需存储空间;文件数量减少之后,任务调度的资源也将减少;文件数量减少之后,启动任务也将变少,达到系统瓶颈的机会大大减少。
附图说明
图1为发明中的索引模块的结构图。
图2为本发明与Hadoop MapReduce模型结合图。
图3为部分实验结果。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
一种用于Hadoop分布式环境的图像索引结构,其特征在于,该图像索引结构包括索引模块和解析模块,所述索引模块含有一个用于存放图像文件ID和偏移量的索引文件和一个用于存放所有图像文件数据的数据文件;
索引文件以Map结构的形式存储,ID是Map的key,偏移量是Map的value。数据文件是一个存储流数据的文件。从Hadoop的文件系统——HDFS上读取图像文件,进行解码,从解码后的数据中解析出图像的文件名,宽高值以及像素信息,存入我们自定义的ImageWritable中,同时计算ImageWritable的大小,作为这张ImageWritable的偏移量,之后把文件名作为ID,和偏移量存入索引文件中,ImageWritable通过ImageWritable接口类序列化到数据文件的末尾。
在Hadoop中定义一个变量——blocksize(默认为64MB),表示每一个切片大小的最大值。由数据文件的大小除以blocksize再加1,可以得到数据文件可以得到切片的数量。对于每一个切片用一个列表来存储解析出的ImageWritable,同时计算偏移量,得到下一张ImageWritable,当偏移量超过blocksize时,一个切片的操作就完成。循环切片操作直到所有切片操作完成。
本发明是用于分布式系统处理海量图像。该结构能够将大量图片小文件集合到一个图像索引结构中,变相转化为一个大文件。该索引结构能够很好的解决分布式系统中对与处理大量小文件存在的问题,大大提高系统效率,同时减少处理时间。
我们的测试实验软硬件环境为:
硬件环境:
电脑类型:2台IBM System P5 570小型机;
CPU:IBM POWER5 CPU 16-core2.2GHz
内存:30.00GB
系统类型:64位操作系统
显示卡:集成显卡
软件环境:
IDE:Eclipse3.7
分布式环境:Hadoop-1.0.3
开发语言:Java
根据附图2所示,我们在Hadoop分布式平台上的实现过程如下:
首先将Hadoop文件系统中获取到的图片文件转为数据流,按照附图1所示结构存入,具体过程为:计算文件大小得到偏移量,使用文件名得到ID,使用Map结构实现索引文件——Key为ID,Value为偏移量,同时将数据流写入数据文件。
接着索引结构作为输入,使用解析模块中的自定义文件输入格式(ImageFileInputFormat)对索引结构进行解析,接着对数据文件进行分片,每一个分片可以作为Hadoop MapReduce框架的输入,同时将图片转换成Hadoop Mapreduce框架可以识别的Writable类型(ImageWritable)。

Claims (3)

1.一种用于Hadoop分布式环境的图像索引结构,其特征在于,该图像索引结构包括索引模块和解析模块,所述索引模块含有一个用于存放图像文件ID和偏移量的索引文件和一个用于存放所有图像文件数据的数据文件。
2.根据权利要求1所述的用于Hadoop分布式环境的图像索引结构,其特征在于,解析模块包含自定义的用于解析索引模块中的图像数据并分片转换成ImageWritable的ImageFileInputFormat接口类和ImageWritable接口类。
3.根据权利要求1所述的用于Hadoop分布式环境的图像索引结构,其特征在于,所述ImageFileInputFormat接口类从索引模块中的索引文件中读取图像文件的ID和偏移量在数据文件中定位并读取数据再通过ImageWritable接口类反序列化成ImageWritable。
CN201310583105.XA 2013-11-20 2013-11-20 一种用于Hadoop分布式环境的图像索引结构 Active CN103577604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310583105.XA CN103577604B (zh) 2013-11-20 2013-11-20 一种用于Hadoop分布式环境的图像索引结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310583105.XA CN103577604B (zh) 2013-11-20 2013-11-20 一种用于Hadoop分布式环境的图像索引结构

Publications (2)

Publication Number Publication Date
CN103577604A true CN103577604A (zh) 2014-02-12
CN103577604B CN103577604B (zh) 2018-07-06

Family

ID=50049380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310583105.XA Active CN103577604B (zh) 2013-11-20 2013-11-20 一种用于Hadoop分布式环境的图像索引结构

Country Status (1)

Country Link
CN (1) CN103577604B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446099A (zh) * 2016-09-13 2017-02-22 国家超级计算深圳中心(深圳云计算中心) 一种分布式云存储方法、系统及其上传下载方法
WO2017101643A1 (zh) * 2015-12-16 2017-06-22 北京奇虎科技有限公司 图像存储方法和设备
CN110109890A (zh) * 2019-05-10 2019-08-09 京东方科技集团股份有限公司 非结构化数据处理方法和非结构化数据处理系统
WO2019223377A1 (zh) * 2018-05-25 2019-11-28 杭州海康威视系统技术有限公司 文件处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136286A (zh) * 2011-12-05 2013-06-05 上海特易信息科技有限公司 一种分布式搜索的架构
CN103207889A (zh) * 2013-01-31 2013-07-17 重庆大学 一种基于Hadoop的海量人脸图像的检索方法
CN103279474A (zh) * 2013-04-10 2013-09-04 深圳康佳通信科技有限公司 一种视频文件索引方法及系统
CN103324762A (zh) * 2013-07-17 2013-09-25 陆嘉恒 基于Hadoop的索引创建方法及其索引方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136286A (zh) * 2011-12-05 2013-06-05 上海特易信息科技有限公司 一种分布式搜索的架构
CN103207889A (zh) * 2013-01-31 2013-07-17 重庆大学 一种基于Hadoop的海量人脸图像的检索方法
CN103279474A (zh) * 2013-04-10 2013-09-04 深圳康佳通信科技有限公司 一种视频文件索引方法及系统
CN103324762A (zh) * 2013-07-17 2013-09-25 陆嘉恒 基于Hadoop的索引创建方法及其索引方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
泰冬雪: "基于Hadoop的海量小文件处理方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101643A1 (zh) * 2015-12-16 2017-06-22 北京奇虎科技有限公司 图像存储方法和设备
CN106446099A (zh) * 2016-09-13 2017-02-22 国家超级计算深圳中心(深圳云计算中心) 一种分布式云存储方法、系统及其上传下载方法
WO2019223377A1 (zh) * 2018-05-25 2019-11-28 杭州海康威视系统技术有限公司 文件处理方法、装置、设备及存储介质
CN110109890A (zh) * 2019-05-10 2019-08-09 京东方科技集团股份有限公司 非结构化数据处理方法和非结构化数据处理系统

Also Published As

Publication number Publication date
CN103577604B (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN109254982B (zh) 一种流数据处理方法、系统、装置及计算机可读存储介质
CN109034993B (zh) 对账方法、设备、系统及计算机可读存储介质
Zaharia et al. Fast and interactive analytics over Hadoop data with Spark
Das et al. Big data analytics: A framework for unstructured data analysis
US8344916B2 (en) System and method for simplifying transmission in parallel computing system
US9906477B2 (en) Distributing retained messages information in a clustered publish/subscribe system
CN111949633B (zh) 一种基于并行流处理的ict系统运行日志分析方法
US9953071B2 (en) Distributed storage of data
EP3872651A1 (en) Determination method and apparatus for video distribution timeliness
CN110019873B (zh) 人脸数据处理方法、装置及设备
US8688718B1 (en) Management of data segments for analytics queries
CN112115113B (zh) 数据存储系统、方法、装置、设备以及存储介质
CN113906445A (zh) 上下文感知数据挖掘
CN103577604A (zh) 一种用于Hadoop分布式环境的图像索引结构
WO2022048204A1 (zh) 图像生成方法、装置、电子设备及计算机可读存储介质
CN111125013A (zh) 一种数据入库方法、装置、设备及介质
US11853217B2 (en) Multi-cache based digital output generation
CN105159820A (zh) 一种系统日志数据传输方法及装置
US11557047B2 (en) Method and apparatus for image processing and computer storage medium
CN111611479B (zh) 用于网络资源推荐的数据处理方法及相关装置
王岩 et al. Density-based distributed clustering method
US8849833B1 (en) Indexing of data segments to facilitate analytics
CN110727845B (zh) 一种基于爬虫文本的最近发文优先处理方法及系统
CN113360558A (zh) 数据处理方法、数据处理装置、电子设备及存储介质
CN106776772B (zh) 一种数据检索的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant