CN104820717B - 一种海量小文件存储及管理方法和系统 - Google Patents

一种海量小文件存储及管理方法和系统 Download PDF

Info

Publication number
CN104820717B
CN104820717B CN201510264347.1A CN201510264347A CN104820717B CN 104820717 B CN104820717 B CN 104820717B CN 201510264347 A CN201510264347 A CN 201510264347A CN 104820717 B CN104820717 B CN 104820717B
Authority
CN
China
Prior art keywords
file
small documents
data
metadata
mass small
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510264347.1A
Other languages
English (en)
Other versions
CN104820717A (zh
Inventor
周爱华
孟祥君
何金陵
丁杰
戴江鹏
杨佩
饶玮
潘森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Shandong Electric Power Co Ltd
Global Energy Interconnection Research Institute
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Shandong Electric Power Co Ltd
Global Energy Interconnection Research Institute
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Shandong Electric Power Co Ltd, Global Energy Interconnection Research Institute, Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510264347.1A priority Critical patent/CN104820717B/zh
Publication of CN104820717A publication Critical patent/CN104820717A/zh
Application granted granted Critical
Publication of CN104820717B publication Critical patent/CN104820717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种海量小文件存储及管理方法和系统,所述方法包括:存储海量小文件,并将元数据写入名称节点服务网络;名称节点服务网络管理元数据,实现对客户端访问请求响应。所述系统包括名称节点服务网络系统和海量小文件存储系统。本发明采用了对等计算技术,避免单点失效问题,提供基于关键字的路由查找方法,有效均衡网络负载,提高查询效率。

Description

一种海量小文件存储及管理方法和系统
技术领域
本发明涉及一种存储和管理的方法和系统,具体涉及一种海量小文件存储及管理方法和系统。
背景技术
Hadoop平台采用管理者/工作者模式,由一个名称节点(NameNode)服务器和多个数据节点(DataNode)服务器组成。不论是NameNode服务器还是DataNode服务器都部署在普通的PC机上,大大节约了实施分布式系统投入的成本。在Hadoop中需要用NameNode来管理文件系统的元数据,以响应客户端请求返回文件位置等,因此文件数量大小的限制要由NameNode来决定。假设一个小型数据文件,其元数据所需1KB(1024B)内存空间。如果存在1000万个这样的文件,并且为每一个文件分配一个Block,那么就要消耗NameNode节点约为10GB的内存来保存这些Block的信息;如果每个Block的默认大小为64MB,并且默认备份数量为3,则这1000万个文件所需要的存储空间约为1.92PB(1920TB)。显然,仅仅存储1000万个小文件是不足以满足用户的需求,因为现如今的信息量在急剧的增加,这样很容易超出现阶段计算机硬件所能承受的极限,造成机器宕机。如果有更多文件,那么名称节点的工作压力更大,检索处理元数据所需要的时间就不可接受。特别是这些文件比Hadoop默认文件分块大小还小,Hadoop将认为这些文件是不可分块。海量小文件将耗费名称节点服务器的内存,并且其检索和更新效率低。另外,Hadoop存在的这个唯一的名称节点,它负责管理文件系统名称空间和控制外部客户端的访问,一旦NameNode出现故障就会导致数据访问失效。
发明内容
为了克服上述现有技术的不足,本发明提供一种海量小文件存储及管理方法和系统。
为了实现上述发明目的,本发明采取如下技术方案:
一种海量小文件存储及管理方法,所述方法包括:
存储海量小文件,并将元数据写入名称节点服务网络;
名称节点服务网络管理元数据,实现对客户端访问请求响应。
优选的,所述存储海量小文件包括如下步骤:
步骤1、将海量小文件进行分类,生成所述元数据文件;
步骤2、利用MapReduce编程框架对数据块进行分解、处理得到数据值;
步骤3、将所述数据值分布存储在Hadoop平台中。
优选的,所述步骤1包括如下步骤:
步骤1-1、根据查询文件的文件类型,分类出目标类型文件,并将所述目标类型文件索引进行分类,形成目标文件索引序列;
步骤1-2、对目标文件进行解析,提取出需要存储的小文件元数据信息并存入缓存;
步骤1-3、从缓存中获取所述小文件元数据信息,将其按照Hadoop平台中默认的块大小或指定大小进行文件合并,形成中间数据文件,即元数据文件,放入目标文件夹中。
优选的,所述步骤2采用MapReduce编程框架的Map、Reduce函数,所述Map函数对传入的中间数据文件进行分解处理,产生中间key/value数据序列,所述Reduce函数对所述中间key/value数据序列进行分析合并。
优选的,所述名称节点服务网络管理元数据包括如下步骤:
步骤Ⅰ、获取客户端提交的服务请求;
步骤Ⅱ、根据所述服务请求的key值,查找缓存中是否有所述服务请求的数据信息,若有直接返回给客户端,否则定位所述服务请求到网络中的具体存储节点,并转发所述服务请求到具体NameNode节点;
步骤Ⅲ、KBR服务根据所述key值定位查询所述具体存储节点中文件节点信息并返回客户端。
优选的,所述key值是根据服务请求信息提取的数据进行Hash计算得到的。
优选的,所述KBR服务采用了希尔伯特曲线的数据连续性,提供基于关键字的路由方法供其他NameNode节点查找。
优选的,一种海量小文件存储及管理系统,所述系统包括
名称节点服务网络系统,用于名称节点服务网络管理元数据,实现对客户端访问请求响应;
海量小文件存储系统,用于存储海量小文件,并将元数据写入名称节点服务网络。
优选的,所述海量小文件存储系统包括:
文件类型处理器,根据查询文件的文件类型,分类出目标类型文件,并将目标文件索引进行分类,形成目标文件索引序列,供海量小文件解析器模块调用;
海量小文件解析器模块,从文件类型处理器获得目标文件索引序列,使用多线程解析技术,对目标文件进行解析,提取出需要存储的小文件元数据信息,将提取的元数据存入缓存;
中间数据合并器,将所述元数据按照Hadoop平台中的默认块大小或指定大小进行文件合并,放入指定的目标文件夹中;
中间数据存储器,定时的扫描目标文件夹,获得中间数据文件,将其放入Hadoop平台中,并对所述中间数据文件进行备份;
分布式数据处理器,采用MapReduce编程模型的Map、Reduce函数;Map函数是按照规定的规则,对传入的中间数据文件进行分解处理,产生中间key/value数据序列,然后Reduce函数对这些中间key/value数据序列进行在分析、合并,最后将处理过的数据存入Hadoop平台中。
优选的,所述名称节点服务网络系统包括:
解析器模块,提取客户端提交服务请求的key值;
缓存层模块,对经常用的数据进行缓存;
覆盖网络层,定位所述服务请求到网络中的具体存储节点,并转发所述服务请求到具体NameNode节点,根据所述key值定位查询所述具体存储节点中文件节点信息并返回客户端。
与现有技术相比,本发明的有益效果在于:
本发明名称节点服务网络系统采用对等计算技术,避免了单点失效问题,提供基于关键字的路由查找方法,有效均衡网络负载,提高查询效率,采用同类型小文件合并技术,并使用多线程并行处理编程方法,提高大数据系统的小文件处理效率。
附图说明
图1是一种存储海量小文件方法流程图
图2是一种名称节点服务网络管理元数据的方法流程图
图3是一种存储海量小文件系统模块图
图4是一种名称节点服务网络管理元数据系统模块图
具体实施方式
下面结合附图对本发明作进一步详细说明。
一种海量小文件存储及管理方法,所述方法包括:
存储海量小文件,并将元数据写入名称节点服务网络;
名称节点服务网络管理元数据,实现对客户端访问请求响应。
如图1所示,一种存储海量小文件方法,包括如下步骤:
步骤101、将海量的小文件进行分类,生成所述元数据文件;
步骤102、再利用MapReduce编程框架对数据块进行分解、处理得到数据值;
采用MapReduce编程框架的Map、Reduce函数,所述Map函数对传入的中间数据文件进行分解处理,产生中间key/value数据序列,所述Reduce函数对所述中间key/value数据序列进行分析合并。
步骤103、最后将所述数据值分布存储在Hadoop平台中。
其中步骤101包括如下步骤:
步骤1101、根据查询文件的文件类型,分类出目标类型文件,并将所述目标类型文件索引进行分类,形成目标文件索引序列;
步骤1102、对目标文件进行解析,提取出需要存储的小文件元数据信息并存入缓存;
步骤1103、从缓存中获取所述小文件元数据信息,将其按照Hadoop平台中默认的块大小或指定大小进行文件合并,形成中间数据文件,即元数据文件,放入目标文件夹中。
为了解决名称节点的单点失效问题,本发明提出一种基于对等计算(P2P)技术的名称节点服务网络系统,简称P2PNS。P2P是英文Peer-to-Peer的缩写,Peer的英文含义是“(地位、能力等)同等者、同事、伙伴”,P2P也就可以理解为“伙伴对伙伴”的意思。每个节点地位对等,可以同时成为服务的使用者和提供者,这为大规模的信息共享、直接通信和协同工作提供了灵活的、可扩展的计算平台。P2P计算更关注于Internet上海量的边缘节点;P2P技术的价值也在于为对等节点间的资源共享、通信、协作提供平台,从而完成大规模的计算任务。
如图4所示,本发明所述的名称节点服务网络系统主要包含以下模块:P2PNS解析器、P2PNS缓存层和覆盖网络层。所述的P2PNS解析器模块用于对名称节点的数据存储信息进行管理,所述的P2PNS缓存层模块对经常用的数据进行缓存以提高访问效率,所述的覆盖网络层模块提供DHT和KBR服务。
DHT全称叫分布式哈希表(Distributed Hash Table),是一种分布式存储方法,在不需要服务器的情况下,每个DHT节点负责一定区域其他节点的路由,并存储网络中一部分数据,实现整个DHT网络的寻址和存储,主要提供2种方法:Get(key)和Put(Key,Value),Get(key)用于寻址,Put(Key,Value)用于存储。
KBR(key based route)服务提供的基于关键字的路由方法供其他NameNode查找。KBR服务采用了希尔伯特(Hilbert)曲线的数据连续性,支持资源的分层管理,提高查询效率、减轻网络负载。根据一定的路由算法把所有的P2P节点连接起来,每个节点都跟最近相邻的几个节点相连,并保存它们的信息作为路由表。这样所有的节点就构成了一个逻辑网络,任何一个节点都可以通过一定的中间节点作路由,到达目的节点,并且每一个节点都分配了一个全局唯一的ID值,路由时就是以目的节点的ID值作为关键字进行路由转发。同时对于任意的文件资源,通过资源定位算法,可以将文件定位到某个相应的节点上,然后通过逻辑网络的路由查找,找到相应节点,就可以进行文件的访问。
如图2所示,名称节点服务网络管理元数据的方法包括如下步骤:
步骤201、获取客户端提交的服务请求;
步骤202、根据所述服务请求的key值,查找缓存中是否有所述服务请求的数据信息,若有直接返回给客户端,否则定位所述服务请求到网络中的具体存储节点,并转发所述服务请求到具体NameNode节点;
步骤203、根据所述key值定位查询所述具体存储节点中文件节点信息并返回客户端。
所述key值是根据服务请求信息提取的数据进行Hash计算得到的。
如图3所示,一种存储海量小文件系统包括如下模块:
文件类型处理器。文件类型处理器主要的功能是根据查询文件的文件类型,分类出目标类型文件,并将目标文件索引进行分类,形成目标文件索引序列,供海量小文件解析器模块调用。
海量小文件解析器。本系统的核心组件,小文件解析器的功能是从文件类型处理器获得目标文件索引序列,使用多线程解析技术,对目标文件进行解析,提取出需要存储的小文件元数据信息,将提取的元数据存入缓存待数据合并器模块进行处理。
中间数据合并器。数据合并器即中间数据文件产生器,它是与小文件解析器相对应的一个功能模块。采用生产者-消费者模型,将小文件解析器看成生产者,数据合并器作为消费者。合并器定期的从缓存中获取数据信息,将其按照Hadoop平台中的默认Block块大小或指定的合并后大小进行文件合并,放入指定的目录中。
中间数据存储器。该模块定时的扫描目标文件夹,获得中间数据文件,将其放入Hadoop平台中,并对该中间数据文件进行备份。
分布式数据处理器。分布式数据处理器采用MapReduce编程模型的Map、Reduce函数。Map函数是按照规定的规则,对传入的中间数据文件进行分解处理,产生中间key/value数据序列,然后Reduce函数对这些中间key/value数据序列进行在分析、合并,最后将处理过的数据存入Hadoop平台中。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种海量小文件存储及管理方法,其特征在于,所述方法包括:
存储海量小文件,并将元数据写入名称节点服务网络;
名称节点服务网络管理元数据,实现对客户端访问请求响应;
所述存储海量小文件包括如下步骤:
步骤1、将海量小文件进行分类,生成所述元数据文件;
步骤2、利用MapReduce编程框架对数据块进行分解、处理得到数据值;
步骤3、将所述数据值分布存储在Hadoop平台中;
所述步骤1包括如下步骤:
步骤1-1、根据查询文件的文件类型,分类出目标类型文件,并将所述目标类型文件索引进行分类,形成目标文件索引序列;
步骤1-2、对目标文件进行解析,提取出需要存储的小文件元数据信息并存入缓存;
步骤1-3、从缓存中获取所述小文件元数据信息,将其按照Hadoop平台中默认的块大小或指定大小进行文件合并,形成中间数据文件,即元数据文件,放入目标文件夹中。
2.根据权利要求1所述方法,其特征在于,所述步骤2采用MapReduce编程框架的Map、Reduce函数,所述Map函数对传入的中间数据文件进行分解处理,产生中间key/value数据序列,所述Reduce函数对所述中间key/value数据序列进行分析合并。
3.根据权利要求1所述方法,其特征在于,所述名称节点服务网络管理元数据包括如下步骤:
步骤Ⅰ、获取客户端提交的服务请求;
步骤Ⅱ、根据所述服务请求的key值,查找缓存中是否有所述服务请求的数据信息,若有直接返回给客户端,否则定位所述服务请求到网络中的具体存储节点,并转发所述服务请求到具体NameNode节点;
步骤Ⅲ、KBR服务根据所述key值定位查询所述具体存储节点中文件节点信息并返回客户端。
4.根据权利要求3所述方法,其特征在于,所述key值是根据服务请求信息提取的数据进行Hash计算得到的。
5.根据权利要求3所述方法,其特征在于,所述KBR服务采用了希尔伯特曲线的数据连续性,提供基于关键字的路由方法供其他NameNode节点查找。
6.一种海量小文件存储及管理系统,其特征在于,所述系统包括
名称节点服务网络系统,用于名称节点服务网络管理元数据,实现对客户端访问请求响应;
海量小文件存储系统,用于存储海量小文件,并将元数据写入名称节点服务网络;
所述海量小文件存储系统包括:
文件类型处理器,根据查询文件的文件类型,分类出目标类型文件,并将目标文件索引进行分类,形成目标文件索引序列,供海量小文件解析器模块调用;
海量小文件解析器模块,从文件类型处理器获得目标文件索引序列,使用多线程解析技术,对目标文件进行解析,提取出需要存储的小文件元数据信息,将提取的元数据存入缓存;
中间数据合并器,将所述元数据按照Hadoop平台中的默认块大小或指定大小进行文件合并,放入指定的目标文件夹中;
中间数据存储器,定时的扫描目标文件夹,获得中间数据文件,将其放入Hadoop平台中,并对所述中间数据文件进行备份;
分布式数据处理器,采用MapReduce编程模型的Map、Reduce函数;Map函数是按照规定的规则,对传入的中间数据文件进行分解处理,产生中间key/value数据序列,然后Reduce函数对这些中间key/value数据序列进行再 分析、合并,最后将处理过的数据存入Hadoop平台中。
7.根据权利要求6所述系统,其特征在于,所述名称节点服务网络系统包括:
解析器模块,提取客户端提交服务请求的key值;
缓存层模块,对经常用的数据进行缓存;
覆盖网络层,定位所述服务请求到网络中的具体存储节点,并转发所述服务请求到具体NameNode节点,根据所述key值定位查询所述具体存储节点中文件节点信息并返回客户端。
CN201510264347.1A 2015-05-22 2015-05-22 一种海量小文件存储及管理方法和系统 Active CN104820717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510264347.1A CN104820717B (zh) 2015-05-22 2015-05-22 一种海量小文件存储及管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510264347.1A CN104820717B (zh) 2015-05-22 2015-05-22 一种海量小文件存储及管理方法和系统

Publications (2)

Publication Number Publication Date
CN104820717A CN104820717A (zh) 2015-08-05
CN104820717B true CN104820717B (zh) 2019-05-21

Family

ID=53731012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510264347.1A Active CN104820717B (zh) 2015-05-22 2015-05-22 一种海量小文件存储及管理方法和系统

Country Status (1)

Country Link
CN (1) CN104820717B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503008B (zh) * 2015-09-07 2020-02-14 网宿科技股份有限公司 文件存储方法和装置及文件查询方法和装置
CN105740727A (zh) * 2016-02-02 2016-07-06 上海斐讯数据通信技术有限公司 隐私数据的分布式存储方法及系统
CN107368490A (zh) * 2016-05-12 2017-11-21 中国移动通信集团河北有限公司 数据处理方法及装置
CN106547911B (zh) * 2016-11-25 2020-07-10 长城计算机软件与系统有限公司 一种海量小文件的存取方法和系统
CN106713487B (zh) * 2017-01-16 2020-10-09 腾讯科技(深圳)有限公司 数据的同步方法和装置
CN107103095A (zh) * 2017-05-19 2017-08-29 成都四象联创科技有限公司 基于高性能网络架构的数据计算方法
CN107193940A (zh) * 2017-05-19 2017-09-22 成都四象联创科技有限公司 大数据优化分析方法
CN107861686B (zh) * 2017-09-26 2021-01-05 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN108777685B (zh) * 2018-06-05 2020-06-23 京东数字科技控股有限公司 用于处理信息的方法和装置
CN110196841B (zh) * 2018-06-21 2023-12-05 腾讯科技(深圳)有限公司 文件的存储方法和装置、查询方法和装置及服务器
CN109165207B (zh) * 2018-07-16 2021-11-26 华南农业大学 基于Hadoop的饮用水海量数据存储管理方法和系统
CN109634914B (zh) * 2018-11-21 2021-11-30 华侨大学 一种对讲语音小文件整存散分和分叉检索的优化方法
CN109767274B (zh) * 2018-12-05 2023-04-25 航天信息股份有限公司 一种对海量发票数据进行关联存储的方法及系统
CN112035402A (zh) * 2019-06-04 2020-12-04 顺丰科技有限公司 一种文件存储方法、装置及终端设备
CN111126395B (zh) * 2019-12-25 2023-07-14 福建天晴数码有限公司 R-cnn网络中选择性搜索算法的优化方法、存储介质
CN111126571B (zh) * 2019-12-25 2023-07-14 福建天晴数码有限公司 基于dht网络的r-cnn网络优化方法、存储介质
CN111510497A (zh) * 2020-04-17 2020-08-07 上海七牛信息技术有限公司 一种边缘存储的处理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009029783A2 (en) * 2007-08-29 2009-03-05 Nirvanix, Inc. Load based file allocation among a plurality of storage devices
CN102521383A (zh) * 2011-12-22 2012-06-27 南京烽火星空通信发展有限公司 一种分布式系统中的海量文件存储和访问方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN104516967A (zh) * 2014-12-25 2015-04-15 国家电网公司 一种电力系统海量数据管理系统及其使用方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009029783A2 (en) * 2007-08-29 2009-03-05 Nirvanix, Inc. Load based file allocation among a plurality of storage devices
CN102521383A (zh) * 2011-12-22 2012-06-27 南京烽火星空通信发展有限公司 一种分布式系统中的海量文件存储和访问方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN104516967A (zh) * 2014-12-25 2015-04-15 国家电网公司 一种电力系统海量数据管理系统及其使用方法

Also Published As

Publication number Publication date
CN104820717A (zh) 2015-08-05

Similar Documents

Publication Publication Date Title
CN104820717B (zh) 一种海量小文件存储及管理方法和系统
CN103106249B (zh) 一种基于Cassandra的数据并行处理系统
US8359318B2 (en) System and method for distributed index searching of electronic content
CN103544261B (zh) 一种海量结构化日志数据全局索引管理方法及装置
US20110179002A1 (en) System and Method for a Vector-Space Search Engine
Cambazoglu et al. Scalability challenges in web search engines
Dhulavvagol et al. Performance analysis of distributed processing system using shard selection techniques on elasticsearch
CN104298771A (zh) 一种海量web日志数据查询与分析方法
CN103902735B (zh) 面向大规模集群消重的应用感知数据路由方法及系统
CN105069111A (zh) 云存储中基于相似性的数据块级数据去重方法
Abraham et al. Distributed storage and querying techniques for a semantic web of scientific workflow provenance
CN106202416A (zh) 列表数据写方法和装置、列表数据读取方法和装置
CN104021125A (zh) 一种搜索引擎排序的方法、系统以及一种搜索引擎
CN103823846A (zh) 一种基于图论的大数据存储及查询方法
Singh et al. The anatomy of big data: concepts, principles and challenges
US20160371284A1 (en) Componentized Data Storage
CN104618304A (zh) 数据处理方法及数据处理系统
Changtong An improved HDFS for small file
US20190087445A1 (en) Method of facilitating distributed data search in a federated cloud and system thereof
CN109947759A (zh) 一种数据索引建立方法、索引检索方法及装置
Jafarpour et al. Mics: an efficient content space representation model for publish/subscribe systems
Costantini et al. Performances evaluation of a novel Hadoop and Spark based system of image retrieval for huge collections
Hurst et al. Social streams blog crawler
Podnar et al. Beyond term indexing: A P2P framework for web information retrieval
Sharma et al. Performance evaluation of merging techniques for handling small size files in HDFS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 102209 Beijing City, Changping District science and Technology Park in the future smart grid research institute hospital

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE

Applicant after: State Grid Corporation of China

Applicant after: State Grid Shandong Electric Power Company

Applicant after: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Address before: 102211 Beijing city Changping District Xiaotangshan town big East Village Road No. 270 (future technology city)

Applicant before: State Grid Smart Grid Institute

Applicant before: State Grid Corporation of China

Applicant before: State Grid Shandong Electric Power Company

Applicant before: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant