CN102426609B - 一种基于MapReduce编程架构的索引生成方法和装置 - Google Patents

一种基于MapReduce编程架构的索引生成方法和装置 Download PDF

Info

Publication number
CN102426609B
CN102426609B CN 201110446325 CN201110446325A CN102426609B CN 102426609 B CN102426609 B CN 102426609B CN 201110446325 CN201110446325 CN 201110446325 CN 201110446325 A CN201110446325 A CN 201110446325A CN 102426609 B CN102426609 B CN 102426609B
Authority
CN
China
Prior art keywords
index
data
inverted index
cluster
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110446325
Other languages
English (en)
Other versions
CN102426609A (zh
Inventor
兰轶伦
汤伟宾
章正道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN 201110446325 priority Critical patent/CN102426609B/zh
Publication of CN102426609A publication Critical patent/CN102426609A/zh
Application granted granted Critical
Publication of CN102426609B publication Critical patent/CN102426609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于MapReduce编程架构的索引生成方法和装置,其中方法包括步骤:获取数据,并将数据整理成统一的格式,以记录集合形式进行存储;对记录集合中的每条数据记录进行头部封装;向HBase集群批量插入经头部封装的数据记录;调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群;进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;进行Reduce操作,生成倒排索引文件;启动一个新的Map任务,对倒排索引文件进行分片操作,生成最终的索引。采用本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。

Description

一种基于MapReduce编程架构的索引生成方法和装置
技术领域
本发明涉及互联网信息技术领域,更具体地说,涉及一种基于MapReduce编程架构的索引生成方法和装置。
背景技术
传统的索引引擎(如:lucene及基于lucene的Solr)创建索引及管理索引的保存方式仍是基于文件的,该方式有多种弊端:
1、不适用与集群文件系统保存,因为索引文件仍是大批量小文件,放在集群文件系统上将使读写效率大幅下降;
2、不容易进行集群化扩展,在大量数据同时建立索引时,由于频繁的创建新分片、合并,易使索引引擎的响应时间提升,效率降低。
综合以上的分析可以发现:通过引进一种外部的管理方式来提升索引引擎本身的索引生成效率势在必行。
MapReduce(映射化简)系统是一个最先由Google提出的分布式计算软件构架,通过定义相应的映射(Map)和化简(Reduce)函数来实现大数据量的分布式处理,可以用来解决大数据量的分布式计算问题,然后把计算后的结果放入文件系统或者数据库中。
MapReduce系统中,每一个map操作都是相对独立的,所有的map任务都是并行运行的,虽然实践中会受到数据源和中央处理器个数的影响。同样的,MapReduce系统用一个reducer集合来执行reduce操作,所有带有相同key的map输出会聚集到同一个reducer。虽然这个过程看上去没有串行计算来得高效,但是MapReduce系统能够处理一般服务器所不能处理的大数据量处理问题。大型的服务器集群可以在几个小时内处理petabyte数据量的排序问题。而并行处理可以提供部分容错和出错恢复的功能,当一个map操作或reduce操作失效时,整个工作就会被重新安排,从而不会影响数据处理工作的连续性。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于MapReduce编程架构的索引生成方法和装置,其能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。
本发明解决其技术问题所采用的技术方案是:
构造一种基于MapReduce编程架构的索引生成方法,其中,包括步骤:
获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
对所述记录集合中的每条数据记录进行头部封装;
并行向HBase集群批量插入经头部封装的数据记录;
调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;
对所述HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;
对所述HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;
启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
本发明所述的索引生成方法,其中,,所述步骤:对所述记录集合中的每条数据记录进行头部封装,具体包括:
读取所述记录集合中的数据记录;
在所述数据记录头部添加标示值;
在添加有所述标示值的数据记录头部添加主键值。
本发明所述的索引生成方法,其中,所述步骤:进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件,具体包括:
扫描所述HBase集群中每一条数据记录,运用分词方法,将所述数据记录切分为多个关键字的集合;
汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成所述倒排索引中间文件。
本发明所述的索引生成方法,其中,所述步骤:进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件,具体包括:
读取所述倒排索引中间文件;
汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行Reduce操作,形成所述倒排索引文件。
本发明所述的索引生成方法,其中,所述启动一个新的Map任务,对所述倒排索引文件进行分片操作,生成最终的索引具体包括:
对所述HBase集群中每一条数据记录的标示值进行运算;
根据所述标示值,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
本发明还提供了一种基于MapReduce编程架构的索引生成装置,其中,包括:
数据输入模块,用于获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
数据封装模块,用于对所述记录集合中的每条数据记录进行头部封装;
数据插入模块,用于并行向HBase集群批量插入经头部封装的数据记录;
事件通知模块,用于调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;
Map并行预处理模块,用于对所述HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;
Reduce并行预处理模块,用于对所述HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;
Solr集群Map调度模块,用于启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
本发明所述的索引生成装置,其中,所述数据封装模块包括:
记录读取单元,用于读取所述记录集合中的数据记录;
标示值添加单元,用于在所述数据记录头部添加标示值;
主键值添加单元,用于在添加有所述标示值的数据记录头部添加主键值。
本发明所述的索引生成装置,其中,所述Map并行预处理模块包括:
扫描单元,用于扫描所述HBase集群中每一条数据记录,运用分词方法,将所述数据记录切分为多个关键字的集合;
第一汇总单元,用于汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成所述倒排索引中间文件。
本发明所述的索引生成装置,其中,所述Reduce并行预处理模块包括:
中间文件读取单元,用于读取所述倒排索引中间文件;
第二汇总单元,用于汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行Reduce操作,形成所述倒排索引文件。
本发明所述的索引生成装置,其中,所述Solr集群Map调度模块包括:
标示值运算单元,用于对所述HBas e集群中每一条数据记录的标示值进行运算;
索引生成单元,用于根据所述标示值,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
本发明的有益效果在于:通过对数据记录进行头部封装,并将经过头部封装的数据记录插入到HBase集群中进行存储,再利用MapReduce编程架构下的Map操作和Reduce操作来对HBase集群中的数据记录进行处理,生成最终索引。通过本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明较佳实施例的基于MapReduce编程架构的索引生成方法流程图;
图2是本发明较佳实施例的数据记录封装过程示意图;
图3是本发明较佳实施例的索引生成方法中Map操作和Reduce操作过程示意图;
图4是本发明较佳实施例的索引生成方法中Solr集群Map操作过程示意图;
图5是本发明较佳实施例的数据检索流程图;
图6是本发明较佳实施例的基于MapReduce编程架构的索引生成装置原理框图;
图7是本发明较佳实施例的索引生成装置中数据封装模块原理框图;
图8是本发明较佳实施例的索引生成装置中Map并行预处理模块原理框图;
图9是本发明较佳实施例的索引生成装置中Reduce并行预处理模块原理框图;
图10是本发明较佳实施例的索引生成装置中Solr集群Map调度模块原理框图。
具体实施方式
本发明较佳实施例的基于MapReduce编程架构的索引生成方法S100流程如图1所示,该方法S100可采用硬件、软件或软硬件结合的方式实现。其起始于步骤S110。在步骤S120中,获取数据,并将数据整理成统一的格式,以记录集合形式进行存储;在步骤S130中,对记录集合中的每条数据记录进行头部封装;在步骤S140中,并行向HBase集群批量插入经头部封装的数据记录;在步骤S150中,调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;在步骤S160中,对HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;在步骤S170中,对HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;在步骤S180中,启动一个新的Map任务,对倒排索引文件进行分片操作,将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。上述方法结束于步骤S190。通过本发明的方法能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。
具体地,在上述步骤S120中,所获取的数据可以是任一种可转换成纯文本格式的数据。在接收到数据后,将其梳理成统一的与系统关键字、保留字无冲突的纯文本格式,对系统保留字符等特殊字符进行转义。例如:将数据中的引号(″)转换成为(\″)、将回车符用(\n)标示等。
上述步骤S130具体包括:读取记录集合中的数据记录;在数据记录头部添加标示值;在添加有标示值的数据记录头部添加主键值。具体封装过程如图2所示,在原始数据记录的头部依次添加标示值和主键值,得到新数据记录。其中主键值是通过对整条数据记录进行哈希取值,使其具有全局唯一性;标示值则使用通用唯一识别码(Universally Unique Identifier,UUID),以设定数据记录在后续步骤中的索引生成位置。
在上述步骤S140中,用于进行数据存储的HBase集群是一种非关系型数据库,其数据表现形式为一张<关键字,主键值>型的大表,用于作为MapReduce的数据仓库和暂存地。因此采用HBase集群可以提高数据处理量,以便于应对海量数据,且并行向HBase集群批量插入数据记录可以提高数据插入速度,提高索引生成效率。
上述步骤S160具体包括:扫描HBase集群中每一条数据记录,运用分词方法,将数据记录切分为多个关键字K的集合;汇总同一Map操作中具有相同关键字的数据记录对应的主键值V,形成倒排索引中间文件。上述步骤S170具体包括:读取倒排索引中间文件;汇总所有Map操作中具有相同关键字K的数据记录对应的主键值V,进行Reduce操作,形成倒排索引文件。Map操作和Reduce操作的过程如图3所示。图3中,HBase集群中包括n个数据记录:数据记录1、数据记录2、数据记录3……数据记录n,其中n为自然数。并行扫描HBase集群中每一条数据记录,对其中的n个数据记录进行n个并行的Map操作:Map操作1、Map操作2……Map操作n,再汇总同一Map操作中具有相同关键字K(包括K1、K2……Kn,K1x、K2y……Knz)的数据记录对应的主键值V(包括V1、V2……Vn,V1x、V2y……Vnz),生成倒排索引中间文件。通过将所有倒排索引中间文件中相同关键字K的主键值V进行汇总形成一个单一的主键值V:如V=(Value1,Value2,Value3……),汇总为统一的倒排索引文件。这样可以充分利用MapReduce编程架构下的多个节点,不同节点完成不同的工作,相互合作以共同完成任务;或者不同的节点都完成一样的工作,以保证可扩展性和容错性。
上述步骤S180过程如图4所示,具体包括:对HBase集群中每一条数据记录的标示值进行运算,即,启动一个新的Map服务,多个Map操作可并行执行,包括Map操作1、Map操作2……Map操作n,负责对倒排索引文件进行分片(split)操作,对标示值(id值)进行运算;根据标示值,将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点(Solr集群节点1、Solr集群节点2……Solr集群节点n)上,生成最终的索引。而数据记录的详细内容仍保留在HBase集群上,这样可以提供所处理数据量,以及提高索引生成效率和数据查询效率。
当客户通过采用上述方法S100所生成的索引进行数据查询时,流程如图5所示,包括如下步骤:
步骤1,包括客户端输入搜索关键字步骤;在该步骤中,客户端输入查找关键字进行分词解析,以查找各个相关的数据记录内容,并访问Solr集群;
步骤2,包括数据记录的主键值及数据记录的标示值读取步骤;在该步骤中,返回每个关键字对应的数据记录的主键值及数据记录的标示值,以便读取HBase集群中的记录全文;
步骤3,包括全文内容集读取步骤;在该步骤中,通过上一步输出的数据记录的主键值及数据记录的标示值,读取HBase集群中的数据记录的全文内容集,并返回给客户端。
在本发明的另一实施例中,还提供了一种基于MapReduce编程架构的索引生成装置,如图6所示,其中包括:数据输入模块10,用于获取数据,并将数据整理成统一的格式,以记录集合形式进行存储;数据封装模块20,用于对记录集合中的每条数据记录进行头部封装;数据插入模块30,用于并行向HBase集群批量插入经头部封装的数据记录;事件通知模块40,用于调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;Map并行预处理模块50,用于对HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;Reduce并行预处理模块60,用于对HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;Solr集群Map调度模块70,用于启动一个新的Map任务,对倒排索引文件进行分片操作,将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。通过本发明的装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。
上述实施例中,数据输入模块10所获取的数据可以是任一种可转换成纯文本格式的数据,在接收数据后,将其梳理成统一的与系统关键字、保留字无冲突的纯文本格式,对系统保留字符等特殊字符进行转义。例如:将数据中的引号(″)转换成为(\″)、将回车符用(\n)标示等。
上述实施例中,用于进行数据存储的HBase集群是一种非关系型数据库,其数据表现形式为一张<关键字,主键值>型的大表,用于作为MapReduce的数据仓库和暂存地。因此采用HBase集群可以提高数据处理量,以便于应对海量数据,且并行向HBase集群批量插入数据记录可以提高数据插入速度,提高索引生成效率。
进一步地,如图7所示,上述实施例中索引生成装置的数据封装模块20包括:记录读取单元21,用于读取记录集合中的数据记录;标示值添加单元22,用于在数据记录头部添加标示值;主键值添加单元23,用于在添加有标示值的数据记录头部添加主键值。具体封装过程如图2所示,在原始数据记录的头部依次添加标示值和主键值,得到新数据记录。其中主键值是通过对整条数据记录进行哈希取值,使其具有全局唯一性;标示值则使用通用唯一识别码(Universally Unique Identifier,UUID),以设定数据记录在后续步骤中的索引生成位置。
进一步地,如图8和图9所示,上述实施例中索引生成装置的Map并行预处理模块50包括:扫描单元51,用于扫描HBase集群中每一条数据记录,运用分词方法,将数据记录切分为多个关键字K的集合;第一汇总单元52,用于汇总同一Map操作中具有相同关键字的数据记录对应的主键值V,形成倒排索引中间文件。上述实施例中索引生成装置的Reduce并行预处理模块60包括:中间文件读取单元61,用于读取倒排索引中间文件;第二汇总单元62,用于汇总所有Map操作中具有相同关键字K的数据记录对应的主键值V,进行Reduce操作,形成倒排索引文件。Map操作和Reduce操作的过程如图3所示。图3中,HBase集群中包括n个数据记录:数据记录1、数据记录2、数据记录3……数据记录n,其中n为自然数。并行扫描HBase集群中每一条数据记录,对其中的n个数据记录进行n个并行的Map操作:Map操作1、Map操作2……Map操作n,再汇总同一Map操作中具有相同关键字K(包括K1、K2……Kn,K1x、K2y……Knz)的数据记录对应的主键值V(包括V1、V2……Vn,V1x、V2y……Vnz),生成倒排索引中间文件。通过将所有倒排索引中间文件中相同关键字K的主键值V进行汇总形成一个单一的主键值V:如V=(Value1,Value2,Value3……),汇总为统一的倒排索引文件。这样可以充分利用MapReduce编程架构下的多个节点,不同节点完成不同的工作,相互合作以共同完成任务;或者不同的节点都完成一样的工作,以保证可扩展性和容错性。
更进一步地,如图10所示,上述实施例中索引生成装置的Solr集群Map调度模块70包括:标示值运算单元71,用于对HBase集群中每一条数据记录的标示值进行运算,即,启动一个新的Map服务,多个Map操作可并行执行,包括Map操作1、Map操作2……Map操作n,负责对倒排索引文件进行分片(split)操作,对数据记录的标示值(id值)进行运算;索引生成单元72,用于根据标示值,将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点(Solr集群节点1、Solr集群节点2……Solr集群节点n)上,生成最终的索引。而数据记录的详细内容仍保留在HBase集群上,这样可以提高所处理数据量,以及提高索引生成效率和数据查询效率。
综上所述,本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。且采用本发明的方法和装置,还可通过预写日志的方式来保证所有的操作在发生异常时都可回滚回正常状态,加强系统的健壮性;通过异步消息队列的方式来传递信息,可使集群节点在异常中断后,可由其他节点接手工作。这样不仅提高了索引创建的效率,而且增强了索引的搜索能力,无论是文本匹配还是全文索引,都具有优秀的性能。
应当理解的是,上述实施例仅用来进一步说明本发明的一种基于MapReduce编程架构的索引生成方法和装置,但本发明并不局限于上述实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。

Claims (4)

1.一种基于MapReduce编程架构的索引生成方法,其特征在于,包括步骤:
获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
对所述记录集合中的每条数据记录进行头部封装;
并行向HBase集群批量插入经头部封装的所述数据记录;
调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;
对所述HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;
对所述HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;
启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引;
所述步骤:对所述记录集合中的每条数据记录进行头部封装,具体包括:
读取所述记录集合中的数据记录;
在所述数据记录头部添加标示值;
在添加有所述标示值的数据记录头部添加主键值;
所述步骤:进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件,具体包括:
扫描所述HBase集群中每一条数据记录,运用分词方法,将所述数据记录切分为多个关键字的集合;
汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成所述倒排索引中间文件;
所述步骤:进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件,具体包括:
读取所述倒排索引中间文件;
汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行Reduce操作,形成所述倒排索引文件。
2.根据权利要求1所述的索引生成方法,其特征在于,所述启动一个新的Map任务,对所述倒排索引文件进行分片操作,生成最终的索引具体包括:
对所述HBase集群中每一条数据记录的标示值进行运算;
根据所述标示值,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
3.一种基于MapReduce编程架构的索引生成装置,其特征在于,包括:
数据输入模块,用于获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
数据封装模块,用于对所述记录集合中的每条数据记录进行头部封装;
数据插入模块,用于并行向HBase集群批量插入经头部封装的数据记录;
事件通知模块,用于调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;
Map并行预处理模块,用于进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;
Reduce并行预处理模块,用于进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;
Solr集群Map调度模块,用于启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引;
所述数据封装模块包括:
记录读取单元,用于读取所述记录集合中的数据记录;
标示值添加单元,用于在所述数据记录头部添加标示值;
主键值添加单元,用于在添加有所述标示值的数据记录头部添加主键值;
所述Map并行预处理模块包括:
扫描单元,用于扫描所述HBase集群中每一条数据记录,运用分词方法,将所述数据记录切分为多个关键字的集合;
第一汇总单元,用于汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成所述倒排索引中间文件;
所述Reduce并行预处理模块包括:
中间文件读取单元,用于读取所述倒排索引中间文件;
第二汇总单元,用于汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行Reduce操作,形成所述倒排索引文件。
4.根据权利要求3所述的索引生成装置,其特征在于,所述Solr集群Map调度模块包括:
标示值运算单元,用于对所述HBase集群中每一条数据记录的标示值进行运算;
索引生成单元,用于根据所述标示值,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
CN 201110446325 2011-12-28 2011-12-28 一种基于MapReduce编程架构的索引生成方法和装置 Active CN102426609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110446325 CN102426609B (zh) 2011-12-28 2011-12-28 一种基于MapReduce编程架构的索引生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110446325 CN102426609B (zh) 2011-12-28 2011-12-28 一种基于MapReduce编程架构的索引生成方法和装置

Publications (2)

Publication Number Publication Date
CN102426609A CN102426609A (zh) 2012-04-25
CN102426609B true CN102426609B (zh) 2013-02-13

Family

ID=45960589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110446325 Active CN102426609B (zh) 2011-12-28 2011-12-28 一种基于MapReduce编程架构的索引生成方法和装置

Country Status (1)

Country Link
CN (1) CN102426609B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940406B2 (en) 2014-03-27 2018-04-10 International Business Machine Corporation Managing database

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750353B (zh) * 2012-06-08 2014-04-16 清华大学 一种在键值库中进行分布式数据分析的方法
CN103077183B (zh) * 2012-12-14 2017-11-17 北京普泽创智数据技术有限公司 一种分布式顺序表的数据导入方法及其系统
TWI499971B (zh) * 2013-03-05 2015-09-11 Univ Nat Cheng Kung 聯合多運算叢集系統執行映射化簡程式的方法
KR101480867B1 (ko) * 2013-05-31 2015-01-09 삼성에스디에스 주식회사 맵리듀스 연산 가속 시스템 및 방법
CN104239269A (zh) * 2013-06-19 2014-12-24 苏州吉浦迅科技有限公司 基于计算机机群的智能并行蜂群算法数据系统
CN103324762A (zh) * 2013-07-17 2013-09-25 陆嘉恒 基于Hadoop的索引创建方法及其索引方法
CN103399887A (zh) * 2013-07-19 2013-11-20 蓝盾信息安全技术股份有限公司 一种海量日志的查询与统计分析系统
CN104572785B (zh) * 2013-10-29 2018-07-03 阿里巴巴集团控股有限公司 一种分布式创建索引的方法和装置
CN103678491A (zh) * 2013-11-14 2014-03-26 东南大学 一种基于Hadoop中小文件优化和倒排索引的方法
CN104714983B (zh) * 2013-12-17 2019-02-19 中兴通讯股份有限公司 分布式索引的生成方法及装置
CN104268158A (zh) * 2014-09-03 2015-01-07 深圳大学 一种结构化数据分布式索引及检索方法
CN104462236A (zh) * 2014-11-14 2015-03-25 浪潮(北京)电子信息产业有限公司 一种基于大数据的伴随车辆识别方法和装置
CN104503985A (zh) * 2014-12-03 2015-04-08 浪潮电子信息产业股份有限公司 一种Hbase数据自动化创建Solr索引文件的方法
CN104484226B (zh) * 2014-12-08 2018-02-02 无锡城市云计算中心有限公司 MapReduce作业处理系统、服务器及处理方法
CN104573094B (zh) * 2015-01-30 2018-05-29 深圳市华傲数据技术有限公司 网络账号识别匹配方法
CN104809212A (zh) * 2015-04-29 2015-07-29 苏州星熙数据科技有限公司 一种基于低延迟的HBase枚举系统设计方法
CN104834730B (zh) * 2015-05-15 2018-06-01 北京京东尚科信息技术有限公司 数据分析系统和方法
CN105958652A (zh) * 2016-06-23 2016-09-21 江苏科技大学 基于大数据分析的无人值守变电站预警系统及方法
CN106326429A (zh) * 2016-08-25 2017-01-11 武汉光谷信息技术股份有限公司 一种基于solr的Hbase秒级查询方案
CN107784030B (zh) 2016-08-31 2020-04-28 华为技术有限公司 一种处理连接查询的方法及装置
CN106446145A (zh) * 2016-09-21 2017-02-22 郑州云海信息技术有限公司 一种基于Hadoop的大数据索引快速创建方法
CN106649451A (zh) * 2016-09-22 2017-05-10 北京奇虎科技有限公司 数据更新方法及装置
CN106649462B (zh) * 2016-09-26 2019-11-08 北京赛思信安技术股份有限公司 一种针对海量数据全文检索场景的实现方法
CN106844716B (zh) * 2017-02-08 2020-07-28 上海熙菱信息技术有限公司 一种基于Solr索引与Oracle存储的海量数据自动化存储方法
CN107038225A (zh) * 2017-03-31 2017-08-11 江苏飞搏软件股份有限公司 信息智能检索系统的检索方法
CN107273515A (zh) * 2017-06-21 2017-10-20 国网内蒙古东部电力有限公司信息通信分公司 基于多形态数据索引技术的电网数据资产资源检索及展示
CN107391306B (zh) * 2017-07-27 2019-12-10 国家电网公司 一种异构数据库备份文件恢复方法
CN109195175B (zh) * 2018-09-03 2021-12-21 郑州云海信息技术有限公司 一种基于云计算的移动无线网络优化方法
CN109522357A (zh) * 2018-11-28 2019-03-26 北京锐安科技有限公司 一种数据处理方法、装置、服务器及存储介质
CN110222015B (zh) * 2019-06-19 2021-07-09 北京泰迪熊移动科技有限公司 一种文件数据的读取、查询方法、装置及可读存储介质
CN110413670B (zh) * 2019-06-28 2023-07-14 创新先进技术有限公司 基于MapReduce的数据导出方法、装置及设备
CN111831622A (zh) * 2020-03-31 2020-10-27 北京嘀嘀无限科技发展有限公司 数据索引生成方法、装置、电子设备和可读存储介质
CN114638553B (zh) * 2022-05-17 2022-08-12 四川观想科技股份有限公司 一种基于大数据的维修质量分析方法
CN116541006B (zh) * 2023-06-28 2024-01-26 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917463B2 (en) * 2008-10-10 2011-03-29 Business.Com, Inc. System and method for data warehousing and analytics on a distributed file system
CN102096603B (zh) * 2009-12-14 2013-01-02 中国移动通信集团公司 MapReduce系统中的作业分解控制方法及设备
CN102236581B (zh) * 2010-04-30 2013-08-14 国际商业机器公司 用于数据中心的映射化简方法和系统
CN102255926B (zh) * 2010-05-17 2015-11-25 中国移动通信集团公司 MapReduce系统中的任务分配方法、系统及装置
CN102163226B (zh) * 2011-04-12 2013-03-13 浙江大学 基于映射-化简和分词及邻接排序去重方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940406B2 (en) 2014-03-27 2018-04-10 International Business Machine Corporation Managing database
US10296656B2 (en) 2014-03-27 2019-05-21 International Business Machines Corporation Managing database

Also Published As

Publication number Publication date
CN102426609A (zh) 2012-04-25

Similar Documents

Publication Publication Date Title
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
US11475034B2 (en) Schemaless to relational representation conversion
CN110674154B (zh) 一种基于Spark的对Hive中数据进行插入、更新和删除的方法
CN110489445B (zh) 一种基于多形态复合的海量数据快速查询方法
US10565208B2 (en) Analyzing multiple data streams as a single data object
CN104881424B (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
Li Transforming relational database into HBase: A case study
CN106326361B (zh) 一种基于HBase数据库的数据查询方法及装置
CN108268565B (zh) 基于数据仓库处理用户浏览行为数据的方法及系统
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
CN104133867A (zh) 分布式顺序表片内二级索引方法及系统
CN107807932B (zh) 一种基于路径枚举的层级数据管理方法和系统
CN111382226A (zh) 一种数据库查询检索方法、装置和电子设备
US9430520B2 (en) Semantic reflection storage and automatic reconciliation of hierarchical messages
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN104834650A (zh) 一种有效查询任务生成方法及系统
CN111143468B (zh) 基于mpp分布式技术的多数据库数据管理方法
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN107704620B (zh) 一种档案管理的方法、装置、设备和存储介质
CN105787090A (zh) 一种电力数据的olap系统的索引建立方法和系统
CN111753015B (zh) 支付清算系统的数据查询方法及装置
CN113094442A (zh) 全量数据同步方法、装置、设备和介质
CN111125045B (zh) 一种轻量级etl处理平台
CN110851758B (zh) 一种网页访客数量统计方法及装置
CN111625596A (zh) 新能源实时消纳调度的多源数据同步共享方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120425

Assignee: Xiaoma Baoli (Xiamen) Network Technology Co.,Ltd.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000039

Denomination of invention: An index generation method and device based on MapReduce programming architecture

Granted publication date: 20130213

License type: Common License

Record date: 20230301