CN105528367A - 基于开源大数据对时间敏感数据的存储和近实时查询方法 - Google Patents

基于开源大数据对时间敏感数据的存储和近实时查询方法 Download PDF

Info

Publication number
CN105528367A
CN105528367A CN201410522033.2A CN201410522033A CN105528367A CN 105528367 A CN105528367 A CN 105528367A CN 201410522033 A CN201410522033 A CN 201410522033A CN 105528367 A CN105528367 A CN 105528367A
Authority
CN
China
Prior art keywords
data
time
file
index
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410522033.2A
Other languages
English (en)
Other versions
CN105528367B (zh
Inventor
晁平复
翁海星
张弛
高祎璠
张蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410522033.2A priority Critical patent/CN105528367B/zh
Publication of CN105528367A publication Critical patent/CN105528367A/zh
Application granted granted Critical
Publication of CN105528367B publication Critical patent/CN105528367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于开源大数据对时间敏感数据的存储和近实时查询方法,包括如下步骤:建立近实时查询处理平台,近实时查询处理平台具有内存空间和外存空间;定义文件存储策略,对内存空间中的源数据文件进行数据处理与计算,使源数据文件依照其时间敏感特性进行整理后存入外存空间;以数据文件的时间敏感特性作为过滤条件进行倒排索引,建立点索引以及范围索引生成索引信息,将索引信息存入外存空间,并缓存至内存空间;通过查询索引信息查找点索引或者范围索引,获取相关文件路径列表,根据文件路径列表读取与查询请求对应的源数据文件,通过充分结合时间敏感的特性,设计数据过滤策略以减少数据扫描量,实现大数据的近实时查询反馈。

Description

基于开源大数据对时间敏感数据的存储和近实时查询方法
技术领域
本发明属于数据库技术以及信息处理领域,尤其涉及一种基于开源大数据对时间敏感数据的存储和近实时查询方法。
背景技术
随着无线技术发展以及终端设备的进步,数据海量化的趋势在各个行业中都展现了出来。在科学研究领域,如天文观测数据、气象数据、海洋监测数据等,随着传感器网络的成熟,这些数据的收集变得容易,导致日志信息的爆炸式增长;另外,在决策领域,如证券交易市场中每天的交易数据、企业相关报道、微博数据等也在蓬勃发展。这些数据除了在量上有较为显著的特征之外,数据间潜在的关联也具有很丰富的挖掘价值。其中,针对某个时间段寻找某个事件相关信息是一种常见的需求,即查询具有时间敏感性。下面以移动宽带的通话历史记录为例子来说明本发明的重要性。
随着移动宽带时代到来,运营商对无线网络的服务质量、用户感受的保障,对网络发展、用户行为的预测和把握遇到了很大的挑战。而通过对无线网络的海量日志信息的分析和挖掘,能够对无线网络服务质量和用户感受提升,对网络发展和用户行为的预测提供准确的参考建议。在无线网络设备下通常可以获取以下四类日志数据:
1)呼叫历史(CallHistoryRecord-CHR):用户每次呼叫会产生一条记录,记录用户呼叫过程的关键信息,如:接入、切换、中断、释放等。RNC无线网络控制器(RadioNetworkController-RNC)和无线网络基站(NodeB)都会记录呼叫历史数据,分别是RNCCHR和NodeBCHR。
2)测度数据(MeasureRecord-MR):各种终端设备上报的对无线网络空口的测量报告,记录了如电平、质量、干扰等无线测量信息,并且可以通过一定的算法获取用户的位置信息。
3)SR(SessionRecord):用户每次数据业务Session会产生一条记录,通过探针设备进行抓包和深度数据包检测(DPI)分析获得,记录目标地址、流量、速率、连接重试等信息。
由于无线网络的日志信息数据量很大,需要构建具体的针对业务的数据分析和挖掘的海量数据处理系统,支持多源海量数据的关联拼接、存储、分析、查询、挖掘能力,并且需要支持容量的横向扩展以及业务功能的快速定制以适应无线网络和相应分析手段快速发展的需要。
四种数据源的流量大约每秒50万条,一天全网数据量大约近3TB。而电信应用需要面对的一个典型问题是如何在如此庞大的数据量下,解决时间敏感的近实时大数据查询应用,案例实例如投诉查询以及详单查询。
投诉查询:面向用户。查询客户某个时间段的通话情况。查询输入是客户userid,时间段time_range,查询输出是该客户该时间段所有的通话记录情况,即上述四类相关历史数据。
查询模式:Select*fromDatawhereUserIDin(id1,id2...idn)andRNC=rncidand(Time>lowandTime<high)。
详单查询:面向运营商。运营商根据自己的统计对某些ID的通话记录进行查看。一个应用是系统统计分析有问题的通话记录,并针对不同的问题种类对问题通话进行分类统计,运营商需要调取特定问题分类下所有通话记录的详细信息进行核查。
查询模式:Select*fromDatawhereSessionIDin(id1,id2...idn)andRNC=rncidand(Time>lowandTime<high)。
该类应用的典型约束如下:
1)数据具有时间戳:每条历史记录带有时间戳信息。
2)具有查询时间段:如上例,参数low与high是连续时间段。
3)对存储有要求:大部分业务希望这些历史数据能支持对列数据的挖掘工作。
4)源数据格式为非结构化:大多数数据是半结构化数据或者非结构化数据。
5)源数据以流的形式输入系统:网络监测日志数据以流形式进入系统,数据产生速率快,对输入数据进行预处理之后需要存储。
解决这类查询问题的难点在于海量数据中快速定位。而此类交互式查询通常需要提供秒级的反馈速度。通常TB级数据的扫描不可能保证秒级查询响应。解决方案需充分结合时间敏感的特性,设计数据过滤策略,减少数据扫描量。
开源的、在分布式环境下支持近实时大数据查询系统的典型代表包括Impala和Shark(SIGMOD,2013:13-24)。Impala是google旗下Dremel的开源实现(VLDB,2010,3(1-2):330-339),目标是在Hadoop之上支持实时、即席查询处理,从而弥补Map-Reduce模式仅有的批处理能力。从系统架构层面来说,Impala是可以与HDFS/Hive实现良好共存的企业级数据仓库系统。但是Impala在内存受限的情况下存在较为严重的系统性缺陷。Shark扩展Hive的功能实现基于内存以及基于磁盘的高效查询处理。Shark可以支持所有的HiveSQL语句、数据格式、以及用户定义功能(UDF)等。Shark另外一个特点是支持基于内存的数据存储,为内存数据提供列式组织方式,方便数据挖掘工作。Shark能够以高效的性能实现如此丰富的功能是由于底层Spark(HotCloud,2010)的支持。Spark采用RDDs(ResilientDistributedDatasets)替换Map-Reduce的编程模式,从而支持快速的查询处理能力以及快速的错误恢复。
在存储部分,支持大数据的开源数据库较为流行的是HBase,它架构在Hadoop之上,提供类似GoogleBigTable(TOCS,2008,26(2):1-26)的功能,支持基于主键的实时随机查询,可以存储非结构化数据;HBase的数据虽然采用列存的形式,但由于其基于主键进行了严格的B树索引,因此数据扫描的效率较低,不适于基于大范围数据扫描的分析类业务。HBase所支持的数据操作非常有限,且由于其只支持基于主键的高效查询,因此主键的定义非常重要;对范围查询的性能支持较好,但大范围的扫描性能极差。此外,HBase的频繁插入或者更新会极大地影响系统性能,且由于其不支持二级索引,目前只支持对主键的索引,因此对于非主键的查询性能较差。
为了克服现有技术中大数据查询无法提供秒级的反馈速度、开源数据库不支持二级索引、数据库存储膨胀率高、数据插入与更新速度慢以及基于数据扫描的分析类业务性能差等缺陷,本发明提出了一种基于开源大数据解决时间敏感数据的存储和近实时查询方法,通过充分结合时间敏感的特性,设计数据过滤策略以减少数据扫描量。
发明内容
本发明提出了一种基于开源大数据解决时间敏感数据的存储和近实时查询方法,包括如下步骤:
平台建立步骤:基于大数据开源数据库建立近实时查询处理平台,所述近实时查询处理平台具有内存空间和外存空间;
数据存储步骤:定义文件存储策略,对所述内存空间中的源数据文件进行数据处理与计算,使所述源数据文件依照其时间敏感特性进行整理后存入所述外存空间;
索引建立步骤:依据所述数据文件的时间敏感特性作为过滤条件进行倒排索引,建立点索引以及范围索引生成索引信息,将所述索引信息存入所述外存空间,并缓存至内存空间;
近实时查询步骤:对于查询请求,通过查询所述索引信息查找所述点索引或者范围索引,获取相关文件路径列表,根据所述文件路径列表读取与所述查询请求对应的源数据文件。
本发明提出的所述基于开源大数据解决时间敏感数据的存储和近实时查询方法中,在所述数据存储步骤中,经数据计算后的源数据文件采用时间感知的分层目录结构存储于所述外存空间中;所述分层目录结构的主目录和子目录依次为文件类型目录、时间粒度目录和数据状态目录;所述文件类型目录用于划分多类型源数据,所述时间粒度目录用于配置时间敏感因素,所述数据状态目录用于划分源数据的数据操作状态,所述数据状态目录内用于存储相应的源数据文件。
本发明提出的所述基于开源大数据对时间敏感数据的存储和近实时查询方法中,根据所述文件存储策略,在所述数据状态目录内所述源数据文件采用按列存储的格式进行存储。
本发明提出的所述基于开源大数据解决时间敏感数据的存储和近实时查询方法在所述数据存储步骤中,进一步在所述内存中划分一个以上缓存区,对所述缓存区内处于同一时间窗口内的源数据文件进行批量数据计算,进而批量地在相同时间窗口数据的过滤条件中添加时间敏感因素,之后将所述缓存区内的源数据文件批量存入所述外存空间。
本发明提出的所述基于开源大数据的解决时间敏感数据的存储和近实时查询方法中,所述索引同时支持点查询与范围查询,其索引的结构为(用户标识码,文件路径列表)的键值对结构,并根据时间窗口拆分为多索引文件存储,建立索引结构包括如下步骤:
步骤a1:将接收的源数据根据时间窗口分别缓存至内存空间中的不同缓存区,并针对每个缓冲区进行批量数据计算,计算结束后将数据状态标记为计算完成的数据记录从所述内存空间中提取出来建立索引;
步骤a2:扫描需要建立索引的数据,将每个文件路径下的所有数据记录依次提取用户标识码信息,建立(文件路径,用户标识码)键值对结构的索引数据结构;
步骤a3:将同一时间窗口下所有记录的索引数据结构汇总,并使用倒排表索引方法,将索引数据整理为(用户标识码,文件路径列表)键值对结构的索引结构。该索引结构可拆分为多个索引文件存储于HBase分布式键值存储数据库,以用户标识码作为行主键,利用HBase分布式键值存储数据库快速的点查询与范围查询性能实现索引的迅速锁定。
本发明提出的所述基于开源大数据对时间敏感数据的存储和近实时查询方法中,在所述近实时查询步骤中,以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据所述集合中的文件路径得到所述外存空间中的源数据文件。
本发明提出的所述基于开源大数据对时间敏感数据的存储和近实时查询方法中,所述近实时查询处理平台是基于Hadoop分布式文件系统,并在所述Hadoop分布式文件系统中依据Parquet列存储格式进行数据存储,利用Spark分布式管理系统集成的Parquet数据读写接口在Hadoop分布式文件系统中进行文件存取。
本发明提出的所述基于开源大数据对时间敏感数据的存储和近实时查询方法中,所述外存空间包括HBase分布式键值存储数据库和Hadoop分布式文件系统,所述HBase分布式键值存储数据库用于存储所述索引信息,所述Hadoop分布式文件系统用于存储所述源数据文件,并使用Parquet列存储格式提升数据处理与分析的性能。
本发明基于Hadoop平台,具有良好的横向扩展能力,通过并行调度实现任务对大数据的高效处理能力。与大众所熟知的各种数据库系统相比,本发明的横向扩展能力较好。
本发明采用具有快速应对能力的Spark作为上层的处理层,通过RDD算子实现大规模低延时的查询处理。与大众熟悉的各种数据库恢复能力相比,本发明具有更好的错误恢复性能和实效性。
本发明采用HDFS存储源数据的方案可以有效地支撑对大数据的存储,特别是PB级数据。采用时间敏感的数据存储策略,可以有效地缩小查询范围;与数据库技术相结合,相互促进。相比于原来采用基于数据库的方式,可用性得到极大提高。本发明采用Parquet列存储格式作为数据的存储格式,相较于通用的行文件存储格式,在保持着较强的行访问效率的同时,其具有非常高的列数据扫描效率,支持大范围的数据分析业务;而相较于其它列存储格式,其支持复杂的树状数据结构、数据膨胀率极低,提供性能优良的Hadoop与Spark数据访问接口,从存储空间与时间两个角度均具有优异的性能。
附图说明
图1是本发明基于开源大数据对时间敏感数据的存储和近实时查询方法的流程图。
图2是具体实施例中存储和查询方法的流程示意图。
图3是具体实施例中分层目录结构的示意图。
图4是具体实施例中索引结构的示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明基于开源大数据对时间敏感数据的存储和近实时查询方法支持对时间敏感的海量数据的近实时查询处理。本发明在开源分布式平台上制定有效的数据存储策略、利用高效的数据索引技术支持时间敏感的查询处理,并设计了基于时间敏感的数据存储策略,为查询的快速文件定位提供保障,实现了基于倒排技术的索引,为查询提供高效的文件过滤。
如图1所示,本发明基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,包括如下步骤:
平台建立步骤:基于大数据开源数据库建立近实时查询处理平台,近实时查询处理平台具有内存空间和外存空间。参阅图2中的s1,该平台通过将数据流或者HDFS的源数据文件读入内存空间中,以支撑预处理。
数据存储步骤:定义文件存储策略,对内存空间中的源数据文件进行数据处理与计算,使源数据文件依照其时间敏感特性进行整理后存入外存空间。参阅图2中的s2’,处理后的源数据文件存入外存空间的HDFS中。
索引建立步骤:依据数据文件的时间敏感特性作为过滤条件进行倒排索引,生成索引信息,将索引信息存入外存空间,并缓存至内存空间。参阅图2中s2和s3,建立索引之后的索引信息存入外存空间的HBase中。
近实时查询步骤:对于查询请求,通过查询索引信息获取相关文件路径列表(参见图2中的Q1和Q2),根据文件路径列表读取与查询请求对应的源数据文件(参见图2中的Q3和Q4)。本发明可以实现于数秒至十数秒内完成查询,达到近实时查询处理,即秒级查询的性能要求,相较于其它近实时查询系统,其良好的数据存储格式与组织方式使得在不牺牲数据插入性能以及分析类业务性能的基础上,可以提升数据吞吐量从而支持更大数据处理。以下例举多个具体实施例对本发明技术内容做进一步阐述。
(1)建立近实时查询处理平台分布式平台架构
本发明建立的近实时查询处理平台是基于Hadoop分布式文件系统,并在Hadoop分布式文件系统中利用底层Spark模块接口,以实现即席查询。开源大数据平台中应用最广的是Hadoop平台,其具有良好的横向扩展性以及对系统硬件平台的低要求,且适用于web应用场景。Hadoop平台的编程模式基于Map-Reduce方式,易用性较强,所有的任务通过分解为这两种模块操作来实现。但Map-Reduce编程模式会存储所有的中间结果,导致效率的降低。
(2)定义文件存储策略
时间敏感查询的特点是过滤条件包含时间因素(时间点或者时间段)。本发明采用了基于时间段的离散分时存储策略(Time-Sensitive)。基于时间段的离散分时存储策略通过对内存空间中的源数据文件进行数据计算,定期写入计算后的数据计算结果,并保留当前的源数据文件的数据操作状态。经数据计算后的源数据文件采用时间感知的分层目录结构存储于外存空间中。分层目录结构的主目录和子目录依次为文件类型目录、时间粒度目录和数据状态目录。该分层目录结构对时间敏感的查询处理非常有效,目录结构根据时间快速定位至时间粒度目录,通过时间窗口确定源数据文件所在的目录。
文件类型目录Ftype用于划分多类型源数据,如电信历史记录之类的大数据,其Ftype包括四类分别为:无线网络控制器呼叫历史RNCCHR,无线网络基站呼叫历史NodeBCHR,无线终端测度数据MR和无线网络浏览历史SR。
时间粒度目录TimeW用于配置时间敏感因素。在实际使用中,时间敏感因素可表示为数据存储目录时间粒度,时间粒度是可设置的,可配置的时间粒度包括天、时、分和秒等等。
数据状态目录用于划分源数据的数据操作状态,如在数据计算过程中,通过设置两种状态F(option)和O(option)表示源数据文件的处理结果,其中F(option)表示数据处理全部结束,计算完成存入F的目录下,例如Twin_x文件(参阅图3)。O(option)表示数据处理存在问题,针对源数据文件的计算,未完成计算的源数据文件存入O的目录下,Twin_y文件(参阅图3)。
数据状态目录内用于存储相应的源数据文件即为分层目录结构的底层文件,各源数据文件以时间窗口划分,本发明采用基于按列存储的存储格式,可以很好地满足对列的数据挖掘工作。由于原始数据为树状结构的半结构化数据,故本发明采用Parquet列存形式。Parquet列存形式能够支持半结构化数据的列存,对稀疏结构存在较低的存储冗余,同时可以高效地支持基于列的filter过滤操作。
为了降低once-a-record处理带来的频繁内外存交互开销,本发明在给定的硬件处理环境下,采用在内存中开辟一个缓存区,该缓存区内的源数据文件经过基于缓存的离散式计算和缓存后,一次性批量写入外存空间内的策略(once-a-batch)。对于缓存区内的源数据文件,设定缓存时间窗口为t,时间窗口t是可配置参数,即在该缓存时间窗口t时间段内对源数据文件进行批量数据计算之后,该段时间内的所有源数据文件写入外存空间的Hadoop分布式文件系统(HDFS)中,并且释放缓存区。
(3)建立索引信息
本发明所针对的查询实时性要求较高,对于时间敏感的查询而言可以通过查询where子句快速定位到相应的文件夹(即目录),但由于文件夹下面可能存在众多的源数据文件,特别是对于时间跨度较大的查询其返回结果的速度将受限于扫描文件数目。因此本发明对于时间敏感因素的过滤条件进行倒排索引,对于查询中涉及的过滤条件如果在各个时间段内的分布稀疏(分布稀疏指在单一时间段内,满足过滤条件的文件只占该时间段总文件数量的极小比例),本发明基于倒排索引方法对这些过滤条件建立索引,索引结构见图4。
该索引同时支持点查询和范围查询其适用于:1、过滤条件在各个文件中的分布稀疏;2、过滤条件不具有文件内部顺序性的特征;3、过滤条件可排序,具有范围查询意义。索引结构如图4,点索引的id即为过滤条件,Filep1和Filep2等均为对应的文件地址。通过查询条件中id,可以获取某一时间段内拥有该用户相关记录的文件地址列表。
针对前述的第一类用户通话查询(包括点查询以及范围查询),过滤条件包括userid以及时间段。通过对源数据进行统计,发现在一天的数据上,50%以上的用户在时间段上的分布非常稀疏,基本只出现在1-3个时间窗口,只有少于0.5%的用户会出现在一天中的多个时间段或者全时间段。
对于前述的第二类话务详单查询(包括点查询以及范围查询),过滤条件包括sessionid以及时间段。由于采用基于时间窗的数据处理策略,导致各个时间段产生的sessionid基本无交集。通过对源数据进行统计,发现在一天的数据上,各个时间段上的sessionid交集基本为空,有少数的无线业务会出现跨时间段,但类似的sessionid不多。
为了支持对索引的快速访问,使用开源的HBase分布式键值存储数据库存放该索引文件。主要原因是对该索引的访问是基于key的处理,HBase可以在毫秒级完成数据访问。
(4)近实时查询
近实时查询处理过程如下:
1、通过查询倒排索引找到查询点或范围记录所涉及到的文件路径列表list。
2、对list内容进行groupby分组之后进行distinct去重操作,得到文件路径关于源数据文件的集合,即(filepath,id)对集合。
3、依据其中的文件路径filepath读取文件,进行基于其它过滤条件的Parquet文件filter操作,取出对应的源数据文件。
以下分别根据点索引结构查询和范围索引结构查询的示例。
(4.1)根据点索引结构查询
第一类查询:Select*fromDatawhereUserIDin(id1,id2...idn)andRNC=rncidand(Time>lowandTime<high)
1)通过userid的倒排索引找到所有用户即((id1,id2...idn)出现的文件位置list。
2)对list内容进行groupby分组,并进行distinct去重操作,得到结果是(filepath,userid)对集合。
3)通过filepath读取文件,进行基于userid的Parquet文件filter过滤操作,取出内容。
(4.2)根据范围索引结构查询
第二类查询:Select*fromDatawhere(SessionID>id1andSessionID<idn)andRNC=rncidand(Time>lowandTime<high)
1)通过sessionid的倒排索引找到sessionid集合即(id1,id2...idn)出现的文件位置list。
2)对list内容进行groupby操作,然后对groupby分组结果进行value的distinct去重操作,得到结果是(filepath,sessionid)对集合。
3)通过filepath读取文件内容,进行基于sessionid的Parquet文件filter操作,取出value值。
相对于现有的索引查询技术,该查询系统主要有三点优势:
(一)索引数据优势:由于索引为文件粒度的倒排索引,其索引记录的数据量得到了大幅缩减,从而可以支持大数据量下的文件索引。
(二)索引查询优势:索引存储在HBase分布式键值数据库中,由HBase负责维护索引的顺序插入,并提供非常高效的点查询与范围查询,利用HBase在点查询和范围查询的性能优势,可以将索引查询阶段耗时压缩在30~500ms以内,满足实时查询性能。
(三)文件过滤优势:由于源数据文件采用Parquet列存储格式,具有极高的基于列的filter过滤性能,并且支持较高的并发文件过滤,故文件过滤阶段实现了秒级的过滤效率,最终实现整体查询的近实时性能。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (8)

1.一种基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,包括如下步骤:
平台建立步骤:基于大数据开源数据库建立近实时查询处理平台,所述近实时查询处理平台具有内存空间和外存空间;
数据存储步骤:定义文件存储策略,对所述内存空间中的源数据文件进行数据处理与计算,使所述源数据文件依照其时间敏感特性进行整理后存入所述外存空间;
索引建立步骤:依据所述数据文件的时间敏感特性作为过滤条件进行倒排索引,建立点索引以及范围索引生成索引信息,将所述索引信息存入所述外存空间,并缓存至内存空间;
近实时查询步骤:对于查询请求,通过查询所述索引信息查找所述索引,获取相关文件路径列表,根据所述文件路径列表读取与所述查询请求对应的源数据文件。
2.如权利要求1所述的基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,在所述数据存储步骤中,经数据计算后的源数据文件采用时间感知的分层目录结构存储于所述外存空间中;所述分层目录结构的主目录和子目录依次为文件类型目录、时间粒度目录和数据状态目录;所述文件类型目录用于划分多类型源数据,所述时间粒度目录用于配置时间敏感因素,所述数据状态目录用于划分源数据的数据操作状态,所述数据状态目录内存储相应的源数据文件。
3.如权利要求2所述的基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,根据所述文件存储策略,在所述数据状态目录内所述源数据文件采用按列存储的格式进行存储。
4.如权利要求1所述的基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,在所述数据存储步骤中,进一步在所述内存中划分一个以上缓存区,对所述缓存区内处于同一时间窗口内的源数据文件进行批量数据计算,进而批量地在相同时间窗口数据的过滤条件中添加时间敏感因素,之后将所述缓存区内的源数据文件批量存入所述外存空间。
5.如权利要求1所述的基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,所述索引同时支持点查询与范围查询,其索引的结构为(用户标识码,文件路径列表)的键值对结构,并根据时间窗口拆分为多索引文件存储,建立索引结构包括如下步骤:
步骤a1:将接收的源数据根据时间窗口分别缓存至内存空间中的不同缓存区,并针对每个缓冲区进行批量数据计算,计算结束后将数据状态标记为计算完成的数据记录从所述内存空间中提取出来建立索引;
步骤a2:扫描需要建立索引的数据,将每个文件路径下的所有数据记录依次提取用户标识码信息,建立(文件路径,用户标识码)键值对结构的索引数据结构;
步骤a3:将同一时间窗口下所有记录的索引数据结构汇总,并使用倒排表索引方法,将索引数据整理为(用户标识码,文件路径列表)键值对结构的索引结构。
6.如权利要求1所述的基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,在所述近实时查询步骤中,以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据所述集合中的文件路径得到所述外存空间中的源数据文件。
7.如权利要求1所述的基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,所述近实时查询处理平台是基于Hadoop分布式文件系统,并在所述Hadoop分布式文件系统中依据Parquet列存储格式进行数据存储,利用Spark分布式管理系统集成的Parquet数据读写接口在Hadoop分布式文件系统中进行文件存取。
8.如权利要求1所述的基于开源大数据对时间敏感数据的存储和近实时查询方法,其特征在于,所述外存空间包括HBase分布式键值存储数据库和Hadoop分布式文件系统,所述HBase分布式键值存储数据库用于存储所述索引信息,所述Hadoop分布式文件系统用于存储所述源数据文件,并使用Parquet列存储格式提升数据处理与分析的性能。
CN201410522033.2A 2014-09-30 2014-09-30 基于开源大数据对时间敏感数据的存储和近实时查询方法 Active CN105528367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410522033.2A CN105528367B (zh) 2014-09-30 2014-09-30 基于开源大数据对时间敏感数据的存储和近实时查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410522033.2A CN105528367B (zh) 2014-09-30 2014-09-30 基于开源大数据对时间敏感数据的存储和近实时查询方法

Publications (2)

Publication Number Publication Date
CN105528367A true CN105528367A (zh) 2016-04-27
CN105528367B CN105528367B (zh) 2019-06-14

Family

ID=55770595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410522033.2A Active CN105528367B (zh) 2014-09-30 2014-09-30 基于开源大数据对时间敏感数据的存储和近实时查询方法

Country Status (1)

Country Link
CN (1) CN105528367B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021580A (zh) * 2016-06-03 2016-10-12 用友网络科技股份有限公司 Impala 基于Hadoop集群日志分析方法和系统
CN106909641A (zh) * 2017-02-16 2017-06-30 青岛高校信息产业股份有限公司 一种实时数据存储器
CN107168984A (zh) * 2017-03-20 2017-09-15 国家计算机网络与信息安全管理中心 一种基于多文件格式自动识别的跨地域关联统计方法
CN107330024A (zh) * 2017-06-21 2017-11-07 华为机器有限公司 标签系统数据的存储方法和装置
CN107944038A (zh) * 2017-12-14 2018-04-20 上海达梦数据库有限公司 一种去重数据的生成方法及装置
CN107958018A (zh) * 2017-10-17 2018-04-24 北京百度网讯科技有限公司 缓存中的数据更新方法、装置及计算机可读介质
CN108241647A (zh) * 2016-12-23 2018-07-03 北京奇虎科技有限公司 数据处理及查询的方法和装置
CN108319652A (zh) * 2017-12-28 2018-07-24 浙江新再灵科技股份有限公司 一种基于hdfs的电梯数据的列式文件存储系统及方法
WO2018218504A1 (zh) * 2017-05-31 2018-12-06 华为技术有限公司 数据查询的方法和装置
CN109117669A (zh) * 2018-08-14 2019-01-01 华中科技大学 MapReduce相似连接查询的隐私保护方法及系统
CN110263057A (zh) * 2019-06-12 2019-09-20 上海英方软件股份有限公司 一种rowid映射表的存储/查询方法及装置
CN110336975A (zh) * 2019-07-12 2019-10-15 浙江华创视讯科技有限公司 视频流的切换方法及视频流的播放终端
CN111026918A (zh) * 2019-11-12 2020-04-17 上海麦克风文化传媒有限公司 一种温数据大规模分析架构
CN111177077A (zh) * 2018-11-09 2020-05-19 杭州海康威视数字技术股份有限公司 数据存储及数据查询方法、装置、设备、介质
CN111694801A (zh) * 2019-03-14 2020-09-22 北京沃东天骏信息技术有限公司 一种应用于故障恢复的数据去重方法和装置
WO2020206952A1 (zh) * 2019-04-09 2020-10-15 苏宁云计算有限公司 一种图数据库的数据导入方法及装置
CN112559514A (zh) * 2019-09-25 2021-03-26 上海哔哩哔哩科技有限公司 一种信息处理方法及系统
US11068491B2 (en) 2018-11-28 2021-07-20 The Toronto-Dominion Bank Data storage using a bi-temporal index
CN113362489A (zh) * 2020-03-06 2021-09-07 联合汽车电子有限公司 车辆测量文件的创建方法、电子设备和存储介质
CN115658730A (zh) * 2022-09-20 2023-01-31 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091744A1 (en) * 2006-10-11 2008-04-17 Hidehisa Shitomi Method and apparatus for indexing and searching data in a storage system
CN101996246A (zh) * 2010-11-09 2011-03-30 中国电信股份有限公司 即时索引方法及系统
CN103970853A (zh) * 2014-05-05 2014-08-06 浙江宇视科技有限公司 优化搜索引擎的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091744A1 (en) * 2006-10-11 2008-04-17 Hidehisa Shitomi Method and apparatus for indexing and searching data in a storage system
CN101996246A (zh) * 2010-11-09 2011-03-30 中国电信股份有限公司 即时索引方法及系统
CN103970853A (zh) * 2014-05-05 2014-08-06 浙江宇视科技有限公司 优化搜索引擎的方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021580B (zh) * 2016-06-03 2019-12-20 用友网络科技股份有限公司 Impala基于Hadoop集群日志分析方法和系统
CN106021580A (zh) * 2016-06-03 2016-10-12 用友网络科技股份有限公司 Impala 基于Hadoop集群日志分析方法和系统
CN108241647B (zh) * 2016-12-23 2022-03-11 北京奇虎科技有限公司 数据处理及查询的方法和装置
CN108241647A (zh) * 2016-12-23 2018-07-03 北京奇虎科技有限公司 数据处理及查询的方法和装置
CN106909641A (zh) * 2017-02-16 2017-06-30 青岛高校信息产业股份有限公司 一种实时数据存储器
CN106909641B (zh) * 2017-02-16 2020-09-29 青岛高校信息产业股份有限公司 一种实时数据存储器
CN107168984A (zh) * 2017-03-20 2017-09-15 国家计算机网络与信息安全管理中心 一种基于多文件格式自动识别的跨地域关联统计方法
WO2018218504A1 (zh) * 2017-05-31 2018-12-06 华为技术有限公司 数据查询的方法和装置
CN107330024A (zh) * 2017-06-21 2017-11-07 华为机器有限公司 标签系统数据的存储方法和装置
CN107958018A (zh) * 2017-10-17 2018-04-24 北京百度网讯科技有限公司 缓存中的数据更新方法、装置及计算机可读介质
CN107944038B (zh) * 2017-12-14 2020-11-10 上海达梦数据库有限公司 一种去重数据的生成方法及装置
CN107944038A (zh) * 2017-12-14 2018-04-20 上海达梦数据库有限公司 一种去重数据的生成方法及装置
CN108319652A (zh) * 2017-12-28 2018-07-24 浙江新再灵科技股份有限公司 一种基于hdfs的电梯数据的列式文件存储系统及方法
CN109117669A (zh) * 2018-08-14 2019-01-01 华中科技大学 MapReduce相似连接查询的隐私保护方法及系统
CN109117669B (zh) * 2018-08-14 2020-08-28 华中科技大学 MapReduce相似连接查询的隐私保护方法及系统
CN111177077A (zh) * 2018-11-09 2020-05-19 杭州海康威视数字技术股份有限公司 数据存储及数据查询方法、装置、设备、介质
CN111177077B (zh) * 2018-11-09 2023-05-26 杭州海康威视数字技术股份有限公司 数据存储及数据查询方法、装置、设备、介质
US11068491B2 (en) 2018-11-28 2021-07-20 The Toronto-Dominion Bank Data storage using a bi-temporal index
CN111694801A (zh) * 2019-03-14 2020-09-22 北京沃东天骏信息技术有限公司 一种应用于故障恢复的数据去重方法和装置
WO2020206952A1 (zh) * 2019-04-09 2020-10-15 苏宁云计算有限公司 一种图数据库的数据导入方法及装置
CN110263057B (zh) * 2019-06-12 2020-04-17 上海英方软件股份有限公司 一种rowid映射表的存储和查询方法及装置
CN110263057A (zh) * 2019-06-12 2019-09-20 上海英方软件股份有限公司 一种rowid映射表的存储/查询方法及装置
CN110336975A (zh) * 2019-07-12 2019-10-15 浙江华创视讯科技有限公司 视频流的切换方法及视频流的播放终端
CN112559514A (zh) * 2019-09-25 2021-03-26 上海哔哩哔哩科技有限公司 一种信息处理方法及系统
CN111026918A (zh) * 2019-11-12 2020-04-17 上海麦克风文化传媒有限公司 一种温数据大规模分析架构
CN113362489A (zh) * 2020-03-06 2021-09-07 联合汽车电子有限公司 车辆测量文件的创建方法、电子设备和存储介质
CN115658730A (zh) * 2022-09-20 2023-01-31 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质
CN115658730B (zh) * 2022-09-20 2024-02-13 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN105528367B (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN105528367A (zh) 基于开源大数据对时间敏感数据的存储和近实时查询方法
CN113010506B (zh) 一种多源异构水环境大数据管理系统
CN103092867B (zh) 一种数据管理方法及系统、数据分析装置
CN108509437B (zh) 一种ElasticSearch查询加速方法
US8903803B1 (en) Horizontal interval-based data partitioning and indexing for large clusters
CN109726225B (zh) 一种基于Storm的分布式流数据存储与查询方法
CN106528787A (zh) 一种基于海量数据多维分析的查询方法及装置
WO2016149552A1 (en) Compaction policy
CN102906751A (zh) 一种数据存储、数据查询的方法及装置
CN104133867A (zh) 分布式顺序表片内二级索引方法及系统
CN103366015A (zh) 一种基于Hadoop的OLAP数据存储与查询方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN104424229A (zh) 一种多维度拆分的计算方法及系统
CN105989076A (zh) 一种数据统计方法以及装置
CN104866521B (zh) 处理具有混合存储器的数据库中的查询的设备和方法
CN105912675B (zh) 一种针对小文件合并的批量删除/查询方法与装置
CN102722584B (zh) 数据存储系统及方法
CN103902544A (zh) 一种数据处理方法及系统
CN104834700A (zh) 一种基于轨迹变更的移动数据增量捕获方法
Aly et al. Kangaroo: Workload-aware processing of range data and range queries in hadoop
CN104750826A (zh) 一种结构化数据资源元数据自动甄别与动态注册方法
CN112181940A (zh) 全国工商大数据处理系统的构建方法
US20230325363A1 (en) Time series data layered storage systems and methods
CN105787090A (zh) 一种电力数据的olap系统的索引建立方法和系统
Vu et al. Using deep learning for big spatial data partitioning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 200241 No. 500, Dongchuan Road, Shanghai, Minhang District

Patentee after: EAST CHINA NORMAL University

Address before: 200062 No. 3663, Putuo District, Shanghai, Zhongshan North Road

Patentee before: EAST CHINA NORMAL University