CN110309108A - 数据采集及储存方法、装置、电子设备、存储介质 - Google Patents

数据采集及储存方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN110309108A
CN110309108A CN201910383479.4A CN201910383479A CN110309108A CN 110309108 A CN110309108 A CN 110309108A CN 201910383479 A CN201910383479 A CN 201910383479A CN 110309108 A CN110309108 A CN 110309108A
Authority
CN
China
Prior art keywords
data
stored
acquisition
subregion
business hours
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910383479.4A
Other languages
English (en)
Inventor
蔡圣哲
严旭东
董延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Manyun Software Technology Co Ltd
Original Assignee
Jiangsu Manyun Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Software Technology Co Ltd filed Critical Jiangsu Manyun Software Technology Co Ltd
Priority to CN201910383479.4A priority Critical patent/CN110309108A/zh
Publication of CN110309108A publication Critical patent/CN110309108A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Abstract

本发明提供一种数据采集及储存方法、装置、电子设备、存储介质,数据采集及储存方法包括:自多数据源采集数据;按储存要求将所采集数据转换为待储存数据,并解析所采集数据获取关联待储存数据的来源及业务时间;根据所述待储存数据的来源确定待储存数据所在分区,不同分区用于储存不同来源的数据,各所述分区包括一个或多个按时间划分的子分区;根据所述待储存数据的业务时间确定待储存数据所在子分区;根据所确定的分区及其子分区储存所述待储存数据。本发明提供的方法及装置改进数据的采集及储存,提高数据质量并使所储存数据具有高可用性。

Description

数据采集及储存方法、装置、电子设备、存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据采集及储存方法、装置、电子设备、存储介质。
背景技术
随着信息时代的发展,对于企业和个人来说,对海量数据的处理越来越重要。
大数据处理中,数据采集及数据落地是较为重要的环节,其决定了数据输入/输出效率。现有的数据处理系统中,存在诸多缺点,例如对其他框架的依赖度较高,对于处理网络问题的容错方法并不成熟,SLA(Service-Level Agreement,服务等级协议)不高,数据源单一,数据源和应用耦合度较高等。
具体而言,Flume(高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统)是本领域使用较多的数据落地解决方案,Flume的优点是配置简单,可以和HDFS(Hadoop分布式文件系统)、S3(Simple Storage Service,简单存储服务)等分布式文件系统对接,但对比于本系统,Flume没有检查点(Checkpoint)机制,无法实现底层API的编程,灵活度较低,且无法保证数据质量。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种数据采集及储存方法、装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明的一个方面,提供一种数据采集及储存方法,包括:
自多数据源采集数据;
按储存要求将所采集数据转换为待储存数据,并解析所采集数据获取关联待储存数据的来源及业务时间;
根据所述待储存数据的来源确定待储存数据所在分区,不同分区用于储存不同来源的数据,各所述分区包括一个或多个按时间划分的子分区;
根据所述待储存数据的业务时间确定待储存数据所在子分区;
根据所确定的分区及其子分区储存所述待储存数据。
可选地,所述解析所采集数据获取关联待储存数据的来源及业务时间包括:
自所采集数据获取对应业务时间字段的初始业务时间;
自业务时间格式集合中匹配初始业务时间的业务时间格式;
根据所匹配的业务时间格式,将所述初始业务时间转换为固定业务时间格式,以用于确定用来储存待储存数据的子分区。
可选地,所述根据所确定的分区及其子分区储存所述数据之后包括:
当前子分区写入完成时,生成一结束标志,以标识该子分区写入完成。
可选地,所述根据所确定的分区及其子分区储存所述待储存数据之后包括:
为所述待储存数据设置检查点和/或保存点。
可选地,还包括周期性建立所述分区的N个子分区,周期性建立的N个子分区的容量根据前M个周期对应时间的子分区的数据量确定,其中,M,N为大于等于1的整数。
可选地,初始周期时,所述分区的N个子分区的容量平均划分。
可选地,所述的数据采集及储存方法采用Flink处理框架实现。
根据本发明的又一方面,还提供一种数据采集及储存装置,包括:
采集模块,用于自多数据源采集数据;
转换模块,用于按储存要求将所采集数据转换为待储存数据,并解析所采集数据获取关联待储存数据的来源及业务时间;
第一确定模块,用于根据所述待储存数据的来源确定待储存数据所在分区,不同分区用于储存不同来源的数据,各所述分区包括一个或多个按时间划分的子分区;
第二确定模块,用于根据所述待储存数据的业务时间确定待储存数据所在子分区;
储存模块,用于根据所确定的分区及其子分区储存所述待储存数据。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
本发明通过改善数据链路中常见的功能性问题和性能优化问题,实现海量数据的采集及落地。一方面,本发明通过数据格式的转换实现多数据源的数据采集;另一方面,本发明通过基于数据的来源和业务时间确定数据分区,以通过智能分区,提高数据质量并使所储存数据具有高可用性。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的数据采集及储存方法的流程图。
图2示出了根据本发明实施例的业务时间格式转换的流程图。
图3示出了根据本发明实施例的数据采集及储存装置的模块图。
图4示出了根据本发明实施例的数据采集及储存系统的模块图。
图5示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。
图6示意性示出本发明示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
图1示出了根据本发明实施例的数据采集及储存方法的流程图。数据采集及储存方法包括如下步骤:
步骤S110:自多数据源采集数据;
步骤S120:按储存要求将所采集数据转换为待储存数据,并解析所采集数据获取关联待储存数据的来源及业务时间;
步骤S130:根据所述待储存数据的来源确定待储存数据所在分区,不同分区用于储存不同来源的数据,各所述分区包括一个或多个按时间划分的子分区;
步骤S140:根据所述待储存数据的业务时间确定待储存数据所在子分区;
步骤S150:根据所确定的分区及其子分区储存所述待储存数据。
在本发明提供的数据采集及储存方法中,本发明通过改善数据链路中常见的功能性问题和性能优化问题,实现海量数据的采集及落地。一方面,本发明通过数据格式的转换实现多数据源的数据采集;另一方面,本发明通过基于数据的来源和业务时间确定数据分区,以通过智能分区,提高数据质量并使所储存数据具有高可用性。
在本发明的各个实施例,本发明优选地采用Flink框架来实现。具体而言,本发明在Flink框架的使用上,StreamExecutionEnvironment作为运行时上下文,可在生产环境和开发环境无缝切换,DStream有一些高级抽象可以对数据进行多种操作如map、filter等,做算子的transformation相对灵活,可用于自主构造新组件去完成功能的匹配和缓存。其次On Yarn(Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配)的提交方式优化了资源管理,减少应用间的干扰、支持日志滚动、改善Jar包提交方式。
进一步地,在上述实施例中,本发明通过采用Flink框架自带的ParallelSourceFunction接口,对接多种数据源(如系统的前置消息中间件,也可以通过修改部分代码实现对其他前置组件的数据接入),对数据进行采集的过程中保证exactly-once(严格一次)语义,然后对数据进行处理,根据用户对数据的要求进行扁平化、异常值过滤、缺失值填充等转换操作。
在本发明的一些实施例中,步骤S110及步骤S120是处理原始数据的步骤,尽量保证数据量和数据本身的完整性。在执行时,首先启动初始化上下文环境并生成StreamGraph并对其进行优化,接着启动JobManagers协调分布式程序执行、调度task(项目),启动TaskManagers(项目管理器)做数据交换和数据缓冲。每个Task Slot(任务槽)对接消息中间件的每个分区,实现并行度最优并读取数据进入本方法。本发明步骤S110中的多数据源(可接入组件)可以包括消息队列、搜索引擎、数据库等。由于每个业务的数据量不同需要根据数据量大小和业务复杂度分配足够的CPU核数和内存大小。
在本发明的一些实施例中,数据的来源表示数据的业务来源。例如,可以以不同的APP来区分不同的数据来源;又例如,可以以同一APP不同的模块来区分不同的数据来源;再例如可以以不同的APP的同一类型数据作为同一数据来源,本发明可以实现更多不同的变化方式,在此不予赘述。由此,本发明可以通过数据来源进行初始硬盘分区。进一步地,对每一数据来源可以通过数据的业务时间来对初始分区进一步划分以获得多个子分区。业务时间可以是该数据的建立时间、该数据的采集时间等,本发明并非以此为限制,只需预先定义业务时间即可。子分区的划分可以按周、天、小时、分钟等,本发明并非以此为限制。
在上述的实施例中,数据采集及储存方法还包括周期性建立所述分区的N个子分区,周期性建立的N个子分区的容量根据前M个周期对应时间的子分区的数据量确定,其中,M,N为大于等于1的整数。可选地,初始周期时,所述分区的N个子分区的容量平均划分。例如,周期为一天,各分区按小时划分子区,则初始周期时,各子分区的容量为分区的二十四分之一。考虑到不同时间段的数据量的不同,在后续周期进行分区时,可按该子分区对应的前多个周期对应子分区的数据量确定。例如,当前周期的12点至1点的子分区的容量可以设定为前5天12点至1的子分区的数据量的平均值和预定容量之和/最大值来确定。由此,实现子分区容量确定的自学习,避免存储空间的浪费。
在本发明的一些实施例中,上述步骤S120所述解析所采集数据获取关联待储存数据的来源及业务时间的具体实现可以参见图2,图2示出了根据本发明实施例的业务时间格式转换的流程图。图2共示出如下步骤:
步骤S210:自所采集数据获取对应业务时间字段的初始业务时间。
步骤S220:自业务时间格式集合中匹配初始业务时间的业务时间格式。
步骤S230:根据所匹配的业务时间格式,将所述初始业务时间转换为固定业务时间格式,以用于确定用来储存待储存数据的子分区。
可以理解,不同数据源/数据来源的数据的业务时间的格式可能有所不同,为了判断逻辑的统一,通过上述步骤实现业务时间格式的统一,避免业务时间的判断逻辑发生错误。
具体而言,在上述实施例的具体实现中,可以执行如下步骤:一次性加载配置参数,并传参根据参数加载分区方式,构造路径;流式读取数据进入CustomBucketingSink,触发in-progress(进行中)状态的文件进入pending(待定)状态;生成多个线程解析数据,判断event_time(业务时间)归属子分区;每个线程调用函数打开文件,将数据写入;监听线程启动,对in-progress文件写入的数据设置检查点(checkpoint)以保证exactly-once和/或保存点以供外部恢复;当子分区写入结束,每个线程新建标志位文件。
具体而言,检查点(checkpoint)在本发明中提供容错机制,用来快速恢复数据应用的状态,及时发生故障也可以在记录点启动无缝衔接数据,并保证exactly-once。本发明将应用的状态存储在分布式文件系统中,checkpoint进程会制作分布式数据流和操作算子状态的一致性快照,借鉴Chandy-Lamport(分布式快照)算法并针对实时执行模型设计。保存点(savepoint)是外部恢复的机制,在框架升级、程序升级的场景中使用,savepoint的本质实际是字包含结构的checkpoint,是非增量的快照并包含应用的状态,本发明也可将savepoint存储在分布式文件系统中。
具体而言,本发明通过在步骤S110至步骤S140处理的数据通过native Streaming(本地流)进入内存后,默认情况下,本发明可以直接对原始数据进行落地(省略步骤S120)。在需要时,仍可执行步骤S120,具体而言,本发明具备可扩展的转换的能力,通过实现映射功能(MapFunction)、滤波功能(FilterFunction)、压缩功能(ReduceFunction)等接口可以方便的实现对数据的过滤、清洗、转换甚至聚合操作。对于异常值处理、缺失值填充等轻度数据质量建设本发明均可支持。
数据存储时,首先需要设置存储路径,一般情况下存储在分布式文件系统中,指定时间分区,将数据通过Event Time(数据的业务时间)写入对应时间分区。指定压缩格式,对应上层应用或数据仓库可识别的格式进行设置。同时发明支持按周期拆分、按存储空间大小拆分文件。本地流数据(native Streaming)中的数据落地前会在指定路径下新建时间分区,每个线程写入的过程中按指定压缩格式和文件切分方式存储文件,并在当前分区写入结束后标志结束位文件标识分区写入完毕。常见的存储介质包括列式数据库,企业级中间件,分布式文件系统等。
具体而言,本发明提供的多种分区方式支持数据来源维度、时间维度以及存储空间维度等的数据分流,并精准实时的分区,供数据仓库贴源数据层建模和并能使数据快速投入使用。由于本发明是线上流处理任务,所以可以一次性加载可配置参数,包括消息中间件的配置参数、topic参数、数据库binlog的格式参数、分区参数等,在方法执行时配置参数一次性从数据库中读取并加载,中间框架使用Spring的思想分层管理对象。在一些具体实现中,本发明从消息中间件订阅的数据是APP端和服务端打点的数据和数据库产生的订单、支付信息等数据,这些数据中包含数据产生的时间也可以说是事件发生的时间,但是渠道和数据源众多,此功能动态的解析和提取多种数据中的时间事件,并根据时间事件进行实时分区落地。此功能可以使用IterativeStream(可迭代的流)的概念对流进行转换。
上仅仅是本发明提供的一个或多个具体实现方式,本发明并非以为限制。
图3示出了根据本发明实施例的数据采集及储存装置的模块图。数据采集及储存装置300包括采集模块310、转换模块320、第一确定模块330、第二确定模块340、储存模块350。
采集模块310用于自多数据源采集数据;
转换模块320用于按储存要求将所采集数据转换为待储存数据,并解析所采集数据获取关联待储存数据的来源及业务时间;
第一确定模块330用于根据所述待储存数据的来源确定待储存数据所在分区,不同分区用于储存不同来源的数据,各所述分区包括一个或多个按时间划分的子分区;
第二确定模块340用于根据所述待储存数据的业务时间确定待储存数据所在子分区;
储存模块350用于根据所确定的分区及其子分区储存所述待储存数据。
在本发明提供的数据采集及储存装置中,本发明通过改善数据链路中常见的功能性问题和性能优化问题,实现海量数据的采集及落地。一方面,本发明通过数据格式的转换实现多数据源的数据采集;另一方面,本发明通过基于数据的来源和业务时间确定数据分区,以通过智能分区,提高数据质量并使所储存数据具有高可用性。
图3仅仅是示意性的示出本发明提供的数据采集及储存装置300,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。本发明提供的数据采集及储存装置300可以由软件、硬件、固件、插件及他们之间的任意组合来实现,本发明并非以此为限。
图4示出了根据本发明实施例的数据采集及储存系统的模块图。
数据采集及储存装置300包括采集模块310可接入多种数据源,包括消息队列411、搜索引擎412、数据库413,本发明并非以此为限制。数据经由采集模块310接入数据采集及储存装置300,通过转换模块320进行转换,通过第一确定模块330和第二确定模块340确定所要储存的子分区后,通过储存模块350储存至硬盘450对应分区内。数据采集及储存装置300中各模块可以通过应用管理模块420进行监听和管理。应用管理模块420可以通过配置模块430进行配置。应用管理模块420和配置模块430可将数据储存至内存440中。由此,实现本发明的数据采集及储存。
以上仅仅是示意性地示出本发明的一个或多个具体实现方式,本发明并非以为限制。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述数据采集及储存方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述数据采集及储存方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述数据采集及储存方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备500。图6显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述数据采集及储存方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1至图2所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述数据采集及储存方法。
相比现有技术,本发明的优势在于:
本发明通过改善数据链路中常见的功能性问题和性能优化问题,实现海量数据的采集及落地。一方面,本发明通过数据格式的转换实现多数据源的数据采集;另一方面,本发明通过基于数据的来源和业务时间确定数据分区,以通过智能分区,提高数据质量并使所储存数据具有高可用性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (10)

1.一种数据采集及储存方法,其特征在于,包括:
自多数据源采集数据;
按储存要求将所采集数据转换为待储存数据,并解析所采集数据获取关联待储存数据的来源及业务时间;
根据所述待储存数据的来源确定待储存数据所在分区,不同分区用于储存不同来源的数据,各所述分区包括一个或多个按时间划分的子分区;
根据所述待储存数据的业务时间确定待储存数据所在子分区;
根据所确定的分区及其子分区储存所述待储存数据。
2.如权利要求1所述的数据采集及储存方法,其特征在于,所述解析所采集数据获取关联待储存数据的数据来源及业务时间包括:
自所采集数据获取对应业务时间字段的初始业务时间;
自业务时间格式集合中匹配初始业务时间的业务时间格式;
根据所匹配的业务时间格式,将所述初始业务时间转换为固定业务时间格式,以用于确定用来储存待储存数据的子分区。
3.如权利要求1所述的数据采集及储存方法,其特征在于,所述根据所确定的分区及其子分区储存所述数据之后包括:
当前子分区写入完成时,生成一结束标志,以标识该子分区写入完成。
4.如权利要求1所述的数据采集及储存方法,其特征在于,所述根据所确定的分区及其子分区储存所述待储存数据之后包括:
为所述待储存数据设置检查点和/或保存点。
5.如权利要求1所述的数据采集及储存方法,其特征在于,还包括周期性建立所述分区的N个子分区,周期性建立的N个子分区的容量根据前M个周期对应时间的子分区的数据量确定,其中,M,N为大于等于1的整数。
6.如权利要求5所述的数据采集及储存方法,其特征在于,初始周期时,所述分区的N个子分区的容量平均划分。
7.如权利要求1至6任一项所述的数据采集及储存方法,其特征在于,所述的数据采集及储存方法采用Flink处理框架实现。
8.一种数据采集及储存装置,其特征在于,包括:
采集模块,用于自多数据源采集数据;
转换模块,用于按储存要求将所采集数据转换为待储存数据,并解析所采集数据获取关联待储存数据的来源及业务时间;
第一确定模块,用于根据所述待储存数据的来源确定待储存数据所在分区,不同分区用于储存不同来源的数据,各所述分区包括一个或多个按时间划分的子分区;
第二确定模块,用于根据所述待储存数据的业务时间确定待储存数据所在子分区;
储存模块,用于根据所确定的分区及其子分区储存所述待储存数据。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至7任一项所述的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的步骤。
CN201910383479.4A 2019-05-08 2019-05-08 数据采集及储存方法、装置、电子设备、存储介质 Pending CN110309108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910383479.4A CN110309108A (zh) 2019-05-08 2019-05-08 数据采集及储存方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910383479.4A CN110309108A (zh) 2019-05-08 2019-05-08 数据采集及储存方法、装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN110309108A true CN110309108A (zh) 2019-10-08

Family

ID=68074621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910383479.4A Pending CN110309108A (zh) 2019-05-08 2019-05-08 数据采集及储存方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN110309108A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851514A (zh) * 2019-10-17 2020-02-28 杭州安恒信息技术股份有限公司 基于flink的etl处理方法
CN110929072A (zh) * 2019-11-29 2020-03-27 深圳市商汤科技有限公司 聚类系统及方法、电子设备和存储介质
CN110928906A (zh) * 2019-11-08 2020-03-27 杭州安恒信息技术股份有限公司 基于flink仅一次写入carbonData的方法
CN111240940A (zh) * 2020-01-09 2020-06-05 江苏满运软件科技有限公司 实时业务监控方法、装置、电子设备、存储介质
CN112380177A (zh) * 2020-11-17 2021-02-19 中国平安人寿保险股份有限公司 一种业务数据处理方法、设备、终端及存储介质
CN113238993A (zh) * 2021-05-14 2021-08-10 中国人民银行数字货币研究所 一种数据处理方法和装置
CN114331196A (zh) * 2021-12-31 2022-04-12 深圳市市政设计研究院有限公司 一种基于云平台的轨道交通小运量综合调度系统及云平台
CN117370400A (zh) * 2023-12-05 2024-01-09 民航成都信息技术有限公司 航空数据的加工聚合处理方法、装置、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488201A (zh) * 2015-12-08 2016-04-13 北京皮尔布莱尼软件有限公司 一种日志查询方法和系统
CN105843939A (zh) * 2016-03-31 2016-08-10 北京经纬恒润科技有限公司 一种数据存储方法及装置
CN106250444A (zh) * 2016-07-27 2016-12-21 北京集奥聚合科技有限公司 一种异构数据源的实时入库系统及方法
CN107704590A (zh) * 2017-09-30 2018-02-16 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法及系统
CN107729448A (zh) * 2017-09-30 2018-02-23 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理系统
CN107861989A (zh) * 2017-10-17 2018-03-30 平安科技(深圳)有限公司 数据的分区存储方法、装置、计算机设备及存储介质
US10108669B1 (en) * 2014-03-21 2018-10-23 Xactly Corporation Partitioning data stores using tenant specific partitioning strategies

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108669B1 (en) * 2014-03-21 2018-10-23 Xactly Corporation Partitioning data stores using tenant specific partitioning strategies
CN105488201A (zh) * 2015-12-08 2016-04-13 北京皮尔布莱尼软件有限公司 一种日志查询方法和系统
CN105843939A (zh) * 2016-03-31 2016-08-10 北京经纬恒润科技有限公司 一种数据存储方法及装置
CN106250444A (zh) * 2016-07-27 2016-12-21 北京集奥聚合科技有限公司 一种异构数据源的实时入库系统及方法
CN107704590A (zh) * 2017-09-30 2018-02-16 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法及系统
CN107729448A (zh) * 2017-09-30 2018-02-23 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理系统
CN107861989A (zh) * 2017-10-17 2018-03-30 平安科技(深圳)有限公司 数据的分区存储方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁景凌等: "《Spark案例与实验教程》", 30 April 2017, 武汉:武汉大学出版社 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851514A (zh) * 2019-10-17 2020-02-28 杭州安恒信息技术股份有限公司 基于flink的etl处理方法
CN110928906A (zh) * 2019-11-08 2020-03-27 杭州安恒信息技术股份有限公司 基于flink仅一次写入carbonData的方法
CN110929072A (zh) * 2019-11-29 2020-03-27 深圳市商汤科技有限公司 聚类系统及方法、电子设备和存储介质
CN111240940A (zh) * 2020-01-09 2020-06-05 江苏满运软件科技有限公司 实时业务监控方法、装置、电子设备、存储介质
CN111240940B (zh) * 2020-01-09 2022-09-16 江苏满运软件科技有限公司 实时业务监控方法、装置、电子设备、存储介质
CN112380177A (zh) * 2020-11-17 2021-02-19 中国平安人寿保险股份有限公司 一种业务数据处理方法、设备、终端及存储介质
CN112380177B (zh) * 2020-11-17 2023-10-13 中国平安人寿保险股份有限公司 一种业务数据处理方法、设备、终端及存储介质
CN113238993A (zh) * 2021-05-14 2021-08-10 中国人民银行数字货币研究所 一种数据处理方法和装置
CN113238993B (zh) * 2021-05-14 2023-12-05 中国人民银行数字货币研究所 一种数据处理方法和装置
CN114331196A (zh) * 2021-12-31 2022-04-12 深圳市市政设计研究院有限公司 一种基于云平台的轨道交通小运量综合调度系统及云平台
CN117370400A (zh) * 2023-12-05 2024-01-09 民航成都信息技术有限公司 航空数据的加工聚合处理方法、装置、电子设备及介质
CN117370400B (zh) * 2023-12-05 2024-02-13 民航成都信息技术有限公司 航空数据的加工聚合处理方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN110309108A (zh) 数据采集及储存方法、装置、电子设备、存储介质
US10817501B1 (en) Systems and methods for using a reaction-based approach to managing shared state storage associated with a distributed database
CN108519914B (zh) 大数据计算方法、系统和计算机设备
US10733019B2 (en) Apparatus and method for data processing
US9680893B2 (en) Method and system for event state management in stream processing
US11030002B2 (en) Optimizing simultaneous startup or modification of inter-dependent machines with specified priorities
CN108595316B (zh) 分布式应用的生命周期管理方法、管理器、设备和介质
CN109783472A (zh) 表数据的迁移方法、装置、计算机设备和存储介质
US20220179711A1 (en) Method For Platform-Based Scheduling Of Job Flow
CN115335821B (zh) 卸载统计收集
CN110502566B (zh) 近实时数据采集方法、装置、电子设备、存储介质
CN103488697A (zh) 能自动收集和交换碎片化商业信息的系统及移动终端
Di Stefano et al. Prometheus and aiops for the orchestration of cloud-native applications in ananke
CN116325705A (zh) 边缘计算环境中的管理任务流
CN116304390B (zh) 时序数据处理方法、装置、存储介质及电子设备
CN116954944A (zh) 基于内存网格的分布式数据流处理方法、装置及设备
Büyüktanır et al. Provisioning system for application virtualization environments
CN115658248A (zh) 任务调度方法方法、装置、电子设备及存储介质
CN113590217B (zh) 基于引擎的函数管理方法、装置、电子设备及存储介质
US20220335318A1 (en) Dynamic anomaly forecasting from execution logs
CN114756301A (zh) 日志处理方法、装置和系统
US20230342369A1 (en) Data processing method and apparatus, and electronic device and storage medium
US20220122038A1 (en) Process Version Control for Business Process Management
US20180173601A1 (en) Energy consumption analysis based on telemetry data
Zhang The Analysis of Parallelism of Apache Storm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191008