CN110704484A - 一种对海量实时数据流进行处理的方法及系统 - Google Patents
一种对海量实时数据流进行处理的方法及系统 Download PDFInfo
- Publication number
- CN110704484A CN110704484A CN201910848405.3A CN201910848405A CN110704484A CN 110704484 A CN110704484 A CN 110704484A CN 201910848405 A CN201910848405 A CN 201910848405A CN 110704484 A CN110704484 A CN 110704484A
- Authority
- CN
- China
- Prior art keywords
- service
- real
- information
- processing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000010223 real-time analysis Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000007726 management method Methods 0.000 abstract description 3
- 239000002699 waste material Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24561—Intermediate data storage techniques for performance improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对海量实时数据流进行处理的方法及系统,包括:接收消息中间件RocketMQ中的多条业务状态原始数据,并进行解析转码处理,以获取每个业务的业务完整记录;将获取的每个业务的业务完整记录与分布式数据库HBase中存储的业务汇总信息进行比对处理,根据比对结果生成实时分析统计结果处理信息并消息中间件RocektMQ中;根据所述实时分析统计结果处理信息进行各维度实时统计结果的更新。本发明采用实时流计算框架Flink,消息队列缓存RocketMQ,分布式的、面向列的数据库Hbase和非关系型分布式数据库实现对复杂业务的实时处理;能够有针对性的对数据服务管理进行分布式扩容,实现了高并发性能需求,高效利用了服务器资源,避免了资源浪费,提升了系统的稳定性。
Description
技术领域
本发明海量数据处理技术领域,并且更具体地,涉及一种对海量实时数据流进行处理的方法及系统。
背景技术
随着全国快递物流行业的快速发展,尤其是双11期间,快递物流量的爆发式增长。在进行数据处理时,需要对数据库进行反复大数据量IO操作。基于传统IOE技术的架构面对如此大量数据的实时处理时,在性能和功能方面,已经难以满足国家邮政局对全国快递数据处理分析的及时性、准确性需求。
现有的基于IOE架构的数据处理方法,前端采用负载均衡(Nginx)做分发,后端采用多个Tomcat,原始数据经过一系列操作落入ORACLE,ORACLE已无法满足海量数据实时统计,实时统计性能越来越差,已经难以满足实时数据统计的展示需要。而且上述统计方式仅仅是对当天数据进行统计,统计结果并不与复杂的业务定义完全一致,实时统计结果仅有参考价值,无法完全作为实际监管的数据统计依据,具体的复杂的业务定义统计逻辑还要进行长时间的批量计算得出。现有的实时统计无论在处理性能上还是业务逻辑支撑上都存在严重不足。
因此,需要一种海量实时数据流处理方法,以满足实时处理性能需要以及复杂业务逻辑处理需求。
发明内容
本发明提出一种对海量实时数据流进行处理的方法及系统,以解决如何对海量数据实时进行处理,以满足实时处理性能需要以及复杂业务逻辑处理需求的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种对海量实时数据流进行处理的方法,所述方法包括:
接收消息中间件RocketMQ中的多条业务状态原始数据,并对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录;
将获取的每个业务的业务完整记录与分布式数据库HBase中存储的业务汇总信息进行比对处理,根据比对结果生成实时分析统计结果处理信息,并将所述实时分析统计结果处理信息写入所述消息中间件RocektMQ中;
根据所述消息中间件RocketMQ中的实时分析统计结果处理信息对各维度实时统计结果进行更新。
优选地,其中所述对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录,包括:
根据获取的多条业务状态原始数据中的每条业务状态原始数据的标识信息,确定相互关联的业务状态原始数据集合;
将相互关联度的业务状态原始数据集合中的每条业务状态原始数据进行解析转码和合并,并将合并后的数据并与预设的维度码表进行清洗操作,以获取每个业务的业务完整记录。
优选地,其中每条业务状态原始数据包括:收件、发件、到件、派件和签收信息;
所述预设的维度码表包括:产品类型、扫描状态和扫描网点,所述产品类型包括:次日达、次晨达、次早达、隔日达和次日达信息,所述扫描状态包括:揽收、发件、到件、派件和签收信息。
优选地,其中所述方法还包括:
在进行比对处理时,获取业务汇总更新信息,并根据所述业务汇总更新信息对所述分布式数据库中的业务汇总信息进行更新。
优选地,其中所述方法还包括:
通过数据查询服务查询各维度实时统计结果中的数据信息。
根据本发明的另一个方面,提供了一种对海量实时数据流进行处理的系统,所述系统包括:
解析转码处理单元,用于接收消息中间件RocketMQ中的多条业务状态原始数据,并对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录;
比对处理单元,用于将获取的每个业务的业务完整记录与分布式数据库HBase中存储的业务汇总信息进行比对处理,根据比对结果生成实时分析统计结果处理信息,并将所述实时分析统计结果处理信息写入所述消息中间件RocektMQ中;
更新单元,用于根据所述消息中间件RocketMQ中的实时分析统计结果处理信息对各维度实时统计结果进行更新。
优选地,其中所述解析转码处理单元,对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录,包括:
根据获取的多条业务状态原始数据中的每条业务状态原始数据的标识信息,确定相互关联的业务状态原始数据集合;
将相互关联度的业务状态原始数据集合中的每条业务状态原始数据进行解析转码和合并,并将合并后的数据并与预设的维度码表进行清洗操作,以获取每个业务的业务完整记录。
优选地,其中每条业务状态原始数据包括:收件、发件、到件、派件和签收信息;
所述预设的维度码表包括:产品类型、扫描状态和扫描网点,所述产品类型包括:次日达、次晨达、次早达、隔日达和次日达信息,所述扫描状态包括:揽收、发件、到件、派件和签收信息。
优选地,其中所述系统还包括:
业务汇总信息更新单元,用于在进行比对处理时,获取业务汇总更新信息,并根据所述业务汇总更新信息对所述分布式数据库中的业务汇总信息进行更新。
优选地,其中所述系统还包括:
数据查询单元,用于通过数据查询服务查询各维度实时统计结果中的数据信息。
本发明提供了一种对海量实时数据流进行处理的方法及系统,包括:接收消息中间件RocketMQ中的多条业务状态原始数据,并对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录;将获取的每个业务的业务完整记录与分布式数据库HBase中存储的业务汇总信息进行比对处理,根据比对结果生成实时分析统计结果处理信息,并将所述实时分析统计结果处理信息写入所述消息中间件RocektMQ中;根据所述消息中间件RocketMQ中的实时分析统计结果处理信息对各维度实时统计结果进行更新。本发明采用实时流计算框架Flink,消息队列缓存RocketMQ,分布式的、面向列的数据库Hbase和非关系型分布式数据库实现对复杂业务的实时处理,区别于传统IOE技术架构的分布式存储计算架构,满足了实时处理性能需要以及复杂业务逻辑处理的需求;能够有针对性的对数据服务管理进行分布式扩容,实现了高并发性能需求,高效利用了服务器资源,避免了资源浪费,同时提升了系统的稳定性和容错性。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为现有的基于IOE架构的实现实时数据流处理的示意图;
图2为根据本发明实施方式的对海量实时数据流进行处理的方法200的流程图;
图3为根据本发明实施方式的对海量实时数据流进行处理的示意图;以及
图4为根据本发明实施方式的对海量实时数据流进行处理的系统400的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图2为根据本发明实施方式的对海量实时数据流进行处理的方法200的流程图。如图2所示,本发明的实施方式提供的对海量实时数据流进行处理的方法,采用实时流计算框架Flink,消息队列缓存RocketMQ,分布式的、面向列的数据库Hbase和非关系型分布式数据库实现对复杂业务的实时处理,区别于传统IOE技术架构的分布式存储计算架构,满足了实时处理性能需要以及复杂业务逻辑处理的需求;能够有针对性的对数据服务管理进行分布式扩容,实现了高并发性能需求,高效利用了服务器资源,避免了资源浪费,同时提升了系统的稳定性和容错性。本发明的实施方式提供的对海量实时数据流进行处理的方法200从步骤201处开始,在步骤201接收消息中间件RocketMQ中的多条业务状态原始数据,并对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录。
优选地,其中所述对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录,包括:
根据获取的多条业务状态原始数据中的每条业务状态原始数据的标识信息,确定相互关联的业务状态原始数据集合;
将相互关联度的业务状态原始数据集合中的每条业务状态原始数据进行解析转码和合并,并将合并后的数据并与预设的维度码表进行清洗操作,以获取每个业务的业务完整记录。
优选地,其中每条业务状态原始数据包括:收件、发件、到件、派件和签收信息;
所述预设的维度码表包括:产品类型、扫描状态和扫描网点,所述产品类型包括:次日达、次晨达、次早达、隔日达和次日达信息,所述扫描状态包括:揽收、发件、到件、派件和签收信息。
本发明实施方式的对海量实时数据流进行处理的过程如图3所示。如图3所示,为了解决快递相关的实时统计分析的性能问题以及复杂业务逻辑实时分析的需求,本发明的实施方式采用多种开源大数据技术框架,实时流计算框架Flink,消息队列缓存RocketMQ,分布式的、面向列的数据库HBase,非关系型分布式数据库MongoDB等技术对复杂业务实时统计。为了更好的实现复杂业务逻辑流式实时统计分析,在Flink集群中实现多个拓扑分别对进行不同任务的处理。
ApacheFlink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。
在本发明的实施方式中,企业传输多条业务状态原始数据(原始快递xml数据)至消息队列缓存RocketMQ中,在数据处理拓扑中实时将RocketMQ的逐条数据根据标识信息进行关联,以获取相互关联的业务的业务状态原始数据集合。其中,业务原始数据包括:收件、发件、到件、派件和签收信息。然后,将获取的的业务状态原始数据集合中的每条业务状态原始数据进行解析转码和合并,并将合并后的数据并与预设的维度码表进行清洗操作,以获取每个业务的业务完整记录。所述预设的维度码表包括:产品类型、扫描状态和扫描网点,产品类型包括:次日达、次晨达、次早达、隔日达和次日达信息,扫描状态包括:揽收、发件、到件、派件和签收信息;扫描网点用于统计某个业务对应的具体网点信息。
例如,对于200条业务状态原始数据,在根据标识信息进行关联、解析转码和合并处理后,可以获取20个业务的业务完整记录,每条业务完整记录包括:收件、发件、到件、派件、签收、产品类型、扫描状态和扫描网点等信息。
在步骤202,将获取的每个业务的业务完整记录与分布式数据库HBase中存储的业务汇总信息进行比对处理,根据比对结果生成实时分析统计结果处理信息,并将所述实时分析统计结果处理信息写入所述消息中间件RocektMQ中。
优选地,其中所述方法还包括:
在进行比对处理时,获取业务汇总更新信息,并根据所述业务汇总更新信息对所述分布式数据库中的业务汇总信息进行更新。
如图3所示,在本发明的实施方式中,将获取的每个业务的业务完整记录与分布式数据库HBase中存储的合并业务汇总信息进行比对处理,生成的实时分析统计结果处理信息包括各种分析统计维度的增减操作,然后将实时分析统计结果处理信息写入RocketMQ的中间结果缓存中存储,并且在比对处理时,获取业务汇总更新信息,并更新到对所述分布式数据库中HBase的合并汇总快递信息中。
在步骤203,根据所述消息中间件RocketMQ中的实时分析统计结果处理信息对各维度实时统计结果进行更新。
优选地,其中所述方法还包括:
通过数据查询服务查询各维度实时统计结果中的数据信息。
在本发明的实施方式中,在实时统计拓扑中实时读取RocketMQ的实时分析统计结果处理信息,并依据该实时分析统计结果处理信息实现非关系型分布式数据库MongoDB中的各维度实时统计结果的更新,以供前端数据查询服务提供数据实时查询服务。
图4为根据本发明实施方式的对海量实时数据流进行处理的系统400的结构示意图。如图4所示,本发明的实施方式提供的对海量实时数据流进行处理的系统400,包括:解析转码处理单元401、比对处理单元402和更新单元403。
优选地,所述解析转码处理单元401,用于接收消息中间件RocketMQ中的多条业务状态原始数据,并对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录。
优选地,其中所述解析转码处理单元401,对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录,包括:根据获取的多条业务状态原始数据中的每条业务状态原始数据的标识信息,确定相互关联的业务状态原始数据集合;将相互关联度的业务状态原始数据集合中的每条业务状态原始数据进行解析转码和合并,并将合并后的数据并与预设的维度码表进行清洗操作,以获取每个业务的业务完整记录。
优选地,其中每条业务状态原始数据包括:收件、发件、到件、派件和签收信息;所述预设的维度码表包括:产品类型、扫描状态和扫描网点,所述产品类型包括:次日达、次晨达、次早达、隔日达和次日达信息,所述扫描状态包括:揽收、发件、到件、派件和签收信息。
优选地,所述比对处理单元402,用于将获取的每个业务的业务完整记录与分布式数据库HBase中存储的业务汇总信息进行比对处理,根据比对结果生成实时分析统计结果处理信息,并将所述实时分析统计结果处理信息写入所述消息中间件RocektMQ中。
优选地,其中所述系统还包括:业务汇总信息更新单元,用于在进行比对处理时,获取业务汇总更新信息,并根据所述业务汇总更新信息对所述分布式数据库中的业务汇总信息进行更新。
优选地,所述更新单元403,用于根据所述消息中间件RocketMQ中的实时分析统计结果处理信息对各维度实时统计结果进行更新。
优选地,其中所述系统还包括:数据查询单元,用于通过数据查询服务查询各维度实时统计结果中的数据信息。
本发明的实施例的对海量实时数据流进行处理的系统400与本发明的另一个实施例的对海量实时数据流进行处理的方法200相对应,在此不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种对海量实时数据流进行处理的方法,其特征在于,所述方法包括:
接收消息中间件RocketMQ中的多条业务状态原始数据,并对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录;
将获取的每个业务的业务完整记录与分布式数据库HBase中存储的业务汇总信息进行比对处理,根据比对结果生成实时分析统计结果处理信息,并将所述实时分析统计结果处理信息写入所述消息中间件RocektMQ中;
根据所述消息中间件RocketMQ中的实时分析统计结果处理信息对各维度实时统计结果进行更新。
2.根据权利要求1所述的方法,其特征在于,所述对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录,包括:
根据获取的多条业务状态原始数据中的每条业务状态原始数据的标识信息,确定相互关联的业务状态原始数据集合;
将相互关联度的业务状态原始数据集合中的每条业务状态原始数据进行解析转码和合并,并将合并后的数据并与预设的维度码表进行清洗操作,以获取每个业务的业务完整记录。
3.根据权利要求2所述的方法,其特征在于,每条业务状态原始数据包括:收件、发件、到件、派件和签收信息;
所述预设的维度码表包括:产品类型、扫描状态和扫描网点,所述产品类型包括:次日达、次晨达、次早达、隔日达和次日达信息,所述扫描状态包括:揽收、发件、到件、派件和签收信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在进行比对处理时,获取业务汇总更新信息,并根据所述业务汇总更新信息对所述分布式数据库中的业务汇总信息进行更新。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过数据查询服务查询各维度实时统计结果中的数据信息。
6.一种对海量实时数据流进行处理的系统,其特征在于,所述系统包括:
解析转码处理单元,用于接收消息中间件RocketMQ中的多条业务状态原始数据,并对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录;
比对处理单元,用于将获取的每个业务的业务完整记录与分布式数据库HBase中存储的业务汇总信息进行比对处理,根据比对结果生成实时分析统计结果处理信息,并将所述实时分析统计结果处理信息写入所述消息中间件RocektMQ中;
更新单元,用于根据所述消息中间件RocketMQ中的实时分析统计结果处理信息对各维度实时统计结果进行更新。
7.根据权利要求6所述的系统,其特征在于,所述解析转码处理单元,对获取的多条业务状态原始数据进行解析转码处理,以获取每个业务的业务完整记录,包括:
根据获取的多条业务状态原始数据中的每条业务状态原始数据的标识信息,确定相互关联的业务状态原始数据集合;
将相互关联度的业务状态原始数据集合中的每条业务状态原始数据进行解析转码和合并,并将合并后的数据并与预设的维度码表进行清洗操作,以获取每个业务的业务完整记录。
8.根据权利要求7所述的系统,其特征在于,每条业务状态原始数据包括:收件、发件、到件、派件和签收信息;
所述预设的维度码表包括:产品类型、扫描状态和扫描网点,所述产品类型包括:次日达、次晨达、次早达、隔日达和次日达信息,所述扫描状态包括:揽收、发件、到件、派件和签收信息。
9.根据权利要求6所述的系统,其特征在于,所述系统还包括:
业务汇总信息更新单元,用于在进行比对处理时,获取业务汇总更新信息,并根据所述业务汇总更新信息对所述分布式数据库中的业务汇总信息进行更新。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括:
数据查询单元,用于通过数据查询服务查询各维度实时统计结果中的数据信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910848405.3A CN110704484A (zh) | 2019-09-09 | 2019-09-09 | 一种对海量实时数据流进行处理的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910848405.3A CN110704484A (zh) | 2019-09-09 | 2019-09-09 | 一种对海量实时数据流进行处理的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110704484A true CN110704484A (zh) | 2020-01-17 |
Family
ID=69194969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910848405.3A Pending CN110704484A (zh) | 2019-09-09 | 2019-09-09 | 一种对海量实时数据流进行处理的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704484A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111425932A (zh) * | 2020-03-30 | 2020-07-17 | 瑞纳智能设备股份有限公司 | 一种基于flink的热网运行监测告警系统及方法 |
CN111768097A (zh) * | 2020-06-28 | 2020-10-13 | 京东数字科技控股有限公司 | 任务执行状态监控方法、装置、系统及存储介质 |
CN111815239A (zh) * | 2020-07-14 | 2020-10-23 | 上海燕汐软件信息科技有限公司 | 错误补码订单统计方法、装置及计算机可读存储介质 |
CN112150248A (zh) * | 2020-09-30 | 2020-12-29 | 欧冶云商股份有限公司 | 一种基于批流融合的挂货量统计方法、系统、装置 |
CN112435074A (zh) * | 2020-12-07 | 2021-03-02 | 浙江大学 | 一种新零售实时数据追踪、反馈方法和系统 |
CN113326292A (zh) * | 2021-06-25 | 2021-08-31 | 深圳前海微众银行股份有限公司 | 一种数据流合并方法、装置、设备和计算机存储介质 |
CN113360498A (zh) * | 2021-06-01 | 2021-09-07 | 中国农业银行股份有限公司 | 流数据转存处理方法、装置及服务器 |
WO2023109806A1 (zh) * | 2021-12-14 | 2023-06-22 | 天翼物联科技有限公司 | 物联网设备的活跃数据处理方法、装置及存储介质 |
CN113326292B (zh) * | 2021-06-25 | 2024-06-07 | 深圳前海微众银行股份有限公司 | 一种数据流合并方法、装置、设备和计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651633A (zh) * | 2016-10-09 | 2017-05-10 | 国网浙江省电力公司信息通信分公司 | 一种基于大数据技术的用电信息采集系统及其采集方法 |
CN107766504A (zh) * | 2017-10-20 | 2018-03-06 | 华迪计算机集团有限公司 | 一种实时流式数据处理分析方法及系统 |
CN108804237A (zh) * | 2017-05-05 | 2018-11-13 | 北京京东尚科信息技术有限公司 | 数据实时统计方法、装置、存储介质和电子设备 |
CN109753531A (zh) * | 2018-12-26 | 2019-05-14 | 深圳市麦谷科技有限公司 | 一种大数据统计方法、系统、计算机设备及存储介质 |
CN109951463A (zh) * | 2019-03-07 | 2019-06-28 | 成都古河云科技有限公司 | 一种基于流计算和新型列式存储的物联网大数据分析方法 |
-
2019
- 2019-09-09 CN CN201910848405.3A patent/CN110704484A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651633A (zh) * | 2016-10-09 | 2017-05-10 | 国网浙江省电力公司信息通信分公司 | 一种基于大数据技术的用电信息采集系统及其采集方法 |
CN108804237A (zh) * | 2017-05-05 | 2018-11-13 | 北京京东尚科信息技术有限公司 | 数据实时统计方法、装置、存储介质和电子设备 |
CN107766504A (zh) * | 2017-10-20 | 2018-03-06 | 华迪计算机集团有限公司 | 一种实时流式数据处理分析方法及系统 |
CN109753531A (zh) * | 2018-12-26 | 2019-05-14 | 深圳市麦谷科技有限公司 | 一种大数据统计方法、系统、计算机设备及存储介质 |
CN109951463A (zh) * | 2019-03-07 | 2019-06-28 | 成都古河云科技有限公司 | 一种基于流计算和新型列式存储的物联网大数据分析方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111425932A (zh) * | 2020-03-30 | 2020-07-17 | 瑞纳智能设备股份有限公司 | 一种基于flink的热网运行监测告警系统及方法 |
CN111425932B (zh) * | 2020-03-30 | 2022-01-14 | 瑞纳智能设备股份有限公司 | 一种基于flink的热网运行监测告警系统及方法 |
CN111768097A (zh) * | 2020-06-28 | 2020-10-13 | 京东数字科技控股有限公司 | 任务执行状态监控方法、装置、系统及存储介质 |
CN111768097B (zh) * | 2020-06-28 | 2023-09-29 | 京东科技控股股份有限公司 | 任务执行状态监控方法、装置、系统及存储介质 |
CN111815239A (zh) * | 2020-07-14 | 2020-10-23 | 上海燕汐软件信息科技有限公司 | 错误补码订单统计方法、装置及计算机可读存储介质 |
CN111815239B (zh) * | 2020-07-14 | 2024-04-23 | 上海燕汐软件信息科技有限公司 | 错误补码订单统计方法、装置及计算机可读存储介质 |
CN112150248A (zh) * | 2020-09-30 | 2020-12-29 | 欧冶云商股份有限公司 | 一种基于批流融合的挂货量统计方法、系统、装置 |
CN112435074A (zh) * | 2020-12-07 | 2021-03-02 | 浙江大学 | 一种新零售实时数据追踪、反馈方法和系统 |
CN113360498A (zh) * | 2021-06-01 | 2021-09-07 | 中国农业银行股份有限公司 | 流数据转存处理方法、装置及服务器 |
CN113326292A (zh) * | 2021-06-25 | 2021-08-31 | 深圳前海微众银行股份有限公司 | 一种数据流合并方法、装置、设备和计算机存储介质 |
CN113326292B (zh) * | 2021-06-25 | 2024-06-07 | 深圳前海微众银行股份有限公司 | 一种数据流合并方法、装置、设备和计算机存储介质 |
WO2023109806A1 (zh) * | 2021-12-14 | 2023-06-22 | 天翼物联科技有限公司 | 物联网设备的活跃数据处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704484A (zh) | 一种对海量实时数据流进行处理的方法及系统 | |
CN110909063B (zh) | 一种用户行为的分析方法、装置、应用服务器及存储介质 | |
US9152691B2 (en) | System and method for performing set operations with defined sketch accuracy distribution | |
CN107818431B (zh) | 一种提供订单轨迹数据的方法和系统 | |
US9639444B2 (en) | Architecture for end-to-end testing of long-running, multi-stage asynchronous data processing services | |
CN106815254B (zh) | 一种数据处理方法和装置 | |
CN111143286B (zh) | 一种云平台日志管理方法及系统 | |
CN106649828B (zh) | 一种数据查询方法及系统 | |
CN110647447B (zh) | 用于分布式系统的异常实例检测方法、装置、设备和介质 | |
CN110675194A (zh) | 一种漏斗分析方法、装置、设备及可读介质 | |
JP7372977B2 (ja) | 監査データを出力する際の回復性を実装するための専用監査ポート | |
CN111367951A (zh) | 一种流数据处理的方法及装置 | |
CN110825731A (zh) | 数据存储方法、装置、电子设备及存储介质 | |
CN114756629A (zh) | 基于sql的多源异构数据交互分析引擎及方法 | |
CN114185885A (zh) | 一种基于列存数据库的流式数据处理方法及系统 | |
CN112506887B (zh) | 车辆终端can总线数据处理方法及装置 | |
CN113220530B (zh) | 数据质量监控方法及平台 | |
CN111049898A (zh) | 一种实现计算集群资源跨域架构的方法及系统 | |
CN116155689A (zh) | 一种基于ClickHouse的高可用Kong网关日志分析方法及系统 | |
CN111813833B (zh) | 一种实时二度通联关系数据挖掘的方法 | |
CN115344633A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN113377604B (zh) | 一种数据处理方法、装置、设备和存储介质 | |
Koschel et al. | Evaluating time series database management systems for insurance company | |
CN113032368A (zh) | 一种数据迁移方法、装置、存储介质及平台 | |
CN115687374A (zh) | 数据发布方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200117 |
|
RJ01 | Rejection of invention patent application after publication |