CN112948397A - 一种数据处理系统、方法、装置及存储介质 - Google Patents

一种数据处理系统、方法、装置及存储介质 Download PDF

Info

Publication number
CN112948397A
CN112948397A CN202110349353.2A CN202110349353A CN112948397A CN 112948397 A CN112948397 A CN 112948397A CN 202110349353 A CN202110349353 A CN 202110349353A CN 112948397 A CN112948397 A CN 112948397A
Authority
CN
China
Prior art keywords
data
module
processed
data processing
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110349353.2A
Other languages
English (en)
Inventor
曹海傧
杨志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110349353.2A priority Critical patent/CN112948397A/zh
Publication of CN112948397A publication Critical patent/CN112948397A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理系统、方法、装置及存储介质,涉及大数据及自动程序设计领域,该系统包括:数据管理模块、数据处理模块、数据存储模块和数据服务模块;数据管理模块,用于通过消息队列存储待处理数据;数据处理模块,用于获取数据存储模块传输的同构数据表,并根据同构数据表获取关联数据表;数据存储模块,用于根据待处理数据获取同构数据表;数据服务模块,用于获基于关联数据表提供数据服务。本发明实施例公开的技术方案,避免了在多个业务数据库中进行数据查询,提高了数据查询效率,且在关联数据表中可以根据任意字段进行检索,简化了数据查询条件,确保了数据处理结果中数据的完整性。

Description

一种数据处理系统、方法、装置及存储介质
技术领域
本发明实施例涉及大数据及自动程序设计领域,尤其涉及一种数据处理系统、方法、装置及存储介质。
背景技术
随着网络技术的不断进步,各种各样的网站和平台出现人们视线中,为人们的生活带来了极大便利,而网站和平台具体是通过业务数据库向用户提供业务服务并记录业务数据。
现有的数据服务均是在业务数据库中直接进行的数据操作,例如,数据查询服务,仅能使用固定的查询语句进行检索,查询效率较低,查询效果较差;且由于各个业务数据库分别存储不同类型的业务数据,数据服务通常只能基于单一的业务数据库执行,获取单一类型的数据处理结果,因而,当前基于业务数据库所提供的数据服务无法满足用户需求。
发明内容
本发明实施例提供了一种数据处理系统、方法、装置及存储介质,以根据待处理数据生成关联数据表,并基于关联数据表向用户提供数据服务。
第一方面,本发明实施例提供了一种数据处理系统,包括:数据管理模块、数据处理模块、数据存储模块和数据服务模块;所述数据处理模块分别连接所述数据管理模块、所述数据处理模块和所述数据服务模块;
所述数据管理模块,用于通过消息队列存储待处理数据;
所述数据处理模块,用于读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给所述数据存储模块,以及获取所述数据存储模块传输的同构数据表,并根据所述同构数据表获取关联数据表;
所述数据存储模块,用于根据所述待处理数据获取所述同构数据表;
所述数据服务模块,用于获取所述数据处理模块传输的所述关联数据表,并基于所述关联数据表提供数据服务。
第二方面,本发明实施例提供了一种数据处理方法,包括:
数据管理模块通过消息队列存储待处理数据;
数据处理模块读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给数据存储模块;
所述数据存储模块根据所述待处理数据获取同构数据表,并将所述同构数据表传输给所述数据处理模块;
所述数据处理模块根据所述同构数据表获取关联数据表,并将所述关联数据表传输给数据服务模块;
所述数据服务模块基于所述关联数据表提供数据服务。
第三方面,本发明实施例提供了一种数据处理装置,包括:
消息存储模块,集成在数据管理模块中,用于通过消息队列存储待处理数据;
消息传输模块,集成在数据处理模块中,用于读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给数据存储模块;
同构数据表获取模块,集成在所述数据存储模块中,用于根据所述待处理数据获取同构数据表,并将所述同构数据表传输给所述数据处理模块;
关联数据表获取模块,集成在所述数据处理模块中,用于根据所述同构数据表获取关联数据表,并将所述关联数据表传输给数据服务模块;
数据服务模块,集成在所述数据服务模块中,用于基于所述关联数据表提供数据服务。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的数据处理方法。
本发明实施例公开的技术方案,通过数据管理模块和数据处理模块,将待处理数据传输给数据存储模块,以获取与业务数据表一致的同构数据表,并根据同构数据表以及业务数据间的关联关系,获取关联数据表,进而数据服务模块基于关联数据表向用户提供数据服务,避免了在多个业务数据库中进行数据查询,提高了数据查询效率,且在关联数据表中可以根据任意字段进行检索,简化了数据查询条件,同时,确保了数据处理结果中数据的完整性。
附图说明
图1A是本发明实施例一提供的一种数据处理系统的结构框图;
图1B是本发明实施例一提供的一种数据处理系统的结构框图;
图2是本发明实施例二提供的一种数据处理方法的流程图;
图3是本发明实施例三提供的一种数据处理装置的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1A为本发明实施例一提供的一种数据处理系统的结构框图,包括:数据管理模块100、数据处理模块200、数据存储模块300和数据服务模块400;所述数据处理模块200分别连接所述数据管理模块100、所述数据处理模块300和所述数据服务模块400;
所述数据管理模块100,用于通过消息队列存储待处理数据;待处理数据是业务数据库的业务数据表中发生的数据变更事件;其中,业务数据库为关系型数据库,面向基本的、日常的事务处理,特别是面向交易的处理过程,也即联机事务处理过程(On-LineTransaction Processing,OLTP),记录用户在软件程序(例如,软件客户端和浏览器)中的操作信息,例如,登录、个人信息填写、购买和查询等,用户通过上述软件程序与业务数据库进行交互,业务数据库则在对应的业务数据表中通过增加、删除和修改等操作,记录用户行为;因此,业务数据库中的数据来源于业务系统对应的软件程序产生的数据,或者与上述软件程序交互的用户产生的数据;特别的,一个网站或平台通常需要多个业务数据库来满足业务需求,每个业务数据库针对特定类型的业务数据;业务数据库包括多种类型,例如,Oracle数据库和MySQL数据库等;可选的,在本发明实施例中,对待处理数据的业务类型以及业务数据库的类型均不作具体限定。
待处理数据以消息的方式存储于消息队列中;其中,消息队列是消息在传输过程中保存消息的容器,每个待处理数据(即每条消息)对应一个业务数据表中的一次数据操作;待处理数据具体包括了操作变更前数据、操作变更后数据、主关键字(primary key)以及对应的数据库名称;其中,主关键字是业务数据表中的一个或多个字段,用于唯一表示一个业务数据表中的一条操作记录。
可选的,在本发明实施例中,所述待处理数据包括流式数据;流式数据是随时间不断增长的、无界的、动态的数据集;由于数据流的连续性,如果全部获取数据以后再处理,会产生较大的时间延迟,同时,一些数据在发生后不久更有价值并随着时间推移其价值迅速下降,例如,金融领域的数据多为流式数据,对实时性的要求极高,因此,针对流式数据,数据处理模块200相应的进行流式计算,进而实现大规模流动数据在不断变化的运动过程中的实时处理,相比于传统的数据处理方式,针对流式数据进行的流式计算极大地提高了系统中数据的实时性。
可选的,在本发明实施例中,所述数据管理模块100包括Kafka流处理平台;其中,Kafka是一种基于zookeeper协调的、分布式日志系统,基于Scala语言和Java语言编写,具有高吞吐量的特点,且其磁盘数据结构确保了消息的持久化存储;具体的,Kafka通过并行加载机制统一线上和离线的消息处理,即通过集群提供实时消息,处理用户的所有动作流式数据,例如,浏览、搜索和个人信息变更等用户动作。
如图1B所示,可选的,在本发明实施例中,所述数据处理系统还包括:数据采集模块500;所述数据采集模块500,连接所述数据管理模块100,用于获取待处理数据,并将所述待处理数据传输给所述数据管理模块100,以使所述数据管理模块100对所述待处理数据进行存储。数据采集模块500可以通过采集业务数据库的日志文件(即log文件),解析获取业务数据表中的操作记录,每条操作记录作为一个待处理数据,并发送给数据管理模块100;还可以通过对业务数据库的实时监测,获取业务数据库的变更动态,也即通过实时监测直接获取业务数据库的业务数据表中的操作记录,并作为待处理数据发送给数据管理模块100,以提高待处理数据的获取效率;可选的,在本发明实施例中,对数据采集模块500的数据采集方式不作具体限定。
所述数据处理模块200,用于读取所述数据管理模块100中的待处理数据,并将所述待处理数据传输给所述数据存储模块300;所述数据存储模块300,用于根据所述待处理数据获取所述同构数据表。数据存储模块300中的数据准备(Operation Data Store,ODS)单元预先存储与业务数据表相同的同构数据,即同构数据表,当数据存储模块300获取到待处理数据时,对与该待处理数据匹配的同构数据表进行数据更新,以使同构数据表与业务数据库中的业务数据表保持数据一致;特别的,所述同构数据表包括时间戳字段;在对同构数据表进行更新时,每次更新均包括更新的时间戳字段,以便于追溯数据变更记录,并为数据处理模块200获取关联数据表提供时间基准。
可选的,在本发明实施例中,所述数据存储模块300包括Phoenix组件;Phoenix是一种开源的数据处理组件,以HBase为底层,并在HBase基础上增加了SQL(StructuredQuery Language,结构化查询语言)语句支持和索引支持,实现了数据的高并发实时写入及读取;其中,HBase是一种开源的、面向列的非关系型分布式数据库,具有高可靠、高性能、面向列的非关系型分布式数据库,是建立在Hadoop文件系统之上的分布式列式数据库,能够对大量数据提供快速随机的实时读写访问。
所述数据处理模块200,还用于获取所述数据存储模块300传输的同构数据表,并根据所述同构数据表获取关联数据表。同构数据表仅反应了业务数据库中一个业务数据表中的数据内容,数据类型较为单一,不能真实反应业务数据间的关联性,例如,一个用户在一天中包括下单行为、支付行为和评论行为,而上述行为分别存储于不同的数据表中,甚至可能来源于不同的业务数据库中,单一的同构数据表并不能反映该用户在一天内的行为轨迹,因此,可以根据预存的各业务数据表间的关联关系,将具有上述关联关系的同构数据表进行整合汇总,生成关联数据表,关联数据表反应了一个主题域下各项业务数据间的关联性;其中,关联数据表可以以DWD(Data Warehouse Details,细节数据层)宽表的形式表示,并基于上述ODS单元预先存储的同构数据表生成;特别的,待处理数据为流失数据时,关联数据表中的数据既反应了实时数据的变化情况,也反应了历史数据的变化情况,实现了对实时数据和历史数据的统一处理。
可选的,在本发明实施例中,所述数据处理模块200基于Flink数据处理框架构建;Flink数据处理框架,即Apache Flink,是一个分布式的数据处理框架,其核心是基于Java和Scala编写的分布式流式数据引擎,可以对无界和有界数据流进行有状态计算;同时,Flink可以以数据并行和流水线方式执行任意流式数据程序,也可执行批处理和流处理程序;在本发明实施例中,数据处理模块100通过第一Flink数据处理程序,读取所述数据管理模块100中的待处理数据,并将所述待处理数据传输给所述数据存储模块300,以及获取所述数据存储模块300传输的同构数据表,并根据所述同构数据表获取关联数据表。
可选的,在本发明实施例中,所述数据服务模块400包括Elasticsearch引擎401;所述Elasticsearch引擎401,用于提供数据查询服务。ElasticSearch是一个分布式、高扩展、高实时的搜索与查询引擎,支持组合使用多个索引进行高效查询,尤其适用于DWD宽表的任意字段组合条件的查询,满足大数据量下多维数据查询场景的需求,例如,对于金融业务领域的流式数据,实现了大数据量下台账数据的查询,其查询维度可达1000,并实现亿级数据的秒级响应,因此,通过Elasticsearch引擎401进行的数据查询服务,用户可灵活设置查询条件,简化了数据查询条件;;具体的,当Elasticsearch引擎401获取到数据查询指令时,基于本地存储的关联数据表,响应用户的数据查询服务。
可选的,在本发明实施例中,所述数据服务模块400包括ClickHouse数据库402;所述ClickHouse数据库402,用于提供报表查询服务;ClickHouse是一个基于列式存储的数据库,能够通过获取到的SQL查询语句生成实时数据报表,尤其适用于处理结构化的流式数据,实现灵活的实时报表查询,满足大数据量下明细即席分析场景的需求;具体的,当ClickHouse数据库402获取到报表查询指令时,基于本地存储的关联数据表,响应用户的报表查询服务。
可选的,在本发明实施例中,所述数据服务模块400还包括可视化组件403;所述可视化组件403,连接所述ClickHouse数据库402,用于展示所述ClickHouse数据库402生成的数据报表。ClickHouse数据库402通过可视化组件向用户展示生成的数据报表,满足了大数据量下自助分析场景的需求。
可选的,在本发明实施例中,所述数据处理模块200还用于在读取所述数据管理模块100中的待处理数据后,经过预设间隔时间,获取所述待处理数据的数据处理结果,并根据所述数据处理结果填写数据核对表;其中,所述数据核对表包括消息存储项、同构数据表项、关联数据表项、ElasticSearch表项和ClickHouse表项中的至少一个。在上述待处理数据的处理过程中,尤其是针对流式数据的处理过程中,可能存在数据读写超时和数据差异等异常情况,为了确保数据处理的准确性,需要对数据处理过程中的各个节点进行数据核对,以确保数据的准确性;其中,预设间隔时间可以根据需要设定,以确保在预设间隔时间后,待处理数据已处理完成;数据处理模块可以通过第二Flink数据处理程序获取所述待处理数据的数据处理结果,并根据所述数据处理结果填写数据核对表;以上述技术方案为例,在表1所示的数据核对表中,数据处理模块200检测数据管理模块100的消息队列中是否存在对应的上述待处理数据,若存在则在消息存储项中标注1,不存在则标注0;数据处理模块200检测数据存储模块300的同构数据表中是否已包括上述待处理数据,若存在则在同构数据表项中标注1,不存在则标注0;数据处理模块200检测本地获取的关联数据表中是否已包括上述待处理数据,若存在则在关联数据表项中标注1,不存在则标注0;数据处理模块200检测数据服务模块400的ElasticSearch引擎401中的关联数据表是否包括上述待处理数据,若存在则在ElasticSearch表项中标注1,不存在则标注0;数据处理模块200检测数据服务模块400的ClickHouse数据库402中的关联数据表是否包括上述待处理数据,若存在则在ClickHouse表项402中标注1,不存在则标注0;如果上述各项均为1,则在“状态”项中标注为1;如果上述各项中的至少一项为0,则在“状态”项中标注为0。
表1
Figure BDA0003001920090000091
Figure BDA0003001920090000101
可选的,在本发明实施例中,所述数据处理模块200还用于根据预设检测周期,对所述数据核对表进行检测;若检测到所述数据核对表中存在未完成的目标任务项,则通过所述数据采集模块500重新获取与所述目标任务项对应的目标待处理数据。如果在数据核对表中检测到“状态”项为0,则通过数据采集模块,重新获取对应的目标待处理数据,并将该目标待处理数据重新加入至数据管理模块中,以对该目标待处理数据重新进行数据处理,并对该目标待处理数据的版本号进行+1处理。
本发明实施例公开的技术方案,通过数据管理模块和数据处理模块,将待处理数据传输给数据存储模块,以获取与业务数据表一致的同构数据表,并根据同构数据表以及业务数据间的关联关系,获取关联数据表,进而数据服务模块基于关联数据表向用户提供数据服务,避免了在多个业务数据库中进行数据查询,提高了数据查询效率,且在关联数据表中可以根据任意字段进行检索,简化了数据查询条件,同时,确保了数据处理结果中数据的完整性。
实施例二
图2是本公开实施例二提供的一种数据处理方法的流程图,本实施例可适用于根据待处理数据生成关联数据表,并基于关联数据表提供数据服务,该方法可以由本公开实施例中的数据处理装置来执行,该装置可以通过软件和/或硬件实现,并集成在实施例一所述的数据处理系统中,该方法具体包括如下步骤:
S210、数据管理模块通过消息队列存储待处理数据。
可选的,在本发明实施例中,在数据管理模块通过消息队列存储待处理数据前,还包括:数据采集模块获取待处理数据,并将所述待处理数据传输给所述数据管理模块,以使所述数据管理模块对所述待处理数据进行存储。
S220、数据处理模块读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给数据存储模块。
可选的,在本发明实施例中,在数据处理模块读取所述数据管理模块中的待处理数据后,还包括:所述数据处理模块经过预设间隔时间,获取所述待处理数据的数据处理结果,并根据所述数据处理结果填写数据核对表;其中,所述数据核对表包括消息存储项、同构数据表项、关联数据表项、ElasticSearch表项和ClickHouse表项中的至少一个。
可选的,在本发明实施例中,所述数据处理方法还包括:所述数据处理模块根据预设检测周期,对所述数据核对表进行检测;若检测到所述数据核对表中存在未完成的目标任务项,则通过所述数据采集模块重新获取与所述目标任务项对应的目标待处理数据。
S230、所述数据存储模块根据所述待处理数据获取同构数据表,并将所述同构数据表传输给所述数据处理模块。
S240、所述数据处理模块根据所述同构数据表获取关联数据表,并将所述关联数据表传输给数据服务模块。
S250、所述数据服务模块基于所述关联数据表提供数据服务。
可选的,在本发明实施例中,所述数据服务模块基于所述关联数据表提供数据服务,包括:所述数据服务模块通过Elasticsearch引擎提供数据查询服务。具体的,当Elasticsearch引擎获取到数据查询指令时,基于本地存储的关联数据表,响应用户的数据查询服务。
可选的,在本发明实施例中,所述数据服务模块基于所述关联数据表提供数据服务,还包括:所述数据服务模块通过ClickHouse数据库提供报表查询服务。具体的,当ClickHouse数据库获取到报表查询指令时,基于本地存储的关联数据表,响应用户的报表查询服务。
可选的,在本发明实施例中,所述数据服务模块基于所述关联数据表提供数据服务,还包括:所述数据服务模块通过可视化组件,展示所述ClickHouse数据库生成的数据报表。
本发明实施例公开的技术方案,通过数据管理模块和数据处理模块,将待处理数据传输给数据存储模块,以获取与业务数据表一致的同构数据表,并根据同构数据表以及业务数据间的关联关系,获取关联数据表,进而数据服务模块基于关联数据表向用户提供数据服务,避免了在多个业务数据库中进行数据查询,提高了数据查询效率,且在关联数据表中可以根据任意字段进行检索,简化了数据查询条件,同时,确保了数据处理结果中数据的完整性。
实施例三
图3是本发明实施例三所提供的一种数据处理装置的结构框图,该装置具体包括:消息存储模块310、消息传输模块320、同构数据表获取模块330、关联数据表获取模块340和数据服务模块350。
消息存储模块310,集成在数据管理模块中,用于通过消息队列存储待处理数据;
消息传输模块320,集成在数据处理模块中,用于读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给数据存储模块;
同构数据表获取模块330,集成在所述数据存储模块中,用于根据所述待处理数据获取同构数据表,并将所述同构数据表传输给所述数据处理模块;
关联数据表获取模块340,集成在所述数据处理模块中,用于根据所述同构数据表获取关联数据表,并将所述关联数据表传输给数据服务模块;
数据服务模块350,集成在所述数据服务模块中,用于基于所述关联数据表提供数据服务。
本发明实施例公开的技术方案,通过数据管理模块和数据处理模块,将待处理数据传输给数据存储模块,以获取与业务数据表一致的同构数据表,并根据同构数据表以及业务数据间的关联关系,获取关联数据表,进而数据服务模块基于关联数据表向用户提供数据服务,避免了在多个业务数据库中进行数据查询,提高了数据查询效率,且在关联数据表中可以根据任意字段进行检索,简化了数据查询条件,同时,确保了数据处理结果中数据的完整性。
可选的,在上述技术方案的基础上,所述数据处理装置,还包括:
数据核对表填写模块,集成在数据处理模块中,用于经过预设间隔时间,获取所述待处理数据的数据处理结果,并根据所述数据处理结果填写数据核对表;其中,所述数据核对表包括消息存储项、同构数据表项、关联数据表项、ElasticSearch表项和ClickHouse表项中的至少一个。
可选的,在上述技术方案的基础上,所述数据处理装置,还包括:
检测执行模块,集成在数据处理模块中,用于根据预设检测周期,对所述数据核对表进行检测;若检测到所述数据核对表中存在未完成的目标任务项,则通过所述数据采集模块重新获取与所述目标任务项对应的目标待处理数据。
可选的,在上述技术方案的基础上,数据服务模块350,具体用于通过Elasticsearch引擎提供数据查询服务。
可选的,在上述技术方案的基础上,数据服务模块350,具体用于通过ClickHouse数据库提供报表查询服务。
可选的,在上述技术方案的基础上,数据服务模块350,具体用于通过可视化组件,展示所述ClickHouse数据库生成的数据报表。
上述装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的方法。
实施例四
本发明实施例四还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的数据处理方法;该方法包括:
数据管理模块通过消息队列存储待处理数据;
数据处理模块读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给数据存储模块;
所述数据存储模块根据所述待处理数据获取同构数据表,并将所述同构数据表传输给所述数据处理模块;
所述数据处理模块根据所述同构数据表获取关联数据表,并将所述关联数据表传输给数据服务模块;
所述数据服务模块基于所述关联数据表提供数据服务。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种数据处理系统,其特征在于,包括:数据管理模块、数据处理模块、数据存储模块和数据服务模块;所述数据处理模块分别连接所述数据管理模块、所述数据处理模块和所述数据服务模块;
所述数据管理模块,用于通过消息队列存储待处理数据;
所述数据处理模块,用于读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给所述数据存储模块,以及获取所述数据存储模块传输的同构数据表,并根据所述同构数据表获取关联数据表;
所述数据存储模块,用于根据所述待处理数据获取所述同构数据表;
所述数据服务模块,用于获取所述数据处理模块传输的所述关联数据表,并基于所述关联数据表提供数据服务。
2.根据权利要求1所述的系统,其特征在于,所述待处理数据包括流式数据。
3.根据权利要求1所述的系统,其特征在于,还包括:数据采集模块;
所述数据采集模块,连接所述数据管理模块,用于获取待处理数据,并将所述待处理数据传输给所述数据管理模块,以使所述数据管理模块对所述待处理数据进行存储。
4.根据权利要求1所述的系统,其特征在于,所述同构数据表包括时间戳字段。
5.根据权利要求1所述的系统,其特征在于,所述数据管理模块包括Kafka流处理平台。
6.根据权利要求1所述的系统,其特征在于,所述数据处理模块基于Flink数据处理框架构建。
7.根据权利要求1所述的系统,其特征在于,所述数据存储模块包括Phoenix组件。
8.根据权利要求1所述的系统,其特征在于,所述数据服务模块包括Elasticsearch引擎;
所述Elasticsearch引擎,用于提供数据查询服务。
9.根据权利要求1所述的系统,其特征在于,所述数据服务模块包括ClickHouse数据库;
所述ClickHouse数据库,用于提供报表查询服务。
10.根据权利要求9所述的系统,其特征在于,所述数据服务模块还包括可视化组件;
所述可视化组件,连接所述ClickHouse数据库,用于展示所述ClickHouse数据库生成的数据报表。
11.根据权利要求1-10任一所述的系统,其特征在于,所述数据处理模块还用于在读取所述数据管理模块中的待处理数据后,经过预设间隔时间,获取所述待处理数据的数据处理结果,并根据所述数据处理结果填写数据核对表;其中,所述数据核对表包括消息存储项、同构数据表项、关联数据表项、ElasticSearch表项和ClickHouse表项中的至少一个。
12.根据权利要求11所述的系统,其特征在于,所述数据处理模块还用于根据预设检测周期,对所述数据核对表进行检测;若检测到所述数据核对表中存在未完成的目标任务项,则通过所述数据采集模块重新获取与所述目标任务项对应的目标待处理数据。
13.一种数据处理方法,其特征在于,包括:
数据管理模块通过消息队列存储待处理数据;
数据处理模块读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给数据存储模块;
所述数据存储模块根据所述待处理数据获取同构数据表,并将所述同构数据表传输给所述数据处理模块;
所述数据处理模块根据所述同构数据表获取关联数据表,并将所述关联数据表传输给数据服务模块;
所述数据服务模块基于所述关联数据表提供数据服务。
14.一种数据处理装置,其特征在于,包括:
消息存储模块,集成在数据管理模块中,用于通过消息队列存储待处理数据;
消息传输模块,集成在数据处理模块中,用于读取所述数据管理模块中的待处理数据,并将所述待处理数据传输给数据存储模块;
同构数据表获取模块,集成在所述数据存储模块中,用于根据所述待处理数据获取同构数据表,并将所述同构数据表传输给所述数据处理模块;
关联数据表获取模块,集成在所述数据处理模块中,用于根据所述同构数据表获取关联数据表,并将所述关联数据表传输给数据服务模块;
数据服务模块,集成在所述数据服务模块中,用于基于所述关联数据表提供数据服务。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求13所述的数据处理方法。
CN202110349353.2A 2021-03-31 2021-03-31 一种数据处理系统、方法、装置及存储介质 Pending CN112948397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110349353.2A CN112948397A (zh) 2021-03-31 2021-03-31 一种数据处理系统、方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110349353.2A CN112948397A (zh) 2021-03-31 2021-03-31 一种数据处理系统、方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112948397A true CN112948397A (zh) 2021-06-11

Family

ID=76231590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110349353.2A Pending CN112948397A (zh) 2021-03-31 2021-03-31 一种数据处理系统、方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112948397A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254466A (zh) * 2021-06-18 2021-08-13 腾讯科技(深圳)有限公司 一种数据处理方法、装置、电子设备和存储介质
CN113553327A (zh) * 2021-07-06 2021-10-26 杭州网易云音乐科技有限公司 数据处理方法和装置、介质和计算设备
CN113839952A (zh) * 2021-09-27 2021-12-24 深信服科技股份有限公司 一种日志访问关系的威胁追踪方法、装置及电子设备
CN113934797A (zh) * 2021-12-17 2022-01-14 江苏苏宁银行股份有限公司 一种银行业超大数据同步方法和系统
CN115827922A (zh) * 2022-12-08 2023-03-21 华润网络(深圳)有限公司 基于风电数据的可视化分析处理方法、系统和计算机设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254466A (zh) * 2021-06-18 2021-08-13 腾讯科技(深圳)有限公司 一种数据处理方法、装置、电子设备和存储介质
CN113553327A (zh) * 2021-07-06 2021-10-26 杭州网易云音乐科技有限公司 数据处理方法和装置、介质和计算设备
CN113839952A (zh) * 2021-09-27 2021-12-24 深信服科技股份有限公司 一种日志访问关系的威胁追踪方法、装置及电子设备
CN113934797A (zh) * 2021-12-17 2022-01-14 江苏苏宁银行股份有限公司 一种银行业超大数据同步方法和系统
CN115827922A (zh) * 2022-12-08 2023-03-21 华润网络(深圳)有限公司 基于风电数据的可视化分析处理方法、系统和计算机设备
CN115827922B (zh) * 2022-12-08 2024-02-27 华润网络(深圳)有限公司 基于风电数据的可视化分析处理方法、系统和计算机设备

Similar Documents

Publication Publication Date Title
Muniswamaiah et al. Big data in cloud computing review and opportunities
US11789943B1 (en) Configuring alerts for tags associated with high-latency and error spans for instrumented software
CN109272155B (zh) 一种基于大数据的企业行为分析系统
CN112948397A (zh) 一种数据处理系统、方法、装置及存储介质
US11775501B2 (en) Trace and span sampling and analysis for instrumented software
US10235430B2 (en) Systems, methods, and apparatuses for detecting activity patterns
US20190095478A1 (en) Information technology networked entity monitoring with automatic reliability scoring
US10438295B2 (en) Method and system for E-commerce transaction data accounting
US8874600B2 (en) System and method for building a cloud aware massive data analytics solution background
KR20200106950A (ko) Sql 질의 플랜들을 최적화하기 위한 차원 콘텍스트 전파 기술들
EP3625748B1 (en) Distributed node cluster for establishing a digital touchpoint across multiple devices on a digital communications network
CN112269816B (zh) 一种政务预约事项相关性检索方法
US11256659B1 (en) Systems and methods for aggregating and displaying data from multiple data sources
US20230359587A1 (en) Analysis of streaming data using deltas and snapshots
US20180307744A1 (en) Named entity-based category tagging of documents
Huang Data processing
CN111723245B (zh) 数据存储系统中建立不同类型存储对象关联关系的方法
CN108564250A (zh) 转发记录实时查看系统、方法、计算机设备及存储介质
US11294917B2 (en) Data attribution using frequent pattern analysis
Hogan Data center
Chardonnens Big data analytics on high velocity streams
US11487756B1 (en) Ingesting and transforming bulk data from various data sources
Mohanty et al. Extracting value from big data: in-memory solutions, real time analytics, and recommendation systems
da Cruz et al. Monitoring SOA-based applications with business provenance
JP2020154381A (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination