CN117331994A - 数据的实时处理方法及装置、电子设备和存储介质 - Google Patents
数据的实时处理方法及装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117331994A CN117331994A CN202311220891.7A CN202311220891A CN117331994A CN 117331994 A CN117331994 A CN 117331994A CN 202311220891 A CN202311220891 A CN 202311220891A CN 117331994 A CN117331994 A CN 117331994A
- Authority
- CN
- China
- Prior art keywords
- data
- processed
- main data
- dimension table
- data table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000005192 partition Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009530 blood pressure measurement Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/289—Object oriented databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开公开了数据的实时处理方法及装置、电子设备和存储介质,从备份数据库中读取待处理数据存储至预设消息队列集群中,预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;将待处理数据根据业务类型存储于主数据表或维度表,建立主数据表和维度表之间的关联关系;主数据表和维度表存储于不同的分区中;对已构建关联关系的主数据表和维度表中的待处理数据进行计算。与相关技术相比,通过采用读取备用数据库的方式,有效地避免读写待处理数据可能存在影响核心主数据表的风险问题,在处理预设消息队列集群过程时,采用单分区单消费者方式,通过主数据表和维度表的关联关系,同步进行待处理数据的实时计算,确保最终结果的准确性。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据的处理方法及装置、电子设备和存储介质。
背景技术
相关技术中,保险行业的数据计算好多都是T+1模式,即业务数据的计算结果无法当天实时生成,都是隔一天批量加工生成结果。由于传统保险行业多采用Oracle数据库,所以在实时流计算的方法选择上会有较大的不同。同时,随着保险业务的日益增长,用户对实时处理的需求亦越来越迫切,因此如何对保险数据进行实时处理已成为目前亟需解决的问题。
发明内容
本公开提供了一种数据的实时处理方法、装置、电子设备和存储介质。其主要目的在于实现了对保险数据的实时处理。
根据本公开的第一方面,提供了一种数据的实时处理方法,其中,包括:
从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;
将所述待处理数据根据业务类型存储于主数据表或维度表,并建立所述主数据表和维度表之间的关联关系;所述主数据表和维度表存储于不同的分区中;
对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
在一些实施例中,所述方法还包括:
在确定存在未建立关联关系的所述待处理数据的情况下,将未关联的待处理数据重写至对应的主数据表或维度表,并继续建立重写后的主数据表和维度表之间的关联关系,直到所述主数据表和维度表之间的关联关系建立成功。
在一些实施例中,所述将所述待处理数据重写至对应的主数据表或维度表包括:
获取预设时间段内的所述未关联的待处理数据,并将所述未关联的待处理数据重写至对应的主数据表或维度表。
在一些实施例中,所述对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算包括:
确定所述主数据表是否存在更新;
在确定所述主数据表存在更新的情况下,对所述维度表进行同步更新;
对更新后的已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
在一些实施例中,在对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算之后,所述方法还包括:
将计算结果以列存储的方式存储于预设列数据库中;
响应于查询指令,从所述预设列数据库中查找所述查询指令对应的目标结果数据。
在一些实施例中,所述从备份数据库中读取待处理数据存储至预设消息队列集群中包括:
基于DSG从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群为Kafka实时消息队列;
所述建立所述主数据表和维度表之间的关联关系包括:
基于Flink建立所述主数据表和维度表之间的关联关系;其中,所述Kafka实时消息队列与所述Flink同步并发执行。
根据本公开的第二方面,提供了一种数据的实时处理装置,包括:
读取单元,用于从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;
存储单元,用于将所述待处理数据根据业务类型存储于主数据表或维度表;所述主数据表和维度表存储于不同的分区中;
建立单元,用于建立所述主数据表和维度表之间的关联关系;
计算单元,用于对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
在一些实施例中,所述装置还包括:
重写单元,用于在确定存在未建立关联关系的所述待处理数据的情况下,将未关联的待处理数据重写至对应的主数据表或维度表;
所述建立单元,用于继续建立重写后的主数据表和维度表之间的关联关系,直到所述主数据表和维度表之间的关联关系建立成功。
在一些实施例中,所述重写单元,还用于获取预设时间段内的所述未关联的待处理数据,并将所述未关联的待处理数据重写至对应的主数据表或维度表。
在一些实施例中,所述计算单元,还用于:
确定所述主数据表是否存在更新;
在确定所述主数据表存在更新的情况下,对所述维度表进行同步更新;
对更新后的已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
在一些实施例中,所述装置还包括:
存储单元,用于在对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算之后,将计算结果以列存储的方式存储于预设列数据库中;
查找单元,用于响应于查询指令,从所述预设列数据库中查找所述查询指令对应的目标结果数据。
在一些实施例中,所述读取单元,还用于基于DSG从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群为Kafka实时消息队列;
所述建立单元,用于基于Flink建立所述主数据表和维度表之间的关联关系;其中,所述Kafka实时消息队列与所述Fl ink同步并发执行。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。
本公开提供的数据的实时处理方法、装置、电子设备和存储介质,从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;将所述待处理数据根据业务类型存储于主数据表或维度表,并建立所述主数据表和维度表之间的关联关系;所述主数据表和维度表存储于不同的分区中;对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。与相关技术相比,本申请实施例通过采用读取备用数据库的方式,有效地避免了读写待处理数据可能存在影响核心主数据表的风险问题,其次,在处理预设消息队列集群过程时,采用了单分区单消费者方式,最后,通过主数据表和维度表的关联关系,同步进行待处理数据的实时计算,以确保最终结果的准确性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例所提供的一种数据的实时处理方法的流程示意图;
图2为本公开实施例所提供的一种数据的实时处理系统的框架图;
图3示出了本申请实施例提供的一种多表关联的示意图;
图4为本公开实施例提供的一种数据的实时处理装置的结构示意图;
图5为本公开实施例提供的另一种数据的实时处理装置的结构示意图;
图6为本公开实施例提供的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的数据的实时处理方法、装置、电子设备和存储介质。
图1为本公开实施例所提供的一种数据的实时处理方法的流程示意图。本申请实施例应用于数据的实时处理系统中,如图1所示,该方法包含以下步骤:
步骤101,从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;
为了便于对数据的实时处理系统的理解,如图2所示,图2为本申请实施例提供的一种数据的实时处理系统的示意图,备份数据库、实时复制数据工具、预设消息队列集群(如Kafka实时消息队列)、实时计算处理引擎(如Flink)、Hbase实时数仓(预设列数据库),其中,备份数据库也称为源端数据库,通常为Oracle数据库,数据来源于Oracle数据库,里面存储了核心系统大量的待处理数据,考虑到不能影响核心数据库的待处理数据,没有直接对核心数据库中的主数据表进行处理,而采用对接备用数据库的方式。在具体应用中,待处理数据可以采用但不局限于保险的实时交易数据。
需要通过实时复制工具,从备份数据库中读取待处理数据到预设消息队列集群(如Kafka实时消息队列),复制好的实时交易数据,以毫秒级的效率读写到Kafka消息队列集群中。在具体应用中,组建了3节点的Kafka集群,避免单点故障而出现问题。且经过数据规模压力测算,Kafka集群可以处理1万条/s的消息量,每天100万条的预估业务量完全可以及时处理完成,且不存在消息队列积压情况发生。以上示例是以3个节点的Kafka集群为例进行的说明,但是应当说明的是,该种说明方式并非意在限定Kafka集群只能部署3个节点,而是根据承载设备的处理资源及业务需求量进行灵活设置。
预设消息队列集群(Kafka集群)中包含多个消息处理单元topic,每个消息处理单元配置多个分区partition,生产者发送的消息分发到不同的partition中,消费者接受待处理数据的时候是按照组group来接收,Kafka集群确保每个partition只能同一个group中的同一个consumer消费,若想重复消费,那么需要其他的组来消费。Zookeerper中保存了每个topic下的每个partition在每个group中消费的偏移量offset。即多个分区可以用多个消费者消费,也可以用一个消费者消费。
但是一个消费者消费多个分区的情况会导致顺序发现变化,为了使接收到的数据与发送时的数据一致,本申请实施例采用单分区单消费者的方式。在解决一个消费者消费多个分区的情况会导致顺序发现变化的问题时,需要在创建Topic的时候指定好分区数。本申请实施例对分区数不做限定。
本步骤对应于图2中的实时复制数据工具、预设消息队列集群(如Kafka实时消息队列)。
步骤102,将所述待处理数据根据业务类型存储于主数据表或维度表,并建立所述主数据表和维度表之间的关联关系;所述主数据表和维度表存储于不同的分区中。
考虑到不能影响核心数据库的待处理数据,没有直接对核心数据库中的主数据表进行处理,而是在读取完待处理数据后,根据业务类型将所述待处理数据存储于主数据表或维度表,已完全原始主数据表或维度表的还原。
在对主数据表实时计算的同时,将对应维度表也同步写入job中,已完成建立所述主数据表和维度表之间的关联关系,实际应用中,基于Flink建立所述主数据表和维度表之间的关联关系;其中,所述Kafka实时消息队列与所述Flink同步并发执行。进而实现主数据表和维度表的同步实时计算,以解决复杂业务场景的业务问题。
对应于图2中的实时计算处理引擎(如Fl ink),Flink是数据的实时处理的最重要的组成模块。
步骤103,对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
在相关技术中,处理保险常见业务类型待处理数据时,会遇到常见单表计算问题,单表计算直接单表某个字段,例如保费字段进行累计求和,可以满足生产中常见应用业务场景需要。但在实际计算过程中还存在复杂多表关联的计算方式,即一张最终结果数据的获得需要来自多张不同的数据表,其中有主数据表,也有维度表,在对待处理数据进行计算时,对已构建关联关系的主数据表和维度表中的待处理数据进行计算。
本公开提供的数据的实时处理方法,从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;将所述待处理数据根据业务类型存储于主数据表或维度表,并建立所述主数据表和维度表之间的关联关系;所述主数据表和维度表存储于不同的分区中;对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。与相关技术相比,本申请实施例通过采用读取备用数据库的方式,有效地避免了读写待处理数据可能存在影响核心主数据表的风险问题,其次,在处理预设消息队列集群过程时,采用了单分区单消费者方式,最后,通过主数据表和维度表的关联关系,同步进行待处理数据的实时计算,以确保最终结果的准确性。
如图3所示,图3示出了本申请实施例提供的一种多表关联的示意图,通过图3可以看出,在执行建立所述主数据表和维度表之间的关联关系时,可能存在未建立关联关系的所述待处理数据的情况,本申请实施例中将未关联的待处理数据重写至对应的主数据表或维度表,并继续建立重写后的主数据表和维度表之间的关联关系,直到所述主数据表和维度表之间的关联关系建立成功。作为本申请实施例的可行方式,为了实现待处理数据的实时计算,在将所述待处理数据重写至对应的主数据表或维度表时,获取预设时间段内的所述未关联的待处理数据,并将所述未关联的待处理数据重写至对应的主数据表或维度表。该处的预设时间段包含但不限于同一天内的24小时,或者同一天内的12小时等等,具体的,本申请实施例对预设时间段内不做限定。
为了确保步骤103执行计算结果的准确性,在对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算时,可以采用但不局限于以下方式实现:确定所述主数据表是否存在更新,在确定所述主数据表存在更新的情况下,对所述维度表进行同步更新,对更新后的已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。一张最终结果数据的获得需要来自多张不同的数据表,其中有主表也有维表,在实际计算中需要在主表实时同步更新的同时,也需要保证维表也同步实时更新,这样产生的最终结果数据才会准确。
为了能较好地解决业务量大、并发度高而产生的业务拥塞问题。在对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算之后,将计算结果以列存储的方式存储于预设列数据库中,响应于查询指令,从所述预设列数据库中查找所述查询指令对应的目标结果数据。本申请实施例中预设列数据库直接采用了Hbase列数据库的存储模式,该种存储方式可以通过json键值对的方式直接对各类应用提供数据查询服务,支持大数据量的并发查询,例如重要业务节点:客户、营销员、内勤员工通过移动端、PC端等多种访问方式访问保费追踪数据,不会存在拥塞问题,能最大效果发挥整套数据的实时处理方法的最大时效。最终的测试结果,后台数据更新频率是在1s之内的,但同时考虑前端应用终端的刷新频率,可以确保数据更新频率在2s之内。
本申请实施例包含以下技术效果:
1.本申请实施例针解决了Oracle数据库实时交易数据的复制问题,同时采用读取备用数据库的方式,有效地避免了读写主数据可能存在影响核心主数据库等系列风险问题。
2.在处理Kafka集群实时消息队列处理过程时,采用了单分区单消费者方式;同时和Fl ink集群同步设置任务并发模式,有效地解决了数据一致性问题。
3.引入了复杂多表关联的解决方式,在处理主表实时计算的同时,将对应维表也同步写入job中,同步进行实时计算,以确保最终结果的准确性。
4.采用列数据库的落地结果存储方式,能较好地解决业务量大、并发度高而产生的业务拥塞问题,将实时流计算的效果发挥到极致。
与上述的数据的实时处理方法相对应,本发明还提出一种数据的实时处理装置。由于本发明的装置实施例与上述的方法实施例相对应,对于装置实施例中未披露的细节可参照上述的方法实施例,本发明中不再进行赘述。
图4为本公开实施例提供的一种数据的实时处理装置的结构示意图,如图4所示,包括:
读取单元21,用于从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;
存储单元22,用于将所述待处理数据根据业务类型存储于主数据表或维度表;所述主数据表和维度表存储于不同的分区中;
建立单元23,用于建立所述主数据表和维度表之间的关联关系;
计算单元24,用于对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
本公开提供的数据的实时处理装置,从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;将所述待处理数据根据业务类型存储于主数据表或维度表,并建立所述主数据表和维度表之间的关联关系;所述主数据表和维度表存储于不同的分区中;对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。与相关技术相比,本申请实施例通过采用读取备用数据库的方式,有效地避免了读写待处理数据可能存在影响核心主数据表的风险问题,其次,在处理预设消息队列集群过程时,采用了单分区单消费者方式,最后,通过主数据表和维度表的关联关系,同步进行待处理数据的实时计算,以确保最终结果的准确性。
进一步地,在本实施例一种可能的实现方式中,如图5所示中,所述装置还包括:
重写单元25,用于在确定存在未建立关联关系的所述待处理数据的情况下,将未关联的待处理数据重写至对应的主数据表或维度表;
所述建立单元23,用于继续建立重写后的主数据表和维度表之间的关联关系,直到所述主数据表和维度表之间的关联关系建立成功。
进一步地,在本实施例一种可能的实现方式中,如图5所示,所述重写单元25,还用于获取预设时间段内的所述未关联的待处理数据,并将所述未关联的待处理数据重写至对应的主数据表或维度表。
进一步地,在本实施例一种可能的实现方式中,如图5所示,所述计算单元23,还用于:
确定所述主数据表是否存在更新;
在确定所述主数据表存在更新的情况下,对所述维度表进行同步更新;
对更新后的已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
进一步地,在本实施例一种可能的实现方式中,如图5所示,所述装置还包括:
存储单元26,用于在对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算之后,将计算结果以列存储的方式存储于预设列数据库中;
查找单元27,用于响应于查询指令,从所述预设列数据库中查找所述查询指令对应的目标结果数据。
进一步地,在本实施例一种可能的实现方式中,如图5所示,所述读取单元21,还用于基于DSG从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群为Kafka实时消息队列;
所述建立单元,用于基于Flink建立所述主数据表和维度表之间的关联关系;其中,所述Kafka实时消息队列与所述Fl ink同步并发执行。
需要说明的是,前述对方法实施例的解释说明,也适用于本实施例的装置,原理相同,本实施例中不再限定。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备300包括计算单元301,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)302中的计算机程序或者从存储单元308加载到RAM(Random AccessMemory,随机访问/存取存储器)303中的计算机程序,来执行各种适当的动作和处理。在RAM303中,还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。I/O(Input/Output,输入/输出)接口305也连接至总线304。
设备300中的多个部件连接至I/O接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于CPU(Central Processing Unit,中央所述建立单元)、GPU(Graphic Processing Units,图形所述建立单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(DigitalSignal Processor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理,例如数据的实时处理方法。例如,在一些实施例中,数据的实时处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到RAM 303并由计算单元301执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行前述数据的实时处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Appl ication SpecificStandard Product,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(Complex Programmable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Di sc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (10)
1.一种数据的实时处理方法,其特征在于,包括:
从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;
将所述待处理数据根据业务类型存储于主数据表或维度表,并建立所述主数据表和维度表之间的关联关系;所述主数据表和维度表存储于不同的分区中;
对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在确定存在未建立关联关系的所述待处理数据的情况下,将未关联的待处理数据重写至对应的主数据表或维度表,并继续建立重写后的主数据表和维度表之间的关联关系,直到所述主数据表和维度表之间的关联关系建立成功。
3.根据权利要求2所述的方法,其特征在于,所述将所述待处理数据重写至对应的主数据表或维度表包括:
获取预设时间段内的所述未关联的待处理数据,并将所述未关联的待处理数据重写至对应的主数据表或维度表。
4.根据权利要求1所述的方法,其特征在于,所述对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算包括:
确定所述主数据表是否存在更新;
在确定所述主数据表存在更新的情况下,对所述维度表进行同步更新;
对更新后的已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算之后,所述方法还包括:
将计算结果以列存储的方式存储于预设列数据库中;
响应于查询指令,从所述预设列数据库中查找所述查询指令对应的目标结果数据。
6.根据权利要求5所述的方法,其特征在于,所述从备份数据库中读取待处理数据存储至预设消息队列集群中包括:
基于DSG从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群为Kafka实时消息队列;
所述建立所述主数据表和维度表之间的关联关系包括:
基于Fl ink建立所述主数据表和维度表之间的关联关系;其中,所述Kafka实时消息队列与所述Fl ink同步并发执行。
7.一种数据的实时处理装置,其特征在于,包括:
读取单元,用于从备份数据库中读取待处理数据存储至预设消息队列集群中,所述预设消息队列集群中包含多个消息处理单元,每个消息处理单元配置多个分区;
存储单元,用于将所述待处理数据根据业务类型存储于主数据表或维度表;所述主数据表和维度表存储于不同的分区中;
建立单元,用于建立所述主数据表和维度表之间的关联关系;
计算单元,用于对已构建关联关系的主数据表和维度表中的所述待处理数据进行计算。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
9.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311220891.7A CN117331994A (zh) | 2023-09-20 | 2023-09-20 | 数据的实时处理方法及装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311220891.7A CN117331994A (zh) | 2023-09-20 | 2023-09-20 | 数据的实时处理方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117331994A true CN117331994A (zh) | 2024-01-02 |
Family
ID=89294363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311220891.7A Pending CN117331994A (zh) | 2023-09-20 | 2023-09-20 | 数据的实时处理方法及装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117331994A (zh) |
-
2023
- 2023-09-20 CN CN202311220891.7A patent/CN117331994A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559007A (zh) | 多任务模型的参数更新方法、装置及电子设备 | |
CN112507098B (zh) | 问题处理方法、装置、电子设备、存储介质及程序产品 | |
CN115408546A (zh) | 一种时序数据管理方法、装置、设备及存储介质 | |
CN116524165B (zh) | 三维表情模型的迁移方法、装置、设备和存储介质 | |
CN112559632A (zh) | 分布式图数据库的状态同步方法、装置、电子设备及介质 | |
CN116028517A (zh) | 一种融合数据库系统及电子设备 | |
CN115525721A (zh) | 一种数据同步方法、装置、设备以及存储介质 | |
CN115905322A (zh) | 业务处理方法、装置、电子设备及存储介质 | |
CN113407587B (zh) | 用于联机分析处理引擎的数据处理方法、装置、设备 | |
US20210326514A1 (en) | Method for generating interpretation text, electronic device and storage medium | |
CN117331994A (zh) | 数据的实时处理方法及装置、电子设备和存储介质 | |
CN115328917A (zh) | 一种查询方法、装置、设备及存储介质 | |
CN114780021B (zh) | 副本修复方法、装置、电子设备及存储介质 | |
CN113553407B (zh) | 事件追溯方法、装置、电子设备及存储介质 | |
CN115454977A (zh) | 一种数据迁移方法、装置、设备和存储介质 | |
CN118132536A (zh) | 一种数据迁移方法、装置、设备以及存储介质 | |
CN115033823A (zh) | 用于处理数据的方法、装置、设备、介质和产品 | |
CN116383333A (zh) | 数据存储方法、装置、设备及存储介质 | |
CN116304796A (zh) | 一种数据分类方法、装置、设备及介质 | |
CN117806969A (zh) | 一种业务的测试方法、装置、设备及介质 | |
CN115827588A (zh) | 一种业务全局流水号的生成方法、装置、设备和存储介质 | |
CN116306964A (zh) | 样本数据的生成方法和装置 | |
CN114820193A (zh) | 一种筹码变更曲线生成方法、装置、设备及存储介质 | |
CN118467634A (zh) | 一种数据传输方法、装置、电子设备和存储介质 | |
CN114638935A (zh) | 维度监控任务的生成及数据质量的监控方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |