CN115525717A - 一种数据同步处理方法及装置 - Google Patents

一种数据同步处理方法及装置 Download PDF

Info

Publication number
CN115525717A
CN115525717A CN202211134988.1A CN202211134988A CN115525717A CN 115525717 A CN115525717 A CN 115525717A CN 202211134988 A CN202211134988 A CN 202211134988A CN 115525717 A CN115525717 A CN 115525717A
Authority
CN
China
Prior art keywords
data
frequency
sensitivity index
current
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211134988.1A
Other languages
English (en)
Inventor
王霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211134988.1A priority Critical patent/CN115525717A/zh
Publication of CN115525717A publication Critical patent/CN115525717A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/547Messaging middleware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据同步处理方法及装置,涉及数据处理技术领域,可用于金融领域或其他技术领域。所述方法包括:获取数据在预设时段内的数据重要性排名和当前被操作频率;根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。所述装置执行上述方法。本发明实施例提供的数据同步处理方法及装置,能够选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。

Description

一种数据同步处理方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据同步处理方法及装置。
背景技术
在金融科技发展的初级阶段,当金融企业互联网业务达到一定规模后,往往会考虑多个数据中心的建设与发展。一方面是因为发展所带来的业务极速增长以及交易的高频集中,单个数据中心难以支撑庞大的数据流量;另一方面,出于对业务容灾的考量,需要在多个城市建立多个数据中心以达到容灾目的;再者,因为全球化的业务,用户遍布在全世界的各个国家和地区,为了提升用户体验,加快业务响应速度,更需要在国际间建立多个数据中心。
现行的金融业数据中心数据库数据同步方案大多通过单活、同城双活等方法以应对目前的业务压力。同一个业务下的多个承担相同功能的应用及其数据库,根据其部署地不同分流用户,这些应用及数据库同时会被用户操作访问,每个数据库都需要根据用户操作进行相应的增删改查的工作,并且使用同步方法保证这些数据库之间的数据一致性。
数据一致性通过otter、zookeeper、kafka三种不同类型的组件之间的相互配合实现,但是不同数据差异较大,无法区分数据差异,进而使得现有数据同步效率低下。
发明内容
针对现有技术中的问题,本发明实施例提供一种数据同步处理方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种数据同步处理方法,包括:
获取数据在预设时段内的数据重要性排名和当前被操作频率;
根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
其中,所述当前被操作频率包括当前被修改频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第一比值与所述幂次结果之积作为所述敏感性指标参数。
其中,所述当前被操作频率包括当前被查询频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第二比值与所述幂次结果之积作为所述敏感性指标参数。
其中,所述当前被操作频率包括当前被修改频率和当前被查询频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第一比值、所述第二比值和所述幂次结果三者之积作为所述敏感性指标参数。
其中,所述使用目标消息中间件对所述目标数据进行同步处理,包括:
获取与批量目标数据对应的敏感性指标参数,并按照敏感性指标参数由大到小的顺序对批量目标数据进行排序;
根据排序结果依次确定优先同步处理的批量目标数据,并使用目标消息中间件依次对所述批量目标数据进行同步处理。
其中,所述获取数据在预设时段内的数据重要性排名,包括:
基于预设机器学习算法获取数据在预设时段内的数据重要性排名。
其中,所述目标消息中间件为卡夫卡消息中间件。
一方面,本发明提出一种数据同步处理装置,包括:
获取单元,用于获取数据在预设时段内的数据重要性排名和当前被操作频率;
确定单元,用于根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
同步单元,用于将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
再一方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取数据在预设时段内的数据重要性排名和当前被操作频率;
根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取数据在预设时段内的数据重要性排名和当前被操作频率;
根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
本发明实施例提供的数据同步处理方法及装置,获取数据在预设时段内的数据重要性排名和当前被操作频率;根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理,能够选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的数据同步处理方法的流程示意图。
图2是本发明一实施例提供的数据同步处理装置的结构示意图。
图3为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
对本发明实施例方法相关的术语说明如下:
Otter:Otter是开发的基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库,一个分布式数据库同步系统。可有效地应对本地、同城、异地等双活场景的数据同步任务。
原理描述:
1.基于Canal,获取数据库增量日志数据。
2.典型管理系统架构,manager(web管理)+node(工作节点)。
a.manager运行时推送同步配置到node节点。
b.node节点将同步状态反馈到manager上。
但otter仍旧存在以下不足:
1.大体积文件和数据同步对node节点性能要求较高。
2.敏感性数据同步效果差。
Zookeeper:Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是一个为分布式应用提供一致性服务的软件。
Zookeeper通过其队列,优先队列,锁,共享锁,可撤销的共享锁,两阶段提交等功能,主要用于为不同的otter node节点提供数据一致性服务。
Kafka:Kafka是开发的一个开源分布式流处理平台,是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者所有的动作流数据。其通过磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。并且可以实现高吞吐量:即使是非常普通的硬件,Kafka也可以支持每秒数百万的消息。
但其缺点是资源消耗过大,在综合运营成本及环境保护的前提下,并不适合大规模部署。
数据中心部署组织架构可以包括如下内容:
流量层:
构建持久性流量层,通过对服务器的性能容量指标进行监控,选择不繁忙的服务器进行调度。因为应用层采用微服务架构,所以同一个服务内容可以在不同服务器上进行了多个备份,其中包括应用服务器以及数据库服务器,多个服务器同时运行应用和数据服务,即多活架构。因此,流量层就需要对业务运行情况及服务器运行情况进行监控,并运行合适的流量调度算法。原则上流量调度算法采用就急、就近、就闲三种原则进行调度。数据层同样需要通过数据同步架构进行多活数据同步。
应用层:
采用微服务架构,通过k8s进行微服务管理,对大型应用进行细粒度拆分,提高应用响应速度,并对数据进行分库、分表、分流、分层存储,提高数据库的可用性。部署的应用服务器应与数据库服务器所在位置地理及网络距离较近,解决网络延时带来的种种数据不一致性问题。
微服务架构的优点是:
1.服务高内聚,低耦合,隔离性强,不会互相影响。
2.易于部署:相对于传统的单体式应用,基于微服务的应用更加模块化且小巧。
3.高度可扩展:随着某些服务的不断扩展,可以跨多个服务器和基础架构进行部署,充分满足自身需求。
4.易于访问:由于大型应用被拆分成了多个小型服务,所以开发人员能够更加轻松地理解、更新和增强这些服务,从而缩短开发周期。
数据层:
数据中心之间的网络是多数据中心架构的瓶颈,比如网络带宽时延高、宽带费用成本、专线不稳定等问题。所以数据层拆分是设计多数据中心架构中最复杂的一项工作,需要做数据一致性和可用性方面的权衡,这也是本发明的着眼点。
在对数据层进行拆分时,一般会根据某个业务维度来做数据的拆分,比如用户属性、地理位置等维度,使得流量能更为合理的分摊到不同的数据中心。
敏感性数据,即目标数据,指被频繁增删改查的数据或数据集。当某数据在一定时间内被调用的次数超过了一定阈值,该数据将被定义为敏感性数据。
图1是本发明一实施例提供的数据同步处理方法的流程示意图,如图1所示,本发明实施例提供的数据同步处理方法,包括:
步骤S1:获取数据在预设时段内的数据重要性排名和当前被操作频率。
步骤S2:根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数。
步骤S3:将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
在上述步骤S1中,装置获取数据在预设时段内的数据重要性排名和当前被操作频率。装置可以是执行该方法的计算机设备等,需要说明是,本发明实施例涉及的相关数据都是经用户授权的。预设时段可以根据实际情况自主设置,可选为每天。
数据重要性排名可以实现实时更新,反映数据的重要性程度,数据重要性排名的数值区间可以为1-100,如果数据重要性排名数值越接近100,则说明数据越重要;如果数据重要性排名数值越接近1,则说明数据越不重要。
所述获取数据在预设时段内的数据重要性排名,包括:
基于预设机器学习算法获取数据在预设时段内的数据重要性排名。预设机器学习算法可具体为时序算法。
每个不同的应用运行在不同的配套环境之上,不同的业务将导致不同应用在不同时间节点上出现不同的性能容量需求。因此,可以通过学习近三年不同业务的运行状况,将各自应用的性能容量需求经过时序算法进行拟合,推算并统计不同业务的高峰运行时间及运行状况,并分配合适的数据同步架构。
时序算法可采用ARIMA算法,可以对非平稳时间序列进行建模,并计算出相应的数据重要性排名。
当前被操作频率,可以理解为在上述预设时段内的数据被操作频率。当前被操作频率包括当前被修改频率,即反映在预设时段内的数据被修改频率。
当前被操作频率包括当前被查询频率,即反映在预设时段内的数据被查询频率。
在上述步骤S2中,装置根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数。历史被操作频率与上述当前被操作频率数据对应,即如果当前被操作频率为当前被修改频率,则历史被操作频率为历史被修改频率;如果当前被操作频率为当前被查询频率,则历史被操作频率为历史被查询频率。历史被操作频率均值的历史统计时段可以根据实际情况自主设置,例如可以选择1年前或2年前的同一数据的历史被修改频率,或历史被查询频率。
本发明实施例方法,可以只考虑被修改频率的情况、也可以只考虑被查询频率的情况、还可以综合考虑被修改频率和被查询频率的情况,分别说明如下:
对于只考虑被修改频率的情况:
所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;自然对数取值约2.7182818284。
将所述第一比值与所述幂次结果之积作为所述敏感性指标参数。即通过如下公式计算所述数据的敏感性指标参数:
Figure BDA0003851565380000071
对于只考虑被查询频率的情况:
所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第二比值与所述幂次结果之积作为所述敏感性指标参数。即通过如下公式计算所述数据的敏感性指标参数:
Figure BDA0003851565380000081
对于综合考虑被修改频率和被查询频率的情况:
所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第一比值、所述第二比值和所述幂次结果三者之积作为所述敏感性指标参数。即通过如下公式计算所述数据的敏感性指标参数:
Figure BDA0003851565380000082
在上述步骤S3中,装置将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。预设敏感性指标参数阈值可以根据实际情况自主设置。大于预设敏感性指标参数阈值的敏感性指标参数对应数据,即是上述敏感性数据。
目标消息中间件为卡夫卡消息中间件,即上述kafka。
通过上述公式可以理解,并非一个数据被选择使用kafka同步以后,将永远使用kafka进行同步。不同的应用数据在不同的时间节点上应具有不同的重要程度以及被操作频率,即拥有不同的敏感性。当考虑到资源和能耗有限的情况时,需要根据公式计算数据敏感性并排名,对更加敏感的数据进行kafka同步架构的选用。
因为其对数据一致性的要求极高且需要更低的延时,otter和zookeeper的数据同步架构无法高效地满足。
所述使用目标消息中间件对所述目标数据进行同步处理,包括:
获取与批量目标数据对应的敏感性指标参数,并按照敏感性指标参数由大到小的顺序对批量目标数据进行排序;批量目标数据可以理解为分批进行待同步处理的目标数据,以敏感性指标参数只考虑被修改频率为例,说明如下:批量目标数据分别记为A、B、C,分别对应的敏感性指标参数记为a、b、c,如果敏感性指标参数由大到小的顺序为c、b、a,则批量目标数据排序为C、B、A。
根据排序结果依次确定优先同步处理的批量目标数据,并使用目标消息中间件依次对所述批量目标数据进行同步处理。
参照上述举例,先同步处理的批量目标数据C、然后分别是B和A,从而保证敏感性更高的批量目标数据能够得到优先处理。
本发明实施例提供的数据同步处理方法,获取数据在预设时段内的数据重要性排名和当前被操作频率;根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理,能够选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
进一步地,所述当前被操作频率包括当前被修改频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;可参照上述说明,不再赘述。
将所述第一比值与所述幂次结果之积作为所述敏感性指标参数。可参照上述说明,不再赘述。
本发明实施例提供的数据同步处理方法,能够准确计算敏感性指标参数,有助于选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
进一步地,所述当前被操作频率包括当前被查询频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;可参照上述说明,不再赘述。
将所述第二比值与所述幂次结果之积作为所述敏感性指标参数。可参照上述说明,不再赘述。
本发明实施例提供的数据同步处理方法,能够准确计算敏感性指标参数,有助于选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
进一步地,所述当前被操作频率包括当前被修改频率和当前被查询频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;可参照上述说明,不再赘述。
将所述第一比值、所述第二比值和所述幂次结果三者之积作为所述敏感性指标参数。可参照上述说明,不再赘述。
本发明实施例提供的数据同步处理方法,能够准确计算敏感性指标参数,有助于选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
进一步地,所述使用目标消息中间件对所述目标数据进行同步处理,包括:
获取与批量目标数据对应的敏感性指标参数,并按照敏感性指标参数由大到小的顺序对批量目标数据进行排序;可参照上述说明,不再赘述。
根据排序结果依次确定优先同步处理的批量目标数据,并使用目标消息中间件依次对所述批量目标数据进行同步处理。可参照上述说明,不再赘述。
本发明实施例提供的数据同步处理方法,保证敏感性更高的批量目标数据能够优先进行同步处理。
进一步地,所述获取数据在预设时段内的数据重要性排名,包括:
基于预设机器学习算法获取数据在预设时段内的数据重要性排名。可参照上述说明,不再赘述。
本发明实施例提供的数据同步处理方法,方便获取数据重要性排名。
进一步地,所述目标消息中间件为卡夫卡消息中间件。可参照上述说明,不再赘述。
本发明实施例提供的数据同步处理方法,通过使用卡夫卡消息中间件,能够更高效地对敏感性数据进行同步处理,进而优化数据处理过程。
需要说明的是,本发明实施例提供的数据同步处理方法可用于金融领域,也可用于除金融领域之外的任意技术领域,本发明实施例对数据同步处理方法的应用领域不做限定。
图2是本发明一实施例提供的数据同步处理装置的结构示意图,如图2所示,本发明实施例提供的数据同步处理装置,包括获取单元201、确定单元202和同步单元203,其中:
获取单元201用于获取数据在预设时段内的数据重要性排名和当前被操作频率;确定单元202用于根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;同步单元203用于将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
具体的,装置中的获取单元201用于获取数据在预设时段内的数据重要性排名和当前被操作频率;确定单元202用于根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;同步单元203用于将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
本发明实施例提供的数据同步处理装置,获取数据在预设时段内的数据重要性排名和当前被操作频率;根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理,能够选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
进一步地,所述当前被操作频率包括当前被修改频率;相应的,所述确定单元202具体用于:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第一比值与所述幂次结果之积作为所述敏感性指标参数。
本发明实施例提供的数据同步处理装置,能够准确计算敏感性指标参数,有助于选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
进一步地,所述当前被操作频率包括当前被查询频率;相应的,所述确定单元202具体用于:
计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第二比值与所述幂次结果之积作为所述敏感性指标参数。
本发明实施例提供的数据同步处理装置,能够准确计算敏感性指标参数,有助于选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
进一步地,所述当前被操作频率包括当前被修改频率和当前被查询频率;相应的,所述确定单元202具体用于:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第一比值、所述第二比值和所述幂次结果三者之积作为所述敏感性指标参数。
本发明实施例提供的数据同步处理装置,能够准确计算敏感性指标参数,有助于选择合适的消息中间件对敏感性数据进行同步处理,进而优化数据处理过程。
进一步地,所述同步单元203具体用于:
获取与批量目标数据对应的敏感性指标参数,并按照敏感性指标参数由大到小的顺序对批量目标数据进行排序;
根据排序结果依次确定优先同步处理的批量目标数据,并使用目标消息中间件依次对所述批量目标数据进行同步处理。
本发明实施例提供的数据同步处理装置,保证敏感性更高的批量目标数据能够优先进行同步处理。
进一步地,所述获取单元201具体用于:
基于预设机器学习算法获取数据在预设时段内的数据重要性排名。
本发明实施例提供的数据同步处理装置,方便获取数据重要性排名。
进一步地,所述目标消息中间件为卡夫卡消息中间件。
本发明实施例提供的数据同步处理装置,通过使用卡夫卡消息中间件,能够更高效地对敏感性数据进行同步处理,进而优化数据处理过程。
本发明实施例提供数据同步处理装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图3为本发明实施例提供的电子设备实体结构示意图,如图3所示,所述电子设备包括:处理器(processor)301、存储器(memory)302和总线303;
其中,所述处理器301、存储器302通过总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:
获取数据在预设时段内的数据重要性排名和当前被操作频率;
根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
获取数据在预设时段内的数据重要性排名和当前被操作频率;
根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:
获取数据在预设时段内的数据重要性排名和当前被操作频率;
根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据同步处理方法,其特征在于,包括:
获取数据在预设时段内的数据重要性排名和当前被操作频率;
根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
2.根据权利要求1所述的数据同步处理方法,其特征在于,所述当前被操作频率包括当前被修改频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第一比值与所述幂次结果之积作为所述敏感性指标参数。
3.根据权利要求1所述的数据同步处理方法,其特征在于,所述当前被操作频率包括当前被查询频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第二比值与所述幂次结果之积作为所述敏感性指标参数。
4.根据权利要求1所述的数据同步处理方法,其特征在于,所述当前被操作频率包括当前被修改频率和当前被查询频率;相应的,所述根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数,包括:
计算所述当前被修改频率与历史被修改频率均值之间的第一比值,计算所述当前被查询频率与历史被查询频率均值之间的第二比值,并将所述数据重要性排名作为自然对数与1的差值的幂次,得到幂次结果;
将所述第一比值、所述第二比值和所述幂次结果三者之积作为所述敏感性指标参数。
5.根据权利要求1至4任一所述的数据同步处理方法,其特征在于,所述使用目标消息中间件对所述目标数据进行同步处理,包括:
获取与批量目标数据对应的敏感性指标参数,并按照敏感性指标参数由大到小的顺序对批量目标数据进行排序;
根据排序结果依次确定优先同步处理的批量目标数据,并使用目标消息中间件依次对所述批量目标数据进行同步处理。
6.根据权利要求1至4任一所述的数据同步处理方法,其特征在于,所述获取数据在预设时段内的数据重要性排名,包括:
基于预设机器学习算法获取数据在预设时段内的数据重要性排名。
7.根据权利要求1至4任一所述的数据同步处理方法,其特征在于,所述目标消息中间件为卡夫卡消息中间件。
8.一种数据同步处理装置,其特征在于,包括:
获取单元,用于获取数据在预设时段内的数据重要性排名和当前被操作频率;
确定单元,用于根据所述数据重要性排名、所述当前被操作频率和所述数据的历史被操作频率均值,确定所述数据的敏感性指标参数;
同步单元,用于将大于预设敏感性指标参数阈值的敏感性指标参数对应数据确定为目标数据,并使用目标消息中间件对所述目标数据进行同步处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202211134988.1A 2022-09-19 2022-09-19 一种数据同步处理方法及装置 Pending CN115525717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134988.1A CN115525717A (zh) 2022-09-19 2022-09-19 一种数据同步处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134988.1A CN115525717A (zh) 2022-09-19 2022-09-19 一种数据同步处理方法及装置

Publications (1)

Publication Number Publication Date
CN115525717A true CN115525717A (zh) 2022-12-27

Family

ID=84697240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134988.1A Pending CN115525717A (zh) 2022-09-19 2022-09-19 一种数据同步处理方法及装置

Country Status (1)

Country Link
CN (1) CN115525717A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578600A (zh) * 2023-05-19 2023-08-11 广州经传多赢投资咨询有限公司 一种微服务数据聚合方法、系统、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578600A (zh) * 2023-05-19 2023-08-11 广州经传多赢投资咨询有限公司 一种微服务数据聚合方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
US11755452B2 (en) Log data collection method based on log data generated by container in application container environment, log data collection device, storage medium, and log data collection system
US9256412B2 (en) Scheduled and quarantined software deployment based on dependency analysis
EP2834755B1 (en) Platform for continuous graph update and computation
CN101256516B (zh) 网格环境中的数据分布和任务实例
Ju et al. iGraph: an incremental data processing system for dynamic graph
CN111367989B (zh) 一种实时数据指标计算系统和方法
US10310906B1 (en) Dynamic micro-services related job assignment
US10565085B2 (en) Two-stage distributed estimation system
CN111143039A (zh) 一种虚拟机的调度方法、装置及计算机存储介质
Heintz et al. MESH: A flexible distributed hypergraph processing system
CN110781180A (zh) 一种数据筛选方法和数据筛选装置
CN115525717A (zh) 一种数据同步处理方法及装置
US11106525B2 (en) Systems and methods for classifying and predicting the cause of information technology incidents using machine learning
CN113177088B (zh) 一种材料辐照损伤多尺度模拟大数据管理系统
Tang et al. Availability/network-aware mapreduce over the internet
CN105892957B (zh) 一种基于动态分片的分布式事务执行方法
CN112181724A (zh) 大数据容灾方法、装置和电子设备
Karakaya Software engineering issues in big data application development
CN114756301B (zh) 日志处理方法、装置和系统
CN112000657A (zh) 数据管理方法、装置、服务器及存储介质
CN112825525A (zh) 用于处理事务的方法和装置
US9059992B2 (en) Distributed mobile enterprise application platform
CN115543543A (zh) 一种应用服务处理方法、装置、设备及介质
CN115858499A (zh) 一种数据库分区处理方法、装置、计算机设备和存储介质
CN115220131A (zh) 气象数据质检方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination