CN113051278B - 一种数据复制进程延时的处理方法和系统 - Google Patents

一种数据复制进程延时的处理方法和系统 Download PDF

Info

Publication number
CN113051278B
CN113051278B CN201911375386.3A CN201911375386A CN113051278B CN 113051278 B CN113051278 B CN 113051278B CN 201911375386 A CN201911375386 A CN 201911375386A CN 113051278 B CN113051278 B CN 113051278B
Authority
CN
China
Prior art keywords
data
sample data
sample
time
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911375386.3A
Other languages
English (en)
Other versions
CN113051278A (zh
Inventor
王卉
雷中杰
樊炼
胡莉
盛勇
毛在清
薛超
李林
徐庆
张欣
黄璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Hubei Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Hubei Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Hubei Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911375386.3A priority Critical patent/CN113051278B/zh
Publication of CN113051278A publication Critical patent/CN113051278A/zh
Application granted granted Critical
Publication of CN113051278B publication Critical patent/CN113051278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据复制进程延时的处理方法和系统,该方法通过监测数据复制进程的延时时间;若延时时间超过预设时间阈值,则遍历数据复制进程,统计数据复制进程中各个表的变更次数;根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;根据各个表的权重比以及各个表的映射表频率,确定进程重构值;按照进程重构值,对数据复制进程进行重构配置处理。本发明不依赖于维护人员的经验,通过对数据复制进程的自适应判断,在数据复制进程延时的情况下自动进行进程重构,缩短了进程重构所需的时间。

Description

一种数据复制进程延时的处理方法和系统
技术领域
本发明涉及通信技术领域,具体涉及一种数据复制进程延时的处理方法和系统。
背景技术
GoldenGate软件是一种基于日志的结构化数据复制软件,它通过解析源数据库在线日志或归档日志获得数据的增量变化,能够实现大量交易数据的实时捕捉,变换和投递,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步。它可以在异构的IT基础结构(包括几乎所有常用操作系统平台和数据库平台)之间实现大量数据亚秒级的实时复制,从而可以在应急系统、在线报表、实时数据仓库供应、交易跟踪、数据同步、集中/分发、容灾等多个场景下应用。
但在OGG(Oracle GoldenGate)日常维护的过程中有经常遇到OGG复制进程(replicate进程)延时的情况,replicate进程延时代表数据同步出现滞后,目标库的数据不完整,如果目标库作为一个在线分析处理(On-Line Analysis Processing,OLAP)库,那相对应的业务功能就会受到很大的影响。针对以上的问题,目前业界的解决方案主要为:优化目标库表,加快SQL入库速度,或者通过分拆replicate进程,将一个replicate进程里的表拆分出来到新建replicate进程,进行同步。
然而现有技术存在如下缺点:需要通过手工判断进程中各表的更新频率和各进程当前执行SQL,完全依赖于技术人员对数据库内表数据以及结构的了解程度和技术水平,等到发现延时,再对延时进程进行分析,对于OLAP类系统,影响数据的一致性,并且,手工判断进程的延时问题以及对表进行拆分,对于急需改善性能的情况下的进程拆分,效率低下。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据复制进程延时的处理方法和系统。
根据本发明的一个方面,提供了一种数据复制进程延时的处理方法,包括以下步骤:
监测数据复制进程的延时时间;
若所述延时时间超过预设时间阈值,则遍历所述数据复制进程,统计所述数据复制进程中各个表的变更次数;
根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;
对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;
根据各个表的权重比以及各个表的映射表频率,确定进程重构值;
按照所述进程重构值,对所述数据复制进程进行重构配置处理。
根据本发明的另一方面,提供了一种数据复制进程延时的处理系统,包括:
监控模块,用于监测数据复制进程的延时时间;
统计模块,用于若所述延时时间超过预设时间阈值,则遍历所述数据复制进程,统计所述数据复制进程中各个表的变更次数;
样本数据采集模块,用于根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;
样本数据分析模块,用于对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;
进程重构值确定模块,用于根据各个表的权重比以及各个表的映射表频率,确定进程重构值;
处理模块,用于按照所述进程重构值,对所述数据复制进程进行重构配置处理。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述数据复制进程延时的处理方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述数据复制进程延时的处理方法对应的操作。
根据本发明的一种数据复制进程延时的处理方法和系统,该方法通过监测数据复制进程的延时时间;若所述延时时间超过预设时间阈值,则遍历所述数据复制进程,统计所述数据复制进程中各个表的变更次数;根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;根据各个表的权重比以及各个表的映射表频率,确定进程重构值;按照所述进程重构值,对所述数据复制进程进行重构配置处理。通过自动监测数据复制进程的延时时间,当延时时间超过预设时间阈值时,统计数据复制进程中各表的变更次数,解析数据并运算得出合理的进程重构值,根据该进程重构值对数据复制进程各个表重新排布,确定数据复制进程的重构方案,本发明不依赖于维护人员的经验,通过对数据复制进程的自适应判断,在数据复制进程延时的情况下通过运算得到合理、准确的进程重构值并自动进行进程重构,不仅保证了数据复制进程的各个表都进行了合理化处理,有效地避免了性能问题的发生,而且无需技术人员手动查询、拆分进程,即可快速地实现进程重构,有效地缩短了进程重构所需的时间。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据复制进程延时的处理方法的流程图;
图2示出了本发明另一实施例提供的一种数据复制进程延时的处理方法的样本数据采集过程的示意图;
图3示出了本发明实施例提供的一种数据复制进程延时的处理系统的结构示意图;
图4示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
在本发明中,一个数据复制进程在向数据库写入数据时,会将队列文件(trailfile)中的数据应用进数据库,一个队列文件中有许多表,它可以被一个或多个数据复制进程读取。
实施例一
图1示出了本发明一种数据复制进程延时的处理方法实施例的流程图,如图1所示,包括以下步骤:
S101:监测数据复制进程的延时时间。
数据复制进程(replicate进程)延时代表数据同步出现滞后,目标库的数据不完整,因此,在本步骤中,通过自动监控数据复制进程的延时时间,从而采取相应的处理方法确保数据库的同步不受影响。
S102:若延时时间超过预设时间阈值,则遍历数据复制进程,统计数据复制进程中各个表的变更次数。
具体地说,预设时间阈值可以设置为30分钟;在遍历数据复制进程之前,方法还包括:创建进程重构任务,根据进程重构任务,与数据处理主机(即OGG主机)建立连接。如果进程重构任务已存在,则提示目前已有任务,无需再创建进程重构任务。
在本步骤中,数据复制进程有多个表的数据要进行同步,若延时时间超过30分钟时,则遍历数据复制进程,统计数据复制进程中各个表的变更次数,表的变更包括:增加数据、删除数据和/或改动数据等。
S103:根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据。
具体地,图2为样本数据采集过程的示意图,如图2所示,根据步骤S102统计出的数据复制进程中的每张表的变更次数,针对数据复制进程中每一张表的变更数据分别采样总数据的10%作为样本数据。其中,tab1、tab2、tab3、……、tabn对应数据复制进程中的多个表,h1n、h2n、h3n、……、hnn对应数据复制进程中的各个表的变更次数。
S104:对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率。
在一种可选的方式中,步骤S104进一步包括步骤:针对每个表,计算该表的每个样本数据与该表的所有样本数据的数据总量之间的比值,得到每个样本数据的量比值。接着根据各个样本数据的量比值,对该表的样本数据进行多次样本抽取,得到该表的抽样数据。然后计算各个表的抽样数据的总数与所有表的所有样本数据的总数之间的比值,得到各个表的权重比。最后利用各个表的抽样数据以及各个表的采样时间,计算各个表的映射表频率。
以步骤S103中采集的样本数据计算各表样本数据占比总样本数据的量比值,得到每个样本数据的量比值。
具体地,根据各个样本数据的量比值,对该表的样本数据进行多次样本抽取,得到该表的抽样数据进一步包括以下步骤:
步骤1:针对第1次样本抽取,将该表的样本数据划分至两个数据组,根据递归算法以及两个数据组中的各个样本数据的量比值,计算第1次量比平均值,将各个样本数据中量比值小于第1次量比平均值的样本数据作为第1次样本抽取得到的抽样数据。
具体地说,在本步骤中,针对第1次样本抽取,将该表的样本数据划分至两个数据组,数据组的划分可以根据各个样本数据的量比值,量比值中排名前三的为数据组一,其他为数据组二。
步骤2:从t=2开始,针对第t次样本抽取,将第t-1次样本抽取的样本数据中量比值大于或等于第t-1次量比平均值的样本数据作为第t次样本抽取的样本数据,根据递归算法以及第t次样本抽取的样本数据的量比值,计算第t次量比平均值,将第t次样本抽取的样本数据中量比值小于第t次量比平均值的样本数据作为第t次样本抽取得到的抽样数据;将t赋值为t+1,重复执行本步骤,直至t=n+1结束,得到该表的抽样数据。n为自然数。本领域技术人员可根据实际需要对n进行设置,此处不做限定。
在本步骤中,具体地说,将样本数据以表为基准,以量比值为导向,将样本数据使用递归运算求量比平均值;例如,针对第2次样本抽取,将第1次样本抽取的样本数据中量比平均值大于或等于第1次量比平均值的样本数据作为第2次样本抽取的样本数据,根据递归算法以及第2次样本抽取的样本数据的量比值,计算第2次量比平均值,将第2次样本抽取的样本数据中量比值小于第2次量比平均值的样本数据作为第2次样本抽取得到的抽样数据;重复执行本步骤,依次运算量比平均值,得到n份抽样数据,即得到该表的抽样数据。
步骤3:针对该表的每个抽样数据,去除该抽样数据中的指定字符,并将该抽样数据中的中文字符转换为十进制字符。
为了运算的方便和数据的统一,针对每个抽样数据,去除该抽样数据中的例如换行符、回车符等指定字符,并将该抽样数据中的中文字符转换为十进制字符。另外,还需要去除抽样数据里的空白字符等符号,去除无法识别的特殊字符等。
其中,对于各个表的权重比的计算,首先需要计算数据复制进程中各个表的抽样数据的总数以及所有表的所有样本数据的总数,所有表的所有样本数据的总数的计算公式如下:
count(N)=h1n+h2n+h3n+......+hnn;
其中,count(N)表示数据复制进程中的所有表的所有样本数据的总数,h1n、h2n、h3n、......、hnn分别表示各个表(即tab1、tab2、tab3、......、tabn)的样本数据的总数。
数据复制进程中的所有表的所有样本数据的总数反映了总体数据复制进程的数据处理总量。
令count(n)为第n个表的抽样数据的总数,count(N)为所有表的所有样本数据的总数,则定义第n个表的权重比Wcoln为:
Figure BDA0002340806530000071
按照上述权重比公式,计算得到每个表的权重比Wcol1、Wcol2、Wcol3、Wcol4、……、Wcoln
如果一个数据复制进程负责多个权重比较高的表同步数据时,意味着只有一个数据复制进程在向数据库里写入数据。根据各个表的抽样数据以及各个表的采样时间,计算各个表的映射(MAP)表频率,针对一个表的映射表频率的计算公式如下:
映射表频率(Hz)=该表的抽样数据/该表的采样时间(S)。
S105:根据各个表的权重比以及各个表的映射表频率,确定进程重构值。
作为本实施例技术方案的一大改进,方法还包括:根据各个表的变更次数以及数据复制进程中所有表的总数量,计算变更方差;在此基础上,步骤S105进一步包括:针对每个表,将该表的权重比、该表的映射表频率以及变更方差进行加权运算,得到该表的重构值;将各个表的重构值按照从高到低的顺序进行排列,得到进程重构值。
具体地说,如果对数据复制进程进行重构,那么该数据复制进程就能对映射表进行重新分配,可以将一张表或多张表同时写入数据库,这样就能在队列文件应用的时候将表合理的分配,从而增加数据库的入库进程,提高写入速度,提高性能。
判断一个合适的进程重构值有两个关键指标是:数据采样比(Cqz)和映射表频率(Mhz)。根据数据采样比、映射表频率以及其他指标之间的共线性强弱来确定指标权重。
具体地,根据各个表的采样比和各个表映射表频率计算进程重构值,首先,根据各个表的变更次数以及数据复制进程中所有表的总数量,计算变更方差,该变更方差体现了各个表的变更偏离程度,计算公式如下:
Figure BDA0002340806530000081
其中s2为变更方差,x为每个表的变更次数,M为数据复制进程中各个表的变更次数的平均值,n为表的个数。
针对每个表,将该表的权重比、该表的映射表频率以及变更方差进行加权运算,得到该表的重构值;根据得到各个表的重构值,对每一列的数据加权计算,计算公式如下:
Figure BDA0002340806530000082
其中P为各个表的重构值,Wcol为各个表的权重比,Mhz为各个表的映射表频率,S2为变更方差。根据上述公式计算得到各个表的重构值,将各个表的重构值按照从高到低的顺序进行排列,得到最为合理的进程重构值。
S106:按照进程重构值,对数据复制进程进行重构配置处理。
步骤S106进一步包括:按照进程重构值,对数据复制进程进行添加处理;根据各个表的映射表频率,更新数据复制进程中的各个表的排布。
在本步骤中,根据进程重构值对数据复制进程进行添加,根据每个表的映射表频率将数据复制进程中MAP项重新排布之后,再重新启动数据复制进程并实施日志记录。
采用本实施例提供的方法,通过监测数据复制进程的延时时间;若延时时间超过预设时间阈值,则遍历数据复制进程,统计数据复制进程中各个表的变更次数;根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;根据各个表的权重比以及各个表的映射表频率,确定进程重构值;按照进程重构值,对数据复制进程进行重构配置处理。通过自动监测数据复制进程的延时时间,当延时时间超过预设时间阈值时,统计数据复制进程中各表的变更次数,解析数据并运算得出合理的进程重构值,根据该进程重构值对数据复制进程各个表重新排布,确定数据复制进程的重构方案,本发明不依赖于维护人员的经验,通过对数据复制进程的自适应判断,在数据复制进程延时的情况下通过运算得到合理、准确的进程重构值并自动进行进程重构,不仅保证了数据复制进程的各个表都进行了合理化处理,有效地避免了性能问题的发生,而且无需技术人员手动查询、拆分进程,即可快速地实现进程重构,有效地缩短了进程重构所需的时间。
实施例二
图3示出了本发明一种数据复制进程延时的处理系统实施例的结构示意图。如图3所示,该系统包括监控模块301、统计模块302、样本数据采集模块303、样本数据分析模块304、进程重构值确定模块305以及处理模块306。
其中,监控模块301,用于监测数据复制进程的延时时间。
统计模块302,用于若延时时间超过预设时间阈值,则遍历数据复制进程,统计数据复制进程中各个表的变更次数。
具体地说,若延时时间超过预设时间阈值,创建进程重构任务,根据进程重构任务,与数据处理主机建立连接,遍历数据复制进程,统计数据复制进程中各个表的变更次数。
样本数据采集模块303,用于根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据。
样本数据分析模块304,用于对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率。
样本数据分析模块304进一步包括:量比值计算子模块、抽样数据抽取子模块、权重比计算子模块以及映射表频率计算子模块。
量比值计算子模块,用于针对每个表,计算该表的每个样本数据与该表的所有样本数据的数据总量之间的比值,得到每个样本数据的量比值。
抽样数据抽取子模块,用于根据各个样本数据的量比值,对该表的样本数据进行多次样本抽取,得到该表的抽样数据。
抽样数据抽取子模块进一步用于:针对第1次样本抽取,将该表的样本数据划分至两个数据组,根据递归算法以及两个数据组中的各个样本数据的量比值,计算第1次量比平均值,将各个样本数据中量比值小于第1次量比平均值的样本数据作为第1次样本抽取得到的抽样数据;从t=2开始,针对第t次样本抽取,将第t-1次样本抽取的样本数据中量比值大于或等于第t-1次量比平均值的样本数据作为第t次样本抽取的样本数据,根据递归算法以及第t次样本抽取的样本数据的量比值,计算第t次量比平均值,将第t次样本抽取的样本数据中量比值小于第t次量比平均值的样本数据作为第t次样本抽取得到的抽样数据;将t赋值为t+1,重复执行本步骤,直至t=n+1结束,得到该表的抽样数据;针对该表的每个抽样数据,去除该抽样数据中的指定字符,并将该抽样数据中的中文字符转换为十进制字符。
权重比计算子模块,用于计算各个表的抽样数据的总数与所有表的所有样本数据的总数之间的比值,得到各个表的权重比。
映射表频率计算子模块,用于利用各个表的抽样数据以及各个表的采样时间,计算各个表的映射表频率。
进程重构值确定模块305,用于根据各个表的权重比以及各个表的映射表频率,确定进程重构值。
作为本实施例技术方案的一大改进,系统还包括:
变更方差计算模块,用于根据各个表的变更次数以及数据复制进程中所有表的总数量,计算变更方差。
进程重构值确定模块305进一步用于:针对每个表,将该表的权重比、该表的映射表频率以及变更方差进行加权运算,得到该表的重构值;将各个表的重构值按照从高到低的顺序进行排列,得到进程重构值。
处理模块306,用于按照进程重构值,对数据复制进程进行重构配置处理。
处理模块306进一步用于:按照进程重构值,对数据复制进程进行添加处理;根据各个表的映射表频率,更新数据复制进程中的各个表的排布。
采用本实施例提供的系统,通过监测数据复制进程的延时时间;若延时时间超过预设时间阈值,则遍历数据复制进程,统计数据复制进程中各个表的变更次数;根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;根据各个表的权重比以及各个表的映射表频率,确定进程重构值;按照进程重构值,对数据复制进程进行重构配置处理。通过自动监测数据复制进程的延时时间,当延时时间超过预设时间阈值时,统计数据复制进程中各表的变更次数,解析数据并运算得出合理的进程重构值,根据该进程重构值对数据复制进程各个表重新排布,确定数据复制进程的重构方案,本发明不依赖于维护人员的经验,通过对数据复制进程的自适应判断,在数据复制进程延时的情况下通过运算得到合理、准确的进程重构值并自动进行进程重构,不仅保证了数据复制进程的各个表都进行了合理化处理,有效地避免了性能问题的发生,而且无需技术人员手动查询、拆分进程,即可快速地实现进程重构,有效地缩短了进程重构所需的时间。
实施例三
本发明实施例提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的一种数据复制进程延时的处理方法。
可执行指令具体可以用于使得处理器执行以下操作:
监测数据复制进程的延时时间;若延时时间超过预设时间阈值,则遍历数据复制进程,统计数据复制进程中各个表的变更次数;根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;根据各个表的权重比以及各个表的映射表频率,确定进程重构值;按照进程重构值,对数据复制进程进行重构配置处理。
实施例四
图4示出了本发明计算设备实施例的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述数据复制进程延时的处理方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行以下操作:
监测数据复制进程的延时时间;若延时时间超过预设时间阈值,则遍历数据复制进程,统计数据复制进程中各个表的变更次数;根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;根据各个表的权重比以及各个表的映射表频率,确定进程重构值;按照进程重构值,对数据复制进程进行重构配置处理。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (9)

1.一种数据复制进程延时的处理方法,其特征在于,包括以下步骤:
监测数据复制进程的延时时间;
若所述延时时间超过预设时间阈值,则遍历所述数据复制进程,统计所述数据复制进程中各个表的变更次数;
根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;
对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;
根据各个表的权重比以及各个表的映射表频率,确定进程重构值;
按照所述进程重构值,对所述数据复制进程进行重构配置处理;
其中,所述对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率进一步包括:
针对每个表,计算该表的每个样本数据与该表的所有样本数据的数据总量之间的比值,得到每个样本数据的量比值;根据各个样本数据的量比值,对该表的样本数据进行多次样本抽取,得到该表的抽样数据;计算各个表的抽样数据的总数与所有表的所有样本数据的总数之间的比值,得到各个表的权重比;利用各个表的抽样数据以及各个表的采样时间,计算各个表的映射表频率;其中,针对一个表的映射表频率的计算公式为:映射表频率=该表的抽样数据/该表的采样时间。
2.根据权利要求1所述的方法,其特征在于,所述根据各个样本数据的量比值,对该表的样本数据进行多次样本抽取,得到该表的抽样数据进一步包括:
针对第1次样本抽取,将该表的样本数据划分至两个数据组,根据递归算法以及所述两个数据组中的各个样本数据的量比值,计算第1次量比平均值,将各个样本数据中量比值小于所述第1次量比平均值的样本数据作为第1次样本抽取得到的抽样数据;
从t=2开始,针对第t次样本抽取,将第t-1次样本抽取的样本数据中量比值大于或等于所述第t-1次量比平均值的样本数据作为第t次样本抽取的样本数据,根据递归算法以及第t次样本抽取的样本数据的量比值,计算第t次量比平均值,将第t次样本抽取的样本数据中量比值小于所述第t次量比平均值的样本数据作为第t次样本抽取得到的抽样数据;将t赋值为t+1,重复执行本步骤,直至t=n+1结束,得到该表的抽样数据。
3.根据权利要求1所述的方法,其特征在于,在所述根据各个样本数据的量比值,对该表的样本数据进行多次样本抽取,得到该表的抽样数据之后,所述方法还包括:
针对该表的每个抽样数据,去除该抽样数据中的指定字符,并将该抽样数据中的中文字符转换为十进制字符。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据各个表的变更次数以及所述数据复制进程中所有表的总数量,计算变更方差;
所述根据各个表的权重比以及各个表的映射表频率,确定进程重构值具体为:针对每个表,将该表的权重比、该表的映射表频率以及所述变更方差进行加权运算,得到该表的重构值;将各个表的重构值按照从高到低的顺序进行排列,得到进程重构值。
5.根据权利要求1所述的方法,其特征在于,所述按照所述进程重构值,对所述数据复制进程进行重构配置处理进一步包括:
按照所述进程重构值,对所述数据复制进程进行添加处理;
根据各个表的映射表频率,更新所述数据复制进程中的各个表的排布。
6.根据权利要求1-5任一所述的方法,其特征在于,在所述遍历所述数据复制进程之前,所述方法还包括:创建进程重构任务,根据所述进程重构任务,与数据处理主机建立连接。
7.一种数据复制进程延时的处理系统,其特征在于,包括:
监控模块,用于监测数据复制进程的延时时间;
统计模块,用于若所述延时时间超过预设时间阈值,则遍历所述数据复制进程,统计所述数据复制进程中各个表的变更次数;
样本数据采集模块,用于根据各个表的变更次数,从各个表中采集变更数据作为各个表的样本数据;
样本数据分析模块,用于对各个表的样本数据进行分析,确定各个表的权重比以及各个表的映射表频率;
进程重构值确定模块,用于根据各个表的权重比以及各个表的映射表频率,确定进程重构值;
处理模块,用于按照所述进程重构值,对所述数据复制进程进行重构配置处理;
其中,样本数据分析模块进一步包括:量比值计算子模块、抽样数据抽取子模块、权重比计算子模块以及映射表频率计算子模块;
量比值计算子模块,用于针对每个表,计算该表的每个样本数据与该表的所有样本数据的数据总量之间的比值,得到每个样本数据的量比值;
抽样数据抽取子模块,用于根据各个样本数据的量比值,对该表的样本数据进行多次样本抽取,得到该表的抽样数据;
权重比计算子模块,用于计算各个表的抽样数据的总数与所有表的所有样本数据的总数之间的比值,得到各个表的权重比;
映射表频率计算子模块,用于利用各个表的抽样数据以及各个表的采样时间,计算各个表的映射表频率;其中,针对一个表的映射表频率的计算公式为:映射表频率=该表的抽样数据/该表的采样时间。
8.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的数据复制进程延时的处理方法对应的操作。
9.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6中任一项所述的数据复制进程延时的处理方法对应的操作。
CN201911375386.3A 2019-12-27 2019-12-27 一种数据复制进程延时的处理方法和系统 Active CN113051278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911375386.3A CN113051278B (zh) 2019-12-27 2019-12-27 一种数据复制进程延时的处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911375386.3A CN113051278B (zh) 2019-12-27 2019-12-27 一种数据复制进程延时的处理方法和系统

Publications (2)

Publication Number Publication Date
CN113051278A CN113051278A (zh) 2021-06-29
CN113051278B true CN113051278B (zh) 2023-04-07

Family

ID=76506437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911375386.3A Active CN113051278B (zh) 2019-12-27 2019-12-27 一种数据复制进程延时的处理方法和系统

Country Status (1)

Country Link
CN (1) CN113051278B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649577A (zh) * 2016-11-17 2017-05-10 杭州沃趣科技股份有限公司 一种检测Oracle数据库同步软件运行状态的方法
CN107231435A (zh) * 2017-07-13 2017-10-03 中体彩科技发展有限公司 数据同步监控方法及系统
US10152499B1 (en) * 2015-09-28 2018-12-11 Amazon Technologies, Inc. Database replication scaling
CN109614441A (zh) * 2018-11-02 2019-04-12 国网辽宁省电力有限公司信息通信分公司 一种营销业务系统智能运维同步架构系统
CN109656999A (zh) * 2018-10-11 2019-04-19 平安科技(深圳)有限公司 大数据量的数据同步方法、设备、存储介质及装置
CN109992381A (zh) * 2017-12-30 2019-07-09 中国移动通信集团四川有限公司 进程拆分判别方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101956236B1 (ko) * 2016-11-16 2019-03-11 주식회사 실크로드소프트 데이터베이스 관리 시스템에서의 데이터 복제 기법
US10902015B2 (en) * 2017-01-19 2021-01-26 International Business Machines Corporation Parallel replication of data table partition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152499B1 (en) * 2015-09-28 2018-12-11 Amazon Technologies, Inc. Database replication scaling
CN106649577A (zh) * 2016-11-17 2017-05-10 杭州沃趣科技股份有限公司 一种检测Oracle数据库同步软件运行状态的方法
CN107231435A (zh) * 2017-07-13 2017-10-03 中体彩科技发展有限公司 数据同步监控方法及系统
CN109992381A (zh) * 2017-12-30 2019-07-09 中国移动通信集团四川有限公司 进程拆分判别方法、装置、设备及介质
CN109656999A (zh) * 2018-10-11 2019-04-19 平安科技(深圳)有限公司 大数据量的数据同步方法、设备、存储介质及装置
CN109614441A (zh) * 2018-11-02 2019-04-12 国网辽宁省电力有限公司信息通信分公司 一种营销业务系统智能运维同步架构系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"启奥血站云灾备系统设计与实现";吴倩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第01期);第I138-346页 *
戴冠平."13.4.4 拆分Replicat进程".《叱咤风云:GoldenGate 企业级运维实战》.清华大学出版社,2012,第195-198页. *

Also Published As

Publication number Publication date
CN113051278A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US11119834B2 (en) Artificial creation of dominant sequences that are representative of logged events
US10459888B2 (en) Method, apparatus and system for data analysis
CN108694195B (zh) 一种分布式数据仓库的管理方法及系统
CN113360554B (zh) 一种数据抽取、转换和加载etl的方法和设备
US6708185B2 (en) SQL execution analysis
US7908239B2 (en) System for storing event data using a sum calculator that sums the cubes and squares of events
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN111445597A (zh) 用于机器学习的数据拼接和整合
CN110851317A (zh) 一种预测存储设备iops性能数据的方法、装置、设备及存储介质
CN113901037A (zh) 数据管理方法、装置及存储介质
CN113051278B (zh) 一种数据复制进程延时的处理方法和系统
CN110704407B (zh) 一种数据去重的方法和系统
CN116132448B (zh) 基于人工智能的数据分流方法及相关设备
CN110888909B (zh) 一种评估内容的数据统计处理方法及装置
JP2016024486A (ja) データ活用システム及びその制御方法
WO2016206395A1 (zh) 周报信息处理方法及装置
CN104317820B (zh) 报表的统计方法和装置
CN110991241A (zh) 异常识别方法、设备及计算机可读介质
US20210306236A1 (en) System and method for triage management
CN114090673A (zh) 一种多数据源的数据处理方法、设备及存储介质
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
CN113010382A (zh) 一种埋点数据的计算方法、装置、存储介质和电子设备
CN106469086B (zh) 事件处理方法和装置
CN110196793A (zh) 针对插件数据库的日志分析方法及设备
CN110119406B (zh) 实时任务记录的核对方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant