CN116582453A - 一种多业务集群场景下的监控数据迁移方法和系统 - Google Patents
一种多业务集群场景下的监控数据迁移方法和系统 Download PDFInfo
- Publication number
- CN116582453A CN116582453A CN202310822444.2A CN202310822444A CN116582453A CN 116582453 A CN116582453 A CN 116582453A CN 202310822444 A CN202310822444 A CN 202310822444A CN 116582453 A CN116582453 A CN 116582453A
- Authority
- CN
- China
- Prior art keywords
- migration
- snapshot file
- snapshot
- time
- monitoring data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 398
- 230000005012 migration Effects 0.000 title claims abstract description 398
- 238000012544 monitoring process Methods 0.000 title claims abstract description 274
- 238000000034 method Methods 0.000 title claims abstract description 99
- 239000003550 marker Substances 0.000 claims abstract description 23
- 230000008676 import Effects 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 36
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 abstract description 19
- 238000007906 compression Methods 0.000 abstract description 19
- 239000003795 chemical substances by application Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/128—Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/04—Protocols for data compression, e.g. ROHC
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供了一种多业务集群场景下的监控数据迁移方法和系统,其中,多业务集群场景下的监控数据迁移方法包括控制多业务集群中每一业务集群的时序数据库创建快照文件,其中,快照文件代表预定时段内的监控数据;根据预设带宽占用最大值,生成带宽占用限制指令;根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统;将快照文件切分为多个时间片,根据时间片的导入优先级,将快照文件中的监控数据导入集中式监控系统,其中,时间片越新,时间片的导入优先级越高。本申请的技术方案能解决现有技术中网络占用大、压缩比低且可靠性较差,难以应对大规模多集群的监控数据迁移场景,无法满足用户的实际需求的问题。
Description
技术领域
本申请涉及云计算和大数据技术领域,尤其涉及一种多业务集群场景下的监控数据迁移方法和系统。
背景技术
随着云计算技术和大数据技术的广泛应用,企事业组织的数据系统和业务运营也日趋复杂。
为应对上述情况,许多组织分别在各业务集群中部署独立的监控系统,以监控各业务集群的运行状态和性能指标。
然而分布式的监控系统难以做到数据的统一管理和全局监管。
为解决上述问题,实现跨集群的监控分析能力,现有技术通常将各分布式监控系统的数据迁移到一个统一的集中式监控系统中。
在集中式监控系统中,监控数据能够实现统一的存储和管理,方便用户查询和分析所有监控数据,同时降低系统部署和维护成本。
现有的集中式监控系统通常基于 Prometheus技术实现。
Prometheus是一种时序数据库,通过配置的方式能够主动抓取性能指标,以时序数据的方式将监控数据存储在本地文件系统中。
Prometheus的时序数据库技术通常都实现了远程读写协议。
在将多集群的分布式监控系统的数据迁移到集中式监控系统的过程中,现有技术通常的做法如下:启动多个代理程序,设定源端(历史监控系统)和目标端(集中式监控系统),以及需要迁移的监控数据的开始时间和结束时间。
代理程序利用时序数据库的远程读写能力,按照时间顺序分别以多批次的方式从源端通过远程读协议读取数据,再将数据通过远程写协议写入目标端监控系统。
现有的基于远程读写协议的监控数据迁移方案通常存在以下问题:1. 网络带宽占用大,无法控制代理程序所占用的最大带宽;2. 无法利用时序数据库的高压缩比;3. 容易产生报警抖动。
综上,现有的基于远程读写协议的监控数据迁移方案,由于网络占用大、压缩比低且可靠性较差,难以应对大规模多集群的监控数据迁移场景,无法满足用户的实际需求。
这也进一步凸显了新的监控数据迁移方案的必要性。
发明内容
本申请提供一种多业务集群场景下的监控数据迁移方案,能够解决现有技术中网络占用大、压缩比低且可靠性较差,难以应对大规模多集群的监控数据迁移场景,无法满足用户的实际需求的问题。
为解决上述问题,根据本申请的第一方面,本申请提出了一种多业务集群场景下的监控数据迁移方法,包括:
控制多业务集群中每一业务集群的时序数据库创建快照文件,其中,快照文件代表预定时段内的监控数据;
根据预设带宽占用最大值,生成带宽占用限制指令;
根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统;
将快照文件切分为多个时间片,根据时间片的导入优先级,将快照文件中的监控数据导入集中式监控系统,其中,所述时间片的新旧程度越新,则所述时间片的导入优先级越高。
优选的,上述监控数据迁移方法中,控制多业务集群中每一业务集群的时序数据库创建快照文件的步骤,包括:
访问每一业务集群的时序数据库的快照接口;
使用时序数据库的快照接口,创建快照文件;
按照时间顺序将快照文件存储至时序数据库目录下。
优选的,上述监控数据迁移方法中,根据预设带宽占用最大值,生成带宽占用限制指令的步骤,包括:
集中式监控系统侧的迁移任务控制节点获取文件迁移进程对应的预设带宽占用最大值;
迁移任务控制节点将预设带宽占用最大值下发至多业务集群中每一业务集群;
当存在业务集群迁移快照文件时,控制业务集群生成预设带宽占用最大值对应的带宽占用限制指令。
优选的,上述监控数据迁移方法中,根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统的步骤,包括:
扫描时序数据库中所有快照文件的元数据信息;
将元数据信息上报至集中式监控系统侧的迁移任务控制节点;
迁移任务控制节点从所有快照文件中选取迁移优先级最高的快照文件,为迁移优先级最高的快照文件设置迁移标记位;其中,同一时间迁移标记位唯一;
业务集群将携带有迁移标记位的快照文件从时序数据库迁移至集中式监控系统。
优选的,上述监控数据迁移方法中,迁移任务控制节点从快照文件中选取迁移优先级最高的快照文件,为迁移优先级最高的快照文件设置迁移标记位的步骤,包括:
迁移任务控制节点记录每个业务集群所上报所有快照文件的元数据信息;
遍历所有快照文件的元数据信息,筛选得到所有未完成迁移的快照文件;
根据快照文件对应监控数据的最小起始时间,计算所有未完成迁移的快照文件的迁移优先级,其中,快照文件对应监控数据的最小起始时间越新,则快照文件的迁移优先级越高;
选择迁移优先级最高的快照文件,设置快照文件的迁移标记位。
优选的,上述监控数据迁移方法中,根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统的步骤,包括:
业务集群接收到迁移标记位时,控制携带有迁移标记位的快照文件进行迁移;
业务集群根据带宽占用限制指令规定的预设带宽占用最大值,对快照文件进行限速传输;
业务集群当确定快照文件迁移完成时,向迁移任务控制节点发送标记位释放请求;
迁移任务控制节点根据标记位释放请求释放迁移标记位,按照迁移优先级将迁移标记位设置到下一待迁移的快照文件。
优选的,上述监控数据迁移方法中,将快照文件切分为多个时间片,根据时间片的导入优先级,将快照文件中的监控数据导入集中式监控系统的步骤,包括:
按照预定时间间隔将已迁移的快照文件切分为多个时间片;
根据多个时间片的新旧程度分别计算每个时间片的导入优先级,其中,时间片的新旧程度越新,则时间片的导入优先级越高;
根据时间片的导入优先级,依次将时间片范围内的监控数据导入集中式监控系统。
优选的,上述监控数据迁移方法中,根据时间片的导入优先级,依次将时间片范围内监控数据导入集中式监控系统的步骤,包括:
迁移任务控制节点遍历所有快照文件的元数据信息,根据元数据信息筛选得到所有已迁移的快照文件;
根据监控数据的已迁移时间指针,计算所有已迁移的快照文件的导入优先级;
选取已迁移时间指针的前预定时段的监控数据作为快照文件的时间片;
对导入优先级最高的快照文件,导入时间片范围内的监控数据。
优选的,上述监控数据迁移方法中,将快照文件中的监控数据导入集中式监控系统的步骤之后,方法还包括:
使用状态机实时跟踪快照文件迁移过程中、快照文件的迁移状态;
当快照文件的迁移状态为失败时,迁移任务控制节点重置快照文件的迁移状态;
迁移任务控制节点为迁移状态重置后的快照文件下发迁移标记位,重新执行控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统的步骤。
根据本申请的第二方面,本申请还提供了一种多业务集群场景下的监控数据迁移系统,包括:分布式的多业务集群和集中式监控系统,其中,集中式监控系统侧设有迁移任务控制节点;监控数据迁移系统包括:
多业务集群中每一业务集群的时序数据库,用于创建快照文件,其中,快照文件代表预定时段内的监控数据;
迁移任务控制节点,用于根据预设带宽占用最大值,控制业务集群生成带宽占用限制指令;
业务集群,用于根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统;
迁移任务控制节点,用于将快照文件切分为多个时间片,根据时间片的导入优先级,将快照文件中的监控数据导入集中式监控系统。
优选的,上述监控数据迁移系统中,多业务集群中每一业务集群的时序数据库,具体用于访问每一业务集群的时序数据库的快照接口,使用时序数据库的快照接口,创建快照文件,按照时间顺序将快照文件存储至时序数据库目录下。
优选的,上述监控数据迁移系统中,迁移任务控制节点具体用于:获取文件迁移进程对应的预设带宽占用最大值,将预设带宽占用最大值下发至多业务集群中每一业务集群;当存在业务集群迁移快照文件时,控制业务集群生成预设带宽占用最大值对应的带宽占用限制指令。
优选的,上述监控数据迁移系统中,业务集群具体用于扫描时序数据库中所有快照文件的元数据信息;将元数据信息上报至集中式监控系统侧的迁移任务控制节点;迁移任务控制节点,具体用于从所有快照文件中选取迁移优先级最高的快照文件,为迁移优先级最高的快照文件设置迁移标记位;其中,同一时间迁移标记位唯一;业务集群,具体还用于将携带有迁移标记位的快照文件从时序数据库迁移至集中式监控系统。
优选的,上述监控数据迁移系统中,迁移任务控制节点,具体用于记录每个业务集群所上报所有快照文件的元数据信息,遍历所有快照文件的元数据信息,筛选得到所有未完成迁移的快照文件,根据快照文件对应监控数据的最小起始时间,计算所有未完成迁移的快照文件的迁移优先级,其中,快照文件对应监控数据的最小起始时间越新,则快照文件的迁移优先级越高,选择迁移优先级最高的快照文件,设置快照文件的迁移标记位。
优选的,上述监控数据迁移系统中,业务集群,具体用于接收到迁移标记位时,控制携带有迁移标记位的快照文件进行迁移;业务集群,具体用于根据带宽占用限制指令规定的预设带宽占用最大值,对快照文件进行限速传输;业务集群,具体用于当确定快照文件迁移完成时,向迁移任务控制节点发送标记位释放请求;迁移任务控制节点,具体还用于根据标记位释放请求释放迁移标记位,按照迁移优先级将迁移标记位设置到下一待迁移的快照文件。
优选的,上述监控数据迁移系统中,迁移任务控制节点,具体用于按照预定时间间隔将已迁移的快照文件切分为多个时间片;迁移任务控制节点具体用于根据多个时间片的新旧程度分别计算每个时间片的导入优先级,其中,时间片的新旧程度越新,则时间片的导入优先级越高;迁移任务控制节点具体用于根据时间片的导入优先级,依次将时间片范围内的监控数据导入集中式监控系统。
优选的,上述监控数据迁移系统中,迁移任务控制节点,具体还用于遍历所有快照文件的元数据信息,根据元数据信息筛选得到所有已迁移的快照文件,根据监控数据的已迁移时间指针,计算所有已迁移的快照文件的导入优先级,选取已迁移时间指针的前预定时段的监控数据作为快照文件的时间片,对导入优先级最高的快照文件,导入时间片范围内的监控数据。
优选的,上述监控数据迁移系统还包括状态机,用于实时跟踪快照文件迁移过程中、快照文件的迁移状态;
迁移任务控制节点,具体还用于当快照文件的迁移状态为失败时,重置快照文件的迁移状态;迁移任务控制节点,具体还用于为迁移状态重置后的快照文件下发迁移标记位,重新控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统。
综上,本申请提供的多业务集群场景下的监控数据迁移方案,通过快照多业务集群中每一业务集群的时序数据库创建快照文件,该快照文件代表预定时段内的监控数据,因为快照文件具有高压缩比特性,能够将迁移时的带宽占用缩减至原有的7倍左右,所以快照文件具有小体积特性。
通过传输快照文件而不是原始的监控数据,能够明显减小网络带宽的占用。
另外,根据预设带宽占用最大值,生成带宽占用限制指令,这样使用该带宽占用限制指令能够对快照文件迁移过程进行限速,实现全局带宽的控制,解决现有技术中难以控制最大带宽占用的问题。
另外,该快照文件还设置有迁移标记位,只有携带该迁移标记位的快照文件才能从时序数据库迁移至集中式监控系统,其他业务集群的快照文件只能待命,这样进一步减少了代理程序所占用的最大带宽,减少了数据迁移过程中的带宽占用。
最后在快照文件迁移至集中式监控系统侧时,将该快照文件切分为多个时间片,根据每个时间片的导入优先级将快照文件中的监控数据导入集中式监控系统。
通常时间片的新旧程度越新,时间片的导入优先级越高,快照文件中的监控数据优先导入,这样就能够减少数据断层的持续时间,减少数据断层代理的报警抖动影响。
综上,本申请提供的技术方案,能够解决现有技术中网络带宽占用过大,无法控制代理程序占用的最大带宽,无法利用时序数据库的高压缩比特性,容易产生报警抖动,难以应对大规模多集群的监控数据迁移的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本申请实施例提供的第一种多业务集群场景下的监控数据迁移方法的流程示意图;
图2是图1所示实施例提供的一种使用时序数据库创建快照文件的方法的流程示意图;
图3是图1所示实施例提供的一种带宽占用限制指令的生成方法的流程示意图;
图4是图1所示实施例提供的第一种携带有迁移标记位的快照文件的迁移方法的流程示意图;
图5是图4所示实施例提供的一种快照文件的迁移标记位的设置方法的流程示意图;
图6是图1所示实施例提供的第二种携带有迁移标记位的快照文件的迁移方法的流程示意图;
图7是图1所示实施例提供的一种根据时间片的导入优先级导入快照文件的监控数据的方法的流程示意图;
图8是图7所示实施例提供的一种时间片范围内的监控数据的导入方法的流程示意图;
图9是本申请实施例提供的第二种多业务集群场景下的监控数据迁移方法的流程示意图;
图10是本申请实施例提供的第一种多业务集群场景下的监控数据迁移系统的结构示意图;
图11是本申请实施例提供的第二种多业务集群场景下的监控数据迁移系统的结构示意图;
图12是本申请实施例提供的第三种多业务集群场景下的监控数据迁移系统的结构示意图;
图13是本申请实施例提供的第四种多业务集群场景下的监控数据迁移系统的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决的技术问题是:
现有的基于远程读写协议的监控数据迁移方案通常存在以下问题:
1. 网络带宽占用大,无法控制代理程序所占用的最大带宽。迁移多业务集群的监控数据时,网络带宽占用会成倍增长,极易耗尽网络资源,影响业务系统网络质量。
2. 无法利用时序数据库的高压缩比。
作为一种时序数据库,Prometheus 与其他时序数据库具有高压缩比的存储格式,但远程读写会先将压缩后的数据读取并反序列化为原始字节流,相较于压缩后的数据,传输原始字节流将占用 7 倍左右的带宽。
3. 容易产生报警抖动。
按时间顺序迁移历史监控数据会导致在新的监控系统中出现数据断层,系统会错误判断某些报警已经恢复,产生报警抖动(已产生的报警会被自动解决后,又产生),影响报警的准确性。
4. 数据迁移中断后难以重试。
如果在迁移过程中发生异常中断,则无法简单地进行重试,需要从头再开始全量迁移,或人工重新设置迁移起始的时间点,较为繁琐,效率低下。
为了解决上述问题,本申请下述实施例提供的多业务集群场景下的监控数据迁移方案,通过使用快照文件实现带宽占用控制,基于时间片和优先级选择最近时间的数据首先迁移,基于带宽限制指令和迁移标记位,减小快照文件迁移过程中的带宽占用,提高快照文件迁移效率,从而达到减小网络带宽占用,充分利用高压缩比特性,实现全局带宽控制;以及缩短数据断层时间,减小报警抖动,提高报警准确性的目的。
为实现上述目的,参见图1,图1为本申请实施例提供的第一种多业务集群场景下的监控数据迁移方法的流程示意图。
如图1所示,该多业务集群场景下的监控数据迁移方法,包括:
S110:控制多业务集群中每一业务集群的时序数据库创建快照文件,其中,快照文件代表预定时段内的监控数据。
传统的监控数据迁移技术存在网络带宽占用大,难以利用时序数据库的高压缩比特性的问题。
本申请实施例基于Prometheus的快照技术,通过迁移时序数据库的快照文件,而不是原始字节流以充分利用时序数据库文件的高压缩比特性。
时序数据库Prometheus能够生成快照文件,该快照文件代表预定时段内(例如2h)的监控数据,而快照文件具有高压缩比特性(通常大约具有7倍压缩比),迁移快照文件的带宽占用会缩减至原有的7倍左右。
具体地,作为一种优选的实施例,如图2所示,上述监控数据迁移方法中,步骤S110:控制多业务集群中每一业务集群的时序数据库创建快照文件的步骤,包括:
S111:访问每一业务集群的时序数据库的快照接口。
每一业务集群都具有自身的代理程序。
以Prometheus为例,在迁移任务开始前,代理程序会首先访问业务集群的监控系统Prometheus的快照接口/api/v1/admin/tsdb/snapshot,以重建时序数据快照。
S112:使用时序数据库的快照接口,创建快照文件。
S113:按照时间顺序将快照文件存储至时序数据库目录下。
在使用上述快照接口创建快照文件时,会将快照文件按照时间顺序存储在时序数据库的目录下,每个快照文件代表一段时间内的监控数据。
由于时序数据库具有自动合并历史快照的特性,创建时间越旧的快照文件所存储的监控时序数据越多。
例如最旧的一个快照文件能够包含15天的数据,而最新的一个快照文件能够仅包含一个小时的数据。
这里的时间顺序即指创建时间顺序。
本申请实施例提供的技术方案中,结合图10所示可知,业务集群A的迁移任务开始后,该业务集群A的代理程序将生成快照文件,存储在业务集群A的监控系统Prometheus下,并且以快照文件为对象在网络中传输。
因为快照文件是时序数据库对原始字节流压缩后的存储单位,相较于原始字节流,其占用大小缩减至 7 倍左右。
将快照文件从源端迁移至目标端(集中式监控系统)后,再在目标端启动本地的代理程序,就能够以读取本地快照文件的方式,将数据反序列化为原始字节流,最后通过Remote Write协议写入新的集中式监控系统。
这种方式大大加快了监控数据的传输,降低了传输过程中的带宽占用。
相较于原始字节流的传输方式,本申请通过使用快照文件迁移的方式将迁移时的带宽占用缩减至原先的 7 倍左右,充分利用了时序数据库快照文件的高压缩比特性。
图1所示实施例提供的多业务集群场景下的监控数据迁移方法,在创建得到快照文件后还包括:
S120:根据预设带宽占用最大值,生成带宽占用限制指令。
在迁移任务开始前,能够给相应的迁移任务控制节点设置一个带宽占用最大值,该带宽占用最大值限制了在多业务集群场景下,快照文件迁移进程所占用的最大带宽。
该带宽占用最大值也能够被下发至每个业务集群的代理程序,业务集群的代理程序在接收到该带宽占用最大值后,按照该最大值数据生成带宽占用限制指令,例如生成支持带宽占用的scp 指令,以限制通过网络传输快照文件的最大占用带宽。
具体地,作为一种优选的实施例,如图3所示,上述监控数据迁移方法中,步骤S120:根据预设带宽占用最大值,生成带宽占用限制指令的步骤,包括:
S121:集中式监控系统侧的迁移任务控制节点获取文件迁移进程对应的预设带宽占用最大值。
S122:迁移任务控制节点将预设带宽占用最大值下发至多业务集群中每一业务集群。
S123:当存在业务集群迁移快照文件时,控制业务集群生成预设带宽占用最大值对应的带宽占用限制指令。
本发明实施例提供的技术方案,在任务迁移进程开始前,需要为迁移任务控制节点设置一个带宽占用最大值 ,该带宽占用最大值限制了多集群监控数据迁移场景下,快照文件迁移进程所占用的最大带宽。
该带宽占用最大值也会被下发至每个业务集群下的代理程序,代理程序使用支持限制带宽占用的带宽占用限制指令来通过网络传输快照文件。
代理程序使用支持限制带宽占用的带宽占用最大指令方式,实现了在多业务集群监控数据迁移场景下的最大占用带宽的限制,保证在迁移任务执行过程中,集群业务网络资源不会被耗尽。
图1所示实施例提供的多业务集群场景下的监控数据迁移方法,在生成带宽占用限制指令的步骤后还包括:
S130:根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统。
作为一种优选的实施例,如图4所示,上述监控数据迁移方法中,步骤S130:根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统的步骤,包括:
S131:扫描时序数据库中所有快照文件的元数据信息。
在快照文件生成后,该快照文件所在业务集群的代理程序会扫描时序数据库中所有快照文件的元数据信息,基于该元数据信息添加用于后续迁移用的状态位和标记位,其中,标记位为用于控制全局迁移任务的实际执行单元,只有获取到标记位的代理程序才能执行快照文件的迁移任务,其他程序在未获得标记位的情况下只能待命。
S132:将元数据信息上报至集中式监控系统侧的迁移任务控制节点。
代理程序在获取元数据信息后,会将元数据信息上报至一个集中式监控系统侧的迁移任务控制节点,该迁移任务控制节点负责从多业务集群的所有快照文件中选取待迁移的快照文件,并设置其标记位。
S133:迁移任务控制节点从所有快照文件中选取迁移优先级最高的快照文件,为迁移优先级最高的快照文件设置迁移标记位;其中,同一时间迁移标记位唯一。
结合图11所示的多业务场景下的监控数据迁移系统可知,业务集群A的代理程序获取并上报快照文件的元数据后,集中式监控系统侧的迁移任务控制节点根据该元数据分配和下发迁移标记位,代理程序将该快照文件的标记位设置后,该标记位即变为迁移标记位。
迁移标记位所对应业务集群A上的迁移程序即可开始进行快照文件的迁移。
迁移任务控制节点能够保证该迁移标记位的全局唯一性,即多业务集群下有且只有一个代理程序正在迁移快照文件。
通常情况下,快照文件的创建时间越新,迁移优先级越高,这样迁移任务控制节点从所有快照文件中选取迁移优先级最高的快照文件,对该快照文件设置迁移标记位,以优先迁移该快照文件。
快照文件传输过程中,集中式监控系统侧的代理程序通过上述带宽占用控制指令控制该快照文件限速传输,在传输至该集中式监控系统侧的代理程序后,该代理程序对该快照文件进行反序列化为监控数据,以Remote Write的方式写入至集中式监控系统中。
S134:业务集群将携带有迁移标记位的快照文件从时序数据库迁移至集中式监控系统。
通过集中式监控系统侧的迁移任务控制节点控制全局传输标记位、代理程序使用支持限制带宽占用的带宽占用限制指令,实现了在多业务集群监控数据迁移场景下的最大占用带宽限制,保证在迁移任务执行过程中,集群业务网络资源不会被耗尽。
另外,代理程序的迁移指令结束后,代理程序会向迁移任务控制节点发起迁移标记位的释放请求,控制节点收到请求后,会将迁移标记位设置到下一个待迁移的快照文件。
作为一种优选的实施例,如图5所示,上述监控数据迁移方法中,步骤S133:迁移任务控制节点从所有快照文件中选取迁移优先级最高的快照文件,为迁移优先级最高的快照文件设置迁移标记位的步骤,包括:
S1331:迁移任务控制节点记录每个业务集群所上报所有快照文件的元数据信息。
S1332:遍历所有快照文件的元数据信息,筛选得到所有未完成迁移的快照文件。
S1333:根据快照文件对应监控数据的最小起始时间,计算所有未完成迁移的快照文件的迁移优先级,其中,快照文件对应监控数据的最小起始时间越新,则快照文件的迁移优先级越高。
Prometheus 时序数据库具有自动合并历史快照的特性,但对于接近于最新时间的快照文件,通常以 2 小时为分割单位,所以在迁移该快照文件时能够迅速完成。
S1334:选择迁移优先级最高的快照文件,设置快照文件的迁移标记位。
因为最新时间的快照文件,其迁移优先级最高,因此优先设置该快照文件的迁移标记位,优先迁移该快照文件,能够使得该快照文件的迁移进程迅速完成。
本发明实施例提供的技术方案,在快照文件生成后代理程序会上报所有快照文件的元数据至迁移任务控制节点。
迁移任务控制节点将以定时轮询的方式,在所有的快照文件的元数据信息中选择迁移优先级最高的快照文件,优先为其分配传输标记位。
分配算法描述如下:
1. 控制节点记录每个集群代理程序上报的快照文件迁移状态,其中包含快照文件的元数据信息;
2. 遍历所有快照文件的元数据信息,筛选所有未完成网络传输步骤的快照文件;
3. 根据快照文件所记录的监控数据的最小起始时间,计算快照文件优先级,快照文件所记录的监控数据最小起始时间越新,所对应的快照文件优先级越高;Prometheus 时序数据库具有自动合并历史快照的特性,但对于接近于最新时间的快照文件,通常以 2 小时为分割单位,所以在迁移该快照文件时能够迅速完成。
4. 对迁移优先级最高的快照文件设置其迁移标记位。
通过为所有未完成迁移任务的快照文件设置迁移优先级,快照文件对应监控数据的最小起始时间越新,则该快照文件的迁移优先级越高。
这样能够保证最新的监控数据首先从时序数据库迁移至集中式监控系统,另外迁移任务控制节点保证该迁移标记位的全局唯一性,即多业务集群下有且只有一个代理程序正在迁移快照文件,这样就进一步减少了迁移进程中的带宽占用情况,避免了带宽堵塞的问题,提高了快照文件的传输效率。
另外,作为一种优选的实施例,如图6所示,上述监控数据迁移方法中,步骤S130:根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统的步骤,包括:
S135:业务集群接收到迁移标记位时,控制携带有迁移标记位的快照文件进行迁移。
S136:业务集群根据带宽占用限制指令规定的预设带宽占用最大值,对快照文件进行限速传输。
S137:业务集群当确定快照文件迁移完成时,向迁移任务控制节点发送标记位释放请求。
S138:迁移任务控制节点根据标记位释放请求释放迁移标记位,按照迁移优先级将迁移标记位设置到下一待迁移的快照文件。
本发明实施例提供的技术方案中,业务集群接收到迁移标记位时,快照携带有迁移标记位的快照文件进行迁移,该迁移标记位全局唯一,同一时间只有该快照文件启用迁移进程,因此该迁移进程的带宽占用能够大大降低。
业务集群能够按照带宽限制指令规定的预设带宽占用最大值对快照文件限速传输,该带宽占用最大值限制了在多业务集群监控数据迁移场景下,快照文件迁移进程所占用的最大带宽。
业务集群对应代理程序的迁移指令结束后,会向迁移任务控制节点发起迁移标记位的释放请求,迁移任务控制节点收到该请求后,会将迁移任务标记位设置到下一个待迁移的快照文件。
通过集中式的迁移任务控制节点控制全局迁移标记位、代理程序使用支持限制带宽占用的带宽占用限制指令的方式,实现了在多集群监控数据迁移场景下的最大占用带宽的限制,保证在迁移任务执行过程中业务集群的网络资源不会被耗尽。
为解决现有迁移技术 “产生报警抖动” 的问题,图1所示实施例提供的技术方案,在控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统之后,还包括:
S140:将快照文件切分为多个时间片,根据时间片的导入优先级,将快照文件中的监控数据导入集中式监控系统。
其中,所述时间片的新旧程度越新,则所述时间片的导入优先级越高。
本申请实施例将每个待迁移的快照文件进一步以预定时间间隔(例如30分钟)为粒度切分为若干个时间片,并为每个时间片计算优先级。
为减少监控系统中出现数据断层的持续时间,设置越新的时间片的导入优先级越高,将被优先导入,以缩小数据断层带来的报警抖动的影响。
作为一种优选的实施例,如图7所示,上述监控数据迁移方法中,步骤S140:将快照文件切分为多个时间片,根据时间片的导入优先级,将快照文件中的监控数据导入集中式监控系统的步骤,包括:
S141:按照预定时间间隔将已迁移的快照文件切分为多个时间片。
本申请将已迁移的快照文件划分为若干个时间片,为每个时间片分别计算导入优先级,其中,越新的时间片,其导入优先级越高,将被优先迁移,从而缩小数据断层带来的报警抖动问题。
这样在多进群场景下,优先将时间最新的监控数据进行迁移,无需等待前置数据的导入。
S142:根据多个时间片的新旧程度分别计算每个时间片的导入优先级,其中,时间片的新旧程度越新,则时间片的导入优先级越高。
以Prometheus时序数据库为例,该时序数据库具有自动合并历史快照文件的特性,对应接近最新时间的快照文件,通常以2小时为分割单位,因此该快照文件最先迁移完成。
这样根据多个时间片的新旧程度设置导入优先级,时间片越新,时间片的导入优先级越高,则被优先导入。
S143:根据时间片的导入优先级,依次将时间片范围内的监控数据导入集中式监控系统。
在快照文件从源端到达目标端后 ,迁移任务控制节点将开始以固定时间(例如每半小时)为单位,计算优先级最高的时间片所在的快照文件,执行代理程序导入监控数据。
具体地,作为一种优选的实施例,如图8所示,上述监控数据迁移方法中,步骤S143:根据时间片的导入优先级,依次将时间片范围内监控数据导入集中式监控系统的步骤,包括:
S1431:迁移任务控制节点遍历所有快照文件的元数据信息,根据元数据信息筛选得到所有已迁移的快照文件。
源数据信息内置有状态位,该状态位记录有快照文件的迁移状态。
该状态位共有六种状态,分别为待传输、已传输、待迁移、迁移中、已迁移和失败。
这样通过查询元数据信息中的状态位,就能够筛选得到所有已迁移的快照文件。
S1432:根据监控数据的已迁移时间指针,计算所有已迁移的快照文件的导入优先级。
快照文件记录有监控数据的已迁移时间指针,该已迁移时间指针记录有已迁移的快照文件的终止时间,这样按照该终止时间的新旧就能够计算得到所有已迁移快照文件的导入优先级,例如终止时间越新,则导入优先级越高。
另外若已迁移时间指针不存在,则以快照文件所记录的监控数据的终止时间为默认值。
S1433:选取已迁移时间指针的前预定时段的监控数据作为快照文件的时间片。
选取已迁移时间指针以前的 30 分钟数据作为一个时间片,若不足 30 分钟,则以快照文件的起始时间为准,计算该区间的导入优先级。
S1434:对导入优先级最高的快照文件,导入时间片范围内的监控数据。
对导入优先级最高的快照文件,启动代理程序导入该时间片范围内的数据,能够在多业务集群场景下,有效缩减每个业务集群对应监控数据的数据断层的持续时间。
本申请实施例提供的技术方案,在多业务集群场景下,在迁移任务开始后,每个业务集群最近预定时段(例如半小时)的历史监控数据,将以最高优先级进行迁移,而无需等待前置数据的导入。
经过实验验证,数据断层的持续时间从原先的持续几乎整个迁移过程,明显缩短至数秒。
另外,为解决现有迁移技术中“数据迁移中断后难以重试”的问题,本申请通过使用状态机来跟踪每个待迁移快照文件的状态,快照文件的元数据信息将随着迁移过程的进行而进行状态的轮转,对于迁移失败的快照文件,能够通过重置其迁移状态,实现其迁移任务的重入机制。
具体地,作为一种优选的实施例,如图9所示,上述监控数据迁移方法中,步骤S140:将快照文件中的监控数据导入集中式监控系统的步骤之后,该方法还包括:
S150:使用状态机实时跟踪快照文件迁移过程中、快照文件的迁移状态。
在快照文件生成后,代理程序会扫描对应业务集群上所有快照文件的元数据信息。
代理程序会基于元数据信息添加用于后续迁移的状态位和标记位,其中,状态位用于记录该快照文件的迁移状态。
状态位共有六种状态,分别是:待传输、已传输、待迁移、迁移中、已迁移和失败。
状态机的描述如下:首先,将状态位初始化为待传输;其次,迁移任务控制节点为快照文件分配迁移标记位后,代理程序开始传输该快照文件,当快照文件传输完毕时,代理程序将对应快照文件的迁移标记位释放,并将状态位置为已传输;然后,迁移任务控制节点轮询状态位为已传输的快照文件,选择最优时间片所在的快照文件迁移监控数据,当一个快照文件开始迁移数据时,其状态位将被置为迁移中;最后, 当一个快照文件的监控数据全部迁移完毕时,状态位将被置为已迁移;上述任何一个步骤失败,状态位都将会被置为失败。
如果迁移状态为失败,则执行下述步骤S160。
S160:当快照文件的迁移状态为失败时,迁移任务控制节点重置快照文件的迁移状态。
S170:迁移任务控制节点为迁移状态重置后的快照文件下发迁移标记位,重新执行控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统的步骤。
本申请实施例提供的技术方案,当迁移任务控制节点检测到状态位为失败的快照文件后,整体迁移任务将被标记为失败。
此时快照文件能够通过重试方式,以继续迁移任务。
结合图13所示的多业务集群场景下的监控数据迁移系统可知,快照文件的重试方式如下:在业务状态A将快照文件传输至集中式监控系统的过程中,迁移任务控制节点遍历所有快照文件,查找状态位为失败的快照文件,将该快照文件的状态位重置为待传输,等待迁移任务控制节点重新下发传输标记位后,以重试执行后续迁移步骤。
在快照文件传输至集中式监控系统侧时,代理程序对该快照文件反序列化为监控数据,并以Remote Write的方式写入至集中式监控系统中。
这种基于状态机的迁移重入机制,能够以快照文件的粒度重试整体迁移任务,而无需从头开始,也无需人工重新设置迁移起始的时间点。
综上,本申请提供的多业务集群场景下的监控数据迁移方法,通过快照多业务集群中每一业务集群的时序数据库创建快照文件,该快照文件代表预定时段内的监控数据,因为快照文件具有高压缩比特性,能够将迁移时的带宽占用缩减至原有的7倍左右,所以快照文件具有小体积特性。
通过传输快照文件而不是原始的监控数据,能够明显减小网络带宽的占用。
另外,根据预设带宽占用最大值,生成带宽占用限制指令,这样使用该带宽占用限制指令能够对快照文件迁移过程进行限速,实现全局带宽的控制,解决现有技术中难以控制最大带宽占用的问题。
另外,该快照文件还设置有迁移标记位,只有携带该迁移标记位的快照文件才能从时序数据库迁移至集中式监控系统,其他业务集群的快照文件只能待命,这样进一步减少了代理程序所占用的最大带宽,减少了数据迁移过程中的带宽占用。
最后在快照文件迁移至集中式监控系统侧时,将该快照文件切分为多个时间片,根据每个时间片的导入优先级将快照文件中的监控数据导入集中式监控系统。通常时间片越新,导入优先级越高,快照文件中的监控数据优先导入,这样就能够减少数据断层的持续时间,减少数据断层代理的报警抖动影响。
综上,本申请提供的技术方案,能够解决现有技术中网络带宽占用过大,无法控制代理程序占用的最大带宽,无法利用时序数据库的高压缩比特性,容易产生报警抖动,难以应对大规模多集群的监控数据迁移的问题。
另外,基于上述方法实施例的同一构思,本申请图10至图13所示实施例还提供了多业务集群场景下的监控数据迁移系统,用于实现本申请的上述方法,由于该系统实施例解决问题的原理与方法相似,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
具体参见图12,图12为本申请实施例提供的一种多业务集群场景下的监控数据迁移系统的结构示意图。
如图12所示,该多业务集群场景下的监控数据迁移系统,包括:分布式的多业务集群和集中式监控系统,其中,集中式监控系统侧设有迁移任务控制节点;监控数据迁移系统包括:
多业务集群中每一业务集群的时序数据库,用于创建快照文件,其中,快照文件代表预定时段内的监控数据。
每个业务集群都存在一代理程序,在迁移任务开始前,该代理程序会首先访问业务集群上的Prometheus的快照接口,从而创建快照文件。
该快照文件按照时间顺序存储在时序数据库的目录下。
因为快照文件是时序数据库对原始字节流进行压缩后的存储单位,相较于原始字节流,其占用带宽缩小至7倍左右。
在将快照文件从源端迁移至目标端后,再在目标端本地启动集中式监控系统的代理程序,该代理程序通过读取本地快照文件的方式,将数据反序列化为原始字节流,通过Remote Write 协议写入新的监控系统中。
迁移任务控制节点,用于根据预设带宽占用最大值,控制业务集群生成带宽占用限制指令。
在迁移任务开始前,运维人员会对迁移任务控制节点设置一个带宽占用最大值 ,该带宽占用最大值限制了在多业务集群监控数据迁移场景下,快照文件迁移进程所占用的最大带宽。
该带宽占用最大值也会被下发至每个业务集群下的代理程序,代理程序使用支持限制带宽占用的带宽占用限制指令来通过网络传输快照文件。
业务集群,用于根据带宽占用限制指令,控制时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统。
通过集中式监控系统侧的迁移任务控制节点控制全局传输标记位、代理程序使用支持限制带宽占用的带宽占用限制指令的方式,实现了在多业务集群监控数据迁移场景下的最大占用带宽的限制,保证在迁移任务执行过程中,集群业务网络资源不会被耗尽。
迁移任务控制节点,用于将快照文件切分为多个时间片,根据时间片的导入优先级,将快照文件中的监控数据导入集中式监控系统。
同时为解决现有迁移技术中“产生报警抖动”的问题,本申请将每个待迁移的快照文件按照固定时段为粒度,切分为多个时间片,并为每个时间片设置导入优先级。
为减少集中式监控系统中出现数据断层的持续时间,越新的时间片,其优先级越高,将被优先迁移,以缩小数据断层带来的报警抖动的影响。
该算法在多业务集群场景下,在迁移任务开始后,每个业务集群的最近半小时的历史监控数据将以最高优先级进行迁移,而无需等待前置数据的导入。
以图12所示实施例为例,业务集群B的快照文件已传输,业务集群A的代理程序控制该业务集群的时序数据库生成快照文件。
快照文件是时序数据库对原始字节流进行压缩后的存储单位,相较于原始字节流,其占用大小缩减至原有7倍左右。
充分利用了时序数据库的高压缩比特性。
在快照文件生成后,代理程序会扫描所有快照文件的元数据,基于元数据设置标记位,标记位是用于控制全局迁移任务的实际执行单元,只有获取到标记位的代理程序才能执行迁移任务,其他代理程序在没有获取到标记位的情况下只能待命。
业务集群A的代理程序在获取所有快照文件的元数据后,会将元数据上报至一个集中式监控系统侧的迁移任务控制节点,该迁移任务控制节点(图12中简称为控制节点)负责从多业务集群的所有快照文件中选取待迁移的快照文件,并设置其迁移标记位(也即传输标记位)。
由图12所示的业务集群A的多个快照文件的起始时间和终止时间,例如快照文件1(00:00-00:30),快照文件2(03:00-05:00),快照文件3(05:00-06:00)可知,快照文件对应监控数据的最小起始时间越新,则快照文件的迁移优先级越高。
这样,最小起始时间为05:00的快照文件3优先级最高,优先设置其标记位。
迁移任务控制节点会将带宽占用最大值下发至各业务集群的代理程序,代理程序使用支持限制带宽占用的带宽限制占用指令(如scp指令)对快照文件进行限速传输。
代理程序的迁移指令结束后,会向迁移任务控制节点发起标记位的释放请求,迁移任务控制节点收到上述请求后,会将标记位设置到下一个待迁移的快照文件。
在该快照文件迁移至集中式监控系统侧时,为解决现有迁移技术中“产生报警抖动”的问题,本申请将每个携带迁移标记位的快照文件以30分钟为粒度进行切分,切分为多个时间片,并为每个时间片计算优先级。
以缩小数据断层带来的报警抖动影响。
具体地,迁移任务控制节点遍历所有快照文件的元数据,筛选所有已完成网络传输步骤的快照文件。
根据快照文件所记录监控数据的已迁移时间指针,计算快照文件的导入优先级,若已迁移时间指针不存在,则以快照文件所记录的监控数据的终止时间为默认值。
选取时间指针以前的 30 分钟数据为一个时间片,以该(05:00-06:00)的快照文件为例,该快照文件的优先级最高,其状态位被标记为迁移中,该快照文件划分为两个时间片,首先(05:30-06:00)的时间片作为高优先级监控数据导入到集中式监控系统的代理程序中。
另外,若不足 30 分钟,则以快照文件起始时间为准,计算该区间的优先级。
对优先级最高的快照文件启动代理程序,该快照文件被标记为迁移中,将该快照文件的时间片导入该集中式监控系统的代理程序中。
该代理程序再对时间片对应的监控数据进行反序列化的远程写入Remote Write,导入至集中式监控系统中。
由于快照文件与导入监控数据是完全异步的操作,所以在多集群场景下,能够有效缩减每个业务集群所对应的监控数据的数据断层的持续时间。
该算法在多集群场景下,在迁移任务开始后,每个业务集群最近半小时的历史监控数据将以最高优先级进行迁移,而无需等待前置数据的导入。
经过实验验证,数据断层的持续时间从原先的持续几乎整个迁移过程,明显缩短至数秒。
综上,本申请提供的多业务集群场景下的监控数据迁移系统,通过快照多业务集群中每一业务集群的时序数据库创建快照文件,该快照文件代表预定时段内的监控数据,因为快照文件具有高压缩比特性,能够将迁移时的带宽占用缩减至原有的7倍左右,所以快照文件具有小体积特性。
通过传输快照文件而不是原始的监控数据,能够明显减小网络带宽的占用。
另外,根据预设带宽占用最大值,生成带宽占用限制指令,这样使用该带宽占用限制指令能够对快照文件迁移过程进行限速,实现全局带宽的控制,解决现有技术中难以控制最大带宽占用的问题。
另外,该快照文件还设置有迁移标记位,只有携带该迁移标记位的快照文件才能从时序数据库迁移至集中式监控系统,其他业务集群的快照文件只能待命,这样进一步减少了代理程序所占用的最大带宽,减少了数据迁移过程中的带宽占用。
最后在快照文件迁移至集中式监控系统侧时,将该快照文件切分为多个时间片,根据每个时间片的导入优先级将快照文件中的监控数据导入集中式监控系统。
通常时间片越新,导入优先级越高,快照文件中的监控数据优先导入,这样就能够减少数据断层的持续时间,减少数据断层代理的报警抖动影响。
综上,本申请提供的技术方案,能够解决现有技术中网络带宽占用过大,无法控制代理程序占用的最大带宽,无法利用时序数据库的高压缩比特性,容易产生报警抖动,难以应对大规模多集群的监控数据迁移的问题。
综上,本申请的技术方案相比于现有技术具有以下优势:
1. 基于快照文件实现带宽占用控制。
利用快照文件的小体积特性,通过传输快照文件而不是原始数据,明显减小了网络带宽的占用,充分利用高压缩比特性。
同时增加迁移标记位实现集中控制,代理程序使用带宽占用限制指令,例如scp限速,能够实现全局的带宽控制,解决现有技术难以控制最大带宽占用的问题。
2. 基于时间片和迁移优先级选择最近数据首先迁移。
将快照文件划分为30分钟时间片,根据时间片的新近程度计算优先级,选择高优先级时间片首先迁移。
该算法实现监控数据与报警业务的匹配,遵循最近的数据最重要的原则,能够明显缩短数据断层时间,减小报警抖动,提高报警准确性,是本申请解决现有技术产生报警抖动问题的关键所在。
3. 基于状态机实现迁移任务的重试机制。
定义六种状态来记录每个快照文件的迁移过程,当迁移失败时,可以通过重置状态位,重新执行迁移流程,实现失败快照文件的重试。
该机制可以实现快照文件粒度的重试,避免重新设置迁移时间范围,提高数据迁移的可靠性,解决现有技术数据迁移中断难以重试的问题。
上述三点是本申请解决现有技术问题的关键技术内容和创新之处。
第一点是基础,第二点和第三点在第一点的基础上,进一步提出算法和机制来匹配业务需求,提高了方案整体的实用性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。
因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。
应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。
单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。
本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。
在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
单词第一、第二、以及第三等的使用不表示任何顺序。
可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。
所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。
这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种多业务集群场景下的监控数据迁移方法,其特征在于,包括:
控制多业务集群中每一业务集群的时序数据库创建快照文件,其中,所述快照文件代表预定时段内的监控数据;
根据预设带宽占用最大值,生成带宽占用限制指令;
根据所述带宽占用限制指令,控制所述时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统;
将所述快照文件切分为多个时间片,根据所述时间片的导入优先级,将所述快照文件中的监控数据导入所述集中式监控系统,其中,所述时间片的新旧程度越新,则所述时间片的导入优先级越高。
2.根据权利要求1所述的监控数据迁移方法,其特征在于,所述控制多业务集群中每一业务集群的时序数据库创建快照文件的步骤,包括:
访问所述每一业务集群的时序数据库的快照接口;
使用所述时序数据库的快照接口,创建所述快照文件;
按照时间顺序将所述快照文件存储至所述时序数据库目录下。
3.根据权利要求1所述的监控数据迁移方法,其特征在于,所述根据预设带宽占用最大值,生成带宽占用限制指令的步骤,包括:
所述集中式监控系统侧的迁移任务控制节点获取文件迁移进程对应的所述预设带宽占用最大值;
所述迁移任务控制节点将所述预设带宽占用最大值下发至所述多业务集群中每一业务集群;
当存在业务集群迁移快照文件时,控制所述业务集群生成所述预设带宽占用最大值对应的带宽占用限制指令。
4.根据权利要求1或3所述的监控数据迁移方法,其特征在于,所述根据所述带宽占用限制指令,控制所述时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统的步骤,包括:
扫描所述时序数据库中所有快照文件的元数据信息;
将所述元数据信息上报至所述集中式监控系统侧的迁移任务控制节点;
所述迁移任务控制节点从所有快照文件中选取迁移优先级最高的快照文件,为所述迁移优先级最高的快照文件设置迁移标记位;其中,同一时间所述迁移标记位唯一;
所述业务集群将携带有所述迁移标记位的快照文件从所述时序数据库迁移至所述集中式监控系统。
5.根据权利要求4所述的监控数据迁移方法,其特征在于,所述迁移任务控制节点从所有快照文件中选取迁移优先级最高的快照文件,为所述迁移优先级最高的快照文件设置迁移标记位的步骤,包括:
所述迁移任务控制节点记录每个业务集群所上报所有快照文件的元数据信息;
遍历所述所有快照文件的元数据信息,筛选得到所有未完成迁移的快照文件;
根据所述快照文件对应监控数据的最小起始时间,计算所述所有未完成迁移的快照文件的迁移优先级,其中,所述快照文件对应监控数据的最小起始时间越新,则所述快照文件的迁移优先级越高;
选择迁移优先级最高的快照文件,设置所述快照文件的迁移标记位。
6.根据权利要求4所述的监控数据迁移方法,其特征在于,所述根据所述带宽占用限制指令,控制所述时序数据库将携带有迁移标记位的快照文件迁移至集中式监控系统的步骤,包括:
所述业务集群接收到所述迁移标记位时,控制携带有所述迁移标记位的快照文件进行迁移;
所述业务集群根据所述带宽占用限制指令规定的预设带宽占用最大值,对所述快照文件进行限速传输;
所述业务集群当确定所述快照文件迁移完成时,向所述迁移任务控制节点发送标记位释放请求;
所述迁移任务控制节点根据所述标记位释放请求释放所述迁移标记位,按照所述迁移优先级将所述迁移标记位设置到下一待迁移的快照文件。
7.根据权利要求1所述的监控数据迁移方法,其特征在于,所述将所述快照文件切分为多个时间片,根据所述时间片的导入优先级,将所述快照文件中的监控数据导入所述集中式监控系统的步骤,包括:
按照预定时间间隔将已迁移的快照文件切分为多个时间片;
根据所述多个时间片的新旧程度分别计算每个时间片的导入优先级,其中,所述时间片的新旧程度越新,则所述时间片的导入优先级越高;
根据所述时间片的导入优先级,依次将所述时间片范围内的监控数据导入所述集中式监控系统。
8.根据权利要求7所述的监控数据迁移方法,其特征在于,所述根据所述时间片的导入优先级,依次将所述时间片范围内监控数据导入所述集中式监控系统的步骤,包括:
迁移任务控制节点遍历所有快照文件的元数据信息,根据所述元数据信息筛选得到所有已迁移的快照文件;
根据所述监控数据的已迁移时间指针,计算所述所有已迁移的快照文件的导入优先级;
选取已迁移时间指针的前预定时段的监控数据作为所述快照文件的时间片;
对导入优先级最高的快照文件,导入所述时间片范围内的监控数据。
9.根据权利要求1所述的监控数据迁移方法,其特征在于,所述将所述快照文件中的监控数据导入所述集中式监控系统的步骤之后,所述方法还包括:
使用状态机实时跟踪快照文件迁移过程中、所述快照文件的迁移状态;
当所述快照文件的迁移状态为失败时,迁移任务控制节点重置所述快照文件的迁移状态;
所述迁移任务控制节点为迁移状态重置后的所述快照文件下发所述迁移标记位,重新执行控制所述时序数据库将携带有迁移标记位的快照文件迁移至所述集中式监控系统的步骤。
10.一种多业务集群场景下的监控数据迁移系统,其特征在于,包括:分布式的多业务集群和集中式监控系统,其中,所述集中式监控系统侧设有迁移任务控制节点;所述监控数据迁移系统包括:
所述多业务集群中每一业务集群的时序数据库,用于创建快照文件,其中,所述快照文件代表预定时段内的监控数据;
所述迁移任务控制节点,用于根据预设带宽占用最大值,控制所述业务集群生成带宽占用限制指令;
所述业务集群,用于根据所述带宽占用限制指令,控制所述时序数据库将携带有迁移标记位的快照文件迁移至所述集中式监控系统;
所述迁移任务控制节点,用于将所述快照文件切分为多个时间片,根据所述时间片的导入优先级,将所述快照文件中的监控数据导入所述集中式监控系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310822444.2A CN116582453B (zh) | 2023-07-06 | 2023-07-06 | 一种多业务集群场景下的监控数据迁移方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310822444.2A CN116582453B (zh) | 2023-07-06 | 2023-07-06 | 一种多业务集群场景下的监控数据迁移方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116582453A true CN116582453A (zh) | 2023-08-11 |
CN116582453B CN116582453B (zh) | 2023-09-15 |
Family
ID=87536099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310822444.2A Active CN116582453B (zh) | 2023-07-06 | 2023-07-06 | 一种多业务集群场景下的监控数据迁移方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116582453B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118760657A (zh) * | 2024-09-09 | 2024-10-11 | 腾讯科技(深圳)有限公司 | 存储类型变更方法、相关装置和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109842636A (zh) * | 2017-11-24 | 2019-06-04 | 阿里巴巴集团控股有限公司 | 云服务迁移方法、装置以及电子设备 |
CN111405055A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 多集群管理方法、系统、服务器、存储介质 |
US11169835B1 (en) * | 2017-05-09 | 2021-11-09 | Tintri By Ddn, Inc. | VM data migration between storage devices |
CN114296891A (zh) * | 2021-12-02 | 2022-04-08 | 阿里巴巴(中国)有限公司 | 任务的调度方法、系统、计算设备、存储介质及程序产品 |
US11366682B1 (en) * | 2019-10-22 | 2022-06-21 | Amazon Technologies, Inc. | Automatic snapshotting for recovery of instances with local storage |
-
2023
- 2023-07-06 CN CN202310822444.2A patent/CN116582453B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11169835B1 (en) * | 2017-05-09 | 2021-11-09 | Tintri By Ddn, Inc. | VM data migration between storage devices |
CN109842636A (zh) * | 2017-11-24 | 2019-06-04 | 阿里巴巴集团控股有限公司 | 云服务迁移方法、装置以及电子设备 |
US11366682B1 (en) * | 2019-10-22 | 2022-06-21 | Amazon Technologies, Inc. | Automatic snapshotting for recovery of instances with local storage |
CN111405055A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 多集群管理方法、系统、服务器、存储介质 |
CN114296891A (zh) * | 2021-12-02 | 2022-04-08 | 阿里巴巴(中国)有限公司 | 任务的调度方法、系统、计算设备、存储介质及程序产品 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118760657A (zh) * | 2024-09-09 | 2024-10-11 | 腾讯科技(深圳)有限公司 | 存储类型变更方法、相关装置和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116582453B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200012568A1 (en) | Scalable log-based continuous data protection for distributed databases | |
US10853182B1 (en) | Scalable log-based secondary indexes for non-relational databases | |
CN102265277B (zh) | 数据存储系统的操作方法和装置 | |
US11397648B2 (en) | Virtual machine recovery method and virtual machine management device | |
WO2017177941A1 (zh) | 主备数据库切换方法和装置 | |
US10365978B1 (en) | Synchronization of snapshots in a distributed consistency group | |
CN107357688B (zh) | 分布式系统及其故障恢复方法和装置 | |
CN116582453B (zh) | 一种多业务集群场景下的监控数据迁移方法和系统 | |
CN108762984B (zh) | 一种连续性数据备份的方法及装置 | |
CN111049928B (zh) | 数据同步方法、系统、电子设备及计算机可读存储介质 | |
WO2020025049A1 (zh) | 数据同步的方法、装置、数据库主机及存储介质 | |
US20200293412A1 (en) | Log Management Method, Server, and Database System | |
JP2012003394A (ja) | データ処理の障害回復方法、システムおよびプログラム | |
CN112579550B (zh) | 一种分布式文件系统的元数据信息同步方法及系统 | |
CN116917880A (zh) | 分布式数据库远程备份 | |
US11079960B2 (en) | Object storage system with priority meta object replication | |
CN115729749A (zh) | 一种数据备份方法及系统 | |
US11042454B1 (en) | Restoration of a data source | |
CN106855869B (zh) | 一种实现数据库高可用的方法、装置和系统 | |
CN106487852B (zh) | 实现客户端文件同步的方法、装置、终端设备及系统 | |
WO2021082925A1 (zh) | 一种交易处理的方法及装置 | |
US20210397599A1 (en) | Techniques for generating a consistent view of an eventually consistent database | |
US11093465B2 (en) | Object storage system with versioned meta objects | |
US11074002B2 (en) | Object storage system with meta object replication | |
CN112219189B (zh) | 用于调度的反熵修复设计的技术 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 8b, building 1, No. 48, Zhichun Road, Haidian District, Beijing 100086 Patentee after: Beijing Zhiling Haina Technology Co.,Ltd. Country or region after: China Address before: 8b, building 1, No. 48, Zhichun Road, Haidian District, Beijing 100086 Patentee before: Beijing zhilinghaina Technology Co.,Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |