CN117640432A

CN117640432A - 分布式数据中心运维监控方法

Info

Publication number: CN117640432A
Application number: CN202410107291.8A
Authority: CN
Inventors: 李震领; 鄢冰; 成和祥; 屈国际; 许浒
Original assignee: CGN Wind Energy Ltd
Current assignee: CGN Wind Energy Ltd
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-03-01
Anticipated expiration: 2044-01-26
Also published as: CN117640432B

Abstract

本发明涉及运维监控技术领域，提供一种分布式数据中心运维监控方法，包括以下步骤：设计总部数据中心和分部数据中心之间的网络连接、安全策略、数据同步架构；部署集中式管理平台，对分布式数据中心网络设备的统一策略下发；部署可视化监控工具，对广域网链路和应用进行实时监控，利用仪表盘、报表和告警功能，快速发现和解决网络故障和应用问题；部署安全流量分析工具，对广域网的流量进行监控和分析；建立总部数据中心和分部数据中心之间的业务协同和数据协同机制；将非云化数据迁移到云平台上；本发明快速发现和解决网络故障和应用问题，及时发现潜在的安全威胁和异常流量，提高网络安全性；提高运维效率，并降低运维成本。

Description

分布式数据中心运维监控方法

技术领域

本发明涉及运维监控技术领域，具体地说是一种分布式数据中心运维监控方法。

背景技术

分布式数据中心是一种将计算、存储和网络资源分布在多个地理位置的数据中心系统；相对于传统的集中式数据中心，分布式数据中心提供更高的可靠性、可扩展性和可用性。

运维监控是指对分布式数据中心的各个组件和系统的运行状态进行实时监控和管理的过程；通过收集、分析和报告有关数据中心各方面的数据，帮助管理员及时发现和解决潜在问题。

中国专利申请号为：202210381950.8，分布式数据中心运维监控系统及方法，包括数据采集模块、数据中心模块、数据分析模块、系统运维模块和绩效评价模块；所述数据采集模块用于实现数据信息的采集、汇聚与存储，得到监控数据和异常数据，并将监控数据和异常数据输出至所述数据中心模块；所述数据中心模块用于接收所述数据采集模块传输的监控数据和异常数据，并将监控数据和异常数据传递至所述数据分析模块；所述数据分析模块用于对监控数据和异常数据进行分析，得出系统故障原因；上述发明通过设置数据采集模块，方便实现对数据信息的采集、汇聚与存储，通过设置数据分析模块，能够对监控数据和异常数据进行分析，得出系统故障原因，有利于进行运维工作；但在实际应用中，分布式数据中心还存在网络设备远程运维复杂，难以统一策略下发，广域网链路、应用难以可视化监控的问题；此外广域网安全流量无法可视分析，分支容易被潜伏威胁当做跳板攻击总部，且难以发现和处置；同时分布式数据中心业务和数据之间存在孤岛，导致其与总部数据中心无法形成业务协同和数据协同；并且非云化数据中心更新难，不能有效保障应用、漏洞、补丁的上传下达。

综上，因此本发明提供了一种分布式数据中心运维监控方法，以解决上述问题。

发明内容

本发明提供了一种分布式数据中心运维监控方法，通过建立一套统一的运维管理体系，以解决现有技术中分布式数据中心组网方式运维复杂、缺乏统一的业务支撑架构的问题。

本发明具体的技术方案如下：

一种分布式数据中心运维监控方法，所述分布式数据中心包括总部数据中心和分部数据中心，所述分布式数据中心运维监控方法包括以下步骤：

S1，设计总部数据中心和分部数据中心之间的网络连接、安全策略、数据同步架构，构建监控系统，使用正则表达式对原始日志数据进行预处理，提取原始日志数据中的时间戳，使用Spark大数据处理框架，以时间戳为主键，对日志数据进行数据合并，将总部数据中心和分部数据中心的日志数据合并为一个整体数据集，使用朴素贝叶斯法对数据集进行分类标记，使用Spark Streaming技术将新产生的日志数据实时接入到监控系统中，从而将总部数据中心和分部数据中心的日志数据进行统一标准化处理；

S2，在总部数据中心部署集中式管理平台，使用SPF算法，分析和匹配检索场景，在分部数据中心部署独立计算引擎和存储引擎，进行本地化计算分析和存储，降低各个数据中心的网络带宽消耗；

S3，在总部数据中心和分部数据中心设计分级存储方案，部署SSD磁盘和普通磁盘，使用热数据识别算法，根据访问频率、数据关联性和业务需求，识别高频率访问的重要数据，将重要数据保存在SSD磁盘中，使用数据迁移算法，将3天以上未检索的数据迁移至普通磁盘，使用数据压缩算法，将15天以上未检索的数据进行压缩处理，并部署可视化监控工具，对广域网链路和应用进行实时监控，利用仪表盘、报表和告警功能，发现和解决网络故障和应用问题；

S4，基于布隆过滤器，使用哈希函数对日志进行去重，使用线性归一化法对同类别日志进行归一化处理，使用K-means算法对日志进行分类，并部署安全流量分析工具，对广域网的流量进行监控和分析；

S5，建立总部数据中心和分部数据中心之间的业务协同和数据协同机制；

S6，将非云化数据迁移到云平台上。

优选的一种技术方案，步骤S1中，所述日志数据进行数据合并中，使用线性插值法，基于时间戳填补缺失的日志数据，线性插值公式如下：

；

式中，t1和t2是时间戳，y1和y2是对应的数据值，y(t)表示在时间戳t处的插值结果；

所述日志数据进行数据合并中，使用时间窗口法，将指定时间间隔内的日志数据，聚合为一个窗口，计算窗口内数据的方差和标准差，评估窗口内数据的波动性和分散程度，方差公式如下：

；

标准差公式如下：

；

式中，Xi是窗口内的数据点，μ是窗口内数据的均值，N是窗口内数据点的数量；

所述日志数据进行数据合并中，使用线性回归法，基于日志数据拟合出线性模型，预测日志数据的趋势，线性回归公式如下：

；

式中，Y表示因变量，X表示自变量，β0和β1表示回归系数，ε表示误差项；其中β0和β1使用最小二乘法计算估计值，估计值计算公式如下：

；

式中，Xi自变量的观测值，Yi是因变量的观测值，X_mean是自变量的均值，Y_mean是因变量的均值；

所述数据集进行分类标记中，朴素贝叶斯公式如下：

；

式中，P(c|x)表示给定特征x的情况下类别c的概率，P(x|c)表示在类别c下特征x的概率，P(c)表示类别c的先验概率，P(x)表示特征x的先验概率；

所述总部数据中心与分部数据中心之间的网络连接方式是专线连接，所述总部数据中心与分部数据中心之间部署IDS入侵检测系统和Packet Filtering Firewall包过滤防火墙，所述总部数据中心与分部数据中心之间的数据同步方式是实时同步；

所述总部数据中心与分部数据中心之间的网络连接使用IPSec加密协议，保护数据在传输过程中的安全性，防止被未经授权的人员访问或篡改；

所述总部数据中心和分部数据中心通过使用强密码、双因素认证、访问权限管理和身份验证来实确保只有授权人员能够访问敏感数据；所述总部数据中心和分部数据中心通过使用对称加密对敏感数据进行加密，确保即使在数据泄露的情况下，攻击者也无法轻易获取其中的内容；所述总部数据中心和分部数据中心定期更新和修复系统和应用程序中的漏洞，以确保数据不会因为已知的安全漏洞而受到攻击；所述总部数据中心和分部数据中心采取物理访问控制措施，以防止未经授权的人员接触到敏感数据。

优选的一种技术方案，步骤S2中，所述分部数据中心在部署独立计算引擎和存储引擎时，使用最短作业优先法，分析历史数据和趋势，对分部数据中心的计算进行规划，最短作业优先公式如下：

；

式中，执行时间是指作业需要的时间量，执行时间越短的作业优先级越高；

所述集中式管理平台是Cisco DNA Center管理平台，所述集中式管理平台部署在总部数据中心的节点上，所述节点包括物理服务器、虚拟机和云平台，所述总部数据中心和分部数据中心配置网络设备的管理接口与集中式管理平台进行连接，所述集中式管理平台配置设备采集功能，用于收集网络设备的状态、配置和性能信息；

Cisco DNA Center管理平台可以提供设备状态监控、配置管理、策略下发等功能，方便管理员对网络设备进行统一管理。

优选的一种技术方案，步骤S3中，所述访问频率计算公式如下：

；

所述数据关联性计算公式如下：

；

所述数据压缩算法是gzip压缩算法，所述可视化监控工具是Grafana可视化工具，所述可视化监控工具使用仪表盘和报表功能，创建可视化的监控界面，所述可视化监控工具配置的监控项包括链路的延迟、带宽利用率和应用的响应时间。

优选的一种技术方案，步骤S4中，所述布隆过滤器首先创建一个位数组，随后将日志数据的ID作为元素插入布隆过滤器中，利用哈希函数将元素映射到位数组中，再将新的日志数据的ID作为元素插入布隆过滤器，利用相同的哈希函数映射到位数组中，对两次映射的位置进行判断，确定两个日志数据的相似度；其中位数组大小计算公式如下：

；

式中，m表示位数组大小，n表示元素数量，p表示误判率；

哈希函数个数计算公式如下：

；

式中，k表示哈希函数个数；

所述线性归一化公式如下：

；

式中，X是原始数据，X_min是该类别日志的最小值，X_max是该类别日志的最大值，X'是归一化后的数据；

所述K-means算法使用欧氏距离作为距离度量公式，公式如下：

；

式中，x和y表示两个数据点的特征向量，n表示特征的维度；

所述安全流量分析工具是Wireshark工具，所述安全流量分析工具设置有警报机制，对流量阈值进行警报。

优选的一种技术方案，步骤S5中，所述总部数据中心和分部数据中心之间设置有虚拟专用网络和文件传输协议，所述总部数据中心和分部数据中心之间设置有统一的数据命名规则、数据格式和数据字典，所述总部数据中心和分部数据中心部署Trello项目管理工具。

优选的一种技术方案，步骤S6中，所述云平台是Microsoft Azure平台，所述非云化数据使用Azure Migrate工具将数据迁移至云平台。

优选的一种技术方案，所述分布式数据中心运维监控方法设置有监控指标，所述监控指标包括硬件监控和系统监控，所述硬件监控包括CPU温度、物理磁盘、虚拟磁盘、主板温度和磁盘阵列，所述系统监控包括CPU整体使用百分比、用户态使用百分比、内核态使用百分比、每个CPU使用情况、磁盘读写吞吐、磁盘读写次数、内存使用量、内存剩余量、网卡出入带宽、网卡出入包量、TCP状态监控和进程端口监控。

优选的一种技术方案，所述总部数据中心和分部数据中心使用Logstash工具收集日志，所述总部数据中心和分部数据中心使用ElasticSearch工具存储和搜索日志，所述总部数据中心和分部数据中心使用Kibana工具展示日志。

与现有技术相比，本发明具有如下有益效果：

1.本发明设计总部数据中心和分部数据中心之间的网络连接和安全策略，确保数据的安全传输和访问控制，减少潜在的网络攻击和数据泄露风险；部署可视化监控工具可以对广域网链路和应用进行实时监控，通过仪表盘、报表和告警功能，快速发现和解决网络故障和应用问题，减少停机时间和业务中断；部署安全流量分析工具对广域网的流量进行监控和分析，及时发现潜在的安全威胁和异常流量，提高网络安全性。

2.本发明通过集中式管理平台，对分布式数据中心网络设备的统一策略下发，网络设备和应用更加集中地进行管理和监控，提高运维效率；将非云化数据迁移到云平台上，提高数据的可扩展性和可用性，并降低运维成本，云平台提供更多的自动化和弹性资源，提高整体的数据中心运维效率。

附图说明

图1是本发明运维监控方法流程图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

如图1所示，本发明提供一种分布式数据中心运维监控方法，所述分布式数据中心包括总部数据中心和分部数据中心，所述分布式数据中心运维监控方法包括以下步骤：

S6，将非云化数据迁移到云平台上。

作为本发明的一种实施方式，步骤S1中，所述日志数据进行数据合并中，使用线性插值法，基于时间戳填补缺失的日志数据，线性插值公式如下：

；

标准差公式如下：

；

所述数据集进行分类标记中，朴素贝叶斯公式如下：

；

作为本发明的一种实施方式，步骤S2中，所述分部数据中心在部署独立计算引擎和存储引擎时，使用最短作业优先法，分析历史数据和趋势，对分部数据中心的计算进行规划，最短作业优先公式如下：

；

作为本发明的一种实施方式，步骤S3中，所述访问频率计算公式如下：

；

所述数据关联性计算公式如下：

；

作为本发明的一种实施方式，步骤S4中，所述布隆过滤器首先创建一个位数组，随后将日志数据的ID作为元素插入布隆过滤器中，利用哈希函数将元素映射到位数组中，再将新的日志数据的ID作为元素插入布隆过滤器，利用相同的哈希函数映射到位数组中，对两次映射的位置进行判断，确定两个日志数据的相似度；其中位数组大小计算公式如下：

；

式中，m表示位数组大小，n表示元素数量，p表示误判率；

哈希函数个数计算公式如下：

；

式中，k表示哈希函数个数；

所述线性归一化公式如下：

；

所述K-means算法使用欧氏距离作为距离度量公式，公式如下：

；

式中，x和y表示两个数据点的特征向量，n表示特征的维度；

作为本发明的一种实施方式，步骤S5中，所述总部数据中心和分部数据中心之间设置有虚拟专用网络和文件传输协议，所述总部数据中心和分部数据中心之间设置有统一的数据命名规则、数据格式和数据字典，所述总部数据中心和分部数据中心部署Trello项目管理工具。

作为本发明的一种实施方式，步骤S6中，所述云平台是Microsoft Azure平台，所述非云化数据使用Azure Migrate工具将数据迁移至云平台。

作为本发明的一种实施方式，所述分布式数据中心运维监控方法设置有监控指标，所述监控指标包括硬件监控和系统监控，所述硬件监控包括CPU温度、物理磁盘、虚拟磁盘、主板温度和磁盘阵列，所述系统监控包括CPU整体使用百分比、用户态使用百分比、内核态使用百分比、每个CPU使用情况、磁盘读写吞吐、磁盘读写次数、内存使用量、内存剩余量、网卡出入带宽、网卡出入包量、TCP状态监控和进程端口监控。

作为本发明的一种实施方式，所述总部数据中心和分部数据中心使用Logstash工具收集日志，所述总部数据中心和分部数据中心使用ElasticSearch工具存储和搜索日志，所述总部数据中心和分部数据中心使用Kibana工具展示日志。

实施例1：

如图1所示，本实施例以某品牌服装公司分布式数据中心的运维监控为例；该品牌服装公司面临的问题的是多中心分布式场景下，操作系统、中间件、数据库、网络设备、应用系统、安全设备等日志数据量庞大、来源复杂。

该品牌服装公司首先构建监控系统，使用正则表达式对原始日志数据进行预处理，提取原始日志数据中的时间戳，使用Spark大数据处理框架，以时间戳为主键，对日志数据进行数据合并；其中使用公式（1）计算插值，基于时间戳填补缺失的日志数据；基于时间窗口法，使用公式（2）和公式（3）计算方差和标准差，评估日志数据的分布情况，从而判断各个数据中心的性能和异常情况；使用公式（4）拟合线性模型，并使用公式（5）和公式（6）估算回归系数，从而预测未来日志数据的趋势，对各个数据中心的运维情况进行优化。

最终该品牌服装公司将总部数据中心和分部数据中心的日志数据合并为一个整体数据集；随后使用公式（7）对数据集进行分类标记，使用Spark Streaming技术将新产生的日志数据实时接入到监控系统中，从而将总部数据中和分部数据中心的日志数据进行统一标准化处理，解决了分布式数据中心的日志数据量庞大、来源复杂的问题。

实施例2：

如图1所示，本实施例中，该品牌服装公司面临的问题是多个数据中心互联通信时，采用企业专线网络的带宽有限、资源昂贵，跨中心专网进行集中汇聚、计算、查询将造成大量网络资源浪费。

该品牌服装公司首先在总部数据中心部署Cisco DNA Center管理平台，收集网络设备的状态、配置和性能信息，并使用SPF算法，将各个数据中心的网络图像表示，图中节点表示设备，边表示设备之间的连接关系，计算网络中各个节点之间的最短路径，将网络中的数据流优化分配到最短路径上，以最大程度地提高数据传输效率和系统性能。

同时基于最短路径，分析和匹配检索场景，确定检索场景聚焦单个中心或跨多个中心；并在分部数据中心，使用最短作业优先法，部署独立计算引擎和存储引擎，进行本地化计算分析和存储，充分利用分部数据中心的计算资源。

该品牌服装公司经过上述优化，使分部数据中心能够在本地进行独立计算，有效减少了非必要场景下，跨中心数据传输产生的带宽浪费，为该品牌公司节省了大量带宽费用，计算公式如下：

；

式中，单位带宽费率为每个单位带宽的费用。

实施例3：

如图1所示，本实施例中，该品牌服装公司面临的问题是多中心分布场景下，海量的日志数据带来巨大的存储成本。

该品牌服装公司首先在总部数据中心和分部数据中心设计分级存储方案，部署SSD磁盘和普通磁盘；随后使用热数据识别算法，根据访问频率、数据关联性和业务需求，识别高频率访问的重要数据，将重要数据保存在SSD磁盘中，这使得重要数据能够得到最好的保存效果。

对于3天以上未检索的数据，将数据视为非重要数据，使用数据迁移算法，迁移至普通磁盘，在普通磁盘中保存15天；对于15天以上未检索的数据，使用gzip数据压缩算法，将数据压缩为原先的12分之1，进一步减少数据的存储成本，并继续保存1年，从而达到数据监管需求。

该品牌服装公司经过上述优化，极大减少了海量日志数据的存储成本，计算公式如下：

；

式中，单位存储成本为每个单位数据的存储费用。

实施例4：

如图1所示，本实施例中，该品牌服装公司面临的问题是海量的日志事件会产生的海量告警事件，大量消耗该品牌服装公司的运维资源。

该品牌服装公司首先基于布隆过滤器，首先创建一个位数组，使用公式（8）计算确定位数组的大小，并使用公式（9）计算哈希函数的个数；此时位数组中所有位置的数值均为0。

随后将日志数据的ID作为元素插入布隆过滤器中，利用哈希函数将元素映射到位数组中，该元素映射的位置数值变为1；再将新的日志数据的ID作为元素插入布隆过滤器，利用相同的哈希函数映射到位数组中，判断该元素映射的位置数值是否为1，从而确定两个日志数据的相似度。

进一步，使用公式（10）对同类别日志进行归一化处理，将数据按照线性比例转换到0到1的区间内，使得数据在同一量纲下进行比较，提高数据处理的效果。

此外，该品牌服装公司使用K-means算法，从数据集中选择K个随机的数据点作为初始的聚类中心，使用公式（11）计算数据集中每个数据点与每个聚类中心之间的距离，并将每个数据点分配到距离最近的簇中，形成新的簇，再根据分配到每个簇的数据点，重新计算每个簇的聚类中心，进行多次迭代计算后，输出最终的簇分配结果，每个簇即代表一类日志；该品牌服装公司使用上述方法，能够快速对海量的日志事件进行分类，减少重复日志对运维资源的消耗，提高应对日志事件的运维效率。

本发明的实施方式是为了示例和描述起见而给出的，尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种分布式数据中心运维监控方法，其特征在于，所述分布式数据中心包括总部数据中心和分部数据中心，所述分布式数据中心运维监控方法包括以下步骤：

S3，在总部数据中心和分部数据中心设计分级存储方案，部署SSD磁盘和普通磁盘，使用热数据识别算法，根据访问频率、数据关联性和业务需求，识别高频率访问的重要数据，将重要数据保存在SSD磁盘中，使用数据迁移算法，将3天以上未检索的数据迁移至普通磁盘，使用数据压缩算法，将15天以上未检索的数据进行压缩处理，并部署可视化监控工具，对广域网链路和应用进行实时监控；

S6，将非云化数据迁移到云平台上。

2.如权利要求1所述一种分布式数据中心运维监控方法，其特征在于，步骤S1中，所述日志数据进行数据合并中，使用线性插值法，基于时间戳填补缺失的日志数据，线性插值公式如下：

；

标准差公式如下：

；

所述数据集进行分类标记中，朴素贝叶斯公式如下：

；

式中，P(c|x)表示给定特征x的情况下类别c的概率，P(x|c)表示在类别c下特征x的概率，P(c)表示类别c的先验概率，P(x)表示特征x的先验概率。

3.如权利要求1所述一种分布式数据中心运维监控方法，其特征在于，步骤S2中，所述分部数据中心在部署独立计算引擎和存储引擎时，使用最短作业优先法，分析历史数据和趋势，对分部数据中心的计算进行规划，最短作业优先公式如下：

；

式中，执行时间是指作业需要的时间量。

4.如权利要求1所述一种分布式数据中心运维监控方法，其特征在于，步骤S3中，所述访问频率计算公式如下：

；

所述数据关联性计算公式如下：

；

所述数据压缩算法是gzip压缩算法。

5.如权利要求1所述一种分布式数据中心运维监控方法，其特征在于，步骤S4中，所述布隆过滤器首先创建一个位数组，将日志数据的ID作为元素插入布隆过滤器中，利用哈希函数将元素映射到位数组中，再将新的日志数据的ID作为元素插入布隆过滤器，利用相同的哈希函数映射到位数组中，对两次映射的位置进行判断，确定两个日志数据的相似度；其中位数组大小计算公式如下：

；

式中，m表示位数组大小，n表示元素数量，p表示误判率；

哈希函数个数计算公式如下：

；

式中，k表示哈希函数个数；

所述线性归一化公式如下：

；

所述K-means算法使用欧氏距离作为距离度量公式，公式如下：

；

式中，x和y表示两个数据点的特征向量，n表示特征的维度。

6.如权利要求1所述一种分布式数据中心运维监控方法，其特征在于，步骤S5中，所述总部数据中心和分部数据中心之间设置有虚拟专用网络和文件传输协议，所述总部数据中心和分部数据中心之间设置有统一的数据命名规则、数据格式和数据字典，所述总部数据中心和分部数据中心部署Trello项目管理工具。

7.如权利要求1所述一种分布式数据中心运维监控方法，其特征在于，步骤S6中，所述云平台是Microsoft Azure平台，所述非云化数据使用Azure Migrate工具将数据迁移至云平台。

8.如权利要求1所述一种分布式数据中心运维监控方法，其特征在于，所述分布式数据中心运维监控方法设置有监控指标，所述监控指标包括硬件监控和系统监控，所述硬件监控包括CPU温度、物理磁盘、虚拟磁盘、主板温度和磁盘阵列，所述系统监控包括CPU整体使用百分比、用户态使用百分比、内核态使用百分比、每个CPU使用情况、磁盘读写吞吐、磁盘读写次数、内存使用量、内存剩余量、网卡出入带宽、网卡出入包量、TCP状态监控和进程端口监控。

9.如权利要求1所述一种分布式数据中心运维监控方法，其特征在于，所述总部数据中心和分部数据中心使用Logstash工具收集日志，所述总部数据中心和分部数据中心使用ElasticSearch工具存储和搜索日志，所述总部数据中心和分部数据中心使用Kibana工具展示日志。