CN117112039A

CN117112039A - 一种数据中心的传输优化系统及运行方法

Info

Publication number: CN117112039A
Application number: CN202311073022.6A
Authority: CN
Inventors: 宣浩; 陶剑钊
Original assignee: China Utone Construction Consulting Co ltd
Current assignee: China Utone Construction Consulting Co ltd
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-24
Anticipated expiration: 2043-08-24
Also published as: CN117112039B

Abstract

本申请公开了一种数据中心的传输优化系统及运行方法，属于数据中心技术领域，包括：服务器接收来自采集终端所采集的第一数据集以及在一个采集周期内生成的第一传输信号，对第一数据集进行增维处理，生成具有额外维度的第二数据集；建立传输优化模型，并将第二数据集作为输入进行模型分析；根据传输优化模型的输出结果，对数据中心的数据传输进行优化，在本技术方案实施时，在采集过程中生成第一传输信号，并定义采集终端的采集周期，使服务器根据第一传输信号来确定接收行为，在采集周期调整合理的情况下，服务器不会在一段时间内接收大量数据，进而导致压力过大，并且还能根据服务器的运行状态手动调整采集周期，使服务器处于合适的运行状态。

Description

一种数据中心的传输优化系统及运行方法

技术领域

本申请涉及数据中心技术领域，具体为一种数据中心的传输优化系统及运行方法。

背景技术

数据中心是一种集中存储、管理和处理大量数据的设施，通常由大型服务器、网络设备、存储设备以及其他设备组成，用于提供各种计算、存储和网络服务。

在数据中心的运行过程中，往往需要处理大量数据，而数据传输就是其中一个关键环节，数据中心的运行涉及到多个设备和系统之间的数据传输，如果传输过程效率低下或存在延迟，会导致数据处理和存储出现延迟，影响整个数据中心的工作效率和响应速度，在一些对响应时间要求较高的场景中，例如实时采集和监控任务、实时媒体流处理、实时数据分析等，这些任务对响应时间的要求比较高，需要数据中心具备快速的数据传输、高效的数据处理和实时响应能力，而在目前的数据中心运行环境中，由于现场环境复杂，设备数量较多，会出现大量异常事件导致数据传输出现响应不及时、传输中断等问题，例如网络故障、服务器故障、存储故障、电力故障、外力影响等，这些异常情况的出现会导致数据中心的传输出现异常，影响整个系统的正常运行。

公开号为CN111917648B的中国发明专利公开了一种数据中心里分布式机器学习数据重排的传输优化方法，该专利在其技术方案中，通过将每一轮的全局数据重排分配后需要发送的数据包的数量降低，并且有效地减小传输所有需要的样本所消耗的总网络数，并结合数据中心中训练样本数据分散地存储在各机器上的特点，把发送任务分散在各台机器上，从而增强了发送数据的总带宽，进而能够减少全局数据重排所需要的网络传输时间。

但是上述专利的技术方案在实施过程中，由于数据中心与采集端之间为直接连接，所有采集到的数据都会直接发送至服务器，虽然经过多重优化后会降低采集数据的数据量，但是当采集数据足够多时，还是会导致服务器压力过大，甚至会导致服务器宕机。

所以有必要提供一种数据中心的传输优化系统及运行方法来解决上述问题。

需要说明的是，本背景技术部分中公开的以上信息仅用于理解本申请构思的背景技术，并且因此，它可以包含不构成现有技术的信息。

发明内容

基于现有技术中存在的上述问题，本申请所要解决的问题是：提供一种数据中心的传输优化系统及运行方法，达到提高数据中心的数据传输速度的效果。

本申请解决其技术问题所采用的技术方案是：一种数据中心的传输优化系统的运行方法，该方法包括：

服务器接收来自采集终端所采集的第一数据集以及在一个采集周期内生成的第一传输信号，所述第一数据集的长度与采集周期相对应；

对第一数据集进行增维处理，生成具有额外维度的第二数据集；

建立传输优化模型，并将第二数据集作为传输优化模型的输入，进行模型分析；

根据传输优化模型的输出结果，对数据中心的数据传输进行优化，并生成建议休眠时间段，根据所述建议休眠时间段调整采集周期；

其中，所述采集周期与采集终端的采集状态相关，所述采集状态分为采集终端的采集进行状态、休眠状态，以及存在于两种状态之间的缓冲状态，所述采集周期是指采集终端从采集进行状态开始的时间节点，到休眠状态开始的时间节点之间的时间段。

在本发明的技术方案实施时，通过在采集过程中生成第一传输信号，并定义采集终端的采集周期，使服务器始终根据第一传输信号来确定接收行为，在采集周期调整合理的情况下，服务器不会在一段时间内接收大量数据，进而导致压力过大，并且还能够根据服务器的运行状态调整采集周期，使服务器处于合适的运行状态下。

进一步的，所述第一传输信号的格式为数字信号，所述第一数据集中的数据为模拟信号。

进一步的，所述第一传输信号为服务器的接收启动信号。

进一步的，所述建议休眠时间段的运行策略与休眠时间段的运行策略一致。进一步的，对所述第一数据集进行增维处理进一步包括：

对第一数据集中的采集数据进行识别和分类，并按照分类结果进行整理，形成汇聚数据集；

对汇聚数据集中的元素进行特征提取，并将提取出的特征按照汇聚数据集中的位置进行排序；

对提取出的特征进行特征组合，生成新的特征集，并将新的特征集嵌入汇聚数据集中；

对增维操作后的汇聚数据集进行一致性验证，保证汇聚数据集在增维过程中的完整性。

进一步的，所述对汇聚数据集中的元素进行特征提取采用无监督学习方法。

进一步的，所述对增维操作后的汇聚数据集进行一致性验证采用哈希验证的方法。

一种数据中心的传输优化系统，包括：

接收模块，用于服务器接收来自采集终端所采集的第一数据集以及在一个采集周期内生成的第一传输信号，所述第一数据集的长度与采集周期相对应；

增维处理模块，用于对第一数据集进行增维处理，生成具有额外维度的第二数据集；

模型建立模块，用于建立传输优化模型，并将第二数据集作为传输优化模型的输入，进行模型分析；

传输优化模块，用于根据传输优化模型的输出结果，对数据中心的数据传输进行优化，并生成建议休眠时间段，根据建议休眠时间段调整采集周期。

进一步的，所述增维处理模块进一步包括：

识别分类模块，用于对第一数据集中的采集数据进行识别和分类，并按照分类结果进行整理，形成汇聚数据集；

特征提取模块，用于对汇聚数据集中的元素进行特征提取，并将提取出的特征按照汇聚数据集中的位置进行排序；

特征组合模块，用于对提取出的特征进行特征组合，生成新的特征集，并将新的特征集嵌入汇聚数据集中；

验证模块，用于对增维操作后的汇聚数据集进行一致性验证，保证汇聚数据集在增维过程中的完整性。

本申请的有益效果是：本申请提供的一种数据中心的传输优化系统及运行方法，通过在采集过程中生成第一传输信号，并定义采集终端的采集周期，使服务器始终根据第一传输信号来确定接收行为，在采集周期调整合理的情况下，服务器不会在一段时间内接收大量数据，进而导致压力过大，并且还能够根据服务器的运行状态调整采集周期，使服务器处于合适的运行状态下，并且在后续的模型分析中，根据模型分析结果生成建议休眠时间段，该建议休眠时间段是根据服务器的运行压力自动获得，并且通过调控休眠时间段即可对采集周期的大小进行调整，进而对采集周期内的平均数据量进行调整，使服务器处于良好的运行状态下。

除了上面所描述的目的、特征和优点之外，本申请还有其它的目的、特征和优点。下面将参照图，对本申请作进一步详细的说明。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

在附图中：

图1为本申请中一种数据中心的传输优化系统的运行方法的流程示意图；

图2为一种数据中心的传输优化系统的模块构成示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

实施例一：

如图1所示，本申请提供了一种数据中心的传输优化系统的运行方法，该方法可以用于数据中心的运行过程中，并对数据中心运行过程产生的数据传输进程进行优化，其中数据中心是指集中有存储、管理和处理数据的设施，通常由大型服务器、存储设备和其他设备组成，用于提供各种计算、存储和网络服务，该运行方法可以包含以下步骤：

步骤101：服务器接收来自采集终端所采集的第一数据集，以及在一个采集周期内生成的第一传输信号，该第一数据集的长度与采集周期相对应；

数据中心的运行需要依赖采集终端所采集的第一数据集，该第一数据集为多源数据，包括但不限于温度数据、水位数据、网络数据等，该采集终端包括传感器、网络设备、用户上传等，并且在采集终端的采集周期内，根据其采集状态生成第一传输信号，具体地，采集状态分为采集终端的采集进行状态、休眠状态，以及存在在两种状态之间的缓冲状态，其中，采集进行状态是采集终端的工作状态，而休眠状态即为采集终端停止采集的状态，并且在正常情况下，采集终端具有缓冲状态，以温度传感器为例，当其处采集进行状态时，采集的温度数值处于合理区间或设定区间内，并保持一段时间，该段时间即为温度传感器的缓冲状态，并且在缓冲状态后，即刻进入休眠状态，当然对于其他的采集终端均具有类似的缓冲状态，在此不一一赘述，通过设置有缓冲状态，可以对采集终端进行自我保护，从而延长采集终端的寿命；

同时采集周期是指采集终端从采集进行状态开始的时间节点，到休眠状态开始的时间节点之间的时间段；

并且在采集终端休眠时，会生成第一传输信号，该第一传输信号会作为采集周期的结束标识，同时作为服务器接收第一数据集的启动信号，并且该第一传输信号的格式为数字信号，而采集到的第一数据集在未经处理前通常为模拟信号，因此在相同的传输媒介下，第一传输信号的传输速度快于所采集到的第一数据集；

在本实施中，采集终端通常具有缓存功能，在采集终端的采集周期内，缓存所采集的第一数据集，并且在向服务器发送启动信号后，将缓存的第一数据集向服务器发送；

其中，上述决定采集周期的休眠时间段可以进行更改，具体可参考数据中心运行过程中的各个因素，例如考虑到当前的服务器运行压力过大，需要减少一个采集周期内的平均数据量，从而减少服务器的运行压力，这时就需要延长上述休眠时间段，使采集终端的休眠状态延后，从而延长了采集周期，进而实现减小一个采集周期内平均数据量的效果；例如当考虑到当前对所采集数据的实时响应性要求时，为了使一个采集周期内采集数据的平均数据量更大，只需要减小上述休眠时间段，使采集终端的休眠状态提前，从而实现增加一个采集周期内平均数据量的效果；

通过上述方法，在不同的场景或不同的采集终端中，只需要调整休眠时间段即可实现一个采集周期以及该采集周期内数据量的调整，无需在数据全部采集完毕后，再对其进行识别分类，打包等处理，在采集的过程中就可以根据运行环境进行初步处理，并且处理过程较为简单，只需要调整决定采集周期长短的休眠时间段即可，并且在采集周期结束时，生成第一传输信号，该第一传输信号会先传输至服务器中，并作为服务器的接收启动信号，服务器在接收到第一传输信号后才开始接收采集到的第一数据集，这种方式可以使得服务器分段接收采集终端所传输的第一数据集，防止服务器短时间内接收到大量数据，从而导致处理效率低，甚至是系统宕机的风险，并且还可以根据采集周期对采集到的多远数据进行初步分组，每组数据以与其对应的传输信号为标识，提高采集数据的处理效率。

上述第一数据集具有长度，并且该长度取决于采集周期，当采集周期较长是，对应的第一数据集的长度也会较长，当采集周期较短时，对应的第一数据集的长度也会较短。

需要说明的是，在本发明的实施例中，服务器是指具有接收、存储、处理能力的硬件终端，而并非传统意义上的大型服务器设备，同时在本实施例中，传输方式默认为无线通信，采集终端所采集的第一数据集包括(但不限于)主动采集和/或被动采集的：

网络数据，如网络流量、设备连接状态等；

服务器数据，如服务器的CPU使用率，内存使用率、网络带宽使用率等；

应用程序数据，如应用程序的请求响应时间、错误日志、用户访问日志等；

传感器数据，如环境传感器(温度、湿度、压力等)，设备传感器(电流、电压、功率等)等；

日志数据，如系统安全日志、数据修改日志、无名访问日志等；

用户行为数据，如用户访问行为、点击行为、购买行为等。

步骤102：对第一数据集进行增维处理，生成具有额外维度的第二数据集；

在传统的数据中心运行过程中，服务器所接收到的数据都是各个采集终端直接采集到的，并且其通常为模拟信号，由于采集设备的不同以及采集行为(主动或被动)的差异，会导致所采集的数据之间关联性较低，在后续的分析处理过程中会增加服务器的处理压力，进而提高了系统响应时间，而在该系统的应用场景中，系统响应时间决定了系统的可靠性，虽然可以通过更新服务器中负责处理数据的硬件来提高系统响应时间，但是会导致成本增加，并且难以应用于已经投入使用的数据中心运行系统中，因此需要从数据层面对提高系统的响应时间进行优化；

通过对第一数据集进行数据增维的方式可以使第一数据集中的每个数据的特征更明显，并且使不同的采集设备所采集的数据之间具有一定的关联性，避免数据之间的割裂和独立性，并且在处理的过程中，经过增维的数据中存在的非线性关系会更容易捕捉，从而提高从不同类别的数据中提取关键信息的有效性，并且减少各个数据之间的稀疏性，降低因部分数据缺失或采集差异下导致的服务器预警不精准的问题；

需要说明的是，步骤102中的增维处理并非传统意义上将数据按照一定规则进行缩放，使其落入特定的范围内，而是指根据不同采集设备所采集到的数据进行统一处理，使其符合服务器的处理规则或适应相应的分析模型，防止数据之间的差异造成分析过程中产生额外冗余信息，进而影响服务器的处理结果。

具体的，对第一数据集进行数据增维进一步包括：

步骤201：对第一数据集中的采集数据进行识别和分类，并按照分类结果进行整理，形成汇聚数据集；

为了方便对采集数据进行分析和处理，需要先对其进行识别，并根据识别结果进行分类，将相同类别的采集数据排列到一起，并基于各个数据的具体类别进行排序，使第一数据集中的所有数据便于访问和查找，提供有序的数据检索和分析，降低在分析处理过程中，查找数据所花费的时间和算力资源，提高服务器的分析处理效率；

在本实施例中，对第一数据集中的采集数据进行识别和分类采用机器学习技术，并且在本领域中，通过机器学习对数据进行识别和分类为较为常用的现有技术，因此此处及下文都不再赘述；

需要说明的是，本步骤中对第一数据集中的采集数据进行分类并非传统意义上的根据直接采集到的数据类型进行分类，而是通过机器学习采用一定的算法，并根据算法中模型设计进行识别，例如支持向量机(SVM)算法，该算法是一种常用的机器学习算法，适用于线性和非线性数据的分类过程，在本实施例中通过调整SVM模型即可实现采集数据的分类识别，并且该算法可以应用于高维数据中，与本实施例的增维处理相适配；

步骤202：对汇聚数据集中的元素进行特征提取，并将提取出的特征按照汇聚数据集中的位置进行排序；

为了进行数据增维操作，需要先对汇聚数据集中的采集数据进行特征提取操作，因为原始数据中会存在大量冗余或无关信息，如果直接对原始数据即汇聚数据集中的采集数据进行增维操作，会导致数据群庞大，影响服务器的处理效率，并且还增加了出错的风险，因此在进行数据增维操作前，先对汇聚数据集中的监测数据进行特征提取，将提取出的特征作为汇聚数据的泛化表现，减少原始数据中的冗余信息；

在提取出特征后，还要根据汇聚数据集中的位置排列，对提取出的特征进行对应，防止乱序的特征表示无法与汇聚数据集对应，进而导致特征错位或特征表示异常；

在本实施例中，特征提取可以采用主成分分析(PCA)方法，对汇聚数据集中的监测数据进行线性变换，并将变换后的数据投影到新的坐标系中，使投影后的数据具有最大方差，从而完成特征提取；还可以通过关联规则挖掘(ARM)、聚类等无监督学习方法等完成特征提取，无监督学习方法无需标注训练样本，适合用于数据中心运行系统中，因为在数据中心的运行过程中会产生大量的采集数据，通过无监督学习方法可以省去训练样本的步骤，提高巡检效率，在本发明中不做限制，主成分分析方法提取特征具体可参考公开号为CN115099269A的中国发明专利，此处及下文不再赘述。

步骤203：对提取出的特征进行特征组合，生成新的特征集，并将新的特征集嵌入汇聚数据集中；

对汇聚数据集中的采集数据进行特征提取后，所提取的特征与原始数据之间具有较低的关联性，因此提取出的特征还需要进行特征组合，并生成新的特征集，从而在特征层面上增加原始数据的维度，并且将新的特征集嵌入汇聚数据集中，完成汇聚数据集的增维操作；

在本实施例中，特征组合的方式可以有多种，例如特征交叉、算数组合、绝对值组合、差值组合等，并且在特征组合后，原始特征会被替换，从而实现特征的加密效果，提高汇聚数据集的安全性和保密性；

在将新的特征集嵌入汇聚数据集之前，还需要将新的特征集中的元素进行数值转化，以便能够将其表示为向量的形式，具体的，通过标签编码的方式对特征集中的元素进行编码，生成文本特征，并通过向量化模型(如词袋模型、TF-IDF模型等)对文本特征进行向量化表示，并根据汇聚数据集和特征集的排序进行一一对应，使汇聚数据集中的元素以特征向量的形式表示，从而实现将新的特征集嵌入到汇聚数据集中，这种方式不会改变汇聚数据集中的原始数据，提高数据的完整性。

步骤204：对增维操作后的汇聚数据集进行一致性验证，保证汇聚数据集在增维过程中的完整性；

在数据增维的过程中，由于引入了新的特征，因此可能会导致原始数据发生变化，或者原始数据的特征表示发生变化，导致其并非原始表达，进而影响服务器的处理结果，因此还需要对其进行一致性验证，保证汇聚数据集在增维的过程中没有数据或特征丢失，具体的，在本实施例中，可以通过哈希验证的方法来验证增维前后的汇聚数据集的完整性，具体方法可参照现有技术中通过哈希函数验证数据完整性的方案，此处不再赘述。

步骤103：建立传输优化模型，并将第二数据集作为传输优化模型的输入，进行模型分析；

对汇聚数据集进行增维操作后，会生成具有额外特征的第二数据集，该第二数据集是经过优化后的数据中心运行过程中所采集的采集数据，将该采集数据作为输入，并输入到传输优化模型中，从而对数据中心的运行过程进行传输优化；

传输优化模型是一种在数据传输之前或者传输过程中提高数据传输效率、降低成本、增强可靠性的模型，在本实施例中，传输优化模型可以设置为多种类型，包括(但不限于)：

a、带宽优化模型，通过合理分配网络带宽资源，使得数据传输能够在高效利用带宽的同时，保证各个任务的传输需求得到满足；

b、路由优化模型，通过优化路由算法，选择最佳的数据传输路径，减少数据传输的延迟和拥堵，提高传输效率和可靠性；

c、数据压缩和编码模型，通过压缩和编码技术，减小数据的传输量，从而提高传输效率，并减少传输成本；

d、缓存优化模型，通过合理设置缓存策略，将常用的数据缓存在本地，减少数据传输的延迟和网络带宽的消耗；

e、数据分片和并行传输模型，将大块数据分成多个小块，利用并行传输的方式进行数据传输，提高传输速度和效率；

f、QoS(Quality of Service)优化模型，通过合理设置数据传输的优先级和服务质量，保证关键任务的传输优先级和带宽需求得到满足；

g、容错和冗余优化模型，通过引入冗余数据和容错机制，保证数据传输的可靠性和安全性，以应对网络故障和数据丢失的情况。

步骤104：根据传输优化模型的输出结果，对数据中心的数据传输进行优化，并生成建议休眠时间段，根据建议休眠时间段调整采集周期；

在通过传输优化模型进行分析后，会根据当前数据信息输出结果，该结果可以表示当前服务器的处理压力，并且基于该输出结果生成建议休眠时间段，该建议休眠时间段的运行策略与步骤101中的休眠时间段运行策略一致，但是建议休眠时间段为传输优化模型根据当前数据信息自动生成，能更好反应服务器的运行压力，相比于工作人员根据经验判断服务器的运行压力，从而调整休眠时间段，这种方法能更准确地根据服务器的运行状况进行传输优化，从而提高数据中心在运行过程中的传输效率。

实施例二：

如图2所示，本申请提供了一种数据中心的传输优化系统，该系统运行如实施例一中的方法，该系统包括：

接收模块，用于服务器接收来自采集终端所采集的第一数据集以及在一个采集周期内生成的第一传输信号，该第一数据集的长度与采集周期相同；

增维处理模块进一步包括：

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据中心的传输优化系统的运行方法，其特征在于：该方法包括：

2.根据权利要求1所述的一种数据中心的传输优化系统的运行方法，其特征在于：所述第一传输信号的格式为数字信号，所述第一数据集中的数据为模拟信号。

3.根据权利要求1所述的一种数据中心的传输优化系统的运行方法，其特征在于：所述第一传输信号为服务器的接收启动信号。

4.根据权利要求1所述的一种数据中心的传输优化系统的运行方法，其特征在于：所述建议休眠时间段的运行策略与休眠时间段的运行策略一致。

5.根据权利要求1所述的一种数据中心的传输优化系统的运行方法，其特征在于：对所述第一数据集进行增维处理进一步包括：

6.根据权利要求5所述的一种数据中心的传输优化系统的运行方法，其特征在于：所述对汇聚数据集中的元素进行特征提取采用无监督学习方法。

7.根据权利要求5所述的一种数据中心的传输优化系统的运行方法，其特征在于：所述对增维操作后的汇聚数据集进行一致性验证采用哈希验证的方法。

8.一种数据中心的传输优化系统，其特征在于：包括：

9.根据权利要求8所述的一种数据中心的传输优化系统，其特征在于：所述增维处理模块进一步包括：

10.根据权利要求8所述的一种数据中心的传输优化系统，其特征在于：用于实施如权利要求1至7任一项所述的一种数据中心的传输优化系统的运行方法。