CN116346289B

CN116346289B - 一种用于计算机网络中心的数据处理方法

Info

Publication number: CN116346289B
Application number: CN202310617691.9A
Authority: CN
Inventors: 周京伟; 周蓉; 梁更
Original assignee: Taishan University
Current assignee: Taishan University
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-04
Anticipated expiration: 2043-05-30
Also published as: CN116346289A

Abstract

本发明涉及数据处理领域，具体涉及一种用于计算机网络中心的数据处理方法，包括：获取序列；根据每个字符的分布特征使用密度聚类得到每个字符的聚类结果；根据每个字符的聚类结果确定出每个字符的区间；将每个区间的最右侧点确定为分段点；根据每个区间的分段点确定一组位置序列；根据一组位置序列对序列进行分组得到最终的分组结果；根据最终的分组结果中任意一组子序列中的任意一个字符的概率得到任意一组子序列的重要程度；根据所有组子序列的重要程度得到每组子序列的优先级；根据每组子序列的优先级对数据进行压缩；然后对压缩后的数据进行传输。本发明用数据处理方式对数据分块，再进行编码压缩，使得对重要数据先行传输。

Description

一种用于计算机网络中心的数据处理方法

技术领域

本发明涉及数据处理领域，具体涉及一种用于计算机网络中心的数据处理方法。

背景技术

随着计算机网络中心数据量的不断增加，数据的传输成为了一个重要的问题。尽管存储设备和传输带宽不断提升，但是与数据量的增长相比，他们的提升速度并不够快。这就导致了存储和传输带宽的限制，使得数据的存储和传输变得越来越困难。传统的传输方式是将数据无损压缩，然后将压缩后的数据进行传输。但是传统的无损压缩算法是对整个数据样本进行压缩一次性传输，所占带宽过大。甚至若传输的样本过大，造成传输困难。通过对数据样本进行自适应分块，将大数据分成多个小块，每个小块利用霍夫曼编码压缩，从而减少数据的存储和传输量，提高传输效率，并且不会影响数据的完整性和准确性。

发明内容

本发明提供一种用于计算机网络中心的数据处理方法，以解决现有的问题。

本发明的一种用于计算机网络中心的数据处理方法采用如下技术方案：

本发明一个实施例提供了一种用于计算机网络中心的数据处理方法，该方法包括以下步骤：

获取计算机网络中心的数据组成的序列，将相同的数据记为一个字符；

根据每种字符在序列中对应的所有数据的分布特征进行聚类，获得每个字符的聚类结果；

根据每个字符的聚类结果获得每个字符的区间；

将每个区间的最右侧点确定为分段点；

根据每个区间的分段点确定一组位置序列；

根据一组位置序列对序列进行分组得到最终的分组结果；

根据最终的分组结果中任意一组子序列中的任意一个字符的概率得到任意一组子序列的重要程度；

根据重要程度对所有组子序列排序得到每组子序列的优先级；

根据每个组子序列的优先级将子序列分块压缩得到压缩后的数据；

对压缩后的数据进行传输，将优先重要的数据信息进行传输。

进一步地，所述每个字符的聚类结果的具体获取方法为：

对于任意一种字符，获取在原始序列中与字符相同的所有数据，获得这些数据在原始序列中的序号，这些序号按照从小到大排列构成一个目标序列，记为，n 表示目标序列的长度；

获取目标序列中的第一个序号，将构成一个目标类别；

第一次循环：获取目标序列中的第二个序号，计算与的平均间隔y2，判断y2 是否大于阈值th，如果不大于，则将与构成一个目标类别中，将记为目标类别的目标序号；如果大于，则将构成一个新的目标类别，将记为目标类别的目标序号；

第二次循环：获取第一次循环后的目标类别的目标序号x1，获取目标序列中的第三个序号，计算与x1的平均间隔y3，判断y3是否大于阈值th，如果不大于，则将划入目标类别中，如果大于，则将构成一个新的目标类别，将记为目标类别的目标序号；

以此类推，获得该种字符的所有目标类别，每个目标类别中包括若干个序号，将每个目标类别中包括的所有序号在原始序列中对应的数据记为一个类簇。

进一步地，所述每个字符的区间的具体获取方法为：

根据每个字符的聚类结果对每个字符进行区间划分，将聚类结果中的一个类簇作为一个区间，然后得到每个字符的所有区间。

进一步地，所述最终的分组结果的具体获取方法为：

根据位置顺序将所有字符的分段点组成一组位置序列，根据一组位置序列对序列进行分组，每遇到一个位置，将数据进行一次分组，将每次分组的结果为子序列，得到最终的分组结果。

进一步地，所述任意一组子序列的重要程度的具体获取方法为：

任意一组子序列的重要程度的公式为：

式中，表示第i组子序列中的所有字符类别数；表示第组子序列的重要程度；表示第组子序列的第个字符所对应的概率；exp（）表示以e为底的指数函数。

进一步地，所述每组子序列的优先级的具体获取方法为：

根据重要程度从大到小的顺序对所有组子序列进行排序，排序结果获得每组子序列的优先级。

进一步地，所述压缩后的数据的具体获取方法为：

根据数据中每组子序列的优先级按照高到低的顺序去压缩，得到压缩后的数据了。

进一步地，所述平均间隔的具体获取方法为：

两个序号的平均间隔的计算公式为：

其中，表示目标序列中的第i个序号，表示目标序列中的第j个序号。

本发明的技术方案的有益效果是：采集计算机网络数据，获取每个字符的频率分布情况，通过每个字符的频率分布对情况每个字符进行密度聚类，得到每个字符的分组区间，记为第一分组结果，根据每个字符的分组区间按照其在原始数据样本中的顺序，对原始数据样本进行第二次分组，记为第二分组结果，根据第二分组结果中任意一组中的各个字符出现的概率，得到任意一组数据的重要程度，根据任意一组数据的重要程度进行优先级划分，按照数据的优先级对数据进行分次传输。对数据进行分块压缩传输，可节省利用霍夫曼编码对数据传输时所占用的带宽；计算数据的优先级，可使重要的数据优先传输，在减少传输所占用的带宽的基础上减少对数据进行分块压缩传输后所带来的信息延迟性的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种用于计算机网络中心的数据处理方法的步骤流程图；

图2为聚类结果示意图；

图3为分组后结果示意图；

图4为数据优先级排列示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于计算机网络中心的数据处理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于计算机网络中心的数据处理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种用于计算机网络中心的数据处理方法的步骤流程图，该方法包括以下步骤：

步骤S001：获取计算机网络中心的数据。

计算机网络中心的数据是指在网络中传输的数据，包括各种类型的信息、文件等。这些数据通过计算机网络中心进行传输和交换，以满足用户之间的通信和信息交流的需求。

将所有数据按照顺序组成序列，其中，相同的数据对应一种字符，字符包括汉字、字母和数字等。

至此，数据获取操作完成。

步骤S002：根据字符分布特征对数据进行分组，计算每一个分组子序列的重要程度，将数据组按照重要程度进行优先级排序。

需要说明的是，在计算机网络的数据传输过程中，由于数据的传输量越来越大，原始数据的存储的传输会占用大量的资源，导致效率低下。因此，需要对数据进行分组，分组后的每一个小组的数据分别压缩，可以减少数据的存储空间以及传输带宽。

在数据传输的过程中，会出现传输的数据量过大，导致网络拥堵。而传输的的多个数据块中，某些数据块比其他数据更加重要，在这些数据传输的过程中，应该优先传输这些重要的数据块，以确保这些数据能够及时到达传输的目的端，避免因为网络拥堵等原因造成传输的数据延迟或者丢失。

具体操作如下：

（1）根据密度聚类对字符进行分组。

需要说明的是，在整个数据样本中，各个字符的局部分布并不是均匀的，若想要将每一数据块都进行有效的压缩，则需要分析每一个数据字符的分布特征，尽可能的使数据块的数据分布特征更适合利用霍夫曼编码压缩（即数据分布越不均匀越好）。

具体地，对于任意一种字符进行密度聚类的操作为：

获取在原始序列中与字符相同的所有数据，获得这些数据在原始序列中的序号，这些序号按照从小到大排列构成一个目标序列，记为，n表示目标序列的长度。

获取目标序列中的第一个序号，将构成一个目标类别。

其中，两个序号的平均间隔的计算公式为：，表示目标序列中的第i 个序号，表示目标序列中的第j个序号。

需要说明的是，两个序号的平均间隔的公式中除以个数的目的是为了避免噪声对聚类的干扰。

第二次循环：获取第一次循环后的目标类别的目标序号x1，获取目标序列中的第三个序号，计算与x1的平均间隔y3，判断y3是否大于阈值th，如果不大于，则将划入目标类别中，如果大于，则将构成一个新的目标类别，将记为目标类别的目标序号。

第三次循环：获取第二次循环后的目标类别的目标序号x2，获取目标序列中的第四个序号，计算与x2的平均间隔y4，判断y4是否大于阈值th，如果不大于，则将划入目标类别中，如果大于，则将构成一个新的目标类别，将记为目标类别的目标序号。

至此，获得该种字符的所有类簇。

依据上述密度聚类的具体操作对有字符进行聚类操作，得到每个字符聚类后的结果，即每个字符的所有类簇。

请参阅图2，其示出了所有字符聚类后的结果，其中，每一行表示同一字符在整个数据样本的分布，每一行的每一个小格子代表该字符在数据样本的局部对应的聚类字符密度以及聚类字符区间长度。小格子越短，表示该部分所对应的密度在该区域内的范围越小；小格子越长，表示该部分所对应的密度在该区域内的范围越大。

需要说明的是，将原始数据进行不同的分组，每种分组情况下所对应的各个数据的分布情况都是不同的。若想要令分组后的数据利用霍夫曼编码压缩效果较理想，则需要使分组后的数据尽可能满足各个字符的频率不相等。

将原始数据聚类后，每一个小格子内的数据代表在该区间内，是近似均匀分布的，在对数据进行分组时，数据分布概率不变的所对应的编码是不变的。

例如，一组数据中有a、b、c、d四种字符，其中四种字符所对应的概率分别为0.5、0.2、0.1、0.1，且四种字符是均匀分布的，若是将该数据样本从中间某一位置分开，分开后的概率分布依然不变，概率分布不变，则编码不变。此时，对数据分组是没有意义的，而且增加了不必要的计算量。

因此，通过所有类簇的密度边界对序列进行分组，尽可能避免这种情况。

具体的，将每个类簇中，序号最大的数据作为每个类簇的密度边界，将序列根据所有的密度边界进行分组，从左往右依次遍历，每遇到一个密度边界，将数据进行一次分组，将每次分组的结果记为子序列。

具体的最终分组操作如下：

将每个字符的所有类簇的密度边界的所有分段点作为一组位置序列，由此确定出每个字符对应的一组位置序列。

此处的分段点就是上述的密度边界。具体为：

将第一个字符分组的所有分段点记为,其中o表示第一个字符的个数，即为一组位置序列；

将第二个字符分组的所有分段点记为，其中m表示第二个字符的个数；

依次类推，将第n个字符分组的所有分段点记为，其中，n 表示第n个字符，v表示第n个字符的个数；

现在将这n组位置序列按照位置顺序从左到右进行排序得到一组新的位置序列，记为，其中，q表示对序列分组时的分段点；

需要说明的是，数据中的n个字符分组的分段点可能重合。

请参阅图3，其示出了最终分组结果示意图。

至此，完成对序列中所有数据的分组。

（2）通过子序列中数据的各个数据的分布特征，计算每一组子序列的重要程度。

需要说明的是，对序列进行分组后，由于每一组子序列中的各个字符的都是随机分布的。在传输过程中，优先传输比较重要的子序列组，根据子序列的重要程度依次传输。所以，需要对子序列的重要程度进行计算。

而子序列的重要程度和子序列中的信息含量有关，若一组信息中的数据分布比较混乱，则说明该子序列中的数据集中程度较低，数据集中程度越低，则该信息的重要程度较低；若一组信息的数据分布比较规则，则说明该子序列中数据集中程度较高，数据集中程度越高，则该数据的重要性越高。

在计算机网络传输信息的过程中会包含大量的信息，若是这组信息分布特别混乱，即信息中包含的内容特别多样化和随机化，信息中的重要内容也可能淹没在大量的无关信息中；若是这组信息分布特别规则，即信息的含义比较明确，携带的重要信息量大，该信息就越重要。

因此，信息分布越混乱，则该信息就越不重要；信息分布越规则，则该信息就越重要。

所以对于每一组子序列的重要程度判断，通过组内子序列数据的信息熵来计算。信息熵用来度量一组数据的不确定性。如果一组数据的信息熵比较大，则这组数据分布比较混乱，数据中集中的信息量比较小，数据的重要程度比较低；若这组数据的信息熵比较小，则这组数据的分布比较规则，数据中集中的信息量比较大，数据的重要程度比较高。因此，利用信息熵来衡量一组数据的重要程度。

具体地，计算最终分组后的每一组子序列的重要程度，重要程度的计算公式如下：

式中，表示第i组子序列中的所有字符类别数，表示第组子序列数据的重要程度，其取值范围为；表示第组子序列的第个字符所对应的概率；计算的为该组数据的信息熵,其取值范围为，exp（）表示以自然常数为底的指数函数。

进一步需要说明的是，是最终分组后的每一个小块的字符数量除以该组所有字符数量总和。

其中，越大，即信息熵越大，则说明该组数据的信息越混乱，信息的集中程度越低，则该信息就越不重要；越小，即信息熵越小，则说明该组数据的信息越规则，信息的集中程度越高，则该组信息就越重要。信息熵越大，则数据的重要程度就越小。

至此，对分组后各个组的重要程度的计算完成。

（3）根据所有分组子序列的重要程度对子序列进行优先级排序。

需要说明的是，不同的子数据样本中包含的信息的重要程度不同，在传输带宽有限的条件下，为了避免信息延误所造成的损失，因此需要对各个子数据样本按照其重要程度进行排序，将重要的数据优先传输。

根据上述步骤所计算出的各组子序列的重要程度对各个子序列进行排序，在排序过程中若出现重要程度相等的子序列，则保证信息的顺序性，将重要程度相等的子序列，按照其原来的分组排列顺序进行排列。

请参阅图4，其示出了排列形式，其中标号表示各个子样本数据的重要程度的排序，第一行数据表示排列后的子样本数据，第二行数据表示排列前的子样本数据，箭头的起始端表示排序前子样本数据的位置，箭头的末端表示排序后子样本数据的位置。基于图4中的两个箭头可知，两个子样本数据的重要程度相同，即两个子样本数据的标号均为5时，按照这两个子样本数据在第二行数据的前后顺序进行排列。在第二行数据中，第一个标号为5的数据位于第二个标号为5的数据前面，那么将两个标号相同的数据重新进行排列时，按照其在第二行数据中的前后顺序进行排列，即在第一行数据的排序中，第二行数据的第一个标号为5的数据仍然在第二个标号为5的数据的前面。

至此，得到排序完之后各个组重要程度的优先级。

步骤S003：根据优先级对数据分块压缩和分次传输。

上述步骤进行分组后，计算出了各组子序列的重要程度，根据重要程度对各组数据的优先级进行排序。

根据数据的优先级，对数据进行分次压缩并传输。在宽带有限的条件下，优先传输重要的数据信息，降低数据延时传输带来的巨大影响。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于计算机网络中心的数据处理方法，其特征在于，该方法包括以下步骤：

根据每个字符的聚类结果获得每个字符的区间；

将每个区间的最右侧点确定为分段点；

根据每个区间的分段点确定一组位置序列；

根据一组位置序列对序列进行分组得到最终的分组结果；

对压缩后的数据进行传输，将优先重要的数据信息进行传输；所述每个字符的聚类结果的具体获取方法为：

对于任意一种字符，获取在原始序列中与字符相同的所有数据，获得这些数据在原始序列中的序号，这些序号按照从小到大排列构成一个目标序列，记为，n表示目标序列的长度；

获取目标序列中的第一个序号，将/>构成一个目标类别；

第一次循环：获取目标序列中的第二个序号，计算/>与/>的平均间隔y2，判断y2是否大于阈值th，如果不大于，则将/>与/>构成一个目标类别中，将/>记为目标类别的目标序号；如果大于，则将/>构成一个新的目标类别，将/>记为目标类别的目标序号；

第二次循环：获取第一次循环后的目标类别的目标序号x1，获取目标序列中的第三个序号，计算/>与x1的平均间隔y3，判断y3是否大于阈值th，如果不大于，则将/>划入目标类别中，如果大于，则将/>构成一个新的目标类别，将/>记为目标类别的目标序号；

2.根据权利要求1所述一种用于计算机网络中心的数据处理方法，其特征在于，所述每个字符的区间的具体获取方法为：

3.根据权利要求1所述一种用于计算机网络中心的数据处理方法，其特征在于，所述最终的分组结果的具体获取方法为：

4.根据权利要求1所述一种用于计算机网络中心的数据处理方法，其特征在于，所述任意一组子序列的重要程度的具体获取方法为：

任意一组子序列的重要程度的公式为：

；

式中，表示第i组子序列中的所有字符类别数；/>表示第/>组子序列的重要程度；表示第/>组子序列的第/>个字符所对应的概率；exp（）表示以e为底的指数函数。

5.根据权利要求1所述一种用于计算机网络中心的数据处理方法，其特征在于，所述每组子序列的优先级的具体获取方法为：

6.根据权利要求1所述一种用于计算机网络中心的数据处理方法，其特征在于，所述压缩后的数据的具体获取方法为：

根据数据中每组子序列的优先级按照高到低的顺序去压缩，得到压缩后的数据。

7.根据权利要求1所述一种用于计算机网络中心的数据处理方法，其特征在于，所述平均间隔的具体获取方法为：

两个序号的平均间隔的计算公式为：

；

其中,表示目标序列中的第i个序号，/>表示目标序列中的第j个序号。