CN117459418B - 一种实时数据采集存储方法及系统 - Google Patents
一种实时数据采集存储方法及系统 Download PDFInfo
- Publication number
- CN117459418B CN117459418B CN202311786282.8A CN202311786282A CN117459418B CN 117459418 B CN117459418 B CN 117459418B CN 202311786282 A CN202311786282 A CN 202311786282A CN 117459418 B CN117459418 B CN 117459418B
- Authority
- CN
- China
- Prior art keywords
- peak
- points
- abscissa
- time
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002776 aggregation Effects 0.000 claims abstract description 105
- 238000004220 aggregation Methods 0.000 claims abstract description 105
- 238000007906 compression Methods 0.000 claims abstract description 74
- 230000006835 compression Effects 0.000 claims abstract description 74
- 238000011156 evaluation Methods 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims description 4
- UXFQFBNBSPQBJW-UHFFFAOYSA-N 2-amino-2-methylpropane-1,3-diol Chemical compound OCC(N)(C)CO UXFQFBNBSPQBJW-UHFFFAOYSA-N 0.000 claims description 3
- 101150035093 AMPD gene Proteins 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000007621 cluster analysis Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0888—Throughput
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Environmental & Geological Engineering (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,提出了一种实时数据采集存储方法及系统,包括:采集多个端口的网络吞吐量序列;对每个端口的网络吞吐量序列获取若干峰值点;根据峰值点之间的时间差异,得到若干峰值聚集区间;根据每个峰值聚集区间中峰值点的分布,得到若干分段点及其置信度;通过分段点将时间轴划分为若干时间段;对所有端口同一时间段中的所有网络吞吐量数据进行聚类,得到每个时间段的若干类簇;根据每个类簇中的网络吞吐量数据及所属时间段对应分段点的置信度,得到每个类簇的压缩损失评价;根据每个类簇的压缩损失评价,对不同类簇采用不同的压缩方式进行压缩。本发明旨在解决网络数据由于不确定性而采用单一压缩方式导致数据丢失的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种实时数据采集存储方法及系统。
背景技术
网络吞吐量指的是在一个网络连接中,在一定时间内传输的数据量或数据速率,是用来评估网络容量与性能的一个重要指标,通过网络吞吐量来确保数据能够以足够的速度和效率传输;其对于网络管理、性能监控和容量规划都非常关键,通过实时监控网络吞吐量网络能够满足实际需求。
而对于网络吞吐量数据,实时监控会导致数据产生大量冗余,因此需要对大量网络吞吐量数据进行压缩处理,通常情况下对网络吞吐量数据采用无损压缩或有损压缩的单一压缩方式,然而网络吞吐量数据存在不确定性,存在大量数据相近的情况时,无损压缩会导致压缩效果较差,不能有效降低存储空间的占用;而有损压缩又会造成部分网络吞吐量数据丢失,不利于网络吞吐量的实时采集与监控,因此需要对大量网络吞吐量数据进行聚类分析,通过不同类簇中网络吞吐量数据的相似性来对不同类簇自适应选择压缩方式,从而提高压缩效率的同时保证压缩后的数据质量。
发明内容
本发明提供一种实时数据采集存储方法及系统,以解决现有的网络数据由于不确定性而采用单一压缩方式导致数据丢失的问题,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种实时数据采集存储方法,该方法包括以下步骤:
采集多个端口的网络吞吐量序列,所述多个端口的网络吞吐量序列对应同一个时间轴,所述网络吞吐量序列中包含若干网络吞吐量数据;
对每个端口的网络吞吐量序列获取若干峰值点;根据峰值点之间的时间差异,得到若干峰值聚集区间;根据每个峰值聚集区间中峰值点的分布,得到若干分段点及其置信度;通过分段点将时间轴划分为若干时间段;
对所有端口同一时间段中的所有网络吞吐量数据进行聚类,得到每个时间段的若干类簇;根据每个类簇中的网络吞吐量数据及所属时间段对应分段点的置信度,得到每个类簇的压缩损失评价;
根据每个类簇的压缩损失评价,对不同类簇采用不同的压缩方式进行压缩。
进一步的,所述对每个端口的网络吞吐量序列获取若干峰值点,包括的具体方法为:
对于任意一个端口的网络吞吐量序列,以横坐标为时间,纵坐标为网络吞吐量序列中的网络吞吐量数据构建坐标系,将网络吞吐量序列中每个网络吞吐量数据转换为坐标系中的吞吐量数据点,连接得到该端口的网络吞吐量曲线,对网络吞吐量曲线通过AMPD算法得到若干峰值点,记录每个峰值点对应的时间。
进一步的,所述得到若干峰值聚集区间,包括的具体方法为:
将所有端口的所有峰值点根据对应的时间顺序排列,得到峰值点序列;根据峰值点序列中相邻峰值点对应的时间,对每个峰值点的横坐标进行标记;
在横轴即时间轴上,从第一个有标记的横坐标开始,逐个横坐标进行遍历,预设一个聚集阈值,当遍历到第一个标记为1的横坐标时,统计该横坐标对应的峰值点的数量,若峰值点的数量大于或等于聚集阈值,将该横坐标作为一个峰值聚集区间的左端点,继续向后遍历,直到遍历到一个标记为0或没有标记的横坐标时停止,将停止时的横坐标的前一个横坐标,作为峰值聚集区间的右端点,得到一个峰值聚集区间,并继续向后遍历直到下一个标记为1的横坐标再开始判断;
若峰值点的数量小于聚集阈值,将该横坐标记为待选端点,记录该横坐标对应的峰值点的数量,继续向后遍历,若遍历到的下一个横坐标的标记为0或没有标记,删除记录的待选端点及记录的峰值点的数量,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若遍历到的下一个横坐标的标记为1,统计当前遍历到的横坐标对应的峰值点的数量,并与已经记录的峰值点的数量获取和值,若和值大于或等于聚集阈值,将待选端点作为一个峰值聚集区间的左端点,继续向后遍历,直到遍历到一个标记为0或没有标记的横坐标时停止,将停止时的横坐标的前一个横坐标,作为峰值聚集区间的右端点,得到一个峰值聚集区间;若和值仍小于聚集阈值,继续遍历,若下一个横坐标没有标记或标记为0,删除记录的待选端点及记录的峰值点的数量,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若下一个横坐标的标记为1,继续统计对应的峰值点的数量,并与和值再相加得到和值,对和值进行判断,以此类推得到峰值聚集区间;
对横坐标逐个遍历,最终得到若干峰值聚集区间。
进一步的,所述对每个峰值点的横坐标进行标记,包括的具体方法为:
对峰值点序列中相邻峰值点计算对应时间之间的差值绝对值,得到的差值绝对值记为相邻峰值点的时间差异;将所有时间差异从小到大升序排列,得到时间差异序列,对时间差异序列通过最大类间方差法进行分割,得到两个类别,将类别中时间差异的均值最小的类别作为峰值聚集类别,将类别中时间差异的均值最大的类别作为峰值离散类别;
对于峰值聚集类别,将峰值聚集类别中所有时间差异对应的峰值点的横坐标标记为1;对于峰值离散类别,将峰值离散类别中所有时间差异对应的峰值点的横坐标标记为0,若横坐标已经标记为1,不再对其进行0的标记;对所有峰值点的横坐标均进行0或1的标记。
进一步的,所述得到若干分段点及其置信度,包括的具体方法为:
对于任意一个峰值聚集区间,该峰值聚集区间中多个横坐标分别对应一个或多个峰值点,记为该峰值聚集区间中的峰值点,该峰值聚集区间中第个峰值点的优选程度/>的计算方法为:
其中,表示该峰值聚集区间中第/>个峰值点与区间内其他峰值点的横坐标的差值绝对值的均值,/>表示该峰值聚集区间中峰值点的数量,/>表示该峰值聚集区间中第个峰值点的纵坐标,/>表示该峰值聚集区间中除第/>个峰值点之外第/>个峰值点的纵坐标,/>表示求绝对值,/>表示避免指数函数数值过小的超参数,/>表示以自然常数为底的指数函数;
根据峰值聚集区间内每个峰值点的优选程度,获取若干分段点及置信度。
进一步的,所述若干分段点及置信度,具体的获取方法为:
对于任意一个峰值聚集区间,获取该峰值聚集区间中每个峰值点的优选程度,将优选程度最大的峰值点的横坐标作为一个分段点,并将优选程度的最大值,作为分段点的置信度;将时间轴上第一个时间点及最后一个时间点作为分段点,置信度设置为1。
进一步的,所述得到每个时间段的若干类簇,包括的具体方法为:
对于任意一个时间段,获取横坐标在该时间段中的所有吞吐量数据点,对所有吞吐量数据点进行DBSCAN聚类,距离度量采用吞吐量数据点之间的欧式距离,得到若干类簇。
进一步的,所述得到每个类簇的压缩损失评价,包括的具体方法为:
对于任意一个类簇,通过凸包获取该类簇的包围区域,对包围区域获取外接圆,记为该类簇的最小外接圆,计算最小外接圆的面积,半径为圆心到圆上任意一个点的欧式距离;对该类簇中所有吞吐量数据点进行PCA分析,得到若干主成分向量;该类簇的压缩损失评价的计算方法为:
其中,表示该类簇所属时间段中左侧分段点的置信度,/>表示该类簇所属时间段中右侧分段点的置信度,/>表示该类簇中吞吐量数据点的数量,/>表示该类簇的最小外接圆的面积,/>表示该类簇的所有主成分向量的模长最大值,/>表示该类簇的所有主成分向量的模长最小值,/>表示求绝对值,/>表示避免指数函数数值过小的超参数,表示以自然常数为底的指数函数。
进一步的,所述对不同类簇采用不同的压缩方式进行压缩,包括的具体方法为:
预设一个损失阈值,若任意一个类簇的压缩损失评价大于或等于损失阈值,采用无损压缩方式;若任意一个类簇的压缩损失评价小于损失阈值,采用有损压缩方式,对该类簇中所有网络吞吐量数据获取均值,通过均值对该类簇中各网络吞吐量数据进行替换;
对每个类簇的压缩损失评价都进行判断,确定每个类簇的压缩方式,并对有损压缩的类簇进行替换,完成替换后再对所有类簇的所有网络吞吐量数据通过霍夫曼编码进行压缩。
第二方面,本发明另一个实施例提供了一种实时数据采集存储系统,该系统包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明的有益效果是:本发明通过对多个端口的网络吞吐量数据进行聚类分析,并对类簇根据其中吞吐量数据点的分布量化压缩损失评价,从而对类簇进行自适应的压缩,进而提高网络吞吐量数据的压缩效率的同时,保证压缩后的网络吞吐量数据的质量;其中首先对多个端口的网络吞吐量序列分别获取峰值点,并根据峰值点在时间轴上的聚集分布,得到分段点并对时间轴进行划分,从而得到多个时间段,保证各时间段内不同端口的网络吞吐量数据的变化趋势相近,进而提高类簇的准确性;再对每个时间段所包含的网络吞吐量数据进行聚类,得到类簇,并对类簇根据形状及分布进行分析,获取压缩损失评价并自适应选择压缩方式进行压缩,实现对网络吞吐量数据的实时采集及存储。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种实时数据采集存储方法流程示意图;
图2为网络吞吐量曲线及峰值聚集位置示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种实时数据采集存储方法流程图,该方法包括以下步骤:
步骤S001、采集多个端口的网络吞吐量序列。
本实施例的目的是对实时采集的网络吞吐量数据进行存储,因此首先需要实时采集网络吞吐量数据;本实施例通过对任一网络设备进行监测,对网络设备中5个端口进行数据传输速率的监测,将监测到的数据作为每个端口实时的网络吞吐量数据,采样时间间隔本实施例设置为1ms,同时本实施例每1小时对多个端口的网络吞吐量数据进行一次压缩存储,将每个端口一小时内采集到的网络吞吐量数据,按照时序排列形成每个端口的网络吞吐量序列;后续以最近一个小时得到的每个端口的网络吞吐量序列为例进行处理分析。
至此,得到了每个端口的网络吞吐量序列。
步骤S002、对每个端口的网络吞吐量序列获取若干峰值点;根据峰值点之间的时间差异,得到若干峰值聚集区间;根据每个峰值聚集区间中峰值点的分布,得到若干分段点及其置信度;通过分段点将时间轴划分为若干时间段。
需要说明的是,由于需要对多个端口的网络吞吐量序列进行聚类分析,而整个网络吞吐量序列中不同时间段的网络吞吐量数据过大,因此为了提高聚类分析的结果,首先需要根据各个端口的网络吞吐量序列的变化趋势,对网络吞吐量序列对应的时序进行分段,得到时间段,而后对不同端口同一时间段下的网络吞吐量数据进行聚类分析,从而使得得到的类簇中网络吞吐量数据的差异更小,进而提高后续类簇的压缩损失评价的准确性;而在时间段的获取过程中,通过对每个网络吞吐量序列获取峰值点,根据相邻峰值点的时间差来获取峰值聚集区间,再对峰值聚集区间内峰值点根据分布来量化作为分段点的最优峰值点,而后通过分段点来划分时间段,从而保证分段点具有普遍性,对多个端口的网络吞吐量序列均能较好的将相近的网络吞吐量数据划分到同一时间段中。
具体的,对于任意一个端口的网络吞吐量序列,以横坐标为时间,纵坐标为网络吞吐量序列中的网络吞吐量数据构建坐标系,将网络吞吐量序列中每个网络吞吐量数据转换为坐标系中的吞吐量数据点,连接得到该端口的网络吞吐量曲线,对网络吞吐量曲线通过AMPD算法得到若干峰值点,AMPD算法即多尺度峰值查找算法,为公知技术,本实施例不再赘述;记录每个峰值点对应的时间,即峰值点对应的横坐标;按照上述方法对所有端口的网络吞吐量序列获取若干峰值点,并记录每个峰值点对应的时间。
进一步的,将所有端口的所有峰值点根据对应的时间顺序排列,得到峰值点序列,若多个峰值点对应的时间相同,则对这些峰值点按照端口的顺序进行排列(端口顺序为默认采集顺序,无实际含义);对峰值点序列中相邻峰值点计算对应时间之间的差值绝对值,得到的差值绝对值记为相邻峰值点的时间差异,若相邻峰值点的时间相同,则时间差异为0;获取到若干时间差异后,将所有时间差异从小到大升序排列,得到时间差异序列(数值相同的时间差异均排列在序列内,按照获取顺序进行排列),对时间差异序列通过最大类间方差法进行分割,得到两个类别,将类别中时间差异的均值最小的类别作为峰值聚集类别,将类别中时间差异的均值最大的类别作为峰值离散类别;对于峰值聚集类别,将峰值聚集类别中所有时间差异对应的峰值点的横坐标标记为1(每个横坐标仅标记一次,标记过1则不再标记);对于峰值离散类别,将峰值离散类别中所有时间差异对应的峰值点的横坐标标记为0,由于先进行峰值聚集类别的标记,若横坐标已经标记为1,则不再对其进行0的标记(每个横坐标仅标记一次,未标记过1且标记过0则不再标记);则对所有峰值点的横坐标均进行了0或1的标记。
进一步的,在横轴即时间轴上,从第一个有标记的横坐标开始,逐个横坐标进行遍历(包括没有标记的横坐标),预设一个聚集阈值,本实施例聚集阈值采用4进行叙述,当遍历到第一个标记为1的横坐标时,统计该横坐标对应的峰值点的数量,若峰值点的数量大于或等于聚集阈值,则将该横坐标作为一个峰值聚集区间的左端点,继续向后遍历,直到遍历到一个标记为0或没有标记的横坐标时停止,将停止时的横坐标的前一个横坐标,作为峰值聚集区间的右端点,得到一个峰值聚集区间,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若峰值点的数量小于聚集阈值,将该横坐标记为待选端点,记录该横坐标对应的峰值点的数量,继续向后遍历,若遍历到的下一个横坐标的标记为0或没有标记,则删除记录的待选端点及记录的峰值点的数量,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若遍历到的下一个横坐标的标记为1,则统计当前遍历到的横坐标对应的峰值点的数量,并与已经记录的峰值点的数量获取和值,若和值大于或等于聚集阈值,则将待选端点作为一个峰值聚集区间的左端点,继续向后遍历,直到遍历到一个标记为0或没有标记的横坐标时停止,将停止时的横坐标的前一个横坐标,作为峰值聚集区间的右端点,得到一个峰值聚集区间;若和值仍小于聚集阈值,则继续遍历,若下一个横坐标没有标记或标记为0,则删除记录的待选端点及记录的峰值点的数量,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若下一个横坐标的标记为1,则继续统计对应的峰值点的数量,并与和值再相加得到和值,对和值进行判断,以此类推得到峰值聚集区间;按照上述方法对横坐标逐个遍历,最终得到若干峰值聚集区间,峰值聚集区间需要满足若干连续标记为1的横坐标,且峰值聚集区间内所有横坐标对应的峰值点的数量需要大于或等于聚集阈值,需要说明的是,若一个横坐标相邻前后两个横坐标均标记为0或没有标记,而该横坐标对应的峰值点的数量大于或等于聚集阈值,则该横坐标同样为一个峰值聚集区间,峰值聚集区间的左右端点相同;请参阅图2,图2中峰值聚集位置即为峰值聚集区间。
进一步的,对于任意一个峰值聚集区间,该峰值聚集区间中多个横坐标分别对应一个或多个峰值点,记为该峰值聚集区间中的峰值点,则该峰值聚集区间中第个峰值点的优选程度/>的计算方法为:
其中,表示该峰值聚集区间中第/>个峰值点与区间内其他峰值点的横坐标的差值绝对值的均值,/>表示该峰值聚集区间中峰值点的数量,/>表示该峰值聚集区间中第个峰值点的纵坐标,即该峰值点对应的网络吞吐量数据;/>表示该峰值聚集区间中除第个峰值点之外第/>个峰值点的纵坐标,/>表示求绝对值,/>表示避免指数函数数值过小的超参数,本实施例采用/>进行叙述;/>表示以自然常数为底的指数函数,本实施例采用/>模型来呈现反比例关系,/>为模型的输入,实施者可根据实际情况设置反比例函数;峰值聚集区间内峰值点与其他峰值点的横坐标差异均值越小,同时纵坐标差异均值越小,峰值点越能代表峰值聚集区间,优选程度越大;按照上述方法获取该峰值聚集区间中每个峰值点的优选程度,将优选程度最大的峰值点的横坐标作为一个分段点,并将优选程度的最大值,作为分段点的置信度。
进一步的,按照上述方法对每个峰值聚集区间获取分段点,则得到若干分段点,由于所有端口的网络吞吐量序列的时间轴均相同,则通过分段点进行划分,将时间轴划分为多个时间段,每个分段点作为划分后每个时间段的起始点,同时时间轴第一个时间点也作为分段点,置信度设置为1,则其为第一个时间段的起始点,最后一个时间点作为分段点,置信度设置为1,作为最后一个时间段的终止点,则得到若干时间段。
至此,通过多个端口的网络吞吐量序列的变化趋势得到峰值点,并根据峰值点在时间轴上的分布,进行时间段的划分。
步骤S003、对所有端口同一时间段中的所有网络吞吐量数据进行聚类,得到每个时间段的若干类簇;根据每个类簇中的网络吞吐量数据及所属时间段对应分段点的置信度,得到每个类簇的压缩损失评价。
需要说明的是,获取到若干时间段后,则分别对每个时间段中所有端口的所有网络吞吐量数据进行聚类,得到每个时间段的若干类簇;而后再逐个类簇进行分析,通过类簇中吞吐量数据点的分布,来分析类簇中数据点的分布状态,越趋于横向分布且纵向分布越集中,网络吞吐量数据之间数值差异越小,类簇中数据数值越相近,类簇压缩损失评价应越小,可以通过有损压缩来对类簇进行压缩;相反类簇中数据点分布越离散,且纵向分布范围越大,数据点数值差异较大,类簇压缩损失评价应越大,需要更多考虑无损压缩来保证网络吞吐量数据压缩后的数据质量。
具体的,对于任意一个时间段,由于网络吞吐量序列均转换为对应的网络吞吐量曲线,则在坐标系中,网络吞吐量序列中每个网络吞吐量数据都对应一个坐标系中的吞吐量数据点,获取横坐标在该时间段中的所有吞吐量数据点,对所有吞吐量数据点进行DBSCAN聚类,距离度量采用吞吐量数据点之间的欧式距离,则得到若干类簇。
进一步的,对于任意一个类簇,通过凸包获取该类簇的包围区域,对包围区域获取外接圆,记为该类簇的最小外接圆,计算最小外接圆的面积,半径为圆心到圆上任意一个点的欧式距离;同时对该类簇中所有吞吐量数据点进行PCA分析,得到若干主成分向量,PCA分析及凸包算法均为公知技术,本实施例不再赘述;则该类簇的压缩损失评价的计算方法为:
其中,表示该类簇所属时间段中左侧分段点的置信度,/>表示该类簇所属时间段中右侧分段点的置信度,/>表示该类簇中吞吐量数据点的数量,/>表示该类簇的最小外接圆的面积,/>表示该类簇的所有主成分向量的模长最大值,/>表示该类簇的所有主成分向量的模长最小值,/>表示求绝对值,/>表示避免指数函数数值过小的超参数,本实施例采用/>进行叙述;/>表示以自然常数为底的指数函数,本实施例采用模型来呈现反比例关系及归一化处理,/>为模型的输入,实施者可根据实际情况设置反比例函数及归一化函数;左右两侧分段点的置信度的差异越大,该类簇所属时间段中左右数据聚集程度差异越大,应调大压缩损失评价避免网络吞吐量数据差异过大而造成数据损失;数据点数量与面积占比越小,类簇形状趋于长条状,且主成分向量的模长差异越大,数据点越趋于纵向集中分布而横向离散分布,则数据点的纵坐标差异越小,越适合无损压缩,则压缩损失评价越小。
进一步的,按照上述方法获取该时间段内每个类簇的压缩损失评价;对所有时间段按照上述方法得到若干类簇,并获取每个类簇的压缩损失评价。
步骤S004、根据每个类簇的压缩损失评价,对不同类簇采用不同的压缩方式进行压缩,完成网络吞吐量数据的实时采集及存储。
获取到每个类簇的压缩损失评价后,预设一个损失阈值,本实施例损失阈值采用0.6进行叙述,若任意一个类簇的压缩损失评价大于或等于损失阈值,类簇中网络吞吐量数据的差异较大,应采用无损压缩方式;若任意一个类簇的压缩损失评价小于损失阈值,类簇中网络吞吐量数据的差异较小,采用有损压缩方式,本实施例对该类簇中所有网络吞吐量数据获取均值,通过均值对该类簇中各网络吞吐量数据进行替换;则对每个类簇的压缩损失评价都进行判断,确定每个类簇的压缩方式,并对有损压缩的类簇进行替换,完成替换后再对所有类簇的所有网络吞吐量数据(有损压缩的类簇中网络吞吐量数据已经替换)通过霍夫曼编码进行压缩,完成对多个端口的网络吞吐量序列的压缩;则每一天获取到多个端口的网络吞吐量序列后,按照上述方法进行压缩并存储,完成网络吞吐量数据的实时采集及存储。
至此,通过对网络吞吐量数据根据数据之间的相似性及差异性,自适应选择压缩方式并压缩,从而提高网络吞吐量数据的压缩效率,降低对存储空间的占用。
本发明另一个实施例提供了一种实时数据采集存储系统,该系统包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,执行以下操作:
采集多个端口的网络吞吐量序列;对每个端口的网络吞吐量序列获取若干峰值点;根据峰值点之间的时间差异,得到若干峰值聚集区间;根据每个峰值聚集区间中峰值点的分布,得到若干分段点及其置信度;通过分段点将时间轴划分为若干时间段;对所有端口同一时间段中的所有网络吞吐量数据进行聚类,得到每个时间段的若干类簇;根据每个类簇中的网络吞吐量数据及所属时间段对应分段点的置信度,得到每个类簇的压缩损失评价;根据每个类簇的压缩损失评价,对不同类簇采用不同的压缩方式进行压缩,完成网络吞吐量数据的实时采集及存储。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种实时数据采集存储方法,其特征在于,该方法包括以下步骤:
采集多个端口的网络吞吐量序列,所述多个端口的网络吞吐量序列对应同一个时间轴,所述网络吞吐量序列中包含若干网络吞吐量数据;
对每个端口的网络吞吐量序列获取若干峰值点;根据峰值点之间的时间差异,得到若干峰值聚集区间;根据每个峰值聚集区间中峰值点的分布,得到若干分段点及其置信度;通过分段点将时间轴划分为若干时间段;
对所有端口同一时间段中的所有网络吞吐量数据进行聚类,得到每个时间段的若干类簇;根据每个类簇中的网络吞吐量数据及所属时间段对应分段点的置信度,得到每个类簇的压缩损失评价;
根据每个类簇的压缩损失评价,对不同类簇采用不同的压缩方式进行压缩;
所述得到每个类簇的压缩损失评价,包括的具体方法为:
对于任意一个类簇,通过凸包获取该类簇的包围区域,对包围区域获取外接圆,记为该类簇的最小外接圆,计算最小外接圆的面积,半径为圆心到圆上任意一个点的欧式距离;对该类簇中所有吞吐量数据点进行PCA分析,得到若干主成分向量;该类簇的压缩损失评价的计算方法为:
其中,表示该类簇所属时间段中左侧分段点的置信度,/>表示该类簇所属时间段中右侧分段点的置信度,/>表示该类簇中吞吐量数据点的数量,/>表示该类簇的最小外接圆的面积,/>表示该类簇的所有主成分向量的模长最大值,/>表示该类簇的所有主成分向量的模长最小值,/>表示求绝对值,/>表示避免指数函数数值过小的超参数,/>表示以自然常数为底的指数函数。
2.根据权利要求1所述的一种实时数据采集存储方法,其特征在于,所述对每个端口的网络吞吐量序列获取若干峰值点,包括的具体方法为:
对于任意一个端口的网络吞吐量序列,以横坐标为时间,纵坐标为网络吞吐量序列中的网络吞吐量数据构建坐标系,将网络吞吐量序列中每个网络吞吐量数据转换为坐标系中的吞吐量数据点,连接得到该端口的网络吞吐量曲线,对网络吞吐量曲线通过AMPD算法得到若干峰值点,记录每个峰值点对应的时间。
3.根据权利要求2所述的一种实时数据采集存储方法,其特征在于,所述得到若干峰值聚集区间,包括的具体方法为:
将所有端口的所有峰值点根据对应的时间顺序排列,得到峰值点序列;根据峰值点序列中相邻峰值点对应的时间,对每个峰值点的横坐标进行标记;
在横轴即时间轴上,从第一个有标记的横坐标开始,逐个横坐标进行遍历,预设一个聚集阈值,当遍历到第一个标记为1的横坐标时,统计该横坐标对应的峰值点的数量,若峰值点的数量大于或等于聚集阈值,将该横坐标作为一个峰值聚集区间的左端点,继续向后遍历,直到遍历到一个标记为0或没有标记的横坐标时停止,将停止时的横坐标的前一个横坐标,作为峰值聚集区间的右端点,得到一个峰值聚集区间,并继续向后遍历直到下一个标记为1的横坐标再开始判断;
若峰值点的数量小于聚集阈值,将该横坐标记为待选端点,记录该横坐标对应的峰值点的数量,继续向后遍历,若遍历到的下一个横坐标的标记为0或没有标记,删除记录的待选端点及记录的峰值点的数量,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若遍历到的下一个横坐标的标记为1,统计当前遍历到的横坐标对应的峰值点的数量,并与已经记录的峰值点的数量获取和值,若和值大于或等于聚集阈值,将待选端点作为一个峰值聚集区间的左端点,继续向后遍历,直到遍历到一个标记为0或没有标记的横坐标时停止,将停止时的横坐标的前一个横坐标,作为峰值聚集区间的右端点,得到一个峰值聚集区间;若和值仍小于聚集阈值,继续遍历,若下一个横坐标没有标记或标记为0,删除记录的待选端点及记录的峰值点的数量,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若下一个横坐标的标记为1,继续统计对应的峰值点的数量,并与和值再相加得到和值,对和值进行判断,以此类推得到峰值聚集区间;
对横坐标逐个遍历,最终得到若干峰值聚集区间。
4.根据权利要求3所述的一种实时数据采集存储方法,其特征在于,所述对每个峰值点的横坐标进行标记,包括的具体方法为:
对峰值点序列中相邻峰值点计算对应时间之间的差值绝对值,得到的差值绝对值记为相邻峰值点的时间差异;将所有时间差异从小到大升序排列,得到时间差异序列,对时间差异序列通过最大类间方差法进行分割,得到两个类别,将类别中时间差异的均值最小的类别作为峰值聚集类别,将类别中时间差异的均值最大的类别作为峰值离散类别;
对于峰值聚集类别,将峰值聚集类别中所有时间差异对应的峰值点的横坐标标记为1;对于峰值离散类别,将峰值离散类别中所有时间差异对应的峰值点的横坐标标记为0,若横坐标已经标记为1,不再对其进行0的标记;对所有峰值点的横坐标均进行0或1的标记。
5.根据权利要求3所述的一种实时数据采集存储方法,其特征在于,所述得到若干分段点及其置信度,包括的具体方法为:
对于任意一个峰值聚集区间,该峰值聚集区间中多个横坐标分别对应一个或多个峰值点,记为该峰值聚集区间中的峰值点,该峰值聚集区间中第个峰值点的优选程度/>的计算方法为:
其中,表示该峰值聚集区间中第/>个峰值点与区间内其他峰值点的横坐标的差值绝对值的均值,/>表示该峰值聚集区间中峰值点的数量,/>表示该峰值聚集区间中第/>个峰值点的纵坐标,/>表示该峰值聚集区间中除第/>个峰值点之外第/>个峰值点的纵坐标,表示求绝对值,/>表示避免指数函数数值过小的超参数,/>表示以自然常数为底的指数函数;
根据峰值聚集区间内每个峰值点的优选程度,获取若干分段点及置信度。
6.根据权利要求5所述的一种实时数据采集存储方法,其特征在于,所述若干分段点及置信度,具体的获取方法为:
对于任意一个峰值聚集区间,获取该峰值聚集区间中每个峰值点的优选程度,将优选程度最大的峰值点的横坐标作为一个分段点,并将优选程度的最大值,作为分段点的置信度;将时间轴上第一个时间点及最后一个时间点作为分段点,置信度设置为1。
7.根据权利要求2所述的一种实时数据采集存储方法,其特征在于,所述得到每个时间段的若干类簇,包括的具体方法为:
对于任意一个时间段,获取横坐标在该时间段中的所有吞吐量数据点,对所有吞吐量数据点进行DBSCAN聚类,距离度量采用吞吐量数据点之间的欧式距离,得到若干类簇。
8.根据权利要求1所述的一种实时数据采集存储方法,其特征在于,所述对不同类簇采用不同的压缩方式进行压缩,包括的具体方法为:
预设一个损失阈值,若任意一个类簇的压缩损失评价大于或等于损失阈值,采用无损压缩方式;若任意一个类簇的压缩损失评价小于损失阈值,采用有损压缩方式,对该类簇中所有网络吞吐量数据获取均值,通过均值对该类簇中各网络吞吐量数据进行替换;
对每个类簇的压缩损失评价都进行判断,确定每个类簇的压缩方式,并对有损压缩的类簇进行替换,完成替换后再对所有类簇的所有网络吞吐量数据通过霍夫曼编码进行压缩。
9.一种实时数据采集存储系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8任意一项所述一种实时数据采集存储方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311786282.8A CN117459418B (zh) | 2023-12-25 | 2023-12-25 | 一种实时数据采集存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311786282.8A CN117459418B (zh) | 2023-12-25 | 2023-12-25 | 一种实时数据采集存储方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117459418A CN117459418A (zh) | 2024-01-26 |
CN117459418B true CN117459418B (zh) | 2024-03-08 |
Family
ID=89593277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311786282.8A Active CN117459418B (zh) | 2023-12-25 | 2023-12-25 | 一种实时数据采集存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117459418B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688410B (zh) * | 2024-02-02 | 2024-05-24 | 山东同利新材料有限公司 | 一种对马来酸二乙酯生产数据智能管理方法 |
CN117851844A (zh) * | 2024-03-07 | 2024-04-09 | 西安乐驰科技有限公司 | 用于天气测量系统的数据高效存储方法 |
CN117933571B (zh) * | 2024-03-20 | 2024-05-31 | 临沂恒泰新能源有限公司 | 一种垃圾发电数据综合管理系统及存储方法 |
CN117997352B (zh) * | 2024-04-07 | 2024-05-31 | 中国医学科学院阜外医院 | 一种麻醉机监测数据优化存储方法 |
CN118211092B (zh) * | 2024-05-21 | 2024-07-23 | 西安高商智能科技有限责任公司 | 一种电机控制器数据存储方法及系统 |
CN118408606B (zh) * | 2024-07-03 | 2024-08-27 | 浙江大学山东(临沂)现代农业研究院 | 一种农业种植环境数据采集方法及系统 |
CN118467483B (zh) * | 2024-07-12 | 2024-10-01 | 河北工业职业技术学院 | 一种基于大数据分析的信息化农业数据存储方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8965786B1 (en) * | 2008-04-18 | 2015-02-24 | Google Inc. | User-based ad ranking |
CN107103359A (zh) * | 2017-05-22 | 2017-08-29 | 东南大学 | 基于卷积神经网络的大服务系统在线可靠性预测方法 |
CN109918417A (zh) * | 2019-02-28 | 2019-06-21 | 西安交通大学 | 基于小波变换的时序数据自适应分段、降维与表征方法及应用 |
CN111447113A (zh) * | 2020-03-25 | 2020-07-24 | 中国建设银行股份有限公司 | 一种系统监控方法和装置 |
CN114627125A (zh) * | 2022-05-17 | 2022-06-14 | 南通剑烽机械有限公司 | 一种基于光学手段的不锈钢压片机表面质量评估方法 |
CN116541167A (zh) * | 2023-04-28 | 2023-08-04 | 中国建设银行股份有限公司 | 系统流量控制方法、装置、电子设备及计算机可读介质 |
CN117093461A (zh) * | 2023-08-31 | 2023-11-21 | 济南浪潮数据技术有限公司 | 一种时延检测分析的方法、系统、设备和存储介质 |
CN117113117A (zh) * | 2023-09-11 | 2023-11-24 | 电子科技大学 | 一种自适应尺度网格和扩散强度的密度峰值聚类方法 |
-
2023
- 2023-12-25 CN CN202311786282.8A patent/CN117459418B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8965786B1 (en) * | 2008-04-18 | 2015-02-24 | Google Inc. | User-based ad ranking |
CN107103359A (zh) * | 2017-05-22 | 2017-08-29 | 东南大学 | 基于卷积神经网络的大服务系统在线可靠性预测方法 |
CN109918417A (zh) * | 2019-02-28 | 2019-06-21 | 西安交通大学 | 基于小波变换的时序数据自适应分段、降维与表征方法及应用 |
CN111447113A (zh) * | 2020-03-25 | 2020-07-24 | 中国建设银行股份有限公司 | 一种系统监控方法和装置 |
CN114627125A (zh) * | 2022-05-17 | 2022-06-14 | 南通剑烽机械有限公司 | 一种基于光学手段的不锈钢压片机表面质量评估方法 |
CN116541167A (zh) * | 2023-04-28 | 2023-08-04 | 中国建设银行股份有限公司 | 系统流量控制方法、装置、电子设备及计算机可读介质 |
CN117093461A (zh) * | 2023-08-31 | 2023-11-21 | 济南浪潮数据技术有限公司 | 一种时延检测分析的方法、系统、设备和存储介质 |
CN117113117A (zh) * | 2023-09-11 | 2023-11-24 | 电子科技大学 | 一种自适应尺度网格和扩散强度的密度峰值聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117459418A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117459418B (zh) | 一种实时数据采集存储方法及系统 | |
CN113780395A (zh) | 海量高维ais轨迹数据聚类方法 | |
CN109859281B (zh) | 一种稀疏神经网络的压缩编码方法 | |
CN109379598B (zh) | 一种基于fpga实现的图像无损压缩方法 | |
CN115329910B (zh) | 一种企业生产排放数据智能处理方法 | |
CN111866518B (zh) | 基于特征提取的自适应三维点云压缩方法 | |
CN115359807B (zh) | 一种用于城市噪声污染的噪声在线监测系统 | |
CN116166978B (zh) | 一种用于供应链管理的物流数据压缩存储方法 | |
CN117313222B (zh) | 基于bim技术的建筑施工数据处理方法 | |
CN117274820B (zh) | 一种测绘地理信息地图数据采集方法及系统 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN114640356A (zh) | 基于神经网络的大数据压缩方法、系统及存储介质 | |
CN113255910A (zh) | 卷积神经网络的剪枝方法、装置、电子设备和存储介质 | |
CN117278054B (zh) | 一种智慧电网监控数据存储方法及系统 | |
CN117376430B (zh) | 基于dcs的工业数据快速传输方法及系统 | |
CN116402117A (zh) | 图像分类卷积神经网络剪枝方法及芯粒器件数据分配方法 | |
CN116760908A (zh) | 基于数字孪生的农业信息优化管理方法及系统 | |
CN110263917B (zh) | 一种神经网络压缩方法及装置 | |
CN110704408A (zh) | 一种基于聚类的时序数据压缩方法及系统 | |
CN118282413A (zh) | 一种用于超高层钢结构施工过程的监测数据管理方法 | |
CN116933734B (zh) | 盾构机刀具故障智能诊断方法 | |
CN111316326A (zh) | 图像编码方法、设备及计算机可读存储介质 | |
CN116505953A (zh) | 基于bim和gis的海量地图数据优化压缩处理方法 | |
CN115567609B (zh) | 一种锅炉用物联网通信方法 | |
CN110609832B (zh) | 一种面向流式数据的非重复采样方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |