CN111291770A - 一种参数配置方法及装置 - Google Patents
一种参数配置方法及装置 Download PDFInfo
- Publication number
- CN111291770A CN111291770A CN201811486470.8A CN201811486470A CN111291770A CN 111291770 A CN111291770 A CN 111291770A CN 201811486470 A CN201811486470 A CN 201811486470A CN 111291770 A CN111291770 A CN 111291770A
- Authority
- CN
- China
- Prior art keywords
- data
- deduplication
- predicted
- preset
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000013145 classification model Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims description 125
- 230000005540 biological transmission Effects 0.000 claims description 72
- 238000007906 compression Methods 0.000 claims description 33
- 230000006835 compression Effects 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 9
- 238000007635 classification algorithm Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 abstract description 29
- 230000008569 process Effects 0.000 abstract description 13
- 230000006870 function Effects 0.000 description 35
- 238000005457 optimization Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000000903 blocking effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000013144 data compression Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000004580 weight loss Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种参数配置方法及装置,涉及通信领域,解决了如何根据当前广域网的带宽以及数据流的特征自动调整去重等级以及处理数据流的问题。具体方案为:在获取到待预测数据之后,首先获取待预测数据的分类特征,然后,根据待预测数据的分类特征和分类模型,从N个预设去重等级中确定待预测数据的去重等级,从而将待预测数据的去重等级对应的数据去重参数配置为所述待预测数据对应的数据流的数据去重参数。其中,分类模型是根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定的,N为大于0的整数,M为大于0的整数。本申请用于对数据流进行数据去重的过程。
Description
技术领域
本申请实施例涉及通信领域,尤其涉及一种参数配置方法及装置。
背景技术
目前,为了减少广域网(wide area network,WAN)的数据流量,提高带宽利用率和数据传输速率,可以在广域网边缘部署广域网优化控制器(WAN optimizationcontroller,WOC),由WOC采用数据优化方法对数据流进行数据优化处理。例如,WOC可以利用不同的预设去重等级对应的数据去重参数对数据流进行数据去重处理。
在现有技术中,若数据流包括较多的重复数据,随着配置的预设去重等级越高,对数据流进行数据去重处理时检测到的重复数据越多,从而需要传输的数据量越少,能够有效地提高带宽利用率和数据传输速率。但是,随着配置的预设去重等级越高,对数据流进行数据去重处理时的复杂度也越高,会导致数据流的数据处理速率越低。若数据流包括的重复数据较少,则无论使用何种预设去重等级对应的数据去重参数对数据流进行数据去重处理,可以检测到的重复数据都很少,需要传输的数据量仍然很多,无法达到较高的去重率,以及带宽利用率和数据传输速率也未显著提高。反而,由于利用预设去重等级对应的数据去重参数对数据流进行数据去重处理,降低了数据流的数据处理速率和数据传输速率。或者,在广域网的带宽比较充足,无需利用去重处理可以快速地传输数据流的情况下,由于配置了预设去重等级,对数据流进行数据去重处理,反而降低了数据流的数据处理速率和数据传输速率。然而,用户甚至开发者都无法判断针对当前的广域网的带宽以及数据流的情况配置哪种预设去重等级比较合适。因此,如何主动识别当前数据流的特征,并根据当前广域网的带宽以及数据流的特征自动调整去重等级以及处理数据流是一个亟待解决的问题。
发明内容
本申请实施例提供一种参数配置方法及装置,解决了如何根据当前广域网的带宽以及数据流的特征自动调整去重等级以及处理数据流的问题。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供了一种参数配置方法,该方法可应用于参数配置装置,或者该方法可应用于可以支持参数配置装置实现该方法的通信装置,例如该通信装置包括芯片系统,方法包括:在获取到待预测数据之后,首先,获取待预测数据的分类特征,根据待预测数据的分类特征和分类模型,从N个预设去重等级中确定待预测数据的去重等级,然后,将待预测数据的去重等级对应的数据去重参数配置为所述待预测数据对应的数据流的数据去重参数,以便于根据待预测数据的去重等级对应的数据去重参数对所述数据流进行数据去重处理。分类模型是根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定的,M为大于0的整数,N为大于0的整数。
本申请实施例提供的参数配置方法,能够主动识别当前数据流的特征,自动调整去重等级,进而调整去重等级对应的数据去重参数,免去用户分析和配置的过程,以使数据去重的性能和功能达到最佳平衡,有效地提高带宽利用率和数据传输速率。
示例的,N=5,N个预设去重等级包括五个预设去重等级,其中,第一预设去重等级为无需去重等级,第二预设去重等级为低去重等级,第三预设去重等级为中去重等级,第四预设去重等级为中高去重等级,第五预设去重等级为高去重等级。
结合第一方面,在一种可能的实现方式中,在获取待预测数据之前,需要先生成分类模型。生成分类模型的方法可以包括以下步骤:先采集M个样本,然后,获取M个样本中每个样本的分类特征,以及根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定M个样本中每个样本的去重等级,再根据M个样本中每个样本的分类特征和M个样本中每个样本的去重等级训练分类算法,得到分类模型。其中,M个样本可以是从iperf打流、网页浏览、http网页文件下载、不同大小和格式的文件传输、视频会议、游戏娱乐等场景,搜集到的不同类别的样本。从而,使用较多类型的样本训练生成分类模型,是分类模型的预测率更加精确。
结合上述可能的实现方式,在另一种可能的实现方式中,根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定M个样本中每个样本的去重等级,包括:根据第i个样本、第i个样本对应的网络接口带宽和第j个预设去重等级对应的数据去重参数,确定第ji加速数据传输速率,得到第i个样本对应的N个加速数据传输速率,1≤i≤M,1≤j≤N;将第i个样本对应的N个加速传输处理速率中最大的加速数据传输速率对应的预设去重等级确定为第i个样本的去重等级。
可选的,根据第i个样本、第i个样本对应的网络接口带宽和第j个预设去重等级对应的数据去重参数,确定第ji加速数据传输速率,包括:根据第j个预设去重等级对应的数据去重参数对第i个样本进行数据去重处理,得到第ji去重率和第ji数据处理速率;根据第i个样本对应的网络接口带宽、第ji去重率和第ji数据处理速率,确定第ji数据传输速率;将第ji数据处理速率和第ji数据传输速率中最小的值确定为第ji加速数据传输速率。从而,能够根据当前广域网的带宽以及数据流的特征自动调整去重等级,进而调整去重等级对应的数据去重参数,免去用户分析和配置的过程,以使数据去重的性能和功能达到最佳平衡,有效地提高带宽利用率和数据传输速率。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,分类特征包括待预测数据的以下参数中的至少一项:单位时长内平均数据量、预设时长内去重率、预设去重等级间去重率差值、预设时长内去重率峰值、基础块base chunk大小方差值、超级块super chunk大小方差值、基础块大小平均值、超级块大小平均值、锚点块anchor chunk间的平均间隔、锚点块间的间隔方差值和压缩时的压缩率。
示例的,单位时长内平均数据量为用待预测数据除以预设时长得到的,预设时长为第一预设时长,待预测数据为在第一预设时长内获取到的数据;
预设时长内去重率为用去重后待预测数据除以待预测数据得到的,去重后待预测数据为根据预设去重等级对应的数据去重参数对待预测数据进行去重处理后得到的;
预设去重等级间去重率差值为根据两个预设时长内去重率之差确定的;
预设时长内去重率峰值为根据N个预设去重等级对应的数据去重参数对待预测数据进行去重处理后确定的N个预设时长内去重率的最大值;
基础块大小方差值和基础块大小平均值分别根据待预测数据包括的基础块大小确定的;
超级块大小方差值和超级块大小平均值分别根据待预测数据包括的超级块大小确定的;
锚点块间的平均间隔和锚点块间的间隔方差值分别根据待预测数据包括的锚点块间的间隔确定的;
压缩时的压缩率为根据待预测数据和压缩算法确定的。
第二方面,本申请实施例还提供了一种参数配置装置,用于实现上述第一方面描述的方法。参数配置装置为网络设备或支持网络设备实现该第一方面描述的方法的通信装置,例如该通信装置包括芯片系统。例如,该参数配置装置包括:接收单元和处理单元。所述接收单元,用于获取待预测数据;所述处理单元,用于获取待预测数据的分类特征;处理单元,还用于根据待预测数据的分类特征和分类模型,从N个预设去重等级中确定待预测数据的去重等级,以及将待预测数据的去重等级对应的数据去重参数配置为所述待预测数据对应的数据流的数据去重参数,其中,分类模型是根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定的,N为大于0的整数,M为大于0的整数。
可选地,处理单元执行具体功能的方式可参考第一方面的方法中相应的描述,这里不再赘述。
可选地,该处理单元还可以根据所述数据流的数据去重参数处理所述数据流,该参数配置装置还可以包括发送单元,用于发送去重后的数据流。
需要说明的是,上述第二方面的功能模块可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。例如,收发器,用于完成接收单元和发送单元的功能,处理器,用于完成处理单元的功能,存储器,用于存储处理器处理本申请实施例的方法的程序指令。处理器、收发器和存储器通过总线连接并完成相互间的通信。具体的,可以参考第一方面所述的方法中的参数配置装置的行为的功能。
第三方面,本申请实施例还提供了一种参数配置装置,用于实现上述第一方面描述的方法。所述参数配置装置为网络设备或支持网络设备实现该第一方面描述的方法的通信装置,例如该通信装置包括芯片系统。例如所述参数配置装置包括处理器,用于实现上述第一方面描述的方法的功能。所述参数配置装置还可以包括存储器,用于存储程序指令和数据。所述存储器与所述处理器耦合,所述处理器可以调用并执行所述存储器中存储的程序指令,用于实现上述第一方面描述的方法中的功能。所述参数配置装置还可以包括通信接口,所述通信接口用于该通信装置与其它设备进行通信。示例性地,若所述参数配置装置为网络设备,该其它设备为终端设备。
第四方面,本申请实施例还提供了一种计算机可读存储介质,包括:计算机软件指令;当计算机软件指令在参数配置装置中运行时,使得参数配置装置执行上述第一方面所述的方法。
第五方面,本申请实施例还提供了一种包含指令的计算机程序产品,当计算机程序产品在参数配置装置中运行时,使得参数配置装置执行上述第一方面所述的方法。
第六方面,本申请实施例提供了一种芯片系统,该芯片系统包括处理器,还可以包括存储器,用于实现上述方法中参数配置装置的功能。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
另外,上述任意方面的设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果,此处不再赘述。
本申请实施例中,参数配置装置的名称对设备本身不构成限定,在实际实现中,参数配置装置可以以其他名称出现。只要该设备的功能和本申请实施例类似,仍属于本申请权利要求及其等同技术的范围之内。
附图说明
图1为本申请实施例提供的一种广域网的结构示例图;
图2为本申请实施例提供的一种块平均尺寸对去重率的影响变化示意图;
图3为本申请实施例提供的一种参数配置方法流程图;
图4为本申请实施例提供的另一种参数配置方法流程图;
图5为本申请实施例提供的又一种参数配置方法流程图;
图6为本申请实施例提供的一种参数配置方法的框架示例图;
图7为本申请实施例提供的一种参数配置装置的组成示例图;
图8为本申请实施例提供的一种通信装置的组成示例图。
具体实施方式
本申请说明书和权利要求书中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于限定特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍:
广域网是连接不同地区的局域网或城域网的远程网。由于广域网包括了大量的路由器,需要传输大量的数据,所以广域网中普遍存在丢包和延迟的现象。为了解决上述问题,在现有技术中,可以在广域网边缘部署WOC。WOC可以以硬件设备的形式部署在广域网边缘,也可以以软件的形式部署在广域网的边缘路由器或网关上,本申请实施例对此不作限定。示例的,图1为本申请实施例提供的一种广域网的结构示例图。如图1所示,在广域网的边缘网关上部署有WOC。边缘网关用于连接数据中心或远程办公等局域网。示例的,WOC可以采用数据优化方法来解决上述问题。
数据优化方法可以对数据流进行数据去重和数据压缩,通过减少广域网中传输的数据的总量,来节省广域网的带宽,并且通过减少数据传输时间,来提高数据传输速率以及提升用户体验。
其中,数据压缩是指在编码端将原数据中重复的内容用一个能识别的、较简短的标签替代,然后在解码端根据接收到的数据恢复原数据,从而减少编码端与解码端之间传输的数据量,进而减少网络数据流量,增加数据传输速率。数据压缩不针对任何网络协议,只对报文数据进行压缩的优化。例如gzip压缩。数据压缩通常用窗口(window),来指示进行数据压缩处理的数据范围。在传统的压缩算法中,窗口一般是指一个文件,或者网络上某一时段内收到的数据,通常在千字节(kilobyte,KB)的数量级,而在KB级别的数据内,内容重复的概率不是太大,导致压缩率不会太高。为了提升数据压缩的效果,可以使用数据去重技术。
示例的,可以在接收端和发送端的WOC上均部署缓存(cache),数据在链路上传输时可以将数据划分为块(chunk),并将块存入缓存,这样接收端和发送端的WOC均保存了相同的块。块还可以称为切片或数据块。由于数据是以块为单位被传输,当接收端已经存储了某个块时,可以以一个索引代替该块在广域网上传输。例如,发送端以块为单位查找重复数据,如果在发送某个块之前,检测到之前已经发送过相同的块,则将该块用指针代替。由于索引的大小远小于块的大小,仅传输索引可以极大减少广域网的数据流量。
在现有技术中,可以采用固定分块算法或可变分块算法对数据进行分块。固定分块算法是将数据划分为固定的大小的块,然后传输每个块。固定分块算法的优点是实现比较简单、分块的速度很快。固定分块技术的缺点是假如数据稍微被修改,就会导致后续的块内容不一致,无法达到消除冗余数据的效果。可变分块算法可以是rabin32。例如,根据预先配置的基础块大小平均值(average_base_chunk_size)将原数据(如60KB)划分为若干大小不等的基础块(base chunk)。average_base_chunk_size用于控制基础块寻找分段点的难度,进而控制基础块包括的平均字节数。average_base_chunk_size可以是256B或512B或1024B。基础块划分完成后,根据每个基础块中的所有字节计算得到一个签名(signature)。签名的长度可以是8字节。同时根据预先配置的锚点块(anchor chunk)间的平均间隔(average_anchor_chunk_distance)和可变分块算法在基础块里每隔若干(不定)个基础块选定一个基础块为锚点块。average_anchor_chunk_distance和可变分块算法用于保证平均意义上两个相隔的锚点块之间相隔的基础块个数。并且,根据超级块(super chunk)大小平均值(average_super_chunk_size)和可变分块算法在基础块里每隔若干个(不定)连续的基础块划定为一个超级块。基础块也可以称为部分(section)。average_super_chunk_size和可变分块算法用于控制平均意义上每个超级块中包含多少个连续的基础块。通过上述划分处理及一些其他原则,原数据最终被划分为如下块:s个基础块,其中一些基础块被标记为锚点块,同时所有的基础块被划分为若干个大小不等的超级块。对于每个基础块包括的数据需要计算一个签名,对于每个超级块计算一个超级签名(super signature)。使用签名缓存(signature cache)(以sig page为单位管理)和数据缓存(data cache)(以datasector和super chunk page管理)分别保存数据的签名和原始数据。然后传输基础块。
但是,无论使用何种变长分块算法(例如,rabin、AE等)对数据进行数据去重处理,均存在若干需要管理员配置的数据去重参数。如表1所示,rabin hash变长分块算法需要配置的数据去重参数。
表1
这些数据去重参数对数据去重的性能和功能产生非常大的影响。可理解的,功能通常是指产品的用途,产品的用途越广表示功能越多。性能通常是指产品的质量,性能越高表示质量越好。在本申请实施例中,所谓性能可以是指对数据去重的速度(数据处理速率),数据处理速率越快,性能越好。示例的,如图2所示,为块平均尺寸对去重率的影响变化。块平均尺寸可以是指基础块大小平均值。从图2中可以看出,窗口的尺寸越小,且块平均尺寸越小,重复字节数越多,重复比例越大;窗口的尺寸越大,且块平均尺寸越打,重复字节数越少,重复比例越小。
上述表1中的数据去重参数的数值越小,表示预设去重等级越高。在WOC的中央处理器(central processing unit,CPU)的处理能力不变的前提下,随着预配置的预设去重等级越高,对数据进行数据去重的去重率越高,数据去重的功能越强,性能消耗会越多,每秒处理的数据量变少,即对数据流进行数据去重处理时的数据处理速率会逐渐降低;反之,随着预配置的预设去重等级越低,对数据进行数据去重的去重率越低,数据去重的功能越差,性能消耗会越少,每秒处理的数据量变多,即对数据流进行数据去重处理时的数据处理速率会逐渐提高。
但是,在实际网络环境中,数据去重效果与广域网上传输的数据有很大关系。若数据流包括较多的重复数据,随着配置的预设去重等级越高,对数据流进行数据去重处理时检测到的重复数据越多,去重率会越高,从而需要传输的数据量越少,能够有效地提高带宽利用率和数据传输速率。例如,在文件服务器中,当某一文件被反复传输至不同用户时,数据去重可以极大的提高广域网的带宽利用率和数据传输速率。但是,随着配置的预设去重等级越高,对数据流进行数据去重处理时的复杂度也越高,会导致数据流的数据处理速率越低,增加数据传输的时延。若数据流包括的重复数据较少,则无论使用何种预设去重等级对应的数据去重参数对数据流进行数据去重处理,对数据流进行数据去重处理时可以检测到的重复数据很少,需要传输的数据量仍然很多,无法达到较高的去重率,以及带宽利用率和数据传输速率也未显著提高。反而,由于利用预设去重等级对应的数据去重参数对数据流进行数据去重处理,降低了数据流的数据处理速率和数据传输速率。例如,视频服务器提供的视频数据,由于不同用户观看大量不同的视频,视频数据流包括的重复数据会较少。或者,在广域网的带宽比较充足,无需利用去重处理可以快速地传输数据流的情况下,由于利用预设去重等级对应的数据去重参数对数据流进行数据去重处理,反而降低了数据流的数据处理速率和数据传输速率。在这种情况下,数据流传输的瓶颈转移到了的数据去重处理的能力上。因此,如何配置预设去重等级对应的数据去重参数直接影响到数据去重的性能和功能间的平衡。示例的,当数据流包括较多的重复数据时,希望数据去重的功能更强,去重率更高,在这种情况下能够最大化的提升带宽利用率。当数据流包括的重复数据较少时,希望数据去重的性能更强,即对数据流进行数据去重处理的数据处理速度更快,对于局部大量重复数据有去重效果即可,避免数据流传输的瓶颈在数据去重处理的能力上。
在现有技术中,本领域技术人员对数据去重算法进行了大量的优化和研究。例如,用户可以配置低预设去重等级、中预设去重等级或高预设去重等级对数据流进行数据去重处理。但是,很多情况下用户甚至开发者都无法判断针对当前的广域网的带宽以及数据流的特征配置哪种预设去重等级比较合适。因此,如何主动识别当前数据流的特征,根据当前广域网的带宽以及数据流的特征自动调整去重等级,并基于调整后的去重等级处理数据流是一个亟待解决的问题。
本申请实施例提供一种参数配置方法,其基本原理是:在获取到待预测数据之后,首先,获取待预测数据的分类特征,根据待预测数据的分类特征和分类模型,从N个预设去重等级中确定待预测数据的去重等级,然后,将待预测数据的去重等级对应的数据去重参数配置为所述待预测数据对应的数据流的数据去重参数,以便于根据待预测数据的去重等级对应的数据去重参数对所述数据流进行数据去重处理。分类模型是根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定的,M为大于0的整数,N为大于0的整数。本申请实施例提供的参数配置方法,能够主动识别当前数据流的特征,自动调整去重等级,进而调整去重等级对应的数据去重参数,免去用户分析和配置的过程,以使数据去重的性能和功能达到最佳平衡,有效地提高带宽利用率和数据传输速率。
在本申请实施例中,假设N=5,则预设去重等级为5个,其中,第一预设去重等级为无需去重等级,第二预设去重等级为低去重等级,第三预设去重等级为中去重等级,第四预设去重等级为中高去重等级,第五预设去重等级为高去重等级。示例的,对应上述5个预设去重等级,除了无需去重等级无需配置数据去重参数之外,对于其他4个预设去重等级,表1中所示的数据去重参数可以进行如下配置。
对于低去重等级,average_base_chunk_size可以配置为4096,min_base_chunk_size可以配置为512,average_anchor_chunk_distance可以配置为32,average_super_chunk_size可以配置为256*4096,max_gap_between_anchor_chunks可以配置为512,min_section_num_super_chunks可以配置为64。
对于中去重等级,average_base_chunk_size可以配置为1024,min_base_chunk_size可以配置为128,average_anchor_chunk_distance可以配置为16,average_super_chunk_size可以配置为128*1024,max_gap_between_anchor_chunks可以配置为256,min_section_num_super_chunks可以配置为16。
对于中高去重等级,average_base_chunk_size可以配置为256,min_base_chunk_size可以配置为32,average_anchor_chunk_distance可以配置为8,average_super_chunk_size可以配置为64*256,max_gap_between_anchor_chunks可以配置为16,min_section_num_super_chunks可以配置为4。
对于高去重等级,average_base_chunk_size可以配置为128,min_base_chunk_size可以配置为16,average_anchor_chunk_distance可以配置为4,average_super_chunk_size可以配置为32*128,max_gap_between_anchor_chunks可以配置为8,min_section_num_super_chunks可以配置为2。
下面将结合附图对本申请实施例的实施方式进行详细描述。
图3为本申请实施例提供的一种参数配置方法流程图,如图3所示,该方法可以包括:
S301、获取待预测数据。
在接收到数据流之后,可以以当前时刻为起始时刻,获取第一预设时长内的该数据流的数据,将获取到的第一预设时长内的数据作为待预测数据。第一预设时长可以是10分钟或30分钟,用户可以根据实际网络环境自行配置第一预设时长,本申请实施例对此不作限定。
S302、获取待预测数据的分类特征。
示例的,分类特征可以包括待预测数据的以下参数中的至少一项:单位时长内平均数据量、预设时长内去重率、预设去重等级间去重率差值、预设时长内去重率峰值、基础块大小方差值、超级块大小方差值、基础块大小平均值、超级块大小平均值、锚点块间的平均间隔、锚点块间的间隔方差值和压缩时的压缩率。
其中,单位时长内平均数据量为用待预测数据除以预设时长得到的。在本申请实施例中,预设时长可以为第一预设时长。待预测数据为在第一预设时长内获取到的数据。
预设时长内去重率为用去重后待预测数据除以待预测数据得到的。去重后待预测数据为根据预设去重等级对应的数据去重参数对待预测数据进行去重处理后得到的。在本申请实施例中,假设根据N个预设去重等级对应的数据去重参数分别对待预测数据进行去重处理,可以得到N个去重后待预测数据,分别用N个去重后待预测数据除以待预测数据得到N个预设时长内去重率。
预设去重等级间去重率差值为根据两个预设时长内去重率之差确定的。在本申请实施例中,可以获取N个预设时长内去重率中任意两个预设时长内去重率之差。
预设时长内去重率峰值为根据N个预设去重等级对应的数据去重参数分别对待预测数据进行去重处理后确定的N个预设时长内去重率的最大值。
基础块大小方差值和基础块大小平均值分别根据待预测数据包括的基础块大小确定的。在本申请实施例中,假设待预测数据包括的X个基础块,可以根据X个基础块的基础块大小之和除以X得到基础块大小平均值,根据X个基础块的基础块大小确定基础块大小方差值。
超级块大小方差值和超级块大小平均值分别根据待预测数据包括的超级块大小确定的。在本申请实施例中,假设待预测数据包括的Y个超级块,可以根据Y个超级块的超级块大小之和除以Y得到超级块大小平均值,根据Y个超级块的超级块大小确定超级块大小方差值。
锚点块间的平均间隔和锚点块间的间隔方差值分别根据待预测数据包括的锚点块间的间隔确定的。在本申请实施例中,假设待预测数据包括的Z个锚点块,可以根据Z个锚点块间的间隔之和除以Z-1得到锚点块间的平均间隔,根据Z个锚点块间的间隔确定锚点块间的间隔方差值。
压缩时的压缩率为根据待预测数据和压缩算法确定的。在本申请实施例中,根据压缩算法对待预测数据进行压缩处理得到压缩后待预测数据,用压缩后待预测数据除以待预测数据得到压缩率。
S303、根据待预测数据的分类特征和分类模型,从N个预设去重等级中确定待预测数据的去重等级。
将待预测数据的分类特征输入至分类模型,分类模型根据待预测数据的分类特征对待预测数据进行分类预测,从N个预设去重等级中确定待预测数据的去重等级。分类模型是根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定的,其中,N为大于0的整数,M为大于0的整数。M个样本中每个样本分别对应的网络接口带宽中可以完全相同,也可以部分相同,本申请实施例对此不作限定。
S304、将待预测数据的去重等级对应的数据去重参数配置为所述待预测数据对应的数据流的数据去重参数。
在接收到待预测数据对应的数据流后,可以根据待预测数据的去重等级对应的数据去重参数对待预测数据对应的数据流进行数据去重处理。
本申请实施例提供的参数配置方法,能够主动识别当前数据流的特征,自动调整去重等级,进而调整去重等级对应的数据去重参数,免去用户分析和配置的过程,以使数据去重的性能和功能达到最佳平衡,有效地提高带宽利用率和数据传输速率。
需要说明的是,在获取待预测数据,即S301之前,需要先生成分类模型,以便于根据分类模型确定待预测数据的去重等级。如图4所示,本申请实施例还可以包括以下步骤。
S401、采集M个样本。
示例的,可以从iperf打流、网页浏览、http网页文件下载、不同大小和格式的文件传输、视频会议、游戏娱乐等场景,搜集不同类别的样本。
所述样本是指数据流样本。
S402、获取M个样本中每个样本的分类特征。
示例的,分类特征可以包括第i个样本的以下参数中的至少一项:单位时长内平均数据量、预设时长内去重率、预设去重等级间去重率差值、预设时长内去重率峰值、基础块大小方差值、超级块大小方差值、基础块大小平均值、超级块大小平均值、锚点块间的平均间隔、锚点块间的间隔方差值和压缩时的压缩率。
其中,单位时长内平均数据量为用第i个样本除以预设时长得到的。在本申请实施例中,预设时长可以为第二预设时长。第i个样本为在第二预设时长内获取到的数据。
预设时长内去重率为用去重后第i个样本除以第i个样本得到的。去重后第i个样本为根据预设去重等级对应的数据去重参数对第i个样本进行去重处理后得到的。在本申请实施例中,假设根据N个预设去重等级对应的数据去重参数分别对第i个样本进行去重处理,可以得到N个去重后第i个样本,分别用N个去重后第i个样本除以第i个样本得到N个预设时长内去重率。
预设去重等级间去重率差值为根据两个预设时长内去重率之差确定的。在本申请实施例中,可以获取N个预设时长内去重率中任意两个预设时长内去重率之差。
预设时长内去重率峰值为根据N个预设去重等级对应的数据去重参数分别对第i个样本进行去重处理后确定的N个预设时长内去重率的最大值。
基础块大小方差值和基础块大小平均值分别根据第i个样本包括的基础块大小确定的。在本申请实施例中,假设第i个样本包括的X个基础块,可以根据X个基础块的基础块大小之和除以X得到基础块大小平均值,根据X个基础块的基础块大小确定基础块大小方差值。
超级块大小方差值和超级块大小平均值分别根据第i个样本包括的超级块大小确定的。在本申请实施例中,假设第i个样本包括的Y个超级块,可以根据Y个超级块的超级块大小之和除以Y得到超级块大小平均值,根据Y个超级块的超级块大小确定超级块大小方差值。
锚点块间的平均间隔和锚点块间的间隔方差值分别根据第i个样本包括的锚点块间的间隔确定的。在本申请实施例中,假设第i个样本包括的Z个锚点块,可以根据Z个锚点块间的间隔之和除以Z-1得到锚点块间的平均间隔,根据Z个锚点块间的间隔确定锚点块间的间隔方差值。
压缩时的压缩率为根据第i个样本和压缩算法确定的。在本申请实施例中,根据压缩算法对第i个样本进行压缩处理得到压缩后第i个样本,用压缩后第i个样本除以第i个样本得到压缩率。
需要说明的是,在获取M个样本中每个样本的分类特征时所使用的预设时长可以是第二预设时长。第二预设时长大于第一预设时长。第二预设时长可以是2个小时以上。1≤i≤M。
S403、根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定M个样本中每个样本的去重等级。
需要说明的是,本申请实施例提供的参数配置方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,示例的,如S402和S403之间的前后顺序可以互换,即可先根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定M个样本中每个样本的去重等级,再获取M个样本中每个样本的分类特征,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
另外,可以通过静态配置预先为M个样本中每个样本配置去重等级。预配置的去重等级可以是中高去重等级。除了适合中高去重等级的样本外,其余样本均可以优化,重新配置更适合的去重等级。在训练样本中运用本申请实施例,能够在60%的用户使用场景下提升数据去重的性能。此外,为了去除某些不符合要求的样本,可以采用十字交叉的方法对样本进行训练,即依次用90%的样本进行训练,10%的样本用于检测分类结果的正确性,如此循环10次,选择分类结果最好的一组参数作为最终使用的分类模型。
S404、根据M个样本中每个样本的分类特征和M个样本中每个样本的去重等级训练分类算法,得到分类模型。
在训练分类模型中,能够提供一些标记(label)好的样本(监督式学习),所以分类模型适用于所有监督式学习的分类算法。例如,决策树、分类回归树、支持向量机(supportvector machine,SVM)等多种分类器可供选择。综合本申请的实际使用场景和特征提取的范围与属性,本申请实施例中可以选择支持向量机算法作为分类模型的分类算法。虽然支持向量机算法本身只支持二分类的场景,而在本申请的应用中分类结果有多类,所以需要对支持向量机算法进行一些简单的修改。例如演变为多分类SVM算法。本申请中借用了开源的LibSVM算法框架做模型训练和验证,支持向量机算法本身并不是本申请重点,这里不予详述。
下面以第i个样本和第j个预设去重等级为例对如何确定样本的去重等级进行说明。1≤i≤M,1≤j≤N。示例的,如图5所示,本申请实施例还可以包括以下详细步骤。
S501、根据第i个样本、第i个样本对应的网络接口带宽和第j个预设去重等级对应的数据去重参数,确定第ji加速数据传输速率,得到第i个样本对应的N个加速数据传输速率。
第ji加速数据传输速率可以理解为根据第j个预设去重等级对应的数据去重参数对第i个样本进行数据去重处理后得到去重后的第i个样本,在第i个样本对应的网络接口带宽下传输去重后的第i个样本时,用户实际感知到的传输第i个样本的数据传输速率。例如,假设i=1,j=2,第21加速数据传输速率可以理解为根据第2个预设去重等级对应的数据去重参数对第1个样本进行数据去重处理后得到去重后的第1个样本,在第1个样本对应的网络接口带宽下传输去重后的第1个样本时,用户实际感知到的传输第1个样本的数据传输速率。
可以根据N个预设去重等级对应的数据去重参数分别对第i个样本进行数据去重处理,最终便可以得到第i个样本对应的N个加速数据传输速率。
在一种可能的设计中,首先,可以根据第j个预设去重等级对应的数据去重参数对第i个样本进行数据去重处理,得到第ji去重率和第ji数据处理速率。可理解的,第ji去重率可以是根据第j个预设去重等级对应的数据去重参数对第i个样本进行数据去重处理得到去重后的第i个样本,用去重后的第i个样本除以第i个样本得到的。第ji去重率也可以称为第ji平均去重率。第ji数据处理速率可以是根据第j个预设去重等级对应的数据去重参数对第i个样本进行数据去重处理时的数据处理速率。
然后,根据第i个样本对应的网络接口带宽、第ji去重率和第ji数据处理速率,确定第ji数据传输速率。
示例的,假设第ji去重率可以为α,第ji数据处理速率可以为aMbps,第i个样本对应的网络接口带宽可以为bMbps,则可以得到第i个样本经过数据去重处理后的数据占据第i个样本对应的网络接口的资源理论上为a*(1-α)。此外,第ji数据传输速率用公式可以表示为
最后,将第ji数据处理速率和第ji数据传输速率中最小的值确定为第ji加速数据传输速率。
若确定第ji加速数据传输速率为第ji数据传输速率,可以表明第ji数据处理速率大于第ji数据传输速率,资源瓶颈出现在第i个样本对应的网络接口带宽。
若确定第ji加速数据传输速率为第ji数据处理速率,可以表明第ji数据处理速率小于第ji数据传输速率,第i个样本对应的网络接口带宽足够大,资源瓶颈出现在对第i个样本进行数据去重处理的处理能力上。
因此,在配置第j个预设去重等级对应的数据去重参数下去重率和数据处理速率一定时,其最后数据传输速率还与第i个样本对应的网络接口带宽有关,最终,用户感知的传输第i个样本的数据传输速率用公式可以表示为即若数据传输的瓶颈出现在第i个样本对应的网络接口带宽,用户感知的传输第i个样本的数据传输速率为若数据传输的瓶颈出现在对第i个样本进行数据去重处理的处理能力上,用户感知的传输第i个样本的数据传输速率为a。
S502、将第i个样本对应的N个加速传输处理速率中最大的加速数据传输速率对应的预设去重等级确定为第i个样本的去重等级。
举例如下,方案一:根据第j个预设去重等级对应的数据去重参数对第i个样本进行数据去重处理,得到第ji去重率和第ji数据处理速率。假设第ji去重率为60%,第ji数据处理速率为600Mbps。方案二:根据第k个预设去重等级对应的数据去重参数对第i个样本进行数据去重处理,得到第ki去重率和第ki数据处理速率。假设第ki去重率为40%,第ki数据处理速率为800Mbps。
示例的,假设第i个样本对应的网络接口带宽较小,第i个样本对应的网络接口带宽为120Mbps。在方案一中,根据第ji去重率和第ji数据处理速率可以得到第i个样本经过数据去重处理后的数据占据第i个样本对应的网络接口的资源理论上为a*(1-α)=600*(1-60%)=240Mbps。而第i个样本对应的网络接口带宽小于240Mbps,所以,数据传输的瓶颈在第i个样本对应的网络接口带宽,用户感知的传输第i个样本的数据传输速率为在方案二中,根据第ki去重率和第ki数据处理速率可以得到第i个样本经过数据去重处理后的数据占据第i个样本对应的网络接口的资源理论上为a*(1-α)=800*(1-40%)=480Mbps。而第i个样本对应的网络接口带宽小于480Mbps,所以,数据传输的瓶颈在第i个样本对应的网络接口带宽,用户感知的传输第i个样本的数据传输速率为因此,方案一为更优的选择,即将第j个预设去重等级对应的数据去重参数确定为对第i个样本进行数据去重处理所使用的参数。
示例的,假设第i个样本对应的网络接口带宽较大,第i个样本对应的网络接口带宽为480Mbps。在方案一中,根据第ji去重率和第ji数据处理速率可以得到第i个样本经过数据去重处理后的数据占据第i个样本对应的网络接口的资源理论上为a*(1-α)=600*(1-60%)=240Mbps。而第i个样本对应的网络接口带宽大于240Mbps,所以,数据传输的瓶颈在对第i个样本进行数据去重处理的处理能力上,用户感知的传输第i个样本的数据传输速率为600Mbps。在方案二中,根据第ki去重率和第ki数据处理速率可以得到第i个样本经过数据去重处理后的数据占据第i个样本对应的网络接口的资源理论上为a*(1-α)=800*(1-40%)=480Mbps。而第i个样本对应的网络接口带宽等于480Mbps,所以,数据传输的瓶颈在对第i个样本进行数据去重处理的处理能力上,用户感知的传输第i个样本的数据传输速率为600Mbps。因此,方案二为更优的选择,即将第k个预设去重等级对应的数据去重参数确定为对第i个样本进行数据去重处理所使用的参数。
如图6所示,为本申请实施例提供的一种参数配置方法的框架示例图。在训练阶段,首先样本集模块收集样本,将样本输入至第一特征提取模块,提取样本的分类特征和去重等级,将样本的分类特征和去重等级输入至训练模块,根据样本的分类特征和去重等级对分类算法进行训练得到分类模型。在分类阶段,将待预测数据输入至第二特征提取模块,提取待预测数据的分类特征,将待预测数据的分类特征输入至分类模型,得到待预测数据的去重等级。
上述本申请提供的实施例中,从参数配置装置的角度对本申请实施例提供的方法进行了介绍。可以理解的是,各个网元,例如参数配置装置为了实现上述本申请实施例提供的方法中的各功能,参数配置装置包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对参数配置装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图7示出了上述和实施例中涉及的参数配置装置的一种可能的组成示意图,该参数配置装置能执行本申请各方法实施例中任一方法实施例中参数配置装置所执行的步骤。如图7所示,所述参数配置装置为网络设备或支持网络设备实现实施例中提供的方法的通信装置,例如该通信装置可以是芯片系统。该参数配置装置可以包括:接收单元701和处理单元702。
其中,接收单元701,用于支持参数配置装置执行本申请实施例中描述的方法。例如,
接收单元701,用于执行或用于支持参数配置装置执行图3所示的参数配置方法中的S301,图4所示的参数配置方法中的S301和S401,图5所示的参数配置方法中的S301和S401。
处理单元702,用于执行或用于支持参数配置装置执行图3所示的参数配置方法中的S302~S304,图4所示的参数配置方法中的S302~S304以及S402~S404,图5所示的参数配置方法中的S302~S304以及S402、S501、S502和S404。
在本申请实施例中,该处理单元702还可以根据所述数据流的数据去重参数处理所述数据流。进一步的,如图7所示,该参数配置装置还可以包括:发送单元703,用于发送去重后的数据流。
上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本申请实施例提供的参数配置装置,用于执行上述任意实施例的方法,因此可以达到与上述实施例的方法相同的效果。
如图8所示为本申请实施例提供的通信装置800,用于实现上述方法中参数配置装置的功能。该通信装置800可以是参数配置装置,也可以是参数配置装置中的装置。其中,该通信装置800可以为芯片系统。本申请实施例中,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
通信装置800包括至少一个处理器801,用于实现本申请实施例提供的方法中参数配置装置的功能。示例性地,处理器801可以用于获取待预测数据以及待预测数据的分类特征;根据待预测数据的分类特征和分类模型,从N个预设去重等级中确定待预测数据的去重等级,分类模型是根据M个样本、M个样本中每个样本分别对应的网络接口带宽和N个预设去重等级对应的数据去重参数确定的,N为大于0的整数,M为大于0的整数;将待预测数据的去重等级对应的数据去重参数配置为所述待预测数据对应的数据流的数据去重参数,以便于根据待预测数据的去重等级对应的数据去重参数对所述数据流进行数据去重处理等等,具体参见方法示例中的详细描述,此处不做赘述。
通信装置800还可以包括至少一个存储器802,用于存储程序指令和/或数据。存储器802和处理器801耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。处理器801可能和存储器802协同操作。处理器801可能执行存储器802中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。
通信装置800还可以包括通信接口803,用于通过传输介质和其它设备进行通信,从而使通信装置800中的装置可以和其它设备进行通信。示例性地,若通信装置为网络设备,该其它设备为终端设备。处理器801利用通信接口803收发数据,并用于实现图3~图5对应的实施例中所述的参数配置装置所执行的方法。
本申请实施例中不限定上述通信接口803、处理器801以及存储器802之间的具体连接介质。本申请实施例在图8中以通信接口803、处理器801以及存储器802之间通过总线804连接,总线在图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
在本申请实施例中,存储器可以是非易失性存储器,比如硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)等,还可以是易失性存储器(volatilememory),例如随机存取存储器(random-access memory,RAM)。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
示例的,上述通信装置可以是WOC中的数据流优化(data stream optimization,DSO)模块。WOC还可以包括传输优化模块和应用优化模块。传输优化模块用于完成上述传输优化功能。应用优化模块用于完成上述应用优化功能。
需要说明的是,对于上述参数配置装置,可以以虚拟网络功能(virtualizednetwork function,VNF)容器化的形式部署于任何X86服务器上,也可以部署于边缘路由器、企业网关等设备中。本申请实施例提供的参数配置方法,其分类模型的部署可以作为参数配置装置的一个子模块与参数配置装置运行于同一环境中。参数配置装置可以部署于编码端和解码端,编码端和解码端各需要一台X86主机或是网关设备、路由器等,运行上文提到的VNF容器框架。对于编码端(即数据的发送端)来说,将待发送的数据经CPU进行变长分块算法处理后,查询内存中的相关哈希表,将需要存储的基础块存储到硬盘中,通过网络输入输出(input/output,IO)接口通过公网发送出去。对于解码端来说,收到编码后的数据报文,经CPU处理后去内存中查询相关哈希表,从硬盘中找到对应的页(page)将编码数据恢复,以实现去重流程中整套编解码操作。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本申请实施例提供的方法中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、终端或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,数字视频光盘)、或者半导体介质(例如,SSD)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种参数配置方法,其特征在于,包括:
获取待预测数据;
获取所述待预测数据的分类特征;
根据所述待预测数据的分类特征和分类模型,从N个预设去重等级中确定所述待预测数据的去重等级,所述分类模型是根据M个样本、所述M个样本中每个样本分别对应的网络接口带宽和所述N个预设去重等级对应的数据去重参数确定的,N为大于0的整数,M为大于0的整数;
将所述待预测数据的去重等级对应的数据去重参数配置为所述待预测数据对应的数据流的数据去重参数。
2.根据权利要求1所述的方法,其特征在于,在所述获取待预测数据之前,所述方法还包括:
采集所述M个样本;
获取所述M个样本中每个样本的分类特征;
根据所述M个样本、所述M个样本中每个样本分别对应的网络接口带宽和所述N个预设去重等级对应的数据去重参数确定所述M个样本中每个样本的去重等级;
根据所述M个样本中每个样本的分类特征和所述M个样本中每个样本的去重等级训练分类算法,得到所述分类模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述M个样本、所述M个样本中每个样本分别对应的网络接口带宽和所述N个预设去重等级对应的数据去重参数确定所述M个样本中每个样本的去重等级,包括:
根据第i个样本、所述第i个样本对应的网络接口带宽和第j个预设去重等级对应的数据去重参数,确定第ji加速数据传输速率,得到所述第i个样本对应的N个加速数据传输速率,1≤i≤M,1≤j≤N;
将所述第i个样本对应的N个加速传输处理速率中最大的加速数据传输速率对应的预设去重等级确定为所述第i个样本的去重等级。
4.根据权利要求3所述的方法,其特征在于,所述根据第i个样本、所述第i个样本对应的网络接口带宽和第j个预设去重等级对应的数据去重参数,确定第ji加速数据传输速率,包括:
根据所述第j个预设去重等级对应的数据去重参数对所述第i个样本进行数据去重处理,得到第ji去重率和第ji数据处理速率;
根据所述第i个样本对应的网络接口带宽、所述第ji去重率和所述第ji数据处理速率,确定第ji数据传输速率;
将所述第ji数据处理速率和所述第ji数据传输速率中最小的值确定为所述第ji加速数据传输速率。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述待预测数据的分类特征包括所述待预测数据的以下参数中的至少一项:单位时长内平均数据量、预设时长内去重率、预设去重等级间去重率差值、预设时长内去重率峰值、基础块base chunk大小方差值、超级块super chunk大小方差值、基础块大小平均值、超级块大小平均值、锚点块anchor chunk间的平均间隔、锚点块间的间隔方差值和压缩时的压缩率。
6.根据权利要求5所述的方法,其特征在于,
所述单位时长内平均数据量为用所述待预测数据除以预设时长得到的,所述预设时长为第一预设时长,所述待预测数据为在所述第一预设时长内获取到的数据;
所述预设时长内去重率为用去重后待预测数据除以所述待预测数据得到的,所述去重后待预测数据为根据预设去重等级对应的数据去重参数对所述待预测数据进行去重处理后得到的;
所述预设去重等级间去重率差值为根据两个所述预设时长内去重率之差确定的;
所述预设时长内去重率峰值为根据所述N个预设去重等级对应的数据去重参数对所述待预测数据进行去重处理后确定的N个预设时长内去重率的最大值;
所述基础块大小方差值和所述基础块大小平均值分别根据所述待预测数据包括的基础块大小确定的;
所述超级块大小方差值和所述超级块大小平均值分别根据所述待预测数据包括的超级块大小确定的;
所述锚点块间的平均间隔和锚点块间的间隔方差值分别根据所述待预测数据包括的锚点块间的间隔确定的;
所述压缩时的压缩率为根据所述待预测数据和压缩算法确定的。
7.一种参数配置装置,其特征在于,包括:
接收单元,用于获取待预测数据;
处理单元,用于获取所述待预测数据的分类特征;
所述处理单元,还用于根据所述待预测数据的分类特征和分类模型,从N个预设去重等级中确定所述待预测数据的去重等级,所述分类模型是根据M个样本、所述M个样本中每个样本分别对应的网络接口带宽和所述N个预设去重等级对应的数据去重参数确定的,N为大于0的整数,M为大于0的整数;
所述处理单元,还用于将所述待预测数据的去重等级对应的数据去重参数配置为所述待预测数据对应的数据流的数据去重参数。
8.根据权利要求7所述的装置,其特征在于,
所述接收单元,还用于采集所述M个样本;
所述处理单元,还用于获取所述M个样本中每个样本的分类特征;
所述处理单元,还用于根据所述M个样本、所述M个样本中每个样本分别对应的网络接口带宽和所述N个预设去重等级对应的数据去重参数确定所述M个样本中每个样本的去重等级;
所述处理单元,还用于根据所述M个样本中每个样本的分类特征和所述M个样本中每个样本的去重等级训练分类算法,得到所述分类模型。
9.根据权利要求8所述的装置,其特征在于,所述处理单元,用于:
根据第i个样本、所述第i个样本对应的网络接口带宽和第j个预设去重等级对应的数据去重参数,确定第ji加速数据传输速率,得到所述第i个样本对应的N个加速数据传输速率,1≤i≤M,1≤j≤N;
将所述第i个样本对应的N个加速传输处理速率中最大的加速数据传输速率对应的预设去重等级确定为所述第i个样本的去重等级。
10.根据权利要求9所述的装置,其特征在于,所述处理单元,用于:
根据所述第j个预设去重等级对应的数据去重参数对所述第i个样本进行数据去重处理,得到第ji去重率和第ji数据处理速率;
根据所述第i个样本对应的网络接口带宽、所述第ji去重率和所述第ji数据处理速率,确定第ji数据传输速率;
将所述第ji数据处理速率和所述第ji数据传输速率中最小的值确定为所述第ji加速数据传输速率。
11.根据权利要求7-10中任一项所述的装置,其特征在于,所述待预测数据的分类特征包括所述待预测数据的以下参数中的至少一项:单位时长内平均数据量、预设时长内去重率、预设去重等级间去重率差值、预设时长内去重率峰值、基础块base chunk大小方差值、超级块super chunk大小方差值、基础块大小平均值、超级块大小平均值、锚点块anchorchunk间的平均间隔、锚点块间的间隔方差值和压缩时的压缩率。
12.根据权利要求11所述的装置,其特征在于,
所述单位时长内平均数据量为用所述待预测数据除以预设时长得到的,所述预设时长为第一预设时长,所述待预测数据为在所述第一预设时长内获取到的数据;
所述预设时长内去重率为用去重后待预测数据除以所述待预测数据得到的,所述去重后待预测数据为根据预设去重等级对应的数据去重参数对所述待预测数据进行去重处理后得到的;
所述预设去重等级间去重率差值为根据两个所述预设时长内去重率之差确定的;
所述预设时长内去重率峰值为根据所述N个预设去重等级对应的数据去重参数对所述待预测数据进行去重处理后确定的N个预设时长内去重率的最大值;
所述基础块大小方差值和所述基础块大小平均值分别根据所述待预测数据包括的基础块大小确定的;
所述超级块大小方差值和所述超级块大小平均值分别根据所述待预测数据包括的超级块大小确定的;
所述锚点块间的平均间隔和锚点块间的间隔方差值分别根据所述待预测数据包括的锚点块间的间隔确定的;
所述压缩时的压缩率为根据所述待预测数据和压缩算法确定的。
13.一种参数配置装置,其特征在于,包括:至少一个处理器、存储器、总线和收发器,其中,所述存储器用于存储计算机程序,使得所述计算机程序被所述至少一个处理器执行时实现如权利要求1-6中任一项所述的参数配置方法。
14.一种计算机可读存储介质,其特征在于,包括:计算机软件指令;
当所述计算机软件指令在参数配置装置或内置在参数配置装置的芯片中运行时,使得所述参数配置装置执行如权利要求1-6中任一项所述的参数配置方法。
15.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在参数配置装置或内置在参数配置装置的芯片中运行时,使得所述参数配置装置执行如权利要求1-6中任一项所述的参数配置方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811486470.8A CN111291770B (zh) | 2018-12-06 | 2018-12-06 | 一种参数配置方法及装置 |
PCT/CN2019/119833 WO2020114256A1 (zh) | 2018-12-06 | 2019-11-21 | 一种参数配置方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811486470.8A CN111291770B (zh) | 2018-12-06 | 2018-12-06 | 一种参数配置方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291770A true CN111291770A (zh) | 2020-06-16 |
CN111291770B CN111291770B (zh) | 2023-07-25 |
Family
ID=70975103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811486470.8A Active CN111291770B (zh) | 2018-12-06 | 2018-12-06 | 一种参数配置方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111291770B (zh) |
WO (1) | WO2020114256A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014434A (zh) * | 2021-03-09 | 2021-06-22 | 安徽超清科技股份有限公司 | 一种基于工业互联网的数据采集方法 |
CN114629797A (zh) * | 2022-03-11 | 2022-06-14 | 阿里巴巴(中国)有限公司 | 带宽预测方法、模型生成方法及设备 |
CN114861588A (zh) * | 2021-02-03 | 2022-08-05 | 上海寒武纪信息科技有限公司 | 用于芯片设计工具的参数配置方法及装置 |
CN117527708A (zh) * | 2024-01-05 | 2024-02-06 | 杭银消费金融股份有限公司 | 基于数据流向的企业级数据链路的优化传输方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120036113A1 (en) * | 2010-08-04 | 2012-02-09 | Mark David Lillibridge | Performing deduplication of input data at plural levels |
US20130080406A1 (en) * | 2011-09-26 | 2013-03-28 | Quantum Corporation | Multi-tier bandwidth-centric deduplication |
CN103593264A (zh) * | 2013-11-28 | 2014-02-19 | 中国南方电网有限责任公司超高压输电公司南宁局 | 远距离广域网络容灾备份系统及方法 |
US8849768B1 (en) * | 2011-03-08 | 2014-09-30 | Symantec Corporation | Systems and methods for classifying files as candidates for deduplication |
CN104301430A (zh) * | 2014-10-29 | 2015-01-21 | 北京麓柏科技有限公司 | 软件定义存储系统、方法及其集中控制设备 |
US20160162218A1 (en) * | 2014-12-03 | 2016-06-09 | International Business Machines Corporation | Distributed data deduplication in enterprise networks |
CN108834161A (zh) * | 2018-06-28 | 2018-11-16 | 京信通信系统(中国)有限公司 | 微基站的语音优化方法、装置、计算机存储介质及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN2012KO01022A (zh) * | 2012-09-05 | 2015-06-05 | Indian Inst Technology Kharagpur | |
CN106055271B (zh) * | 2016-05-17 | 2019-01-25 | 浪潮(北京)电子信息产业有限公司 | 一种基于云计算的重复数据去重选择方法及装置 |
CN106126594A (zh) * | 2016-06-21 | 2016-11-16 | 成都华智汇科技有限公司 | 一种基于大数据的培训数据处理系统 |
CN106126721A (zh) * | 2016-06-30 | 2016-11-16 | 北京奇虎科技有限公司 | 一种实时计算平台的数据处理方法和装置 |
-
2018
- 2018-12-06 CN CN201811486470.8A patent/CN111291770B/zh active Active
-
2019
- 2019-11-21 WO PCT/CN2019/119833 patent/WO2020114256A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120036113A1 (en) * | 2010-08-04 | 2012-02-09 | Mark David Lillibridge | Performing deduplication of input data at plural levels |
US8849768B1 (en) * | 2011-03-08 | 2014-09-30 | Symantec Corporation | Systems and methods for classifying files as candidates for deduplication |
US20130080406A1 (en) * | 2011-09-26 | 2013-03-28 | Quantum Corporation | Multi-tier bandwidth-centric deduplication |
CN103593264A (zh) * | 2013-11-28 | 2014-02-19 | 中国南方电网有限责任公司超高压输电公司南宁局 | 远距离广域网络容灾备份系统及方法 |
CN104301430A (zh) * | 2014-10-29 | 2015-01-21 | 北京麓柏科技有限公司 | 软件定义存储系统、方法及其集中控制设备 |
US20160162218A1 (en) * | 2014-12-03 | 2016-06-09 | International Business Machines Corporation | Distributed data deduplication in enterprise networks |
CN108834161A (zh) * | 2018-06-28 | 2018-11-16 | 京信通信系统(中国)有限公司 | 微基站的语音优化方法、装置、计算机存储介质及设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861588A (zh) * | 2021-02-03 | 2022-08-05 | 上海寒武纪信息科技有限公司 | 用于芯片设计工具的参数配置方法及装置 |
CN114861588B (zh) * | 2021-02-03 | 2024-03-19 | 上海寒武纪信息科技有限公司 | 用于芯片设计工具的参数配置方法及装置 |
CN113014434A (zh) * | 2021-03-09 | 2021-06-22 | 安徽超清科技股份有限公司 | 一种基于工业互联网的数据采集方法 |
CN114629797A (zh) * | 2022-03-11 | 2022-06-14 | 阿里巴巴(中国)有限公司 | 带宽预测方法、模型生成方法及设备 |
CN114629797B (zh) * | 2022-03-11 | 2024-03-08 | 阿里巴巴(中国)有限公司 | 带宽预测方法、模型生成方法及设备 |
CN117527708A (zh) * | 2024-01-05 | 2024-02-06 | 杭银消费金融股份有限公司 | 基于数据流向的企业级数据链路的优化传输方法及系统 |
CN117527708B (zh) * | 2024-01-05 | 2024-03-15 | 杭银消费金融股份有限公司 | 基于数据流向的企业级数据链路的优化传输方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020114256A1 (zh) | 2020-06-11 |
CN111291770B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291770B (zh) | 一种参数配置方法及装置 | |
JP7454662B2 (ja) | 情報送信方法、装置、読み取り可能な記憶媒体及び電子装置 | |
US20220124184A1 (en) | Service Process Control Method and Network Device | |
CN108243256B (zh) | 一种数据存储方法、编码设备及解码设备 | |
KR101745456B1 (ko) | HiL 시뮬레이션 환경에서 대용량 데이터를 전송하기 위한 전자제어 장치, 이를 포함하는 시스템 및 그 방법 | |
CN106972985B (zh) | 加速dpi设备数据处理与转发的方法和dpi设备 | |
CN104219298B (zh) | 集群系统及其数据备份的方法 | |
US20220286402A1 (en) | Method and apparatus for controlling data packet sending, model training method and apparatus, and system | |
CN110659151A (zh) | 数据校验方法及装置,存储介质 | |
US11196649B2 (en) | Processing local area network diagnostic data | |
CN102055677A (zh) | 减少网络拥塞的方法及设备 | |
JP7356581B2 (ja) | 情報処理方法、装置、設備及びコンピュータ読み取り可能な記憶媒体 | |
CN112335203B (zh) | 处理局域网诊断数据 | |
CN113259256A (zh) | 一种重复数据包过滤方法、系统及可读存储介质 | |
RU2602333C2 (ru) | Сетевая система, способ обработки пакетов и носитель записи | |
CN104486442B (zh) | 分布式存储系统的数据传输方法、装置 | |
CN109274720B (zh) | 一种传输数据的方法和系统 | |
CN108460044B (zh) | 数据的处理方法和装置 | |
CN111181811A (zh) | 统计方法、装置、电子设备及介质 | |
US9130827B2 (en) | Sampling from distributed streams of data | |
WO2021129742A1 (zh) | 网络数据的恢复方法、装置及移动终端 | |
WO2012159485A1 (zh) | 数据上报、数据分析方法及装置 | |
CN113676341A (zh) | 一种质差评估方法及相关设备 | |
CN111210505A (zh) | 3d模型加载方法、服务器、存储介质、处理器 | |
CN114970885A (zh) | 采集周期确定方法、装置、系统、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |