CN116614431A - 数据处理方法、装置、电子设备和计算机可读存储介质 - Google Patents
数据处理方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN116614431A CN116614431A CN202310890887.5A CN202310890887A CN116614431A CN 116614431 A CN116614431 A CN 116614431A CN 202310890887 A CN202310890887 A CN 202310890887A CN 116614431 A CN116614431 A CN 116614431A
- Authority
- CN
- China
- Prior art keywords
- network
- data
- data set
- frequency
- index data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 140
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000013441 quality evaluation Methods 0.000 claims abstract description 22
- 238000001303 quality assessment method Methods 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
- H04L43/55—Testing of service level quality, e.g. simulating service usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开提供一种数据处理方法、装置、电子设备和计算机可读存储介质,涉及计算机与互联网技术领域,包括:获取第一网络指标数据集和第一网络指标数据集对应的服务质量标签;获取待训练的第一网络模型;对第一网络指标数据集进行向量化处理,获得第一向量矩阵;通过傅里叶变换将第一向量矩阵映射到频域,获得第一频率矩阵;根据第一频率矩阵对第一网络指标数据集进行质量评估;根据数据质量评估结果对第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过第二网络指标数据集和服务质量标签对第一网络模型进行训练。本公开通过第一网络指标数据集的第一频率矩阵对第一网络指标数据集是否适合作为第一网络模型的训练样本进行评估。
Description
技术领域
本公开涉及计算机与互联网技术领域,尤其涉及一种数据处理方法及装置、电子设备和计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在移动通信技术领域中,服务质量是衡量网络服务的一个非常重要的指标。为了较好的衡量网络的服务质量,相关技术通常需要专门设立项目对网络数据进行收集,以便对网络的服务质量进行衡量和评估。
但是,在通信网络中,某些行业对应的网络数据(如某些工业行业对应的网络数据)的获取难度和代价都是十分高的。例如有的行业(如实体工业)网络数据需要专门设立硬件设备进行收集和处理;有的行业网络数据比较散乱需要大量的人力物力进行整理和脱敏等。
总之,行业网络数据的收集和处理是非常困难的,这也就决定了在一些行业内,能够收集到的行业网络数据的数据量是非常少。那么如何高效利用网络数据以对网络质量进行准确评估是本申请要解决的技术问题。
发明内容
本公开的目的在于提供一种数据处理方法、装置、电子设备以及计算机可读存储介质,能够通过第一网络指标数据集在频域中对应的第一频率矩阵对第一网络指标数据集的数据质量进行评估,从而根据评估结果对第一网络指标数据集进行高效利用以预测网络的服务质量。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供了一种数据处理方法,包括:获取第一网络指标数据集和所述第一网络指标数据集对应的服务质量标签;获取待训练的第一网络模型;对所述第一网络指标数据集进行向量化处理,获得第一向量矩阵;通过傅里叶变换将所述第一向量矩阵映射到频域,获得第一频率矩阵;根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估;根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过所述第二网络指标数据集和所述服务质量标签对所述第一网络模型进行训练。
在一些实施例中,根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估,包括:根据所述第一频率矩阵确定所述第一网络指标数据集对应的第一低频阈值;确定所述第一频率矩阵中频率值小于所述第一低频阈值的数据量与所述第一频率矩阵的总数据量的第一比值;如果所述第一比值大于第一比例阈值,则确定所述第一网络指标数据集蕴含的训练信息不足;其中,根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,包括:向所述第一网络指标数据集中增加数据,以获得所述第二网络指标数据集。
在一些实施例中,向所述第一网络指标数据集中增加数据,以获得所述第二网络指标数据集,包括:获取第三网络指标数据集;将所述第三网络指标数据集分为多个网络指标数据子集,所述多个网络指标数据子集包括第一网络指标数据子集;通过所述傅里叶变换将所述第一网络指标数据子集映射到频域,获得第二频率矩阵;根据所述第二频率矩阵确定所述第一网络指标数据子集对应的高频分量占比大于第二比例阈值;将所述第一网络指标数据子集添加至所述第一网络指标数据集中,以获得所述第二网络指标数据集。
在一些实施例中,根据所述第二频率矩阵确定所述第一网络指标数据子集对应的高频分量占比大于第二比例阈值,包括:根据所述第二频率矩阵确定所述第一网络指标数据集对应的第一高频阈值;确定所述第二频率矩阵中频率值大于所述第一高频阈值的数据量与所述第二频率矩阵的总数据量的第二比值;如果所述第二比值大于所述第二比例阈值,则确定所述第一网络指标数据子集对应的高频分量占比大于所述第二比例阈值。
在一些实施例中,根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估,包括:根据所述第一频率矩阵确定所述第一网络指标数据集对应的第二高频阈值;确定所述第一频率矩阵中频率值大于所述第二高频阈值的数据量与所述第一频率矩阵的总数据量的第三比值;如果所述第三比值大于第三比例阈值,则确定所述第一网络指标数据集中蕴含的训练信息过多。
在一些实施例中,根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,包括:将所述第一网络指标数据集作为所述第二网络指标数据集;其中,所述方法还包括:
在确定所述第一网络指标数据集中蕴含的训练信息过多的情况下,在所述第一网络模型中减少正则化单元,获得第二网络模型,其中所述第二网络模型中的模型参数多于所述第一网络模型中的模型参数。
在一些实施例中,根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估,包括:根据所述第一频率矩阵确定所述第一网络指标数据集对应的第三高频阈值和第二低频阈值;确定所述第一频率矩阵中频率值小于或者等于所述第三高频阈值且大于或者等于所述第二低频阈值的数据量与所述第一频率矩阵的总数据量的第四比值;确定所述第四比值大于第四比例阈值,则确定所述第一网络指标数据集中蕴含的训练信息不多且不少;其中,根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过所述第二网络指标数据集和所述服务质量标签对所述第一网络模型进行训练,包括:将所述第一网络指标数据集作为所述第二网络指标数据集,以便通过所述第二网络指标数据集和所述服务质量标签对所述第一网络模型进行训练。
本公开实施例提供了一种数据处理装置,包括:数据集获取模块、网络获取模块、向量化处理模块、傅里叶变换处理模块、数据质量评估模块和数据量调整模块。
其中,所述数据集获取模块用于获取第一网络指标数据集和所述第一网络指标数据集对应的服务质量标签;所述网络获取模块可以用于获取待训练的第一网络模型;所述向量化处理模块可以用于对所述第一网络指标数据集进行向量化处理,获得第一向量矩阵;所述傅里叶变换处理模块可以用于通过傅里叶变换将所述第一向量矩阵映射到频域,获得第一频率矩阵;所述数据质量评估模块可以用于根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估;所述数据量调整模块可以用于根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过所述第二网络指标数据集和所述服务质量标签对所述第一网络模型进行训练。
本公开实施例提出一种电子设备,该电子设备包括:存储器和处理器;所述存储器用于存储计算机程序指令;所述处理器调用所述存储器存储的所述计算机程序指令,用于实现上述任一项所述的数据处理方法。
本公开实施例提出一种计算机可读存储介质,其上存储有计算机程序指令,实现如上述任一项所述的数据处理方法。
本公开实施例提出一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序指令,该计算机程序指令存储在计算机可读存储介质中。从计算机可读存储介质读取该计算机程序指令,处理器执行该计算机程序指令,实现上述数据处理方法。
本公开实施例提供的数据处理方法、装置及电子设备和计算机可读存储介质,能够通过第一网络指标数据集在频域中对应的第一频率矩阵对第一网络指标数据集的数据质量进行评估,从而根据评估结果对第一网络指标数据集进行高效利用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用于本公开实施例的数据处理方法或数据处理装置的场景示意图。
图2是根据一示例性实施例示出的一种数据处理方法的流程图。
图3是根据一示例性实施例示出的一种网络指标数据集中的数据的示意图。
图4是根据一示例性实施例示出的一种预处理模块的示意图。
图5是根据一示例性实施例示出的一种傅里叶变换分析模块的示意图。
图6是根据一示例性实施例示出的一种数据处理方法的流程图。
图7是根据一示例性实施例示出的一种样本数据添加方法的流程图。
图8是根据一示例性实施例示出的一种数据处理方法的流程图。
图9是根据一示例性实施例示出的一种数据处理方法的流程图。
图10是根据一示例性实施例示出的一种模型训练模型的示意图。
图11是根据一示例性实施例示出的一种样本数据质量评估方法的流程图。
图12是根据一示例性实施例示出的一种结果预测模块的示意图。
图13是根据一示例性实施例示出的一种网络模型训练方法对应的结构图。
图14是根据一示例性实施例示出的一种数据处理装置的框图。
图15示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本领域技术人员知道,本公开的实施方式可以为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件,驻留软件,微代码等),或者硬件和软件结合的形式。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本公开的描述中,除非另有说明,“/”表示“或”的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。此外,“至少一个”是指一个或多个,“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。对用户个人信息采取必要措施,防止对用户个人信息数据的非法访问,维护用户个人信息安全、网络安全。
下面首先对本公开实施例涉及的部分用语进行解释说明,以便于本领域技术人员理解。
内容分发网络(Content Delivery Network,CDN)是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络阻塞,提高用户访问效应速度和命中率。因此,CDN并非网络基础设置,而是构建在实体网络基础设施的一个“应用层”。
前文介绍了本公开实施例所涉及到的一些名词概念,下面介绍本公开实施例涉及的技术特征。
随着通信技术的发展,通信设施的大规模部署带来了很多变化:一方面,移动边缘计算(Mobile Edge Computing,MEC)已成为网络演进的重要创新方向:以用户面功能(UserPlane Function,UPF)为代表的核心网络元素可以下沉到用户端,为用户提供更便捷的接入方式。另一方面,网络已经从连接人转变为连接人和物,新型的数据不断涌现。网络基础架构和数据的变化对上层应用内容分发网络(CDN)的发展有深远影响。工业行业的网络数据不比语言、图像和大网等数据,它获取的难度和代价都是十分高的。而数据获取的性价比能直接决定一个项目(如CDN)的落地(如果待收集的数据很多,而数据收集代价又非常大的话,那么该项目就可以考虑不做了)。准确地了解已获取的数据质量可以帮助我们决定是否继续收集网络数据以高效利用网络数据,进而决定是否实施具体的项目,从而能够升用户体验,并评估某个行业的网络质量预测项目是否要继续做下去,因此数据质量评估在通信网络领域中具有很高的实践价值。
因此,本申请提供了一种数据质量评估方法,以评估服务质量模型对应的网络模型的训练样本(如第一网络指标数据)的数据质量,从而判断是否需要对当前的训练样本进行调整,以最大限度的利用该训练样本对服务质量进行准确预测,避免数据的缺失和浪费。
下面结合附图对本公开示例实施方式进行详细说明。
图1示出了可以应用于本公开实施例的数据处理方法或数据处理装置的场景示意图。
请参考图1,其示出了本公开一个示例性实施例提供的实施环境的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。其中,终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等,本公开对此不做限制。
服务器105可例如获取第一网络指标数据集和第一网络指标数据集对应的服务质量标签;服务器105可例如获取待训练的第一网络模型;服务器105可例如对第一网络指标数据集进行向量化处理,获得第一向量矩阵;服务器105可例如通过傅里叶变换将第一向量矩阵映射到频域,获得第一频率矩阵;服务器105可例如根据第一频率矩阵对第一网络指标数据集进行数据质量评估;服务器105可例如根据数据质量评估结果对第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过第二网络指标数据集和服务质量标签对第一网络模型进行训练。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器105可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
在上述系统架构下,本公开实施例中提供了一种数据处理方法,该方法可以由任意具备计算处理能力的电子设备执行。
图2是根据一示例性实施例示出的一种数据处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备来执行,例如该方法可以由上述图1实施例中的服务器或终端设备来执行,也可以由服务器和终端设备共同执行,在下面的实施例中,以服务器为执行主体为例进行举例说明,但本公开并不限定于此。
参照图2,本公开实施例提供的数据处理方法可以包括以下步骤。
步骤S202,获取第一网络指标数据集和第一网络指标数据集对应的服务质量标签。
上述网络指标数据集可以指的是从通信网络中获取的由多个网络指标数据组成的数据集。
在一些实施例中,上述网络指标数据集中可能会包括多个网络指标数据。
在一些实施例中,上述网络指标数据集可以指的是通信网络中的CDN中服务侧质量指标数据集,该CDN中服务侧质量指标数据集中可以包括如图3所示的指标(如域名指标、节点名称指标、平均首字节时间指标、传输控制协议(Transmission Control Protocol,TCP)建联一次成功率指标、控制消息协议(Internet Control Message Protocol,ICMP)建联时间指标、ICMP丢包率指标、节点中央处理器(Cntral Processing Unit,CPU)利用率指标、节点内存利用率指标等)。
在一些实施例中,上述服务质量标签可以指的是该通信网络所服务的用户所感受到的服务质量,上述服务质量标签例如可以是卡顿率等。
在一些实施例中,第一网络指标数据集中可以包括各个指标数据在多个时间点所对应的数据值,本申请对此不再赘述。
步骤S204,获取待训练的第一网络模型。
在一些实施例中,上述第一网络模型可以是待训练的网络模型,该第一网络模型可以是神经网络模型,也可以是机器学习模型等,本申请对此不做限制。
步骤S206,对第一网络指标数据集进行向量化处理,获得第一向量矩阵。
在一些实施例中,可以对第一网络指标数据集中的数据进行向量化处理,以获得第一向量矩阵。
在一些实施例中,上述第一向量矩阵中的一行(或者一列)可以对应一个指标数据的向量。
在一些实施例中,第一网络指标数据集中的某些指标的值可能不是数字(例如可以是字符类型),那么需要将该指标对应的值转换为数字数据。
需要理解的是,不同类型的指标由于其自身的性质或测量单位而具有不同的波动范围。例如,TCP建联时间的波动范围在10到100之间,但ICMP三层丢包率的波动通常在0.06以内。如果它们同时发送到第一网络模型进行训练,将导致具有较大值的特征具有更大的影响,从而忽略具有较小值的特征。根据上述例子,TCP建联时间将显著影响模型学习,而ICMP三层丢包率将被归因于一个始终为0的值,因为其值太小,所以几乎不会影响模型。因此,本申请实施例需要对数据进行归一化,将所有数据变为具备同样影响力的特征。
在一些实施例中,可以通过图4所示的预处理模块401中的向量化单元4011对第一网络指标数据集进行向量化,然后再通过预处理模块401中的归一化单元4012对向量化后的数据进行归一化处理。
步骤S208,通过傅里叶变换将第一向量矩阵映射到频域,获得第一频率矩阵。
在一些实施例中,可以通过傅里叶变换处理将上述第一向量矩阵映射到频域,获得第一频率矩阵。
例如,可以通过如图5所示的傅里叶变换分析模块501中的傅里叶变换单元5011将上述第一向量矩阵映射到频域,获得第一频率矩阵。
步骤S210,根据第一频率矩阵对第一网络指标数据集进行数据质量评估。
在一些实施例中,可以通过对第一频率矩阵进行频谱分析,以确定该第一频率矩阵中高频分量和低频分量的占比。
在一些实施例中,第一网络指标数据集对应的频率可以是第一网络指标数据集中包含的数据的多样性指标。如果第一网络指标数据集中包括的待预测目标所对应的所有的情况,则第一频率矩阵中对应的高频分量会很多;如果第一网络指标数据集中包括的待预测目标所对应的较少的情况的话,则第一频率矩阵中对应的高频分量会很少。举例而言,如果待预测目标是根据输入的身份信息预测某个人的身高,那么如果训练样本中包括从1~80岁各个年龄段的人群的数据的话,那就可以认为该训练样本中包括待预测目标所对应的所有的情况,则该训练样本对应的高频分量会很多;如果训练样本中仅包括从1~30岁各个年龄段的人群的数据的话,那就可以认为该训练样本中包括待预测目标所对应的情况较少,则该训练样本对应的高频分量会很少。
因此,如果第一频率矩阵中高频分量较多则可以认为第一网络指标数据集中包含的信息比较多,可以直接将第一网络指标数据集作为训练样本对第一网络模型进行训练或者通过图5所示的数据减少模块503减少第一网络指标数据集中的数据;如果第一频率矩阵中高频分量较少则可以认为第一网络指标数据集中包含的信息较少,则可以通过图5所示的数据添加模块502继续向第一网络指标数据集中增加数据以丰富第一网络数据集中的数据多样性。
步骤S212,根据数据质量评估结果对第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过第二网络指标数据集和服务质量标签对第一网络模型进行训练。
在一些实施例中,可以根据数据质量评估结果考虑是否要向第一网络指标数据集中增减数据。
通过上述方法,可以通过第一频率矩阵对第一网络模型的训练样本数据(即第一网络指标数据集)的数据质量进行评估,以确定是否需要对该样本数据进行数据改善,从而可以最大限度的利用数据,避免数据的浪费,提高了数据的利用率。
通过上述方法,可以很好的衡量第一网络模型的训练样本(即第一网络指标数据集)的数据质量,如果该第一网络模型的训练样本(即第一网络指标数据集)数据质量不好,则需要向该训练样本中增添数据。如果该训练样本获取代价较高,本领域技术人员可以考虑放弃该第一网络模型的训练,避免因为对训练样本质量的不了解所导致的人力和物力的过多投入。
图6是根据一示例性实施例示出的一种数据处理方法的流程图。
参考图6,上述数据处理方法可以包括以下步骤。
步骤S602,根据第一频率矩阵确定第一网络指标数据集对应的第一低频阈值。
上述低频阈值可以指的是一种确定低频分量的阈值。该低频阈值可以是本领域技术人员根据第一频率矩阵设定的。一般来说的,第一频率矩阵中低于该低频阈值的频率分量就可以认为是低频分量。
本领域技术人员可以参考图像分析技术领域中频谱分析过程中低频阈值的确定过程确定该第一低频阈值,本实施例对此不做限制。
步骤S604,确定第一频率矩阵中频率值小于第一低频阈值的数据量与第一频率矩阵的总数据量的第一比值。
在一些实施例中,可以确定第一频率矩阵中频率值小于该第一低频阈值的数据的数据量,然后将频率值小于第一低频阈值的数据的数据量除以第一频率矩阵的总数据量,以获得该第一比值。
步骤S606,如果第一比值大于第一比例阈值,则确定第一网络指标数据集蕴含的训练信息不足。
上述第一比例阈值可以是本领域技术人员根据经验设置的,本申请对此不做限制。
如果上述第一比值大于第一比例阈值,则确定第一频率矩阵中的低频分量过多(或者说第一频率矩阵中的高频分量过少),则可以进一步的认为第一网络指标数据集中蕴含的训练信息不足(或者可以理解为第一网络指标数据集作为训练样本所对应的训练场景过少)。
步骤S608,向第一网络指标数据集中增加数据,以获得第二网络指标数据集。
在一下实施例中,在确定第一网络指标数据集蕴含的训练信息不足的情况下,可以向第一网络指标数据集中继续添加数据,以获得第二网络指标数据集,以便通过第二网络指标数据集训练第一网络模型。
上述实施例,可以在第一网络模型训练之前通过傅里叶变换分析,准确的确定第一网络指标数据集作为训练样本是否包含足够多的训练信息。相比于在使用第一网络指标数据集完成对第一网络模型的训练过程后,然后因为训练结果不理想再去收集添加数据以对第一网络模型重新训练。上述实施例能够及时且准确的确定第一网络指标数据的数据质量是否能够满足第一网络模型的训练,既能够及时的向第一网络指标数据中添加训练样本,避免计算资源的浪费,又能够结合频域分析向第一网络指标数据集中精准的添加样本数据,避免样本数据的浪费,从而提高样本数据的利用率。
在一些实施例中,可以通过图7所示实施例向第一网络指标数据集中添加样本数据。
图7是根据一示例性实施例示出的一种样本数据添加方法的流程图。
在一些行业(如工业行业)中,每一个获取到的网络数据都是非常珍贵的,那么在向第一网络指标数据集中添加样本数据时,就希望向第一网络指标数据集中添加刚刚好的样本数据,避免样本数据的浪费。
基于以上原因,本申请提出了以上样本数据添加方法。
参考图7,上述样本数据添加方法可以包括以下步骤。
步骤S702,获取第三网络指标数据集。
在一些实施例中,第三网络指标数据集可以是可以向第一网络指标数据集中添加的数据。
步骤S704,将第三网络指标数据集分为多个网络指标数据子集,多个网络指标数据子集包括第一网络指标数据子集。
在一些实施例中,可以将第三网络指标数据集分为一个、两个或者多个网络指标数据集(例如可以平均分配、随机分配等,本申请对此不做限制)。
在本实施例中将以第一网络指标数据子集为例解释上述样本数据添加方法,本领域技术人员可以将本实施例提供的方法移用到其他网络指标数据子集上,本实施例对此不做限制。
步骤S706,通过傅里叶变换将第一网络指标数据子集映射到频域,获得第二频率矩阵。
步骤S708,根据第二频率矩阵确定第一网络指标数据子集对应的高频分量占比大于第二比例阈值。
上述第二比例阈值可以是本领域技术人员根据经验设置的,本申请对此不做限制。
步骤S710,将第一网络指标数据子集添加至第一网络指标数据集中,以获得第二网络指标数据集。
在一些实施例中,如果根据第二频率矩阵确定第一网络指标数据子集对应的高频分量占比大于第二比例阈值,则可以确定第二网络指标数据子集中的样本数据涵盖的情况比较丰富,可以将其添加至第一网络指标数据集中以丰富第一网络指标数据集。
上述实施例,可以通过傅里叶变换分析对第一网络指标数据子集中的数据多样性进行分析,然后将数据多样性足够(即涵盖足够信息)的第一网络指标数据集添加至第一网络指标数据集中。通过上述方法,可以在将第一网络指标数据子集添加至第一网络指标数据集中之前对第一网络指标数据子集中的数据多样性进行判断,使得最终加入第一网络指标数据集中的数据多样性足够,从而有针对性的改善第一网络指标数据,从而通过尽可能少的数据改善第一网络指标数据集中的数据质量,进而更好的节约样本数据。
图8是根据一示例性实施例示出的一种数据处理方法的流程图。
在一些实施例中,图7中的根据第二频率矩阵确定第一网络指标数据子集对应的高频分量占比大于第二比例阈值可以包括图8所示的步骤。
步骤S802,根据第二频率矩阵确定第一网络指标数据集对应的第一高频阈值。
上述高频阈值可以指的是一种确定高频分量的阈值。该高频阈值可以是本领域技术人员根据第二频率矩阵设定的。一般来说的,第二频率矩阵中高于该高频阈值的频率分量就可以认为是高频分量。
本领域技术人员可以参考图像分析技术领域中频谱分析过程中高频阈值的确定过程确定第一高频阈值,本实施例对此不做限制。
步骤S804,确定第二频率矩阵中频率值大于第一高频阈值的数据量与第二频率矩阵的总数据量的第二比值。
在一些实施例中,可以确定第二频率矩阵中频率值大于该第一高频阈值的数据的数据量,然后将频率值大于第一高频阈值的数据的数据量除以第二频率矩阵的总数据量,以获得该第二比值。
步骤S806,如果第二比值大于第二比例阈值,则确定第一网络指标数据子集对应的高频分量占比大于第二比例阈值。
上述第二比例阈值可以是本领域技术人员根据经验设置的,本申请对此不做限制。
如果上述第一比值大于第二比例阈值,则确定第一网络指标数据子集对应的高频分量占比大于第二比例阈值子,则进一步确定第二频率矩阵中的高频分量足够,则可以进一步的认为第一网络指标数据子集中蕴含的训练信息足够。
通过上述实施例,可以对第二频率矩阵中高频分量的占比进行准确分析,从而确定第二频率矩阵对应的第一网络指标数据子集中蕴含的信息量的多寡,从而确定是否可以将第一网络指标数据集加入第一网络指标数据。
图9是根据一示例性实施例示出的一种数据处理方法的流程图。
参考图9,上述数据处理方法可以包括以下步骤。
步骤S902,根据第一频率矩阵确定第一网络指标数据集对应的第二高频阈值。
上述第二高频阈值可以是本领域技术人员根据第一频率矩阵设置的,第一频率矩阵中大于该第二高频阈值的可以被认定为高频分量。
步骤S904,确定第一频率矩阵中频率值大于第二高频阈值的数据量与第一频率矩阵的总数据量的第三比值。
步骤S906,如果第三比值大于第三比例阈值,则确定第一网络指标数据集中蕴含的训练信息过多。
步骤S908,将第一网络指标数据集作为第二网络指标数据集。
在一些实施例中,如果第三比值大于第三比例阈值,则确定第一网络指标数据集中蕴含的训练信息过多,此时可以不对第一网络指标数据集进行处理,直接将第一网络指标数据集作为第二网络指标数据集。
步骤S910,在第一网络模型中减少正则化单元,获得第二网络模型,其中第二网络模型中的模型参数多于第一网络模型中的模型参数。
在一些实施例中,如果第二网络指标数据集中包含过多的信息,那么通过第二网络指标数据集对第一网络模型进行训练的话,可能会出现过拟合的情况。那么可以在第一网络模型中减少正则化单元以生成第二网络模型,从而增加模型复杂度,避免过拟合的情况。
在一些实施例中,如图10所示,在获得第二网络模型后,可以通过图10中的模型训练模块1001使用第二网络指标数据集对第二网络模型进行训练获得预测目标,然后将预测目标与第一网络指标数据集对应的服务质量标签确定损失值;接着通过图10中的模型训练模块1001中的模型参数更新单元10011确定第二网络模型中的参数更新后的值;最后通过图10中的向前传播单元10012将第二网络模型中的参数更新。
上述实施例,一方面可以通过对第一频率矩阵中的高频分量的分析确定第一网络指标数据集中涵盖的信息是否过多;另一方面在第一网络指标数据集中涵盖信息量过多的情况下及时调整第一网络模型中的网络复杂度,避免出现过拟合情况,从而提高模型预测的准确度。
图11是根据一示例性实施例示出的一种样本数据质量评估方法的流程图。
参考图11,上述样本数据质量评估方法可以包括以下步骤。
步骤S1102,根据第一频率矩阵确定第一网络指标数据集对应的第三高频阈值和第二低频阈值。
上述低频阈值(或者高频阈值)可以指的是一种确定低频分量(或者高频分量)的阈值。该低频阈值(或者高频阈值)可以是本领域技术人员根据第一频率矩阵设定的。一般来说的,第一频率矩阵中低于该低频阈值的频率分量就可以认为是低频分量,高于该高频阈值的就可以认为是高频分量。
步骤S1104,确定第一频率矩阵中频率值小于或者等于第三高频阈值且大于或者等于第二低频阈值的数据量与第一频率矩阵的总数据量的第四比值。
步骤S1106,确定第四比值大于第四比例阈值,则确定第一网络指标数据集中蕴含的训练信息不多且不少。
步骤S1108,将第一网络指标数据集作为第二网络指标数据集,以便通过第二网络指标数据集和服务质量标签对第一网络模型进行训练。
通过上述方法,可以准确的确定第一网络指标数据集中的数据质量的好坏,以准确的判断第一网络指标数据集中涵盖的数据信息是否足够用来训练第一网络模型,避免在对第一网络模型训练时由于不知道第一网络指标数据集的数据质量不停的对第一网络指标数据集中的数据进行调整。
在一些实施例中,可以通过以上方法实现对第二网络模型的训练,然后再通过如图12所示的结果预测模块1201中的模型预测单元12011进行模型预测,以预测出其他网络指标数据集对应的服务质量(如卡顿率)。
在一些实施例中,还可以通过机器学习来预测MEC(边缘计算)场景中的用户体验,采用的评估指标可以是用户端的网络阻塞率。在一些实施例中,准确地预测网络阻塞率可以理解用户体验并为流量调度和网络优化提供基础,因此它具有很高的实用价值。然而,相关研究通常集中于构建新模型,并且通常基于大量数据进行训练。但是,在移动通信网中,一些行业专网通常用于企业私有网络场景中。由于每种企业场景都有自己的特点,不同于人脸、文本和其他标准数据,本领域技术人员不能轻松地获得大量运营数据,尤其是具有一致分布的珍贵数据。由于在行业专网中,获取数据的难度越来越大,工程师经常思考两个问题:1.如何获取足够的数据;2.需要获取多少数据以满足模型训练的需求,是否少量的数据就足以应对模型训练。
基于这些问题,本申请提出了一种新的架构,使用傅里叶变换来计算原始数据,从频谱的角度分析数据中包含的信息量,并因此评估数据收集何时对问题解决没有显著的益处。
另外,本申请还将通过对四种算法模型(如线性回归、决策树、随机森林和梯度提升树)进行了实验,以确定出通过频谱分析可以对数据质量进行准确评估的理论正确性。
在一些实施例中,数据来源可以是来自边缘云中连续四个月的CDN数据集,该CDN数据可以具有卡顿率标签(作为训练标签)和与CDN服务端质量相关的指标(作为训练样本)。通过实验,最终得出结论,数据的频谱值确实可以提供网络模型训练所需样本数据量的参考。
图13是根据一示例性实施例示出的一种网络模型训练方法对应的结构图。
参考图13,可以通过数据获取模块1301获取数据;然后在将数据发送给模型进行处理之前,可以通过预处理模块1302中的向量化单元13021和归一化单元13022对数据进行预处理(例如向量化处理和归一化处理)。这个预处理单元的处理目的有两个:1. 将数据转换为模型能够理解的矩阵;2. 确定数据中哪些特征对于模型预测更有效。网络模型训练对于数据输入有一个基本条件:它只能是数字数据。
图3中示出的是内容分发网络上的部分数据,可以发现一些数据(如节点名称和域名)是字符类型,无法被模型理解,因此本实施例可以通过预处理模块1302中的向量化单元13021将它们转换为数字。对于域名,每个节点将被转换为1-10的数字,而同样的,节点名称也将被转换为一个数字,数据的示例可见图3所示表格。
在数据转换后,数据仍然存在一个棘手的问题。不同类型的特征由于其自身的性质或测量单位而具有不同的波动范围。例如,TCP建联时间的波动范围在10到100之间,但ICMP三层丢包率的波动通常在0.06以内。如果它们同时发送到模型进行训练,将导致具有较大值的特征具有更大的影响,从而忽略具有较小值的特征。根据上述例子,TCP建联时间将显著影响模型学习,而ICMP三层丢包率将被归因于一个始终为0的值,因为其值太小,所以几乎不会影响模型。因此,本实施例还将通过预处理模块1302中的归一化单元13022对数据进行归一化,将所有数据变为具备同样影响力的特征。
在获得归一化后的数据后,还可以通过图13中的傅里叶变换分析模块1303中的傅里叶变换单元13031对归一化后的数据进行傅里叶变换处理。它的思路是每次都将已经拥有的数据集合到一起,由于每个特征的数据占用一行(每个数据集包含多个特征),那么将多个特征数据进行集合就是一个数值化的矩阵了。本实施例将此矩阵通过傅里叶变换映射到了频域,假如高频分量较低,那么说明数据蕴含的信息不够多(缺少边缘或者变换信息等),那么就需要继续搜集数据。假如高频分量已经很多了,那么就放弃数据的搜集工作以直接进行模型训练工作。上述步骤,可以让获取数据这个工作维持在高性价比状态,避免了为获取少量数据耗费大量精力却无法提升网络质量用户体验预测的性能情况出现。
在模型训练过程中,如果通过傅里叶变换单元13031分析发现数据的高频分量过多,则可以在模型训练模块1304中减少待训练模型的正则化单元,以提高待训练模型的复杂度。总之,如果高频分量过多,可能会出现过拟合效应,因此会将模型复杂度提升,这样能够提前获得预训练更为充分的模型。在一些实施例中,在正则化单元调优之后,可以对网络模型进行训练,并通过模型参数更新单元13041和前向传播单元13042对网络模型进行模型参数的更新,从而完成模型训练。
在一些实施例中,在训练完成后,可以通过模型预测单元13051对输入的网络指标数据集进行服务质量的预测。
在一些实施例中,为了验证通过傅里叶变换分析对训练样本质量进行评估的正确性。本实施例在结果测试模块1305的性能评估单元13052中,采用了4类不同的模型进行理论验证,其中上述4类不同的模型分别是线性回归、梯度提升树、决策树和随机森林。
在一些实施例中,可以将上述4种算法对网络数据的质量(主要是卡顿率指标)进行预测和测试,评估不同数据集下同一个模型的性能。从实验结果得知,如果样本数据集对应的高频频谱增加,那么通过该样本数据集训练的模型性能也会相应提高。通过上述方法可以建立频谱图与数据质量的数学联系。
在一些实施例中,通过上述傅里叶变换分析可以准确的了解到训练样本数据的质量,因此可以提前评估模型的构建和训练难度,能结合项目收益做出取舍,避免大量的试错工作。
另外,上述网络模型的训练,能够辅助通过卡顿率预测行业客户的网络感知体验,能为网络故障,行业网络智能化运维提供帮助。
总之,本实施例通过傅里叶变换获得数据频谱,用以评估数据质量;另外,本实施例使用数学方法提前感知模型数据需求,为是否需要继续搜集数据提供参考;最后本实施例使用多种不同的适用于数据量不大场景的机器学习模型评估不同频率下的数据质量,探究数据频谱和模型性能间的数学关系。
需要特别指出的是,上述数据处理方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减。因此,这些合理的排列组合变换之于数据处理方法也应当属于本公开的保护范围,并且不应将本公开的保护范围局限在实施例之上。
基于同一发明构思,本公开实施例中还提供了一种数据处理装置,如下面的实施例。由于该装置实施例解决问题的原理与上述方法实施例相似,因此该装置实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。
图14是根据一示例性实施例示出的一种数据处理装置的框图。参照图14,本公开实施例提供的数据处理装置1400可以包括:数据集获取模块1401、网络获取模块1402、向量化处理模块1403、傅里叶变换处理模块1404、数据质量评估模块1405和数据量调整模块1406。
其中,数据集获取模块1401可以用于获取第一网络指标数据集和第一网络指标数据集对应的服务质量标签;网络获取模块1402可以用于获取待训练的第一网络模型;向量化处理模块1403可以用于对第一网络指标数据集进行向量化处理,获得第一向量矩阵;傅里叶变换处理模块1404可以用于通过傅里叶变换将第一向量矩阵映射到频域,获得第一频率矩阵;数据质量评估模块1405可以用于根据第一频率矩阵对第一网络指标数据集进行数据质量评估;数据量调整模块1406可以用于根据数据质量评估结果对第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过第二网络指标数据集和服务质量标签对第一网络模型进行训练。
此处需要说明的是,上述数据集获取模块1401、网络获取模块1402、向量化处理模块1403、傅里叶变换处理模块1404、数据质量评估模块1405和数据量调整模块1406对应于方法实施例中的S202~S212,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一些实施例中,数据质量评估模块1405可以包括:第一低频阈值确定子模块、第一比值确定子模块和第一评估子模块。
其中,第一低频阈值确定子模块可以用于根据第一频率矩阵确定第一网络指标数据集对应的第一低频阈值;第一比值确定子模块可以用于确定第一频率矩阵中频率值小于第一低频阈值的数据量与第一频率矩阵的总数据量的第一比值;第一评估子模块可以用于如果第一比值大于第一比例阈值,则确定第一网络指标数据集蕴含的训练信息不足。
其中,数据量调整模块1406可以包括:数据增加子模块。
其中,数据增加子模块用于向第一网络指标数据集中增加数据,以获得第二网络指标数据集。
在一些实施例中,数据增加子模块可以包括:第三网络指标数据集获取单元、数据分割单元、第二频率矩阵确定单元、占比判断单元以及第二网络指标数据集确定单元。
其中,第三网络指标数据集获取单元可以用于获取第三网络指标数据集;数据分割单元可以用于将第三网络指标数据集分为多个网络指标数据子集,多个网络指标数据子集包括第一网络指标数据子集;第二频率矩阵确定单元可以用于通过傅里叶变换将第一网络指标数据子集映射到频域,获得第二频率矩阵;占比判断单元可以用于根据第二频率矩阵确定第一网络指标数据子集对应的高频分量占比大于第二比例阈值;第二网络指标数据集确定单元可以用于将第一网络指标数据子集添加至第一网络指标数据集中,以获得第二网络指标数据集。
在一些实施例中,占比判断单元可以包括:第一高频阈值确定子单元、第二比值确定子单元和第二比例阈值比对子单元。
其中,第一高频阈值确定子单元可以用于根据第二频率矩阵确定第一网络指标数据集对应的第一高频阈值;第二比值确定子单元可以用于确定第二频率矩阵中频率值大于第一高频阈值的数据量与第二频率矩阵的总数据量的第二比值;第二比例阈值比对子单元可以用于如果第二比值大于第二比例阈值,则确定第一网络指标数据子集对应的高频分量占比大于第二比例阈值。
在一些实施例中,数据质量评估模块1405可以包括:第二高频阈值确定子模块、第三比值确定子模块和第二评估子模块。
其中,第二高频阈值确定子模块可以用于根据第一频率矩阵确定第一网络指标数据集对应的第二高频阈值;第三比值确定子模块可以用于确定第一频率矩阵中频率值大于第二高频阈值的数据量与第一频率矩阵的总数据量的第三比值;第二评估子模块可以用于如果第三比值大于第三比例阈值,则确定第一网络指标数据集中蕴含的训练信息过多。
在一些实施例中,数据量调整模块1406可以包括:调整子模块。
其中,调整子模块可以用于将第一网络指标数据集作为第二网络指标数据集。
其中,数据处理装置1400还可以包括:正则化单元减少模块。
其中,正则化单元减少模块用于在确定第一网络指标数据集中蕴含的训练信息过多的情况下,在第一网络模型中减少正则化单元,获得第二网络模型,其中第二网络模型中的模型参数多于第一网络模型中的模型参数。
在一些实施例中,数据质量评估模块1405可以包括:第二低频阈值确定子模块、第四比值确定子模块和数据正常判断子模块。
其中,第二低频阈值确定子模块可以用于根据第一频率矩阵确定第一网络指标数据集对应的第三高频阈值和第二低频阈值;第四比值确定子模块可以用于确定第一频率矩阵中频率值小于或者等于第三高频阈值且大于或者等于第二低频阈值的数据量与第一频率矩阵的总数据量的第四比值;数据正常判断子模块可以用于确定第四比值大于第四比例阈值,则确定第一网络指标数据集中蕴含的训练信息不多且不少。
其中,数据量调整模块1406可以包括:数据集转换子模块。
其中,数据集转换子模块可以用于将第一网络指标数据集作为第二网络指标数据集,以便通过第二网络指标数据集和服务质量标签对第一网络模型进行训练。
由于装置1400的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
描述于本公开实施例中所涉及到的模块和/或子模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或子模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或子模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或子模块和/或单元和/或子单元本身的限定。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块或程序段的一部分,上述模块或程序段的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机程序指令的组合来实现。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图15示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图15示出的电子设备1500仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图15所示,电子设备1500包括中央处理单元(CPU)1501,其可以根据存储在只读存储器(ROM)1502中的程序或者从储存部分1508加载到随机访问存储器(RAM)1503中的程序而执行各种适当的动作和处理。在RAM 1503中,还存储有电子设备1500操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。
以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1507;包括硬盘等的储存部分1508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入储存部分1508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序指令。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序指令。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序指令可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可实现功能包括:获取第一网络指标数据集和第一网络指标数据集对应的服务质量标签;获取待训练的第一网络模型;对第一网络指标数据集进行向量化处理,获得第一向量矩阵;通过傅里叶变换将第一向量矩阵映射到频域,获得第一频率矩阵;根据第一频率矩阵对第一网络指标数据集进行数据质量评估;根据数据质量评估结果对第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过第二网络指标数据集和服务质量标签对第一网络模型进行训练。
根据本公开的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序指令,该计算机程序指令存储在计算机可读存储介质中。从计算机可读存储介质读取该计算机程序指令,处理器执行该计算机程序指令,实现上述实施例的各种可选实现方式中提供的方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干计算机程序指令用以使得一台电子设备(可以是服务器或者终端设备等)执行根据本公开实施例的方法。
本领域技术人员在考虑说明书及实践在这里公开的公开后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不限于这里已经示出的详细结构、附图方式或实现方法,相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取第一网络指标数据集和所述第一网络指标数据集对应的服务质量标签;
获取待训练的第一网络模型;
对所述第一网络指标数据集进行向量化处理,获得第一向量矩阵;
通过傅里叶变换将所述第一向量矩阵映射到频域,获得第一频率矩阵;
根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估;
根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过所述第二网络指标数据集和所述服务质量标签对所述第一网络模型进行训练。
2.根据权利要求1所述方法,其特征在于,根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估,包括:
根据所述第一频率矩阵确定所述第一网络指标数据集对应的第一低频阈值;
确定所述第一频率矩阵中频率值小于所述第一低频阈值的数据量与所述第一频率矩阵的总数据量的第一比值;
如果所述第一比值大于第一比例阈值,则确定所述第一网络指标数据集蕴含的训练信息不足;
其中,根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,包括:
向所述第一网络指标数据集中增加数据,以获得所述第二网络指标数据集。
3.根据权利要求2所述方法,其特征在于,向所述第一网络指标数据集中增加数据,以获得所述第二网络指标数据集,包括:
获取第三网络指标数据集;
将所述第三网络指标数据集分为多个网络指标数据子集,所述多个网络指标数据子集包括第一网络指标数据子集;
通过所述傅里叶变换将所述第一网络指标数据子集映射到频域,获得第二频率矩阵;
根据所述第二频率矩阵确定所述第一网络指标数据子集对应的高频分量占比大于第二比例阈值;
将所述第一网络指标数据子集添加至所述第一网络指标数据集中,以获得所述第二网络指标数据集。
4.根据权利要求3所述方法,其特征在于,根据所述第二频率矩阵确定所述第一网络指标数据子集对应的高频分量占比大于第二比例阈值,包括:
根据所述第二频率矩阵确定所述第一网络指标数据集对应的第一高频阈值;
确定所述第二频率矩阵中频率值大于所述第一高频阈值的数据量与所述第二频率矩阵的总数据量的第二比值;
如果所述第二比值大于所述第二比例阈值,则确定所述第一网络指标数据子集对应的高频分量占比大于所述第二比例阈值。
5.根据权利要求1所述方法,其特征在于,根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估,包括:
根据所述第一频率矩阵确定所述第一网络指标数据集对应的第二高频阈值;
确定所述第一频率矩阵中频率值大于所述第二高频阈值的数据量与所述第一频率矩阵的总数据量的第三比值;
如果所述第三比值大于第三比例阈值,则确定所述第一网络指标数据集中蕴含的训练信息过多。
6.根据权利要求5所述方法,其特征在于,根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,包括:
将所述第一网络指标数据集作为所述第二网络指标数据集;
其中,所述方法还包括:
在确定所述第一网络指标数据集中蕴含的训练信息过多的情况下,在所述第一网络模型中减少正则化单元,其中正则化单元减少后的第一网络模型的模型参数多于正则化单元减少前的第一网络模型的模型参数。
7.根据权利要求1所述方法,其特征在于,根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估,包括:
根据所述第一频率矩阵确定所述第一网络指标数据集对应的第三高频阈值和第二低频阈值;
确定所述第一频率矩阵中频率值小于或者等于所述第三高频阈值且大于或者等于所述第二低频阈值的数据量与所述第一频率矩阵的总数据量的第四比值;
确定所述第四比值大于第四比例阈值,则确定所述第一网络指标数据集中蕴含的训练信息不多且不少;
其中,根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过所述第二网络指标数据集和所述服务质量标签对所述第一网络模型进行训练,包括:
将所述第一网络指标数据集作为所述第二网络指标数据集,以便通过所述第二网络指标数据集和所述服务质量标签对所述第一网络模型进行训练。
8.一种数据处理装置,其特征在于,包括:
数据集获取模块,用于获取第一网络指标数据集和所述第一网络指标数据集对应的服务质量标签;
网络获取模块,用于获取待训练的第一网络模型;
向量化处理模块,用于对所述第一网络指标数据集进行向量化处理,获得第一向量矩阵;
傅里叶变换处理模块,用于通过傅里叶变换将所述第一向量矩阵映射到频域,获得第一频率矩阵;
数据质量评估模块,用于根据所述第一频率矩阵对所述第一网络指标数据集进行数据质量评估;
数据量调整模块,用于根据数据质量评估结果对所述第一网络指标数据集进行数据量调整,获得第二网络指标数据集,以便通过所述第二网络指标数据集和所述服务质量标签对所述第一网络模型进行训练。
9.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机程序指令;所述处理器调用所述存储器存储的所述计算机程序指令,用于实现如权利要求1-7任一项所述的数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现如权利要求1-7任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310890887.5A CN116614431B (zh) | 2023-07-19 | 2023-07-19 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310890887.5A CN116614431B (zh) | 2023-07-19 | 2023-07-19 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116614431A true CN116614431A (zh) | 2023-08-18 |
CN116614431B CN116614431B (zh) | 2023-10-03 |
Family
ID=87685754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310890887.5A Active CN116614431B (zh) | 2023-07-19 | 2023-07-19 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116614431B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760965A (zh) * | 2016-03-15 | 2016-07-13 | 北京百度网讯科技有限公司 | 预估模型参数的训练方法、服务质量预估方法及对应装置 |
US9843596B1 (en) * | 2007-11-02 | 2017-12-12 | ThetaRay Ltd. | Anomaly detection in dynamically evolving data and systems |
CN109308309A (zh) * | 2018-07-27 | 2019-02-05 | 网宿科技股份有限公司 | 一种数据服务质量评估方法和终端 |
WO2020135806A1 (zh) * | 2018-12-28 | 2020-07-02 | 华为技术有限公司 | 一种应用于数据中心的运维方法和运维设备 |
US20200287814A1 (en) * | 2018-10-17 | 2020-09-10 | Wangsu Science & Technology Co., Ltd. | Training method and apparatus for service quality assessment model |
CN111652381A (zh) * | 2020-06-04 | 2020-09-11 | 深圳前海微众银行股份有限公司 | 数据集贡献度评估方法、装置、设备及可读存储介质 |
US20210027170A1 (en) * | 2018-10-17 | 2021-01-28 | Wangsu Science & Technology Co., Ltd. | Training method and apparatus for service quality evaluation models |
CN112966568A (zh) * | 2021-02-09 | 2021-06-15 | 中国工商银行股份有限公司 | 一种视频客服服务质量分析方法及装置 |
CN114330474A (zh) * | 2021-10-20 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及存储介质 |
CN115375158A (zh) * | 2022-08-29 | 2022-11-22 | 中国建设银行股份有限公司 | 一种服务质量的评价方法及装置、电子设备、存储介质 |
-
2023
- 2023-07-19 CN CN202310890887.5A patent/CN116614431B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9843596B1 (en) * | 2007-11-02 | 2017-12-12 | ThetaRay Ltd. | Anomaly detection in dynamically evolving data and systems |
CN105760965A (zh) * | 2016-03-15 | 2016-07-13 | 北京百度网讯科技有限公司 | 预估模型参数的训练方法、服务质量预估方法及对应装置 |
CN109308309A (zh) * | 2018-07-27 | 2019-02-05 | 网宿科技股份有限公司 | 一种数据服务质量评估方法和终端 |
US20200287814A1 (en) * | 2018-10-17 | 2020-09-10 | Wangsu Science & Technology Co., Ltd. | Training method and apparatus for service quality assessment model |
US20210027170A1 (en) * | 2018-10-17 | 2021-01-28 | Wangsu Science & Technology Co., Ltd. | Training method and apparatus for service quality evaluation models |
WO2020135806A1 (zh) * | 2018-12-28 | 2020-07-02 | 华为技术有限公司 | 一种应用于数据中心的运维方法和运维设备 |
CN111652381A (zh) * | 2020-06-04 | 2020-09-11 | 深圳前海微众银行股份有限公司 | 数据集贡献度评估方法、装置、设备及可读存储介质 |
CN112966568A (zh) * | 2021-02-09 | 2021-06-15 | 中国工商银行股份有限公司 | 一种视频客服服务质量分析方法及装置 |
CN114330474A (zh) * | 2021-10-20 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及存储介质 |
CN115375158A (zh) * | 2022-08-29 | 2022-11-22 | 中国建设银行股份有限公司 | 一种服务质量的评价方法及装置、电子设备、存储介质 |
Non-Patent Citations (2)
Title |
---|
YINGQIU LI 等: "An Evaluating Method of QoS for Composite Services Based on Interval Muti-attribute Decision Making", 《2022 INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION, BIG DATA & SMART CITY (ICITBS)》 * |
杨云龙: "移动互联网用户流量业务特征分析与研究", 《中国优秀硕士学位论文全文数据库 信息科技辑 2022年第03期》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116614431B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197652B (zh) | 用于生成信息的方法和装置 | |
EP3964963A1 (en) | Method and apparatus for performing a stress test on a business system | |
CN113869521A (zh) | 构建预测模型的方法、装置、计算设备和存储介质 | |
CN114564374A (zh) | 算子性能评估方法、装置、电子设备及存储介质 | |
CN112181782A (zh) | 基于ab测试的自适应灰度功能发布方法和装置 | |
Toczé et al. | Characterization and modeling of an edge computing mixed reality workload | |
CN115237804A (zh) | 性能瓶颈的评估方法、装置、电子设备、介质和程序产品 | |
CN115700548A (zh) | 用户行为预测的方法、设备和计算机程序产品 | |
CN116614431B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN110855474B (zh) | Kqi数据的网络特征提取方法、装置、设备及存储介质 | |
CN117176417A (zh) | 网络流量异常确定方法、装置、电子设备和可读存储介质 | |
CN112214770A (zh) | 恶意样本的识别方法、装置、计算设备以及介质 | |
US20210142213A1 (en) | Data Partitioning with Quality Evaluation | |
EP4149111A1 (en) | Method for determining video coding test sequence, related apparatus and computer program product | |
CN114510405B (zh) | 指标数据评估方法、装置、设备、存储介质及程序产品 | |
CN115827232A (zh) | 一种为业务模型确定配置的方法、装置、系统及设备 | |
CN112367628B (zh) | 一种电力物联网的智能化网络切片实例化方法及系统 | |
CN114511022A (zh) | 特征筛选、行为识别模型训练、异常行为识别方法及装置 | |
CN115860147A (zh) | 基于非平衡集成学习的报关单预判模型训练方法及装置 | |
US11003825B1 (en) | System, method, and computer program product for optimization in an electronic design | |
CN114254381A (zh) | 基于多方安全计算的数据评估方法、装置、设备及介质 | |
CN113742243B (zh) | 应用评测方法、装置、电子设备和计算机可读介质 | |
CN113486749A (zh) | 图像数据收集方法、装置、电子设备和计算机可读介质 | |
CN116708023B (zh) | 流量异常检测方法、装置、电子设备和可读存储介质 | |
Alzalam et al. | Demonstration of Real-Time Traffic Forecast on a Live 5G Testbed |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |