CN116108349B - 算法模型训练优化方法、装置及数据分类方法、系统 - Google Patents
算法模型训练优化方法、装置及数据分类方法、系统 Download PDFInfo
- Publication number
- CN116108349B CN116108349B CN202211632173.6A CN202211632173A CN116108349B CN 116108349 B CN116108349 B CN 116108349B CN 202211632173 A CN202211632173 A CN 202211632173A CN 116108349 B CN116108349 B CN 116108349B
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm model
- model
- parameters
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000005457 optimization Methods 0.000 title claims abstract description 60
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 105
- 238000012706 support-vector machine Methods 0.000 claims description 63
- 238000004458 analytical method Methods 0.000 claims description 58
- 238000007635 classification algorithm Methods 0.000 claims description 28
- 238000013480 data collection Methods 0.000 claims description 15
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- OUSLHGWWWMRAIG-FBCAJUAOSA-N (6r,7r)-7-[[(2z)-2-(furan-2-yl)-2-methoxyiminoacetyl]amino]-3-(hydroxymethyl)-8-oxo-5-thia-1-azabicyclo[4.2.0]oct-2-ene-2-carboxylic acid Chemical compound N([C@@H]1C(N2C(=C(CO)CS[C@@H]21)C(O)=O)=O)C(=O)\C(=N/OC)C1=CC=CO1 OUSLHGWWWMRAIG-FBCAJUAOSA-N 0.000 claims 12
- 238000007405 data analysis Methods 0.000 abstract description 4
- 238000013145 classification model Methods 0.000 description 4
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种算法模型训练优化方法,包括:获取数据集D,数据集D中具有少数类数据和多数类数据;分别获取少数类数据的信息熵H(I‑)、多数类数据的信息熵H(I+)以及数据集D的信息熵H(D);获取多数类数据的第一数据增益和少数类数据的第二数据增益;计算多数类数据到自身中心点的第一平均距离,少数类数据到自身中心点的第二平均距离;将作为多数类和少数类数据的惩罚参数C+和C‑之比,建立二分类算法模型,对二分类算法模型进行寻优计算以获得模型的最优参数。本发明还公开了对应的算法模型训练优化装置及数据分析方法、系统。本发明有效增加少数类数据的误分惩罚,在保证整体分类准确率的情况下,提高少数类的分类准确率。
Description
技术领域
本发明涉及一种数据的分类处理,尤其涉及数据分析处理时算法模型训练优化方法、装置及数据分类方法、系统。
背景技术
5G为人们带来高速率、低时延业务体验的同时,也带来了更加智能化和多样化的应用场景。在5G核心网中,NWDAF为网络提供机器智能,并提供集中式的预测分析平台,正是因为这一重要功能,5G网络得以提供更复杂的网络切片所需的性能,其中内置的AI/ML功能更是实现网络智能化的关键。通常,AI/ML模型输入给定训练数据集,从而得到相应的预测结果,在此过程中,主要通过评估模型的准确率来衡量AI/ML模型的性能,因此,NWDAF分类的正确率直接与AI/ML模型的准确率相关。然而,如果训练数据集在分布和特征方面与AI/ML模型在推理过程中输入的数据有显著差异,则可能导致模型的预测性能不佳的情况,此外,错误的计算或不平衡的数据收集也可能会影响模型的准确率。以二分类模型为例,预测未来一段时间网络是否发生拥塞,在收集的数据样本中,正常通信数据样本与拥塞数据样本的比例很可能严重不平衡,因为好的网络通常不易发生拥塞,倘若此时两种类别的数据比例为9:1,即使模型不加以训练直接将全部样本分类为正常通信,也能使得整体分类准确率高达90%,然而网络拥塞的预测准确率为0%,显然这样的模型不是一个好的模型,因为网络为了保证整体分类准确率忽略了少数类的识别。
现有技术中,NWDAF可以提供多种网络预测分析,其中,AF可以通过向网络获取未来一段时间网络是否发生拥塞、切片是否达到负载阈值等二元预测信息来对未来的业务进行相应调整。然而,对于二分类数据,当数据出现不平衡(即一个类别的数据明显多于/少于另一个类别的数据)时会对模型少数类的准确率造成严重影响,事实上网络中的这类二分类数据会出现数据不平衡的情况,例如:网络中只有少数时间是发生拥塞的,这就使得收集的数据中拥塞数据明显少于正常通信数据,当这种数据集输入到模型进行训练时,模型为了快速收敛,即使将输出结果全部分类为不发生拥塞也能得到很高的准确率,使得模型偏向多数类的识别,忽略了少数类的识别,然而,少数类(网络发生拥塞)才是预测的重点,因此需要采用适当的措施来提高少数类的分类准确率。
在专利CN109165694A中,公开了一种对非平衡数据集的分类方法及系统,包括:计算获得正类和负类训练集的类中心c1和c2以及训练集中心c,进而确定两类类中心的距离T、正类超平面、负类超平面、第一距离、第二距离、第三距离和第四距离,根据近邻算法确定正类数据和负类数据的紧密度Ci+和Ci-。根据第一距离、第二距离、紧密度Ci+、Ci-和两类类中心的距离T确定模糊隶属度函数,根据模糊隶属度函数及模糊双支持向量机确定分类模型。采用网格搜索算法和交叉验证法确定优化后的第一惩罚参数d1和优化后的第二惩罚参数d2,得到优化后的分类模型。将待分类的非平衡数据输入优化后的分类模型,得到对待分类的非平衡数据的分类结果。该技术数据的空间分布信息赋予样本点不同的隶属度值,以此减轻样本间的不平衡性。然而,该技术对样本进行处理时,只考虑了数据的空间分布信息,也就是类中心,未考虑到样本的其他情况尤其是数量差别对不平衡性的影响。又由于导致数据不平衡的最直接的原因就是两个类别的样本数量不同,因此,该专利中的分类方法依然不能完全解决数量级差别过大的样本不平衡问题。而且,该专利分类方法中,隶属函数构造过于复杂,而且采用的是网格搜索法进行参数寻优,会导致训练时间太长,增加训练成本和时间成本,尤其是对于高维数据,训练时间和训练成本均过高。
故,急需一种可解决上述问题的方法。
发明内容
本发明的目的是提供一种算法模型训练优化方法、装置及数据分类方法、系统,结合数据集中多数类和少数类数据的空间信息和样本数量信息来调整惩罚参数,有效增加少数类数据的误分惩罚,在保证整体分类准确率的情况下,提高少数类的分类准确率。
为了实现上述目的,本发明公开了一种算法模型训练优化方法,包括:获取数据集D,数据集D中具有少数类数据和多数类数据;分别获取数据集D中少数类数据的信息熵H(I-)、多数类数据的信息熵H(I+)以及数据集D的信息熵H(D);获取多数类数据的第一数据增益:;获取少数类数据的第二数据增益:/>;计算多数类数据到自身中心点的第一平均距离/>;计算少数类数据到自身中心点的第二平均距离/>;将/>作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,建立二分类算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数,将所述最优参数作为二分类算法模型的模型参数。
较佳地,数据集,/>为每个数据的特征,/>为对应的标签,m、n分别为少数类数据I+和多数类数据I-的数量,数据集D的信息熵H(D)为:;少数类数据的信息熵H(I-)为:/>:多数类数据的信息熵H(I+)为:/>;多数类数据到自身中心点的第一平均距离为:/>,/>;少数类数据到自身中心点的第二平均距离/>为:/>,/>。
较佳地,二分类算法模型为SVM算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数求解具体为:将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,带入SVM算法模型中,对SVM算法模型进行迭代寻优计算,以获得SVM算法模型的模型参数。
具体地,设置SVM算法模型进行迭代寻优计算具体包括: 确定需要的适应度函数;初始化果蝇算法中种群数量和种群规模,将SVM相关参数和/>作为优化参数;建立SVM算法模型并进行预测,SVM算法模型的目标函数为:
,其中,w和b为最优分类超平面的参数,/>为松弛变量;依据预测结果计算适应度值,获得每个种群的最佳值并记录下来;返回步骤“确定需要的适应度函数”直至最后一个种群完成迭代;输出最优参数/>和/>;将最优参数/>和/>带入SVM算法模型的目标函数中进行求解,获得最优参数/>以及最优分类超平面根的参数/>和/>;所述SVM算法模型的模型参数包括/>、/>、/>以及/>和/>。本方案采用果蝇算法对参数进行寻优,能加快模型的训练速度,降低训练成本和时间成本。
更具体地,将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数/>以及最优分类超平面根的参数/>和/>具体包括:由目标函数得到拉格朗日函数,然后根据拉格朗日函数分别对w、b和/>求偏导并令导函数为0,并将所得结果代入目标函数中,通过计算最优拉格朗日乘子得到最优分类超平面根的参数/>和/>,将参数/>带入公式获取参数/>。
本发明还公开了一种数据分类方法,包括:按照时间间隔收集第一数据,所述第一数据包括分析数据和对应分类结果,记录所述分析数据和对应分类结果;依据二分类算法模型对所述分析数据进行处理以获得预测结果;依据所述预测结果和对应的对应分类结果计算预测结果准确性,判断所述预测结果准确性是否满足预设值,若否则对二分类算法模型的模型参数依据如上所述的算法模型训练优化方法进行优化,所述数据集D包括历史的第一数据。
较佳地,按照时间间隔收集第一数据包括:DCCF向相关NFs收集第一数据,NFs根据请求的时间间隔定期向DCCF上报第一数据,DCCF将收集的第一数据返回给AnLF;AnLF依据二分类算法模型对所述分析数据进行处理以获得预测结果。
具体地,对二分类算法模型的模型参数依据所述算法模型训练优化方法进行优化包括:NWDAF可以向MTLF请求模型参数,MTLF向DCCF请求分析数据,DCCF向ADRF检索UE的历史第一数据,DCCF向相关NFs收集第一数据,NFs根据请求的时间间隔定期向DCCF上报第一数据,DCCF将收集的第一数据和历史的第一数据一并返回给MTLF,MTLF利用DCCF返回的第一数据以及所述算法模型训练优化方法进行模型训练,直到模型收敛,模型评价指标达到给定阈值,MTLF将模型参数返回给AnLF,AnLF存储模型参数。
本发明还公开了一种算法模型参数优化装置,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由一个或多个处理器执行以实现如上所述的算法模型训练优化方法。
本发明还公开了一种数据分类系统,包括DCCF、NFs、AnLF、MTLF,DCCF向相关NFs收集第一数据,并将收集的第一数据返回给AnLF,所述第一数据包括分析数据和对应的对应分类结果,AnLF依据二分类算法模型对分析数据进行处理以获得预测结果,依据所述预测结果和对应的对应分类结果计算预测结果准确性,判断所述预测结果准确性是否满足预设值,若否则向MTLF请求参数模型,MTLF利用DCCF返回的第一数据以及算法模型训练优化方法进行模型训练,直到模型收敛,模型评价指标达到给定阈值,MTLF将模型参数返回给AnLF,AnLF存储模型参数;所述算法模型训练优化方法如上所述。
与现有技术相比,本发明不但考虑了不平衡数据的空间信息还考虑了不平衡数据的数量信息,通过信息增益来反应不平衡数据中少数类和多数类的效用价值,通过同一类数据的信息增益和平均损失的乘积来得到该种类数据的平均误分损失,以两类数据样本中平均误分损失的反比作为对应惩罚参数之比来设立算法模型进行优化训练,增大了少数类数据的误分惩罚,在保证整体分类准确率的情况下,提高少数类的分类准确率。
附图说明
图1是本发明算法模型训练优化方法的流程图。
图2是本发明算法模型训练优化方法的部分流程图。
图3是本发明数据分类系统的结构图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
参考图1,本发明公开了一种算法模型训练优化方法100。NWDAF进行网络预测分析时,经常采用化二分类算法模型对数据进行分析分类,本发明算法模型训练优化方法100用于对NWDAF的二分类算法模型中的模型参数进行优化或者在建立二分类算法模型时训练二分类算法模型。该算法模型训练优化方法100包括步骤S11至S17。
S11,获取数据集D,数据集D中具有少数类数据和多数类数据。
S12,分别获取数据集D中少数类数据的信息熵H(I-)、多数类数据的信息熵H(I+)以及数据集D的信息熵H(D)。
S13,获取多数类数据的第一数据增益:,获取少数类数据的第二数据增益:/>。
S14,计算多数类数据到自身中心点的第一平均距离;计算少数类数据到自身中心点的第二平均距离/>。
S15,依据第一数据增益和第一平均距离的乘积获得多数类数据的平均误分损失,依据第二数据增益和第二平均距离的乘积/>获得少数类数据的平均误分损失。
S16,将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比。
S17,建立二分类算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数,将所述最优参数作为二分类算法模型的模型参数。
其中,数据集,/>为每个数据的特征,/>为对应的标签,m、n分别为少数类数据I+和多数类数据I-的数量。其中,/>一般取值-1或1,-1代表通信正常(如网络不发生拥塞、切片未达到负载阈值等),1代表通信异常(如:网络发生拥塞、切片达到负载阈值等),从/>可以判断该数据为少数类数据还是多数类数据。
数据集D的信息熵H(D)为:。
少数类数据的信息熵H(I-)为:。
多数类数据的信息熵H(I+)为:。
多数类数据到自身中心点的第一平均距离为:/>,。
少数类数据到自身中心点的第二平均距离为:/>,。
少数类数据I+和多数类数据I-中样本的中心点分别为、/>。
其中,二分类算法模型为SVM算法模型(支持向量机模型),对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数求解具体为:将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,带入SVM算法模型中,对SVM算法模型进行迭代寻优计算,以获得SVM算法模型的模型参数。当然也可以使用其他二分类算法模型,不限于SVM算法模型。
具体地,设置SVM算法模型进行迭代寻优计算具体包括步骤S21-S27。
S21,确定需要的适应度函数(预测的准确率目标)。
S22,初始化果蝇算法中种群数量和种群规模,将SVM相关参数和/>作为优化参数。
S23,建立SVM算法模型并进行预测,SVM算法模型的目标函数为,其中,w和b为最优分类超平面的参数,为松弛变量。
S24,依据预测结果计算适应度值(预测的准确率),获得每个种群的最佳值并记录下来。
S25,判断最后一个种群是否完成迭代,若否则返回步骤S21,若是则执行步骤S26。
S26,输出最优参数和/>。
S27,将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数以及最优分类超平面根的参数/>和/>,所述SVM算法模型的模型参数包括/>、/>、/>以及/>和/>。
其中,将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数以及最优分类超平面根的参数/>和/>具体包括:由目标函数得到拉格朗日函数,然后根据拉格朗日函数分别对w、b和/>求偏导并令导函数为0,并将所得结果代入目标函数中,通过计算最优拉格朗日乘子得到最优分类超平面根的参数/>和/>,将参数/>带入公式获取参数/>。
本发明还公开了一种数据分类方法,包括:按照时间间隔收集第一数据,所述第一数据包括分析数据和对应分类结果,记录所述分析数据和对应分类结果;依据二分类算法模型对所述分析数据进行处理以获得预测结果;依据所述预测结果和对应的对应分类结果计算预测结果准确性,判断所述预测结果准确性是否满足预设值(适应度值),若否则对二分类算法模型的模型参数依据如上所述的算法模型训练优化方法100进行优化,若是则继续进行数据分类。所述数据集D包括历史的第一数据。
其中,按照时间间隔收集第一数据包括:DCCF向相关NFs收集第一数据,NFs根据请求的时间间隔定期向DCCF上报第一数据,DCCF将收集的第一数据返回给AnLF;AnLF依据二分类算法模型对所述分析数据进行处理以获得预测结果。
具体地,对二分类算法模型的模型参数依据所述算法模型训练优化方法进行优化包括:NWDAF可以向MTLF请求模型参数,MTLF向DCCF请求分析数据,DCCF向ADRF检索UE的历史第一数据,DCCF向相关NFs收集第一数据,NFs根据请求的时间间隔定期向DCCF上报第一数据,DCCF将收集的第一数据和历史的第一数据一并返回给MTLF,MTLF利用DCCF返回的第一数据以及所述算法模型训练优化方法进行模型训练,直到模型收敛,模型评价指标达到给定阈值,MTLF将模型参数返回给AnLF,AnLF存储模型参数。
本发明还公开了一种算法模型参数优化装置,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由一个或多个处理器执行以实现如上所述的算法模型训练优化方法100。
参考图3,本发明还公开了一种数据分类系统,包括DCCF(Data CollectionCoordination Function 数据收集协调功能)、NFs(Network Function 网络功能群)、AnLF(Analytics logical function 分析逻辑功能)和MTLF(Model Training logicalfunction 模型训练逻辑功能),DCCF向相关NFs收集第一数据,并将收集的第一数据返回给AnLF,所述第一数据包括分析数据和对应的对应分类结果,AnLF依据二分类算法模型对分析数据进行处理以获得预测结果,依据所述预测结果和对应的对应分类结果计算预测结果准确性,判断所述预测结果准确性是否满足预设值,若否则向MTLF请求参数模型,MTLF利用DCCF返回的第一数据以及算法模型训练优化方法进行模型训练,直到模型收敛,模型评价指标达到给定阈值,MTLF将模型参数返回给AnLF,AnLF存储模型参数;所述算法模型训练优化方法如上所述。
具体的,数据分类系统还包括AF(Application Function 应用端功能)、NEF(Network Exposure Function 网络能力开放功能)、UDM(Unified Data Management 通用数据管理)、NWDAF(Network Data Analytics Function 网络数据分析功能)和ADRF(Analytics Data Repository Function 分析数据存储库功能,该NWDAF包括AnLF(Analytics logical function 分析逻辑功能)和MTLF(Model Training logicalfunction 模型训练逻辑功能),本发明用于调整优化二分类算法模型的模型参数,以提高NWDAF的分析准确率。
该数据分类系统分析信息的过程如下:
1、AF发起分析信息请求,请求信息包括AF标识、分析ID(如:网络拥塞分析、切片负载分析等)、请求分析的时间段、分析报告的目标:特定UE或全部UE、感兴趣区域等;NEF授权AF的请求,并请求NWDAF中的AnLF得到分析信息。
2、AnLF向UDM检索用户是否同意数据检索和分析,若分析报告的目标是全部UE,当有UE不同意数据检索和分析时,则忽略此UE并继续执行以下步骤;若分析报告的目标为特定UE,当UE不同意数据检索和分析时,则AnLF拒绝NEF转发过来的请求,并指示拒绝的原因:用户不同意。
3、AnLF向DCCF请求第一数据,请求的消息中包括UE标识、分析ID、数据上报的时间间隔等。
4、DCCF向相关NFs收集第一数据,NFs根据请求的时间间隔定期向DCCF上报第一数据。
5、DCCF将收集的第一数据返回给AnLF。
6、当NWDAF中的AnLF没有相关分析的模型或检测到输入数据分布异常时(分析预测结果准确性不满足预设值),NWDAF可以向内置的MTLF或分开部署的NWDAF中的MTLF请求模型参数,并在请求消息中指示原因:没有相关分析/数据分布异常;否则跳过步骤6-12。
7、MTLF向DCCF请求分析数据,请求的消息中包括UE标识、分析ID、数据上报的时间间隔等。
8、DCCF向ADRF检索UE的历史的第一数据。
9、DCCF向相关NFs收集第一数据,NFs根据请求的时间间隔定期向DCCF上报第一数据。
10、DCCF将收集的第一数据和历史第一数据一并返回给内置MTLF的NWDAF;
11、NWDAF中的MTLF利用DCCF返回的第一数据进行模型训练,直到模型收敛,模型评价指标达到给定阈值;具体地,依据上述算法模型训练优化方法进行模型训练。
12、MTLF将模型参数返回给AnLF。
13、AnLF存储分析模型参数得出分析预测结果。
14、NWDAF将分析预测结果通过NEF转发给AF。
与现有技术相比,本发明针对由于数据不平衡导致模型预测性能欠佳的情况,当检测到数据分布失衡时,可以采用必要的措施重新训练新的算法模型来克服不平衡数据分布对预测结果的影响,提高少数类的分类准确率,提高分类时分析预测的准确性,网络智能化水平更高。
以上所揭露的仅为本发明的优选实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。
Claims (18)
1.一种算法模型训练优化方法,其特征在于:包括:
获取数据集D,所述数据集为通信样本数据,数据集D中具有少数类数据和多数类数据;
分别获取数据集D中少数类数据的信息熵H(I-)、多数类数据的信息熵H(I+)以及数据集D的信息熵H(D);
获取多数类数据的第一数据增益:;
获取少数类数据的第二数据增益:;
计算多数类数据到自身中心点的第一平均距离;
计算少数类数据到自身中心点的第二平均距离;
将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,建立二分类算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数,将所述最优参数作为二分类算法模型的模型参数。
2.如权利要求1所述的算法模型训练优化方法,其特征在于:数据集,/>为每个数据的特征,/>为对应的标签,m、n分别为少数类数据I+和多数类数据I-的数量,数据集D的信息熵H(D)为:/>;
少数类数据的信息熵H(I-)为::
多数类数据的信息熵H(I+)为:;
多数类数据到自身中心点的第一平均距离为:/>,/>;
少数类数据到自身中心点的第二平均距离为:/>,/>。
3.如权利要求1所述的算法模型训练优化方法,其特征在于:二分类算法模型为SVM算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数求解具体为:将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,带入SVM算法模型中,对SVM算法模型进行迭代寻优计算,以获得SVM算法模型的模型参数。
4.如权利要求3所述的算法模型训练优化方法,其特征在于:设置SVM算法模型进行迭代寻优计算具体包括:
确定需要的适应度函数;
初始化果蝇算法中种群数量和种群规模,将SVM相关参数和/>作为优化参数;
建立SVM算法模型并进行预测, SVM算法模型的目标函数为:
,其中,w和b为最优分类超平面的参数,/>为松弛变量;
依据预测结果计算适应度值,获得每个种群的最佳值并记录下来;
返回步骤“确定需要的适应度函数”直至最后一个种群完成迭代;
输出最优参数和/>;
将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数/>以及最优分类超平面根的参数/>和/>;所述SVM算法模型的模型参数包括/>、/>、/>以及/>和/>。
5.如权利要求4所述的算法模型训练优化方法,其特征在于:将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数/>以及最优分类超平面根的参数/>和/>具体包括:由目标函数得到拉格朗日函数,然后根据拉格朗日函数分别对w、b和/>求偏导并令导函数为0,并将所得结果代入目标函数中,通过计算最优拉格朗日乘子得到最优分类超平面根的参数/>和/>,将参数/>带入公式/>获取参数/>。
6.一种数据分类方法,其特征在于:包括:
按照时间间隔收集第一数据,所述第一数据包括分析数据和对应分类结果,记录所述分析数据和对应分类结果;
依据二分类算法模型对所述分析数据进行处理以获得预测结果;
依据所述预测结果和对应的对应分类结果计算预测结果准确性,判断所述预测结果准确性是否满足预设值,若否则对二分类算法模型的模型参数依据算法模型训练优化方法进行优化,数据集D包括历史的第一数据;其中,
所述算法模型训练优化方法包括:获取数据集D,数据集D中具有少数类数据和多数类数据;
分别获取数据集D中少数类数据的信息熵H(I-)、多数类数据的信息熵H(I+)以及数据集D的信息熵H(D);
获取多数类数据的第一数据增益:;
获取少数类数据的第二数据增益:;
计算多数类数据到自身中心点的第一平均距离;
计算少数类数据到自身中心点的第二平均距离;
将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,建立二分类算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数,将所述最优参数作为二分类算法模型的模型参数。
7.如权利要求6所述的数据分类方法,其特征在于:
按照时间间隔收集第一数据包括:数据收集协调功能DCCF向相关网络功能群NFs收集第一数据,网络功能群NFs根据请求的时间间隔定期向数据收集协调功能DCCF上报第一数据,数据收集协调功能DCCF将收集的第一数据返回给分析逻辑功能AnLF;
分析逻辑功能AnLF依据二分类算法模型对所述分析数据进行处理以获得预测结果。
8.如权利要求7所述的数据分类方法,其特征在于:对二分类算法模型的模型参数依据所述算法模型训练优化方法进行优化包括:NWDAF可以向模型训练逻辑功能MTLF请求模型参数,模型训练逻辑功能MTLF向数据收集协调功能DCCF请求分析数据,数据收集协调功能DCCF向分析数据存储库功能ADRF检索UE的历史第一数据,数据收集协调功能DCCF向相关网络功能群NFs收集第一数据,网络功能群NFs根据请求的时间间隔定期向数据收集协调功能DCCF上报第一数据,数据收集协调功能DCCF将收集的第一数据和历史的第一数据一并返回给模型训练逻辑功能MTLF,模型训练逻辑功能MTLF利用数据收集协调功能DCCF返回的第一数据以及所述算法模型训练优化方法进行模型训练,直到模型收敛,模型评价指标达到给定阈值,模型训练逻辑功能MTLF将模型参数返回给分析逻辑功能AnLF,分析逻辑功能AnLF存储模型参数。
9.如权利要求6所述的数据分类方法,其特征在于:数据集,/>为每个数据的特征,/>为对应的标签,m、n分别为少数类数据I+和多数类数据I-的数量,数据集D的信息熵H(D)为:/>;
少数类数据的信息熵H(I-)为::
多数类数据的信息熵H(I+)为:;
多数类数据到自身中心点的第一平均距离为:/>,/>;
少数类数据到自身中心点的第二平均距离为:/>,/>。
10.如权利要求6所述的数据分类方法,其特征在于:二分类算法模型为SVM算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数求解具体为:将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,带入SVM算法模型中,对SVM算法模型进行迭代寻优计算,以获得SVM算法模型的模型参数。
11.如权利要求10所述的数据分类方法,其特征在于:设置SVM算法模型进行迭代寻优计算具体包括:
确定需要的适应度函数;
初始化果蝇算法中种群数量和种群规模,将SVM相关参数和/>作为优化参数;
建立SVM算法模型并进行预测, SVM算法模型的目标函数为:
,其中,w和b为最优分类超平面的参数,/>为松弛变量;
依据预测结果计算适应度值,获得每个种群的最佳值并记录下来;
返回步骤“确定需要的适应度函数”直至最后一个种群完成迭代;
输出最优参数和/>;
将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数/>以及最优分类超平面根的参数/>和/>;所述SVM算法模型的模型参数包括/>、/>、/>以及/>和/>。
12.如权利要求11所述的数据分类方法,其特征在于:将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数/>以及最优分类超平面根的参数/>和/>具体包括:由目标函数得到拉格朗日函数,然后根据拉格朗日函数分别对w、b和/>求偏导并令导函数为0,并将所得结果代入目标函数中,通过计算最优拉格朗日乘子得到最优分类超平面根的参数/>和/>,将参数/>带入公式/>获取参数/>。
13.一种算法模型参数优化装置,其特征在于:包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由一个或多个处理器执行以实现如权利要求1-5中任一项所述的算法模型训练优化方法。
14.一种数据分类系统,其特征在于:包括数据收集协调功能DCCF、网络功能群NFs、分析逻辑功能AnLF、模型训练逻辑功能MTLF,数据收集协调功能DCCF向相关网络功能群NFs收集第一数据,并将收集的第一数据返回给分析逻辑功能AnLF,所述第一数据包括分析数据和对应的对应分类结果,分析逻辑功能AnLF依据二分类算法模型对分析数据进行处理以获得预测结果,依据所述预测结果和对应的对应分类结果计算预测结果准确性,判断所述预测结果准确性是否满足预设值,若否则向模型训练逻辑功能MTLF请求参数模型,模型训练逻辑功能MTLF利用数据收集协调功能DCCF返回的第一数据以及算法模型训练优化方法进行模型训练,直到模型收敛,模型评价指标达到给定阈值,模型训练逻辑功能MTLF将模型参数返回给分析逻辑功能AnLF,分析逻辑功能AnLF存储模型参数;所述算法模型训练优化方法所述算法模型训练优化方法包括:获取数据集D,数据集D中具有少数类数据和多数类数据;
分别获取数据集D中少数类数据的信息熵H(I-)、多数类数据的信息熵H(I+)以及数据集D的信息熵H(D);
获取多数类数据的第一数据增益:;
获取少数类数据的第二数据增益:;
计算多数类数据到自身中心点的第一平均距离;
计算少数类数据到自身中心点的第二平均距离;
将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,建立二分类算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数,将所述最优参数作为二分类算法模型的模型参数。
15.如权利要求14所述的数据分类系统,其特征在于:数据集,/>为每个数据的特征,/>为对应的标签,m、n分别为少数类数据I+和多数类数据I-的数量,数据集D的信息熵H(D)为:/>;
少数类数据的信息熵H(I-)为::
多数类数据的信息熵H(I+)为:;
多数类数据到自身中心点的第一平均距离为:/>,/>;
少数类数据到自身中心点的第二平均距离为:/>,/>。
16.如权利要求14所述的数据分类系统,其特征在于:二分类算法模型为SVM算法模型,对二分类算法模型进行寻优计算以获得所述二分类算法模型的最优参数求解具体为:将作为多数类数据的惩罚参数C+和少数类数据的惩罚参数C-之比,带入SVM算法模型中,对SVM算法模型进行迭代寻优计算,以获得SVM算法模型的模型参数。
17.如权利要求16所述的数据分类系统,其特征在于:设置SVM算法模型进行迭代寻优计算具体包括:
确定需要的适应度函数;
初始化果蝇算法中种群数量和种群规模,将SVM相关参数和/>作为优化参数;
建立SVM算法模型并进行预测, SVM算法模型的目标函数为:
,其中,w和b为最优分类超平面的参数,/>为松弛变量;
依据预测结果计算适应度值,获得每个种群的最佳值并记录下来;
返回步骤“确定需要的适应度函数”直至最后一个种群完成迭代;
输出最优参数和/>;
将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数/>以及最优分类超平面根的参数/>和/>;所述SVM算法模型的模型参数包括/>、/>、/>以及/>和/>。
18.如权利要求17所述的数据分类系统,其特征在于:将最优参数和/>带入SVM算法模型的目标函数中进行求解,获得最优参数/>以及最优分类超平面根的参数/>和/>具体包括:由目标函数得到拉格朗日函数,然后根据拉格朗日函数分别对w、b和/>求偏导并令导函数为0,并将所得结果代入目标函数中,通过计算最优拉格朗日乘子得到最优分类超平面根的参数/>和/>,将参数/>带入公式/>获取参数/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211632173.6A CN116108349B (zh) | 2022-12-19 | 2022-12-19 | 算法模型训练优化方法、装置及数据分类方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211632173.6A CN116108349B (zh) | 2022-12-19 | 2022-12-19 | 算法模型训练优化方法、装置及数据分类方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116108349A CN116108349A (zh) | 2023-05-12 |
CN116108349B true CN116108349B (zh) | 2023-12-15 |
Family
ID=86257212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211632173.6A Active CN116108349B (zh) | 2022-12-19 | 2022-12-19 | 算法模型训练优化方法、装置及数据分类方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108349B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165694A (zh) * | 2018-09-12 | 2019-01-08 | 太原理工大学 | 一种对非平衡数据集的分类方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112202736B (zh) * | 2020-09-15 | 2021-07-06 | 浙江大学 | 基于统计学习和深度学习的通信网络异常分类方法 |
-
2022
- 2022-12-19 CN CN202211632173.6A patent/CN116108349B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165694A (zh) * | 2018-09-12 | 2019-01-08 | 太原理工大学 | 一种对非平衡数据集的分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
Cost-sensitive Support Vector Machines;Hamed Masnadi-Shirazi等;https://arxiv.org/abs/1212.0975;第1-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116108349A (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335168B (zh) | 基于gru优化用电信息采集终端故障预测模型的方法及系统 | |
Elsherbiny et al. | 4G LTE network throughput modelling and prediction | |
CN111291822B (zh) | 基于模糊聚类最优k值选择算法的设备运行状态判断方法 | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
WO2016188498A1 (zh) | 一种无线网络吞吐量的评估方法及装置 | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN112307927A (zh) | 基于bp网络针对非合作通信中mpsk信号的识别研究 | |
CN113343123B (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
CN116108349B (zh) | 算法模型训练优化方法、装置及数据分类方法、系统 | |
CN112785004A (zh) | 一种基于粗糙集理论和d-s证据理论的温室智能决策方法 | |
CN111930484A (zh) | 一种电网信息通信服务器线程池性能优化方法与系统 | |
CN116797096A (zh) | 基于ahp-熵权法的供应链韧性水平模糊综合评估方法 | |
CN115174263B (zh) | 攻击路径动态决策方法与装置 | |
CN109993556B (zh) | 用户行为分析方法、装置、计算设备及存储介质 | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
CN111835541B (zh) | 一种流量识别模型老化检测方法、装置、设备及系统 | |
Dheenadayalan et al. | Pruning a random forest by learning a learning algorithm | |
Wu et al. | AMS Intrusion Detection Method Based on Improved Generalized Regression Neural Network | |
CN107135126B (zh) | 基于子流分形指数的流量在线识别方法 | |
CN118449885A (zh) | 数据流转一致性与异常检测方法及装置 | |
CN118338052B (zh) | 基于大数据的直播状态监测方法及系统 | |
Ma et al. | A Counterfactual Inspired Framework For Quantifying Edge Effects On Gnns Fairness | |
CN118826172A (zh) | 典型接线方式对分布式能源的消纳特性评估方法及装置 | |
CN118779408A (zh) | 基于nlp的档案全文检索系统及方法 | |
Haghighat et al. | Improving LoRaWAN Fingerprint-Based Localization by Detecting and Eliminating Noisy RSSI Measurements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |