CN116401586A - 一种全场景业务智能感知与精准分类的方法 - Google Patents
一种全场景业务智能感知与精准分类的方法 Download PDFInfo
- Publication number
- CN116401586A CN116401586A CN202310432373.5A CN202310432373A CN116401586A CN 116401586 A CN116401586 A CN 116401586A CN 202310432373 A CN202310432373 A CN 202310432373A CN 116401586 A CN116401586 A CN 116401586A
- Authority
- CN
- China
- Prior art keywords
- samples
- sample
- data
- feature
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000000523 sample Substances 0.000 claims abstract description 162
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 208000015181 infectious disease Diseases 0.000 claims abstract description 28
- 230000008447 perception Effects 0.000 claims abstract description 28
- 238000003064 k means clustering Methods 0.000 claims abstract description 26
- 238000007637 random forest analysis Methods 0.000 claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 238000010187 selection method Methods 0.000 claims abstract description 8
- 238000003066 decision tree Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 16
- 208000021017 Weight Gain Diseases 0.000 claims description 13
- 239000013074 reference sample Substances 0.000 claims description 13
- 230000004584 weight gain Effects 0.000 claims description 13
- 235000019786 weight gain Nutrition 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开一种全景业务智能感知与精准分类的方法,包括:感知探针收集业务端信息不同业务类型的特征数据,将特征数据切分为有标签数据和无标签数据;并基于混合式的特征选择方法对有标签数据进行特征子集构建,并获取全局最优特征子集;基于训练完成的基于改进的K均值聚类算法的半监督学习模型,输出业务端感染数据;感知探针收集、存储和传输用户端的业务请求信息,并将业务请求信息作为先验信息,训练完成的卷积神经网络模型对先验信息和的业务端感染数据,输出高层特征;并将训练完成的随机森林业务感知与识别模型对高层特征进行分类。通过本发明公布的全景业务智能感知与精准分类的方法,能够提升混合业务感知识别的准确性。
Description
技术领域
本发明涉及信息网络技术领域,具体为一种全场景业务智能感知与精准分类的方法。
背景技术
天地一体化信息网络由包括天基骨干网、天基接入网和地基节点网在内的天基网络、地面互联网、地面移动通信网等多种异构网络互联、融合而成,采用统一的技术体制和标准规范。其中,地面互联网、移动通信网等地面网络,主要为互联网用户提供接入卫星网络的服务等。
拓扑动态、网元异构天地融合网络的业务种类丰富多样,不同业务对服务质量QoS(Quality ofService,QoS)的需求不同,而如何准确高效的区分各种不同类型的业务流,涉及到业务感知领域。
基于IP(Internet Protocol,IP)分组技术的网络中各种业务种类丰富多样,业务感知技术是将网络中不同的业务流进行区分的技术。业务感知含有三方面的概念:感知对象、感知方式以及感知结果。感知对象可以是数据包,或是业务流。感知方式可以是通过协议解析,或是通过分析流量特征,或两者结合。感知结果即感知行为所需要的结果,即相应的分类需求。业务感知技术包括对业务的分类技术、业务特征提取技术,分别对应于业务感知技术感知主体的确定,以及感知的具体手段。
空天地一体化信息网络需要及时地感知当前的网络环境中业务的信息,这些信息将用于后面的规划、决策等认知处理过程。目前大部分业务流分类算法都主要着眼于单一场景下的业务感知与识别。其次,天地融合网络中的业务往往是动态变化的,且具有快速响应需求,现有的业务感知识别算法难以满足业务准确识别的需求。合适的业务智能识别模型可以增强网络服务动态管理和配置过程中对用户多类型业务变化的适应性,提升混合业务感知识别的准确性。因此,目前的业务感知识别算法有待于进一步优化。
现有技术中,Wang Z J,Dong Y N,Zhang H,et al.A multimedia trafficclassification method based on improved Hidden MarkovModel[J].Journal ofElectronics&Information Technology,2015,37(2):499-503,以数据包大小和数据包到达时间间隔作为特征,建立马尔科夫模型HMM实现业务流粗粒度的分类,能够优化对业务流的分类精度,但同时存在一些未能有效解决的技术瓶颈,包括:
(1)未考虑样本不平衡的问题:训练样本的类别数量、比例等对分类结果有很大影响,因此对样本的采集要求非常高。
(2)未考虑对未标记数据的利用:很多现实问题当中,一方面由于人工标记样本的成本十分高昂,导致了有标签的样本十分稀少,另一方面,无标签的样本很容易被收集到,其数量往往是有标签样本的上百倍,忽略无标签数据也就错过了大量潜在的训练样本。
(3)未考虑业务的动态变化对分类造成的预测精度影响。
发明内容
本发明所要解决的技术问题在于:解决未考虑样本不平衡、忽略了未标记数据的利用和业务的动态变化对分类造成的预测精度影响的问题。
为解决上述技术问题,本发明提供如下技术方案:
一种全景业务智能感知与精准分类的方法,包括以下步骤:
S100,感知探针收集业务端信息不同业务类型的特征数据,将所述特征数据切分为有标签数据和无标签数据;并基于混合式的特征选择方法对所述有标签数据进行特征子集构建,并获取全局最优特征子集;
S200,同时,将所述有标签数据切分为有标签训练数据和有标签测试数据,并通过所述有标签训练数据和所述有标签测试数据对基于改进的K均值聚类算法的半监督学习模型进行训练,基于训练完成的基于改进的K均值聚类算法的半监督学习模型,对所述有标签训练数据和所述无标签数据进行聚类,对所述无标签数据进行感染,输出业务端感染数据;
S300,所述感知探针收集、存储和传输用户端的业务请求信息,并将所述业务请求信息作为先验信息,将所述先验信息和所述业务端感染数据对卷积神经网络模型进行训练,训练完成的卷积神经网络模型对所述先验信息和所述的业务端感染数据,提取和挖掘业务特征,输出高层特征;
S400,再将所述先验信息和所述业务端感染数据对随机森林业务感知与识别模型进行训练,并将训练完成的随机森林业务感知与识别模型对所述高层特征进行分类,实现对客户端多类型业务进行识别。
优点:通过将大量无标签数据的样本经过基于改进的K均值聚类算法的半监督学习模型后和少量有标签数据的样本包含在同样的聚簇中,实现无标签数据的利用,并实现同类样本之间的平衡分布。通过增加先验信息输入,对卷积神经网络模型进行定期训练,使输出的高层特征,在输入后续的随机森林业务感知与识别模型中能够提高识别精度,避免业务的动态变化对分类造成的影响。
在本发明的一实施例,所述并基于混合式的特征选择方法对所述有标签数据进行特征子集构建,并获取全局最优特征子集,包括以下步骤:
S110,采用FCBF、InfoGain、GainRatio、Chi.square和Consistency这五种特征选择算法,分别输出所述有标签数据的特征子集;
S120,采用KNN算法分别评估步骤S110输出的五个特征子集的有效性,并获取准确率排名前三的特征子集;
S130,将所述准确率排名前三的特征子集求并集,获取其中各个特征的频度,将频度过低的特征剔除,获取剩余特征子集;
S140,将所述剩余特征子集作为选择性集成特征子集的输出结果;
S150,从空集开始,每次从未选入的特征中选入一个特征,并且将该特征加入与所述选择性集成特征子集进行组合,获取特征组合子集,再次采用所述KNN算法评估所述特征组合子集的准确率,当增加特征后准确率不再增加时,搜索过程结束;
S160,将获取的准确率最高的特征组合子集作为全局最优特征子集。
在本发明的一实施例,所述基于训练完成的基于改进的K均值聚类算法的半监督学习模型,对所述有标签训练数据和所述无标签数据进行聚类,对所述无标签数据进行感染,输出业务端感染数据,包括以下步骤:
S210,剔除噪声样本;
S220,将少数样本类进行同类聚类,以及根据每个少数样本类中每个聚簇包含的样本数,获取各少数样本聚簇的采样权重;并由所述采样权重和剔除所述噪声样本后剩余的最多样本类和所述少数样本类的样本数差额,获取每个少数样本聚簇所需要的插值数,以满足同类样本间的平衡分布;
S230,根据所述少数样本聚簇中各样本的样本权重,并根据所述样本权重挑选难以学习但包含重要信息的少数样本类样本作为种子样本,将被选中的样本权重设置为固定值,获取权重增益;并根据所述权重增益和被选中的样本权重,对其进行归一化处理,获取聚簇中每个样本被采样的概率;
S240,每次从所述少数样本类的样本集中选中部分参考样本,并获取对所述少数样本聚簇进行插值的插值位置,将所述参考样本,结合所述插值数,在所述插值位置对其插值;
S250,根据聚类轮廓系数转换后的最大值点,确定聚类的簇数,进行K均值聚类;
S260,根据簇中带有标签数据的类对确定无标签数据的类,完成对无标签数据的感染;
S270,重新判断各类样本数,若当前最多类样本数和最少类样本数的比值大于阈值,则再次执行步骤S210-S240;否则,则执行步骤S300。
在本发明的一实施例,其中,所述各少数样本聚簇的采样权重通过以下公式获取:
式中,Wi为第i个少数样本聚簇的采样权重,N为每个少数样本类中的聚簇数,ni为少数样本类第i个聚簇中包含的样本数,nj为少数样本类第j个聚簇中包含的样本数;
所述每个少数样本聚簇所需要的插值数,通过以下公式获取:
numi=(Nmax-Nmin)Wi;
式中,numi表示为第i个少数样本聚簇所需要的插值数;Nmax表示为最多样本类;Nmix表示为少数对样本类;
所述权重增益通过以下公式获取:
式中,p表示为权重增益,n表示为该样本点Q个近邻中非同类样本的数目,di为该样本点与各个临近非同类样本的欧式距离;
所述对所述少数样本聚簇进行插值的插值位置通过以下公式获取:
式中,xi表示为第i插值点的插值位置;m表示为参考样本数,dc表示为种子样本点到第c个参考样本的欧式距离,dj表示为第j个参考样本的欧氏距离,Pic表示为第i插值点对应的第c个参考样本的特征值。
在本发明的一实施例,在步骤S250中,K均值聚类的样本间的距离,通过以下公式获取:
式中,X和Y表示为任意两个样本点,且X=(x1,x2,…,xn);Y=(y1,y2,…,yn),disted(X,Y)表示为两个样本点之间的距离;
以及使用误差平方和作为K均值聚类的目标函数,所述目标函数通过以下公式获取:
式中,SSE表示为目标函数,K表示为聚类选择的簇数,Ci表示为聚类中心,x表示为所在的簇。
在本发明的一实施例,在步骤S260中,感染无标签数据的聚簇类别映射,根据同一聚簇中带有标签数据的样本的类别数,分为如下三种情况:
第一种:同一聚簇中只含有一个类别的标记样本,其余未标记样本的类别全部映射为该类别;
第二种:同一聚簇含有不同类别的标记样本,统计聚簇中被标记样本中各个类别的个数,最多的标记类别样本数和次多的n2,当n1≥2n2时,才将该簇其余不带类别标记样本映射为主要类别,否则舍弃该n1类簇,等待后续进行人工查验;
第三种:聚簇中不含有任何标记样本,需要后续进行人工查验。
在本发明的一实施例,所述高层特征提取,包括以下步骤:
S310,为业务创建一个独热编码;
S320,对用户端请求过业务的独热编码求和,创建先验信息特征向量;
S330,将所述先验信息特征向量扩展为业务端感染数据具有相同的空间维度,并将与所述业务端感染数据沿通道的维度拼接,获取一个包含业务端感染数据和先验信息的新输入张量;
S340,将所述新输入张量输入卷积神经网络模型训练,提取高层特征。
在本发明的一实施例,在步骤S400中,所述随机森林业务感知与识别模型的决策树在训练阶段,评估每棵决策树的预测类性能,以及为能够准确预测少数样本的决策树的赋予更高的权重,并通过加权投票的方式获取最终的预测结果。
在本发明的一实施例,其中,基于权重的随机森林业务感知与识别模型的预测结果定义为:
式中,H(T)表示为预测结果,T为决策树的数量;I(·)为指示函数;ft(T)为第t棵决策树的预测结果;y表示类别;ωt为第t棵决策树的投票权重;当决策树的预测结果为真时,指示函数的值为1,反之为0。
在本发明的一实施例,假设TP表示将稳定样本判别为稳定样本,FN表示将稳定样本判别为失稳样本,FP表示将失稳样本判别为稳定样本,TN表示将失稳样本判别为失稳样本,在使用每棵决策树对失稳样本预测的精确率和召回率的调和平均值作为该树的权重,将每棵决策树的投票权值定义为:
式中,F1表示为召回率的调和平均值,Pre表示为精确率,Rec表示为召回率。
与现有技术相比,本发明的有益效果是:
本发明考虑到不同业务类别的样本量差异很大,在分类相关的建模问题上,会导致分析结果存在极大的偏差,因此采用基于改进的K均值聚类算法的半监督学习模型,通过过采样解决了样本不平衡问题。
本发明考虑到对大量无标签数据的样本的训练价值,因此采用基于改进的K均值聚类算法的半监督学习模型,通过半监督学习利用大量的无标签数据的样本和少量的有标签样数据样本的本来训练分类器,解决有标签样本不足的难题。
本发明考虑到天地融合网络动态业务的快速响应需求,因此采用卷积神经网络方法结合业务特征数据与用户端先验信息,提取和挖掘业务特征,增强网络服务动态管理和配置过程中对用户多类型业务变化的适应性,提升混合业务感知识别的准确性。
为了提高随机森林对少数类样本的预测能力,随机森林业务感知与识别模型的决策树在训练阶段,评估每棵决策树的预测类性能,以及为能够准确预测少数样本的决策树的赋予更高的权重,并通过加权投票的方式获取最终的预测结果。
附图说明
图1为本发明实施例的一种全景业务智能感知与精准分类的方法的流程图。
图2为本发明实施例的获取全局最优特征子集的流程图。
图3为本发明实施例的输出业务端感染数据的流程图。
图4为本发明实施例的高层特征提取的流程图。
具体实施方式
为便于本领域技术人员理解本发明技术方案,现结合说明书附图对本发明技术方案做进一步的说明。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1所示,本发明提供一种全景业务智能感知与精准分类的方法,包括以下步骤:
S100,感知探针收集业务端信息不同业务类型的特征数据,将所述特征数据切分为有标签数据和无标签数据,并基于混合式的特征选择方法对所述有标签数据进行特征子集构建,并获取全局最优特征子集。
S200,同时,将所述有标签数据切分为有标签训练数据和有标签测试数据,并通过所述有标签训练数据和所述有标签测试数据对基于改进的K均值聚类算法的半监督学习模型进行训练,基于训练完成的基于改进的K均值聚类算法的半监督学习模型,对所述有标签训练数据和所述无标签数据进行聚类,对所述无标签数据进行感染,输出业务端感染数据。
S300,所述感知探针收集、存储和传输用户端的业务请求信息,并将所述业务请求信息作为先验信息,将所述先验信息和所述业务端感染数据对卷积神经网络模型进行训练,训练完成的卷积神经网络模型对所述先验信息和所述的业务端感染数据,提取和挖掘业务特征,输出高层特征。
S400,再将所述先验信息和所述业务端感染数据对随机森林业务感知与识别模型进行训练,并将训练完成的随机森林业务感知与识别模型对所述高层特征进行分类,实现对客户端多类型业务进行识别。
请参阅图1和图2所示,在本发明的一实施例中,在天地融合网络场景中,系统利用感知探针对不同业务类型的特征数据进行收集、存储、传输和处理,所收集的数据被称为“五元组”,所述五元组为IP地址、源端口号、目的IP地址、目的端口号和协议类型。针对收集到的“五元组”,提取特征。为提高特征提取的准确率,本步骤的特征选择算法采用混合式的特征选择方法。混合式的特征提取方法主要由两部分组成,第一部分采用选择性集成方法,集成多个特征选择算法,获得比单个分类器更稳定的特征子集。第二部分将第一部分选择性集成所得的特征采用启发式搜索,剔除冗余和不相关特征。具体的,所述并基于混合式的特征选择方法对所述有标签数据进行特征子集构建,并获取全局最优特征子集,包括以下步骤:
S110,采用FCBF、InfoGain、GainRatio、Chi.square和Consistency这五种特征选择算法,分别输出所述有标签数据的特征子集。
S120,采用KNN算法分别评估步骤S110输出的五个特征子集的有效性,并获取准确率排名前三的特征子集。
其中,FCBF、InfoGain、GainRatio、Chi.square和Consistency这五种特征选择算法,和KNN算法均为现有技术。
S130,将所述准确率排名前三的特征子集求并集,获取其中各个特征的频度,将频度过低的特征剔除,获取剩余特征子集。
S140,将所述剩余特征子集作为选择性集成特征子集的输出结果。
S150,从空集开始,每次从未选入的特征中选入一个特征,并且将该特征加入与所述选择性集成特征子集进行组合,获取特征组合子集,再次采用所述KNN算法评估所述特征组合子集的准确率,当增加特征后准确率不再增加时,搜索过程结束。
S160,将获取的准确率最高的特征组合子集作为全局最优特征子集。
请参阅图1和图3所示,在本发明的一实施例中,K均值聚类算法(k-meansclustering algorithm)是一种迭代求解的聚类分析算法,将数据集中在某些方面相似的数据成员进行分类组织。传统的K-Means聚类算法可能会出现样本不平衡导致的少类样本无法被准确聚类,因此本步骤中对现有的K-Means聚类算法进行改进,基于改进的K均值聚类算法的半监督学习模型具体如下:
S210,剔除噪声样本。
其中,原始数据集中某样本Q个近邻中同类的样本占整体比例不到20%,即可认为该样本为噪声样本点。
S220,将少数样本类进行同类聚类,以及根据每个少数样本类中每个聚簇包含的样本数,获取各少数样本聚簇的采样权重,并由所述采样权重和剔除所述噪声样本后剩余的最多样本类和所述少数样本类的样本数差额,获取每个少数样本聚簇所需要的插值数,以满足同类样本间的平衡分布。
其中,所述各少数样本聚簇的采样权重通过以下公式获取:
式中,Wi为第i个少数样本聚簇的采样权重,N为每个少数样本类中的聚簇数,ni为少数样本类第i个聚簇中包含的样本数,nj为少数样本类第j个聚簇中包含的样本数。
某少数样本类的聚簇的中样本数越多,在该少数样本类的样本总数的占比就越大,则得到采样权重越小,即分配的权重越小,则后期合成样本数就越少,最终实现同类样本之间的平衡分布。
所述每个少数样本聚簇所需要的插值数,通过以下公式获取:
numi=(Nmax-Nmin)Wi;
式中,numi表示为第i个少数样本聚簇所需要的插值数;Nmax表示为最多样本类;Nmix表示为少数对样本类。
S230,根据所述少数样本聚簇中各样本的样本权重,并根据所述样本权重挑选难以学习但包含重要信息的少数样本类样本作为种子样本,将被选中的样本权重设置为固定值,获取权重增益,并根据所述权重增益和被选中的样本权重,对其进行归一化处理,获取聚簇中每个样本被采样的概率。
其中,在分类任务中,越容易被错分的往往是越靠近决策边界的少数类样本,因而增加了少数类样本的学习难度,为此还需要筛选进行过采样的样本。因为还需要考虑少数样本聚簇中各样本的样本权重。根据样本权重挑选难以学习但包含重要信息的少数样本类样本作为种子样本,以保证样本的合成质量。这里所述的种子样本为少数样本类的样本集中,被采样作为插值依据的参考样本。
所述权重增益通过以下公式获取:
式中,p表示为权重增益,n表示为该样本点Q个近邻中非同类样本的数目,di为该样本点与各个临近非同类样本的欧式距离。
每个样本被选中的概率是由该样本与其他类样本边界的距离确定,临近的其他类样本数量越多,距离其他类样本越近的少数样本类样本被选择的概率越大。这样考虑了样本的分布特性,有效地扩展了少数类决策边界。以及被选中的样本,其初始样本权重设置为固定值为1。
S240,每次从所述少数样本类的样本集中选中部分参考样本,并获取对所述少数样本聚簇进行插值的插值位置,将所述参考样本,结合所述插值数,在所述插值位置对其插值。
其中,1,依据概率选择一个种子样本点。2,选择该种子样本点最近的m个样本作为参考样本。3,获取插值位置。4,并重复1-3步骤进行多次插值。
其中,所述对所述少数样本聚簇进行插值的插值位置通过以下公式获取:
式中,xi表示为第i插值点的插值位置;m表示为参考样本数,dc表示为种子样本点到第c个参考样本的欧式距离,dj表示为第j个参考样本的欧氏距离,Pic表示为第i插值点对应的第c个参考样本的特征值。
S250,根据聚类轮廓系数转换后的最大值点,确定聚类的簇数,进行K均值聚类。
其中,在步骤S250中,K均值聚类的样本间的距离,通过以下公式获取:
式中,X和Y表示为任意两个样本点,且X=(x1,x2,…,xn);Y=(y1,y2,…,yn),disted(X,Y)表示为两个样本点之间的距离。
K均值聚类的目标是同一个簇中样本差异小,不同簇间样本差异大,使用误差平方和作为目标函数,所述目标函数通过以下公式获取:
式中,SSE表示为目标函数,K表示为聚类选择的簇数,Ci表示为聚类中心,x表示为所在的簇。计算簇到聚类中两者的欧式距离,计算所有样本点其聚类中心的距离并求和,得到目标函数。以轮廓系数转换公式确定K均值聚类的中心点个数,通过计算目标函数的最小值实现聚类。
S260,根据簇中带有标签数据的类对确定无标签数据的类,完成对无标签数据的感染。
其中,大量无标签数据的样本经过聚类算法后和少量有标签数据的样本包含在同样的聚簇中。感染无标签数据的聚簇类别映射,具体地,根据同一聚簇中带有标签数据的样本的类别数,分为如下三种情况:
第一种:同一聚簇中只含有一个类别的标记样本,其余未标记样本的类别全部映射为该类别。
第二种:同一聚簇含有不同类别的标记样本,统计聚簇中被标记样本中各个类别的个数,最多的标记类别样本数和次多的n2,当n1≥2n2时,才将该簇其余不带类别标记样本映射为主要类别,否则舍弃该n1类簇,等待后续进行人工查验。
第三种:聚簇中不含有任何标记样本,需要后续进行人工查验。
这里所说的标记样本为有标签数据的样本,未标记样本为无标签数据的样本。
S270,重新判断各类样本数,若当前最多类样本数和最少类样本数的比值大于阈值,则再次执行步骤S210-S240,否则,则执行步骤S300。
本步骤中,阈值为1.1。由此,初始的少量带类别标记网络流样本集和大量不带类别标记的样本集已经被扩展为大量的带准确类别标记的网络流样本集,等待后续随机森林业务感知与识别模型进行样本分类。以及,在K均值聚簇中,参考样本的样本点为全局最优特征子集内的数据。
请参阅图1和图4所示,在本发明的一实施例中,在实际的用户交互过程中,业务的规律会随着时间的变化而变化,所提出的业务智能识别模型需要考虑识别目标的变化,并做出调整,因此需要加入用户端先验信息辅助识别。具体的,所述高层特征提取,包括以下步骤:
S310,为业务创建一个独热编码。
S320,对用户端请求过业务的独热编码求和,创建先验信息特征向量。
S330,将所述先验信息特征向量扩展为业务端感染数据具有相同的空间维度,并将与所述业务端感染数据沿通道的维度拼接,获取一个包含业务端感染数据和先验信息的新输入张量。
S340,将所述新输入张量输入卷积神经网络模型训练,提取高层特征。
其中,先验信息为用户端历史的业务请求信息,通过增加先验信息输入,对卷积神经网络模型进行定期训练,避免业务的动态变化对分类造成的影响,使输出的高层特征,在输入后续的随机森林业务感知与识别模型中降低识别精度。
请参阅图1至图4所示,在本发明的一实施例中,传统的随机森林不加以区分的对待所有的决策树,导致预测性能不同的决策树具有相同的投票权重。为了提高随机森林对少数类样本的预测能力,现提出一种基于权重的随机森林算法。所述随机森林业务感知与识别模型的决策树在训练阶段,评估每棵决策树的预测类性能,以及为能够准确预测少数样本的决策树的赋予更高的权重,并通过加权投票的方式获取最终的预测结果。其中,基于权重的随机森林业务感知与识别模型的预测结果定义为:
式中,H(T)表示为预测结果,T为决策树的数量,I(·)为指示函数,ft(T)为第t棵决策树的预测结果,y表示类别,ωt为第t棵决策树的投票权重,argmax是一种函数,当决策树的预测结果为真时,指示函数的值为1,反之为0。
假设TP表示将稳定样本判别为稳定样本,FN表示将稳定样本判别为失稳样本,FP表示将失稳样本判别为稳定样本,TN表示将失稳样本判别为失稳样本,在使用每棵决策树对失稳样本预测的精确率和召回率的调和平均值作为该树的权重,将每棵决策树的投票权值定义为:
式中,F1表示为召回率的调和平均值,Pre表示为精确率,Rec表示为召回率。F1越大,则表明该决策树对少数样本的预测性能越好。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
以上所述实施例仅表示发明的实施方式,本发明的保护范围不仅局限于上述实施例,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。
Claims (10)
1.一种全景业务智能感知与精准分类的方法,其特征在于,包括:
S100,感知探针收集业务端信息不同业务类型的特征数据,将所述特征数据切分为有标签数据和无标签数据;并基于混合式的特征选择方法对所述有标签数据进行特征子集构建,并获取全局最优特征子集;
S200,同时,将所述有标签数据切分为有标签训练数据和有标签测试数据,并通过所述有标签训练数据和所述有标签测试数据对基于改进的K均值聚类算法的半监督学习模型进行训练,基于训练完成的基于改进的K均值聚类算法的半监督学习模型,对所述有标签训练数据和所述无标签数据进行聚类,对所述无标签数据进行感染,输出业务端感染数据;
S300,所述感知探针收集、存储和传输用户端的业务请求信息,并将所述业务请求信息作为先验信息,将所述先验信息和所述业务端感染数据对卷积神经网络模型进行训练,训练完成的卷积神经网络模型对所述先验信息和所述的业务端感染数据,提取和挖掘业务特征,输出高层特征;
S400,再将所述先验信息和所述业务端感染数据对随机森林业务感知与识别模型进行训练,并将训练完成的随机森林业务感知与识别模型对所述高层特征进行分类,实现对客户端多类型业务进行识别。
2.根据权利要求1所述的全景业务智能感知与精准分类的方法,其特征在于,所述并基于混合式的特征选择方法对所述有标签数据进行特征子集构建,并获取全局最优特征子集,包括以下步骤:
S110,采用FCBF、InfoGain、GainRatio、Chi.square和Consistency这五种特征选择算法,分别输出所述有标签数据的特征子集;
S120,采用KNN算法分别评估步骤S110输出的五个特征子集的有效性,并获取准确率排名前三的特征子集;
S130,将所述准确率排名前三的特征子集求并集,获取其中各个特征的频度,将频度过低的特征剔除,获取剩余特征子集;
S140,将所述剩余特征子集作为选择性集成特征子集的输出结果;
S150,从空集开始,每次从未选入的特征中选入一个特征,并且将该特征加入与所述选择性集成特征子集进行组合,获取特征组合子集,再次采用所述KNN算法评估所述特征组合子集的准确率,当增加特征后准确率不再增加时,搜索过程结束;
S160,将获取的准确率最高的特征组合子集作为全局最优特征子集。
3.根据权利要求1所述的全景业务智能感知与精准分类的方法,其特征在于,所述基于训练完成的基于改进的K均值聚类算法的半监督学习模型,对所述有标签训练数据和所述无标签数据进行聚类,对所述无标签数据进行感染,输出业务端感染数据,包括以下步骤:
S210,剔除噪声样本;
S220,将少数样本类进行同类聚类,以及根据每个少数样本类中每个聚簇包含的样本数,获取各少数样本聚簇的采样权重;并由所述采样权重和剔除所述噪声样本后剩余的最多样本类和所述少数样本类的样本数差额,获取每个少数样本聚簇所需要的插值数,以满足同类样本间的平衡分布;
S230,根据所述少数样本聚簇中各样本的样本权重,并根据所述样本权重挑选难以学习但包含重要信息的少数样本类样本作为种子样本,将被选中的样本权重设置为固定值,获取权重增益;并根据所述权重增益和被选中的样本权重,对其进行归一化处理,获取聚簇中每个样本被采样的概率;
S240,每次从所述少数样本类的样本集中选中部分参考样本,并获取对所述少数样本聚簇进行插值的插值位置,将所述参考样本,结合所述插值数,在所述插值位置对其插值;
S250,根据聚类轮廓系数转换后的最大值点,确定聚类的簇数,进行K均值聚类;
S260,根据簇中带有标签数据的类对确定无标签数据的类,完成对无标签数据的感染;
S270,重新判断各类样本数,若当前最多类样本数和最少类样本数的比值大于阈值,则再次执行步骤S210-S240;否则,则执行步骤S300。
4.根据权利要求3所述的全景业务智能感知与精准分类的方法,其特征在于,其中,所述各少数样本聚簇的采样权重通过以下公式获取:
式中,Wi为第i个少数样本聚簇的采样权重,N为每个少数样本类中的聚簇数,ni为少数样本类第i个聚簇中包含的样本数,nj为少数样本类第j个聚簇中包含的样本数;
所述每个少数样本聚簇所需要的插值数,通过以下公式获取:
numi=(Nmax-Nmin)Wi;
式中,numi表示为第i个少数样本聚簇所需要的插值数;Nmax表示为最多样本类;Nmix表示为少数对样本类;
所述权重增益通过以下公式获取:
式中,p表示为权重增益,n表示为该样本点Q个近邻中非同类样本的数目,di为该样本点与各个临近非同类样本的欧式距离;
所述对所述少数样本聚簇进行插值的插值位置通过以下公式获取:
式中,xi表示为第i插值点的插值位置;m表示为参考样本数,dc表示为种子样本点到第c个参考样本的欧式距离,dj表示为第j个参考样本的欧氏距离,Pic表示为第i插值点对应的第c个参考样本的特征值。
6.根据权利要求5所述的全景业务智能感知与精准分类的方法,其特征在于,在步骤S260中,感染无标签数据的聚簇类别映射,根据同一聚簇中带有标签数据的样本的类别数,分为如下三种情况:
第一种:同一聚簇中只含有一个类别的标记样本,其余未标记样本的类别全部映射为该类别;
第二种:同一聚簇含有不同类别的标记样本,统计聚簇中被标记样本中各个类别的个数,最多的标记类别样本数和次多的n2,当n1≥2n2时,才将该簇其余不带类别标记样本映射为主要类别,否则舍弃该n1类簇,等待后续进行人工查验;
第三种:聚簇中不含有任何标记样本,需要后续进行人工查验。
7.根据权利要求1所述的全景业务智能感知与精准分类的方法,其特征在于,所述高层特征提取,包括以下步骤:
S310,为业务创建一个独热编码;
S320,对用户端请求过业务的独热编码求和,创建先验信息特征向量;
S330,将所述先验信息特征向量扩展为业务端感染数据具有相同的空间维度,并将与所述业务端感染数据沿通道的维度拼接,获取一个包含业务端感染数据和先验信息的新输入张量;
S340,将所述新输入张量输入卷积神经网络模型训练,提取高层特征。
8.根据权利要求1所述的全景业务智能感知与精准分类的方法,其特征在于,在步骤S400中,所述随机森林业务感知与识别模型的决策树在训练阶段,评估每棵决策树的预测类性能,以及为能够准确预测少数样本的决策树的赋予更高的权重,并通过加权投票的方式获取最终的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310432373.5A CN116401586A (zh) | 2023-04-18 | 2023-04-18 | 一种全场景业务智能感知与精准分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310432373.5A CN116401586A (zh) | 2023-04-18 | 2023-04-18 | 一种全场景业务智能感知与精准分类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116401586A true CN116401586A (zh) | 2023-07-07 |
Family
ID=87012243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310432373.5A Pending CN116401586A (zh) | 2023-04-18 | 2023-04-18 | 一种全场景业务智能感知与精准分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116401586A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116842238A (zh) * | 2023-07-24 | 2023-10-03 | 武汉赛思云科技有限公司 | 基于大数据分析的企业数据可视化实现方法及系统 |
-
2023
- 2023-04-18 CN CN202310432373.5A patent/CN116401586A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116842238A (zh) * | 2023-07-24 | 2023-10-03 | 武汉赛思云科技有限公司 | 基于大数据分析的企业数据可视化实现方法及系统 |
CN116842238B (zh) * | 2023-07-24 | 2024-03-22 | 右来了(北京)科技有限公司 | 基于大数据分析的企业数据可视化实现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109191896B (zh) | 个性化停车位推荐方法和系统 | |
CN112564974B (zh) | 一种基于深度学习的物联网设备指纹识别方法 | |
CN111144459B (zh) | 一种类不平衡的网络流量分类方法、装置及计算机设备 | |
CN113360616A (zh) | 自动问答处理方法、装置、设备及存储介质 | |
CN111181939A (zh) | 一种基于集成学习的网络入侵检测方法及装置 | |
JP5502703B2 (ja) | フロー分類方法、システム、およびプログラム | |
CN110324327B (zh) | 基于特定企业域名数据的用户及服务器ip地址标定装置及方法 | |
Yao et al. | Data-driven choice set generation and estimation of route choice models | |
CN109670843A (zh) | 投诉业务的数据处理方法、装置、计算机设备及存储介质 | |
CN111897733B (zh) | 一种基于最小集合覆盖的模糊测试方法和装置 | |
CN113762377B (zh) | 网络流量识别方法、装置、设备及存储介质 | |
CN116401586A (zh) | 一种全场景业务智能感知与精准分类的方法 | |
US20220357176A1 (en) | Methods and data processing systems for predicting road attributes | |
CN110990576A (zh) | 基于主动学习的意图分类方法、计算机设备和存储介质 | |
CN106911591A (zh) | 网络流量的分类方法和系统 | |
CN113037410A (zh) | 信道识别方法、装置、传输方法、传输设备、基站、介质 | |
CN110365603A (zh) | 一种基于5g网络能力开放的自适应网络流量分类方法 | |
CN115118653A (zh) | 一种基于多任务学习的实时业务流量分类方法及系统 | |
CN115688760A (zh) | 一种智能化导诊方法、装置、设备及存储介质 | |
CN113821702A (zh) | 一种城市多维空间多元异构信息数据处理方法 | |
KR20110062274A (ko) | 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법 | |
CN116883035A (zh) | 一种基于用户分群统计的业务匹配方法 | |
CN110889277A (zh) | 一种无监督学习的空间信号源和室内位置关联的方法 | |
CN104468276A (zh) | 基于随机抽样多分类器的网络流量识别方法 | |
Li et al. | Iot devices identification based on machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |