CN114091558A - 特征选择方法、装置、网络设备和计算机可读存储介质 - Google Patents

特征选择方法、装置、网络设备和计算机可读存储介质 Download PDF

Info

Publication number
CN114091558A
CN114091558A CN202010760727.5A CN202010760727A CN114091558A CN 114091558 A CN114091558 A CN 114091558A CN 202010760727 A CN202010760727 A CN 202010760727A CN 114091558 A CN114091558 A CN 114091558A
Authority
CN
China
Prior art keywords
feature
features
classification
performance
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010760727.5A
Other languages
English (en)
Inventor
董辛酉
韩静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202010760727.5A priority Critical patent/CN114091558A/zh
Priority to EP21848566.2A priority patent/EP4191470A1/en
Priority to PCT/CN2021/109587 priority patent/WO2022022683A1/zh
Publication of CN114091558A publication Critical patent/CN114091558A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/189Arrangements for providing special services to substations for broadcast or conference, e.g. multicast in combination with wireless systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种特征选择方法、装置、网络设备和计算机可读存储介质,该方法包括:根据通讯网络的性能特征与预设的分类标签的相关性,从性能特征中选取与分类标签最相关的指定数量的特征,得到选定特征集合;判断选定特征集合中的选定特征是否满足特征选择条件,特征选择条件包括:对性能特征的分类进行的极大似然估计达到最大值时的特征选择参数,与相关性达到最小值时的特征选择参数相同;若选定特征满足特征选择条件,则选择选定特征作为与分类标签最相关的特征。

Description

特征选择方法、装置、网络设备和计算机可读存储介质
技术领域
本申请涉及信息与通信技术领域,具体涉及一种特征选择方法、装置、网络设备和计算机可读存储介质。
背景技术
随着无线通讯技术的发展,无线通讯网络中出现大量高纬度数据信息,通过有监督异常检测从中提取的特征数据包含有很多与分类相关的特征,同时也存在很多的无关特征信息、冗余特征信息、多特征共线性质的特征信息和噪声数据信息。无用的特征信息会使得数据模型过拟合或者减弱表征能力,因此不能准确地表征数据集的特征信息。
发明内容
本申请提供一种用于特征选择方法、装置、网络设备和计算机可读存储介质。
本申请实施例提供一种特征选择方法,包括:根据通讯网络的性能特征与预设的分类标签的相关性,从性能特征中选取与分类标签最相关的指定数量的特征,得到选定特征集合;判断选定特征集合中的选定特征是否满足特征选择条件,特征选择条件包括:对性能特征的分类进行的极大似然估计达到最大值时的特征选择参数,与相关性达到最小值时的特征选择参数相同;若选定特征满足特征选择条件,则选择选定特征作为与分类标签最相关的特征。
本申请实施例提供一种特征选择装置,包括:特征选定模块,用于根据通讯网络的性能特征与预设的分类标签的相关性,从性能特征中选取与分类标签最相关的指定数量的特征,得到选定特征集合;特征判断模块,用于判断选定特征集合中的选定特征是否满足特征选择条件,特征选择条件包括:对性能特征的分类进行的极大似然估计达到最大值时的特征选择参数,与相关性达到最小值时的特征选择参数相同;特征选择模块,用于若选定特征满足特征选择条件,则选择选定特征作为与分类标签最相关的特征。
本申请实施例提供一种网络设备,包括:一个或多个处理器;存储器,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本申请实施例中的任意一种特征选择方法。
本申请实施例提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时实现本申请实施例中的任意一种特征选择方法。
根据本申请实施例的特征选择方法、装置、网络设备和计算机可读存储介质,在对通讯网络的性能特征进行特征选择的过程中,将极大似然估计规则应用到基于信息论的特征选择领域中,从而基于极大似然估计规则的信息论特征选择方法,有效地将极大似然估计与信息论特征选择算法建立联系,依托上述数学理论,基于通讯网络的性能特征,最优化特征选择参数,不需人工干预,解决直接通过信息论相关方法对通讯网络的性能特征选择的计算成本问题。
关于本申请的以上实施例和其他方面以及其实现方式,在附图说明、具体实施方式和权利要求中提供更多说明。
附图说明
图1示出本申请实施例的特征选择方法的流程示意图。
图2示出本申请另一实施例的特征选择方法的流程示意图。
图3示出本申请实施例中特征相关性的计算方法的流程示意图。
图4示出本申请实施例中特征冗余性的计算方法的流程示意图。
图5示出本申请实施例中迭代直方图的计算过程的流程示意图。
图6示出本申请实施例中特征条件互信息的计算过程的流程示意图。
图7示出本发明一实施例提供的特征选择装置的结构示意图。
图8是示出能够实现根据本发明实施例的方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请实施例中,无线通讯网络中的高纬度数据信息,在带给有监督异常检测许多有用的知识的同时也带来了一系列前所未有的困难和挑战。现阶段有监督异常检测提取的特征数据包含很多与分类相关的特征,同时也存在很多无关特征信息、冗余特征信息、多特征共线性质的特征信息和噪声数据信息。这些无用的特征信息会使得数据模型过拟合或者减弱表征能力的现象,因此不能准确的表征数据集的特征信息。因此,特征选择的任务就是在高纬度数据集中寻找能够对分类表征力强的“本质特征”,并且不会减弱数据样本的数据信息。
特征选择作为一种可以缩小数据集的数据规模和提高数据质量的方法,在机器学习和数据挖掘等领域有广泛的应用。特征选择算法通常可包括以下三类,例如:过滤式、包裹式和嵌入式。根据特征选择过程不同,评价标准也有不同,例如:一致性标准、距离标准、依赖性标准、分类错误率标准和信息量标准等。作为示例,特征选择算法可以包括:以特征权重为理论依据的Relief算法、以最大相关性和最小冗余性为理论依据的最大相关和最小冗余(Max-Relevance and Min-Redundancy,MRMR)算法等。
在一些实施例中,信息量方法具有稳定性和准确性的特点而得到广泛应用。但信息量方法的相关算法存在一些缺陷。例如,最佳个体特征BIF(Best Individual Feature)算法这种方法简单快速,尤其适合于高维数据。但是它没有考虑到所选特征间的相关性,会带来较大的冗余;MRMR(Minimal Redundancy and Maximal Relevance)算法在进行特征选择的过程中只考虑到单一特征属性与类别属性之间的相关性和单一特征属性与已选特征之间的冗余性,忽视了多特征集与多特征集之间,同样也存在这相互作用关系;条件互信息最大化(Conditional Mutual Information Maximization,CMIM)算法利用条件互信息来评价特征的重要性程度。条件互信息值越大,特征能提供的新信息越,但条件互信息计算成本较高,且样本的多维性导致了其估值不准确。
无线通讯网络的发展使得信息量呈爆炸式增长,数据规模化是非常棘手的研究问题。对于机器学习算法而言,数据的预处理、特征选择以及向量化等过程需要大量计算,计算时间长、内存消耗大,算法的分类性能会降低。
在一些基于分布式计算框架Spark的并行二进制飞蛾扑火算法的特征选择方法中,可以利用飞蛾扑火优化算法在减少特征冗余方面有良好的分类能力,引入飞蛾扑火优化算法进行特征选择。并借助Spark分布式平台基于内存和并行计算的特点,将飞蛾扑火优化算法和分布式并行计算相结合,避免算法陷入局部最优及提高算法的分类性能,在最大化分类性能的同时最小化特征个数。
但是,飞蛾扑火优化算法在减少特征冗余方面有良好的分类能力,但没有考虑特征之间的相关性;另外,飞蛾扑火算法易陷入局部最优和搜索能力不高等特性严重限制了该算法的分类性能和维度缩减能力;虽使用Spark分布式计算框架可在一定程度改善局部最优和搜索,但没有从本质是解决上述成本和性能两个问题。
在一些基于最大信息系数的特征选择和分类的方法中,可以通过利用条件互信息的思想进行特征选择。但是,条件互信息的计算成本较高,在特征选择过程中,特征数量众多且特征维度高的情况下,对计算资源的消耗巨大。
在一些改进基于相关性特征选择的特征过滤方法中,可以解决软件缺陷预测中数据质量差,并且预处理时效率低的问题,能够在删除冗余特征和不相关特征的同时,提高软件缺陷预测模型的性能。但是,该特征过滤方法在特征选择过程中同样面临计算成本较高的问题,在特征数量众多且特征维度高的情况下,对计算资源的消耗巨大。
本申请实施例提供一种特征选择方法,可以降低特征选择过程的成本,并提高机器学习算法和特征选择算法的性能。
图1示出本申请实施例的特征选择方法的流程示意图。如图1所示,本申请实施例中的特征选择方法可以包括以下步骤。
S110,根据通讯网络的性能特征与预设的分类标签的相关性,从性能特征中选取与分类标签最相关的指定数量的特征,得到选定特征集合。
S120,判断选定特征集合中的选定特征是否满足特征选择条件,特征选择条件包括:对性能特征的分类进行的极大似然估计达到最大值时的特征选择参数,与相关性达到最小值时的特征选择参数相同。
S130,若选定特征满足特征选择条件,则选择选定特征作为与分类标签最相关的特征。
根据本申请实施例的特征选择方法,在对通讯网络的性能特征进行特征选择的过程中,将极大似然估计规则应用到基于信息论的特征选择领域中,从而基于极大似然估计规则的信息论特征选择方法,有效地将极大似然估计与信息论特征选择算法建立联系,降低了直接通过信息论相关方法对通讯网络的性能特征选择的计算成本。
下面通过具体实施例描述特征选择条件的获取过程。本申请实施例中特征选择条件的获取方法可以包括如下步骤。
S01,数据预处理。
在该步骤中,可以将存在空缺数据的相关特征进行删除处理,并对特征数据进行归一化处理。
S02,引入信息论特征选择规则。
在本申请实施例的N个特征样本值中,每个样本值和类别间的关系对可表示为(x,y)。其中,x特征向量为x=[x1,x2,……,xd];y为类别,对于N个样本观测值,可以表示为特征向量X={X1,X2,……,Xd}和Y。
在一个实施例中,使用二值特征向量θ表示特征有没有被选中,作为示例,1代表选中,0代表未选中。作为示例,xθ表示选中的特征;
Figure BDA0002613012030000041
表示未被选中的特征。因此,数据特征可表示为
Figure BDA0002613012030000042
在本申请实施例的特征选择方法中,对于通讯网络的性能特征,存在一个特征集合的子集θ*,使得
Figure BDA00026130120300000413
对于特征预测模型q,可以理解为是真实映射模型p的近似。模型q具有两层参数:一层参数是选定特征θ,一层是用于预测特征类型的参数τ。
因此,需要找到一个最小的特征集合使得我们的预测模型q无限接近于真实模型。在一个实施例中,可以通过下述表达式(1)表示对预测模型q中参数的极大似然估计。
Figure BDA0002613012030000043
在上述表达式(1)中,对预测模型q中参数的极大似然估计表示:根据特征参数θ和类别预测参数τ,求解一个最小的特征集合D,使得D中被选中的特征使得样本类别y在被选中的特征
Figure BDA0002613012030000044
和参数τ条件下的概率密度函数,能够最大可能的逼近样本类别y在真值条件下的概率密度。其中,特征
Figure BDA0002613012030000045
和参数τ是需要估计的参数。
在一个实施例中,对表达式(1)进行归一化并取对数可得到下述表达式(2):
Figure BDA0002613012030000046
在该实施例中,取对数可以将乘法计算转换成加法计算,缩小数据的绝对数值,方便计算,且取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,数据更加平稳。
对于表达式(2),通过添加项p(y|xθ),可以将是上述表达式(2)转化为下述表达式(3):
Figure BDA0002613012030000047
在上述表达式(3)中,添加项p(y|xθ)表示在选定特征xθ后标签y的真实分布,在表达式(3)的基础上再添加项p(y|x),得到下述表达式(4):
Figure BDA0002613012030000048
在上述表达式(4)中,p(y|x)是所有特征的真实分布。将数学期望记为Exy{·},然后对表达式(4)两边取对数,再在表达式两端取负数,将最大值转化为最小值,得到下述表达式(5):
Figure BDA0002613012030000049
在上述表达式(5)中,在引入互信息和信息熵之后,可以将表达式(5)转化为下述表达式(6):
Figure BDA00026130120300000410
在表达式(6)中,第一项
Figure BDA00026130120300000411
为真实分布与本质特征分布的似然比,与具体的特征参数θ和预测参数τ无关;第三项H(Y|X)是条件信息熵,与所有的特征相关。因此,极大似然估计信息论特征选择算法与第二项
Figure BDA00026130120300000412
条件互信息紧密相关。
由表达式6,我们可知,当表达式6第二项最小时,极大似然估计最大,即:
Figure BDA0002613012030000051
通过上述描述可知,当表达式(7)中的条件互信息
Figure BDA0002613012030000052
达到最小值时,根据θ的值可以得到最优特征集合。
在上述实施例中,判断选定特征集合中的选定特征是否满足特征选择条件,即上述表达式(7),若满足该特征选择条件,则选择该选定特征作为与分类标签最相关的特征。
在一个实施例中,对性能特征的分类进行的极大似然估计的取值,是分类标签在性能特征中的真实特征分布与本质特征分布的似然比、性能特征和分类标签的相关性、以及性能特征和分类标签的信息熵的和值。其中,似然比表示:分类标签在选定特征条件下的概率密度,与分类标签在选定特征和特征预测参数条件下的概率密度的比值。
在一个实施例中,在步骤S110之前,特征选择方法还包括:S10,根据通讯网络的性能数据的性能特征,将性能特征存储为特征矩阵;S11,对特征矩阵进行转置运算,得到转置的特征矩阵;S12,根据转置的特征矩阵中的性能特征,计算通讯网络中的每个性能特征与预设的分类标签之间的相关性。
在该实施例中,将通讯网络的性能数据的性能特征表示为特征矩阵,并对特征数据进行转置运算,对特征矩阵进行转置后,会极大的提升计算性能。
在一个实施例中,性能特征的特征矩阵中的每个矩阵元素,表示与指定的特征索引值和分区索引值对应的特征数据,其中,特征索引值用于索引通讯网络的指定特征,分区索引值用于索引与分类标签对应的数据存储分区,并且其中,同一指定特征的特征数据存储于特征向量矩阵中的同一分区。
在该实施例中,性能特征的特征矩阵中,列row代表特征,列col代表对象,使用三元组(k,part.index,matrix(k))表示矩阵,其中,k代表特征索引,part.index代表分区索引,matrix(k)表示特征数据,从而将所有对象的同一个特征的数据分配到特定的分区,例如分配在一个分区,从而减少计算成本。
在一个实施例中,若选定特征不满足特征选择条件,则特征选择方法还包括:S140,计算选定特征集合中的选定特征、性能特征和分类标签之间的特征冗余性;S141,利用计算得到的特征冗余性信息,更新选定特征集合;S142,将更新的选定特征集合,作为从性能特征中选择的最相关的特征数据。
在该实施例中,计算选定特征集合中的选定特征、性能特征和分类标签之间的特征冗余性,直到获取到足够的选定特征集。
为了更好地理解本申请,下面通过图2描述本申请另一实施例的特征选择方法。图2示出本申请另一实施例的特征选择方法的流程示意图。如图2所示,该特征选择方法可以包括如下步骤。
S201,对输入的通讯网络的性能特征数据进行数据预处理。
S202,对预处理后的性能特征数据的特征矩阵进行转置运算,得到转置的特征矩阵。
在该步骤中,特征矩阵可以保持数据的原有分区,进而抑制数据散化,对特征矩阵进行数据转置完成,则结果数据将被池化,数据可被重复使用进而减少计算成本。
S203,计算性能特征与标签的相关性。
S204,根据特征相关性结果,初始化选定特征集合。
在该步骤中,特征相关性结果包括:预订数量的最相关的特征Pbest,根据特征相关性结果,添加到选定特征集合中,创建特征的初始等级,并执行下述S205-S207的迭代过程。
S205,判断选定的最相关的特征Pbest是否满足预设的特征选择条件,若满足,则执行步骤S208,若不满足,则执行步骤S206。
在该步骤中,判断选定特征集合中的选定特征是否满足特征选择条件,即上述表达式(7),若满足该特征选择条件,则选择该选定特征作为与分类标签最相关的特征。也就是说,可以根据选定的最相关的特征Pbest是否满足预设的特征选择条件,更新选定特征集合中间结果池。
在每次迭代过程中,迭代的终止条件是选定特征集中元素集合和未选定元素集合满足上述表达式(7)或者没有特征剩余。也就是说,判断选定特征集合中的特征数量是否满足上述表达式(7),如果是跳转到S208;如果否则跳转到S206。
S206,计算特征间的冗余性。
S207,根据特征间的冗余性计算结果更新选定特征集合。
S208,得到选定特征集合。
通过上述步骤S201-S208,可以引入极大似然估计规则,并将其应用到基于信息论的特征选择领域中,为信息论特征选择算法提供了一种具有理论基础的选择规则。
在一个实施例中,上述步骤S12具体可以包括如下步骤。
S21,向预设的多个分布式计算节点广播分类标签;S22,指示每个分布式计算节点,计算备选特征与分类标签之间的互信息,得到备选特征与分类标签之间的特征相关性,备选特征是预先分配至每个分布式计算节点的性能特征;S23,根据每个分布式计算节点计算得到的特征相关性,确定每个性能特征与分类标签之间的相关性。
在该实施例中,通过分布式方式在规模化特征数据中选择与标签相关性高的特征,从而可以有效解决信息论相关的算法计算复杂度高的问题。
图3示出本申请实施例中特征相关性的计算方法的流程示意图。如图3所示,在一个实施例中,特征相关性的计算方法可以包括如下步骤。
S301,输入通讯网络的特征数据。
在该步骤中,获取并输入转置后的特征数据的矩阵。在特征数据的矩阵中,每个矩阵元素表示与指定的特征索引值和分区索引值对应的特征数据,特征索引值用于索引通讯网络的指定特征,分区索引值用于索引与分类标签对应的数据存储分区,同一指定特征的特征数据存储于特征向量矩阵中的同一分区。
S302,广播标签向量。
在该步骤中,通过广播标签向量可以使Spark集群中的所有节点都获得标签向量。例如,在转置后的特征数据的矩阵中,获取所有数据存储分区的分类标签形成一个向量,并将其广播。
S303,计算所有备选特征和分类标签的直方图。
在该步骤中,备选特征可以是预先分配至每个分布式计算节点的通讯网络的至少一部分性能特征。
S304,通过直方图的方式计算分类标签和备选特征的联合概率分布。
S305,通过直方图的方式计算分类标签和备选特征的边缘概率分布。
S306,获得每个备选特征的特征互信息数值。
通过上述步骤S301至S306,基于分布式计算框架对规模化数据中的特征相关性的计算过程进行优化处理,使得基于信息论的特征选择算法可用于当前场景,提高机器学习算法和特征选择算法的性能。
在一个实施例中,S22具体可以包括如下步骤。
S221,计算分类标签的直方图信息和备选特征的直方图信息。
S222,根据分类标签的直方图信息和备选特征的直方图信息,计算分类标签的边缘概率分布、备选特征的边缘概率分布、以及分类标签和备选特征的联合概率分布。
S223,计算分类标签的边缘概率分布与备选特征的边缘概率分布的概率分布乘积,并计算联合概率分布与概率分布乘积的相似程度,得到备选特征与分类标签之间的互信息。
S224,计算备选特征与分类标签之间的互信息。
在该实施例中,基于分布式计算框架计算备选特征与分类标签之间的互信息,可以极大降低信息论相关算法的计算成本。
在一个实施例中,步骤S140具体可以包括:S141,向预设的多个分布式计算节点广播分类标签和选定特征集合;S142,指示每个分布式计算节点,计算备选特征、选定特征集合中的选定特征和分类标签的特征冗余性,备选特征是预先分配至每个分布式计算节点的性能特征;S143,根据每个分布式计算节点计算得到的特征冗余性,确定每个性能特征与分类标签之间的特征冗余性。
在该实施例中,通过分布式方式在规模化特征数据中计算特征之间的冗余性信息,从而可以有效解决信息论相关的算法计算复杂度高的问题。
图4示出本申请实施例中特征冗余性的计算方法的流程示意图。如图4所示,在一个实施例中,特征冗余性的计算方法可以包括如下步骤。
S401,输入通讯网络的特征数据。
在该步骤中,获取并输入转置后的特征数据。
S402,向Spark集群中广播标签向量Y。
S403,向Spark集群中广播选定的特征向量。
在该步骤中,例如向Spark集群中广播选定的最优特征Pbest
S404,计算备选特征和选定的最优特征Pbest、分类标签Y之间的特征迭代直方图。
该步骤中,备选特征可以是预先分配至每个分布式计算节点的通讯网络的至少一部分性能特征。
S405,计算出所有备选特征的特征冗余性信息。
在该步骤中,计算选定特征集合中的特征、备选特征和分类标签之间的特征冗余性。
通过上述步骤S401-S405,基于分布式计算框架对规模化数据中的特征冗余性的计算过程进行优化处理,使得基于信息论的特征选择算法可用于当前场景,提高机器学习算法和特征选择算法的性能。
在一个实施例中,S142具体可以包括如下步骤。
S142-01,计算备选特征的直方图信息、选定特征集合中的选定特征的直方图信息、以及分类标签的直方图信息。
S142-02,根据备选特征的直方图信息、选定特征的直方图信息、以及分类标签的直方图信息,计算备选特征、选定特征的和分类标签的之间的条件互信息,得到备选特征、选定特征的和分类标签的特征冗余性。
在该实施例中,通过直方图信息计算备选特征、选定特征的和分类标签的之间的条件互信息、条件互信息和特征冗余性,从而提高计算效率。
图5示出本申请实施例中迭代直方图的计算过程的流程示意图。如图5所示,在该实施例中,迭代直方图的计算过程可以包括如下步骤。
S501,输入通讯网络的特征数据。
在该步骤中,可以输入转置后的特征数据。
S502,向Spark集群中广播标签Y。
S503,向Spark集群中广播选定的特征向量。
例如,向Spark集群中广播选定的最优特征Pbest
S504,在Spark集群中的每个计算节点,生成对应的特征迭代直方图。
在该步骤中,在每个计算节点,计算备选特征和选定的最优特征Pbest、分类标签Y之间的特征迭代直方图。
S505,根据获取的在每个计算节点生成的特征迭代直方图,对获取的特征迭代直方图进行合并排序。
通过上述步骤S501-S505,根据备选特征、选定的最优特征Pbest和标签Y,计算特征的三维的直方图。
图6示出本申请实施例中特征条件互信息的计算过程的流程示意图。如图5所示,在该实施例中,特征条件互信息的计算过程可以包括如下步骤。
S601,输入直方图信息。
在该步骤中,输入的直方图信息包括:备选特征向量的直方图信息、选定特征向量的直方图信息、以及分类标签向量的直方图信息。
S602,向所有计算节点广播选定特征向量的边缘分布。
S603,向所有计算节点广播标签向量的边缘分布。
S604,向所有计算节点广播特征向量的联合分布。
在该步骤中,例如向所有计算节点广播选定特征向量的联合概率分布。
其中,每个直方图元组中的第一个元素可以是特征索引,第二个元素是三维矩阵。
S605,计算特征互信息值和条件互信息值。
在该步骤中,根据备选特征向量的直方图信息、选定特征向量的直方图信息、以及分类标签的直方图信息。
通过上述步骤S601-S605,直方图是数值数据分布的精确图形表示,通过直方图计算备选特征的互信息,能够更清晰地描述性能特征的分布状态,有利于本申请实施例中的特征互信息的计算过程。
通过本申请实施例的特征选择方法,能够基于分布式计算框架对规模化数据中的特征选择过程进行优化处理,使得基于信息论的特征选择算法可用于当前场景,提高机器学习算法和特征选择算法的性能。
下面结合附图,详细介绍根据本发明实施例的装置。图7示出本发明一实施例提供的特征选择装置的结构示意图。如图7所示,特征选择装置可以包括如下模块。
特征选定模块710,用于根据通讯网络的性能特征与预设的分类标签的相关性,从性能特征中选取与分类标签最相关的指定数量的特征,得到选定特征集合。
特征判断模块720,用于判断选定特征集合中的选定特征是否满足特征选择条件,特征选择条件包括:对性能特征的分类进行的极大似然估计达到最大值时的特征选择参数,与相关性达到最小值时的特征选择参数相同。
特征选择模块730,用于若选定特征满足特征选择条件,则选择选定特征作为与分类标签最相关的特征。
在一个实施例中,对性能特征的分类进行的极大似然估计的取值,是分类标签在性能特征中的真实特征分布与本质特征分布的似然比、性能特征和分类标签的相关性、以及性能特征和分类标签的信息熵的和值;其中,似然比表示:分类标签在选定特征条件下的概率密度,与分类标签在选定特征和特征预测参数条件下的概率密度的比值。
在一个实施例中,特征选择装置还用于在根据通讯网络的性能特征与预设的分类标签的相关性之前,根据通讯网络的性能数据的性能特征,将性能特征存储为特征矩阵;对特征矩阵进行转置运算,得到转置的特征矩阵;根据转置的特征矩阵中的性能特征,计算通讯网络中的每个性能特征与预设的分类标签之间的相关性。
在一个实施例中,特征选择装置在用于计算通讯网络中的每个性能特征与预设的分类标签之间的相关性时,具体用于:向预设的多个分布式计算节点广播分类标签;指示每个分布式计算节点,计算备选特征与分类标签之间的互信息,得到备选特征与分类标签之间的特征相关性,备选特征是预先分配至每个分布式计算节点的性能特征;根据每个分布式计算节点计算得到的特征相关性,确定每个性能特征与分类标签之间的相关性。
在一个实施例中,特征选择装置在用于计算备选特征与分类标签之间的互信息时,具体还用于包括:计算分类标签的直方图信息和备选特征的直方图信息;根据分类标签的直方图信息和备选特征的直方图信息,计算分类标签的边缘概率分布、备选特征的边缘概率分布、以及分类标签和备选特征的联合概率分布;计算分类标签的边缘概率分布与备选特征的边缘概率分布的概率分布乘积,并计算联合概率分布与概率分布乘积的相似程度,得到备选特征与分类标签之间的互信息。
在一个实施例中,若选定特征不满足特征选择条件,则特征选择装置还包括:特征冗余性计算模块,用于计算选定特征集合中的选定特征、性能特征和分类标签之间的特征冗余性;利用计算得到的特征冗余性信息,更新选定特征集合;将更新的选定特征集合,作为从性能特征中选择的最相关的特征数据。
在一个实施例中,特征冗余性计算模块,在用于计算选定特征集合中的选定特征、性能特征和分类标签之间的特征冗余性时,具体还用于:向预设的多个分布式计算节点广播分类标签和选定特征集合;指示每个分布式计算节点,计算备选特征、选定特征集合中的选定特征和分类标签的特征冗余性,备选特征是预先分配至每个分布式计算节点的性能特征;根据每个分布式计算节点计算得到的特征冗余性,确定每个性能特征与分类标签之间的特征冗余性。
在一个实施例中,特征冗余性计算模块,在用于计算备选特征、选定特征集合中的选定特征和分类标签的特征冗余性时,具体还用于:计算备选特征的直方图信息、选定特征集合中的选定特征的直方图信息、以及分类标签的直方图信息;根据备选特征的直方图信息、选定特征的直方图信息、以及分类标签的直方图信息,计算备选特征、选定特征的和分类标签的之间的条件互信息,得到备选特征、选定特征的和分类标签的特征冗余性。
在一个实施例中,性能特征的特征矩阵中的每个矩阵元素,表示与指定的特征索引值和分区索引值对应的特征数据,其中,特征索引值用于索引通讯网络的指定特征,分区索引值用于索引与分类标签对应的数据存储分区,并且其中,同一指定特征的特征数据存储于特征向量矩阵中的同一分区。
通过本申请实施例的特征选择装置,能够基于分布式计算框架对规模化数据中的特征选择过程进行优化处理,使得基于信息论的特征选择算法可用于当前场景,提高机器学习算法和特征选择算法的性能。
需要明确的是,本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图8是示出能够实现根据本发明实施例的方法和装置的计算设备的示例性硬件架构的结构图。
如图8所示,计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中,输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接,输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接,进而与计算设备800的其他组件连接。
具体地,输入设备801接收来自外部的输入信息,并通过输入接口802将输入信息传送到中央处理器803;中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器804中,然后通过输出接口805将输出信息传送到输出设备806;输出设备806将输出信息输出到计算设备800的外部供用户使用。
在一个实施例中,图8所示的计算设备可以被实现为一种网络设备,该网络设备可以包括:存储器,被配置为存储程序;处理器,被配置为运行存储器中存储的程序,以执行上述实施例描述的特征选择方法。
以上所述,仅为本申请的示例性实施例而已,并非用于限定本申请的保护范围。一般来说,本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以被实现在硬件中,而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中,尽管本申请不限于此。
本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
本申请附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。
通过示范性和非限制性的示例,上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑,对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的,但不偏离本发明的范围。因此,本发明的恰当范围将根据权利要求确定。

Claims (12)

1.一种特征选择方法,其特征在于,所述方法包括:
根据通讯网络的性能特征与预设的分类标签的相关性,从所述性能特征中选取与所述分类标签最相关的指定数量的特征,得到选定特征集合;
判断所述选定特征集合中的选定特征是否满足特征选择条件,所述特征选择条件包括:对所述性能特征的分类进行的极大似然估计达到最大值时的特征选择参数,与所述相关性达到最小值时的特征选择参数相同;
若所述选定特征满足所述特征选择条件,则选择所述选定特征作为与所述分类标签最相关的特征。
2.根据权利要求1所述的方法,其特征在于,
所述对所述性能特征的分类进行的极大似然估计的取值,是所述分类标签在所述性能特征中的真实特征分布与本质特征分布的似然比、所述性能特征和分类标签的相关性、以及所述性能特征和分类标签的信息熵的和值;
其中,所述似然比表示所述分类标签在选定特征条件下的概率密度,与所述分类标签在选定特征和特征预测参数条件下的概率密度的比值。
3.根据权利要求1所述的方法,其特征在于,在所述根据通讯网络的性能特征与预设的分类标签的相关性之前,所述方法还包括:
根据通讯网络的性能数据的性能特征,将所述性能特征存储为特征矩阵;
对所述特征矩阵进行转置运算,得到转置的特征矩阵;
根据所述转置的特征矩阵中的性能特征,计算通讯网络中的每个性能特征与预设的分类标签之间的相关性。
4.根据权利要求3中任一项所述的方法,其特征在于,所述计算通讯网络中的每个性能特征与预设的分类标签之间的相关性,包括:
向预设的多个分布式计算节点广播所述分类标签;
指示每个分布式计算节点,计算备选特征与所述分类标签之间的互信息,得到所述备选特征与分类标签之间的特征相关性,所述备选特征是预先分配至所述每个分布式计算节点的性能特征;
根据所述每个分布式计算节点计算得到的所述特征相关性,确定所述每个性能特征与所述分类标签之间的相关性。
5.根据权利要求4所述的方法,其特征在于,所述计算备选特征与所述分类标签之间的互信息,包括:
计算所述分类标签的直方图信息和所述备选特征的直方图信息;
根据所述分类标签的直方图信息和所述备选特征的直方图信息,计算所述分类标签的边缘概率分布、所述备选特征的边缘概率分布、以及所述分类标签和所述备选特征的联合概率分布;
计算所述分类标签的边缘概率分布与所述备选特征的边缘概率分布的概率分布乘积,并计算所述联合概率分布与所述概率分布乘积的相似程度,得到所述备选特征与分类标签之间的互信息。
6.根据权利要求1-3中任一项所述的方法,其特征在于,若所述选定特征不满足所述特征选择条件,则所述方法还包括:
计算所述选定特征集合中的选定特征、所述性能特征和所述分类标签之间的特征冗余性;
利用计算得到的所述特征冗余性信息,更新所述选定特征集合;
将更新的选定特征集合,作为从所述性能特征中选择的所述最相关的特征数据。
7.根据权利要求6所述的方法,其特征在于,所述计算所述选定特征集合中的选定特征、所述性能特征和所述分类标签之间的特征冗余性,包括:
向预设的多个分布式计算节点广播所述分类标签和所述选定特征集合;
指示每个分布式计算节点,计算备选特征、所述选定特征集合中的选定特征和所述分类标签的特征冗余性,所述备选特征是预先分配至所述每个分布式计算节点的性能特征;
根据所述每个分布式计算节点计算得到的所述特征冗余性,确定所述每个性能特征与所述分类标签之间的特征冗余性。
8.根据权利要求7所述的方法,其特征在于,所述计算备选特征、所述选定特征集合中的选定特征和所述分类标签的特征冗余性,包括:
计算所述备选特征的直方图信息、所述选定特征集合中的选定特征的直方图信息、以及所述分类标签的直方图信息;
根据所述备选特征的直方图信息、所述选定特征的直方图信息、以及所述分类标签的直方图信息,计算备选特征、所述选定特征的和所述分类标签的之间的条件互信息,得到所述备选特征、所述选定特征的和所述分类标签的特征冗余性。
9.根据权利要求1-3中任一项所述的方法,其特征在于,
所述性能特征的特征矩阵中的每个矩阵元素,表示与指定的特征索引值和分区索引值对应的特征数据,其中,所述特征索引值用于索引所述通讯网络的指定特征,所述分区索引值用于索引与所述分类标签对应的数据存储分区,并且其中,同一指定特征的特征数据存储于所述特征向量矩阵中的同一分区。
10.一种特征选择装置,其特征在于,所述装置包括:
特征选定模块,用于根据通讯网络的性能特征与预设的分类标签的相关性,从所述性能特征中选取与所述分类标签最相关的指定数量的特征,得到选定特征集合;
特征判断模块,用于判断所述选定特征集合中的选定特征是否满足特征选择条件,所述特征选择条件包括:对所述性能特征的分类进行的极大似然估计达到最大值时的特征选择参数,与所述相关性达到最小值时的特征选择参数相同;
特征选择模块,用于若所述选定特征满足所述特征选择条件,则选择所述选定特征作为与所述分类标签最相关的特征。
11.一种网络设备,包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-9中任一项所述的特征选择方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的特征选择方法。
CN202010760727.5A 2020-07-31 2020-07-31 特征选择方法、装置、网络设备和计算机可读存储介质 Pending CN114091558A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010760727.5A CN114091558A (zh) 2020-07-31 2020-07-31 特征选择方法、装置、网络设备和计算机可读存储介质
EP21848566.2A EP4191470A1 (en) 2020-07-31 2021-07-30 Feature selection method and device, network device and computer-readable storage medium
PCT/CN2021/109587 WO2022022683A1 (zh) 2020-07-31 2021-07-30 特征选择方法及装置、网络设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010760727.5A CN114091558A (zh) 2020-07-31 2020-07-31 特征选择方法、装置、网络设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114091558A true CN114091558A (zh) 2022-02-25

Family

ID=80037698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010760727.5A Pending CN114091558A (zh) 2020-07-31 2020-07-31 特征选择方法、装置、网络设备和计算机可读存储介质

Country Status (3)

Country Link
EP (1) EP4191470A1 (zh)
CN (1) CN114091558A (zh)
WO (1) WO2022022683A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680594B (zh) * 2023-05-05 2024-07-05 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7969345B2 (en) * 2009-04-13 2011-06-28 Raytheon Company Fast implementation of a maximum likelihood algorithm for the estimation of target motion parameters
CN105183813B (zh) * 2015-08-26 2017-03-15 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法
CN106991447A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种嵌入式多类别属性标签动态特征选择算法
CN109190660A (zh) * 2018-07-24 2019-01-11 西安理工大学 基于条件互信息的特征选择与评价方法

Also Published As

Publication number Publication date
WO2022022683A1 (zh) 2022-02-03
EP4191470A1 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
EP4036724A1 (en) Method for splitting neural network model by using multi-core processor, and related product
WO2019238109A1 (zh) 一种故障根因分析的方法及装置
Goretzko et al. One model to rule them all? Using machine learning algorithms to determine the number of factors in exploratory factor analysis.
CN114239198A (zh) 一种基于并行优化的电网子图划分方法及装置
CN114091558A (zh) 特征选择方法、装置、网络设备和计算机可读存储介质
CN114781688A (zh) 业扩项目的异常数据的识别方法、装置、设备及存储介质
Hautphenne et al. An EM algorithm for the model fitting of Markovian binary trees
CN110209895B (zh) 向量检索方法、装置和设备
CN116862658A (zh) 信用评估方法、装置、电子设备、介质和程序产品
CN116304213A (zh) 基于图神经网络的rdf图数据库子图匹配查询优化方法
CN116384471A (zh) 模型剪枝方法、装置、计算机设备、存储介质和程序产品
CN112906824B (zh) 车辆聚类方法、系统、设备及存储介质
CN116028832A (zh) 一种样本聚类处理方法、装置、存储介质及电子设备
CN115168326A (zh) Hadoop大数据平台分布式能源数据清洗方法及系统
CN113139556B (zh) 基于自适应构图的流形多视图图像聚类方法及系统
CN114880457A (zh) 工艺推荐模型的训练、工艺推荐方法及电子设备
CN111428741B (zh) 网络社区的发现方法、装置、电子设备及可读存储介质
CN112766356A (zh) 一种基于动态权重D-XGBoost模型的预测方法及系统
CN117332543B (zh) 电网异构数据源的分布处理方法
CN114996029B (zh) 一种基于多主机负载数据分析的进程优化方法及系统
CN116798103B (zh) 基于人工智能的人脸图像处理方法及系统
CN115034388B (zh) 排序模型的量化参数的确定方法、装置及电子设备
CN111581164B (zh) 多媒体文件处理方法、装置、服务器及存储介质
CN116932677A (zh) 地址信息匹配方法、装置、计算机设备和存储介质
CN118332156A (zh) 机器学习任务的管理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination