CN109412882B - 特征提取方法、装置、服务器及计算机可读存储介质 - Google Patents
特征提取方法、装置、服务器及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109412882B CN109412882B CN201710714338.7A CN201710714338A CN109412882B CN 109412882 B CN109412882 B CN 109412882B CN 201710714338 A CN201710714338 A CN 201710714338A CN 109412882 B CN109412882 B CN 109412882B
- Authority
- CN
- China
- Prior art keywords
- feature
- grouping
- characteristic
- training data
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/022—Capturing of monitoring data by sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种特征提取方法、装置、服务器及计算机可读存储介质,属于移动互联网领域。该方法包括:对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;根据初始化模型参数对训练数据集进行分组特征关联性计算,将训练数据集的特征归入对应的分组,并更新模型参数;对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。本发明通过特征分组的选择机制,在特征提取前对特征样本进行预分组,对新增的特征进行分组特征关联性计算,有效的解决特征冗余计算的问题,通过引入特征收缩变量对分组特征进一步优化分组,使得特征分组选择效率大大提高,并能支持在线动态数据的特征提取。
Description
技术领域
本发明涉及移动互联网技术领域,尤其涉及一种特征提取方法、装置、服务器及计算机可读存储介质。
背景技术
近年来,移动互联网数据流量爆炸性增长,业务类型极其丰富,不同业务自身的行为对网络性能的影响日益深远,因此,研究用户侧DPI(deep packet inspection,深度包检测,)与无线侧无线资源利用率之间的关联关系,对进一步获取4G网络扩容逻辑显得尤为重要。
目前,为了实现资源的合理利用,需要进一步对资源特征进行分析,而在特征提取研究中,通过移除不相关的和冗余的特征来缓解维度灾难的做法是将数据的特征两两进行比较,这种做法计算量大且特征基数量大,在实际应用中,特征提取的泛化性能低,学习过程缓慢,因此,移动网络下从大量无线侧和用户侧数据中提取特征需要消耗很长的训练时间和巨大的内存资源,效率十分低下。
此外,传统的特征提取对象是离线的数据(数据是确定的),即研究假设训练实例的所有特征都是已知的,并且整个特征提取的过程是以离线的学习方式进行,然而在现实应用中,这种假设并不是一直成立的。因此,训练实例需要以在线的方式连续到达,支持在线动态数据的特征提取。
发明内容
有鉴于此,本发明的目的在于提供一种特征提取方法、装置、服务器及计算机可读存储介质,以解决移动网络中无线侧和用户侧数据的特征提取中,两两特征相关计算量大以及特征基数量大的问题而消耗巨大的内存资源的技术问题。
本发明解决上述技术问题所采用的技术方案如下:
根据本发明的一个方面,提供的一种特征提取方法包括:
对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;
根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数;
对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果。
优选的,所述对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数包括:
将所述预训练数据集输入特征选择器进行特征关联性计算;
根据特征关联性计算结果和关联参数集,将预训练数据集的每一特征归入对应的支持-附属特征集,同时更新分组数;
根据支持-附属特征集生成对应的支持特征集和特征收缩变量,得到初始化模型参数;
其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量、分组数以及关联参数集。
优选的,所述根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数,进一步包括:
将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;
根据分组特征关联性计算结果,把训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;
根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集,得到动态更新的模型参数。
优选的,所述将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算中包括:
当分组的特征值是线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征的标签,i表示分组的编号;表示特征fj与分组的特征关联系数,表示特征fj与分组的特征互信息,H(fj)表示特征fj的信息熵,表示分组的特征的信息熵;
当分组的特征值是非线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征标签,i表示分组的编号;表示特征fj与分组的特征的对称不确定度关联系数,表示特征fj和分组的特征的协方差,表示特征fj的方差,表示分组的特征的方差。
优选的,所述对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果包括:
对每一分组特征对应的特征收缩变量集进行更新;
将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
优选的,所述对每一分组特征对应的特征收缩变量集进行更新按以下公式进行:
其中,i表示分组内的特征编号,i=1,...,n,n表示分组内的特征个数;表示特征收缩变量集,且w表示权重向量,w′为w的转置向量,ξ表示松弛变量,为函数复杂度,C表示正则化参数;s.t.表示后面为前式的限制条件,yi表示分类结果,且yi∈(-1,0,1),xi表示特征值;表示表示特征值与收缩变量对应相乘;b表示经特征收缩变量改变后的特征与原特征之间的变化大小;
所述将所述特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作包括按以下公式进行迭代计算,抛弃特征收缩变量为0或趋于0的特征:
其中,fi表示特征数据,ρ为拉格朗日乘数,表示ρ的转置;j表示分组编号,σ表示分组数;为特征收缩变量集,且i表示分组内的特征编号,i=1,...,n,n表示分组的特征个数;表示函数复杂度,yi表示分类结果,且yi∈(-1,0,1);表示特征Si的特征值;C表示正则化参数。
根据本发明的另一个方面,提供的一种特征提取装置包括预分组模块、分组模块和优化模块,其中:
预分组模块,用于对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;
分组模块,用于根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数;
分组优化模块,用于对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
优选的,所述预分组模块包括特征关联性计算单元和分组生成单元,其中:
特征关联性计算单元,用于将所述预训练数据集输入所述特征选择器进行征关联性计算;
分组生成单元,用于根据特征关联性计算结果和关联参数集,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量;
其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量集、分组数以及关联参数集。
优选的,所述分组模块进一步包括分组特征关联性计算单元和分组更新单元,其中:
分组特征关联性计算单元,用于将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;
分组更新单元,用于根据分组特征关联性计算结果,将训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集。
优选的,所述分组优化模块包括特征收缩变量计算模块和特征收缩变量优化模块,其中:
特征收缩变量计算单元,用于对每一分组特征对应的特征收缩变量集进行更新;
特征收缩变量优化单元,用于将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
根据本发明的再一个方面,提供的一种特征提取服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述特征提取方法的步骤。
根据本发明的又一个方面,提供的一种计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如上述特征提取方法的步骤。
本发明实施例的特征选择器及其特征提取方法、装置和计算机可读存储介质,针对无线侧和用户侧数据的特征提取中,两两特征关联性计算量大以及特征基数量大的问题,通过特征分组的选择机制,在初始特征提取前对数据的特征样本进行预分组,对数据特征进行分组特征关联性计算,大大减少关联性计算的次数,有效的解决特征冗余计算的问题;针对分组特征的数量依然庞大的问题,通过引入特征收缩变量集对分组特征进一步迭代优化分组,删除分组特征中冗余的特征,极大的简化分组,从而达到用较低的代价减少特征选择偏差的目的,提高特征选择的有效性。
附图说明
图1为移动互联网系统的架构图;
图2为本发明实施例提供的一种特征提取方法的流程图;
图3为本发明实施例提供的一种预训练数据集预分组方法的流程图;
图4为本发明实施例提供的一种训练数据集分组方法的流程图;
图5为本发明实施例提供的一种分组优化方法的流程图;
图6为本发明实施例提供的一种特征提取装置的模块结构图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明实施例提供的一种移动互联网系统的架构图,该无线网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(UserEquipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。
具体地,UE201可以是移动终端、PC机、平板电脑等具有无线通讯功能的终端。
E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,eNodeB2021连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。
EPC203可以包括MME(Mobility Management Entity,移动性管理实体)2031,HSS(Home Subscriber Server,归属用户服务器)2032,其它MME2033,SGW(Serving Gate Way,服务网关)2034,PGW(PDN Gate Way,分组数据网络网关)2035和PCRF(Policy andCharging Rules Function,政策和资费功能实体)2036等。其中,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE 201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。
IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem,IP多媒体子系统)或其它IP业务等。
无线资源205可以包括:上行信道PRB资源利用率、下行信道PRB资源利用率、PDCCH资源利用率、PRACH资源使用率、寻呼资源利用率。
其他业务206可以包括:除IP业务以外的业务。
服务器207包括无线侧数据采集2071和用户侧数据采集2072,以及特征提取服务器2073。
特征提取服务器2073的处理器执行如下步骤:
对无线侧和用户侧的预训练数据集根据特征关联性进行特征预分组,得到初始化模型参数;
根据初始化模型参数对训练数据集进行分组特征关联性计算,根据分组特征关联性计算结果将训练数据集的数据的特征归入对应的分组,并更新模型参数;
对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
虽然上述以LTE系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,此处不做限定。
基于上述移动互联网系统,提出本发明方法各个实施例。
实施例一
如图2所示,本发明实施例提供的一种特征提取方法,该方法包括:
S201、对无线侧和用户侧的预训练数据集根据特征关联性进行特征预分组,得到初始化模型参数。
具体的,特征提取服务器从移动网络的无线侧数据和用户侧数据中选择一部分作为预训练数据集。对选择的预训练数据集进行预处理,初步形成数据的特征支持-附属特征集及与之对应的支持特征集和对应的特征收缩变量集。
本步骤S201可以这样实现:将预训练数据集输入特征选择器进行征关联性计算;根据特征关联性计算结果,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数。根据支持-附属特征集形成对应的支持特征集,并对每一分组特征赋予一组特征收缩变量表征特征在最后结果中的权重。
S202、根据初始化模型参数对训练数据集进行分组特征关联性计算,将训练数据集的数据的特征归入对应的分组,并更新模型参数。
具体的,本步骤S202可以这样实现:将训练数据集和初始化模型参数输入特征选择器,对训练数据集的每一数据特征进行分组特征关联性计算。根据分组特征关联性计算结果,把训练数据集的每一数据特征归入支持-附属特征集,并更新分组。根据更新后的支持-附属特征集,生成新的支持特征集,同时生成对应的分组特征收缩变量集表征特征在最后结果中的权重。
S203、对模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
具体的,本步骤进一步包括:对每一分组特征对应的特征收缩变量集进行更新;将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
其中,输出的无线侧特征选择结果包括但不限于RRC连接建立平均用户数,平均RRC连接比例,RRC连接状态下行平均速率,RRC连接状态上行平均速率,上下行流量比例等。用户侧数据的特征包括但不限于业务量类型,业务量大小,业务时长,用户业务速率,用户业务时延,业务丢包等。
本实施例中,通过特征分组的选择机制,在特征提取前对数据的特征样本进行预分组,然后对数据进行分组特征关联性计算,大大减少关联性计算的次数,有效的解决特征冗余计算的问题;通过引入特征收缩变量集对分组特征进一步优化分组,删除分组特征中冗余的特征,使得特征分组选择效率大大提高。
实施例二
如图3所示,本发明实施例提供的一种预训练数据集预分组方法包括:
S2011、将预训练数据集输入特征选择器进行征关联性计算。
其中,假设特征选择器的初始化分组个数γ,最大分组数γmax,关联参数集{κA,κB,κC},γ和数γmax为自然数,且γ<γmax,κA表示不相关阈值,κB表示弱相关阈值,κC表示强相关阈值,且0≤κA<κB<κC≤1。
假设预先设置κA=0.1,κB=0.3,κC=0.9,以及分组数γ=10和最大分组数γmax=15,从移动网络的无线侧数据和用户侧数据中选择一部分数据作为预训练数据集,将预训练数据集输入特征选择器。
当特征关联性计算的特征值是线性数据时,采用以下公式对无线侧和用户侧数据的特征进行计算:
其中,P(fi,fj)表示特征fi和特征fj的关联系数,i和j表示特征编号,fi表示编号为i的特征,fj表示编号为j的特征,I(fi,fj)表示特征fi和特征fj的互信息,H(fi)表示特征fi的信息熵,H(fj)表示特征fj的信息熵。
当特征关联性计算的特征值是非线性数据时,采用以下公式对无线侧和用户侧数据的特征进行关联性计算:
其中,S(fi,fi)表示对称不确定度关联系数,i和j表示特征编号,fi表示编号为i的特征,fj表示编号为j的特征,cov(fi,fj)表示特征fi和特征fj的协方差,表示特征fi的方差,表示特征fj的方差。
S2012、根据特征关联性计算结果,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数。
具体的,特征关联性计算规则可以按如下方式进行处理:
当0≤P(fi,fj)<κA或者0≤S(fi,fj)<κA时,表示无线侧数据与用户侧数据的特征fj和特征fi不相关,此时,对特征fj归入属于特征fi的下一个特征分组集或者与下一特征分组集中的特征进行比较计算。
当κA≤P(fi,fj)<κB或者κA≤S(fi,fj)<κB时,表示无线侧数据与用户侧数据的特征fj和特征fi弱相关,此时,保留特征fj与特征fi分组信息,待与之后所有剩余分组特征关联性计算后,再进行分组。
当κB≤P(fi,fj)≤κC或者κB≤S(fi,fj)<κC时,表示无线侧和用户侧数据的特征fi与特征fj强关联,立即分入当前特征fi所在特征分组集。
当κC≤P(fi,fj)≤1或者κC≤S(fi,fj)≤1时,表示无线侧和用户侧数据的特征fi与特征fj对最后结果做出的贡献相同,这种情况视为特征冗余,只需要取其中之一进行后续计算),并入特征fi(即删除fj)。
当无线侧和用户侧数据的特征fi与所有特征关联性计算都处于弱关联,且γ<γmax时,为fi创建新的支持-附属特征集,同时分组个数γ+1。反之,当γ≥γmax时,选择关联性计算相差最小的一组并入分组。
S2013、根据支持-附属特征集形成对应的支持特征集和对应的特征收缩变量集。
特征收缩变量αi的形成:αi=1
其中,特征收缩变量αi表征特征在最后结果中的权重,预设初值为1,后续会逐渐更新而衰减,直至稳定,若在0左右稳定,可作冗余优化处理。
本实施例中,当预训练数据集分组完成后,获得移动网络初始化模型参数包括预训练后的初始化支持-附属特征集Si,初始化支持集初始化特征收缩变量αi,初始化分组数γ,初始化关联参数集{κA,κB,κC}),为后继新增加的无线侧和用户侧数据的特征分组处理做准备,从而对新增加的数据不再需要进行特征两两关联性计算,减少计算量。
实施例三
如图4所示,本发明实施例提供的一种训练数据集分组方法包括:
S2021、将训练数据集和初始化模型参数输入特征选择器,对训练数据集的每一数据特征进行分组特征关联性计算。
具体的,将新增的无线侧和用户侧的训练数据集以及初始化模型参数输入特征选择器。
当分组的特征值是线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征的标签,i表示分组的编号;表示特征fj与分组的特征关联系数,表示特征fj与分组的特征互信息,H(fj)表示特征fj的信息熵,表示分组的特征的信息熵;
当分组的特征值是非线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征标签,i表示分组的编号;表示特征fj与分组的特征的对称不确定度关联系数,表示特征fj和分组的特征的协方差,表示特征fj的方差,表示分组的特征的方差。
S2022、根据分组特征关联性计算结果,把训练数据集的每一数据特征归入支持-附属特征集,并更新分组数。
具体的,分组特征关联性计算规则可以按如下方式处理:
S2023、根据更新后的支持-附属特征集,生成新的支持特征集,同时生成对应的特征收缩变量集。
此处,特征收缩变量预设初值为αi=1,后续会逐渐迭代更新而衰减,直至稳定,若在0左右稳定,可作冗余优化处理。
本实施例中,通过将训练数据集和初始化模型参数输入特征选择器,对新增加的无线侧和用户侧数据进行分组特征关联性计算,从而将新增的特征归入分组并动态更新模型参数,大大减少关联性计算的次数,有效的解决特征冗余计算的问题。
实施例四
如图5所示,本发明实施例提供的一种分组优化方法包括:
S2031、对每一分组特征对应的特征收缩变量集进行更新。
其中,i表示分组内的特征编号,i=1,...,n,n表示分组内的特征个数;表示特征收缩变量集,且w表示权重向量,w′为w的转置向量,ξ表示松弛变量,为函数复杂度,C表示正则化参数;s.t.表示后面为前式的限制条件,yi表示分类结果,且yi∈(-1,0,1),xi表示特征值;表示表示特征值与收缩变量对应相乘;b表示经特征收缩变量改变后的特征与原特征之间的变化大小。
S2032、将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
具体的,可以按以下公式经过T次迭代,抛弃特征收缩变量为0或趋于0的特征:
其中,fi表示特征数据,表示特征收缩变量,ρ为拉格朗日乘数,表示ρ的转置;j表示分组编号,σ表示分组数;为特征收缩变量集,且 i表示分组内的特征编号,i=1,...,n,n表示分组的特征个数;表示函数复杂度,yi表示分类结果,且表示特征Si的特征值;C表示正则化参数。
本发明实施例中,通过对每一组特征的特征收缩变量进行优化,每次更新,根据特征优化式减少特征收缩变量,直到各特征收缩变量收敛,抛弃特征收缩变量为0或趋于0的特征,从而删除分组特征中冗余的特征,完成特征优化,使得特征分组选择效率大大提高。
实施例5
如图6所示,本发明实施例提供的一种特征提取装置包括预分组模块10、分组模块20和优化模块30。
预分组模块10,用于对无线侧和用户侧的预训练数据集根据特征关联性进行特征预分组,得到初始化模型参数。
具体的,预分组模块10包括特征关联性计算单元101和分组生成单元102,其中:特征关联性计算单元101,用于将预训练数据集输入特征选择器进行征关联性计算。分组生成单元102,用于根据特征关联性计算结果和关联参数集,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量。
分组模块20,用于根据初始化模型参数对训练数据集进行分组特征关联性计算,将训练数据集的数据的特征归入对应的分组,并更新模型参数。
具体的,分组模块20进一步包括分组特征关联性计算单元201和分组更新单元202,其中:分组特征关联性计算单元201,用于将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算。分组更新单元202,用于根据分组特征关联性计算结果,将训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集。
分组优化模块30,用于对模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
具体的,分组优化模块30包括特征收缩变量计算单元301和特征收缩变量优化单元302,其中:特征收缩变量计算单元301,用于对每一分组特征对应的特征收缩变量集进行更新。特征收缩变量优化单元302,用于将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
此外,本发明实施例还提供了一种特征提取服务器,该特征提取服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述特征提取方法的步骤。
此外,本发明实施例提供的一种存储介质,该存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如上述特征提取方法的步骤。
需要说明的是,上述装置实施例和存储介质实施例与方法实施例属于同一构思,其具体实现过程详见方法实施例,且方法实施例中的技术特征在装置和存储介质实施例中均对应适用,这里不再赘述。
本发明实施例的特征选择器及其特征提取方法、装置和计算机可读存储介质,针对无线侧和用户侧数据的特征提取中,两两特征关联性计算量大以及特征基数量大的问题,通过特征分组的选择机制,在初始特征提取前对数据的特征样本进行预分组,对数据特征进行分组特征关联性计算,大大减少关联性计算的次数,有效的解决特征冗余计算的问题;针对分组特征的数量依然庞大的问题,通过引入特征收缩变量集对分组特征进一步迭代优化分组,删除分组特征中冗余的特征,极大的简化分组,从而达到用较低的代价减少特征选择偏差的目的,提高特征选择的有效性。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。
Claims (12)
1.一种特征提取方法,其特征在于,该方法包括:
对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;
根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数;
对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果。
2.根据权利要求1所述的特征提取方法,其特征在于,所述对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数包括:
将所述预训练数据集输入特征选择器进行特征关联性计算;
根据特征关联性计算结果和关联参数集,将预训练数据集的每一特征归入对应的支持-附属特征集,同时更新分组数;
根据支持-附属特征集生成对应的支持特征集和特征收缩变量,得到初始化模型参数;
其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量、分组数以及关联参数集。
3.根据权利要求1所述的特征提取方法,其特征在于,所述根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数,进一步包括:
将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;
根据分组特征关联性计算结果,把训练数据集的每一数据特征归入支持-附属特征集,并更新分组数;
根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集,得到动态更新的模型参数。
4.根据权利要求3所述的特征提取方法,其特征在于,所述将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算中包括:
当分组的特征值是线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征的标签,i表示分组的编号;表示特征fj与分组的特征关联系数,表示特征fj与分组的特征互信息,H(fj)表示特征fj的信息熵,表示分组的特征的信息熵;
当分组的特征值是非线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
5.根据权利要求1所述的特征提取方法,其特征在于,所述对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果包括:
对每一分组特征对应的特征收缩变量集进行更新;
将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
6.根据权利要求5所述的特征提取方法,其特征在于,所述对每一分组特征对应的特征收缩变量集进行更新按以下公式进行:
其中,i表示分组内的特征编号,i=1,…,n,n表示分组内的特征个数;表示特征收缩变量集,且w表示权重向量,w′为w的转置向量,ξ表示松弛变量,为函数复杂度,C表示正则化参数;s.t.表示后面为前式的限制条件,yi表示分类结果,且yi∈(-1,0,1),xi表示特征值;⊙表示特征值与收缩变量对应相乘;b表示经特征收缩变量改变后的特征与原特征之间的变化大小;
所述将所述特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作包括按以下公式进行迭代计算,抛弃特征收缩变量为0或趋于0的特征:
7.一种特征提取装置,其特征在于,该装置包括预分组模块、分组模块和优化模块,其中:
预分组模块,用于对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;
分组模块,用于根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数;
分组优化模块,用于对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
8.根据权利要求7所述的特征提取装置,其特征在于,所述预分组模块包括特征关联性计算单元和分组生成单元,其中:
特征关联性计算单元,用于将所述预训练数据集输入所述特征选择器进行征关联性计算;
分组生成单元,用于根据特征关联性计算结果和关联参数集,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量;
其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量集、分组数以及关联参数集。
9.根据权利要求7所述的特征提取装置,其特征在于,所述分组模块进一步包括分组特征关联性计算单元和分组更新单元,其中:
分组特征关联性计算单元,用于将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;
分组更新单元,用于根据分组特征关联性计算结果,将训练数据集的每一数据特征归入支持-附属特征集,并更新分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集。
10.根据权利要求7所述的特征提取装置,其特征在于,所述分组优化模块包括特征收缩变量计算模块和特征收缩变量优化模块,其中:
特征收缩变量计算单元,用于对每一分组特征对应的特征收缩变量集进行更新;
特征收缩变量优化单元,用于将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
11.一种特征提取服务器,其特征在于,该服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的特征提取方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至6 中任一项所述的特征提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710714338.7A CN109412882B (zh) | 2017-08-18 | 2017-08-18 | 特征提取方法、装置、服务器及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710714338.7A CN109412882B (zh) | 2017-08-18 | 2017-08-18 | 特征提取方法、装置、服务器及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109412882A CN109412882A (zh) | 2019-03-01 |
CN109412882B true CN109412882B (zh) | 2023-01-10 |
Family
ID=65462705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710714338.7A Active CN109412882B (zh) | 2017-08-18 | 2017-08-18 | 特征提取方法、装置、服务器及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109412882B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796180B (zh) * | 2019-10-12 | 2022-06-07 | 吉林大学 | 一种基于人工智能的模型训练系统与方法 |
CN113747480B (zh) * | 2020-05-28 | 2024-05-07 | 中国移动通信集团浙江有限公司 | 5g切片故障的处理方法、装置及计算设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103313333A (zh) * | 2012-03-13 | 2013-09-18 | 中国移动通信集团广东有限公司 | 在移动网络间进行切换的方法、通信终端、服务器和网络 |
CN104038957A (zh) * | 2014-06-13 | 2014-09-10 | 杭州大光明通信系统集成有限公司 | 一种基于一体化结构的4g基站运维信息分析处理方法 |
CN105426842A (zh) * | 2015-11-19 | 2016-03-23 | 浙江大学 | 基于支持向量机的表面肌电信号多类手部动作识别方法 |
CN106776485A (zh) * | 2016-12-23 | 2017-05-31 | 苏州华碧微科检测技术有限公司 | 一种基于概率计算的鉴定结论量化的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110086644A (zh) * | 2013-08-23 | 2019-08-02 | 诺基亚通信公司 | 在通信中的订户追踪 |
-
2017
- 2017-08-18 CN CN201710714338.7A patent/CN109412882B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103313333A (zh) * | 2012-03-13 | 2013-09-18 | 中国移动通信集团广东有限公司 | 在移动网络间进行切换的方法、通信终端、服务器和网络 |
CN104038957A (zh) * | 2014-06-13 | 2014-09-10 | 杭州大光明通信系统集成有限公司 | 一种基于一体化结构的4g基站运维信息分析处理方法 |
CN105426842A (zh) * | 2015-11-19 | 2016-03-23 | 浙江大学 | 基于支持向量机的表面肌电信号多类手部动作识别方法 |
CN106776485A (zh) * | 2016-12-23 | 2017-05-31 | 苏州华碧微科检测技术有限公司 | 一种基于概率计算的鉴定结论量化的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109412882A (zh) | 2019-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263280B (zh) | 一种基于多视图的动态链路预测深度模型及应用 | |
CN109978142B (zh) | 神经网络模型的压缩方法和装置 | |
Hossain et al. | A deep-tree-model-based radio resource distribution for 5G networks | |
CN108052639A (zh) | 基于运营商数据的行业用户推荐方法及装置 | |
CN113379176B (zh) | 电信网络异常数据检测方法、装置、设备和可读存储介质 | |
CN107909038B (zh) | 一种社交关系分类模型训练方法、装置、电子设备及介质 | |
CN107240029B (zh) | 一种数据处理方法及装置 | |
CN109412882B (zh) | 特征提取方法、装置、服务器及计算机可读存储介质 | |
Tseng et al. | Deep-learning-aided cross-layer resource allocation of OFDMA/NOMA video communication systems | |
US20170208063A1 (en) | Communication system, access authentication method and system based on communication system | |
CN110322003B (zh) | 一种用于文档分类的基于梯度的通过添加虚假节点的图对抗样本生成方法 | |
CN105183909A (zh) | 基于高斯混合模型的社交网络用户兴趣预测方法 | |
CN111224905A (zh) | 一种大规模物联网中基于卷积残差网络的多用户检测方法 | |
CN107133268B (zh) | 一种用于Web服务推荐的协同过滤方法 | |
CN116150125A (zh) | 结构化数据生成模型的训练方法、装置、设备及存储介质 | |
Zhang et al. | Optimization of image transmission in a cooperative semantic communication networks | |
CN111144407A (zh) | 一种目标检测方法、系统、装置及可读存储介质 | |
WO2019234291A1 (en) | An apparatus, a method and a computer program for selecting a neural network | |
CN112906800B (zh) | 基于图像组自适应的协同显著性检测方法 | |
Cardoso et al. | Adaptive fuzzy flow rate control considering multifractal traffic modeling and 5G communications | |
CN117119535A (zh) | 一种移动端集群热点共享的数据分流方法和系统 | |
Zhao et al. | Bars: Joint search of cell topology and layout for accurate and efficient binary architectures | |
Dahanayaka et al. | Robust open-set classification for encrypted traffic fingerprinting | |
CN104955059B (zh) | 基于贝叶斯网络的蜂窝网基站状态时变模型建立方法 | |
WO2023065640A1 (zh) | 一种模型参数调整方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |