CN109412882B - 特征提取方法、装置、服务器及计算机可读存储介质 - Google Patents

特征提取方法、装置、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN109412882B
CN109412882B CN201710714338.7A CN201710714338A CN109412882B CN 109412882 B CN109412882 B CN 109412882B CN 201710714338 A CN201710714338 A CN 201710714338A CN 109412882 B CN109412882 B CN 109412882B
Authority
CN
China
Prior art keywords
feature
grouping
characteristic
training data
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710714338.7A
Other languages
English (en)
Other versions
CN109412882A (zh
Inventor
邵敏峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201710714338.7A priority Critical patent/CN109412882B/zh
Publication of CN109412882A publication Critical patent/CN109412882A/zh
Application granted granted Critical
Publication of CN109412882B publication Critical patent/CN109412882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种特征提取方法、装置、服务器及计算机可读存储介质,属于移动互联网领域。该方法包括:对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;根据初始化模型参数对训练数据集进行分组特征关联性计算,将训练数据集的特征归入对应的分组,并更新模型参数;对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。本发明通过特征分组的选择机制,在特征提取前对特征样本进行预分组,对新增的特征进行分组特征关联性计算,有效的解决特征冗余计算的问题,通过引入特征收缩变量对分组特征进一步优化分组,使得特征分组选择效率大大提高,并能支持在线动态数据的特征提取。

Description

特征提取方法、装置、服务器及计算机可读存储介质
技术领域
本发明涉及移动互联网技术领域,尤其涉及一种特征提取方法、装置、服务器及计算机可读存储介质。
背景技术
近年来,移动互联网数据流量爆炸性增长,业务类型极其丰富,不同业务自身的行为对网络性能的影响日益深远,因此,研究用户侧DPI(deep packet inspection,深度包检测,)与无线侧无线资源利用率之间的关联关系,对进一步获取4G网络扩容逻辑显得尤为重要。
目前,为了实现资源的合理利用,需要进一步对资源特征进行分析,而在特征提取研究中,通过移除不相关的和冗余的特征来缓解维度灾难的做法是将数据的特征两两进行比较,这种做法计算量大且特征基数量大,在实际应用中,特征提取的泛化性能低,学习过程缓慢,因此,移动网络下从大量无线侧和用户侧数据中提取特征需要消耗很长的训练时间和巨大的内存资源,效率十分低下。
此外,传统的特征提取对象是离线的数据(数据是确定的),即研究假设训练实例的所有特征都是已知的,并且整个特征提取的过程是以离线的学习方式进行,然而在现实应用中,这种假设并不是一直成立的。因此,训练实例需要以在线的方式连续到达,支持在线动态数据的特征提取。
发明内容
有鉴于此,本发明的目的在于提供一种特征提取方法、装置、服务器及计算机可读存储介质,以解决移动网络中无线侧和用户侧数据的特征提取中,两两特征相关计算量大以及特征基数量大的问题而消耗巨大的内存资源的技术问题。
本发明解决上述技术问题所采用的技术方案如下:
根据本发明的一个方面,提供的一种特征提取方法包括:
对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;
根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数;
对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果。
优选的,所述对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数包括:
将所述预训练数据集输入特征选择器进行特征关联性计算;
根据特征关联性计算结果和关联参数集,将预训练数据集的每一特征归入对应的支持-附属特征集,同时更新分组数;
根据支持-附属特征集生成对应的支持特征集和特征收缩变量,得到初始化模型参数;
其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量、分组数以及关联参数集。
优选的,所述根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数,进一步包括:
将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;
根据分组特征关联性计算结果,把训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;
根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集,得到动态更新的模型参数。
优选的,所述将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算中包括:
当分组的特征值是线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
Figure BDA0001383444880000031
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;
Figure BDA0001383444880000034
表示分组特征的标签,i表示分组的编号;
Figure BDA0001383444880000035
表示特征fj与分组
Figure BDA0001383444880000036
的特征关联系数,
Figure BDA0001383444880000037
表示特征fj与分组
Figure BDA0001383444880000038
的特征互信息,H(fj)表示特征fj的信息熵,
Figure BDA0001383444880000039
表示分组
Figure BDA00013834448800000310
的特征的信息熵;
当分组的特征值是非线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
Figure BDA0001383444880000032
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;
Figure BDA00013834448800000311
表示分组特征标签,i表示分组的编号;
Figure BDA00013834448800000312
表示特征fj与分组
Figure BDA00013834448800000313
的特征的对称不确定度关联系数,
Figure BDA00013834448800000314
表示特征fj和分组
Figure BDA00013834448800000315
的特征的协方差,
Figure BDA00013834448800000316
表示特征fj的方差,
Figure BDA00013834448800000317
表示分组
Figure BDA00013834448800000318
的特征的方差。
优选的,所述对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果包括:
对每一分组特征对应的特征收缩变量集进行更新;
将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
优选的,所述对每一分组特征对应的特征收缩变量集进行更新按以下公式进行:
Figure BDA0001383444880000033
其中,i表示分组内的特征编号,i=1,...,n,n表示分组内的特征个数;
Figure BDA0001383444880000041
表示特征收缩变量集,且
Figure BDA0001383444880000042
w表示权重向量,w′为w的转置向量,ξ表示松弛变量,
Figure BDA0001383444880000043
为函数复杂度,C表示正则化参数;s.t.表示后面为前式的限制条件,yi表示分类结果,且yi∈(-1,0,1),xi表示特征值;
Figure BDA0001383444880000049
表示表示特征值与收缩变量对应相乘;b表示经特征收缩变量改变后的特征与原特征之间的变化大小;
所述将所述特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作包括按以下公式进行迭代计算,抛弃特征收缩变量为0或趋于0的特征:
Figure BDA0001383444880000044
其中,fi表示特征数据,ρ为拉格朗日乘数,
Figure BDA00013834448800000410
表示ρ的转置;j表示分组编号,σ表示分组数;
Figure BDA0001383444880000045
为特征收缩变量集,且
Figure BDA0001383444880000046
i表示分组内的特征编号,i=1,...,n,n表示分组的特征个数;
Figure BDA0001383444880000047
表示函数复杂度,yi表示分类结果,且yi∈(-1,0,1);
Figure BDA0001383444880000048
表示特征Si的特征值;C表示正则化参数。
根据本发明的另一个方面,提供的一种特征提取装置包括预分组模块、分组模块和优化模块,其中:
预分组模块,用于对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;
分组模块,用于根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数;
分组优化模块,用于对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
优选的,所述预分组模块包括特征关联性计算单元和分组生成单元,其中:
特征关联性计算单元,用于将所述预训练数据集输入所述特征选择器进行征关联性计算;
分组生成单元,用于根据特征关联性计算结果和关联参数集,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量;
其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量集、分组数以及关联参数集。
优选的,所述分组模块进一步包括分组特征关联性计算单元和分组更新单元,其中:
分组特征关联性计算单元,用于将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;
分组更新单元,用于根据分组特征关联性计算结果,将训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集。
优选的,所述分组优化模块包括特征收缩变量计算模块和特征收缩变量优化模块,其中:
特征收缩变量计算单元,用于对每一分组特征对应的特征收缩变量集进行更新;
特征收缩变量优化单元,用于将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
根据本发明的再一个方面,提供的一种特征提取服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述特征提取方法的步骤。
根据本发明的又一个方面,提供的一种计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如上述特征提取方法的步骤。
本发明实施例的特征选择器及其特征提取方法、装置和计算机可读存储介质,针对无线侧和用户侧数据的特征提取中,两两特征关联性计算量大以及特征基数量大的问题,通过特征分组的选择机制,在初始特征提取前对数据的特征样本进行预分组,对数据特征进行分组特征关联性计算,大大减少关联性计算的次数,有效的解决特征冗余计算的问题;针对分组特征的数量依然庞大的问题,通过引入特征收缩变量集对分组特征进一步迭代优化分组,删除分组特征中冗余的特征,极大的简化分组,从而达到用较低的代价减少特征选择偏差的目的,提高特征选择的有效性。
附图说明
图1为移动互联网系统的架构图;
图2为本发明实施例提供的一种特征提取方法的流程图;
图3为本发明实施例提供的一种预训练数据集预分组方法的流程图;
图4为本发明实施例提供的一种训练数据集分组方法的流程图;
图5为本发明实施例提供的一种分组优化方法的流程图;
图6为本发明实施例提供的一种特征提取装置的模块结构图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明实施例提供的一种移动互联网系统的架构图,该无线网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(UserEquipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。
具体地,UE201可以是移动终端、PC机、平板电脑等具有无线通讯功能的终端。
E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,eNodeB2021连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。
EPC203可以包括MME(Mobility Management Entity,移动性管理实体)2031,HSS(Home Subscriber Server,归属用户服务器)2032,其它MME2033,SGW(Serving Gate Way,服务网关)2034,PGW(PDN Gate Way,分组数据网络网关)2035和PCRF(Policy andCharging Rules Function,政策和资费功能实体)2036等。其中,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE 201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。
IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem,IP多媒体子系统)或其它IP业务等。
无线资源205可以包括:上行信道PRB资源利用率、下行信道PRB资源利用率、PDCCH资源利用率、PRACH资源使用率、寻呼资源利用率。
其他业务206可以包括:除IP业务以外的业务。
服务器207包括无线侧数据采集2071和用户侧数据采集2072,以及特征提取服务器2073。
特征提取服务器2073的处理器执行如下步骤:
对无线侧和用户侧的预训练数据集根据特征关联性进行特征预分组,得到初始化模型参数;
根据初始化模型参数对训练数据集进行分组特征关联性计算,根据分组特征关联性计算结果将训练数据集的数据的特征归入对应的分组,并更新模型参数;
对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
虽然上述以LTE系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,此处不做限定。
基于上述移动互联网系统,提出本发明方法各个实施例。
实施例一
如图2所示,本发明实施例提供的一种特征提取方法,该方法包括:
S201、对无线侧和用户侧的预训练数据集根据特征关联性进行特征预分组,得到初始化模型参数。
具体的,特征提取服务器从移动网络的无线侧数据和用户侧数据中选择一部分作为预训练数据集。对选择的预训练数据集进行预处理,初步形成数据的特征支持-附属特征集及与之对应的支持特征集和对应的特征收缩变量集。
本步骤S201可以这样实现:将预训练数据集输入特征选择器进行征关联性计算;根据特征关联性计算结果,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数。根据支持-附属特征集形成对应的支持特征集,并对每一分组特征赋予一组特征收缩变量表征特征在最后结果中的权重。
S202、根据初始化模型参数对训练数据集进行分组特征关联性计算,将训练数据集的数据的特征归入对应的分组,并更新模型参数。
具体的,本步骤S202可以这样实现:将训练数据集和初始化模型参数输入特征选择器,对训练数据集的每一数据特征进行分组特征关联性计算。根据分组特征关联性计算结果,把训练数据集的每一数据特征归入支持-附属特征集,并更新分组。根据更新后的支持-附属特征集,生成新的支持特征集,同时生成对应的分组特征收缩变量集表征特征在最后结果中的权重。
S203、对模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
具体的,本步骤进一步包括:对每一分组特征对应的特征收缩变量集进行更新;将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
其中,输出的无线侧特征选择结果包括但不限于RRC连接建立平均用户数,平均RRC连接比例,RRC连接状态下行平均速率,RRC连接状态上行平均速率,上下行流量比例等。用户侧数据的特征包括但不限于业务量类型,业务量大小,业务时长,用户业务速率,用户业务时延,业务丢包等。
本实施例中,通过特征分组的选择机制,在特征提取前对数据的特征样本进行预分组,然后对数据进行分组特征关联性计算,大大减少关联性计算的次数,有效的解决特征冗余计算的问题;通过引入特征收缩变量集对分组特征进一步优化分组,删除分组特征中冗余的特征,使得特征分组选择效率大大提高。
实施例二
如图3所示,本发明实施例提供的一种预训练数据集预分组方法包括:
S2011、将预训练数据集输入特征选择器进行征关联性计算。
其中,假设特征选择器的初始化分组个数γ,最大分组数γmax,关联参数集{κA,κB,κC},γ和数γmax为自然数,且γ<γmax,κA表示不相关阈值,κB表示弱相关阈值,κC表示强相关阈值,且0≤κA<κB<κC≤1。
假设预先设置κA=0.1,κB=0.3,κC=0.9,以及分组数γ=10和最大分组数γmax=15,从移动网络的无线侧数据和用户侧数据中选择一部分数据作为预训练数据集,将预训练数据集输入特征选择器。
当特征关联性计算的特征值是线性数据时,采用以下公式对无线侧和用户侧数据的特征进行计算:
Figure BDA0001383444880000091
其中,P(fi,fj)表示特征fi和特征fj的关联系数,i和j表示特征编号,fi表示编号为i的特征,fj表示编号为j的特征,I(fi,fj)表示特征fi和特征fj的互信息,H(fi)表示特征fi的信息熵,H(fj)表示特征fj的信息熵。
当特征关联性计算的特征值是非线性数据时,采用以下公式对无线侧和用户侧数据的特征进行关联性计算:
Figure BDA0001383444880000092
其中,S(fi,fi)表示对称不确定度关联系数,i和j表示特征编号,fi表示编号为i的特征,fj表示编号为j的特征,cov(fi,fj)表示特征fi和特征fj的协方差,
Figure BDA0001383444880000101
表示特征fi的方差,
Figure BDA0001383444880000102
表示特征fj的方差。
S2012、根据特征关联性计算结果,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数。
具体的,特征关联性计算规则可以按如下方式进行处理:
当0≤P(fi,fj)<κA或者0≤S(fi,fj)<κA时,表示无线侧数据与用户侧数据的特征fj和特征fi不相关,此时,对特征fj归入属于特征fi的下一个特征分组集或者与下一特征分组集中的特征进行比较计算。
当κA≤P(fi,fj)<κB或者κA≤S(fi,fj)<κB时,表示无线侧数据与用户侧数据的特征fj和特征fi弱相关,此时,保留特征fj与特征fi分组信息,待与之后所有剩余分组特征关联性计算后,再进行分组。
当κB≤P(fi,fj)≤κC或者κB≤S(fi,fj)<κC时,表示无线侧和用户侧数据的特征fi与特征fj强关联,立即分入当前特征fi所在特征分组集。
当κC≤P(fi,fj)≤1或者κC≤S(fi,fj)≤1时,表示无线侧和用户侧数据的特征fi与特征fj对最后结果做出的贡献相同,这种情况视为特征冗余,只需要取其中之一进行后续计算),并入特征fi(即删除fj)。
当无线侧和用户侧数据的特征fi与所有特征关联性计算都处于弱关联,且γ<γmax时,为fi创建新的支持-附属特征集,同时分组个数γ+1。反之,当γ≥γmax时,选择关联性计算相差最小的一组并入分组。
S2013、根据支持-附属特征集形成对应的支持特征集和对应的特征收缩变量集。
具体的,根据支持-附属特征集Si形成对应的支持特征集
Figure BDA0001383444880000109
和对应的特征收缩变量集αi
支持-附属特征集Si形成:
Figure BDA00013834448800001010
其中任意两个特征
Figure BDA0001383444880000107
或者
Figure BDA0001383444880000108
支持特征集
Figure BDA00013834448800001011
形成:
Figure BDA0001383444880000103
其中,
Figure BDA0001383444880000104
即表示每个特征所示信息的均值。
特征收缩变量αi的形成:αi=1
其中,特征收缩变量αi表征特征在最后结果中的权重,预设初值为1,后续会逐渐更新而衰减,直至稳定,若在0左右稳定,可作冗余优化处理。
本实施例中,当预训练数据集分组完成后,获得移动网络初始化模型参数包括预训练后的初始化支持-附属特征集Si,初始化支持集
Figure BDA0001383444880000113
初始化特征收缩变量αi,初始化分组数γ,初始化关联参数集{κA,κB,κC}),为后继新增加的无线侧和用户侧数据的特征分组处理做准备,从而对新增加的数据不再需要进行特征两两关联性计算,减少计算量。
实施例三
如图4所示,本发明实施例提供的一种训练数据集分组方法包括:
S2021、将训练数据集和初始化模型参数输入特征选择器,对训练数据集的每一数据特征进行分组特征关联性计算。
具体的,将新增的无线侧和用户侧的训练数据集以及初始化模型参数输入特征选择器。
当分组的特征值是线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
Figure BDA0001383444880000111
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;
Figure BDA0001383444880000114
表示分组特征的标签,i表示分组的编号;
Figure BDA0001383444880000115
表示特征fj与分组
Figure BDA0001383444880000116
的特征关联系数,
Figure BDA0001383444880000117
表示特征fj与分组
Figure BDA0001383444880000118
的特征互信息,H(fj)表示特征fj的信息熵,
Figure BDA0001383444880000119
表示分组
Figure BDA00013834448800001110
的特征的信息熵;
当分组的特征值是非线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
Figure BDA0001383444880000112
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;
Figure BDA00013834448800001111
表示分组特征标签,i表示分组的编号;
Figure BDA0001383444880000128
表示特征fj与分组
Figure BDA0001383444880000129
的特征的对称不确定度关联系数,
Figure BDA00013834448800001210
表示特征fj和分组
Figure BDA00013834448800001211
的特征的协方差,
Figure BDA0001383444880000121
表示特征fj的方差,
Figure BDA0001383444880000122
表示分组
Figure BDA00013834448800001212
的特征的方差。
S2022、根据分组特征关联性计算结果,把训练数据集的每一数据特征归入支持-附属特征集,并更新分组数。
具体的,分组特征关联性计算规则可以按如下方式处理:
Figure BDA00013834448800001213
或者
Figure BDA00013834448800001214
时,表示无线侧和用户侧数据的特征fj与分组特征标签
Figure BDA00013834448800001215
所在的分组Si无关,此时,将fj与下一特征分组标签
Figure BDA00013834448800001216
所在的分组Si+1进行分组特征关联性计算。
Figure BDA00013834448800001217
或者
Figure BDA00013834448800001218
时,表示无线侧和用户侧数据的特征fj与分组特征标签
Figure BDA00013834448800001219
所在的分组Si弱相关,此时,将fj继续与接下来的分组特征标签
Figure BDA00013834448800001220
所在的分组Si进行关联性计算,最后进行分组。
Figure BDA00013834448800001221
或者
Figure BDA00013834448800001222
时,表示无线侧和用户侧数据的特征fj与分组特征标签
Figure BDA00013834448800001223
所在的分组Si强关联,此时,将fj立即分入
Figure BDA00013834448800001224
所在的分组Si
Figure BDA00013834448800001225
时或者
Figure BDA00013834448800001226
时,表示无线侧和用户侧数据的特征fj与分组特征标签
Figure BDA00013834448800001227
所在的分组Si“相同”(这种情况视为特征冗余),将fj并入分组Si(即删除fi)。
S2023、根据更新后的支持-附属特征集,生成新的支持特征集,同时生成对应的特征收缩变量集。
具体的,根据更新后的支持-附属特征集Si,生成新的支持特征集
Figure BDA00013834448800001228
同时产生对应的特征收缩变量集αi
支持-附属特征集Si形成:
Figure BDA0001383444880000123
其中任意两个特征
Figure BDA0001383444880000124
或者
Figure BDA0001383444880000125
支持特征集
Figure BDA00013834448800001229
形成:
Figure BDA0001383444880000126
其中
Figure BDA0001383444880000127
即表示每个特征所示信息的均值。
此处,特征收缩变量预设初值为αi=1,后续会逐渐迭代更新而衰减,直至稳定,若在0左右稳定,可作冗余优化处理。
本实施例中,通过将训练数据集和初始化模型参数输入特征选择器,对新增加的无线侧和用户侧数据进行分组特征关联性计算,从而将新增的特征归入分组并动态更新模型参数,大大减少关联性计算的次数,有效的解决特征冗余计算的问题。
实施例四
如图5所示,本发明实施例提供的一种分组优化方法包括:
S2031、对每一分组特征对应的特征收缩变量集进行更新。
具体的,对支持-附属特征集进行特征更新,特征更新可按以下公式采用收缩变量
Figure BDA0001383444880000131
来控制特征:
Figure BDA0001383444880000132
其中,i表示分组内的特征编号,i=1,...,n,n表示分组内的特征个数;
Figure BDA0001383444880000133
表示特征收缩变量集,且
Figure BDA0001383444880000134
w表示权重向量,w′为w的转置向量,ξ表示松弛变量,
Figure BDA0001383444880000135
为函数复杂度,C表示正则化参数;s.t.表示后面为前式的限制条件,yi表示分类结果,且yi∈(-1,0,1),xi表示特征值;
Figure BDA00013834448800001313
表示表示特征值与收缩变量对应相乘;b表示经特征收缩变量改变后的特征与原特征之间的变化大小。
S2032、将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
具体的,可以按以下公式经过T次迭代,抛弃特征收缩变量为0或趋于0的特征:
Figure BDA0001383444880000136
其中,fi表示特征数据,
Figure BDA0001383444880000137
表示特征收缩变量,ρ为拉格朗日乘数,
Figure BDA00013834448800001314
表示ρ的转置;j表示分组编号,σ表示分组数;
Figure BDA0001383444880000138
为特征收缩变量集,且
Figure BDA0001383444880000139
Figure BDA00013834448800001310
i表示分组内的特征编号,i=1,...,n,n表示分组的特征个数;
Figure BDA00013834448800001311
表示函数复杂度,yi表示分类结果,且
Figure BDA00013834448800001312
表示特征Si的特征值;C表示正则化参数。
本发明实施例中,通过对每一组特征的特征收缩变量进行优化,每次更新,根据特征优化式减少特征收缩变量,直到各特征收缩变量收敛,抛弃特征收缩变量为0或趋于0的特征,从而删除分组特征中冗余的特征,完成特征优化,使得特征分组选择效率大大提高。
实施例5
如图6所示,本发明实施例提供的一种特征提取装置包括预分组模块10、分组模块20和优化模块30。
预分组模块10,用于对无线侧和用户侧的预训练数据集根据特征关联性进行特征预分组,得到初始化模型参数。
具体的,预分组模块10包括特征关联性计算单元101和分组生成单元102,其中:特征关联性计算单元101,用于将预训练数据集输入特征选择器进行征关联性计算。分组生成单元102,用于根据特征关联性计算结果和关联参数集,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量。
分组模块20,用于根据初始化模型参数对训练数据集进行分组特征关联性计算,将训练数据集的数据的特征归入对应的分组,并更新模型参数。
具体的,分组模块20进一步包括分组特征关联性计算单元201和分组更新单元202,其中:分组特征关联性计算单元201,用于将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算。分组更新单元202,用于根据分组特征关联性计算结果,将训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集。
分组优化模块30,用于对模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
具体的,分组优化模块30包括特征收缩变量计算单元301和特征收缩变量优化单元302,其中:特征收缩变量计算单元301,用于对每一分组特征对应的特征收缩变量集进行更新。特征收缩变量优化单元302,用于将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
此外,本发明实施例还提供了一种特征提取服务器,该特征提取服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述特征提取方法的步骤。
此外,本发明实施例提供的一种存储介质,该存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如上述特征提取方法的步骤。
需要说明的是,上述装置实施例和存储介质实施例与方法实施例属于同一构思,其具体实现过程详见方法实施例,且方法实施例中的技术特征在装置和存储介质实施例中均对应适用,这里不再赘述。
本发明实施例的特征选择器及其特征提取方法、装置和计算机可读存储介质,针对无线侧和用户侧数据的特征提取中,两两特征关联性计算量大以及特征基数量大的问题,通过特征分组的选择机制,在初始特征提取前对数据的特征样本进行预分组,对数据特征进行分组特征关联性计算,大大减少关联性计算的次数,有效的解决特征冗余计算的问题;针对分组特征的数量依然庞大的问题,通过引入特征收缩变量集对分组特征进一步迭代优化分组,删除分组特征中冗余的特征,极大的简化分组,从而达到用较低的代价减少特征选择偏差的目的,提高特征选择的有效性。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (12)

1.一种特征提取方法,其特征在于,该方法包括:
对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;
根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数;
对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果。
2.根据权利要求1所述的特征提取方法,其特征在于,所述对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数包括:
将所述预训练数据集输入特征选择器进行特征关联性计算;
根据特征关联性计算结果和关联参数集,将预训练数据集的每一特征归入对应的支持-附属特征集,同时更新分组数;
根据支持-附属特征集生成对应的支持特征集和特征收缩变量,得到初始化模型参数;
其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量、分组数以及关联参数集。
3.根据权利要求1所述的特征提取方法,其特征在于,所述根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数,进一步包括:
将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;
根据分组特征关联性计算结果,把训练数据集的每一数据特征归入支持-附属特征集,并更新分组数;
根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集,得到动态更新的模型参数。
4.根据权利要求3所述的特征提取方法,其特征在于,所述将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算中包括:
当分组的特征值是线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
Figure FDA0003847095060000021
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;
Figure FDA0003847095060000022
表示分组特征的标签,i表示分组的编号;
Figure FDA0003847095060000023
表示特征fj与分组
Figure FDA0003847095060000024
的特征关联系数,
Figure FDA0003847095060000025
表示特征fj与分组
Figure FDA0003847095060000026
的特征互信息,H(fj)表示特征fj的信息熵,
Figure FDA0003847095060000027
表示分组
Figure FDA0003847095060000028
的特征的信息熵;
当分组的特征值是非线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:
Figure FDA0003847095060000029
其中,fj表示数据特征,j表示训练数据集中的数据特征编号;
Figure FDA00038470950600000210
表示分组特征标签,i表示分组的编号;
Figure FDA00038470950600000211
表示特征fj与分组
Figure FDA00038470950600000212
的特征的对称不确定度关联系数,
Figure FDA00038470950600000213
表示特征fj和分组
Figure FDA00038470950600000214
的特征的协方差,
Figure FDA00038470950600000215
表示特征fj的方差,
Figure FDA00038470950600000216
表示分组
Figure FDA00038470950600000217
的特征的方差。
5.根据权利要求1所述的特征提取方法,其特征在于,所述对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果包括:
对每一分组特征对应的特征收缩变量集进行更新;
将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
6.根据权利要求5所述的特征提取方法,其特征在于,所述对每一分组特征对应的特征收缩变量集进行更新按以下公式进行:
Figure FDA0003847095060000031
其中,i表示分组内的特征编号,i=1,…,n,n表示分组内的特征个数;
Figure FDA0003847095060000032
表示特征收缩变量集,且
Figure FDA0003847095060000033
w表示权重向量,w′为w的转置向量,ξ表示松弛变量,
Figure FDA0003847095060000034
为函数复杂度,C表示正则化参数;s.t.表示后面为前式的限制条件,yi表示分类结果,且yi∈(-1,0,1),xi表示特征值;⊙表示特征值与收缩变量对应相乘;b表示经特征收缩变量改变后的特征与原特征之间的变化大小;
所述将所述特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作包括按以下公式进行迭代计算,抛弃特征收缩变量为0或趋于0的特征:
Figure FDA0003847095060000035
其中,fi表示特征数据,
Figure FDA0003847095060000036
表示特征收缩变量,ρ为拉格朗日乘数,ρ′表示ρ的转置;j表示分组编号,σ表示分组数;
Figure FDA0003847095060000037
为特征收缩变量集,且
Figure FDA0003847095060000038
Figure FDA0003847095060000039
i表示分组内的特征编号,i=1,…,n,n表示分组的特征个数;
Figure FDA00038470950600000310
表示函数复杂度,yi表示分类结果,且yi∈(-1,0,1);
Figure FDA00038470950600000311
表示特征Si的特征值;C表示正则化参数。
7.一种特征提取装置,其特征在于,该装置包括预分组模块、分组模块和优化模块,其中:
预分组模块,用于对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;
分组模块,用于根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数;
分组优化模块,用于对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。
8.根据权利要求7所述的特征提取装置,其特征在于,所述预分组模块包括特征关联性计算单元和分组生成单元,其中:
特征关联性计算单元,用于将所述预训练数据集输入所述特征选择器进行征关联性计算;
分组生成单元,用于根据特征关联性计算结果和关联参数集,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量;
其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量集、分组数以及关联参数集。
9.根据权利要求7所述的特征提取装置,其特征在于,所述分组模块进一步包括分组特征关联性计算单元和分组更新单元,其中:
分组特征关联性计算单元,用于将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;
分组更新单元,用于根据分组特征关联性计算结果,将训练数据集的每一数据特征归入支持-附属特征集,并更新分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集。
10.根据权利要求7所述的特征提取装置,其特征在于,所述分组优化模块包括特征收缩变量计算模块和特征收缩变量优化模块,其中:
特征收缩变量计算单元,用于对每一分组特征对应的特征收缩变量集进行更新;
特征收缩变量优化单元,用于将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。
11.一种特征提取服务器,其特征在于,该服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的特征提取方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至6 中任一项所述的特征提取方法的步骤。
CN201710714338.7A 2017-08-18 2017-08-18 特征提取方法、装置、服务器及计算机可读存储介质 Active CN109412882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710714338.7A CN109412882B (zh) 2017-08-18 2017-08-18 特征提取方法、装置、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710714338.7A CN109412882B (zh) 2017-08-18 2017-08-18 特征提取方法、装置、服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109412882A CN109412882A (zh) 2019-03-01
CN109412882B true CN109412882B (zh) 2023-01-10

Family

ID=65462705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710714338.7A Active CN109412882B (zh) 2017-08-18 2017-08-18 特征提取方法、装置、服务器及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109412882B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796180B (zh) * 2019-10-12 2022-06-07 吉林大学 一种基于人工智能的模型训练系统与方法
CN113747480B (zh) * 2020-05-28 2024-05-07 中国移动通信集团浙江有限公司 5g切片故障的处理方法、装置及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103313333A (zh) * 2012-03-13 2013-09-18 中国移动通信集团广东有限公司 在移动网络间进行切换的方法、通信终端、服务器和网络
CN104038957A (zh) * 2014-06-13 2014-09-10 杭州大光明通信系统集成有限公司 一种基于一体化结构的4g基站运维信息分析处理方法
CN105426842A (zh) * 2015-11-19 2016-03-23 浙江大学 基于支持向量机的表面肌电信号多类手部动作识别方法
CN106776485A (zh) * 2016-12-23 2017-05-31 苏州华碧微科检测技术有限公司 一种基于概率计算的鉴定结论量化的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110086644A (zh) * 2013-08-23 2019-08-02 诺基亚通信公司 在通信中的订户追踪

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103313333A (zh) * 2012-03-13 2013-09-18 中国移动通信集团广东有限公司 在移动网络间进行切换的方法、通信终端、服务器和网络
CN104038957A (zh) * 2014-06-13 2014-09-10 杭州大光明通信系统集成有限公司 一种基于一体化结构的4g基站运维信息分析处理方法
CN105426842A (zh) * 2015-11-19 2016-03-23 浙江大学 基于支持向量机的表面肌电信号多类手部动作识别方法
CN106776485A (zh) * 2016-12-23 2017-05-31 苏州华碧微科检测技术有限公司 一种基于概率计算的鉴定结论量化的方法

Also Published As

Publication number Publication date
CN109412882A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN110263280B (zh) 一种基于多视图的动态链路预测深度模型及应用
CN109978142B (zh) 神经网络模型的压缩方法和装置
Hossain et al. A deep-tree-model-based radio resource distribution for 5G networks
CN108052639A (zh) 基于运营商数据的行业用户推荐方法及装置
CN113379176B (zh) 电信网络异常数据检测方法、装置、设备和可读存储介质
CN107909038B (zh) 一种社交关系分类模型训练方法、装置、电子设备及介质
CN107240029B (zh) 一种数据处理方法及装置
CN109412882B (zh) 特征提取方法、装置、服务器及计算机可读存储介质
Tseng et al. Deep-learning-aided cross-layer resource allocation of OFDMA/NOMA video communication systems
US20170208063A1 (en) Communication system, access authentication method and system based on communication system
CN110322003B (zh) 一种用于文档分类的基于梯度的通过添加虚假节点的图对抗样本生成方法
CN105183909A (zh) 基于高斯混合模型的社交网络用户兴趣预测方法
CN111224905A (zh) 一种大规模物联网中基于卷积残差网络的多用户检测方法
CN107133268B (zh) 一种用于Web服务推荐的协同过滤方法
CN116150125A (zh) 结构化数据生成模型的训练方法、装置、设备及存储介质
Zhang et al. Optimization of image transmission in a cooperative semantic communication networks
CN111144407A (zh) 一种目标检测方法、系统、装置及可读存储介质
WO2019234291A1 (en) An apparatus, a method and a computer program for selecting a neural network
CN112906800B (zh) 基于图像组自适应的协同显著性检测方法
Cardoso et al. Adaptive fuzzy flow rate control considering multifractal traffic modeling and 5G communications
CN117119535A (zh) 一种移动端集群热点共享的数据分流方法和系统
Zhao et al. Bars: Joint search of cell topology and layout for accurate and efficient binary architectures
Dahanayaka et al. Robust open-set classification for encrypted traffic fingerprinting
CN104955059B (zh) 基于贝叶斯网络的蜂窝网基站状态时变模型建立方法
WO2023065640A1 (zh) 一种模型参数调整方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant