CN109784365A - 一种特征选择方法、终端、可读介质及计算机程序 - Google Patents
一种特征选择方法、终端、可读介质及计算机程序 Download PDFInfo
- Publication number
- CN109784365A CN109784365A CN201811492781.5A CN201811492781A CN109784365A CN 109784365 A CN109784365 A CN 109784365A CN 201811492781 A CN201811492781 A CN 201811492781A CN 109784365 A CN109784365 A CN 109784365A
- Authority
- CN
- China
- Prior art keywords
- feature
- feature set
- features
- candidate
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000002922 simulated annealing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 238000010187 selection method Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 238000003066 decision tree Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种特征选择方法、终端、可读介质及计算机程序,其中方法包括:提取样本数据的特征,得到第一特征集;从所述第一特征集中选取满足预设指标的特征,得到第二特征集;将所述第二特征集中的两两特征进行组合运算,得到第三特征集;从所述第三特征集中选取满足所述预设指标的特征,得到第四特征集。通过本申请,解决了如何从原始特征子集选出比较准确的最优特征子集的问题,提高了高维数据特征选择的有效性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种特征选择方法、终端、可读介质及计算机程序。
背景技术
当前基于大数据分析平台的应用如信息检索、挖掘用户的消费倾向、消费模式等不断涌现,这些数据不但数目庞大,且描述样本数据的特征维数高。特征是从样本数据中提取出的能够描述样本数据的有用的属性信息,每个样本数据都具有很多特征,但未必每个特征都对数据的分析有用处,因此需要从大量的特征中选择少量的有效特征。
现有技术中,特征选择方法可以包括如下实现步骤:首先,从原始数据集中随机产生一组特征子集;其次,利用评价函数对上述特征子集进行评价;之后,将评价结果与停止准则进行比较,在评价结果好于停止准则的话,则验证上述特征子集的有效性,确定特征子集为最优特征子集。在上述实现过程中,由于从原始数据产生的特征子集具有很大的随机性,容易导致最终选出的最优特征子集不够准确。
发明内容
本发明实施例提供一种特征选择方法、终端、可读介质及计算机程序,解决了如何从原始特征子集选出比较准确的最优特征子集的问题,提高了高维数据特征选择的有效性。
第一方面,本发明实施例提供了一种特征选择方法,该方法包括:
提取样本数据的特征,得到第一特征集;
从所述第一特征集中选取满足预设指标的特征,得到第二特征集;
将所述第二特征集中的两两特征进行组合运算,得到第三特征集;
从所述第三特征集中选取满足所述预设指标的特征,得到第四特征集。
通过实施本发明实施例,可以解决从原始特征子集选出比较准确的最优特征子集的问题,提高了高维数据特征选择的有效性。
可选的,所述方法还包括:
根据所述第一特征集与所述第四特征集确定第五特征集。
可选的,所述根据所述第一特征集与所述第四特征集确定第五特征集,包括:
根据所述第一特征集与所述第四特征集生成候选特征集;
对所述候选特征集中的每个特征执行序列前向搜索、序列后向搜索以及模拟退火算法,以确定所述第五特征集。
可选的,所述根据所述第一特征集与所述第四特征集生成候选特征集,包括:
若所述第一特征集中的第一特征与所述第四特征集中的第二特征为同一特征,则将所述第一特征或所述第二特征添加到所述候选特征集中;其中,所述第一特征为所述第一特征集中的任意一个特征,所述第二特征为所述第四特征集中的任意一个特征;
若所述第一特征集中的第一特征与所述第四特征集中的第二特征不是同一特征,则将所述第一特征以及所述第二特征添加到所述候选特征集中;
或者,
若所述第一特征集中的第三特征可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征添加到所述候选特征集中;其中,所述第三特征为所述第一特征集中的任意一个特征;
若所述第一特征集中的第三特征不可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征以及所述第四特征集中的至少两个特征添加到所述候选特征集中;
或者,
若所述第四特征集中的第四特征可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征添加到所述候选特征集中;其中,所述第四特征为所述第四特征集中的任意一个特征;
若所述第四特征集中的第四特征不可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征以及所述第一特征集中的至少两个特征添加到所述候选特征集中。
可选的,所述组合运算包括加运算、减运算、乘运算、除运算中的至少一种。
可选的,所述第一特征集为经过特征预处理后得到的,所述特征预处理包括填充缺失值、剔除缺失值、删除只含有唯一值的特征中的至少一种。
第二方面,本发明实施例提供了一种特征选择装置,该特征选择装置包括用于执行上述第一方面的方法的单元。具体地,该特征选择装置包括:
提取单元,用于提取样本数据的特征,得到第一特征集;
第一选取单元,用于从所述第一特征集中选取满足预设指标的特征,得到第二特征集;
组合运算单元,用于将所述第二特征集中的两两特征进行组合运算,得到第三特征集;
第二选取单元,用于从所述第三特征集中选取满足所述预设指标的特征,得到第四特征集。
可选的,所述特征选择装置还包括:
确定单元,用于根据所述第一特征集与所述第四特征集确定第五特征集。
可选的,所述确定单元包括:生成单元和执行单元;
其中,所述生成单元,用于根据所述第一特征集与所述第四特征集生成候选特征集;
执行单元,用于对所述候选特征集中的每个特征执行序列前向搜索、序列后向搜索以及模拟退火算法,以确定所述第五特征集。
可选的,所述生成单元具体用于:
若所述第一特征集中的第一特征与所述第四特征集中的第二特征为同一特征,则将所述第一特征或所述第二特征添加到所述候选特征集中;其中,所述第一特征为所述第一特征集中的任意一个特征,所述第二特征为所述第四特征集中的任意一个特征;
若所述第一特征集中的第一特征与所述第四特征集中的第二特征不是同一特征,则将所述第一特征以及所述第二特征添加到所述候选特征集中;
或者,
若所述第一特征集中的第三特征可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征添加到所述候选特征集中;其中,所述第三特征为所述第一特征集中的任意一个特征;
若所述第一特征集中的第三特征不可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征以及所述第四特征集中的至少两个特征添加到所述候选特征集中;
或者,
若所述第四特征集中的第四特征可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征添加到所述候选特征集中;其中,所述第四特征为所述第四特征集中的任意一个特征;
若所述第四特征集中的第四特征不可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征以及所述第一特征集中的至少两个特征添加到所述候选特征集中。
可选的,所述组合运算包括加运算、减运算、乘运算、除运算中的至少一种。
可选的,所述第一特征集为经过特征预处理后得到的,所述特征预处理包括填充缺失值、剔除缺失值、删除只含有唯一值的特征中的至少一种。
第三方面,本发明实施例提供了另一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
第五方面,本发明实施例提供了一种计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
通过实施本发明实施例,终端在获取到用户行为的样本数据之后,终端提取样本数据的特征,得到第一特征集,之后,终端从第一特征集中选取满足预设指标的特征,得到第二特征集。然后,终端将第二特征集中的两两特征进行组合运算,以得到第三特征集,并从第三特征集中选取满足预设指标的特征,从而可以得到较优的特征子集,解决了如何从原始特征子集选出比较准确的最优特征子集的问题,提高了高维数据特征选择的有效性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种特征选择方法的示意流程图;
图2A是本发明另一实施例提供的一种特征选择方法的示意流程图;
图2B是本发明实施例提供的一种特征选择的示意图;
图3A是本发明实施例提供的一种特征选择装置的示意性框图;
图3B是本发明实施例提供的另一种特征选择装置的示意性框图;
图4是本发明另一实施例提供的一种终端示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
具体实现中,本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
终端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
下面结合图1所示的本发明实施例提供的特征选择方法的流程示意图,具体阐述在本发明实施例是如何实现特征选择的,可以包括但不限于如下步骤:
步骤S100、提取样本数据的特征,得到第一特征集。
在实际应用中,以分析针对某一款游戏产品的用户流失情况为例,终端获取到的用户行为样本数据可以如表1所示:
表1用户行为样本数据
用户标识信息 | 性别 | 年龄 | 地域 | 登入次数 | 在线时长 | 游戏关卡次数 | 最近一次登入时间点 |
2018100001 | 男 | 20 | 深圳 | 5 | 1.5h | 3 | 2018/11/23/23时22分 |
2018100002 | 女 | 19 | 广州 | 2 | 0.5h | 1 | 2018/11/22/22时40分 |
2018100003 | 男 | 27 | 香港 | 7 | 3h | 7 | 2018/11/26/22时30分 |
2018100004 | 男 | 25 | 香港 | 7 | 1h | 2018/11/25/21时20分 | |
2018100005 | 女 | 30 | 深圳 | 2 | 2 | ||
…… | … | … | … | … | … | … | …… |
M |
具体实现中,样本数据集为N维特征变量以及M组数据的样本数据集。其中,N、M的具体取值本发明实施例不作具体限定。
作为一种优选的实现方式,这里所涉及的样本数据为高维数据,可以通过一段时间的实时采集获取,也可以从预先存储有原始数据集的数据库中读取。
如表1所示,假设样本数据集中包括1000个样本数据,其中,每个样本数据中都具有很多特征,以2018100001这一用户来说,其包括7个不同维度上的特征,例如:性别、年龄、地域、登入次数、在线时长、游戏关卡次数、最近一次登入时间点等等。也即该样本数据集为7维特征变量以及1000组数据的样本数据集。可以理解的是,如表1所示的样本数据不仅数目庞大,且每个样本数据的特征维数高。
在实际应用中,上述7个不同维度上的特征中的某些特征对分析用户流失数这一指标来说是无用特征,因此,需要对第一特征集中的特征进行选择。
具体实现中,特征是指能够描述样本数据的属性信息。在获取到如表1所示的用户行为的样本数据之后,终端提取样本数据的特征,得到第一特征集。例如,第一特征集中包括特征X1、特征X2、特征X3、特征X4、特征X5、……、特征X20。
在其中一种实现方式中,这里所涉及的第一特征集为经过特征预处理后得到的,其中,特征预处理包括填充缺失值、剔除缺失值、删除只含有唯一值的特征中的至少一种。在这种实现方式中,相对于从样本数据直接得到第一特征集(也即原始特征集)来说,可以提高终端选择优选特征集的准确度。
例如,当终端在获取到用户行为样本数据的表现形式如表1所示时,终端可以对表1中所示的样本数据进行特征预处理操作,以得到如表2所示的样本数据:
表2用户行为样本数据
用户标识信息 | 性别 | 年龄 | 地域 | 登入次数 | 在线时长 | 游戏关卡次数 | 最近一次登入时间点 |
2018100001 | 男 | 20 | 深圳 | 5 | 1.5h | 3 | 2018/11/23/23时22分 |
2018100002 | 女 | 19 | 广州 | 2 | 0.5h | 1 | 2018/11/22/22时40分 |
2018100003 | 男 | 27 | 香港 | 7 | 3h | 7 | 2018/11/26/22时30分 |
2018100004 | 男 | 25 | 香港 | 7 | 1h | 4 | 2018/11/25/21时20分 |
2018100005 | 女 | 30 | 深圳 | 2 | 2h | 2 | 2018/11/24/12时40分 |
…… | … | … | … | … | … | … | …… |
M |
如表2所示的样本数据,相较于表1所示的样本数据来说,完整度更高。
步骤S102、从所述第一特征集中选取满足预设指标的特征,得到第二特征集。
具体实现中,这里所涉及的预设指标可以根据决策树模型的信息增益、设定特征重要性等方式进行设定。
例如,将上述第一特征集中的每个特征输入XGBoost、LightGBM以及Catboost三种决策树模型,分别得到同一个特征在上述三种决策树模型下的三种特征重要性,之后,并对其进行归一化处理。
通俗的说,用决策树进行特征重要性评估是指确定每个特征在决策树中的每棵树上做了多少贡献,之后,对上述每个特征的贡献值取平均值,然后比较各个特征之间的贡献值大小。
在实际应用中,通过确定上述三种特征重要性的均值之后,可以对其进行从高到低的排序,选取分数大于设定好的阈值的特征,从而可以得到第二特征集。
在本发明实施例中,对第一特征集的优选特征设定预设指标,并选取出满足预设指标的优选特征。例如,对第一特征集中的特征进行优选,得到的第二特征集中包括的特征有:X1、特征X2、特征X3、特征X4、……、特征X7。
步骤S04、将所述第二特征集中的每个特征进行两两组合运算,得到第三特征集。
在具体实现中,所述组合运算包括加运算、减运算、乘运算、除运算中的至少一种。
假设第二特征集中包括特征X1、特征X2、特征X3、特征X4、……、特征X7,终端对第二特征集中的每个特征进行两两交叉组合运算,例如,以特征1为例,将特征1与特征2进行组合运算得到特征M1,将特征1与特征3进行组合运算得到特征M2,将特征1与特征4进行组合运算得到特征M3,…,将特征1与特征7进行组合运算得到特征M6,其中,M1、M2、M3、M4、M5、M6为特征X1进行交叉组合运算得到的交叉特征。同样地,第二特征集中的特征X2、特征X3、特征X4、……、特征X7采用如上所描述的交叉组合方式,可以得到每个特征的交叉特征,从而,交叉组合运算得到的多个交叉特征构成了第三特征集。例如,第三特征集中包括的特征有M1、M2、M3、M4、M5、M6、……、M100。
步骤S106、从所述第三特征集中选取满足所述预设指标的特征,得到第四特征集。
例如,终端将上述第三特征集中的每个特征输入XGBoost、LightGBM以及Catboost三种决策树模型,分别得到同一个特征在上述三种决策树模型下的三种特征重要性,之后,并对其进行归一化处理。通过计算三种特征重要性的均值之后,可以对其进行从高到低的排序,选取分数大于设定好的阈值的特征,从而可以得到第四特征集。可以理解的是,第四特征集为优选得到的特征集。
通过实施本发明实施例,终端在获取到用户行为的样本数据之后,终端提取样本数据的特征,得到第一特征集,之后,终端从第一特征集中选取满足预设指标的特征,得到第二特征集。然后,终端将第二特征集中的两两特征进行组合运算,以得到第三特征集,并从第三特征集中选取满足预设指标的特征,从而可以得到较优的特征子集,解决了如何从原始特征子集选出比较准确的最优特征子集的问题,提高了高维数据特征选择的有效性。
进一步地,在步骤S106之后,终端还可以执行步骤S108,下面结合图2A所示的本发明实施例提供的特征选择方法的流程示意图,具体说明在本发明实施例中是如何实现特征选择的。在本发明实施例中,将重点阐述终端是如何获得最终的优选特征集,该方法可以包括如下步骤:
步骤S108、根据所述第一特征集与所述第四特征集确定第五特征集。
具体实现中,所述根据所述第一特征集与所述第四特征集确定第五特征集,包括:
根据所述第一特征集与所述第四特征集生成候选特征集;
对所述候选特征集中的每个特征执行序列前向搜索、序列后向搜索以及模拟退火算法,以确定所述第五特征集。
具体实现中,所述根据所述第一特征集与所述第四特征集生成候选特征集,包括:
若所述第一特征集中的第一特征与所述第四特征集中的第二特征为同一特征,则将所述第一特征或所述第二特征添加到所述候选特征集中;其中,所述第一特征为所述第一特征集中的任意一个特征,所述第二特征为所述第四特征集中的任意一个特征;
若所述第一特征集中的第一特征与所述第四特征集中的第二特征不是同一特征,则将所述第一特征以及所述第二特征添加到所述候选特征集中;
或者,
若所述第一特征集中的第三特征可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征添加到所述候选特征集中;其中,所述第三特征为所述第一特征集中的任意一个特征;
若所述第一特征集中的第三特征不可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征以及所述第四特征集中的至少两个特征添加到所述候选特征集中;
或者,
若所述第四特征集中的第四特征可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征添加到所述候选特征集中;其中,所述第四特征为所述第四特征集中的任意一个特征;
若所述第四特征集中的第四特征不可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征以及所述第一特征集中的至少两个特征添加到所述候选特征集中。
在初始状态下,候选特征集为空集。终端根据第一特征集与第四特征集生成候选特征集的实现过程中,可以包括如下三大类情形:
第一大类情形为:终端只判断第一特征集与第四特征集中是否存在相同的特征;或者,终端只判断第一特征集中的特征是否可以由第四特征集中的至少两个特征进行线性表示;或者,终端只判断第四特征集中的特征是否可以由第一特征集中的至少两个特征进行线性表示。
第二大类情形为:终端判断第一特征集与第四特征集中是否存在相同的特征,并判断第一特征集中的特征是否可以由第四特征集中的至少两个特征进行线性表示;或者,终端判断第一特征集与第四特征集中是否存在相同的特征,并判断第四特征集中的特征是否可以由第一特征集中的至少两个特征进行线性表示;或者,终端判断第一特征集中的特征是否可以由第四特征集中的至少两个特征进行线性表示,并判断第四特征集中的特征是否可以由第一特征集中的至少两个特征进行线性表示。需要说明的是,这二个判断操作之间的执行顺序不作具体限定。
第三大类情形为:终端判断第一特征集与第四特征集中是否存在相同的特征,并判断第一特征集中的特征是否可以由第四特征集中的至少两个特征进行线性表示,还判断第四特征集中的特征是否可以由第一特征集中的至少两个特征进行线性表示。需要说明的是,这三个判断操作之间的执行顺序不作具体限定。
需要说明的是,在上述三大类情形的实现过程中,终端根据各自对应的处理策略对特征进行处理,以得到候选特征集。
例如,第一特征集中包括特征X1、特征X2、特征X3、特征X4、特征X5、特征X6,......,以及特征X20。第四特征集中包括特征M1、特征M2、特征M3、特征M4、…….、特征M10。其中,特征X1与特征M3是同一特征,特征X2可以由特征M1和M2线性表示。终端判断特征X1与特征M3是同一特征,此时,终端将特征X1或者特征M3添加到候选特征集中。此外,终端判断在第四特征集中不存在与特征X2相同的特征,但是,终端确定特征X2可以由特征M1和M2线性表示,此时,终端将特征2添加到候选特征集中。在执行完上述操作之后,候选特征集中的特征包括:特征X1、特征X3、特征X4、特征X5、特征X6、特征X7、M3、M4、……、M10。
之后,终端对上述候选特征集中的每个特征执行序列前向搜索、序列后向搜索以及模拟退火算法,以确定所述第五特征集。
在初始状态下,第五特征集(例如,第五特征集为F1)为空集。以候选特征集中的特征X1为例,终端对特征X1执行序列前向搜索是指:终端将候选特征集中选择特征X1添加到第五特征集F1中,终端利用预设的评估方法对输入了特征X1的第五特征集F1进行评估,若输入该特征后的第五特征集F1的评估结果优于输入该特征之前的第五特征集F1的评估结果,在这种情况下,终端确定特征X1对于第五特征集F1来说是有用的特征,此时,更新第五特征集,也即,在这种情况下,第五特征集F1中包括特征X1;若输入特征X1的第五特征集F1的评估结果劣于该特征之前的第五特征集F1的评估结果,在这种情况下,终端确定特征X1对于第五特征集F1来说是无用的特征,此时,将特征X1从第五特征集中剔除。继而,重新在上述候选特征集中选择一个新的特征并重复上述的评估工作。
在实际应用中,以用户流失预测这一分类问题为例,终端采用的预设评估模型可以包括XGBoost、LightGBM以及Catboost等决策树模型,终端采用的预设的评估方法可以包括精确度(precision)评估、曲线下的面积AUC(AUC,Area under Curve)。以预设的评估方法曲线下的面积AUC为例,终端将候选特征集分为训练集以及验证集(例如,训练集与验证集的数据比例为4:1),其中,训练集用于训练预设评估模型,之后,通过执行验证集来得到预设的评估方法所对应的AUC值。
例如,终端对候选特征集中的每个特征执行序列前向搜索之后,终端生成的第五特征集F1中所包含的特征有:特征X1、特征M3、特征M4、特征M7、特征M10。
终端在得到上述第五特征集之后,终端对第五特征集中的每个特征执行序列后向搜索。在初始状态下,第五特征集F1中的特征包括:特征X1、特征M3、特征M4、特征M7、特征M10。以第五特征集F1中的特征X1为例,终端对特征X1执行序列后向搜索是指:终端将第五特征集F1中的特征X1剔除,终端利用预设的评估方法对剔除了特征X1的第五特征集F1进行评估,若剔除了该特征后的第五特征集的评估结果优于未剔除特征X1的第五特征集F1的评估结果,在这种情况下,终端确定特征X1对于第五特征集F1来说是无用的特征,此时,剔除第五特征集F1中的特征X1;若剔除特征X1的第五特征集F1的评估结果劣于未剔除该特征的第五特征集F1的评估结果,在这种情况下,终端确定特征X1对于第五特征集F1来说是有用的特征,此时,终端不剔除第五特征集F1中的特征X1。继而,重新在上述第五特征集中剔除另一个特征并重复上述评估的工作。
例如,终端在执行完序列后向搜索之后,生成的第五特征集F1中所包含的特征有:特征X1、特征M3、特征M4。本申请所描述的方法的全部实现流程请参见图2B。
总的来说,终端执行序列前向搜索是将候选特征集中的特征添加到第五特征集中,终端执行序列后向搜索是将第五特征集中的无用特征剔除,以生成优选特征集,也即第五特征集。
需要说明的是,在实际应用中,在终端对特征执行序列前向搜索以及序列后向搜索的过程中,容易陷入局部收敛。在这种情况下,终端将模拟退火算法与序列前向搜索以及序列后向搜索进行融合,以避免出现陷入局部收敛。
通过实施本发明实施例,终端根据第一特征集和第四特征集确定最终优选得到的第五特征集,解决了如何从原始特征子集选出比较准确的最优特征子集的问题,提高了高维数据特征选择的有效性。
为了便于更好的实施本发明实施例的上述方法,本发明实施例还描述了与上述图1所述的方法实施例属于同一发明构思下的一种特征选择装置的结构示意图。下面结合附图来进行详细说明:
如图3A所示,该特征选择装30包括:
提取单元300,用于提取样本数据的特征,得到第一特征集;
第一选取单元302,用于从所述第一特征集中选取满足预设指标的特征,得到第二特征集;
组合运算单元304,用于将所述第二特征集中的两两特征进行组合运算,得到第三特征集;
第二选取单元306,用于从所述第三特征集中选取满足所述预设指标的特征,得到第四特征集。
可选的,如图3B所示,所述特征选择装置30还包括:
确定单元308,用于根据所述第一特征集与所述第四特征集确定第五特征集。
可选的,所述确定单元308包括:生成单元和执行单元;
其中,所述生成单元,用于根据所述第一特征集与所述第四特征集生成候选特征集;
所述执行单元,用于对所述候选特征集中的每个特征执行序列前向搜索、序列后向搜索以及模拟退火算法,以确定所述第五特征集。
可选的,所述生成单元具体用于:
若所述第一特征集中的第一特征与所述第四特征集中的第二特征为同一特征,则将所述第一特征或所述第二特征添加到所述候选特征集中;其中,所述第一特征为所述第一特征集中的任意一个特征,所述第二特征为所述第四特征集中的任意一个特征;
若所述第一特征集中的第一特征与所述第四特征集中的第二特征不是同一特征,则将所述第一特征以及所述第二特征添加到所述候选特征集中;
或者,
若所述第一特征集中的第三特征可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征添加到所述候选特征集中;其中,所述第三特征为所述第一特征集中的任意一个特征;
若所述第一特征集中的第三特征不可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征以及所述第四特征集中的至少两个特征添加到所述候选特征集中;
或者,
若所述第四特征集中的第四特征可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征添加到所述候选特征集中;其中,所述第四特征为所述第四特征集中的任意一个特征;
若所述第四特征集中的第四特征不可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征以及所述第一特征集中的至少两个特征添加到所述候选特征集中。
可选的,所述组合运算包括加运算、减运算、乘运算、除运算中的至少一种。
可选的,所述第一特征集为经过特征预处理后得到的,所述特征预处理包括填充缺失值、剔除缺失值、删除只含有唯一值的特征中的至少一种。
通过实施本发明实施例,终端在获取到用户行为的样本数据之后,终端提取样本数据的特征,得到第一特征集,之后,终端从第一特征集中选取满足预设指标的特征,得到第二特征集。然后,终端将第二特征集中的两两特征进行组合运算,以得到第三特征集,并从第三特征集中选取满足预设指标的特征,从而可以得到较优的特征子集,解决了如何从原始特征子集选出比较准确的最优特征子集的问题,提高了高维数据特征选择的有效性。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了另一种终端的结构示意图,下面结合附图来进行详细说明:
如图4示出的本发明实施例提供的终端的结构示意图,终端40可以包括处理器401、存储器404和通信模块405,处理器401、存储器404和通信模块405可以通过总线406相互连接。存储器404可以是高速随机存储记忆体(Random Access Memory,RAM)存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储系统。存储器404用于存储应用程序代码,可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序,通信模块405用于与外部设备进行信息交互;处理器401被配置用于调用该程序代码,执行以下步骤:
提取样本数据的特征,得到第一特征集;
从所述第一特征集中选取满足预设指标的特征,得到第二特征集;
将所述第二特征集中的两两特征进行组合运算,得到第三特征集;
从所述第三特征集中选取满足所述预设指标的特征,得到第四特征集。
其中,处理器401还用于:
根据所述第一特征集与所述第四特征集确定第五特征集。
其中,处理器401根据所述第一特征集与所述第四特征集确定第五特征集,可以包括:
根据所述第一特征集与所述第四特征集生成候选特征集;
对所述候选特征集中的每个特征执行序列前向搜索、序列后向搜索以及模拟退火算法,以确定所述第五特征集。
其中,处理器401根据所述第一特征集与所述第四特征集生成候选特征集,可以包括:
若所述第一特征集中的第一特征与所述第四特征集中的第二特征为同一特征,则将所述第一特征或所述第二特征添加到所述候选特征集中;其中,所述第一特征为所述第一特征集中的任意一个特征,所述第二特征为所述第四特征集中的任意一个特征;
若所述第一特征集中的第一特征与所述第四特征集中的第二特征不是同一特征,则将所述第一特征以及所述第二特征添加到所述候选特征集中;
或者,
若所述第一特征集中的第三特征可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征添加到所述候选特征集中;其中,所述第三特征为所述第一特征集中的任意一个特征;
若所述第一特征集中的第三特征不可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征以及所述第四特征集中的至少两个特征添加到所述候选特征集中;
或者,
若所述第四特征集中的第四特征可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征添加到所述候选特征集中;其中,所述第四特征为所述第四特征集中的任意一个特征;
若所述第四特征集中的第四特征不可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征以及所述第一特征集中的至少两个特征添加到所述候选特征集中。
其中,所述组合运算包括加运算、减运算、乘运算、除运算中的至少一种。
其中,所述第一特征集为经过特征预处理后得到的,所述特征预处理包括填充缺失值、剔除缺失值、删除只含有唯一值的特征中的至少一种。
需要说明的是,本发明实施例中的终端40中处理器的执行步骤可参考上述各方法实施例中图1-图2A实施例中的终端运行的具体实现方式,这里不再赘述。
在具体实现中,终端40可以包括移动手机、平板电脑、个人数字助理(PersonalDigital Assistant,PDA)、移动互联网设备(Mobile Internet Device,MID)、智能穿戴设备(如智能手表、智能手环)等各种用户可以使用的设备,本发明实施例不作具体限定。
本发明实施例还提供了一种计算机存储介质,用于存储为上述图1-图2A所示的终端所用的计算机软件指令,其包含用于执行上述方法实施例所涉及的程序。通过执行存储的程序,可以从原始特征集中得到最优的特征集。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种特征选择方法,其特征在于,包括:
提取样本数据的特征,得到第一特征集;
从所述第一特征集中选取满足预设指标的特征,得到第二特征集;
将所述第二特征集中的两两特征进行组合运算,得到第三特征集;
从所述第三特征集中选取满足所述预设指标的特征,得到第四特征集。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一特征集与所述第四特征集确定第五特征集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一特征集与所述第四特征集确定第五特征集,包括:
根据所述第一特征集与所述第四特征集生成候选特征集;
对所述候选特征集中的每个特征执行序列前向搜索、序列后向搜索以及模拟退火算法,以确定所述第五特征集。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一特征集与所述第四特征集生成候选特征集,包括:
若所述第一特征集中的第一特征与所述第四特征集中的第二特征为同一特征,则将所述第一特征或所述第二特征添加到所述候选特征集中;其中,所述第一特征为所述第一特征集中的任意一个特征,所述第二特征为所述第四特征集中的任意一个特征;
若所述第一特征集中的第一特征与所述第四特征集中的第二特征不是同一特征,则将所述第一特征以及所述第二特征添加到所述候选特征集中;
或者,
若所述第一特征集中的第三特征可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征添加到所述候选特征集中;其中,所述第三特征为所述第一特征集中的任意一个特征;
若所述第一特征集中的第三特征不可以由所述第四特征集中的至少两个特征线性表示,则将所述第三特征以及所述第四特征集中的至少两个特征添加到所述候选特征集中;
或者,
若所述第四特征集中的第四特征可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征添加到所述候选特征集中;其中,所述第四特征为所述第四特征集中的任意一个特征;
若所述第四特征集中的第四特征不可以由所述第一特征集中的至少两个特征线性表示,则将所述第四特征以及所述第一特征集中的至少两个特征添加到所述候选特征集中。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述组合运算包括加运算、减运算、乘运算、除运算中的至少一种。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述第一特征集为经过特征预处理后得到的,所述特征预处理包括填充缺失值、剔除缺失值、删除只含有唯一值的特征中的至少一种。
7.一种特征选择装置,其特征在于,包括:
提取单元,用于提取样本数据的特征,得到第一特征集;
第一选取单元,用于从所述第一特征集中选取满足预设指标的特征,得到第二特征集;
组合运算单元,用于将所述第二特征集中的两两特征进行组合运算,得到第三特征集;
第二选取单元,用于从所述第三特征集中选取满足所述预设指标的特征,得到第四特征集。
8.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
10.一种计算机程序,其特征在于,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811492781.5A CN109784365B (zh) | 2018-12-06 | 2018-12-06 | 一种特征选择方法、终端、可读介质及计算机程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811492781.5A CN109784365B (zh) | 2018-12-06 | 2018-12-06 | 一种特征选择方法、终端、可读介质及计算机程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109784365A true CN109784365A (zh) | 2019-05-21 |
CN109784365B CN109784365B (zh) | 2023-12-01 |
Family
ID=66496092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811492781.5A Active CN109784365B (zh) | 2018-12-06 | 2018-12-06 | 一种特征选择方法、终端、可读介质及计算机程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784365B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110890137A (zh) * | 2019-11-18 | 2020-03-17 | 上海尔云信息科技有限公司 | 一种化合物毒性预测模型建模方法、装置及其应用 |
CN112199559A (zh) * | 2020-12-07 | 2021-01-08 | 上海冰鉴信息科技有限公司 | 数据特征的筛选方法、装置及计算机设备 |
CN112245934A (zh) * | 2020-11-16 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 虚拟场景应用中虚拟资源的数据分析方法、装置及设备 |
CN112651416A (zh) * | 2019-10-11 | 2021-04-13 | 中移动信息技术有限公司 | 特征选择方法、装置、设备和介质 |
CN113516513A (zh) * | 2021-07-20 | 2021-10-19 | 重庆度小满优扬科技有限公司 | 数据分析方法、装置、计算机设备和存储介质 |
CN115242441A (zh) * | 2022-06-21 | 2022-10-25 | 浙江工业大学 | 一种基于特征选择和深度神经网络的网络入侵检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080004865A1 (en) * | 2006-06-30 | 2008-01-03 | Robert Bosch Corporation | Method and apparatus for progressively selecting features from a large feature space in statistical modeling |
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
US20160085811A1 (en) * | 2013-03-28 | 2016-03-24 | Hewlett-Packard Development Company, L.P. | Generating a feature set |
US20180150746A1 (en) * | 2016-02-05 | 2018-05-31 | Huawei Technologies Co., Ltd. | Feature Set Determining Method and Apparatus |
-
2018
- 2018-12-06 CN CN201811492781.5A patent/CN109784365B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080004865A1 (en) * | 2006-06-30 | 2008-01-03 | Robert Bosch Corporation | Method and apparatus for progressively selecting features from a large feature space in statistical modeling |
US20160085811A1 (en) * | 2013-03-28 | 2016-03-24 | Hewlett-Packard Development Company, L.P. | Generating a feature set |
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
US20180150746A1 (en) * | 2016-02-05 | 2018-05-31 | Huawei Technologies Co., Ltd. | Feature Set Determining Method and Apparatus |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651416A (zh) * | 2019-10-11 | 2021-04-13 | 中移动信息技术有限公司 | 特征选择方法、装置、设备和介质 |
CN112651416B (zh) * | 2019-10-11 | 2024-09-17 | 中移动信息技术有限公司 | 特征选择方法、装置、设备和介质 |
CN110890137A (zh) * | 2019-11-18 | 2020-03-17 | 上海尔云信息科技有限公司 | 一种化合物毒性预测模型建模方法、装置及其应用 |
CN112245934A (zh) * | 2020-11-16 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 虚拟场景应用中虚拟资源的数据分析方法、装置及设备 |
CN112199559A (zh) * | 2020-12-07 | 2021-01-08 | 上海冰鉴信息科技有限公司 | 数据特征的筛选方法、装置及计算机设备 |
CN112199559B (zh) * | 2020-12-07 | 2021-02-19 | 上海冰鉴信息科技有限公司 | 数据特征的筛选方法、装置及计算机设备 |
CN113516513A (zh) * | 2021-07-20 | 2021-10-19 | 重庆度小满优扬科技有限公司 | 数据分析方法、装置、计算机设备和存储介质 |
CN115242441A (zh) * | 2022-06-21 | 2022-10-25 | 浙江工业大学 | 一种基于特征选择和深度神经网络的网络入侵检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109784365B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784365B (zh) | 一种特征选择方法、终端、可读介质及计算机程序 | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN113362118B (zh) | 一种基于随机森林的用户用电行为分析方法及系统 | |
CN113190702A (zh) | 用于生成信息的方法和装置 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
US11782991B2 (en) | Accelerated large-scale similarity calculation | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN112258238A (zh) | 用户生命价值周期检测方法、装置和计算机设备 | |
US20210357955A1 (en) | User search category predictor | |
CN112966756A (zh) | 一种可视化的准入规则的生成方法、装置、机器可读介质及设备 | |
CN108595395B (zh) | 一种昵称的生成方法、装置及设备 | |
CN111966894A (zh) | 信息查询方法、装置、存储介质及电子设备 | |
Luo et al. | Autosmart: An efficient and automatic machine learning framework for temporal relational data | |
CN107992526B (zh) | 主播推荐方法、存储设备及计算机设备 | |
CN105991400B (zh) | 一种群组搜索方法及其设备 | |
CN113836005A (zh) | 一种虚拟用户的生成方法、装置、电子设备和存储介质 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 | |
CN113255933A (zh) | 特征工程和图网络生成方法和装置、分布式系统 | |
CN114065640B (zh) | 联邦树模型的数据处理方法、装置、设备及存储介质 | |
CN112631752B (zh) | 一种基于操作优先度的列表操作方法及装置 | |
CN116167829B (zh) | 一种多维多粒度用户行为分析方法 | |
CN114417808B (zh) | 文章生成方法、装置、电子设备以及存储介质 | |
CN112650834B (zh) | 一种意图模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |