CN112862545A - 特征数据的处理方法以及电子设备 - Google Patents
特征数据的处理方法以及电子设备 Download PDFInfo
- Publication number
- CN112862545A CN112862545A CN202110303984.0A CN202110303984A CN112862545A CN 112862545 A CN112862545 A CN 112862545A CN 202110303984 A CN202110303984 A CN 202110303984A CN 112862545 A CN112862545 A CN 112862545A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- model training
- model
- feature set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种特征数据的处理方法以及电子设备。该方法包括:基于第一特征集合和决策树模型,进行第i次模型训练,得到该第一特征集合的特征排序结果,该特征排序结果用于表征该第一特征集合中的ni个特征在训练过程中的重要性排序,按照该特征排序结果,从该第一特征集合中删除mi个特征,并将该第一特征集合中剩余的ni‑mi个特征,作为用于进行第i+1次模型训练的第一特征集合,再基于该mi个特征,确定第i次模型训练对应的目标特征,在该第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至该目标特征的数量达到该预设值时结束该处理过程,得到最终的目标特征。实现了在保证模型的训练效率的同时提高模型的准确性。
Description
技术领域
本申请实施例涉及人工智能技术领域,并且更具体地,涉及特征数据的处理方法以及电子设备。
背景技术
随着人工智能(Artificial Intelligence,AI)技术领域的不断发展,为了能够提高模型的训练效率,需要预先对训练样本的特征进行筛选。
然而,现有技术中对训练样本的特征的筛选效果较差,缺少一个有效的特征筛选方案能够在保证模型的训练效率的同时提高模型的准确性。
发明内容
本申请实施例提供了一种特征数据的处理方法以及电子设备,能够在保证模型的训练效率的同时提高模型的准确性。
第一方面,提供了一种特征数据的处理方法,包括:基于第一特征集合和决策树模型,进行第i次模型训练,得到该第一特征集合的特征排序结果,该特征排序结果用于表征该第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;按照该特征排序结果,从该第一特征集合中删除mi个特征;将该第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;基于该mi个特征,确定第i次模型训练对应的目标特征;在该第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至该目标特征的数量达到该预设值时结束该处理过程,得到最终的目标特征。
第二方面,提供一种电子设备,包括:排序处理单元,用于基于第一特征集合和决策树模型,进行第i次模型训练,得到该第一特征集合的特征排序结果,该特征排序结果用于表征该第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;消除处理单元,用于按照该特征排序结果,从该第一特征集合中删除mi个特征;第一集合确定单元,用于将该第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;特征选择单元,用于基于该mi个特征,确定第i次模型训练对应的目标特征;循环处理单元,用于在该第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至该目标特征的数量达到该预设值时结束该处理过程,得到最终的目标特征。
第三方面,提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,处理器用于调用并运行存储器中存储的计算机程序,执行如第一方面或其各实现方式中的方法。
第四方面,提供一种计算机可读存储介质,用于存储计算机程序,计算机程序使得计算机执行如第一方面或其各实现方式中的方法。
第五方面,提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。
第六方面,提供一种计算机程序,计算机程序使得计算机执行如第一方面或其各实现方式中的方法。
本申请实施例,基于每次模型训练得到的特征排序结果,删除第一特征集合中的至少一个特征,并基于保留的特征再次进行模型训练,再基于得到的特征排序结果删除至少一个特征,直到得到预设值数量的目标特征。相比于现有技术根据一次得到的特征排序结果直接得到一定数量的目标特征,通过本申请得到的目标特征对训练得到目标模型具有最大的贡献度,进而使得基于目标特征训练得到的目标模型的准确性更高。
附图说明
图1为本申请实施例提供的一种特征数据的处理方法的流程示意图;
图2为本申请实施例提供的一种特征数据的处理方法的流程示意图;
图3为本申请实施例提供的一种特征数据的处理方法的流程示意图;
图4为本申请实施例提供的一种特征数据的处理方法的流程示意图;
图5为本申请实施例提供的一种特征数据的处理方法的流程示意图;
图6为本申请实施例提供的一种特征过滤方法的流程示意图;
图7为本申请实施例提供的一种电子设备的示意性框图;
图8为本申请实施例提供的一种电子设备示意性结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。针对本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
为了便于更好的理解本申请实施例,对本申请相关的技术术语进行说明。
特征选择:机器学习中,当特征的维度过多时,有的特征对建模目标没有贡献或者贡献太低,通过选择,保留有用的特征不仅能够降低特征的维度,减少特征数据,对所创建的模型的准确性和稳定性也有帮助,这个选择有用特征的过程称为特征选择。
特征重要性:度量在一个训练完成的模型中,不同特征对最终的模型目标的贡献大小。多为模型的系数或者决策树类模型中对构建不同树的贡献等。
递归特征消除(Recursive feature elimination,RFE):一种特征选择框架,通过迭代地消除贡献最小的特征或特征子集,最终保留满足模型目标的贡献最大的特征子集。
通过模型对特征数据进行识别,已普遍应用于各领域中,例如在需要进行风险控制时,可通过风险识别模型根据输入的用户的特征数据,对用户是否存在风险进行识别,那么为了使风险识别模型具有准确的识别能力,需要使用可靠性较高的特征数据对风险识别模型进行训练。因此,特征选择(也称作特征筛选)对建模具有非常重要的意义,能够有效帮助模型减少特征的维度,从而减少特征总量,提高模型的训练效率,节省存储空间。现有技术中,常通过决策树模型得到特征的重要性排序,再将重要性排序最低的一至多个特征删除,以实现特征筛选。
然而,决策树模型得到的特征的重要性排序存在一定的误差,基于该重要性排序筛选得到的特征子集进行模型训练得到的目标模型,无法保证目标模型的准确性和可靠性。
针对上述问题,本申请实施例通过决策树模型对第一特征集合中的特征进行排序后,并根据特征排序结果删除其中的至少一个特征,再通过决策树模型对第一特征集合中剩下的特征进行排序,再根据特征排序结果删除其中的至少一个特征,直到目标特征的数量达到预设值时,结束上述迭代处理过程。使得基于得到的目标特征能够训练出的目标模型具有较高的准确性。
本申请实施例的执行主体为电子设备,应理解,该电子设备可以为一种终端设备中,例如手机(Mobile Phone)、平板电脑(Pad)、电脑等;或者,该电子设备还可以是服务器。
下面通过几个实施例对本申请进行具体说明。
图1为本申请实施例提供的一种特征数据的处理方法100的流程示意图。如图1所示,该方法包括:
S101:基于第一特征集合和决策树模型,进行第i次模型训练,得到该第一特征集合的特征排序结果,该特征排序结果用于表征该第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;
S102:按照该特征排序结果,从该第一特征集合中删除mi个特征;
S103:将该第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;
S104:基于该mi个特征,确定第i次模型训练对应的目标特征;
S105:在该第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至该目标特征的数量达到该预设值时结束该处理过程,得到最终的目标特征。
第一特征集合中包括多个维度的特征,以及每个维度的特征对应的多个用户的特征数据,在本申请实施例中多个维度的特征表述为ni个特征,ni即为维度的数量,例如,第一特征集合中包括年龄维度的特征、性别维度的特征和收入维度的特征,年龄维度的特征对应有用户A的年龄“20”、用户B的年龄“26”、用户C的年龄“35”等,性别维度的特征对应于用户A的性别“男”、用户B的性别“男”、用户C的性别“女”等,收入维度的特征对应有用户A的收入“1w”、用户B的收入“1.2w”、用户C的收入“2.3w”等。
一般来说第一特征集合中特征的维度很多,且不是每个维度的特征都能为训练目标模型做出贡献。通过将第一特征集合输入决策树模型,进行模型训练,能够针对特征对训练目标模型的贡献的重要性,得到第一特征集合的特征排序结果,进而基于特征排序结果进行特征选择。
在步骤S102中,从第一特征集合中删除的mi个特征,可以是需要保留的目标特征,也可以是需要删除的非目标特征。
可选的,mi可以是相同的固定值,即在每次模型训练后都从第一特征集合中删除相同数量的特征,例如,m1=m2=…mi=…;mi还可以是等差变化的变量,例如m1=1,m2=3,m3=5...;mi还可以是等比变化的变量,例如m1=1,m2=2,m3=4...;mi还可以是不同的固定值,例如m1=2,m2=1,m3=3...
可选的,mi还可以是基于特征数量ni和预设删除比例p确定的,例如,mi=ni*p。可选的,p等于5%。
本申请实施例对每次模型训练后从第一特征集合中删除的特征数不做限制。应理解,每次模型训练后从第一特征集合中删除的特征数越少,则得到的目标特征越稳定;每次模型训练后从第一特征集合中删除的特征数越多,则处理效率越高。
下面针对从第一特征集合中删除的mi个特征,可以是需要保留的目标特征,也可以是需要删除的非目标特征,以两种可能的实现方式对本申请实施例进行示例性的说明。
结合图2所示,对实现方式一进行说明:
图2为本申请实施例提供的一种特征数据的处理方法200的流程示意图。如图2所示,该方法包括:
S101:基于第一特征集合和决策树模型,进行第i次模型训练,得到该第一特征集合的特征排序结果,该特征排序结果用于表征该第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;
S1021:按照特征排序结果,从第一特征集合中删除重要性最高的mi个特征;
S103:将该第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;
S1041:将该mi个特征和累计删除特征,作为该目标特征,该累计删除特征包括每次模型训练后删除的m1+m2+…mi-1个特征;
S105:在该第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至该目标特征的数量达到该预设值时结束该处理过程,得到最终的目标特征。
示例性的,假设上述循环迭代过程由i=1开始。在将第一特征集合输入决策树模型进行第1次模型训练后,得到该第一特征集合的特征排序结果,该特征排序结果用于表征第一特征集合中的n1个特征在训练过程中的重要性排序,并按照特征排序结果,从第一特征集合中删除重要性最高的m1个特征。
进一步地,将该第一特征集合中剩余的n1-m1个特征,作为用于进行第2次模型训练的第一特征集合,并将从第一特征集合中删除的m1个特征作为目标特征。
进一步地,确定m1是否大于预设值,若m1小于或等于预设值,则结束处理过程,并得到最终的目标特征,即上述m1个特征;若m1大于该预设值,则将包含n1-m1个特征的用于进行第2次模型训练的第一特征集合输入决策树模型,进行第2次模型训练,得到第2次模型训练后的特征排序结果,进而按照特征排序结果,从包含n2=n1-m1个特征的第一特征集合中,删除重要性最高的m2个特征,将该用于第2次模型训练的第一特征集合中剩余的n2-m2个特征,作为用于进行第3次模型训练的第一特征集合,并将从用于第1次模型训练的第一特征集合中删除的m1个特征和从用于第2次模型训练的第一特征集合中删除的m2个特征,均作为目标特征,依次类推,直到目标特征的数量达到预设值时结束处理过程,得到最终的目标特征。
本申请实施例中,步骤S103和步骤S1041可同时执行也可先后执行,并对其执行的先后顺序不做要求。
结合图3,对实现方式二进行说明:
图3为本申请实施例提供的一种特征数据的处理方法300的流程示意图。如图3所示,该方法包括:
S101:基于第一特征集合和决策树模型,进行第i次模型训练,得到该第一特征集合的特征排序结果,该特征排序结果用于表征该第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;
S1022:按照特征排序结果,从第一特征集合中删除重要性最低的mi个特征;
S103:将该第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;
S1042:将该第一特征集合中除去mi个特征的ni-mi个特征,作为第i次模型训练对应的目标特征;
S105:在该第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至该目标特征的数量达到该预设值时结束该处理过程,得到最终的目标特征。
示例性的,假设上述循环迭代过程由i=1开始。在将第一特征集合输入决策树模型进行第1次模型训练后,得到该第一特征集合的特征排序结果,该特征排序结果用于表征第一特征集合中的n1个特征在训练过程中的重要性排序,并按照特征排序结果,从第一特征集合中删除重要性最低的m1个特征。
进一步地,将该第一特征集合中剩余的n1-m1个特征,作为用于进行第2次模型训练的第一特征集合,并将该第一特征集合中除去m1个特征的n1-m1个特征,作为第1次模型训练对应的目标特征。
进一步地,确定n1-m1是否大于预设值,若n1-m1小于或等于预设值,则结束处理过程,并得到最终的目标特征,即上述n1-m1个特征;若n1-m1大于该预设值,则将包含n1-m1个特征的用于进行第2次模型训练的第一特征集合输入决策树模型,进行第2次模型训练,得到第2次模型训练后的特征排序结果,进而按照特征排序结果,从包含n2=n1-m1个特征的第一特征集合中,删除重要性最低的m2个特征,将该用于第2次模型训练的第一特征集合中剩余的n2-m2个特征,作为用于进行第3次模型训练的第一特征集合,并将用于第2次模型训练的第一特征集合中剩余的n2-m2个特征,作为第2次模型训练对应的目标特征,依次类推,直到目标特征的数量达到预设值时结束处理过程,得到最终的目标特征。
本申请实施例中,步骤S103和步骤S1042可同时执行也可先后执行,并对其执行的先后顺序不做要求。
在一些实施例中,上述决策树模型可以是集成学习模型Xgboost,Xgboost作为一种优化的分布式梯度增强库,在多种机器学习领域被广泛应用,Xgboost通过计算每个特征构建树的贡献,输出特征重要性指标,该指标是对特征按贡献程度进行排序,可以作为特征筛选的依据。Xgboost能够提供特征重要性作为特征排序,以便于进一步地供建模人员进行特征筛选。
示例性的,第一特征集合Fea1输入到Xgboost之后,模型会输出Fea1的排序Fea1_sort。
在一些实施例中,本申请实施例的循环迭代过程可基于RFE实现,RFE作为常用的包裹式算法被广泛应用。其通过反复构建模型,依据特征权重或者特征重要性选出最差的(或者最好的)特征,把选出的特征排除,在剩余第一特征集合上进行建模。重复迭代这个过程,直到遍历所有特征。在这个过程中最终被保留(或者被消除)的特征就是选择出来对模型贡献最大的特征。
因此,本申请实施例基于每次模型训练得到的特征排序结果,删除第一特征集合中的至少一个特征,并基于保留的特征再次进行模型训练,再基于得到的特征排序结果删除至少一个特征,直到得到预设值数量的目标特征。相比于现有技术根据一次得到的特征排序结果直接得到一定数量的目标特征,通过本申请得到的目标特征对训练得到目标模型具有最大的贡献度,进而使得基于目标特征训练得到的目标模型的准确性更高。
在一些实施例中,上述预设值可以为一超参数预先进行配置。目前,常基于经验进行人工指定,本实施例为了使特征筛选得到的目标特征更稳定,且提高特征筛选的效率,提供一种自动确定预设值的方法,基于第二特征集合,通过交叉验证和上述决策树模型,确定该预设值。下面结合图4进行示例性的说明。
图4为本申请实施例提供的一种特征数据的处理方法400的流程示意图。如图4所示,该方法包括:
S401:将第二特征集合划分为k个特征子集,k>1;
S402:针对每个特征子集,基于特征子集和决策树模型,进行模型训练,得到k个模型针对每个特征数的评价指标;
S403:基于k个特征子集在每个特征数下的评价指标,确定预设值。
需要说明的是,评价指标可以为任一模型训练能够得到的指标,可选的,该评价指标可以是用于表征特征对训练目标模型贡献的重要性的指标。应理解,本实施例对评价指标的数量不做限制,具有多个评价指标时,多个评价指标可以为不同类型的指标。
在步骤S403中,可以将k个特征子集在每个特征数下的评价指标进行求和,得到每个特征数对应的特征评价值,再将特征评价值最高的特征数确定为预设值。可选的,对训练目标模型有正面价值的评价指标表示为正值,对训练目标模型有负面价值的评价指标标识为负值;或者,可以将k个特征子集在每个特征数下的评价指标求平均值,得到每个特征数对应的特征评价值,再将特征评价值最高的特征数确定为预设值。
为了更清楚表述,本实施例中给出具体的特征子集的数量以及特征数,但仅作为示例而非限制性的说明。
假设将第二特征集合划分为3个特征子集,包括特征子集A、特征子集B和特征子集C,分别将每个特征子集输入决策树模型,进行模型训练,得到特征子集A针对特征数1000的评价指标a1、针对特征数999的评价指标a2、针对特征数998的评价指标a3等,还得到特征子集B针对特征数1000的评价指标b1、针对特征数999的评价指标b2、针对特征数998的评价指标b3等,还得到特征子集C针对特征数1000的评价指标c1、针对特征数999的评价指标c2、针对特征数998的评价指标c3等。
进一步地,基于上述每个特征子集在每个特征数下的评价指标,确定每个特征数对应的特征评价值,特征评价值可以是每个特征子集的评价指标的和或者平均值,以每个特征子集的评价指标的和为例,特征数1000对应的特征评价值为a1+b1+c1,特征数999对应的特征评价值为a2+b2+c2,特征数998对应的特征评价值为a3+b3+c3等,进而从所有特征数对应的特征评价值中选择特征评价值最大的特征数作为预设值。
在图4所示的实施例中,确定预设值的过程较为复杂,为了进一步提高处理效率,本实施例在基于预设值确定结束处理过程的基础上,结合模型评价指标,确定是否结束循环迭代过程,以得到最终的目标特征。本实施例与上述图1至图3所示的任一实施例进行结合,下面以结合图1所示实施例为例进行说明。
图5为本申请实施例提供的一种特征数据的处理方法500的流程示意图。如图5所示,该方法包括:
S101:基于第一特征集合和决策树模型,进行第i次模型训练,得到该第一特征集合的特征排序结果,该特征排序结果用于表征该第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;
S102:按照该特征排序结果,从该第一特征集合中删除mi个特征;
S103:将该第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;
S104:基于该mi个特征,确定第i次模型训练对应的目标特征;
S1051:在该第i次模型训练对应的目标特征的数量大于预设值时,确定该第i次模型训练得到的模型评价指标是否低于第i-1次模型训练得到的模型评价指标;
若该第i次模型训练得到的模型评价指标低于该第i-1次模型训练得到的模型评价指标,则执行步骤S1052;若该第i次模型训练得到的模型评价指标高于或等于该第i-1次模型训练得到的模型评价指标,则执行步骤S1053;
S1052:基于累计指标下降计数和预设计数值,确定是否结束该处理过程,得到最终的目标特征;
S1053:重复上述处理过程,直至该目标特征的数量达到该预设值或该累计指标下降计数等于该预设计数值时,结束该处理过程,得到最终的目标特征。
可选的,在结合模型评价指标,确定是否停止循环迭代以得到最终的目标特征时,相对于不集合模型评价指标的方案,预设值可设定为更小的值。
示例性的,在步骤S1052中,若累计指标下降计数等于预设计数值,则结束所述处理过程,得到最终的目标特征;若累计指标下降计数小于预设计数值,则重复上述处理过程,直至目标特征的数量达到预设值或累计指标下降计数等于预设计数值时,结束处理过程,得到最终的目标特征。
需要说明的是,累计指标下降计数被设定为在每次模型训练得到的模型评价指标低于该前一次模型训练得到的模型评价指标时加1。且在当次模型训练得到的模型评价指标高于前一次模型训练得到的模型评价指标时,该累计指标下降计数清0。
图6为本申请实施例提供的一种特征过滤方法600的流程示意图。需要说明的是,图6所示实施例可在步骤S101之前执行,用于确定第一特征集合。如图6所示,该方法包括:
S601:获取样本集合,该样本集合包括多个样本,该样本包括多个特征以及该特征对应的特征数据;
S602:针对每个特征,确定每个样本对应于该特征的特征数据是否满足筛选条件;
S603:将不满足该筛选条件的特征删除,得到该第一特征集合;
其中,筛选条件包括以下至少一种:缺失率小于缺失率阈值、方差小于方差阈值、不包含线性相关特征。
为了便于理解本实施例,对上述三个筛选条件进行说明。
特征的缺失率,为多个样本在该特征下不具有对应的特征数据占样本总数的比例,例如,年龄维度的特征对应有用户A的年龄“20”、用户B、用户C和用户D的年龄没有对应的数据,则表明该特征的缺失率为75%。缺失率过大时,特征对于训练得到目标模型的贡献越低,并且可能对目标模型的准确性带来影响。
特征的方差越小表明该特征下每个样本对应的特征数据越为接近,例如性别维度的特征对应于用户A、用户B、用户C和用户D的性别均为“男”。可选的,方差阈值可以为0,或者接近0。
线性相关特征,为不同的特征之间具有强相关性,例如特征1为用户的体重,特征2为用户的体重的2倍。当存在多个线性相关特征时,可以选择保留一个特征,删除其他特征。
可选的,可通过文件过滤驱动FS-filter对样本集合Fea0进行特征过滤,得到特征集合Fea1。
FS-filter部分设计成递进式特征筛选。首先以缺失率阈值筛选特征,然后以方差阈值进行筛选,最后以特征相关性进行筛选。三个过滤式选择方法依次递进选择,最终输出过滤式筛选后的特征Fea1。这里每个步骤涉及到相应的过滤阈值,可以人工调节,也可以选择默认设置。该部分不涉及模型训练,主要以简单统计为主,计算时间不会成为瓶颈。并且能为下一步进行模型训练和RFE特征筛选提供初步精简后的特征集合。
图7为本申请实施例提供的一种电子设备700的示意性框图。如图7所示,该电子设备700包括:
排序处理单元710,用于基于第一特征集合和决策树模型,进行第i次模型训练,得到该第一特征集合的特征排序结果,该特征排序结果用于表征该第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;
消除处理单元720,用于按照该特征排序结果,从该第一特征集合中删除mi个特征;
第一集合确定单元730,用于将该第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;
特征选择单元740,用于基于该mi个特征,确定第i次模型训练对应的目标特征;
循环处理单元750,用于在该第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至该目标特征的数量达到该预设值时结束该处理过程,得到最终的目标特征。
在一些实施例中,消除处理单元720具体用于:按照该特征排序结果,从该第一特征集合中删除重要性最高的mi个特征;特征选择单元740具体用于:将该mi个特征和累计删除特征,作为该目标特征,该累计删除特征包括每次模型训练后删除的m1+m2+…mi-1个特征。
在一些实施例中,消除处理单元720具体用于按照该特征排序结果,从该第一特征集合中删除重要性最低的mi个特征;特征选择单元740具体用于:将该第一特征集合中除去mi个特征的ni-mi个特征,作为该目标特征。
在一些实施例中,电子设备700还包括参数确定单元760,用于基于第二特征集合,通过交叉验证和该决策树模型,确定该预设值。
在一些实施例中,参数确定单元760具体用于:将该第二特征集合划分为k个特征子集,k>1;针对每个特征子集,基于该特征子集和该决策树模型,进行模型训练,得到k个模型针对每个特征数的评价指标;基于该k个特征子集在每个特征数下的评价指标,确定该预设值。
在一些实施例中,循环处理单元750具体用于:在该第i次模型训练对应的目标特征的数量大于预设值时,确定该第i次模型训练得到的模型评价指标是否低于第i-1次模型训练得到的模型评价指标;若该第i次模型训练得到的模型评价指标低于该第i-1次模型训练得到的模型评价指标,则基于累计指标下降计数和预设计数值,确定是否结束该处理过程,得到最终的目标特征;若该第i次模型训练得到的模型评价指标高于或等于该第i-1次模型训练得到的模型评价指标,则重复上述处理过程,直至该目标特征的数量达到该预设值或该累计指标下降计数等于该预设计数值时,结束该处理过程,得到最终的目标特征。
在一些实施例中,循环处理单元750具体用于:若该累计指标下降计数等于预设计数值,则结束该处理过程,得到最终的目标特征;若该累计指标下降计数小于该预设计数值,则重复上述处理过程,直至该目标特征的数量达到该预设值或该累计指标下降计数等于该预设计数值时,结束该处理过程,得到最终的目标特征。
在一些实施例中,电子设备700还包括:获取单元770,用于获取样本集合,该样本集合包括多个样本,该样本包括多个特征以及该特征对应的特征数据;判断单元780,用于针对每个特征,确定每个样本对应于该特征的特征数据是否满足筛选条件;第二集合确定单元790,用于将不满足该筛选条件的特征删除,得到该第一特征集合;其中,该筛选条件包括以下至少一种:缺失率小于缺失率阈值、方差小于方差阈值、不包含线性相关特征。
上述实施例提供的电子设备,可以执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本申请实施例提供的一种电子设备800示意性结构图。如图8所示的电子设备包括处理器810,处理器810可以从存储器中调用并运行计算机程序,以实现本申请实施例中的方法。
可选地,如图8所示,电子设备800还可以包括存储器820。其中,处理器810可以从存储器820中调用并运行计算机程序,以实现本申请实施例中的方法。
其中,存储器820可以是独立于处理器810的一个单独的器件,也可以集成在处理器810中。
可选地,如图8所示,电子设备800还可以包括收发器830,处理器810可以控制该收发器830与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。
其中,收发器830可以包括发射机和接收机。收发器830还可以进一步包括天线,天线的数量可以为一个或多个。
可选地,该电子设备800可以实现本申请实施例的各个方法对应的相应流程,为了简洁,在此不再赘述。
应理解,本申请实施例的处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,上述存储器为示例性但不是限制性说明,例如,本申请实施例中的存储器还可以是静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)等等。也就是说,本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序。
可选的,该计算机可读存储介质可应用于本申请实施例中的电子设备,并且该计算机程序使得计算机执行本申请实施例的各个方法中由的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机程序指令。
可选的,该计算机程序产品可应用于本申请实施例中的电子设备,并且该计算机程序指令使得计算机执行本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序。
可选的,该计算机程序可应用于本申请实施例中的服务器,当该计算机程序在计算机上运行时,使得计算机执行本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。针对这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种特征数据的处理方法,其特征在于,包括:
基于第一特征集合和决策树模型,进行第i次模型训练,得到所述第一特征集合的特征排序结果,所述特征排序结果用于表征所述第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;
按照所述特征排序结果,从所述第一特征集合中删除mi个特征;
将所述第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;
基于所述mi个特征,确定第i次模型训练对应的目标特征;
在所述第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至所述目标特征的数量达到所述预设值时结束所述处理过程,得到最终的目标特征。
2.根据权利要求1所述的方法,其特征在于,所述按照所述特征排序结果,从所述第一特征集合中删除mi个特征,包括:
按照所述特征排序结果,从所述第一特征集合中删除重要性最高的mi个特征;
则所述基于所述mi个特征,确定第i次模型训练对应的目标特征,包括:
将所述mi个特征和累计删除特征,作为所述目标特征,所述累计删除特征包括每次模型训练后删除的m1+m2+…mi-1个特征。
3.根据权利要求1所述的方法,其特征在于,所述按照所述特征排序结果,从所述第一特征集合中删除mi个特征,包括:
按照所述特征排序结果,从所述第一特征集合中删除重要性最低的mi个特征;
则所述基于所述mi个特征,确定第i次模型训练对应的目标特征,包括:
将所述第一特征集合中除去mi个特征的ni-mi个特征,作为所述目标特征。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
基于第二特征集合,通过交叉验证和所述决策树模型,确定所述预设值。
5.根据权利要求4所述的方法,其特征在于,所述基于第二特征集合,通过交叉验证和所述决策树模型,确定所述预设值,包括:
将所述第二特征集合划分为k个特征子集,k>1;
针对每个特征子集,基于所述特征子集和所述决策树模型,进行模型训练,得到k个模型针对每个特征数的评价指标;
基于所述k个特征子集在每个特征数下的评价指标,确定所述预设值。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述在所述第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至所述目标特征的数量达到所述预设值时结束所述处理过程,得到最终的目标特征,具体包括:
在所述第i次模型训练对应的目标特征的数量大于预设值时,确定所述第i次模型训练得到的模型评价指标是否低于第i-1次模型训练得到的模型评价指标;
若所述第i次模型训练得到的模型评价指标低于所述第i-1次模型训练得到的模型评价指标,则基于累计指标下降计数和预设计数值,确定是否结束所述处理过程,得到最终的目标特征;
若所述第i次模型训练得到的模型评价指标高于或等于所述第i-1次模型训练得到的模型评价指标,则重复上述处理过程,直至所述目标特征的数量达到所述预设值或所述累计指标下降计数等于所述预设计数值时,结束所述处理过程,得到最终的目标特征。
7.根据权利要求6所述的方法,其特征在于,所述基于累计指标下降计数和预设计数值,确定是否结束所述处理过程,得到最终的目标特征,包括:
若所述累计指标下降计数等于预设计数值,则结束所述处理过程,得到最终的目标特征;
若所述累计指标下降计数小于所述预设计数值,则重复上述处理过程,直至所述目标特征的数量达到所述预设值或所述累计指标下降计数等于所述预设计数值时,结束所述处理过程,得到最终的目标特征。
8.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
获取样本集合,所述样本集合包括多个样本,所述样本包括多个特征以及所述特征对应的特征数据;
针对每个特征,确定每个样本对应于所述特征的特征数据是否满足筛选条件;
将不满足所述筛选条件的特征删除,得到所述第一特征集合;
其中,所述筛选条件包括以下至少一种:缺失率小于缺失率阈值、方差小于方差阈值、不包含线性相关特征。
9.一种电子设备,其特征在于,包括:
排序处理单元,用于基于第一特征集合和决策树模型,进行第i次模型训练,得到所述第一特征集合的特征排序结果,所述特征排序结果用于表征所述第一特征集合中的ni个特征在训练过程中的重要性排序,i≥1;
消除处理单元,用于按照所述特征排序结果,从所述第一特征集合中删除mi个特征;
第一集合确定单元,用于将所述第一特征集合中剩余的ni-mi个特征,作为用于进行第i+1次模型训练的第一特征集合,mi≥1;
特征选择单元,用于基于所述mi个特征,确定第i次模型训练对应的目标特征;
循环处理单元,用于在所述第i次模型训练对应的目标特征的数量大于预设值时,重复上述处理过程,直至所述目标特征的数量达到所述预设值时结束所述处理过程,得到最终的目标特征。
10.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303984.0A CN112862545A (zh) | 2021-03-22 | 2021-03-22 | 特征数据的处理方法以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303984.0A CN112862545A (zh) | 2021-03-22 | 2021-03-22 | 特征数据的处理方法以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112862545A true CN112862545A (zh) | 2021-05-28 |
Family
ID=75992017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110303984.0A Pending CN112862545A (zh) | 2021-03-22 | 2021-03-22 | 特征数据的处理方法以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112862545A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610168A (zh) * | 2021-08-11 | 2021-11-05 | 平安科技(深圳)有限公司 | 数据处理方法、装置、设备及介质 |
CN115221948A (zh) * | 2022-06-24 | 2022-10-21 | 北京百度网讯科技有限公司 | 特征组合确定方法、装置、设备、存储介质及程序产品 |
-
2021
- 2021-03-22 CN CN202110303984.0A patent/CN112862545A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610168A (zh) * | 2021-08-11 | 2021-11-05 | 平安科技(深圳)有限公司 | 数据处理方法、装置、设备及介质 |
CN113610168B (zh) * | 2021-08-11 | 2024-05-14 | 平安科技(深圳)有限公司 | 数据处理方法、装置、设备及介质 |
CN115221948A (zh) * | 2022-06-24 | 2022-10-21 | 北京百度网讯科技有限公司 | 特征组合确定方法、装置、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348562B (zh) | 神经网络的量化策略确定方法、图像识别方法和装置 | |
CN109840589B (zh) | 一种在fpga上运行卷积神经网络的方法和装置 | |
KR20210129031A (ko) | 모델 압축 방법, 이미지 처리 방법 및 장치 | |
JP2023523029A (ja) | 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 | |
US11657284B2 (en) | Neural network model apparatus and compressing method of neural network model | |
CN112862545A (zh) | 特征数据的处理方法以及电子设备 | |
CN110910982A (zh) | 自编码模型训练方法、装置、设备及存储介质 | |
CN106295682A (zh) | 一种判断图片质量因子的方法、装置和计算设备 | |
JP6950756B2 (ja) | ニューラルネットワークのランク最適化装置および最適化方法 | |
CN105139282A (zh) | 一种电网指标数据处理方法、装置以及计算设备 | |
CN110956277A (zh) | 一种交互式的迭代建模系统及方法 | |
CN115062734A (zh) | 可输出解释性信息的风控建模方法、装置、设备及介质 | |
CN107292320B (zh) | 系统及其指标优化方法及装置 | |
CN112817563B (zh) | 目标属性配置信息确定方法、计算机设备和存储介质 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
CN112906883A (zh) | 用于深度神经网络的混合精度量化策略确定方法和系统 | |
CN107403199B (zh) | 数据处理方法和装置 | |
CN115862653A (zh) | 音频去噪方法、装置、计算机设备和存储介质 | |
CN113554097B (zh) | 模型量化方法、装置、电子设备和存储介质 | |
CN114444721A (zh) | 模型训练方法、装置、电子设备及计算机存储介质 | |
CN108229572A (zh) | 一种参数寻优方法及计算设备 | |
CN113177846A (zh) | 一种资产组合处理方法及装置 | |
CN114021699A (zh) | 一种基于梯度的卷积神经网络剪枝方法及装置 | |
CN111353860A (zh) | 产品信息推送方法及系统 | |
CN110475258A (zh) | 一种基站的可靠性评估方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |