CN110704509A - 数据分类方法、装置、设备及存储介质 - Google Patents

数据分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110704509A
CN110704509A CN201910955702.8A CN201910955702A CN110704509A CN 110704509 A CN110704509 A CN 110704509A CN 201910955702 A CN201910955702 A CN 201910955702A CN 110704509 A CN110704509 A CN 110704509A
Authority
CN
China
Prior art keywords
features
model
feature
effective
test model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910955702.8A
Other languages
English (en)
Inventor
熊云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910955702.8A priority Critical patent/CN110704509A/zh
Publication of CN110704509A publication Critical patent/CN110704509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了数据分类方法、装置、设备及存储介质,涉及数据分类技术领域。具体实现方案为:通过从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;根据初始特征获取组合特征,并从组合特征中筛选出有效特征;根据初始特征及有效特征,得到对预测目标参数进行预测的预测模型,并根据样本数据对预测模型进行训练;将待分类的目标数据输入训练后的预测模型中,获取目标数据对应的预测目标参数,以根据预测目标参数对目标数据进行分类处理。本申请实施例中进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类。

Description

数据分类方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及数据分类技术。
背景技术
随着机器学习领域的发展,建模技术逐渐走向成熟,针对一些表格数据的建模技术也有所进展,例如根据表格数据构建对某一目标参数的预测模型,实现表格数据依据该目标参数的分类。
现有技术中在建模过程中通常需要制定某些特征,并依据该些特征进行建模,或者对该些特征进行简单的特征组合,在依据该些特征进行建模,导致建模过程中对特征的挖掘不足,导致模型准确度不高,无法准确进行数据分类。
发明内容
本申请提供一种数据分类方法、装置、设备及存储介质,以挖掘更多的、更深层的特征,提高模型准确性,从而对数据进行准确分类处理。
本申请第一个方面提供一种数据分类方法,包括:
从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;
根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;
根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;
将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
通过上述方法,由于进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类。
进一步的,所述根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征,包括:
将所述初始特征加入有效特征池;
在每一轮的特征组合过程中,对所述有效特征池中的任意的至少两个特征按照预设组合方式进行组合,产生新的组合特征;并从所述新的组合特征中筛选出有效特征,加入所述有效特征池;
进行下一轮的特征组合过程,直至某一轮的特征组合过程产生的新的组合特征中无法筛选出有效特征时,结束特征组合过程。
通过上述方法,可以更高效的获取有价值的组合特征,降低计算量,且能够挖掘到更多的、更深层的有价值的特征,并且能够在无法得到有效特征时自动结束特征挖掘,而不需要设置迭代次数。
进一步的,所述从所述新的组合特征中筛选出有效特征,加入所述有效特征池,包括:
根据所述有效特征池中当前所有特征构建第一测试模型,并获取所述第一测试模型的模型评价指标;
将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,并获取所述第二测试模型的模型评价指标;
获取所述第二测试模型的模型评价指标相对于所述第一测试模型的模型评价指标增量;
若所述模型评价指标增量高于预设阈值,则确定该组合特征为有效特征,并加入所述有效特征池。
进一步的,所述根据所述有效特征池中当前所有特征构建第一测试模型,包括:
将所述有效特征池中当前所有特征按照预设系数构建第一测试模型;
所述将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,包括:
将所述新的组合特征中任一组合特征按照预设系数加入到所述第一测试模型中,形成第二测试模型。
进一步的,所述获取所述第一测试模型的模型评价指标前,还包括:
根据所述样本数据对所述第一测试模型进行训练,以优化所述第一测试模型中的预设系数;
所述获取所述第二测试模型的模型评价指标前,还包括:
根据所述样本数据对所述第二测试模型进行训练,以优化所述第二测试模型中的预设系数。
进一步的,同一轮的特征组合过程中所述预设阈值相同;
随着各轮特征组合过程的继续,所述预设阈值逐步递减。
进一步的,在结束特征组合过程后,根据所述有效特征池中当前所有特征构建所述预测模型,并根据所述样本数据对所述预测模型进行训练。
进一步的,所述将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,包括:
根据所述目标数据,获取所述预测模型中所述初始特征及所述有效特征对应的数值,将所述对应的数值输入至所述预测模型中,获取所述目标数据对应的预测目标参数。
本申请第二个方面提供一种数据分类装置,包括:
获取模块,用于从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;
特征组合模块,用于根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;
建模模块,用于根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;
分类模块,用于将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
本申请第三个方面提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
本申请第四个方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面所述的方法。
本申请第五个方面提供一种计算机程序,包括程序代码,当计算机运行所述计算机程序时,所述程序代码执行如第一方面所述的方法。
本申请第六个方面提供一种数据分类方法,包括:
根据样本数据获取初始特征,根据所述初始特征获取有效组合特征;
根据所述初始特征及所述有效特征,得到对预测目标参数进行预测的预测模型;
将待分类的目标数据输入所述预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
上述申请中的一个实施例具有如下优点或有益效果:通过从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。本申请实施例中由于进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请一实施例提供的数据分类方法流程图;
图2为可以实现本申请实施例的场景图;
图3是本申请另一实施例提供的数据分类方法流程图;
图4是本申请另一实施例提供的数据分类方法流程图;
图5是本申请一实施例提供的数据分类装置的框图;
图6是用来实现本申请实施例的数据分类方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请一实施例提供一种数据分类方法,图1为本发明实施例提供的数据分类方法流程图。如图1所示,所述数据分类方法具体步骤如下:
S101、从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数。
在本实施例中,样本数据是用于挖掘特征、以及训练模型的数据。具体的,例如如下表一所示的样本数据,其具体可以如图2所述,由作为执行主体的服务器10从购物订单系统的数据库11中获取。
表一
Figure BDA0002227220510000051
在获取到样本数据后,可以从中提取初始特征以及确定预测目标参数。例如,可以以用户的工作状况为预测目标参数,以年龄、本月消费额、消费次数、最大单品价格为初始特征,也即需要构建一个对用户工作状况进行预测的预测模型,可根据预测模型对待分类的目标数据进行用户工作状况的预测,进而根据预测得到的用户工作状况进行分类,完成分类后可进行其他的应用,例如招聘信息的推送等等。需要说明的是,其中预测目标参数可以根据实际需求来设定;此外,可选的,样本数据中包含预测目标参数对应的值,或者也可由人工标注样本数据中预测目标参数对应的值。
S102、根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征。
在本实施例中,可在初始特征的基础上进行特征挖掘,通过特征组合、筛选,获取有效特征,其中有效特征为对预测模型有价值的特征,也即会作为模型参数的特征。
在一种可选实施例中,所述根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征,如图3所示,具体可包括:
S1021、将所述初始特征加入有效特征池;
S1022、在每一轮的特征组合过程中,对所述有效特征池中的任意的至少两个特征按照预设组合方式进行组合,产生新的组合特征;并从所述新的组合特征中筛选出有效特征,加入所述有效特征池;
S1023、进行下一轮的特征组合过程,直至某一轮的特征组合过程产生的新的组合特征中无法筛选出有效特征时,结束特征组合过程。
在本实施例中,可以进行多轮的特征组合和筛选得到有效特征,具体的,首先将初始特征作为有效特征,加入有效特征池,其中有效特征池为由有效特征构成的集合。
在第一轮的特征组合过程中,由于有效特征池中仅有初始特征,因此可将初始特征进行相互组合,可选择任意至少两个特征按照预设组合方式组合,其中预设组合方式可包括但不限于加、减、乘、除、幂、开方等运算,得到新的第一级组合特征,进一步的,对第一级组合特征进行筛选,获取其中的有效特征,此处记为第一级有效特征,加入有效特征池中;
然后进行下一轮的特征组合过程,由于当前有效特征池中存在初始特征以及第一级有效特征,可对第一级有效特征进行相互组合,以及将第一级有效特征与初始特征进行相互组合,从而产生新的组合特征,记为第二级组合特征,在组合过程中需要避免组合出来的组合特征是前面各轮中已经得到过的组合特征(也可称之为旧的特征,与新的组合特征相对),例如初始特征之间已经进行过组合,本轮中不需要再次组合。在得到第二级组合特征后,对第二级组合特征进行筛选,获取其中的有效特征,记为第二级有效特征,加入有效特征池中;
然后再进行下一轮的特征组合过程,以此类推,某一轮的特征组合过程中,可将上一轮得到的有效特征进行相互组合,以及将上一轮得到的有效特征与有效特征池中除该上一轮得到的有效特征外的其他有效特征进行相互组合,得到本轮的新的组合特征,再进行筛选,得到本轮的有效特征。重复上述过程,直至某一轮的新的组合特征中无法筛选出有效特征时,结束特征组合过程。本实施例相对于通过穷举的暴力组合方式,可以更高效的获取有价值的组合特征,降低计算量,同时能够挖掘到更多的、更深层的有价值的特征,并且能够在无法得到有效特征时自动结束特征挖掘,不需要设置迭代次数。
可选的,在上述实施例中,对于每一组合特征,可采用预定的数据格式进行记录,具体的,可记录该特征的名称(或标识)、组合方式、由哪些特征组合而成、以及用于特征筛选的相关参数等等。
需要说明的,上述实施例中特征筛选过程可引入一些对特征的评价指标,来评估某一特征对于模型的贡献的大小,并设定阈值范围,当评价指标满足阈值范围,则确定为有效特征。
S103、根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练。
在本实施例中,在完成特征挖掘后,即可根据所得到的初始特征以及有效特征,进行模型构建和训练(其中模型算法可预先指定),具体的可采用自动建模的方式实现。其中建模和训练过程此处不再赘述。
S104、将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
在本实施例中,在完成预测模型的训练后,即可应用该模型进行数据分类处理,具体的,可将待分类的目标数据输入训练后的预测模型中,获取目标数据对应的预测目标参数,然后根据预测目标参数对目标数据进行数据分类处理。
进一步的,根据所述目标数据,获取所述预测模型中所述初始特征及所述有效特征对应的数值,将所述对应的数值输入至所述预测模型中,获取所述目标数据对应的预测目标参数。也即,由于目标数据可能仅包含一些初始特征对应的数值,而对于后续挖掘出来的有效特征的数值,需要经过一定的运算才能够得到。然后将该些预测模型中的各特征(包括初始特征以及后续挖掘出来的有效特征)对应的数值输入至预测模型中,预测模型经过预测后输出目标数据对应的预测目标参数。
本实施例提供的数据分类方法,通过从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。本实施例中,由于进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类。
在上述任一实施例的基础上,对于组合特征的筛选,具体可如图4所示,采用如下的步骤实现:
S201、根据所述有效特征池中当前所有特征构建第一测试模型,并获取所述第一测试模型的模型评价指标;
S202、将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,并获取所述第二测试模型的模型评价指标;
S203、获取所述第二测试模型的模型评价指标相对于所述第一测试模型的模型评价指标增量;
S204、若所述模型评价指标增量高于预设阈值,则确定该组合特征为有效特征,并加入所述有效特征池。
在本实施例中,对于每一个组合特征均需要进行上述S201-S204的步骤进行是否为有效特征的判断。举例来讲,对于第一轮的特征组合过程中得到的第一级组合特征:组合特征1、组合特征2……可从中任选一个组合特征,例如对组合特征1的判断,有效特征池中当前所有特征仅包括初始特征,因此此时以初始特征构建一个测试模型,该测试模型也是对预测目标参数进行预测的模型,该测试模型仅为中间模型,用于对组合特征进行测试,然后获取该第一测试模型的模型评价指标,可选的,本实施例中模型评价指标可以采用AUC,其中AUC(Area Under Curve)被定义为ROC曲线下的面积,而ROC曲线为受试者工作特征曲线(receiver operating characteristic curve),而AUC通常作为模型的评价标准是因为作为一个数值,AUC能清晰的说明哪个分类器模型的分类效果更好、准确度更高,对应AUC更大的分类器模型的分类效果更好,因此本实施例中可通过计算第一测试模型的AUC来作为第一测试模型的模型评价指标,其中AUC的计算方法可采用现有的计算方法,此处不再赘述。进一步的,将待判断的组合特征1加入到第一测试模型中,形成第二测试模型,此时再计算第二测试模型的模型评价指标AUC,然后将第二测试模型的AUC与第一测试模型的AUC进行比较,若第二测试模型的AUC较第一测试模型的AUC有所增加,且增量高于预设阈值,则说明第二测试模型的分类效果更好,该组合特征1对于模型的贡献比较大,组合特征1价值较大,可以确定为有效特征,并加入到有效特征池中。当然,若模型评价指标增量未高于预设阈值,则舍弃该组合特征,进行下一组合特征的判断。
在完成组合特征1的判断后,继续进行本轮特征组合过程中其他任一第一级组合特征的判断,例如组合特征2,由于此时组合特征1已加入到有效特征池中,也即有效特征池中当前所有特征包括初始特征以及组合特征1,则此时重新根据有效特征池中当前所有特征构建新的第一测试模型,由于此时的第一测试模型是根据初始特征以及组合特征1构建,其刚好和上一判断过程中的旧的第二测试模型相同,因此可以直接使用旧的第二测试模型作为本次判断的新的第一测试模型;然后将组合特征2加入到新的第一测试模型中形成新的第二测试模型,并获取该第二测试模型的模型评价指标,然后判断模型评价指标增量是否高于预设阈值,若高于预设阈值,则确定该组合特征2为有效特征,并加入有效特征池。
重复上述过程,直至完成第一轮的特征组合过程中所有的第一级组合特征的判断,然后进行下一轮的各组合特征的判断。直至某一轮的特征组合过程中未产生一个新的有效特征,也即此时模型评价指标不再增加,模型分类效果达到最优,结束特征的组合和筛选过程。
而在结束特征组合过程后,即可根据有效特征池中当前所有特征构建所述预测模型,并根据所述样本数据对所述预测模型进行训练,得到最终的预测模型。
在上述实施例的基础上,S201所述的根据所述有效特征池中当前所有特征构建第一测试模型,包括:
将所述有效特征池中当前所有特征按照预设系数构建第一测试模型;
S202所述的将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,包括:
将所述新的组合特征中任一组合特征按照预设系数加入到所述第一测试模型中,形成第二测试模型。
在本实施例中,为了减小计算量,实现组合特征的快速筛选,可以在指定模型算法时,同时也预设一些模型系数,在构建测试模型时可直接使用该些预设系数构建测试模型,而不需要对测试模型的训练来优化模型系数,可以更方便快捷的计算模型评价指标。当然,可以在每次构建测试模型后进行一次模型系数的优化,也即采用样本数据对测试模型进行训练,然后对训练后的可测试模型获取模型评价指标,可以实现模型评价指标计算的准确性,能够更准确的评估每一组合特征对于模型的贡献,但是计算量较大,可适用于需要精确建模或者初始特征数量相对较少的情况中。具体的训练过程如下:
在所述获取所述第一测试模型的模型评价指标前,根据所述样本数据对所述第一测试模型进行训练,以优化所述第一测试模型中的预设系数;
所述获取所述第二测试模型的模型评价指标前,根据所述样本数据对所述第二测试模型进行训练,以优化所述第二测试模型中的预设系数。
在上述任一实施例的基础上,可选的,可以预先对模型评价指标的预设阈值进行设置,其中同一轮的特征组合过程中所述预设阈值相同,而随着各轮特征组合过程的继续,组合出来的特征可能对模型的贡献越来越小,因此,所述预设阈值可逐步递减。当然,对于预设阈值的设置可以根据实际需要进行设置,并不限于上述的设置规则。
上述实施例提供的数据分类方法,由于进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类;此外,本实施例相对于通过穷举的暴力组合方式,可以更高效的获取有价值的组合特征,降低计算量,且能够挖掘到更多的、更深层的有价值的特征,并且能够在无法得到有效特征时自动结束特征挖掘,而不需要设置迭代次数。
本申请一实施例提供一种数据分类装置,图5为本发明实施例提供的数据分类装置的结构图。如图5所示,所述数据分类装置500具体包括:获取模块501、特征组合模块502、建模模块503、以及分类模块504。
获取模块501,用于从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;
特征组合模块502,用于根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;
建模模块503,用于根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;
分类模块504,用于将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
在上述任意实施例的基础上,所述特征组合模块502在根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征时,用于:
将所述初始特征加入有效特征池;
在每一轮的特征组合过程中,对所述有效特征池中的任意的至少两个特征按照预设组合方式进行组合,产生新的组合特征;并从所述新的组合特征中筛选出有效特征,加入所述有效特征池;
进行下一轮的特征组合过程,直至某一轮的特征组合过程产生的新的组合特征中无法筛选出有效特征时,结束特征组合过程。
在上述任意实施例的基础上,所述特征组合模块502在从所述新的组合特征中筛选出有效特征,加入所述有效特征池时,用于:
根据所述有效特征池中当前所有特征构建第一测试模型,并获取所述第一测试模型的模型评价指标;
将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,并获取所述第二测试模型的模型评价指标;
获取所述第二测试模型的模型评价指标相对于所述第一测试模型的模型评价指标增量;
若所述模型评价指标增量高于预设阈值,则确定该组合特征为有效特征,并加入所述有效特征池。
在上述任意实施例的基础上,所述特征组合模块502在根据所述有效特征池中当前所有特征构建第一测试模型时,用于:
将所述有效特征池中当前所有特征按照预设系数构建第一测试模型;
所述特征组合模块502在将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型时,用于:
将所述新的组合特征中任一组合特征按照预设系数加入到所述第一测试模型中,形成第二测试模型。
在上述任意实施例的基础上,所述特征组合模块502在获取所述第一测试模型的模型评价指标前,还用于:
根据所述样本数据对所述第一测试模型进行训练,以优化所述第一测试模型中的预设系数;
所述特征组合模块502在获取所述第二测试模型的模型评价指标前,还用于:
根据所述样本数据对所述第二测试模型进行训练,以优化所述第二测试模型中的预设系数。
在上述任意实施例的基础上,同一轮的特征组合过程中所述预设阈值相同;
随着各轮特征组合过程的继续,所述预设阈值逐步递减。
在上述任意实施例的基础上,所述建模模块503用于:
在结束特征组合过程后,根据所述有效特征池中当前所有特征构建所述预测模型,并根据所述样本数据对所述预测模型进行训练。
在上述任意实施例的基础上,所述分类模块504用于:
根据所述目标数据,获取所述预测模型中所述初始特征及所述有效特征对应的数值,将所述对应的数值输入至所述预测模型中,获取所述目标数据对应的预测目标参数。
本实施例提供的数据分类装置可以具体用于执行上述图1、3、4所提供的数据分类方法实施例,具体功能此处不再提供的赘述。
本实施例提供的数据分类装置,通过从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。本实施例中,由于进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的数据分类方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的数据分类方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据分类方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据分类方法对应的程序指令/模块(例如,附图5所示的获取模块501、特征组合模块502、建模模块503、以及分类模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据分类方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据分类方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至数据分类方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
数据分类方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与数据分类方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。本实施例中,由于进行了更多的、更深层的特征挖掘、且考虑了挖掘到的组合特征的价值,使得所得到的预测模型更为准确,从而可以根据该预测模型实现对目标数据的准确分类。
本申请还提供了一种计算机程序,包括程序代码,当计算机运行所述计算机程序时,所述程序代码执行如上述实施例所述的
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (19)

1.一种数据分类方法,其特征在于,包括:
从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;
根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;
根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;
将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征,包括:
将所述初始特征加入有效特征池;
在每一轮的特征组合过程中,对所述有效特征池中的任意的至少两个特征按照预设组合方式进行组合,产生新的组合特征;并从所述新的组合特征中筛选出有效特征,加入所述有效特征池;
进行下一轮的特征组合过程,直至某一轮的特征组合过程产生的新的组合特征中无法筛选出有效特征时,结束特征组合过程。
3.根据权利要求2所述的方法,其特征在于,所述从所述新的组合特征中筛选出有效特征,加入所述有效特征池,包括:
根据所述有效特征池中当前所有特征构建第一测试模型,并获取所述第一测试模型的模型评价指标;
将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,并获取所述第二测试模型的模型评价指标;
获取所述第二测试模型的模型评价指标相对于所述第一测试模型的模型评价指标增量;
若所述模型评价指标增量高于预设阈值,则确定该组合特征为有效特征,并加入所述有效特征池。
4.根据权利要求3所述的方法,其特征在于,所述根据所述有效特征池中当前所有特征构建第一测试模型,包括:
将所述有效特征池中当前所有特征按照预设系数构建第一测试模型;
所述将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,包括:
将所述新的组合特征中任一组合特征按照预设系数加入到所述第一测试模型中,形成第二测试模型。
5.根据权利要求4所述的方法,其特征在于,所述获取所述第一测试模型的模型评价指标前,还包括:
根据所述样本数据对所述第一测试模型进行训练,以优化所述第一测试模型中的预设系数;
所述获取所述第二测试模型的模型评价指标前,还包括:
根据所述样本数据对所述第二测试模型进行训练,以优化所述第二测试模型中的预设系数。
6.根据权利要求3-5任一项所述的方法,其特征在于,
同一轮的特征组合过程中所述预设阈值相同;
随着各轮特征组合过程的继续,所述预设阈值逐步递减。
7.根据权利要求2-5任一项所述的方法,其特征在于,
在结束特征组合过程后,根据所述有效特征池中当前所有特征构建所述预测模型,并根据所述样本数据对所述预测模型进行训练。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,包括:
根据所述目标数据,获取所述预测模型中所述初始特征及所述有效特征对应的数值,将所述对应的数值输入至所述预测模型中,获取所述目标数据对应的预测目标参数。
9.一种数据分类装置,其特征在于,包括:
获取模块,用于从数据库中获取样本数据,根据样本数据获取初始特征,并确定预测目标参数;
特征组合模块,用于根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征;
建模模块,用于根据所述初始特征及所述有效特征,得到对所述预测目标参数进行预测的预测模型,并根据所述样本数据对所述预测模型进行训练;
分类模块,用于将待分类的目标数据输入训练后的预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
10.根据权利要求9所述的装置,其特征在于,所述特征组合模块在根据所述初始特征获取组合特征,并从所述组合特征中筛选出有效特征时,用于:
将所述初始特征加入有效特征池;
在每一轮的特征组合过程中,对所述有效特征池中的任意的至少两个特征按照预设组合方式进行组合,产生新的组合特征;并从所述新的组合特征中筛选出有效特征,加入所述有效特征池;
进行下一轮的特征组合过程,直至某一轮的特征组合过程产生的新的组合特征中无法筛选出有效特征时,结束特征组合过程。
11.根据权利要求10所述的装置,其特征在于,所述特征组合模块在从所述新的组合特征中筛选出有效特征,加入所述有效特征池时,用于:
根据所述有效特征池中当前所有特征构建第一测试模型,并获取所述第一测试模型的模型评价指标;
将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型,并获取所述第二测试模型的模型评价指标;
获取所述第二测试模型的模型评价指标相对于所述第一测试模型的模型评价指标增量;
若所述模型评价指标增量高于预设阈值,则确定该组合特征为有效特征,并加入所述有效特征池。
12.根据权利要求11所述的装置,其特征在于,所述特征组合模块在根据所述有效特征池中当前所有特征构建第一测试模型时,用于:
将所述有效特征池中当前所有特征按照预设系数构建第一测试模型;
所述特征组合模块在将所述新的组合特征中任一组合特征加入到所述第一测试模型中,形成第二测试模型时,用于:
将所述新的组合特征中任一组合特征按照预设系数加入到所述第一测试模型中,形成第二测试模型。
13.根据权利要求12所述的装置,其特征在于,所述特征组合模块在获取所述第一测试模型的模型评价指标前,还用于:
根据所述样本数据对所述第一测试模型进行训练,以优化所述第一测试模型中的预设系数;
所述特征组合模块在获取所述第二测试模型的模型评价指标前,还用于:
根据所述样本数据对所述第二测试模型进行训练,以优化所述第二测试模型中的预设系数。
14.根据权利要求11-13任一项所述的装置,其特征在于,
同一轮的特征组合过程中所述预设阈值相同;
随着各轮特征组合过程的继续,所述预设阈值逐步递减。
15.根据权利要求10-13任一项所述的装置,其特征在于,所述建模模块用于:
在结束特征组合过程后,根据所述有效特征池中当前所有特征构建所述预测模型,并根据所述样本数据对所述预测模型进行训练。
16.根据权利要求9-13任一项所述的装置,其特征在于,所述分类模块用于:
根据所述目标数据,获取所述预测模型中所述初始特征及所述有效特征对应的数值,将所述对应的数值输入至所述预测模型中,获取所述目标数据对应的预测目标参数。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
19.一种数据分类的方法,其特征在于,包括:
根据样本数据获取初始特征,根据所述初始特征获取有效组合特征;
根据所述初始特征及所述有效特征,得到对预测目标参数进行预测的预测模型;
将待分类的目标数据输入所述预测模型中,获取所述目标数据对应的预测目标参数,以根据预测目标参数对所述目标数据进行分类处理。
CN201910955702.8A 2019-10-09 2019-10-09 数据分类方法、装置、设备及存储介质 Pending CN110704509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910955702.8A CN110704509A (zh) 2019-10-09 2019-10-09 数据分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910955702.8A CN110704509A (zh) 2019-10-09 2019-10-09 数据分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110704509A true CN110704509A (zh) 2020-01-17

Family

ID=69200071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910955702.8A Pending CN110704509A (zh) 2019-10-09 2019-10-09 数据分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110704509A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291896A (zh) * 2020-02-03 2020-06-16 深圳前海微众银行股份有限公司 交互式随机森林子树筛选方法、装置、设备及可读介质
CN111768007A (zh) * 2020-06-28 2020-10-13 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN112036483A (zh) * 2020-08-31 2020-12-04 中国平安人寿保险股份有限公司 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
CN112035549A (zh) * 2020-08-31 2020-12-04 中国平安人寿保险股份有限公司 数据挖掘方法、装置、计算机设备及存储介质
CN112052914A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 分类模型预测方法及装置
CN112800591A (zh) * 2021-01-08 2021-05-14 广西玉柴机器股份有限公司 一种预测发动机性能参数修改量的方法及相关装置
CN113297289A (zh) * 2021-04-28 2021-08-24 上海淇玥信息技术有限公司 从数据库提取业务数据的方法、装置和电子设备
CN115880457A (zh) * 2022-12-09 2023-03-31 广东电网有限责任公司湛江供电局 一种输变电工程的三维模型构建方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291896A (zh) * 2020-02-03 2020-06-16 深圳前海微众银行股份有限公司 交互式随机森林子树筛选方法、装置、设备及可读介质
CN111768007A (zh) * 2020-06-28 2020-10-13 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN111768007B (zh) * 2020-06-28 2023-08-08 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN112036483A (zh) * 2020-08-31 2020-12-04 中国平安人寿保险股份有限公司 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
CN112035549A (zh) * 2020-08-31 2020-12-04 中国平安人寿保险股份有限公司 数据挖掘方法、装置、计算机设备及存储介质
CN112035549B (zh) * 2020-08-31 2023-12-08 中国平安人寿保险股份有限公司 数据挖掘方法、装置、计算机设备及存储介质
CN112036483B (zh) * 2020-08-31 2024-03-15 中国平安人寿保险股份有限公司 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
CN112052914A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 分类模型预测方法及装置
CN112052914B (zh) * 2020-09-29 2023-12-01 中国银行股份有限公司 分类模型预测方法及装置
CN112800591A (zh) * 2021-01-08 2021-05-14 广西玉柴机器股份有限公司 一种预测发动机性能参数修改量的方法及相关装置
CN113297289A (zh) * 2021-04-28 2021-08-24 上海淇玥信息技术有限公司 从数据库提取业务数据的方法、装置和电子设备
CN115880457A (zh) * 2022-12-09 2023-03-31 广东电网有限责任公司湛江供电局 一种输变电工程的三维模型构建方法及系统

Similar Documents

Publication Publication Date Title
CN110704509A (zh) 数据分类方法、装置、设备及存储介质
CN111667054B (zh) 生成神经网络模型的方法、装置、电子设备以及存储介质
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
CN111582453B (zh) 生成神经网络模型的方法和装置
KR102528748B1 (ko) 지식 그래프를 구축하는 방법, 장치, 기기 및 저장 매체
CN111639710A (zh) 图像识别模型训练方法、装置、设备以及存储介质
CN112001366B (zh) 模型训练方法、人脸识别方法、装置、设备和介质
CN111563593B (zh) 神经网络模型的训练方法和装置
CN111460292B (zh) 模型评估方法、装置、设备和介质
CN111667056A (zh) 用于搜索模型结构的方法和装置
CN111680517A (zh) 用于训练模型的方法、装置、设备以及存储介质
CN113780548B (zh) 用于训练模型的方法、装置、设备以及存储介质
CN112288483A (zh) 用于训练模型的方法和装置、用于生成信息的方法和装置
CN111652354B (zh) 用于训练超网络的方法、装置、设备以及存储介质
CN110555486B (zh) 模型结构的延时预测方法、装置以及电子设备
CN114417194A (zh) 推荐系统排序方法、参数预测模型训练方法及装置
CN111967491A (zh) 模型的离线量化方法、装置、电子设备以及存储介质
CN112580723B (zh) 多模型融合方法、装置、电子设备和存储介质
CN111563202B (zh) 资源数据处理方法、装置、电子设备和介质
CN111858927B (zh) 数据测试方法、装置、电子设备及存储介质
CN113204614A (zh) 模型训练方法、优化训练数据集的方法及其装置
CN112819497B (zh) 转化率预测方法、装置、设备和存储介质
CN112308127A (zh) 用于处理数据的方法、装置、设备以及存储介质
CN111680599A (zh) 人脸识别模型处理方法、装置、设备和存储介质
CN111177479A (zh) 获取关系网络图中节点的特征向量的方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication