CN108268460A - 一种基于大数据的自动选择最优模型的方法 - Google Patents

一种基于大数据的自动选择最优模型的方法 Download PDF

Info

Publication number
CN108268460A
CN108268460A CN201611254038.7A CN201611254038A CN108268460A CN 108268460 A CN108268460 A CN 108268460A CN 201611254038 A CN201611254038 A CN 201611254038A CN 108268460 A CN108268460 A CN 108268460A
Authority
CN
China
Prior art keywords
algorithm
data
data mining
model
parameter combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611254038.7A
Other languages
English (en)
Inventor
邹立斌
李青海
侯大勇
简宋全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201611254038.7A priority Critical patent/CN108268460A/zh
Publication of CN108268460A publication Critical patent/CN108268460A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于大数据的自动选择最优模型的方法,包括:步骤S1对挖掘目标进行分类;步骤S2利用信息增益对整个数据集进行快速特征选择;步骤S3建立训练集和验证集;步骤S4选择有效的数据挖掘算法及其参数组合;步骤S5利用贝叶斯优化方法选择各算法有效的参数组合;步骤S6选出最优的数据挖掘算法K;步骤S7利用交叉验证选择并确定数据挖掘算法K的参数取值组合得出最后的模型;步骤S8若模型得出的结果比较差,则重复步骤S2‑S7,重新选择最优模型直到模型结果满意为止;若比较满意,则输出该模型。本发明能节省之后自动建模所耗费的时间,提高了建模效率;而且能快速地从大量的算法中搜索出最优算法,利用交叉验证来选择最优算法里面的参数组合。

Description

一种基于大数据的自动选择最优模型的方法
技术领域
本发明涉及数据挖掘领域,特别是一种基于大数据的自动选择最优模型的方法。
背景技术
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。在“大数据”时代情况下,面对海量的数据,迫切需要将这些数据转换成有用的信息和知识,而获取到的信息和知识可以广泛应用在商务管理、市场分析等各行各业。数据挖掘包含大量不同的算法,从问题的属性来划分可分为分类、聚类和回归三类;从数据集的角度来划分可分为有监督、半监督和无监督三类。当数据量非常大的时候,能自动高效地选择合适的数据挖掘算法以及自动设置该算法涉及到的参数是非常困难的,因此将建模和选择模型过程设计成一个自动完成的过程,这对于提高数据挖掘的效率具有非常重要的意义。虽然现在也有一些自动选择最优模型的算法,但是耗时非常的长,因此很有必要对这些算法进行优化。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种基于大数据的自动选择最优模型的方法,其包括以下步骤:
步骤S1:对挖掘目标进行分类;
步骤S2:利用信息增益对整个数据集进行快速特征选择;
步骤S3:从所述数据集中抽取少量数据建立训练集和验证集;
步骤S4:初步选择有效的数据挖掘算法及其参数组合;
步骤S5:扩充所述训练集的样本,利用贝叶斯优化方法选择各算法有效的参数组合;
步骤S6:扩充所述训练集的样本到整个数据集,选出最优的数据挖掘算法K;
步骤S7:利用交叉验证选择并确定数据挖掘算法K的参数取值组合,得出最后的模型;
步骤S8:若模型得出的结果比较差,则步骤重复步骤S2-S7,重新选择最优模型直到模型结果满意为止;若模型得出的结果比较满意,则输出该模型,结束自动选择模型过程。
较佳的,所述步骤S1具体包括:对挖掘目标进行分类,确定该挖掘目标属于哪一个分类,列出可能用到数据挖掘算法。
较佳的,所述步骤S2具体包括:在进行数据挖掘过程之前,先利用信息增益对整个数据集进行快速地特征选择,把其中一些对之后数据挖掘过程没关联的特征剔除在外。
较佳的,所述步骤S4包括以下步骤:
步骤S41:根据给定的挖掘目标,对于每一个数据挖掘算法给出20对合理的参数取值组合,并分别对所述训练集建立模型,利用所述验证集计算每一个模型的误差率;
步骤S42:将每一个模型的误差率与提前设定好的误差率阈值ε做比较,若误差率比阈值ε高,则舍弃该参数组合;若误差率比阈值ε低,则保留该参数组合;若某一个数据挖掘算法的所有参数取值组合计算得到的误差率都比阈值ε高,则把该算法舍弃,即之后的数据挖掘自动建模过程不会用到该算法。
较佳的,所述步骤S5具体包括:扩充所述步骤S3中训练集的样本到原来的两倍,对步骤S4中保留下来的数据挖掘算法,利用贝叶斯优化方法选择各算法有效的参数组合,进而舍弃掉所述步骤S4中保留下来的不好的参数组合或数据挖掘算法。
较佳的,所述步骤S6具体包括:把训练集的样本扩充到整个数据集,利用所述步骤S5中保留下来的数据挖掘算法有效的参数组合训练模型,并用所述步骤S3中的验证集计算误差率εk来评估模型的优劣,从而选出最优的数据挖掘算法K;其中,所述整个数据集不包括所述步骤S3中的验证集。
与现有技术相比,本发明提供的一种基于大数据的自动选择最优模型的方法,利用了信息增益来选择特征,这也能大大节省之后自动建模所耗费的时间,提高了建模效率;而且本方法能快速地从大量的算法中搜索出最优算法,为了避免过拟合的情况发生,利用交叉验证来选择最优算法里面的参数组合。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明的一种基于大数据的自动选择最优模型的方法的流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,为本发明提供的一种基于大数据的自动选择最优模型的方法的流程图,该方法包括以下步骤:
步骤S1:对挖掘目标进行分类。
具体的,对挖掘目标进行分类,确定该挖掘目标属于哪一个分类,列出可能用到数据挖掘算法。
步骤S2:利用信息增益对整个数据集进行快速特征选择,并剔除对数据挖掘过程没关联的特征。
具体的,在进行数据挖掘过程之前,先利用信息增益对整个数据集进行快速地特征选择,把其中一些对之后数据挖掘过程没关联的特征剔除在外。
步骤S3:从所述数据集中抽取少量数据建立训练集和验证集。
步骤S4:初步选择有效的数据挖掘算法及其参数组合。
具体的包括以下步骤:
步骤S41:根据给定的挖掘目标,对于每一个数据挖掘算法给出20对合理的参数取值组合,并分别对所述训练集建立模型,利用所述验证集计算每一个模型的误差率。
步骤S42:将每一个模型的误差率与提前设定好的误差率阈值ε做比较,若误差率比阈值ε高,则舍弃该参数组合;若误差率比阈值ε低,则保留该参数组合;若某一个数据挖掘算法的所有参数取值组合计算得到的误差率都比阈值ε高,则把该算法舍弃,即之后的数据挖掘自动建模过程不会用到该算法。
步骤S5:扩充所述训练集的样本,利用贝叶斯优化方法选择各算法有效的参数组合。
具体的,扩充步骤S3中训练集的样本到原来的两倍,对步骤S4中保留下来的数据挖掘算法,利用贝叶斯优化方法选择各算法有效的参数组合,进而舍弃掉步骤S4中保留下来的不好的参数组合或数据挖掘算法。
步骤S6:扩充所述训练集的样本到整个数据集,选出最优的数据挖掘算法K。
具体的,把训练集的样本扩充到整个数据集(不包括S3中的验证集),利用步骤S5中保留下来的数据挖掘算法有效的参数组合训练模型,并用步骤S3中的验证集计算误差率εk来评估模型的优劣,从而选出最优的数据挖掘算法K。
步骤S7:利用交叉验证选择并确定数据挖掘算法K的参数取值组合,得出最后的模型。
步骤S8:若模型得出的结果比较差,则步骤重复步骤S2-S7,重新选择最优模型直到模型结果满意为止;若模型得出的结果比较满意,则输出该模型,结束自动选择模型过程。
本发明提供的一种基于大数据的自动选择最优模型的方法,利用了信息增益来选择特征,这也能大大节省之后自动建模所耗费的时间,提高了建模效率;而且本方法能快速地从大量的算法中搜索出最优算法,为了避免过拟合的情况发生,利用交叉验证来选择最优算法里面的参数组合。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (6)

1.一种基于大数据的自动选择最优模型的方法,其特征在于,其包括以下步骤:
步骤S1:对挖掘目标进行分类;
步骤S2:利用信息增益对整个数据集进行快速特征选择;
步骤S3:从所述数据集中抽取少量数据建立训练集和验证集;
步骤S4:初步选择有效的数据挖掘算法及其参数组合;
步骤S5:扩充所述训练集的样本,利用贝叶斯优化方法选择各算法有效的参数组合;
步骤S6:扩充所述训练集的样本到整个数据集,选出最优的数据挖掘算法K;
步骤S7:利用交叉验证选择并确定数据挖掘算法K的参数取值组合,得出最后的模型;
步骤S8:若模型得出的结果比较差,则步骤重复步骤S2-S7,重新选择最优模型直到模型结果满意为止;若模型得出的结果比较满意,则输出该模型,结束自动选择模型过程。
2.根据权利要求1所述的一种基于大数据的自动选择最优模型的方法,其特征在于,所述步骤S1具体包括:对挖掘目标进行分类,确定该挖掘目标属于哪一个分类,列出可能用到数据挖掘算法。
3.根据权利要求2所述的一种基于大数据的自动选择最优模型的方法,其特征在于,所述步骤S2具体包括:在进行数据挖掘过程之前,先利用信息增益对整个数据集进行快速地特征选择,把其中一些对之后数据挖掘过程没关联的特征剔除在外。
4.根据权利要求3所述的一种基于大数据的自动选择最优模型的方法,其特征在于,所述步骤S4包括以下步骤:
步骤S41:根据给定的挖掘目标,对于每一个数据挖掘算法给出20对合理的参数取值组合,并分别对所述训练集建立模型,利用所述验证集计算每一个模型的误差率;
步骤S42:将每一个模型的误差率与提前设定好的误差率阈值ε做比较,若误差率比阈值ε高,则舍弃该参数组合;若误差率比阈值ε低,则保留该参数组合;若某一个数据挖掘算法的所有参数取值组合计算得到的误差率都比阈值ε高,则把该算法舍弃,即之后的数据挖掘自动建模过程不会用到该算法。
5.根据权利要求4所述的一种基于大数据的自动选择最优模型的方法,其特征在于,所述步骤S5具体包括:扩充所述步骤S3中训练集的样本到原来的两倍,对步骤S4中保留下来的数据挖掘算法,利用贝叶斯优化方法选择各算法有效的参数组合,进而舍弃掉所述步骤S4中保留下来的不好的参数组合或数据挖掘算法。
6.根据权利要求5所述的一种基于大数据的自动选择最优模型的方法,其特征在于,所述步骤S6具体包括:把训练集的样本扩充到整个数据集,利用所述步骤S5中保留下来的数据挖掘算法有效的参数组合训练模型,并用所述步骤S3中的验证集计算误差率εk来评估模型的优劣,从而选出最优的数据挖掘算法K;其中,所述整个数据集不包括所述步骤S3中的验证集。
CN201611254038.7A 2016-12-30 2016-12-30 一种基于大数据的自动选择最优模型的方法 Pending CN108268460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254038.7A CN108268460A (zh) 2016-12-30 2016-12-30 一种基于大数据的自动选择最优模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254038.7A CN108268460A (zh) 2016-12-30 2016-12-30 一种基于大数据的自动选择最优模型的方法

Publications (1)

Publication Number Publication Date
CN108268460A true CN108268460A (zh) 2018-07-10

Family

ID=62754344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254038.7A Pending CN108268460A (zh) 2016-12-30 2016-12-30 一种基于大数据的自动选择最优模型的方法

Country Status (1)

Country Link
CN (1) CN108268460A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109405195A (zh) * 2018-10-31 2019-03-01 四川长虹电器股份有限公司 空调智能控制系统及方法
CN109460420A (zh) * 2018-09-28 2019-03-12 北京赛博贝斯数据科技有限责任公司 结构化数据的知识挖掘方法及系统
CN111090680A (zh) * 2019-11-08 2020-05-01 中国海洋石油集团有限公司 一种共享型测井数据挖掘方法
CN111324657A (zh) * 2020-02-12 2020-06-23 广州奥格智能科技有限公司 应急预案内容优化方法和计算机设备
WO2023084276A1 (es) * 2021-11-10 2023-05-19 Arkangel Ai S.A.S. Método implementado por computador para el entrenamiento automático de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas
CN116862643A (zh) * 2023-06-25 2023-10-10 福建润楼数字科技有限公司 面向多渠道资金整合型信贷业务的风控特征自动筛选方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460420A (zh) * 2018-09-28 2019-03-12 北京赛博贝斯数据科技有限责任公司 结构化数据的知识挖掘方法及系统
CN109405195A (zh) * 2018-10-31 2019-03-01 四川长虹电器股份有限公司 空调智能控制系统及方法
CN111090680A (zh) * 2019-11-08 2020-05-01 中国海洋石油集团有限公司 一种共享型测井数据挖掘方法
CN111324657A (zh) * 2020-02-12 2020-06-23 广州奥格智能科技有限公司 应急预案内容优化方法和计算机设备
CN111324657B (zh) * 2020-02-12 2023-09-08 奥格科技股份有限公司 应急预案内容优化方法和计算机设备
WO2023084276A1 (es) * 2021-11-10 2023-05-19 Arkangel Ai S.A.S. Método implementado por computador para el entrenamiento automático de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas
CN116862643A (zh) * 2023-06-25 2023-10-10 福建润楼数字科技有限公司 面向多渠道资金整合型信贷业务的风控特征自动筛选方法

Similar Documents

Publication Publication Date Title
CN108268460A (zh) 一种基于大数据的自动选择最优模型的方法
Kim et al. Genetic algorithm to improve SVM based network intrusion detection system
CN110796186A (zh) 基于改进的YOLOv3网络的干湿垃圾识别分类方法
CN106528826A (zh) 一种基于深度学习的多视图外观专利图像检索方法
CN108280289B (zh) 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN104680193B (zh) 基于快速相似性网络融合算法的在线目标分类方法与系统
CN111931953A (zh) 一种废旧手机多尺度特征深度森林识别方法
CN104317908B (zh) 基于三支决策和距离的离群点检测方法
CN111737477A (zh) 一种基于知识产权大数据的情报调查方法、系统和存储介质
Yu et al. Prototypical multiple instance learning for predicting lymph node metastasis of breast cancer from whole-slide pathological images
CN109933619A (zh) 一种半监督分类预测方法
CN113268370A (zh) 一种根因告警分析方法、系统、设备及存储介质
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN117349786A (zh) 基于数据均衡的证据融合变压器故障诊断方法
CN116633589A (zh) 社交网络中恶意账户检测方法、设备及存储介质
Pourhabibi et al. Feature selection on Persian fonts: a comparative analysis on GAA, GESA and GA
Wu et al. BiSPL: Bidirectional self-paced learning for recognition from web data
CN110457687A (zh) 一种基于复合神经网络建模的数据挖掘与标注方法
Habibpour et al. A new hybrid k-means and k-nearest-neighbor algorithms for text document clustering.
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
KR101085066B1 (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
CN111723208B (zh) 基于条件分类树的法律判决文书多分类方法、装置和终端
Ujjappanahalli et al. A novel optimization of hybrid feature selection algorithms for image classification technique using RBFNN and MFO

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710

RJ01 Rejection of invention patent application after publication