CN106383832A - 一种数据挖掘训练模型的生成方法 - Google Patents
一种数据挖掘训练模型的生成方法 Download PDFInfo
- Publication number
- CN106383832A CN106383832A CN201610731714.9A CN201610731714A CN106383832A CN 106383832 A CN106383832 A CN 106383832A CN 201610731714 A CN201610731714 A CN 201610731714A CN 106383832 A CN106383832 A CN 106383832A
- Authority
- CN
- China
- Prior art keywords
- stage
- training
- training pattern
- training model
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据挖掘训练模型的生成方法,由于主要包括:将数据挖掘训练过程中的数据阶段化;判断验证上阶段训练模型是否构建成功;构建当前阶段训练模型;验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型;克服现有技术挖掘训练模型的过程模型无法保存,可复用性差的缺陷,同时克服现有技术挖掘训练模型的各个阶段无法阶段性验证和可视化展现。
Description
技术领域
本发明涉及技术领域,具体地,涉及一种数据挖掘训练模型的生成方法。
背景技术
数据挖掘是应对企业数据业务激增的一项有效手段,可以通过应用数据挖掘技术解决企业的业务问题,为企业提供更大的商机。单纯从应用角度,一般企业会通过四种途径进入数据挖掘技术。这包括,购买成熟的模型,使用行业软件,聘请专家实施,定制直接的数据挖掘平台。挖掘过程中无法实时查看算法生成内容,也无法将训练模型的过程进行移植。
现有技术中,用户创建训练模型后,通过最终输出或挖掘模型验证才能够确定,训练模型过程是否准确,通过最终匹配才能确定整个建模过程是否合理。一旦中间步骤出现问题,没办法分阶段验证和反馈。复用性和移植性都很差,无法标准化。
发明内容
本发明的目的在于,针对上述问题,提出一种数据挖掘训练模型的生成方法,以增强训练模型的可移植性和复用性的优点。
为实现上述目的,本发明采用的技术方案是:一种数据挖掘训练模型的生成方法,主要包括:
步骤1:将数据挖掘训练过程中的执行流程阶段化;
步骤2:根据步骤1划分的执行流程,建立上阶段训练模型,判断验证上阶段训练模型是否构建成功,如果构建成功则进行步骤3,否则重新构建上阶段的训练模型,直到构建成功;
步骤3:构建当前阶段训练模型;
步骤4:验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型。
进一步地,步骤1中,所述阶段划具体为按照单个或任意多个执行流程进行划分,每个阶段是一个输入、输出、算法节点或可视化节点,且每个阶段包含一个或多个可视化输入。
进一步地,步骤2中验证上阶段训练模型或当前阶段训练模型是否构建成功,通过可视化图表、情形分析表、统计量或假设检验方式提供反馈结果,根据当前反馈结果,确定阶段训练模型是否满足要求。。
进一步地,所述上阶段训练模型或当前阶段训练模型均以PMML存储在磁盘或远程空间。
本发明各实施例的一种数据挖掘训练模型的生成方法,由于主要包括:将数据挖掘训练过程中的数据阶段化;判断验证上阶段训练模型是否构建成功;构建当前阶段训练模型;验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型;克服现有技术挖掘训练模型的过程模型无法保存,可复用性差的缺陷,同时克服现有技术挖掘训练模型的各个阶段无法阶段性验证和可视化展现。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明具体实施方式所述的数据挖掘训练模型的生成方法的现有技术训练模型生成原理图;
图2为本发明具体实施方式所述的数据挖掘训练模型的生成方法的训练模型生成原理图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
具体地,一种数据挖掘训练模型的生成方法,主要包括:
步骤1:根据步骤1划分的执行流程,建立上阶段训练模型;
步骤2:根据步骤1划分的执行流程,建立上阶段训练模型,判断验证上阶段训练模型是否构建成功,如果构建成功则进行步骤3,否则重新构建上阶段的训练模型,直到构建成功;
步骤3:构建当前阶段训练模型;
步骤4:验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型。
步骤1中,所述阶段划具体为按照单个或任意多个执行流程进行划分,每个阶段是一个输入、输出、算法节点或可视化节点,且每个阶段包含一个或多个可视化输入。
步骤2中验证上阶段训练模型或当前阶段训练模型是否构建成功,通过可视化图表、情形分析表、统计量或假设检验方式提供反馈结果,根据当前反馈结果,确定阶段训练模型是否满足要求。
所述上阶段训练模型或当前阶段训练模型均以PMML存储在磁盘或远程空间。
在图1中,用户创建训练模型后,通过最终输出或挖掘模型验证才能够确定,训练模型过程是否准确,通过最终匹配才能确定整个建模过程是否合理。一旦中间步骤出现问题,没办法分阶段验证和反馈。复用性和移植性都很差,无法标准化。
图2中,用户在创建训练模型的过程中,每个训练单元都会有一个阶段性的产出。比如,通过可视化图表、情形分析表、统计量、假设检验,提供用户反馈结果,用户根据当前结果,确定当前训练单元已经满足要求。由于训练单元可以单独保存成存储对象,可以同时使用多个已有的训练单元进行训练,通过训练结果查找最符合预期的训练单元。也可以根据输入参数进行替换,或者使用随机森林等方式获取结果。
可移植性主要包括训练单元可移植、训练构造的模型可移植。训练单元以流对象的方式存储在磁盘或者远程空间,可以为其他本软件共享使用。训练构造的模型主要以PMML文件形式进行存储,对于所有支持此标准的同类软件都可以进行复用,增强了可移植性。
至少可以达到以下有益效果:相比已有的训练模型生成系统更加灵活,发明分阶段进行验证,可以使用户进行数据挖掘建模时的反复度达到最小,通过为每个阶段设立阶段性指标,有利于将验证过程颗粒化,同时,针对证明已经有效的子过程,可以直接在其他建模过程中进行复用,克服现有技术挖掘训练模型的过程模型无法保存,可复用性差的缺陷,同时克服现有技术挖掘训练模型的各个阶段无法阶段性验证和可视化展现。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种数据挖掘训练模型的生成方法,其特征在于,包括以下步骤:
步骤1:将数据挖掘训练过程中的执行流程阶段化;
步骤2:根据步骤1划分的执行流程,建立上阶段训练模型,判断验证上阶段训练模型是否构建成功,如果构建成功则进行步骤3,否则重新构建上阶段的训练模型,直到构建成功;
步骤3:构建当前阶段训练模型;
步骤4:验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型。
2.骤1中,所述阶段划具体为按照单个或任意多个执行流程进行划分,每个阶段是一个输入、输出、算法节点或可视化节点,且每个阶段包含一个或多个可视化输入。
3.根据权利要求1所述的数据挖掘训练模型的生成方法,其特征在于,步骤2中验证上阶段训练模型或当前阶段训练模型是否构建成功,通过可视化图表、情形分析表、统计量或假设检验方式提供反馈结果,根据当前反馈结果,确定阶段训练模型是否满足要求。
4.根据权利要求3所述的数据挖掘训练模型的生成方法,其特征在于,所述上阶段训练模型或当前阶段训练模型均以PMML存储在磁盘或远程空间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610731714.9A CN106383832B (zh) | 2016-08-26 | 2016-08-26 | 一种数据挖掘训练模型的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610731714.9A CN106383832B (zh) | 2016-08-26 | 2016-08-26 | 一种数据挖掘训练模型的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106383832A true CN106383832A (zh) | 2017-02-08 |
CN106383832B CN106383832B (zh) | 2019-10-22 |
Family
ID=57917172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610731714.9A Expired - Fee Related CN106383832B (zh) | 2016-08-26 | 2016-08-26 | 一种数据挖掘训练模型的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106383832B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808004A (zh) * | 2017-11-15 | 2018-03-16 | 北京百度网讯科技有限公司 | 模型训练方法和系统、服务器、存储介质 |
CN109656529A (zh) * | 2018-10-31 | 2019-04-19 | 北京大学 | 一种针对客户端深度学习的在线定制化方法及系统 |
CN111820876A (zh) * | 2020-07-24 | 2020-10-27 | 天津大学 | 一种脑电空间滤波器的动态构建方法 |
CN112069244A (zh) * | 2020-08-28 | 2020-12-11 | 福建博思软件股份有限公司 | 一种基于可视化web页面数据挖掘的方法和存储设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100138712A1 (en) * | 2008-12-01 | 2010-06-03 | Changki Lee | Apparatus and method for verifying training data using machine learning |
CN102891916A (zh) * | 2011-07-18 | 2013-01-23 | 中兴通讯股份有限公司 | 一种预测用户操作的方法及移动终端 |
CN104573106A (zh) * | 2015-01-30 | 2015-04-29 | 浙江大学城市学院 | 一种基于案例推理技术的城市建设智能审批方法 |
CN104992177A (zh) * | 2015-06-12 | 2015-10-21 | 安徽大学 | 基于深层卷积神经网络的网络色情图像检测方法 |
CN105894039A (zh) * | 2016-04-25 | 2016-08-24 | 京东方科技集团股份有限公司 | 情绪识别模型建立方法、情绪识别方法及装置、智能设备 |
-
2016
- 2016-08-26 CN CN201610731714.9A patent/CN106383832B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100138712A1 (en) * | 2008-12-01 | 2010-06-03 | Changki Lee | Apparatus and method for verifying training data using machine learning |
CN102891916A (zh) * | 2011-07-18 | 2013-01-23 | 中兴通讯股份有限公司 | 一种预测用户操作的方法及移动终端 |
CN104573106A (zh) * | 2015-01-30 | 2015-04-29 | 浙江大学城市学院 | 一种基于案例推理技术的城市建设智能审批方法 |
CN104992177A (zh) * | 2015-06-12 | 2015-10-21 | 安徽大学 | 基于深层卷积神经网络的网络色情图像检测方法 |
CN105894039A (zh) * | 2016-04-25 | 2016-08-24 | 京东方科技集团股份有限公司 | 情绪识别模型建立方法、情绪识别方法及装置、智能设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808004A (zh) * | 2017-11-15 | 2018-03-16 | 北京百度网讯科技有限公司 | 模型训练方法和系统、服务器、存储介质 |
CN109656529A (zh) * | 2018-10-31 | 2019-04-19 | 北京大学 | 一种针对客户端深度学习的在线定制化方法及系统 |
CN109656529B (zh) * | 2018-10-31 | 2021-05-25 | 北京大学 | 一种针对客户端深度学习的在线定制化方法及系统 |
CN111820876A (zh) * | 2020-07-24 | 2020-10-27 | 天津大学 | 一种脑电空间滤波器的动态构建方法 |
CN111820876B (zh) * | 2020-07-24 | 2023-04-28 | 天津大学 | 一种脑电空间滤波器的动态构建方法 |
CN112069244A (zh) * | 2020-08-28 | 2020-12-11 | 福建博思软件股份有限公司 | 一种基于可视化web页面数据挖掘的方法和存储设备 |
CN112069244B (zh) * | 2020-08-28 | 2022-07-29 | 福建博思软件股份有限公司 | 一种基于可视化web页面数据挖掘的方法和存储设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106383832B (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106383832A (zh) | 一种数据挖掘训练模型的生成方法 | |
Kivits et al. | BIM: Enabling sustainability and asset management through knowledge management | |
CN113781856B (zh) | 一种联合作战武器装备运用训练仿真系统及其实现方法 | |
CN106528395B (zh) | 测试用例的生成方法及装置 | |
US9501596B2 (en) | Graphical design verification environment generator | |
Brumana et al. | HBIM challenge among the paradigm of complexity, tools and preservation: the Basilica di Collemaggio 8 years after the earthquake (L'Aquila) | |
CN106339850A (zh) | 一种合同审批流程的自动生成方法和装置 | |
JP2007012003A (ja) | フィーチャ指向ソフトウェア製品ラインの開発環境を提供するシステム | |
Ogwueleka et al. | The future of BIM technologies in Africa: prospects and challenges | |
KR101934645B1 (ko) | 가상의 건설 시뮬레이션을 이용한 4차원 건설공정 관리 시스템 및 그 방법 | |
CN109739507A (zh) | 一种代码持续集成方法和代码持续交付方法 | |
CN107943452A (zh) | 一种多用户协同开发的体系结构设计平台 | |
CN110990927A (zh) | 基于bim的全过程咨询方法 | |
CN109146081A (zh) | 一种用于机器学习平台中快速创建模型项目的方法及装置 | |
US20210117593A1 (en) | Configurable digital twin | |
CN106202507A (zh) | 电力抢修演练仿真系统和方法 | |
CN106203969A (zh) | 一种基于bim的炼钢锅炉管道的监检系统 | |
US20190005169A1 (en) | Dynamic Design of Complex System-of-Systems for Planning and Adaptation to Unplanned Scenarios | |
CN106371849A (zh) | 应用数据的处理方法及装置 | |
Derix | In-between architecture computation | |
CN103425922B (zh) | 基于csp获取远端加密指令的方法及系统 | |
CN106920057A (zh) | 物料管理方法及系统 | |
Barreto et al. | Modeling of video games using workflow nets and state graphs | |
KR102178243B1 (ko) | 3d cad 모델의 계층 구조 경량화 방법 및 장치 | |
CN110674546A (zh) | 一种建筑构件的cdm建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191022 Termination date: 20200826 |
|
CF01 | Termination of patent right due to non-payment of annual fee |