CN112949214B - 机器学习建模方法、可视化建模平台及电子设备 - Google Patents
机器学习建模方法、可视化建模平台及电子设备 Download PDFInfo
- Publication number
- CN112949214B CN112949214B CN202110450659.7A CN202110450659A CN112949214B CN 112949214 B CN112949214 B CN 112949214B CN 202110450659 A CN202110450659 A CN 202110450659A CN 112949214 B CN112949214 B CN 112949214B
- Authority
- CN
- China
- Prior art keywords
- model
- module
- set data
- verification
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种机器学习建模方法、可视化建模平台及电子设备,涉及机器学习技术领域,该可视化建模平台包括顺次连接的数据读取模块、特征处理模块、模型计算模块和模型评估模块,特征处理模块、模型计算模块和模型评估模块均具有训练模式和验证模式两种运行模式,三者在不同运行模式下能够分别对训练集数据和验证集数据进行相应的处理,通过运行模式的切换,可以将机器学习建模开发中对训练集数据和验证集数据的不同处理过程融合为一个简洁的可视化建模工作流程,从而提升了建模开发的工作效率。
Description
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种机器学习建模方法、可视化建模平台及电子设备。
背景技术
可视化建模平台实现了图形用户界面,便于用户以拖拉的方式创建、配置、提交和评估机器学习建模任务流程。与传统编程语言的机器学习库比较,可视化建模平台具有门槛低、效率高等优点,便于建模开发人员快速进行建模开发与测试。
建模开发中通过采集的训练集数据来训练模型,为了检验训练集数据训练出来的模型性能是否达标,需要在采集的验证集数据上进行模型性能的评估。因此整个建模开发流程可以分为训练和验证两个阶段,分别处理训练集数据和验证集数据。这两个阶段具有类似的处理步骤:特征处理——模型计算——模型评估,但在每个步骤里对训练集数据和验证集数据的具体操作是不同的,因此需要在可视化建模平台上配置不同的模块进行对应处理。
实际场景中的机器学习建模开发通常包含复杂的特征处理过程,同时验证阶段需要经过多期跨期验证集数据的检验,以确保模型的稳定性;由于训练集数据和验证集数据需要使用不同的模块进行处理,因此机器学习建模任务在可视化建模平台上构建的机器学习建模流程十分复杂,建模开发过程中出错的可能性较大,导致建模开发的工作效率较低。
发明内容
本发明的目的在于提供一种机器学习建模方法、可视化建模平台及电子设备,以提升建模开发的工作效率。
第一方面,本发明实施例提供了一种机器学习建模方法,应用于可视化建模平台,所述可视化建模平台包括顺次连接的数据读取模块、特征处理模块、模型计算模块和模型评估模块,所述特征处理模块、所述模型计算模块和所述模型评估模块均具有训练模式和验证模式两种运行模式;所述方法包括:
通过所述数据读取模块,获取目标建模任务的训练集数据和验证集数据;
通过所述训练模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,根据所述训练集数据进行所述目标建模任务的模型训练,得到训练后的目标模型;
将所述特征处理模块、所述模型计算模块和所述模型评估模块的运行模式均切换为所述验证模式;
通过所述验证模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,根据所述验证集数据进行所述目标模型的验证。
进一步地,通过所述训练模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,根据所述训练集数据进行所述目标建模任务的模型训练,得到训练后的目标模型的步骤,包括:
通过所述训练模式下的所述特征处理模块对所述训练集数据进行特征处理,得到所述训练集数据的入模特征,并保存所述特征处理模块当前的特征处理参数和当前的配置文件;
通过所述训练模式下的所述模型计算模块对所述训练集数据的入模特征进行模型计算,得到所述训练集数据的模型预测结果和模型参数,并将所述模型计算模块当前的模型参数保存为模型文件;
通过所述训练模式下的所述模型评估模块对所述训练集数据的模型预测结果进行训练集模型评估指标的计算,得到第一指标数据,并当所述第一指标数据满足第一预设指标要求时,将所述特征处理参数、所述配置文件和所述模型文件保存为训练后的目标模型。
进一步地,将所述特征处理模块、所述模型计算模块和所述模型评估模块的运行模式均切换为所述验证模式的步骤,包括:
通过将所述目标模型中的特征处理参数和配置文件均加载到所述训练模式下的所述特征处理模块中,以及将所述特征处理模块的处理对象变更为所述验证集数据,将所述特征处理模块的运行模式切换为所述验证模式;
通过将所述目标模型中的模型文件加载到所述训练模式下的所述模型计算模块中,将所述模型计算模块的运行模式切换为所述验证模式;
通过将与所述训练模式对应的第一预设指标要求替换为与所述验证模式对应的第二预设指标要求,将所述模型评估模块的运行模式切换为所述验证模式。
进一步地,通过所述验证模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,根据所述验证集数据进行所述目标模型的验证的步骤,包括:
通过加载有所述目标模型中的特征处理参数和配置文件的所述特征处理模块,对所述验证集数据进行特征处理,得到所述验证集数据的入模特征;
通过加载有所述目标模型中的模型文件的所述模型计算模块,对所述验证集数据的入模特征进行模型计算,得到所述验证集数据的模型预测结果;
通过存储有第二预设指标要求的所述模型评估模块,对所述验证集数据的模型预测结果进行验证集模型评估指标的计算,得到第二指标数据,并将所述第二指标数据与所述第二预设指标要求进行比较,得到验证结果。
第二方面,本发明实施例还提供了一种可视化建模平台,所述可视化建模平台包括顺次连接的数据读取模块、特征处理模块、模型计算模块和模型评估模块,所述特征处理模块、所述模型计算模块和所述模型评估模块均具有训练模式和验证模式两种运行模式;
所述数据读取模块,用于获取目标建模任务的训练集数据和验证集数据;
所述训练模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,用于根据所述训练集数据进行所述目标建模任务的模型训练,得到训练后的目标模型;
所述验证模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,用于根据所述验证集数据进行所述目标模型的验证。
进一步地,所述训练模式下的所述特征处理模块用于对所述训练集数据进行特征处理,得到所述训练集数据的入模特征,并保存所述特征处理模块当前的特征处理参数和当前的配置文件;
所述训练模式下的所述模型计算模块用于对所述训练集数据的入模特征进行模型计算,得到所述训练集数据的模型预测结果和模型参数,并将所述模型计算模块当前的模型参数保存为模型文件;
所述训练模式下的所述模型评估模块用于对所述训练集数据的模型预测结果进行训练集模型评估指标的计算,得到第一指标数据,并当所述第一指标数据满足第一预设指标要求时,将所述特征处理参数、所述配置文件和所述模型文件保存为训练后的目标模型。
进一步地,所述特征处理模块用于通过将所述目标模型中的特征处理参数和配置文件加载到所述训练模式下的所述特征处理模块中,以及将处理对象变更为所述验证集数据,将运行模式切换为所述验证模式;
所述模型计算模块用于通过将所述目标模型中的模型文件加载到所述训练模式下的所述模型计算模块中,将运行模式切换为所述验证模式;
所述模型评估模块用于通过将与所述训练模式对应的第一预设指标要求替换为与所述验证模式对应的第二预设指标要求,将运行模式切换为所述验证模式。
进一步地,所述验证模式下的所述特征处理模块,用于对所述验证集数据进行特征处理,得到所述验证集数据的入模特征;
所述验证模式下的所述模型计算模块,用于对所述验证集数据的入模特征进行模型计算,得到所述验证集数据的模型预测结果;
所述验证模式下的所述模型评估模块,用于对所述验证集数据的模型预测结果进行验证集模型评估指标的计算,得到第二指标数据,并将所述第二指标数据与第二预设指标要求进行比较,得到验证结果。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的机器学习建模方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的机器学习建模方法。
本发明实施例提供的机器学习建模方法、可视化建模平台及电子设备中,可视化建模平台包括顺次连接的数据读取模块、特征处理模块、模型计算模块和模型评估模块,特征处理模块、模型计算模块和模型评估模块均具有训练模式和验证模式两种运行模式;在进行机器学习建模时,先通过数据读取模块,获取目标建模任务的训练集数据和验证集数据;然后通过训练模式下的特征处理模块、模型计算模块和模型评估模块,根据训练集数据进行目标建模任务的模型训练,得到训练后的目标模型;将特征处理模块、模型计算模块和模型评估模块的运行模式均切换为验证模式;最后通过验证模式下的特征处理模块、模型计算模块和模型评估模块,根据验证集数据进行目标模型的验证。这样特征处理模块、模型计算模块和模型评估模块三者,在不同运行模式下能够分别对训练集数据和验证集数据进行相应的处理,通过运行模式的切换,可以将机器学习建模开发中对训练集数据和验证集数据的不同处理过程融合为一个简洁的可视化建模工作流程,从而提升了建模开发的工作效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有的一种机器学习建模流程的示意图;
图2为本发明实施例提供的一种可视化建模平台的结构示意图;
图3为本发明实施例提供的一种可视化建模平台的可视化机器学习建模流程的示意图;
图4为本发明实施例提供的一种机器学习建模方法的流程示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
图标:101-数据读取模块;102-第一特征处理模块;103-第一模型计算模块;104-第一模型评估模块;105-第二特征处理模块;106-第二模型计算模块;107-第二模型评估模块;201-数据读取模块;202-特征处理模块;203-模型计算模块;204-模型评估模块;500-电子设备;501-处理器;502-存储器;503-总线;504-通信接口。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在可视化建模平台上,一个机器学习建模流程被构造为一个DAG(DirectedAcyclic Graph,有向非循环图):DAG中每个模块节点表征一步操作,每一条边表征从一个模块节点到后一个模块节点的数据流。建模任务提交之后,每个模块节点将根据DAG自动执行。建模开发人员需要根据采集的训练集数据和验证集数据,利用可视化建模平台提供的各类模块组件,构建出DAG的实现细节,包括:流程中的各个模块节点、模块节点间连接以及模块节点的配置细节等,经调试、优化,确保DAG执行结束后生成满足性能指标要求的模型。
参见图1所示的一种机器学习建模流程的示意图,典型的机器学习建模流程涉及7大模块:数据读取模块101、第一特征处理模块102、第一模型计算模块103、第一模型评估模块104、第二特征处理模块105、第二模型计算模块106和第二模型评估模块107。该机器学习建模流程具体如下:(1)数据读取模块101读取训练集数据和验证集数据,验证集数据包括验证集1、验证集2和验证集3;(2)第一特征处理模块102、第一模型计算模块103和第一模型评估模块104依次对训练集数据进行相应处理,并保存特征处理参数、配置文件和模型文件;(3)加载有保存的特征处理参数和配置文件的第二特征处理模块105和加载有保存的模型文件的第二模型计算模块106依次对验证集数据进行相应处理,第二模型评估模块107对第二模型计算模块106输出的模型预测结果进行验证集模型评估指标的计算。
由于训练集数据和验证集数据需要使用不同的模块进行处理,因此机器学习建模任务在可视化建模平台上构建的机器学习建模流程十分复杂,建模开发过程中出错的可能性较大,导致建模开发的工作效率较低。基于此,本发明实施例提供的一种机器学习建模方法、可视化建模平台及电子设备,通过运行模式的切换,可以将建模开发中对训练集数据和验证集数据的不同处理,统一于一个简洁的机器学习建模流程中,从而可以提升建模开发的工作效率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种可视化建模平台进行详细介绍。
参见图2所示的一种可视化建模平台的结构示意图,该可视化建模平台上构造的DAG包括顺次连接的数据读取模块201、特征处理模块202、模型计算模块203和模型评估模块204,特征处理模块202、模型计算模块203和模型评估模块204均具有训练模式和验证模式两种运行模式。
具体地,数据读取模块201,用于获取目标建模任务的训练集数据和验证集数据;训练模式下的特征处理模块202、模型计算模块203和模型评估模块204,用于根据训练集数据进行目标建模任务的模型训练,得到训练后的目标模型;验证模式下的特征处理模块202、模型计算模块203和模型评估模块204,用于根据验证集数据进行目标模型的验证。
在一些可能的实施例中,参见图3所示的一种可视化建模平台的可视化机器学习建模流程的示意图,该可视化机器学习建模流程如下:
(1)数据读取模块201读取目标建模任务的训练集数据和验证集数据;验证集数据包括验证集1、验证集2和验证集3。
(2)训练模式下的特征处理模块202对训练集数据进行特征处理,得到训练集数据的入模特征,并保存特征处理模块202当前的特征处理参数和当前的配置文件。
可选地,复杂的特征处理模块202可以细分为类型转换、数据过滤、特征选取、数据标准化等一系列特征处理子模块。经过特征处理,训练集数据会转化为入模特征。
(3)训练模式下的模型计算模块203基于训练集数据的入模特征进行模型训练,并保存模型文件。
训练模式下的模型计算模块203对训练集数据的入模特征进行模型计算,得到训练集数据的模型预测结果和模型参数,并将模型计算模块203当前的模型参数保存为模型文件。
(4)训练模式下的模型评估模块204对训练集数据的模型预测结果进行训练集评估。
训练模式下的模型评估模块204对训练集数据的模型预测结果进行训练集模型评估指标的计算,得到第一指标数据,并当第一指标数据满足第一预设指标要求时,将特征处理参数、配置文件和模型文件保存为训练后的目标模型。当第一指标数据不满足第一预设指标要求时,进行反向调参,即调节特征处理参数、配置文件和模型参数,直至第一指标数据满足第一预设指标要求。
(5)将特征处理模块202、模型计算模块203和模型评估模块204的运行模式切换为验证模式,使特征处理模块202加载特征处理参数和配置文件,并对验证集数据进行处理,使模型计算模块203加载模型文件,以及使模型评估模块204采用第二预设指标要求进行验证集评估。
(6)验证模式下的特征处理模块202对验证集数据进行特征处理,得到验证集数据的入模特征。
上述特征处理模块202在训练模式下处理训练集数据,生成相应的特征处理参数和配置文件;在验证模式下进行该特征处理参数和配置文件的加载,并作用于验证集数据,从而保证特征处理过程的一致性。
(7)验证模式下的模型计算模块203对验证集数据的入模特征进行模型计算,得到验证集数据的模型预测结果。
(8)验证模式下的模型评估模块204对验证集数据的模型预测结果进行验证集评估。
验证模式下的模型评估模块204对验证集数据的模型预测结果进行验证集模型评估指标的计算,得到第二指标数据,并将第二指标数据与第二预设指标要求进行比较,得到验证结果。
需要说明的是,上述第一预设指标要求和第二预设指标要求均可以根据实际需求设置,二者可以相同,也可以不相同。
本发明实施例对可视化建模平台进行了运行模式设计,运行模式包括训练模式和验证模式,特征处理模块202、模型计算模块203和模型评估模块204等模块在这两种运行模式下具有不同的处理过程,训练模式下只对训练集数据做相应处理,验证模式下只对验证集数据做相应处理;其中,特征处理模块202在不同的运行模式下,可以分别对训练集数据和验证集数据进行相应的处理,通过运行模式的切换,可以确保训练集数据的特征处理操作能够正确的作用于验证集数据。通过运行模式的切换,可以将机器学习建模开发中对训练集数据和验证集数据的不同处理过程融合为一个简洁的可视化建模工作流程,从而提升了建模开发的工作效率。并且,灵活使用两种运行模式,可以方便地执行新增跨期验证等任务。
对应于上述的可视化建模平台,本发明实施例还提供了一种机器学习建模方法,参见图4所示的一种机器学习建模方法的流程示意图,该方法主要包括如下步骤:
步骤S402,通过数据读取模块,获取目标建模任务的训练集数据和验证集数据。
步骤S404,通过训练模式下的特征处理模块、模型计算模块和模型评估模块,根据训练集数据进行目标建模任务的模型训练,得到训练后的目标模型。
在一些可能的实施例中,上述步骤S404可以通过如下过程实现:
通过训练模式下的特征处理模块对训练集数据进行特征处理,得到训练集数据的入模特征,并保存特征处理模块当前的特征处理参数和当前的配置文件;
通过训练模式下的模型计算模块对训练集数据的入模特征进行模型计算,得到训练集数据的模型预测结果和模型参数,并将模型计算模块当前的模型参数保存为模型文件;
通过训练模式下的模型评估模块对训练集数据的模型预测结果进行训练集模型评估指标的计算,得到第一指标数据,并当第一指标数据满足第一预设指标要求时,将特征处理参数、配置文件和模型文件保存为训练后的目标模型。
步骤S406,将特征处理模块、模型计算模块和模型评估模块的运行模式均切换为验证模式。
在一些可能的实施例中,上述步骤S406可以通过如下过程实现:
通过将目标模型中的特征处理参数和配置文件均加载到训练模式下的特征处理模块中,以及将特征处理模块的处理对象变更为验证集数据,将特征处理模块的运行模式切换为验证模式;
通过将目标模型中的模型文件加载到训练模式下的模型计算模块中,将模型计算模块的运行模式切换为验证模式;
通过将与训练模式对应的第一预设指标要求替换为与验证模式对应的第二预设指标要求,将模型评估模块的运行模式切换为验证模式。
步骤S408,通过验证模式下的特征处理模块、模型计算模块和模型评估模块,根据验证集数据进行目标模型的验证。
在一些可能的实施例中,上述步骤S408可以通过如下过程实现:
通过加载有目标模型中的特征处理参数和配置文件的特征处理模块,对验证集数据进行特征处理,得到验证集数据的入模特征;
通过加载有目标模型中的模型文件的模型计算模块,对验证集数据的入模特征进行模型计算,得到验证集数据的模型预测结果;
通过存储有第二预设指标要求的模型评估模块,对验证集数据的模型预测结果进行验证集模型评估指标的计算,得到第二指标数据,并将第二指标数据与第二预设指标要求进行比较,得到验证结果。
从而完成了目标建模任务的建模开发与测试。
本实施例所提供的机器学习建模方法,其实现原理及产生的技术效果和前述可视化建模平台实施例相同,为简要描述,机器学习建模方法实施例部分未提及之处,可参考前述可视化建模平台实施例中相应内容。
参见图5,本发明实施例还提供一种电子设备500,包括:处理器501,存储器502,总线503和通信接口504,所述处理器501、通信接口504和存储器502通过总线503连接;处理器501用于执行存储器502中存储的可执行模块,例如计算机程序。
其中,存储器502可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory,简称NVM),例如至少一个磁盘存储器。通过至少一个通信接口504(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线503可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器502用于存储程序,所述处理器501在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器501中,或者由处理器501实现。
处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前面方法实施例中所述的机器学习建模方法。该计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
附图中的流程图和框图显示了根据本发明的多个实施例的可视化建模平台、机器学习建模方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种机器学习建模方法,其特征在于,应用于可视化建模平台;所述方法包括:
获取用户在所述可视化建模平台上构造的、与目标建模任务对应的有向非循环图DAG,所述DAG包括顺次连接的数据读取模块、特征处理模块、模型计算模块和模型评估模块,所述特征处理模块、所述模型计算模块和所述模型评估模块均具有训练模式和验证模式两种运行模式;
通过所述数据读取模块,获取所述目标建模任务的训练集数据和验证集数据;
通过所述训练模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,根据所述训练集数据进行所述目标建模任务的模型训练,得到训练后的目标模型;
将所述特征处理模块、所述模型计算模块和所述模型评估模块的运行模式均切换为所述验证模式;
通过所述验证模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,根据所述验证集数据进行所述目标模型的验证。
2.根据权利要求1所述的机器学习建模方法,其特征在于,通过所述训练模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,根据所述训练集数据进行所述目标建模任务的模型训练,得到训练后的目标模型的步骤,包括:
通过所述训练模式下的所述特征处理模块对所述训练集数据进行特征处理,得到所述训练集数据的入模特征,并保存所述特征处理模块当前的特征处理参数和当前的配置文件;
通过所述训练模式下的所述模型计算模块对所述训练集数据的入模特征进行模型计算,得到所述训练集数据的模型预测结果和模型参数,并将所述模型计算模块当前的模型参数保存为模型文件;
通过所述训练模式下的所述模型评估模块对所述训练集数据的模型预测结果进行训练集模型评估指标的计算,得到第一指标数据,并当所述第一指标数据满足第一预设指标要求时,将所述特征处理参数、所述配置文件和所述模型文件保存为训练后的目标模型。
3.根据权利要求1所述的机器学习建模方法,其特征在于,将所述特征处理模块、所述模型计算模块和所述模型评估模块的运行模式均切换为所述验证模式的步骤,包括:
通过将所述目标模型中的特征处理参数和配置文件均加载到所述训练模式下的所述特征处理模块中,以及将所述特征处理模块的处理对象变更为所述验证集数据,将所述特征处理模块的运行模式切换为所述验证模式;
通过将所述目标模型中的模型文件加载到所述训练模式下的所述模型计算模块中,将所述模型计算模块的运行模式切换为所述验证模式;
通过将与所述训练模式对应的第一预设指标要求替换为与所述验证模式对应的第二预设指标要求,将所述模型评估模块的运行模式切换为所述验证模式。
4.根据权利要求1所述的机器学习建模方法,其特征在于,通过所述验证模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,根据所述验证集数据进行所述目标模型的验证的步骤,包括:
通过加载有所述目标模型中的特征处理参数和配置文件的所述特征处理模块,对所述验证集数据进行特征处理,得到所述验证集数据的入模特征;
通过加载有所述目标模型中的模型文件的所述模型计算模块,对所述验证集数据的入模特征进行模型计算,得到所述验证集数据的模型预测结果;
通过存储有第二预设指标要求的所述模型评估模块,对所述验证集数据的模型预测结果进行验证集模型评估指标的计算,得到第二指标数据,并将所述第二指标数据与所述第二预设指标要求进行比较,得到验证结果。
5.一种可视化建模平台,其特征在于,所述可视化建模平台上存储有用户构造的、与目标建模任务对应的有向非循环图DAG,所述DAG包括顺次连接的数据读取模块、特征处理模块、模型计算模块和模型评估模块,所述特征处理模块、所述模型计算模块和所述模型评估模块均具有训练模式和验证模式两种运行模式;
所述数据读取模块,用于获取所述目标建模任务的训练集数据和验证集数据;
所述训练模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,用于根据所述训练集数据进行所述目标建模任务的模型训练,得到训练后的目标模型;
所述验证模式下的所述特征处理模块、所述模型计算模块和所述模型评估模块,用于根据所述验证集数据进行所述目标模型的验证。
6.根据权利要求5所述的可视化建模平台,其特征在于,所述训练模式下的所述特征处理模块用于对所述训练集数据进行特征处理,得到所述训练集数据的入模特征,并保存所述特征处理模块当前的特征处理参数和当前的配置文件;
所述训练模式下的所述模型计算模块用于对所述训练集数据的入模特征进行模型计算,得到所述训练集数据的模型预测结果和模型参数,并将所述模型计算模块当前的模型参数保存为模型文件;
所述训练模式下的所述模型评估模块用于对所述训练集数据的模型预测结果进行训练集模型评估指标的计算,得到第一指标数据,并当所述第一指标数据满足第一预设指标要求时,将所述特征处理参数、所述配置文件和所述模型文件保存为训练后的目标模型。
7.根据权利要求5所述的可视化建模平台,其特征在于,所述特征处理模块用于通过将所述目标模型中的特征处理参数和配置文件加载到所述训练模式下的所述特征处理模块中,以及将处理对象变更为所述验证集数据,将运行模式切换为所述验证模式;
所述模型计算模块用于通过将所述目标模型中的模型文件加载到所述训练模式下的所述模型计算模块中,将运行模式切换为所述验证模式;
所述模型评估模块用于通过将与所述训练模式对应的第一预设指标要求替换为与所述验证模式对应的第二预设指标要求,将运行模式切换为所述验证模式。
8.根据权利要求5所述的可视化建模平台,其特征在于,所述验证模式下的所述特征处理模块,用于对所述验证集数据进行特征处理,得到所述验证集数据的入模特征;
所述验证模式下的所述模型计算模块,用于对所述验证集数据的入模特征进行模型计算,得到所述验证集数据的模型预测结果;
所述验证模式下的所述模型评估模块,用于对所述验证集数据的模型预测结果进行验证集模型评估指标的计算,得到第二指标数据,并将所述第二指标数据与第二预设指标要求进行比较,得到验证结果。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110450659.7A CN112949214B (zh) | 2021-04-25 | 2021-04-25 | 机器学习建模方法、可视化建模平台及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110450659.7A CN112949214B (zh) | 2021-04-25 | 2021-04-25 | 机器学习建模方法、可视化建模平台及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949214A CN112949214A (zh) | 2021-06-11 |
CN112949214B true CN112949214B (zh) | 2023-07-21 |
Family
ID=76233469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110450659.7A Active CN112949214B (zh) | 2021-04-25 | 2021-04-25 | 机器学习建模方法、可视化建模平台及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949214B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
CN109657805A (zh) * | 2018-12-07 | 2019-04-19 | 泰康保险集团股份有限公司 | 超参数确定方法、装置、电子设备及计算机可读介质 |
CN110472743A (zh) * | 2019-07-31 | 2019-11-19 | 北京百度网讯科技有限公司 | 样本集中特征穿越的处理方法及装置、设备与可读介质 |
CN112434471A (zh) * | 2020-12-11 | 2021-03-02 | 恩亿科(北京)数据科技有限公司 | 提升模型泛化能力的方法、系统、电子设备及存储介质 |
CN112698827A (zh) * | 2020-12-25 | 2021-04-23 | 厦门渊亭信息科技有限公司 | 一种分布式可视化建模平台和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10262271B1 (en) * | 2018-02-14 | 2019-04-16 | DataTron Technologies Inc. | Systems and methods for modeling machine learning and data analytics |
-
2021
- 2021-04-25 CN CN202110450659.7A patent/CN112949214B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
CN109657805A (zh) * | 2018-12-07 | 2019-04-19 | 泰康保险集团股份有限公司 | 超参数确定方法、装置、电子设备及计算机可读介质 |
CN110472743A (zh) * | 2019-07-31 | 2019-11-19 | 北京百度网讯科技有限公司 | 样本集中特征穿越的处理方法及装置、设备与可读介质 |
CN112434471A (zh) * | 2020-12-11 | 2021-03-02 | 恩亿科(北京)数据科技有限公司 | 提升模型泛化能力的方法、系统、电子设备及存储介质 |
CN112698827A (zh) * | 2020-12-25 | 2021-04-23 | 厦门渊亭信息科技有限公司 | 一种分布式可视化建模平台和方法 |
Non-Patent Citations (1)
Title |
---|
基于Spark的流程化机器学习分析方法;赵玲玲;刘杰;王伟;;计算机系统应用(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112949214A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7270764B2 (ja) | 人工知能チップ検証 | |
CN111045933A (zh) | 一种回归策略更新方法、装置、存储介质及终端设备 | |
JP7318516B2 (ja) | コンピュータ可読プログラム検査のための入力の生成 | |
CN112149136A (zh) | loT设备固件漏洞的检测方法、系统及电子设备 | |
CN111324540B (zh) | 一种接口测试方法及装置 | |
CN115952757A (zh) | 一种寄存器测试方法和装置 | |
CN110334262B (zh) | 一种模型训练方法、装置及电子设备 | |
CN110347588B (zh) | 软件验证方法、装置、计算机设备和存储介质 | |
JP2015219907A (ja) | ソフトウェアプログラムの検証におけるパス実行減少 | |
CN110990295A (zh) | 测试用例的验证方法、装置及电子设备 | |
CN112949214B (zh) | 机器学习建模方法、可视化建模平台及电子设备 | |
CN114201397A (zh) | 一种接口测试建模方法、装置、电子设备和存储介质 | |
CN112731117A (zh) | 芯片的自动验证方法和系统,及存储介质 | |
CN116107625A (zh) | 流程设计方法、装置、设备、存储介质及程序产品 | |
CN115687108A (zh) | 基于uvm与fpv相结合的验证方法、平台、终端及存储介质 | |
CN115062313A (zh) | 智能合约漏洞检测方法、装置、设备和存储介质 | |
CN111352825B (zh) | 数据接口的测试方法、装置及服务器 | |
US10769333B1 (en) | System, method, and computer program product for debugging one or more observable failures in a formal verification | |
CN112988566A (zh) | 测试覆盖率提高方法、装置、计算机设备及存储介质 | |
WO2019142266A1 (ja) | テストケース生成装置、テストケース生成方法およびテストケース生成プログラム | |
CN111221737B (zh) | 一种覆盖率确定方法、装置及存储介质 | |
CN108829592B (zh) | 快速访问寄存器和表项的验证方法、装置和验证设备 | |
CN112329124A (zh) | Cae模型查错方法、装置、计算机设备和存储介质 | |
CN112463607B (zh) | 一种判定语句取值的确认方法、装置及存储介质 | |
CN115757123B (zh) | 一种测试用例生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |