CN109800887B - 预测流程模型的生成方法、装置、存储介质和电子设备 - Google Patents
预测流程模型的生成方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN109800887B CN109800887B CN201811625614.3A CN201811625614A CN109800887B CN 109800887 B CN109800887 B CN 109800887B CN 201811625614 A CN201811625614 A CN 201811625614A CN 109800887 B CN109800887 B CN 109800887B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- processing
- training
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本公开涉及一种预测流程模型的生成方法、装置、存储介质和电子设备,该方法包括:对原始训练数据进行数据转化,以生成多个转化特征数据,数据转化方式包括针对于无规律数据的处理模型和针对于有规律数据的处理规则;通过特征评估算法对全量特征数据进行评估,以确定有效特征数据;通过有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取该多个算法模型组合出的机器学习模型;对该机器学习模型和该处理规则进行拼装,以生成预测流程模型。能够在对训练数据进行探索和处理的过程中记录规律性数据对应的处理规则,并对所有特征数据进行筛选,生成兼具处理规则和机器学习模型的预测流程,在提高预测精度的同时拓宽预测模型的适用范围。
Description
技术领域
本公开涉及机器学习领域,具体地,涉及一种预测流程模型的生成方法、装置、存储介质和电子设备。
背景技术
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析以及算法复杂度理论等多个领域。开发机器学习模型需要一个耗时的并由专家驱动的工作流程,这个流程包括数据准备、特征选择、模型或参数选择、训练以及调优等,因此,机器学习的使用门槛到目前为止依然很高。通过自动化机器学习可以降低机器学习的门槛,自动化机器学习使用许多不同的统计和深度学习技术,旨在使复杂的机器学习模型开发工程实现自动化。相关技术中,在对机器学习模型进行自动化建模时,通常需要以现有训练数据中的所有特征为依据从模型库中选取适当的模型,进而对选取的模型进行训练,再将训练好的模型投入使用。这种建模方式只是对训练数据的整体进行一个模糊的评价,进而选择适当的模型组合生成对应的机器学习模型,欠缺对训练数据中不同类型的特征数据的探索和筛选。这会导致训练出的机器学习模型不能够适用于对规律性数据的描述性分析任务,并且对于预测性的数据分析任务的预测精度也较低。
发明内容
为克服相关技术中存在的问题,本公开的目的是提供一种预测流程模型的生成方法、装置、存储介质和电子设备。
为了实现上述目的,根据本公开实施例的第一方面,提供一种预测流程模型的生成方法,所述方法包括:
对原始训练数据进行数据转化处理,以生成用于描述所述原始训练数据的多个转化特征数据,所述数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;
通过预设的特征评估算法对全量特征数据进行评估,以确定所述全量特征数据中的有效特征数据,所述全量特征数据包括所述原始训练数据和所述多个转化特征数据;
通过所述有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取所述多个算法模型组合出的第一机器学习模型;
对所述第一机器学习模型以及模型训练脚本中记录的所述处理规则进行拼装,以生成预测流程模型。
可选的,所述模型训练脚本还用于记录所述第一机器学习模型的训练步骤,在所述通过所述第一机器学习模型以及模型训练脚本中记录的所述处理规则,生成预测流程模型之后,所述方法还包括:
每隔预设时间间隔,针对于所述预设时间间隔内更新的训练数据和所述原始训练数据重新执行所述训练步骤,以训练出第二机器学习模型,所述训练步骤至少包括:转化特征数据生成步骤、特征数据评估步骤以及算法模型组合步骤;
通过所述第二机器学习模型替换所述第一机器学习模型,以对所述预测流程模型进行更新。
可选的,所述通过数据转化方式对原始训练数据进行处理,以生成用于描述所述原始训练数据的多个转化特征数据,包括:
根据所述原始训练数据中每组特征数据的数据特性确定所述每组特征数据对应的处理模型或处理规则,以获取多种处理模型和多种处理规则;
通过所述每组特征数据对应的处理模型或处理规则对所述每组特征数据进行数据转化处理,以生成所述多个转化特征数据;
通过所述模型训练脚本记录所述多种处理模型和所述多种处理规则。
可选的,所述特征评估算法为根据所述预测流程模型对应的业务功能预先设定的特征评估算法,所述通过预设的特征评估算法对全量特征数据进行评估,以确定所述全量特征数据中的有效特征数据,包括:
将所述多个转化特征数据添加至所述原始训练数据,以获取所述全量特征数据;
通过所述特征评估算法对所述全量特征数据中不符合所述业务功能的无效特征数据进行识别;
在所述全量特征数据中删除所述无效特征数据,以获取所述有效特征数据。
可选的,所述通过所述有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取所述多个算法模型组合出的第一机器学习模型,包括:
从所述模型库中提取对所述有效特征数据对应的每个预测单元进行预测所需的算法模型,以获取所述多个算法模型,所述每个预测单元对应于所述有效特征数据中的一组或多组特征数据;
通过所述有效特征数据对所述多个算法模型组合出的机器学习模型进行训练,以获取所述第一机器学习模型。
根据本公开实施例的第二方面,提供一种预测流程模型的生成装置,所述装置包括:
特征处理模块,用于对原始训练数据进行数据转化处理,以生成用于描述所述原始训练数据的多个转化特征数据,所述数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;
特征评估模块,用于通过预设的特征评估算法对全量特征数据进行评估,以确定所述全量特征数据中的有效特征数据,所述全量特征数据包括所述原始训练数据和所述转化特征数据;
模型训练模块,用于通过所述有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取所述多个算法模型组合出的第一机器学习模型;
模型生成模块,用于对所述第一机器学习模型以及模型训练脚本中记录的所述处理规则进行拼装,以生成预测流程模型。
可选的,所述模型训练脚本还用于记录所述第一机器学习模型的训练步骤,所述装置还包括:
模型重训练模块,用于每隔预设时间间隔,针对于所述预设时间间隔内更新的训练数据和所述原始训练数据重新执行所述训练步骤,以训练出第二机器学习模型,所述训练步骤至少包括:转化特征数据生成步骤、特征数据评估步骤以及算法模型组合步骤;
模型更新模块,用于通过所述第二机器学习模型替换所述第一机器学习模型,以对所述预测流程模型进行更新。
可选的,所述特征处理模块,包括:
转化方式获取子模块,用于根据所述原始训练数据中每组特征数据的数据特性确定所述每组特征数据对应的处理模型或处理规则,以获取多种处理模型和多种处理规则;
特征处理子模块,用于通过所述每组特征数据对应的处理模型或处理规则对所述每组特征数据进行数据转化处理,以生成所述多个转化特征数据;
转化方式记录子模块,用于通过所述模型训练脚本记录所述多种处理模型和所述多种处理规则。
可选的,所述特征评估算法为根据所述预测流程模型对应的业务功能预先设定的特征评估算法,所述特征评估模块,包括:
特征添加子模块,用于将所述多个转化特征数据添加至所述原始训练数据,以获取所述全量特征数据;
特征识别子模块,用于通过所述特征评估算法对所述全量特征数据中不符合所述业务功能的无效特征数据进行识别;
特征删除子模块,用于在所述全量特征数据中删除所述无效特征数据,以获取所述有效特征数据。
可选的,所述模型训练模块,包括:
模型提取子模块,用于从所述模型库中提取对所述有效特征数据对应的每个预测单元进行预测所需的算法模型,以获取所述多个算法模型,所述每个预测单元对应一组或多组特征数据;
模型训练子模块,用于通过所述有效特征数据对所述多个算法模型组合出的机器学习模型进行训练,以获取所述第一机器学习模型。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本公开实施例第一方面提供的预测流程模型的生成方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开实施例第一方面提供的预测流程模型的生成方法的步骤。
通过上述技术方案,本公开能够对原始训练数据进行数据转化处理,以生成用于描述该原始训练数据的多个转化特征数据,该数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;通过预设的特征评估算法对全量特征数据进行评估,以确定该全量特征数据中的有效特征数据,该全量特征数据包括该原始训练数据和该转化特征数据;通过该有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取该多个算法模型组合出的第一机器学习模型;对该第一机器学习模型以及模型训练脚本中记录的该处理规则进行拼装,以生成预测流程模型。能够在对训练数据进行探索和处理的过程中记录规律性数据对应的处理规则,并对所有特征数据进行筛选,生成兼具处理规则和机器学习模型的预测流程,在提高预测精度的同时拓宽预测模型的适用范围。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种预测流程模型的生成方法的流程图;
图2是根据图1所示实施例示出的另一种预测流程模型的生成方法的流程图;
图3是根据图2所示实施例示出的一种特征数据生成方法的流程图;
图4是根据图2所示实施例示出的一种特征数据评估方法的流程图;
图5是根据图2所示实施例示出的一种模型生成方法的流程图;
图6是根据一示例性实施例示出的一种预测流程模型的生成装置的框图;
图7是根据图6所示实施例示出的另一种预测流程模型的生成装置的框图;
图8是根据图7所示实施例示出的一种特征处理模块的框图;
图9是根据图7所示实施例示出的一种特征评估模块的框图;
图10是根据图7所示实施例示出的一种模型训练模块的框图;
图11是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种预测流程模型的生成方法的流程图,如图1所示,该方法包括:
步骤101,对原始训练数据进行数据转化处理,以生成用于描述该原始训练数据的多个转化特征数据。
其中,该数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则。
示例地,上述的无规律特征数据的处理模型可以为,例如,计算一组特征数据的平均值时(可称为一个处理事件)所需的处理模型。可以理解的是,在该处理事件中,可能到来的新数据与原有数据之间并无规律性的关系,并且,在新数据到来后,需要将新数据和原有数据合并在一起对平均值进行重新计算,此时整体的平均值就会出现变化,这些需要计算平均值的数据即为上述的无规律特征数据,对平均值的计算方法即为上述的处理模型。该平均值可以看作对一组特征数据进行探索归纳之后生成的新的特征数据,或者这一组特征数据对应的一个预测事件对应的预测结果。有规律特征数据(或称规律性特征数据)的处理规则可以为,例如,确定某一天的日期(也可称为一个处理事件)所需的处理规则。其中,在该处理事件中,新数据的到来不会影响对某一天的日期的判断。即,只要对整体特征数据(即一整年的日历)有一个规律性的认知,就可以对这一天的日期进行判断,而无需根据新数据重新进行计算和分析。
示例地,数据转化处理的处理方式分为两大类,即,处理模型和处理规则。在步骤101中,系统可以针对于原始训练数据中每组特征数据本身的数据特性为其选择适当的处理方式,进而通过该处理方式生成相应的新的特征数据或者对原始训练数据中的某一列特征数据进行修正。也就是说,该转化特征数据可以为通过该处理方式对一组或多组特征数据进行处理所生成相应的新的特征数据,或者原始训练数据中的某一列特征数据进行修正后得到的修正后的特征数据。此后,需要通过模型训练脚本对本次特征处理步骤所采用的所有处理方式进行记录,并标记出其中哪些属于处理模型,哪些属于处理规则。
步骤102,通过预设的特征评估算法对全量特征数据进行评估,以确定该全量特征数据中的有效特征数据。
其中,该全量特征数据包括该原始训练数据和上述多个转化特征数据。
示例地,过多的特征数据会增加后续建模过程中的计算复杂度,并且与业务功能无关的特征数据还会影响生成的机器学习模型的准确性,因此,需要在建模之前对特征数据进行筛选。例如,确定特征数据“用户姓名”在预测用户活跃度的机器学习模型中并无太大作用,因此可以认定该特征数据“用户姓名”为与业务功能无关的特征数据,进而在该步骤102中将“用户姓名”这一列特征数据删除掉,以减少训练数据的维度,避免不必要的计算复杂度。
步骤103,通过该有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取上述多个算法模型组合出的第一机器学习模型。
示例地,根据该有效特征数据,可以从模型库中选择出适当的多个算法模型,并进一步地,对每个算法模型的超参进行定义。之后再将这些算法模型组合起来进行训练,进而得到训练好的机器学习模型。需要说明的是,该步骤103为系统自动执行的,开发人员只需根据业务功能预先将自动化机器学习系统与相应类型并且具备多种超参的多个算法模型的模型库相连接。
步骤104,对该第一机器学习模型以及模型训练脚本中记录的该处理规则进行拼装,以生成预测流程模型。
示例地,该预测流程模型(ModelFlow)实际为对新数据的处理流程,该处理流程为从导入新数据,到通过处理规则对新数据中的一部分规律性特征数据进行处理,再到通过机器学习模型对结果进行预测,直至导出预测结果的过程。实际上,在步骤104中只需将新数据导入接口、步骤103中生成第一机器学习模型、模型训练脚本中记录的处理规则(可能包含多个)以及结果导出接口依次拼装在一起,即可获取到该预测流程模型。并且,根据业务功能的不同,该预测流程模型可以为批处理预测流程模型和流处理预测流程模型。
综上所述,本公开能够对原始训练数据进行数据转化处理,以生成用于描述该原始训练数据的多个转化特征数据,该数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;通过预设的特征评估算法对全量特征数据进行评估,以确定该全量特征数据中的有效特征数据,该全量特征数据包括该原始训练数据和该转化特征数据;通过该有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取该多个算法模型组合出的第一机器学习模型;对该第一机器学习模型以及模型训练脚本中记录的该处理规则进行拼装,以生成预测流程模型。能够在对训练数据进行探索和处理的过程中记录规律性数据对应的处理规则,并对所有特征数据进行筛选,生成兼具处理规则和机器学习模型的预测流程,在提高预测精度的同时拓宽预测模型的适用范围。
图2是根据图1所示实施例示出的另一种预测流程模型的生成方法的流程图,如图2所示,该模型训练脚本还用于记录该第一机器学习模型的训练步骤,在步骤104之后,该方法还可以包括:
步骤105,每隔预设时间间隔,针对于该预设时间间隔内更新的训练数据和该原始训练数据重新执行该训练步骤,以训练出第二机器学习模型。
其中,该训练步骤至少包括:转化特征数据生成步骤、特征数据评估步骤以及算法模型组合步骤。可以理解的是,该训练步骤实际包括上述的步骤101、步骤102和步骤103。
示例地,可以通过该模型训练脚本记录对机器学习模型的定时更新策略,该定时更新策略分为两部分,一部分为模型更新开始的时间(即该预设时间间隔,该预设时间间隔可以根据训练数据的更新速度进行设定),另一部分为上述的训练步骤。开发人员可以根据原始训练数据的更新速度对该预设时间间隔进行设定,每当到达模型更新的时间点时,可以重新执行该模型训练脚本记录的训练步骤,以获取一个针对于这段时间内更新的训练数据和该原始训练数据的新的机器学习模型(第二机器学习模型)。
步骤106,通过该第二机器学习模型替换该第一机器学习模型,以对该预测流程模型进行更新。
图3是根据图2所示实施例示出的一种特征数据生成方法的流程图,如图3所示,上述步骤101可以包括:
步骤1011,根据该原始训练数据中每组特征数据的数据特性确定该每组特征数据对应的处理模型或处理规则,以获取多种处理模型和多种处理规则。
示例地,上述的多种处理规则对应的处理方式可以包括:计算每个连续型特征出现的次数作为转化特征数据;计算每个离散型特征出现的次数作为转化特征数据;以及,记录连续型特征之间的加、减、乘、除操作作为转化特征数据。
另外,上述的多种处理模型对应的处理方式可以包括:将已选定特征数据列的奇异值分解的首个值作为转化特征数据;计算离散特征对应的目标列的平均值作为转化特征数据;将离散特征对应的目标列出现最多的值作为转化特征数据;计算连续型特征所在的bin(二进制文件)对应的目标列的平均值作为转化特征数据;计算数值特征所在的bin对应的目标列出现最多的值作为转化特征数据;根据已选特征进行聚类,将所在类的平均目标值作为转化特征数据;根据已选特征进行聚类,计算所在类与其他类别距离作为转化特征数据;对离散型特征进行二分类,作为转化特征数据;以及,对连续型特征进行bin划分,然后按照二分类生成转化特征数据。需要说明的是,上述的多种处理规则和多种处理模型对应的处理方式可以包括多种现有的数据处理或转换方式,此处仅以上述的处理方式为例进行说明。
步骤1012,通过该每组特征数据对应的处理模型或处理规则对该每组特征数据进行数据转化处理,以生成上述多个转化特征数据。
示例地,在该步骤1012中,可以将原始训练数据中的一组或多组特征数据输入其对应的处理模型或处理规则,再获取这些处理模型或处理规则输出的特征数据,作为上述多个转化特征数据。
步骤1013,通过该模型训练脚本记录上述多种处理模型和上述多种处理规则。
图4是根据图2所示实施例示出的一种特征数据评估方法的流程图,如图4所示,上述步骤102可以包括:
步骤1021,将上述多个转化特征数据添加至该原始训练数据,以获取该全量特征数据。
步骤1022,通过该特征评估算法对该全量特征数据中不符合该业务功能的无效特征数据进行识别。
示例地,该特征评估算法为根据该预测流程模型对应的业务功能预先设定的特征评估算法,该特征评估算法可以包括文字识别算法以及连续型数字识别算法等现有的数据识别算法。例如,在预测用户活跃度的机器学习模型中可以通过预设的文字识别算法对具备姓氏文字的特征数据“用户姓名”,以及通过预设的连续型数字识别算法对具备连续数字的特征数据“用户ID”进行识别。
步骤1023,从该全量特征数据中删除该无效特征数据,以获取该有效特征数据。
图5是根据图2所示实施例示出的一种模型生成方法的流程图,如图5所示,上述步骤103可以包括:
步骤1031,从该模型库中提取对该有效特征数据对应的每个预测单元进行预测所需的算法模型,以获取上述多个算法模型。
其中,上述每个预测单元对应于该有效特征数据中的一组或多组特征数据。该有效特征数据对应的整体预测事件可以由多个小的预测件事组成,该预测单元即为一个小的预测事件。
示例地,不同的算法模型以模型的算法结构和其使用的超参为依据进行区分。针对于每个预测单元,可以获取适用于该预测单元的算法模型和该算法模型的特定超参,即,上述的多个算法模型为多个具备特定超参的算法模型。
步骤1032,通过该有效特征数据对上述多个算法模型组合出的机器学习模型进行训练,以获取该第一机器学习模型。
综上所述,本公开能够对原始训练数据进行数据转化处理,以生成用于描述该原始训练数据的多个转化特征数据,该数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;通过预设的特征评估算法对全量特征数据进行评估,以确定该全量特征数据中的有效特征数据,该全量特征数据包括该原始训练数据和该转化特征数据;通过该有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取该多个算法模型组合出的第一机器学习模型;对该第一机器学习模型以及模型训练脚本中记录的该处理规则进行拼装,以生成预测流程模型。能够在对训练数据进行探索和处理的过程中记录规律性数据对应的处理规则,并对所有特征数据进行筛选,生成兼具处理规则和机器学习模型的预测流程,并且在获取到新的训练数据时对预测模型中的机器学习模型进行自动更新,在提高预测精度的同时拓宽预测模型的适用范围。
图6是根据一示例性实施例示出的一种预测流程模型的生成装置的框图,如图6所示,该装置600包括:
特征处理模块610,用于对原始训练数据进行数据转化处理,以生成用于描述该原始训练数据的多个转化特征数据,该数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;
特征评估模块620,用于通过预设的特征评估算法对全量特征数据进行评估,以确定该全量特征数据中的有效特征数据,该全量特征数据包括该原始训练数据和该转化特征数据;
模型训练模块630,用于通过该有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取上述多个算法模型组合出的第一机器学习模型;
模型生成模块640,用于对该第一机器学习模型以及模型训练脚本中记录的该处理规则进行拼装,以生成预测流程模型。
图7是根据图6所示实施例示出的另一种预测流程模型的生成装置的框图,如图7所示,该模型训练脚本还用于记录该第一机器学习模型的训练步骤,该装置600还包括:
模型重训练模块640,用于每隔预设时间间隔,针对于该预设时间间隔内更新的训练数据和该原始训练数据重新执行该训练步骤,以训练出第二机器学习模型,该训练步骤至少包括:转化特征数据生成步骤、特征数据评估步骤以及算法模型组合步骤;
模型更新模块650,用于通过该第二机器学习模型替换该第一机器学习模型,以对该预测流程模型进行更新。
图8是根据图7所示实施例示出的一种特征处理模块的框图,如图8所示,该特征处理模块610,包括:
转化方式获取子模块611,用于根据该原始训练数据中每组特征数据的数据特性确定该每组特征数据对应的处理模型或处理规则,以获取多种处理模型和多种处理规则;
特征处理子模块612,用于通过该每组特征数据对应的处理模型或处理规则对该每组特征数据进行数据转化处理,以生成上述多个转化特征数据;
转化方式记录子模块613,用于通过该模型训练脚本记录上述多种处理模型和上述多种处理规则。
图9是根据图7所示实施例示出的一种特征评估模块的框图,如图9所示,该特征评估算法为根据该预测流程模型对应的业务功能预先设定的特征评估算法,该特征评估模块620,包括:
特征添加子模块621,用于将上述多个转化特征数据添加至该原始训练数据,以获取该全量特征数据;
特征识别子模块622,用于通过该特征评估算法对该全量特征数据中不符合该业务功能的无效特征数据进行识别;
特征删除子模块623,用于在该全量特征数据中删除该无效特征数据,以获取该有效特征数据。
图10是根据图7所示实施例示出的一种特征训练模块的框图,如图10所示,该模型训练模块630,包括:
模型提取子模块631,用于从该模型库中提取对该有效特征数据对应的每个预测单元进行预测所需的算法模型,以获取上述多个算法模型,上述每个预测单元对应一组或多组特征数据;
模型训练子模块632,用于通过该有效特征数据对上述多个算法模型组合出的机器学习模型进行训练,以获取该第一机器学习模型。
综上所述,本公开能够对原始训练数据进行数据转化处理,以生成用于描述该原始训练数据的多个转化特征数据,该数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;通过预设的特征评估算法对全量特征数据进行评估,以确定该全量特征数据中的有效特征数据,该全量特征数据包括该原始训练数据和该转化特征数据;通过该有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取该多个算法模型组合出的第一机器学习模型;对该第一机器学习模型以及模型训练脚本中记录的该处理规则进行拼装,以生成预测流程模型。能够在对训练数据进行探索和处理的过程中记录规律性数据对应的处理规则,并对所有特征数据进行筛选,生成兼具处理规则和机器学习模型的预测流程,并且在获取到新的训练数据时对预测模型中的机器学习模型进行自动更新,在提高预测精度的同时拓宽预测模型的适用范围
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图11是根据一示例性实施例示出的一种电子设备1100的框图。如图11所示,该电子设备1100可以包括:处理器1101,存储器1102,多媒体组件1103,输入/输出(I/O)接口1104,以及通信组件1105。
其中,处理器1101用于控制该电子设备1100的整体操作,以完成上述的预测流程模型的生成方法中的全部或部分步骤。存储器1102用于存储各种类型的数据以支持在该电子设备1100的操作,这些数据例如可以包括用于在该电子设备1100上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件1103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1102或通过通信组件1105发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口1104为处理器1101和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1105用于该电子设备1100与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(NearField Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件1105可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备1100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的预测流程模型的生成方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器1102,上述程序指令可由电子设备1100的处理器1101执行以完成上述的预测流程模型的生成方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,本领域技术人员在考虑说明书及实践本公开后,容易想到本公开的其它实施方案,均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。同时本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。本公开并不局限于上面已经描述出的精确结构,本公开的范围仅由所附的权利要求来限制。
Claims (9)
1.一种预测流程模型的生成方法,其特征在于,所述方法包括:
对原始训练数据进行数据转化处理,以生成用于描述所述原始训练数据的多个转化特征数据,所述数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;
通过预设的特征评估算法对全量特征数据进行评估,以确定所述全量特征数据中的有效特征数据,所述全量特征数据包括所述原始训练数据和所述多个转化特征数据;
通过所述有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取所述多个算法模型组合出的第一机器学习模型,所述第一机器学习模型用于预测用户活跃度;
对所述第一机器学习模型以及模型训练脚本中记录的所述处理规则进行拼装,以生成预测流程模型,所述预测流程模型为批处理预测流程模型或者流处理预测流程模型;
将新数据输入所述预测流程模型,以得到所述预测流程模型输出的所述新数据对应的用户活跃度;
所述特征评估算法为文字识别算法和连续型数字识别算法,所述通过预设的特征评估算法对全量特征数据进行评估,以确定所述全量特征数据中的有效特征数据,包括:
将所述多个转化特征数据添加至所述原始训练数据,以获取所述全量特征数据;
通过所述文字识别算法识别所述全量特征数据中具备姓氏文字的特征数据,通过所述连续型数字识别算法识别所述全量特征数据中具备连续数字的特征数据;
从所述全量特征数据中删除所述具备姓氏文字的特征数据和所述具备连续数字的特征数据,以获取所述有效特征数据。
2.根据权利要求1所述的方法,其特征在于,所述模型训练脚本还用于记录所述第一机器学习模型的训练步骤,在所述通过所述第一机器学习模型以及模型训练脚本中记录的所述处理规则,生成预测流程模型之后,所述方法还包括:
每隔预设时间间隔,针对于所述预设时间间隔内更新的训练数据和所述原始训练数据重新执行所述训练步骤,以训练出第二机器学习模型,所述训练步骤至少包括:转化特征数据生成步骤、特征数据评估步骤以及算法模型组合步骤;
通过所述第二机器学习模型替换所述第一机器学习模型,以对所述预测流程模型进行更新。
3.根据权利要求1所述的方法,其特征在于,所述通过数据转化方式对原始训练数据进行处理,以生成用于描述所述原始训练数据的多个转化特征数据,包括:
根据所述原始训练数据中每组特征数据的数据特性确定所述每组特征数据对应的处理模型或处理规则,以获取多种处理模型和多种处理规则;
通过所述每组特征数据对应的处理模型或处理规则对所述每组特征数据进行数据转化处理,以生成所述多个转化特征数据;
通过所述模型训练脚本记录所述多种处理模型和所述多种处理规则。
4.根据权利要求1所述的方法,其特征在于,所述通过所述有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取所述多个算法模型组合出的第一机器学习模型,包括:
从所述模型库中提取对所述有效特征数据对应的每个预测单元进行预测所需的算法模型,以获取所述多个算法模型,所述每个预测单元对应于所述有效特征数据中的一组或多组特征数据;
通过所述有效特征数据对所述多个算法模型组合出的机器学习模型进行训练,以获取所述第一机器学习模型。
5.一种预测流程模型的生成装置,其特征在于,所述装置包括:
特征处理模块,用于对原始训练数据进行数据转化处理,以生成用于描述所述原始训练数据的多个转化特征数据,所述数据转化处理的处理方式包括针对于无规律特征数据的处理模型以及针对于有规律特征数据的处理规则;
特征评估模块,用于通过预设的特征评估算法对全量特征数据进行评估,以确定所述全量特征数据中的有效特征数据,所述全量特征数据包括所述原始训练数据和所述多个转化特征数据;
模型训练模块,用于通过所述有效特征数据对从模型库中提取出的多个算法模型进行训练,以获取所述多个算法模型组合出的第一机器学习模型,所述第一机器学习模型用于预测用户活跃度;
模型生成模块,用于对所述第一机器学习模型以及模型训练脚本中记录的所述处理规则进行拼装,以生成预测流程模型,所述预测流程模型为批处理预测流程模型或者流处理预测流程模型;
所述装置用于:将新数据输入所述预测流程模型,以得到所述预测流程模型输出的所述新数据对应的用户活跃度;
所述特征评估算法为文字识别算法和连续型数字识别算法,所述特征评估模块,包括:
特征添加子模块,用于将所述多个转化特征数据添加至所述原始训练数据,以获取所述全量特征数据;
特征识别子模块,用于通过所述文字识别算法识别所述全量特征数据中具备姓氏文字的特征数据,通过所述连续型数字识别算法识别所述全量特征数据中具备连续数字的特征数据;
特征删除子模块,用于从所述全量特征数据中删除所述具备姓氏文字的特征数据和所述具备连续数字的特征数据,以获取所述有效特征数据。
6.根据权利要求5所述的装置,其特征在于,所述模型训练脚本还用于记录所述第一机器学习模型的训练步骤,所述装置还包括:
模型重训练模块,用于每隔预设时间间隔,针对于所述预设时间间隔内更新的训练数据和所述原始训练数据重新执行所述训练步骤,以训练出第二机器学习模型,所述训练步骤至少包括:转化特征数据生成步骤、特征数据评估步骤以及算法模型组合步骤;
模型更新模块,用于通过所述第二机器学习模型替换所述第一机器学习模型,以对所述预测流程模型进行更新。
7.根据权利要求5所述的装置,其特征在于,所述特征处理模块,包括:
转化方式获取子模块,用于根据所述原始训练数据中每组特征数据的数据特性确定所述每组特征数据对应的处理模型或处理规则,以获取多种处理模型和多种处理规则;
特征处理子模块,用于通过所述每组特征数据对应的处理模型或处理规则对所述每组特征数据进行数据转化处理,以生成所述多个转化特征数据;
转化方式记录子模块,用于通过所述模型训练脚本记录所述多种处理模型和所述多种处理规则。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
9.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811625614.3A CN109800887B (zh) | 2018-12-28 | 2018-12-28 | 预测流程模型的生成方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811625614.3A CN109800887B (zh) | 2018-12-28 | 2018-12-28 | 预测流程模型的生成方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109800887A CN109800887A (zh) | 2019-05-24 |
CN109800887B true CN109800887B (zh) | 2021-01-22 |
Family
ID=66558063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811625614.3A Active CN109800887B (zh) | 2018-12-28 | 2018-12-28 | 预测流程模型的生成方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800887B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183758A (zh) * | 2019-07-04 | 2021-01-05 | 华为技术有限公司 | 用于实现模型训练的方法及装置、计算机存储介质 |
CN114706864B (zh) * | 2022-03-04 | 2022-11-01 | 阿波罗智能技术(北京)有限公司 | 自动挖掘场景数据的模型更新方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160267397A1 (en) * | 2015-03-11 | 2016-09-15 | Ayasdi, Inc. | Systems and methods for predicting outcomes using a prediction learning model |
CN106844152A (zh) * | 2017-01-17 | 2017-06-13 | 清华大学 | 银行后台任务跑批时间的相关性分析方法及装置 |
CN107292227A (zh) * | 2017-05-03 | 2017-10-24 | 浙江百世技术有限公司 | 一种收/寄件信息提取方法及系统 |
CN107562836A (zh) * | 2017-06-07 | 2018-01-09 | 北京航空航天大学 | 基于主题模型和机器学习的回答者推荐方法 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
-
2018
- 2018-12-28 CN CN201811625614.3A patent/CN109800887B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160267397A1 (en) * | 2015-03-11 | 2016-09-15 | Ayasdi, Inc. | Systems and methods for predicting outcomes using a prediction learning model |
CN106844152A (zh) * | 2017-01-17 | 2017-06-13 | 清华大学 | 银行后台任务跑批时间的相关性分析方法及装置 |
CN107292227A (zh) * | 2017-05-03 | 2017-10-24 | 浙江百世技术有限公司 | 一种收/寄件信息提取方法及系统 |
CN107562836A (zh) * | 2017-06-07 | 2018-01-09 | 北京航空航天大学 | 基于主题模型和机器学习的回答者推荐方法 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
"基于混合层叠模型的命名实体识别研究";贾大宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715(第 07 期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109800887A (zh) | 2019-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11809966B2 (en) | Computer model machine learning based on correlations of training data with performance trends | |
CN107728874A (zh) | 提供用户快捷操作的方法、装置及设备 | |
JPWO2017073373A1 (ja) | 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置 | |
US11636341B2 (en) | Processing sequential interaction data | |
CN110442516B (zh) | 信息处理方法、设备及计算机可读存储介质 | |
CN101556553A (zh) | 基于需求变更的缺陷预测方法和系统 | |
CN109726664B (zh) | 一种智能表盘推荐方法、系统、设备及存储介质 | |
CN110334208B (zh) | 基于贝叶斯信念网络的lkj故障预测诊断方法和系统 | |
JP7069029B2 (ja) | 自動予測システム、自動予測方法および自動予測プログラム | |
CN103246690A (zh) | 标签继承 | |
CN109800887B (zh) | 预测流程模型的生成方法、装置、存储介质和电子设备 | |
CN111443964B (zh) | 更新用户界面的方法、设备和计算机可读存储介质 | |
CN112085541A (zh) | 基于浏览消费时序数据的用户需求分析方法及装置 | |
Bodner et al. | Making predictive modelling ART: accurate, reliable, and transparent | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
CN115329746A (zh) | 一种事件抽取方法、装置及设备 | |
CN113988195A (zh) | 一种私域流量线索挖掘方法、装置、车辆、可读介质 | |
CN115345600B (zh) | 一种rpa流程的生成方法和装置 | |
US11966851B2 (en) | Construction of a machine learning model | |
CN109308295A (zh) | 一种面向数据发布的隐私暴露实时监测方法 | |
CN111737319B (zh) | 用户集群的预测方法、装置、计算机设备和存储介质 | |
CN116450814A (zh) | 基于事件处理模型的事件处理方法、装置、设备及介质 | |
CN113191527A (zh) | 一种基于预测模型进行人口预测的预测方法及装置 | |
CN113326877A (zh) | 模型训练、数据处理方法、装置、设备、存储介质及程序 | |
CN112417304A (zh) | 一种用于构建数据分析流程的数据分析服务推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |