CN108416363A

CN108416363A - 机器学习模型的生成方法、装置、计算机设备及存储介质

Info

Publication number: CN108416363A
Application number: CN201810089701.5A
Authority: CN
Inventors: 陈海涛; 晏存
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-17
Also published as: WO2019148669A1

Abstract

本申请实施例公开了一种机器学习模型的生成方法、装置、计算机设备及存储介质。该方法包括：获取训练数据；调取预存数据处理模块及预存算法模块；根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据；根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标；按照预设显示规则显示所述机器学习模型及其对应的验证指标。该方法无需每次都通过编程来获取机器学习模型，大大减轻了工程师的工作量，提高获取机器学习模型的效率。

Description

机器学习模型的生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种机器学习模型的生成方法、装置、计算机设备及存储介质。

背景技术

机器学习过程一般包括数据预处理过程及模型训练过程。无论是数据预处理过程还是模型训练过程都需要工程师通过代码来实现。然而，在很多情况下，机器学习过程中所使用的数据预处理方法、模型训练的算法等都具有较高的相似度。若每次都需要工程师写代码实现，势必会给工程师带来较大的工作量，造成重复性工作的同时，还浪费时间。

发明内容

本申请提供了一种机器学习模型的生成方法、装置、计算机设备及存储介质，可以快速地得到机器学习模型。

第一方面，本申请提供了一种机器学习模型的生成方法，其包括：

获取训练数据；

调取预存数据处理模块及预存算法模块；

根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据；

根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标；以及

按照预设显示规则显示所述机器学习模型及其对应的验证指标。

第二方面，本申请提供了一种机器学习模型的生成装置，其包括：

数据获取单元，用于获取训练数据；

模块调取单元，用于调取预存数据处理模块及预存算法模块；

数据处理单元，用于根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据；

模型生成单元，用于根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标；以及

显示单元，用于按照预设显示规则显示所述机器学习模型及其对应的验证指标。

第三方面，本申请又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请提供的任一项所述的机器学习模型的生成方法。

第四方面，本申请还提供了一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的机器学习模型的生成方法。

本申请提供一种机器学习模型的生成方法、装置、计算机设备及存储介质。该方法通过获取训练数据，并调取预存数据处理模块及预存算法模块；然后根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据；再根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标；最后按照预设显示规则显示所述机器学习模型及其对应的验证指标。该方法无需每次都通过编程来获取机器学习模型，大大减轻了工程师的工作量，节省工程师的时间，提高获取机器学习模型的效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一种机器学习模型的生成方法的示意流程图；

图2为图1所示机器学习模型的生成方法的具体流程示意图；

图3为本申请一实施例提供的一种机器学习模型的生成方法的另一示意流程图；

图4为本申请一实施例中预设用户操作界面的结构示意图；

图5为本申请一实施例提供的一种机器学习模型的生成装置的示意性框图；

图6为本申请一实施例提供的一种机器学习模型的生成装置的示意性框图；

图7为本申请一实施例提供的一种机器学习模型的生成装置的示意性框图；

图8为本申请一实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本申请实施例提供的一种机器学习模型的生成方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示，该方法包括步骤S101～S105。

S101、获取训练数据。

在本实施例中，终端可以通过预设用户操作界面与用户进行交互，进而获取训练数据。譬如，用户可以通过预设用户操作界面中的“浏览”等按钮将训练数据的存储路径输入至相应输入框中，以使得在用户点击“确认提交”按钮后，终端根据该存储路径获取到对应的训练数据。

在一实施例中，该训练数据可以为历史注册数据。譬如，训练数据可以为用户注册“陆金所”理财平台的用户名、手机号码等等注册数据。该训练数据还可以为交易数据。譬如，该训练数据为某用户购买理财产品等的交易数据。当然，该训练数据还可以为其他数据，在此不做具体限制。

S102、调取预存数据处理模块及预存算法模块。

在本实施例中，终端中预先存储有预存数据处理模块和预存算法模块。其中，该预存数据处理模块可以为机器学习过程中常用的数据处理方法封装而成的模块。譬如，该预存数据处理模块可以为异常值检测方法、连续值离散化方法等方法封装而成的模块。同理，该预存算法模块可以为模型训练过程中常用的算法封装而成的模块。譬如，该预存算法模块可以为分类算法、回归算法等方法封装而成的模块。具体地，该预存算法模块可以为逻辑回归算法、SVM算法、决策树算法等封装而成的模块。

在一实施例中，该预存数据处理模块和预存算法模块可以为Shell脚本。也就是说，将一些常用的数据处理方法、算法等预先封装成Shell脚本，然后再存储在终端中，以供后续调用。

在一实施例中，该终端在调取预存数据处理模块及预存算法模块之前，还需要：获取数据处理模块标识信息和算法模块标识信息。具体地，获取终端中预存数据处理模块标识信息作为数据处理模块标识信息，以及获取所述终端中预存算法模块标识信息作为算法模块标识信息。也就是说，此时用户不需要输入数据处理模块标识信息和算法模块标识信息。

相应地，终端在调取预存数据处理模块及预存算法模块时，具体包括：根据所述数据处理模块标识信息调取对应的预存数据处理模块；以及根据所述算法模块标识信息调取对应的预存算法模块。

在一实施例中，终端中预先存储有预存数据处理模块和预存算法模块对应的标识信息，分别称为预存数据处理模块标识信息和预存算法模块标识信息。该预存数据处理模块标识信息以及预存算法模块标识信息均可以为方法或算法的名称。当然，在其他实施例中，该预存数据处理模块标识信息以及预存算法模块标识信息还可以为其他起到标识作用的信息，在此不做具体限制。

一般来说，终端中存储的预存数据处理模块和预存算法模块的个数均为至少一个，也即获取的数据处理模块标识信息和算法模块标识信息的个数均为至少一个。因此，终端在调取预存数据处理模块及预存算法模块之前，还需要将所有所述数据处理模块标识信息和所有所述算法模块标识信息进行排列组合形成至少一组机器学习组；以及依次读取每组所述机器学习组中的数据处理模块标识信息和算法模块标识信息。

譬如，终端中存储的预存数据处理模块包括异常值检测方法模块和连续值离散化方法模块，该预存算法模块包括逻辑回归算法模块和SVM算法模块。也即预存数据处理模块和预存算法模块的个数均为两个。那么在获取到训练数据后，将读取终端中的所有预存数据处理模块标识信息作为所有数据处理模块标识信息和所有预存算法模块标识信息作为所有算法模块标识信息，并进行排列组合形成四组机器学习组。四组机器学习组如表1所示。

表1

机器学习组	数据处理模块标识信息	算法模块标识信息
			第一组机器学习组	异常值检测方法	逻辑回归算法
第二组机器学习组	异常值检测方法	SVM算法
			第三组机器学习组	连续值离散化方法	逻辑回归算法
第四组机器学习组	连续值离散化方法	SVM算法

在形成如表1所示的四组机器学习组后，将依次读取每组机器学习组中的数据处理模块标识信息和算法模块标识信息，并调取对应的模块，然后进行步骤S103和步骤S104。如，先读取第一组机器学习组中的数据处理模块标识信息和算法模块标识信息，即分别为异常值检测方法和逻辑回归算法；然后，根据异常值检测方法调取对应的异常值检测方法模块以及根据逻辑回归算法调取对应的逻辑回归算法模块；再根据第一组机器学习组中对应的异常值检测方法模块和逻辑回归算法模块来执行步骤S103至S104，以得到第一组机器学习组对应的机器学习模型以及对应的验证指标。然后再返回执行读取第二组机器学习组中的数据处理模块标识信息和算法模块标识信息，即分别为异常值检测方法和SVM算法，等步骤，直至获得四个机器学习模型以及对应的验证指标为止。

当然，在其他实施例中，当终端中存储有至少两个预存数据处理模块和/或至少两个预存算法模块时，在调取预存数据处理模块及预存算法模块时，也可以随机调取一个预存数据处理模块和一个预存算法模块并进行步骤S103至S104。也就是说，无需对终端内存储的所有预存数据处理模块和所有预存算法模块进行排列组合，此时将只获取到一个机器学习模型及对应的验证指标，在此不做具体限制。

S103、根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据。

譬如，步骤S102获取到的预存数据处理模块为异常值检测方法模块，那么终端就利用异常值检测方法模块对训练数据进行异常值检测数据预处理，以得到处理后的训练数据。

S104、根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

在对训练数据进行数据预处理后，将利用处理后的训练数据对步骤S102中获取到的预存算法模块进行训练及验证，进而得到机器学习模型及对应的验证指标。

具体地，在一实施例中，如图2所示，图2为图1所示机器学习模型的生成方法的具体示意流程图。该步骤S104包括步骤S1041～S1043。

S1041、将所述处理后的训练数据按照预设比例划分成训练模型数据和验证模型数据。

譬如，将处理后的训练数据按照9比1的预设比例划分成训练模型数据和验证模型数据。也就是说，90％的处理后的训练数据作为训练模型数据，10％的处理后的训练数据作为验证模型数据。

S1042、根据所述训练模型数据对所述预存算法模块进行训练以得到机器学习模型。

在一实施例中，在将预存算法封装成Shell脚本等模块时，该预存算法对应的算法参数也一起被封装在该预存算法模块中。当得到训练模型数据时，将预存算法模块中的算法参数带入至对应的预存算法的相应位置，形成初始模型，然后用训练模型数据对初始模型进行训练得到最终的机器学习模型。也就是说，预存算法模块包括默认的算法参数，当用户未设置算法参数时，终端采用预存算法模块中的默认的算法参数形成初始模型。

其中，对于逻辑回归算法来说，该算法参数可以包括步长和迭代次数。对于决策树算法来说，该算法参数可以包括树深度、最大分裂特征数和不存度。该算法参数可以根据对应的预存算法模块中具体算法来设置，在此不做具体限制。

S1043、根据所述验证模型数据对所述机器学习模型进行验证以得到所述机器学习模型对应的验证指标。

在得到机器学习模型后，将用验证模型数据对获得的机器学习模型进行验证以得到对应的验证指标。其中，该验证指标可以为召回率，也可以为精准率等等，在此不做具体限制。

S105、按照预设显示规则显示所述机器学习模型及其对应的验证指标。

具体地，在一实施例中，根据所述验证指标的大小顺序显示所述机器学习模型的标识信息及所述机器学习模型对应的验证指标。

譬如，当步骤S102获取两个预存数据处理模块和两个预存算法模块时，经过步骤S103至S104之后，会获得四个机器学习模型以及对应的验证指标。假设验证指标为精准率，终端可以按照精准率从大到小的顺序得到四个机器学习模型的排列顺序，如表2所示。

表2

在表2中，该机器学习模型的标识信息可以为每个机器学习模型的编号，分别为“001”、“002”、“003”和“004”。当然，在其他实施例中，机器学习模型的标识信息还可以为其他用于相互区分的标识，在此不做具体限制。

终端可以以表2的形式显示出四个机器学习模型的相关信息，以使得用户可以通过表2看到每个机器学习模型对应的精准率，以供用户根据所需选择合适的机器学习模型进行后续预测。

在一实施例中，该终端还可以显示出每个机器学习模型对应的数据处理模块标识信息和算法模块标识信息，如表2所示，这样方便用户更好地了解机器学习模型的生成过程中所采用的数据处理方法以及模型训练采用的算法等信息。当然，终端还可以将最终获得的每个机器学习模型中预存算法模块对应的算法参数显示出来，在此不对显示内容做限制。

需要说明的是，在其他实施例中，预设显示规则不局限于上述按照验证指标的大小顺序排列显示，还可以为其他种显示规则。譬如，预设显示规则还可以为显示验证指标最好的机器学习模型的标识信息及对应的验证指标。如表2所示，四个机器学习模型的精准率中最高的为95％，因此，终端可以显示机器学习模型的标识信息为001的机器学习模型以及对应的精准率。

在本实施例中，该机器学习模型的生成方法无需每次都通过编程来获取机器学习模型，可以大大减轻工程师的工作量，提高获取机器学习模型的效率。同时，对于业务员等非计算机领域的用户来说，只需要将训练数据提交至终端即可以快速地获取到至少一个机器学习模型，使得机器学习模型的获取方式更加简单，适用人群更广。

请参阅图3，图3是本申请实施例提供的一种机器学习模型的生成方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图3所示，该方法包括步骤S201～S208。

S201、获取训练数据、数据处理模块标识信息和算法模块标识信息。

在本实施例中，终端可以通过预设用户操作界面与用户进行交互，进而获取用户输入的训练数据、数据处理模块标识信息和算法模块标识信息。譬如，如图4所示，图4为本申请一实施例中预设用户操作界面的结构示意图。该预设用户操作界面10中设有“数据处理模块标识信息选择栏”、“算法模块标识信息选择栏”等。用户可以在“数据处理模块标识信息选择栏”、“算法模块标识信息选择栏”中勾选需要使用到的数据处理方法以及算法。用户可以点击“浏览”功能按钮，以使得用户可以将训练数据的存储路径输入值相应输入框中，然后点击“确认提交”按钮，这样，终端就可以通过预设用户操作界面10来获取到用户输入的数据处理模块标识信息、算法模块标识信息和训练数据的存储路径，并根据训练数据的存储路径来获取到对应的训练数据。

另外，该数据处理模块标识信息可以为数据处理方法对应的名称，譬如，数据处理模块标识信息可以为异常值检测方法。同理，该算法模块标识信息可以为模型训练所采用的算法对应的名称，譬如，算法模块标识信息可以为逻辑回归算法。当然，在其他实施例中，数据处理模块标识信息以及算法模块标识信息也可以采用其他的标识信息，在此不做具体限制。

需要说明的是，终端获取用户输入的训练数据、数据处理模块标识信息和算法模块标识信息的方式不局限于图4所示的方式，还可以为其他种方式，图4所示的方式仅仅是众多种获取方式中的一种，在此不做具体限制。在本实施例中，对于一些计算机等领域的专业用户来说，用户可以通过类似图4所示的方式输入所需的数据处理模块标识信息和算法模块标识信息。这样用户可以根据个人的经验和项目需求等来有针对性地设置数据处理方法和模型训练所用的算法，满足专业用户人群的机器学习模型的获取需求。

在一实施例中，用户还可以设置算法模块标识信息对应的算法参数。具体地，获取训练数据、数据处理模块标识信息和算法模块标识信息，还包括：获取所述算法模块标识信息对应的算法参数。这样，用户可以根据个人的经验来设置算法模块标识信息对应的算法模块中的算法参数，可以更快、更好地得到机器学习模型。

在本实施例中，终端通过步骤S201后，获取的数据处理模块标识信息和算法模块标识信息的个数均为至少一个。

S202、将所有所述数据处理模块标识信息和所有所述算法模块标识信息进行排列组合形成至少一组机器学习组。

譬如，数据处理模块标识信息和算法模块标识信息的个数均为两个，那么排列组合后可以形成四组机器学习组。每组机器学习组中均包括一个数据处理模块标识信息和一个算法模块标识信息。

S203、依次读取每组所述机器学习组中的数据处理模块标识信息和算法模块标识信息。

在本实施例中，每读取一组机器学习组中的数据处理模块模块标识信息和算法模块标识信息后，执行步骤S204至步骤S207。然后再读取下一组机器学习组中的数据处理模块模块标识信息和算法模块标识信息，再执行步骤S204至步骤S207，直至获得每组机器学习组对应的机器学习模型以及对应的验证指标为止。

S204、根据所述数据处理模块标识信息调取对应的预存数据处理模块。

具体地，终端将用户输入的数据处理模块标识信息与终端中预存数据处理模块标识信息进行匹配，并将相匹配的标识信息对应的预存数据处理模块调取出来。其中，该预存数据处理模块标识信息可以为数据处理方法对应的名称，譬如，预存数据处理模块标识信息可以为异常值检测方法。

S205、根据所述算法模块标识信息调取对应的预存算法模块。

具体地，终端将用户输入的算法模块标识信息与终端中预存算法模块标识信息进行匹配，并将相匹配的标识信息对应的预存算法模块调取出来。其中，该预存算法模块标识信息可以为算法对应的名称，譬如，预存算法模块标识信息可以为逻辑回归算法。

S206、根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据。

譬如，步骤S204获取到的预存数据处理模块为异常值检测方法模块，那么终端就利用异常值检测方法模块对训练数据进行数据预处理，以得到处理后的训练数据。

S207、根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

在对训练数据进行数据预处理后，将利用处理后的训练数据对步骤S205中获取到的预存算法模块进行训练及验证，进而得到机器学习模型及对应的验证指标。

在一实施例中，当步骤S201获取了算法模块标识信息对应的算法参数时，步骤S207具体包括：根据所述处理后的训练数据通过设置所述算法参数对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

具体地，将用户设置的算法参数带入到预存算法模块的相应位置，形成初始模型，然后用处理后的训练数据对初始模型进行训练得到最终的机器学习模型。也就是说，当用户设置了算法参数时，采用用户设置的算法参数带入预存算法模块中以形成初始模型。

在得到机器学习模型后，需要用处理后的训练数据对机器学习模型进行验证，以得到验证指标。其中，该验证指标包括召回率、精准率等等，在此不做具体限制。

S208、按照预设显示规则显示所述机器学习模型及其对应的验证指标。

其中，该机器学习模型的标识信息可以为每个机器学习模型的编号，譬如，编号“001”、编号“002”等。该机器学习模型的标识信息还可以为机器学习模型的名字，譬如，“逻辑回归机器学习模型1”、“逻辑回归机器学习模型2”等等，在此不做具体限制。

需要说明的是，预设显示规则不局限于上述按照验证指标的大小顺序排列显示，还可以为其他种显示规则。譬如，预设显示规则还可以为显示验证指标最好的机器学习模型的标识信息及对应的验证指标。如，当验证指标为精准率时，可以显示多个机器学习模型中精准率最高的一个机器学习模型的标识信息及对应的精准率。

在一实施例中，该终端还可以显示出每个机器学习模型对应的数据处理模块标识信息和算法模块标识信息，这样方便用户更好地了解机器学习模型的生成过程中所采用的数据处理方法以及模型训练采用的算法等信息。当然，终端还可以将最终获得的每个机器学习模型中预存算法模块对应的算法参数显示出来，在此不对显示内容做限制。

在本实施例中，该机器学习模型的生成方法无需每次都通过编程来获取机器学习模型，可以大大减轻工程师的工作量，提高获取机器学习模型的效率。同时，对于计算机领域的专业用户来说，可以根据个人经验、项目所需等设置数据处理方法、模型训练的算法、算法参数等信息，使得终端根据用户的设置快速地获取到对应的机器学习模型，使得机器学习模型的获取方式更加简单方便。

本申请实施例还提供一种机器学习模型的生成装置，该机器学习模型的生成装置用于执行前述任一项机器学习模型的生成方法。具体地，请参阅图5，图5是本申请实施例提供的一种机器学习模型的生成装置的示意性框图。机器学习模型的生成装置300可以安装于台式电脑、平板电脑、手提电脑、等终端中。

如图5所示，机器学习模型的生成装置300包括数据获取单元301、模块调取单元302、数据处理单元303、模型生成单元304和显示单元305。

数据获取单301，用于获取训练数据。

在本实施例中，数据获取单301可以通过预设用户操作界面与用户进行交互，进而获取训练数据。该训练数据可以为历史注册数据，还可以为交易数据，在此不做具体限制。

模块调取单元302，用于调取预存数据处理模块及预存算法模块。

在本实施例中，终端中预先存储有预存数据处理模块和预存算法模块。其中，该预存数据处理模块可以为机器学习过程中常用的数据处理方法封装而成的模块。该预存算法模块可以为模型训练过程中常用的算法封装而成的模块。

在一实施例中，该数据获取单301还用于获取数据处理模块标识信息和算法模块标识信息。具体地，该数据获取单301获取终端中预存数据处理模块标识信息作为数据处理模块标识信息，以及获取所述终端中预存算法模块标识信息作为算法模块标识信息。

相应地，模块调取单元302具体用于根据所述数据处理模块标识信息调取对应的预存数据处理模块；以及根据所述算法模块标识信息调取对应的预存算法模块。

一般来说，终端中存储的预存数据处理模块和预存算法模块的个数均为至少一个。如图6所示，图6为本申请实施例提供的机器学习模型的生成装置的另一示意性框图。该机器学习模型的生成装置300还包括排列组合单元306和读取单元307。排列组合单元306用于将所有所述数据处理模块标识信息和所有所述算法模块标识信息进行排列组合形成至少一组机器学习组。该读取单元307用于依次读取每组所述机器学习组中的数据处理模块标识信息和算法模块标识信息。该模块调取单元302根据读取单元307读取到的数据处理模块标识信息调取对应的预存数据处理模块，以及根据读取单元307读取到的算法模块标识信息调取对应的预存算法模块。

当然，在其他实施例中，当终端中存储有至少两个预存数据处理模块和/或至少两个预存算法模块时，模块调取单元302也可以随机调取一个预存数据处理模块和一个预存算法模块。

数据处理单元303，用于根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据。

譬如，模块调取单元302获取到的预存数据处理模块为异常值检测方法模块，那么数据处理单元303就利用异常值检测方法模块对训练数据进行异常值检测数据预处理，以得到处理后的训练数据。

模型生成单元304，用于根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

模型生成单元304在接收到数据处理单元303发送的处理后的训练数据后，将对模块调取单元302获取到的预存算法模块进行训练及验证，进而得到机器学习模型及对应的验证指标。

具体地，在一实施例中，如图6所示，该模型生成单元304包括划分子单元3041、训练子单元3042和验证子单元3043。

划分子单元3041，用于将所述处理后的训练数据按照预设比例划分成训练模型数据和验证模型数据。

譬如，划分子单元3041将处理后的训练数据按照9比1的预设比例划分成训练模型数据和验证模型数据。

训练子单元3042，用于根据所述训练模型数据对所述预存算法模块进行训练以得到机器学习模型。

在一实施例中，在将预存算法封装成Shell脚本等模块时，该预存算法对应的算法参数也一起被封装在该预存算法模块中。训练子单元3042将预存算法模块中的算法参数带入至对应的预存算法的相应位置，形成初始模型，然后用训练模型数据对初始模型进行训练得到最终的机器学习模型。

验证子单元3043，用于根据所述验证模型数据对所述机器学习模型进行验证以得到所述机器学习模型对应的验证指标。

在得到机器学习模型后，验证子单元3043将用验证模型数据对获得的机器学习模型进行验证以得到对应的验证指标。其中，该验证指标可以为召回率，也可以为精准率等等，在此不做具体限制。

显示单元305，用于按照预设显示规则显示所述机器学习模型及其对应的验证指标。

具体地，在一实施例中，显示单元305根据所述验证指标的大小顺序显示所述机器学习模型的标识信息及所述机器学习模型对应的验证指标。这样用户可以看到每个机器学习模型对应的验证指标，以供用户根据所需选择合适的机器学习模型进行后续预测。

在一实施例中，该机器学习模型的标识信息可以为每个机器学习模型的编号，譬如，编号“001”、编号“002”等。该机器学习模型的标识信息还可以为机器学习模型的名字，譬如，“逻辑回归机器学习模型1”、“逻辑回归机器学习模型2”等等，在此不做具体限制。

在一实施例中，显示单元305还可以显示出每个机器学习模型对应的数据处理模块标识信息和算法模块标识信息，这样方便用户更好地了解机器学习模型的生成过程中所采用的数据处理方法以及模型训练采用的算法等信息。当然，显示单元305还可以将最终获得的每个机器学习模型中预存算法模块对应的算法参数显示出来，在此不对显示内容做限制。

需要说明的是，在其他实施例中，预设显示规则不局限于上述按照验证指标的大小顺序排列显示，还可以为其他种显示规则。譬如，预设显示规则还可以为显示验证指标最好的机器学习模型的标识信息及对应的验证指标。

在本实施例中，该机器学习模型的生成装置300无需每次都通过编程来获取机器学习模型，可以大大减轻工程师的工作量，提高获取机器学习模型的效率。同时，对于业务员等非计算机领域的用户来说，只需要将训练数据提交至机器学习模型的生成装置300即可以快速地获取到至少一个机器学习模型，获取方式更加简单，适用人群更广。

请参阅图7，图7是本申请实施例提供的一种机器学习模型的生成装置的示意性框图。该机器学习模型的生成装置400可以安装于台式电脑、平板电脑、手提电脑、等终端中。

如图7所示，机器学习模型的生成装置400包括数据获取单元401、排列组合单元402、读取单元403、模块调取单元404、数据处理单元405、模型生成单元406和显示单元407。

数据获取单元401，用于获取训练数据、数据处理模块标识信息和算法模块标识信息。

在本实施例中，数据获取单元401可以通过预设用户操作界面来获取用户输入的训练数据、数据处理模块标识信息和算法模块标识信息。譬如，该预设用户操作界面中设有“数据处理模块标识信息选择栏”、“算法模块标识信息选择栏”等。用户可以在“数据处理模块标识信息选择栏”、“算法模块标识信息选择栏”中勾选需要使用到的数据处理方法以及算法。用户可以点击“浏览”功能按钮，以使得用户可以将训练数据的存储路径输入值相应输入框中，然后点击“确认提交”按钮，这样，数据获取单元401就可以通过预设用户操作界面来获取到用户输入的数据处理模块标识信息、算法模块标识信息和训练数据的存储路径，进而根据训练数据的存储路径来获取到对应的训练数据。

在一实施例中，该训练数据可以为历史注册数据，还可以为交易数据等，在此不做具体限制。另外，该数据处理模块标识信息可以为数据处理方法对应的名称。同理，该算法模块标识信息可以为模型训练所采用的算法对应的名称。当然，在其他实施例中，数据处理模块标识信息以及算法模块标识信息也可以采用其他的标识信息，在此不做具体限制。

在一实施例中，用户还可以设置算法模块标识信息对应的算法参数。具体地，数据获取单元401还用于：获取所述算法模块标识信息对应的算法参数。这样，用户可以根据个人的经验来设置算法模块标识信息对应的算法模块中的算法参数，可以更快、更好地得到机器学习模型。

可以理解的是，在本实施例中，数据获取单元401获取的数据处理模块标识信息和算法模块标识信息的个数均为至少一个。

排列组合单元402，用于将所有所述数据处理模块标识信息和所有所述算法模块标识信息进行排列组合形成至少一组机器学习组。

譬如，数据处理模块标识信息和算法模块标识信息的个数均为两个，那么排列组合单元402对数据处理模块标识信息和算法模块标识信息进行排列组合后可以形成四组机器学习组。每组机器学习组中均包括一个数据处理模块标识信息和一个算法模块标识信息。

读取单元403，用于依次读取每组所述机器学习组中的数据处理模块标识信息和算法模块标识信息。

模块调取单元404，用于根据所述数据处理模块标识信息调取对应的预存数据处理模块；以及根据所述算法模块标识信息调取对应的预存算法模块。

读取单元403每读取一组机器学习组中的数据处理模块模块标识信息和算法模块标识信息后，模块调取单元404根据数据处理模块标识信息调取对应的预存数据处理模块，以及根据算法模块标识信息调取对应的预存算法模块，再将获取到预存数据处理模块和预存算法模块发送至数据处理单元405和模型生成单元406，以获得该组机器学习组对应的机器学习模型以及对应的验证指标。然后读取单元403再读取下一组机器学习组中的数据处理模块模块标识信息和算法模块标识信息，并重复上述过程，直至获得每组机器学习组对应的机器学习模型以及对应的验证指标为止。

具体地，在一实施例中，模块调取单元404将用户输入的数据处理模块标识信息与终端中预存数据处理模块标识信息进行匹配，并将相匹配的标识信息对应的预存数据处理模块调取出来。其中，该预存数据处理模块标识信息可以为数据处理方法对应的名称。

具体地，在一实施例中，模块调取单元404将用户输入的算法模块标识信息与终端中预存算法模块标识信息进行匹配，并将相匹配的标识信息对应的预存算法模块调取出来。其中，该预存算法模块标识信息可以为算法对应的名称。

数据处理单元405，用于根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据。

数据处理单元405利用模块调取单元404获取的预存数据处理模块对训练数据进行数据预处理，以得到处理后的训练数据。

模型生成单元406，用于根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

模型生成单元406利用处理后的训练数据对模块调取单元404获取的预存算法模块进行训练及验证，进而得到机器学习模型及对应的验证指标。

在一实施例中，当数据获取单元401获取了算法模块标识信息对应的算法参数时，模型生成单元406具体用于根据所述处理后的训练数据通过设置所述算法参数对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

具体地，模型生成单元406将用户设置的算法参数带入到预存算法模块的相应位置，形成初始模型，然后用处理后的训练数据对初始模型进行训练得到最终的机器学习模型。

在得到机器学习模型后，模型生成单元406需要用处理后的训练数据对机器学习模型进行验证，以得到验证指标。其中，该验证指标包括召回率、精准率等等，在此不做具体限制。

显示单元407，用于按照预设显示规则显示所述机器学习模型及其对应的验证指标。

具体地，在一实施例中，显示单元407用于根据所述验证指标的大小顺序显示所述机器学习模型的标识信息及所述机器学习模型对应的验证指标。

其中，该机器学习模型的标识信息可以为每个机器学习模型的编号，还可以为机器学习模型的名字等，在此不做具体限制。

需要说明的是，预设显示规则不局限于上述按照验证指标的大小顺序排列显示，还可以为其他种显示规则。譬如，预设显示规则还可以为显示验证指标最好的机器学习模型的标识信息及对应的验证指标。

在一实施例中，该显示单元407还可以显示出每个机器学习模型对应的数据处理模块标识信息和算法模块标识信息，这样方便用户更好地了解机器学习模型的生成过程中所采用的数据处理方法以及模型训练采用的算法等信息。当然，显示单元407还可以将最终获得的每个机器学习模型中预存算法模块对应的算法参数显示出来，在此不对显示内容做限制。

在本实施例中，该机器学习模型的生成装置400无需每次都通过编程来获取机器学习模型，可以大大减轻工程师的工作量，提高获取机器学习模型的效率。同时，对于计算机领域的专业用户来说，可以根据个人经验、项目所需等设置数据处理方法、模型训练的算法、算法参数等信息，使得机器学习模型的生成装置400根据用户的设置快速地获取到对应的机器学习模型，使得机器学习模型的获取方式更加简单方便。

上述机器学习模型的生成装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。

参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种机器学习模型的生成方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种机器学习模型的生成方法。

该网络接口505用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：获取训练数据；调取预存数据处理模块及预存算法模块；根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据；根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标；以及按照预设显示规则显示所述机器学习模型及其对应的验证指标。

在一实施例中，处理器502在执行调取预存数据处理模块及预存算法模块之前，还执行如下程序：获取数据处理模块标识信息和算法模块标识信息。相应地，处理器502在执行调取预存数据处理模块及预存算法模块时，具体执行如下程序：根据所述数据处理模块标识信息调取对应的预存数据处理模块；以及根据所述算法模块标识信息调取对应的预存算法模块。

在一实施例中，处理器502在执行获取数据处理模块标识信息和算法模块标识信息时，具体执行如下程序：获取终端中预存数据处理模块标识信息作为数据处理模块标识信息，以及获取所述终端中预存算法模块标识信息作为算法模块标识信息。

在一实施例中，处理器502在执行获取数据处理模块标识信息和算法模块标识信息时，具体执行如下程序：获取用户输入的数据处理模块标识信息和算法模块标识信息。

在一实施例中，所述数据处理模块标识信息和算法模块标识信息的个数均为至少一个；处理器502在执行所述调取预存数据处理模块及预存算法模块之前，还执行如下程序：将所有所述数据处理模块标识信息和所有所述算法模块标识信息进行排列组合形成至少一组机器学习组；依次读取每组所述机器学习组中的数据处理模块标识信息和算法模块标识信息。

在一实施例中，处理器502在执行获取数据处理模块标识信息和算法模块标识信息时，还执行如下程序：获取所述算法模块标识信息对应的算法参数。相应地，处理器502在执行根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标时，具体执行如下程序：根据所述处理后的训练数据通过设置所述算法参数对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

在一实施例中，处理器502在执行根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标时，具体执行如下程序：将所述处理后的训练数据按照预设比例划分成训练模型数据和验证模型数据；根据所述训练模型数据对所述预存算法模块进行训练以得到机器学习模型；以及根据所述验证模型数据对所述机器学习模型进行验证以得到所述机器学习模型对应的验证指标。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时实现：获取训练数据；调取预存数据处理模块及预存算法模块；根据所述预存数据处理模块对所述训练数据进行数据预处理以得到处理后的训练数据；根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标；以及按照预设显示规则显示所述机器学习模型及其对应的验证指标。

在一实施例中，该程序指令被处理器执行调取预存数据处理模块及预存算法模块之前，还实现：获取数据处理模块标识信息和算法模块标识信息。相应地，该程序指令被处理器执行调取预存数据处理模块及预存算法模块时，具体实现：根据所述数据处理模块标识信息调取对应的预存数据处理模块；以及根据所述算法模块标识信息调取对应的预存算法模块。

在一实施例中，该程序指令被处理器执行获取数据处理模块标识信息和算法模块标识信息时，具体实现：获取终端中预存数据处理模块标识信息作为数据处理模块标识信息，以及获取所述终端中预存算法模块标识信息作为算法模块标识信息。

在一实施例中，该程序指令被处理器执行获取数据处理模块标识信息和算法模块标识信息时，具体实现：获取用户输入的数据处理模块标识信息和算法模块标识信息。

在一实施例中，所述数据处理模块标识信息和算法模块标识信息的个数均为至少一个；该程序指令被处理器执行所述调取预存数据处理模块及预存算法模块之前，还实现：将所有所述数据处理模块标识信息和所有所述算法模块标识信息进行排列组合形成至少一组机器学习组；依次读取每组所述机器学习组中的数据处理模块标识信息和算法模块标识信息。

在一实施例中，该程序指令被处理器执行获取数据处理模块标识信息和算法模块标识信息时，还实现：获取所述算法模块标识信息对应的算法参数。相应地，该程序指令被处理器执行根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标时，具体实现：根据所述处理后的训练数据通过设置所述算法参数对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

在一实施例中，该程序指令被处理器执行根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标时，具体实现：将所述处理后的训练数据按照预设比例划分成训练模型数据和验证模型数据；根据所述训练模型数据对所述预存算法模块进行训练以得到机器学习模型；以及根据所述验证模型数据对所述机器学习模型进行验证以得到所述机器学习模型对应的验证指标。

该存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种机器学习模型的生成方法，其特征在于，包括：

获取训练数据；

调取预存数据处理模块及预存算法模块；

2.根据权利要求1所述的机器学习模型的生成方法，其特征在于，在所述调取预存数据处理模块及预存算法模块之前，还包括：获取数据处理模块标识信息和算法模块标识信息；

所述调取预存数据处理模块及预存算法模块，包括：

根据所述数据处理模块标识信息调取对应的预存数据处理模块；以及

根据所述算法模块标识信息调取对应的预存算法模块。

3.根据权利要求2所述的机器学习模型的生成方法，其特征在于，所述获取数据处理模块标识信息和算法模块标识信息，包括：获取终端中预存数据处理模块标识信息作为数据处理模块标识信息，以及获取所述终端中预存算法模块标识信息作为算法模块标识信息。

4.根据权利要求2所述的机器学习模型的生成方法，其特征在于，所述获取数据处理模块标识信息和算法模块标识信息，包括：获取用户输入的数据处理模块标识信息和算法模块标识信息。

5.根据权利要求3或4所述的机器学习模型的生成方法，其特征在于，所述数据处理模块标识信息和算法模块标识信息的个数均为至少一个；在所述调取预存数据处理模块及预存算法模块之前，还包括：

将所有所述数据处理模块标识信息和所有所述算法模块标识信息进行排列组合形成至少一组机器学习组；以及

依次读取每组所述机器学习组中的数据处理模块标识信息和算法模块标识信息。

6.根据权利要求4所述的机器学习模型的生成方法，其特征在于，所述获取数据处理模块标识信息和算法模块标识信息，还包括：获取所述算法模块标识信息对应的算法参数；

所述根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标，包括：根据所述处理后的训练数据通过设置所述算法参数对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标。

7.根据权利要求1所述的机器学习模型的生成方法，其特征在于，所述根据所述处理后的训练数据对所述预存算法模块进行训练及验证以得到机器学习模型和所述机器学习模型对应的验证指标，包括：

将所述处理后的训练数据按照预设比例划分成训练模型数据和验证模型数据；

根据所述训练模型数据对所述预存算法模块进行训练以得到机器学习模型；以及

根据所述验证模型数据对所述机器学习模型进行验证以得到所述机器学习模型对应的验证指标。

8.一种机器学习模型的生成装置，其特征在于，包括：

数据获取单元，用于获取训练数据；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项的机器学习模型的生成方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的机器学习模型的生成方法。