CN111782637A - 一种模型构建方法、装置及设备 - Google Patents

一种模型构建方法、装置及设备 Download PDF

Info

Publication number
CN111782637A
CN111782637A CN202010631130.0A CN202010631130A CN111782637A CN 111782637 A CN111782637 A CN 111782637A CN 202010631130 A CN202010631130 A CN 202010631130A CN 111782637 A CN111782637 A CN 111782637A
Authority
CN
China
Prior art keywords
sample data
model
data
service
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010631130.0A
Other languages
English (en)
Inventor
赵坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010631130.0A priority Critical patent/CN111782637A/zh
Publication of CN111782637A publication Critical patent/CN111782637A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种模型构建方法、装置及设备,该方法包括获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标;根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据;将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型;输出满足所述评估目标的业务模型。

Description

一种模型构建方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种模型构建方法、装置及设备。
背景技术
目前,人工智能在生产生活中的应用越来越广泛,虽然建模(即构建模型)的过程经过中长期的发展已经被抽样出来,且足够绝大数用户理解的多个步骤和过程,但是整个过程仍然非常复杂,所需的专业知识门槛仍然非常高,同时自动化方案通常只能解决部分问题,而且人工智能在业务的应用受限与专业人士资源的限制,也为人工智能的普及和应用带来极大的阻力。
常用的模型构建方式,往往是需要提供构建模型所需要使用的数据特征,首先用户提供的数据特征可能会比较杂乱,从而会给模型的训练造成影响,另外,对样本数据进行特征提取所需要的时长很长,且样本数据的数量往往较大,使得用户确定数据特征的效率低下,为此,需要提供一种基于数据进行特征挖掘、自动特征工程、模型选择和模型调参等,进而构建端到端的建模机制。
发明内容
本说明书实施例的目的是提供一种基于数据进行特征挖掘、自动特征工程、模型选择和模型调参等,进而构建端到端的建模机制。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种模型构建方法,所述方法包括:获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标。根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据。将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型。输出满足所述评估目标的业务模型。
本说明书实施例提供的一种模型构建装置,所述装置包括:参数获取模块,获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标。样本获取模块,根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据。模型构建模块,将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型。模型输出模块,输出满足所述评估目标的业务模型。
本说明书实施例提供的一种模型构建设备,所述模型构建设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标。根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据。将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型。输出满足所述评估目标的业务模型。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标。根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据。将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型。输出满足所述评估目标的业务模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种模型构建方法实施例;
图2为本说明书一种构建参数数据的页面的结构示意图;
图3为本说明书另一种模型构建方法实施例;
图4为本说明书一种模型构建流程示意图;
图5为本说明书一种特征搜索的示意图;
图6为本说明书一种特征迭代效果的示意图;
图7为本说明书一种模型构建装置实施例;
图8为本说明书一种模型构建设备实施例。
具体实施方式
本说明书实施例提供一种模型构建方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种模型构建方法,该方法的执行主体可以为终端设备或服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。本说明书实施例中以执行主体为服务器为例进行详细说明,对于终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法可以应用于某业务模型的构建和业务模型的部署,以及业务模型对应的服务的部署等实际应用中。基于此,应该理解本实施例中的提供的模型构建方法,并不仅仅限定于对业务模型的构建上,还可以包括业务模型的部署及业务模型对应的服务的部署等。该方法具体可以包括以下步骤:
在步骤S102中,获取构建业务模型所需的构建参数数据,该构建参数数据中包括构建的业务模型所需达到的评估目标。
其中,业务模型可以是任意业务的模型,例如信息(如新闻、商品信息等)推荐业务的模型、风险防控(如金融机构的资源风险防控、用户个人数据库的风险防控的)模型等。该构建参数数据可以包括构建的业务模型所需达到的评估目标,此外,还可以包括如业务模型对应的业务标识(如业务的名称或编码等)和/或用户构建业务模型的样本数据等,具体可以根据实际情况设定,本说明书实施例对此不做限定。评估目标可以是对构建的模型所达到的效果或模型的性能进行评估所需要达到的最低目标,不同的业务模型或不同的业务模型对应的业务的评估目标可以不同,例如如果业务模型为分类模型,则评估目标可以为均方根误差小于或等于0.3、平均绝对误差小于或等于0.2或平均平方误差小于或等于0.1等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,目前,人工智能在生产生活中的应用越来越广泛,虽然建模(即构建模型)的过程经过中长期的发展已经被抽样出来,且足够绝大数用户理解的多个步骤和过程,但是整个过程仍然非常复杂,所需的专业知识门槛仍然非常高,同时自动化方案通常只能解决部分问题,没有一个端到端的解决方案,人工智能在业务的应用受限与专业人士资源的限制,为人工智能的普及和应用带来极大的阻力。
另一方面,随着时代的发展,生产和生活中积累的数据体量越来越大,传统的人工特征挖掘手段和方法已经越来越不适应当下的生产应用。而且,当前存在很多自动化的产品,但是大多局限于人工智能的某一个环节,例如模型选择环节、特征工程环节、自动调参环节等,没有机器学习背景的人员无法完成一个完整的应用验证和实践,所以需要一个能够把现有的自动化技术和能力有机的集合起来,以达到普惠大众的目的。
目前数据隐私越来越多的被监管机构和用户重视,数据合法合规的应用和业务服务提供机构对账户安全、支付安全等风险控制,以及对更多数据采集和使用的诉求需要找到合理的解决方法(既需要有效数据的支持,又需求保障数据的合法合规),如果利用机器学习的方式判断数据的有效性,则可以既不暴露数据的内容,又可以有效的利用数据。
基于上面可用性建设,可以满足用户应用人工智能的能力,同时希望数据生产方可以沉淀很多数据、数据特征、特征工程能力和算法等,在此基础之上,可以考虑构建平台的网络效应,基于平台沉淀的数据和数据特征等进行特征挖掘、自动特征工程、模型选择和模型调参等,进而构建端到端的建模机制。基于上述内容,本说明书实施例提供一种端到端的建模机制,具体可以包括以下内容:
为了便于用户提供构建参数数据,可以预先开发相应的应用程序或页面,其中,该应用程序可以用于为用户生成相应的模型等,该应用程序中也可以预先设置用于提供构建参数数据的页面,上述用于提供构建参数数据的页面中可以包括构建参数数据的输入框,用户可以在该输入框中输入构建业务模型所需的构建参数数据,或者,如图2所示,可以依据构建参数数据所需的数据类型,在用于提供构建参数数据的页面中分别设置每种数据类型的数据输入框,例如构建参数数据可以包括对应的业务标识、样本数据、构建的业务模型所需达到的评估目标等,相应的可以设置上述信息的数据输入框,其中,样本数据和业务标识,用户可以根据实际情况输入,例如用户可以只输入业务标识,然后服务器可以基于该业务标识获取相应的样本数据,或者,用户也可以只输入样本数据,再或者,用户可以输入业务标识和样本数据,服务器可以基于该业务标识获取相应的样本数据,可以将获取的样本数据和用户输入的样本数据作为构建业务模型所需使用的样本数据,或者,相应的模型构建系统可以仅用于构建应用于某种指定业务的业务模型,此时,用户还可以不需要输入业务标识和样本数据等。当用户需要构建某种业务模型时,可以根据需要构建的业务模型确定对应的业务标识、样本数据、构建的业务模型所需达到的评估目标等构建参数数据,在上述用于提供构建参数数据的页面中的数据输入框中输入相应的数据,输入完成后,用户可以点击该页面中确定按键,此时,服务器可以获取用户在数据输入框中输入的数据,并可以将获取的数据作为构建业务模型所需的构建参数数据,从而服务器可以获取到构建业务模型所需的构建参数数据,其中,构建参数数据中可以包括构建的业务模型所需达到的评估目标等。
在步骤S104中,根据上述构建参数数据,确定构建上述业务模型所需使用的样本数据。
在实施中,通过上述步骤S102的处理得到构建业务模型所需的构建参数数据后,可以对构建参数数据进行分析,确定构建上述业务模型所需使用的样本数据,具体可以通过多种方式实现,以下提供多种可实现方式,具体可以参见下述方式一~方式四的处理:
方式一:构建参数数据包括用户提供的业务标识。
在实施中,可以从构建参数数据中提取业务标识,基于该业务标识获取与该业务标识对应的业务数据,可以将获取的业务数据作为构建上述业务模型所需使用的样本数据。
方式二:构建参数数据包括样本数据。
在实施中,可以从构建参数数据中提取样本数据,可以将提取的样本数据作为构建上述业务模型所需使用的样本数据。
方式三:构建参数数据包括用户提供的业务标识和样本数据。
在实施中,服务器可以基于该业务标识获取相应的样本数据,可以将获取的样本数据和用户输入的样本数据作为构建业务模型所需使用的样本数据。
方式四:根据上述构建参数数据,直接从预先指定的数据库中获取构建上述业务模型所需使用的样本数据。
在步骤S106中,将上述样本数据和上述评估目标输入到预定模型构建系统中,以基于该样本数据和模型构建系统中的模型构建规则进行模型的构建和训练,并通过该评估目标对训练的模型进行评估处理,得到满足该评估目标的业务模型。
其中,模型构建系统可以是用于构建应用于某一种或多种不同业务的业务模型的系统,模型构建系统中可以包括一种或多种不同的规则,每个规则中还可以包括一种或多种不同的子规则,每种规则或子规则可以用于实现构建模型过程中的一项功能,如某规则可以用于实现对样本数据的特征提取等。模型构建规则可以是用于构建应用于某一种或多种不同业务的业务模型,模型构建规则中可以包括一种或多种不同的子规则,例如可以包括特征提取子规则、特征选择子规则、模型训练子规则、模型评估子规则等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,可以预先根据实际情况,设置构建模型的流程,以及该流程中的每个步骤需要使用的规则或子规则等,本实施例中,构建模型的流程可以包括如样本数据获取、样本数据预处理、特征提取、特征选择、模型训练、模型评估等,其中,构建所需使用的算法可以包括一种或多种,而且,对于相同用途或作用的算法可以包括多个,例如对于用于分类的算法可以包括决策树算法、KNN算法和随机森林算法等。设置完成后,可以将上述流程进行封装处理,最终可以得到模型构建系统。通过上述处理得到样本数据和评估目标后,可以基于该样本数据和模型构建系统中的模型构建规则进行模型的构建和训练,并通过该评估目标对训练的模型进行评估处理,得到满足该评估目标的业务模型,具体地,可以将上述样本数据和上述评估目标输入到预定模型构建系统中,模型构建系统监测到数据输入后,可以启动构建模型的流程,并可以根据该流程中提供的步骤由前到后依次执行每个步骤,具体如,可以对样本数据进行筛选或分类等预处理,然后,可以通过特征提取规则对得到的样本数据进行特征提取,以将样本数据转换为一组具有明显物理意义(如Gabor、几何特征、纹理特征等)或者统计意义的特征,即可以得到相应的数据特征,由于并不是所有的数据特征都是与构建模型相关,因此,可以尝试设计一些有效的方法来选择重要的数据特征,也即是可以对得到的数据特征进行选择。由于样本数据通常比较杂乱,可能会带有各种非数字特殊字符,可将上述非数字特殊字符转换为数字型的字符,因此,可以对各种数据特征进行相应的编码,可以使用编码后的数据特征进行模型训练,得到初始训练的模型,可以通过构建的业务模型所需达到的评估目标对初始训练的模型进行模型评估,如果满足该评估目标,则可以将训练得到的模型作为相应的业务模型,如果不满足该评估目标,则可以继续对得到的模型进行训练,直到得到满足该评估目标的业务模型。
需要说明的是,上述构建的满足该评估目标的业务模型可以包括一个,还可以包括多个,如果业务模型包括多个,则多个业务模型可以是通过不同的算法或规则而构建,此外,还可以得到不同算法或规则构建的业务模型之间的差别,如输出效果的差别或准确率的差别等。
在步骤S108中,输出满足上述评估目标的业务模型。
在实施中,通过上述处理得到满足该评估目标的业务模型后,可以将满足上述评估目标的业务模型输出给用户使用,用户接收到该业务模型后,可以将该业务模型应用于相应的业务中,或者,用户可以对接收到该业务模型进行二次开发,得到满足用户实际需求的业务模型。此外,如果输出的满足上述评估目标的业务模型包括多个,则用户可以从中选择一个或多个业务模型应用于相应的业务中,具体选择方式可以根据实际情况设定,本说明书实施例对此不做限定。
本说明书实施例提供一种模型构建方法,通过获取构建业务模型所需的构建参数数据,该构建参数数据中包括构建的业务模型所需达到的评估目标,然后,可以根据构建参数数据,确定构建业务模型所需使用的样本数据,可以将将样本数据和评估目标输入到预定模型构建系统中,以基于样本数据和模型构建系统中的模型构建规则进行模型的构建和训练,并通过评估目标对训练的模型进行评估处理,得到满足评估目标的业务模型,最终,可以输出满足评估目标的业务模型,这样,用户只需要提供构建参数数据即可完整对样本数据的特征提取、通过数据特征进行模型训练和模型评估的过程,在此过程中用户不需要参与,从而不需要用户预先了解各个不同的模型的特点,以及特征提取的相关信息,即可以得到满足用户设定的评估目标的业务模型,从而大大减少了用户在建模过程中的人工参与,提高了模型构建的效率,而且,能够基于样本数据进行特征挖掘、自动特征工程、模型选择和模型调参等,进而构建端到端的建模机制。
实施例二
如图3所示,本说明书实施例提供一种模型构建方法,该方法的执行主体可以为终端设备或服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。本说明书实施例中以执行主体为服务器为例进行详细说明,对于终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法可以应用于某业务模型的构建和业务模型的部署,以及业务模型对应的服务的部署等实际应用中。基于此,应该理解本实施例中的提供的模型构建方法,并不仅仅限定于对业务模型的构建上,还可以包括业务模型的部署及业务模型对应的服务的部署等。该方法具体可以包括以下步骤:
在步骤S302中,获取构建业务模型所需的构建参数数据,该构建参数数据中包括构建的业务模型所需达到的评估目标。
在实施中,可以基于自动机器学习AutoML(Automated Machine Learning)算法构建业务模型,基于此,可以结合AutoML算法的流程和实际应用中通过算法构建模型的流程,确定本次业务模型构建任务执行的流程,该业务模型构建任务执行的流程可以是一个完整的模型构建流程,其中可以包括特征提取、特征选择、模型训练等过程,例如,本实施例中提供一种模型构建流程,可以如图4所示,其中包括样本数据、特征清洗、特征选择、特征预处理、特征工程、模型选择、模型参数的优化、模型验证和模型部署等,其中的特征工程可以是使用某领域的专业知识通过数据挖掘的手段和技术,从原始的业务数据中提取出有效的特征的过程,提取的特征可以非常好的表达相应数据的特性,有助于提高机器学习的性能和效果。AutoML可以是一个在给定数据和任务的情况下学习和泛化能力的系统,可以通过设计一系列控制系统操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置,而无需人工干预。
基于上述业务模型构建任务执行的流程,可以进行抽象处理,从而得到人机交互的核心功能和节点,以及需要通过自动化或智能化去解决的节点,经过抽象处理后的架构可以如:带有标签的样本数据→数据发现→特征发现→AutoML→模型部署。
在实际应用中,上述构建参数数据中除了可以包含构建的业务模型所需达到的评估目标之外,还可以包括业务标识,该业务标识可以是业务的名称或编码等,可以通过业务标识获取相应的样本数据,具体可以参见下述相关内容。
在步骤S304中,基于上述业务标识,从该业务标识对应的数据库中获取用于构建业务模型的待选样本数据,待选样本数据包括至少一种类型的样本数据。
其中,业务标识对应的数据库(可以称为数据湖Data Lake)可以包括一个数据库,也可以包括多个不同的数据库,具体可以根据实际情况设定。该数据库中可以存储有执行该业务标识对应的目标业务的过程中产生的业务数据,或者可以存储有对上述业务数据进行处理得到的结构化数据,或者可以存储有执行目标业务的过程中产生的结构化数据和/或非结构化数据等。
在实施中,从上述业务标识对应的数据库中获取样本数据的具体处理方式可以包括多种,以下提供一种可选的处理方式,具体可以参见本步骤S304和下述步骤S306的处理,具体地,可以从上述构建参数数据中提取业务标识,可以基于该业务标识确定该业务标识对应的数据库,然后,可以从确定的数据库中随机获取用于构建业务模型的待选样本数据,或者,可以从确定的数据库中通过预定的数据选取规则获取用于构建业务模型的待选样本数据等,其中选取的待选样本数据可以包括至少一种类型的样本数据。
此外,上述基于业务标识,从业务标识对应的数据库中获取用于构建业务模型的待选样本数据的处理可以通过多种方式实现,以下再提供一种可选的处理方式,具体可以包括以下内容:基于业务标识和预定数据搜索算法,从业务标识对应的数据库中获取用于构建业务模型的待选样本数据,预定数据搜索算法为基于数据哈希的方式进行数据搜索的算法。
在实施中,业务标识对应的数据库存储的数据往往非常庞大,因此需要通过数据搜索算法或数据搜索优化算法进行数据的发现处理,即获取与目标业务相关的数据,数据发现可以通过相关的算法和技术手段根据业务数据从数据库中关联出来可能相关的数据,具体地,可以将业务标识对应的数据库中存储的数据进行哈希计算,得到每个数据对应的哈希值,然后,可以基于计算的哈希值,为数据库中的数据构建索引或元信息,通过数据搜索算法或数据搜索优化算法的实时计算,可以得到相应的数据,即用于构建业务模型的待选样本数据。
在步骤S306中,根据预先设定的不同类型对应的数据获取比例和待选样本数据的总数量,分别从待选样本数据中选取至少一种类型中的每种类型对应的数量的样本数据,将选取的样本数据作为构建应用于目标业务的业务模型所需的样本数据。
在实施中,由于业务属性的不同,待选样本数据可能存在数据分布不均的情况,此时需要进行均衡采样,此外,由于并不是所有的数据都是与构建模型相关,因此,可以尝试设计一些有效的方法来选择重要的数据,具体地,可以按照分层抽样的方式实现:可以预先指定每一个分层的数据的比例,然后进行抽样,如样本数据的类型和比例的输入按照{类型枚举a:比例,类型枚举b:比例,类型枚举c:比例}方式输入,具体如{0:9,1:1},通过上述方式可以得到预先设定的不同类型对应的数据获取比例,可以将每个类型对应的数据获取比例与待选样本数据的总数量相乘,得到每个类型对应的样本数据的数量,然后,可以将得到的样本数据作为构建应用于目标业务的业务模型所需的样本数据。
在实际应用中,根据构建参数数据,确定构建业务模型所需使用的样本数据的具体处理除了可以通过上述步骤S304和步骤S306的处理实现外,还可以通过多种不同的处理方式实现,以下再提供两种可实现的方式,具体可以包括以下方式一和方式二。
此外,上述基于业务标识,从业务标识对应的数据库中获取用于构建业务模型的待选样本数据的处理可以通过多种方式实现,以下再提供一种可选的处理方式,具体可以包括以下内容:基于业务标识和预定数据搜索算法,从业务标识对应的数据库中获取用于构建业务模型的待选样本数据,预定数据搜索算法为基于数据哈希的方式进行数据搜索的算法。
方式一:通过欠采样的方式获取样本数据,具体可以参见下述步骤A2~步骤A6的处理。
在步骤A2中,构建参数数据中包括业务标识,基于上述业务标识,从该业务标识对应的数据库中获取用于构建业务模型的待选样本数据,待选样本数据包括多种类型的样本数据。
其中,上述基于业务标识,从业务标识对应的数据库中获取用于构建业务模型的待选样本数据的处理可以通过多种方式实现,以下再提供一种可选的处理方式,具体可以包括以下内容:基于业务标识和预定数据搜索算法,从业务标识对应的数据库中获取用于构建业务模型的待选样本数据,预定数据搜索算法为基于数据哈希的方式进行数据搜索的算法。具体处理过程可以参见上述相关内容,在此不再赘述。
在步骤A4中,确定待选样本数据中样本数据的数量超过第一预定阈值的第一类型和待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,第一预定阈值大于或等于第二预定阈值。
在步骤A6中,将第二类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并从第一类型对应的样本数据中选取预定数量的样本数据作为构建应用于目标业务的业务模型所需的样本数据,预定数量基于第二类型对应的样本数据的数量确定。
在实施中,可以从第一类型对应的样本数据中随机选取预定数量的样本数据作为构建应用于目标业务的业务模型所需的样本数据,这样,从数量较多的类型的样本数据中随机抽取部分样本数据,从而可以减少数量较多的类型的样本数据的数量,使数据达到平衡。例如,第一类型对应的样本数据的数量为50000,第二类型对应的样本数据的数量为1000,此时,第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,然后,从50000个第一类型对应的样本数据中选取1000个第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,从而使得两种不同类型的样本数据的数量达到平衡。其中,预定数量可以与第二类型对应的样本数据的数量相等,或者,预定数量可以与第二类型对应的样本数据的数量之间存在预定比例关系等。
方式二:通过过采样的方式获取样本数据,具体可以参见下述步骤B2~步骤B6的处理。
在步骤B2中,构建参数数据中包括业务标识,基于该业务标识,从该业务标识对应的数据库中获取用于构建业务模型的待选样本数据,待选样本数据包括多种类型的样本数据。
其中,上述基于业务标识,从业务标识对应的数据库中获取用于构建业务模型的待选样本数据的处理可以通过多种方式实现,以下再提供一种可选的处理方式,具体可以包括以下内容:基于业务标识和预定数据搜索算法,从业务标识对应的数据库中获取用于构建业务模型的待选样本数据,预定数据搜索算法为基于数据哈希的方式进行数据搜索的算法。具体处理过程可以参见上述相关内容,在此不再赘述。
在步骤B4中,确定待选样本数据中样本数据的数量超过第一预定阈值的第一类型和待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,第一预定阈值大于或等于第二预定阈值。
在步骤B6中,对第二类型对应的样本数据进行有放回的预定次数的采样,采集的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并将第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,预定次数基于第一类型对应的样本数据的数量确定。
在实施中,由于第二类型对应的样本数据的数量较少,为了使得两种不同类型的样本数据的数量达到平衡,可以对第二类型对应的样本数据进行有放回的预定次数的采样,将采集的样本数据作为构建应用于目标业务的业务模型所需的样本数据,而第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据。例如,第一类型对应的样本数据的数量为10000,第二类型对应的样本数据的数量为1000,此时,可以从1000个第二类型对应的样本数据中选取1个第二类型对应的样本数据,并将该样本数据作为构建应用于目标业务的业务模型所需的样本数据,然后,可以将选取的1个第二类型对应的样本数据放回999个第二类型对应的样本数据中,此时,第二类型对应的样本数据的数量仍为1000,以从1000个第二类型对应的样本数据中再选取1个第二类型对应的样本数据,并将该样本数据作为构建应用于目标业务的业务模型所需的样本数据,然后,可以再将选取的1个第二类型对应的样本数据放回999个第二类型对应的样本数据中,以此重复执行,直到抽取10000次,得到选取的10000个第二类型对应的样本数据,从而使得两种不同类型的样本数据的数量达到平衡。
其中,预定次数可以与第一类型对应的样本数据的数量相等,或者,预定次数可以与第一类型对应的样本数据的数量之间存在预定比例关系等。
需要说明的是,上述提到的待选样本数据可以为执行该业务标识对应的目标业务的过程中产生的业务数据,或者可以为对上述业务数据进行处理得到的结构化数据,或者可以为执行目标业务的过程中产生的结构化数据和/或非结构化数据。
在步骤S308中,对上述样本数据进行分析,确定不同样本数据之间的关联关系。
在实施中,样本数据可能非常庞大,为此,需要在建模之前进行样本数据的拆剪,具体地,可以根据样本数据和数据库,进行有效性关联,确定不同样本数据之间的关联关系,为后续的特征提取过滤出基础数据。
此外,通过数据发现处理,可以使得样本数据跟全量的数据库进行匹配,关联有效的数据,后续再进行特征提取和特征工程,把数据原始的含有转化为不可能泄密的抽样的结构化编码值,再应用到模型中,从而完全屏蔽数据泄密的可能性,其中,可以将转化输出的数字为一个0-1的分值,可见完全不可见原始数据的含义。
在步骤S310中,将上述样本数据、不同样本数据之间的关联关系和上述评估目标输入到模型构建系统中。
在步骤S312中,触发模型构建系统基于上述样本数据和模型构建系统中的模型构建规则进行模型的构建和训练,并通过评估目标对训练的模型进行评估处理,得到满足该评估目标的业务模型。
其中,模型构建规则中包括特征提取子规则和模型训练子规则,特征提取子规则通过一种或多种不同的特征提取算法构建,模型训练子规则通过一种或多种不同模型对应的算法构建,该数据特征是基于模型构建系统中的特征提取子规则对样本数据进行特征提取得到的特征,得到的满足评估目标的业务模型是基于模型构建系统中的模型训练子规则和上述数据特征进行模型的构建和训练得到的模型。模型训练子规则可以为基于自动机器学习AutoML算法构建。评估目标可以包括多种,例如,对于分类模型来说,评估目标可以由AUC、F1、Accuracy、Precision-Recall或KS等确定。对于回归模型来说,评估目标可以由EVS(explained variance score)、MAPE(mean absolute percentage error)、MAE(meanabsolute error)、MSE(mean squared error)、RMSE(root mean squared error)、RMSLE(root mean squared logarithmic error)或R2score等确定。如果还需要其他评估目标,则可以根据数据的模型文件执行一个预测批量任务,并将数据预测结果提供给用户进行自定义分析。
在实施中,模型构建系统接收到样本数据后,可以从模型构建规则中提取特征提取子规则,该特征提取子规则可以通过一种或多种不同的特征提取算法构建,可以通过特征提取子规则对样本数据进行特征提取,得到相应的数据特征,其中,通过特征提取子规则对样本数据进行特征提取的方法可以包括多种,例如基于时间序列(即Time series)的特征提取、基于获取的对象(即Velocity)的特征提取、基于拓扑(即Topology)的特征提取、基于顺序(即Sequence)的特征提取、基于特征交互(即Feature Interaction)的特征提取、基于数字(即Numerical)的特征提取、基于一位有效编码(即One-hot Encoding)的特征提取、基于频率编码(即Frequency Encoding)的特征提取、基于评估目标统计(即Target BasedStatistics)的特征提取、基于Embedding的特征提取等。
需要说明的是,针对实时聚合的数据特征,可以采用蒙特卡洛搜索树的方式进行特征探索,蒙特卡洛搜索树是一种基于树数据结构、能权衡探索与利用、在搜索空间巨大仍然比较有效的搜索算法。蒙特卡洛搜索树主要包括选择Selection、扩展Expansion、模拟Simulation和回溯Backpropagation四个阶段,其中,选择Selection阶段可以从根节点出发,向下每次都选一个“最优的子节点”,直到到达一个“存在未扩展的子节点”的节点。其中的“存在未扩展的子节点”可以是指存在未走过的方式。扩展Expansion阶段可以给该节点加上一个0/0子节点(还没有试过的一个方式)。模拟Simluation阶段可以从上述没有试过的方式开始,用快速走子策略(Rollout policy)走到底,得到一个结果。其中,快速走子策略适合选择一个路径较通畅但走子很快的策略。回溯Backpropagation阶段可以把模拟的结果加到父节点上。
此外,对于特征搜索,可以通过如图5所示的过程实现,即顶端为根节点、第二层为p、num和num1节点,其中上述节点中所代表的信息如括号中所示,第三层为p、h、num和h节点,其中上述节点中所代表的信息如括号中所示,第三层为h和h节点,其中上述节点中所代表的信息如括号中所示,通过上述方式得到的特征可以到达很好的效果,具体可以如图6所示。
模型训练子规则可以基于自动机器学习AutoML算法构建,AutoML算法可以包括如GBDT算法、XGBOOST算法、GBM算法、逻辑回归算法、线性回归算法和随机森林算法等。
模型训练子规则中可以包括一种或多种模型的算法,在模型训练子规则中可以包括模型选择、算法选择、优化策略和评估策略等,其中,模型选择可以包括:选择一个模型架构,并可以设定该模型架构对应的参数,该参数可以是预先设置的参数,而非通过模型训练得到的参数,具体如树的数量深度、神经网络的学习率、神经网络的结构(包括层数,不同层的类型,层之间的连接方式等)等。相应地,AutoML算法的目的就是自动选择出一个最合适的模型架构,并且能够设定最优参数。对于算法选择,AutoML算法的目的是自动选择出一个优化算法,以便能够达到效率和精度的平衡。其中的优化算法可以包括SGD(StochasticGradient Descent,随机梯度下降法)、L-BFGS(Limited-Memory BFGS)、GD(GradientDescent,梯度下降法)等。基本的评估策略可以包括:直接评估、Early Stop、参数重用和共轭评价。当遇到某些极端情况时,模型的表现效果可能不理想,可以考虑进行Early Stop。其中的参数重用可以将之前学习过的参数重复利用到新一轮的模型训练上。高级评估策略可以包括:Meta-Learning和Transfer Learning。其中,Meta-Learning法可以从之前的学习中提炼出基本的参数和结构配置,Transfer Learning法可以从之前的学习经验中提炼出可以重用的一些信息。
另外,由于数据特征的空间是无比巨大的,因此实际在设计系统执行时考虑多个迭代并发的形式执行,在经过N(N大于或等于1)次迭代,每次迭代保留当次排在前N位的数据特征的特征列表,并把相应的特征重要性反馈给上述特征生成机制,然后特征生成机制可以根据反馈再修正特征探索的空间。
其中,迭代N次也不需要进行评估,而可以使用上述的Early Stopping策略,具体的策略可以如:(1)设定阈值,可以根据阈值,以及用户提供的评估目标,执行上述迭代过程,如果迭代的效果已经超过评估目标,则可以终止迭代。(2)通过迭代过程,得到的最好效果连续预定次数的迭代后该效果没有提升,则可以终止迭代。(3)设定终止时间,当到达设置的终止时间时,则可以终止迭代。
需要说明的是,基于上述内容,数据特征可以包括基于模型构建系统中的特征提取子规则对样本数据进行特征提取得到的第一数据特征和基于已进行模型训练且训练的模型对应的特征重要性超过预定阈值的第一数据特征对特征提取子规则进行修正后生成的第二数据特征。此外,模型的训练可以包括训练集样本数据、验证集样本数据和测试集样本数据,训练集样本数据、验证集样本数据可以根据用户提供的样本进行自动拆解得到,还可以提供以训练好的模型的批量预测能力,供用户验证测试集的效果。
在步骤S314中,输出满足上述评估目标的业务模型。
在步骤S316中,输出下述信息中的一种或多种:模型构建系统对上述样本数据进行特征提取所得到的数据特征、提取的该数据特征对应的样本数据的相关信息、提取的数据特征对应的特征提取类型。
其中,提取的该数据特征对应的样本数据的相关信息可以包括样本数据的来源信息等,提取的数据特征对应的特征提取类型可以用于表征样本数据做了何种类型的特征提取等。
本说明书实施例提供一种模型构建方法,通过获取构建业务模型所需的构建参数数据,该构建参数数据中包括构建的业务模型所需达到的评估目标,然后,可以根据构建参数数据,确定构建业务模型所需使用的样本数据,可以将将样本数据和评估目标输入到预定模型构建系统中,以基于样本数据和模型构建系统中的模型构建规则进行模型的构建和训练,并通过评估目标对训练的模型进行评估处理,得到满足评估目标的业务模型,最终,可以输出满足评估目标的业务模型,这样,用户只需要提供构建参数数据即可完整对样本数据的特征提取、通过数据特征进行模型训练和模型评估的过程,在此过程中用户不需要参与,从而不需要用户预先了解各个不同的模型的特点,以及特征提取的相关信息,即可以得到满足用户设定的评估目标的业务模型,从而大大减少了用户在建模过程中的人工参与,提高了模型构建的效率,而且,能够基于样本数据进行特征挖掘、自动特征工程、模型选择和模型调参等,进而构建端到端的建模机制。
此外,通过数据发现,可以使得样本数据与全量的数据库进行匹配,关联有效的数据,在进行特征提取和特征工程,把数据原始的含有转化为不可能泄密的抽样的结构化编码值,再应用到模型的训练中,完全屏蔽数据泄密的可能性,而且,本方法可以大大降低机器学习应用的门槛,提供一套AutoML算法的自动化平台,使得模型的构建智能化,另外,还可以在不开放赝本数据的提前下通过算法验证样本数据的效果,从而既保障数据安全,又能验证数据效果,并且,通过算法可以解决人力无法进行的大数据下数据挖掘和验证的困难,打破了思考问题局限性的思维,通过数据效果验证数据关联性。
实施例三
以上为本说明书实施例提供的模型构建方法,基于同样的思路,本说明书实施例还提供一种模型构建装置,如图7所示。
该模型构建装置包括:参数获取模块701、样本获取模块702、模型构建模块703和模型输出模块704,其中:
参数获取模块,获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标;
样本获取模块,根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据;
模型构建模块,将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型;
模型输出模块,输出满足所述评估目标的业务模型。
本说明书实施例中,所述构建参数数据中包括业务标识,所述样本获取模块,包括:
待选样本获取单元,基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括至少一种类型的样本数据;
样本获取单元,根据预先设定的不同类型对应的数据获取比例和所述待选样本数据的总数量,分别从所述待选样本数据中选取所述至少一种类型中的每种类型对应的数量的样本数据,将选取的样本数据作为构建应用于目标业务的业务模型所需的样本数据。
本说明书实施例中,所述构建参数数据中包括业务标识,所述样本获取模块,包括:
待选样本获取单元,基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
第一类型确定单元,确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
第一样本获取单元,将所述第二类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并从所述第一类型对应的样本数据中选取预定数量的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定数量基于所述第二类型对应的样本数据的数量确定。
本说明书实施例中,所述构建参数数据中包括业务标识,所述样本获取模块,包括:
待选样本获取单元,基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
第二类型确定单元,确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
第二样本获取单元,对所述第二类型对应的样本数据进行有放回的预定次数的采样,采集的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并将所述第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定次数基于所述第一类型对应的样本数据的数量确定。
本说明书实施例中,所述待选样本数据为执行所述业务标识对应的目标业务的过程中产生的业务数据,或者为对所述业务数据进行处理得到的结构化数据,或者为执行所述目标业务的过程中产生的结构化数据和/或非结构化数据。
本说明书实施例中,所述待选样本获取单元,基于所述业务标识和预定数据搜索算法,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述预定数据搜索算法为基于数据哈希的方式进行数据搜索的算法。
本说明书实施例中,所述模型构建模块,包括:
关联关系确定单元,对所述样本数据进行分析,确定不同样本数据之间的关联关系;
模型构建单元,将所述样本数据、所述不同样本数据之间的关联关系和所述评估目标输入到所述模型构建系统中。
本说明书实施例中,所述装置还包括:
信息输出模块,输出下述信息中的一种或多种:所述模型构建系统对所述样本数据进行特征提取所得到的数据特征、提取的所述数据特征对应的所述样本数据的相关信息、提取的所述数据特征对应的特征提取类型。
本说明书实施例中,所述模型构建规则中包括特征提取子规则和模型训练子规则,所述特征提取子规则通过一种或多种不同的特征提取算法构建,所述模型训练子规则通过一种或多种不同模型对应的算法构建,所述数据特征是基于所述模型构建系统中的所述特征提取子规则对所述样本数据进行特征提取得到的特征,所述输出的满足所述评估目标的业务模型是基于所述模型构建系统中的所述模型训练子规则和所述数据特征进行模型的构建和训练得到的模型。
本说明书实施例中,所述模型训练子规则为基于自动机器学习AutoML算法构建。
本说明书实施例中,所述数据特征包括基于所述模型构建系统中的所述特征提取子规则对所述样本数据进行特征提取得到的第一数据特征和基于已进行模型训练且训练的模型对应的特征重要性超过预定阈值的所述第一数据特征对所述特征提取子规则进行修正后生成的第二数据特征。
本说明书实施例提供一种模型构建装置,通过获取构建业务模型所需的构建参数数据,该构建参数数据中包括构建的业务模型所需达到的评估目标,然后,可以根据构建参数数据,确定构建业务模型所需使用的样本数据,可以将将样本数据和评估目标输入到预定模型构建系统中,以基于样本数据和模型构建系统中的模型构建规则进行模型的构建和训练,并通过评估目标对训练的模型进行评估处理,得到满足评估目标的业务模型,最终,可以输出满足评估目标的业务模型,这样,用户只需要提供构建参数数据即可完整对样本数据的特征提取、通过数据特征进行模型训练和模型评估的过程,在此过程中用户不需要参与,从而不需要用户预先了解各个不同的模型的特点,以及特征提取的相关信息,即可以得到满足用户设定的评估目标的业务模型,从而大大减少了用户在建模过程中的人工参与,提高了模型构建的效率,而且,能够基于样本数据进行特征挖掘、自动特征工程、模型选择和模型调参等,进而构建端到端的建模机制。
此外,通过数据发现,可以使得样本数据与全量的数据库进行匹配,关联有效的数据,在进行特征提取和特征工程,把数据原始的含有转化为不可能泄密的抽样的结构化编码值,再应用到模型的训练中,完全屏蔽数据泄密的可能性,而且,本方法可以大大降低机器学习应用的门槛,提供一套AutoML算法的自动化平台,使得模型的构建智能化,另外,还可以在不开放赝本数据的提前下通过算法验证样本数据的效果,从而既保障数据安全,又能验证数据效果,并且,通过算法可以解决人力无法进行的大数据下数据挖掘和验证的困难,打破了思考问题局限性的思维,通过数据效果验证数据关联性。
实施例四
以上为本说明书实施例提供的模型构建装置,基于同样的思路,本说明书实施例还提供一种模型构建设备,如图8所示。
所述模型构建设备可以为上述实施例提供的终端设备或服务器。
模型构建设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对模型构建设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在模型构建设备上执行存储器802中的一系列计算机可执行指令。模型构建设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806。
具体在本实施例中,模型构建设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对模型构建设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标;
根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据;
将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型;
输出满足所述评估目标的业务模型。
本说明书实施例中,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括至少一种类型的样本数据;
根据预先设定的不同类型对应的数据获取比例和所述待选样本数据的总数量,分别从所述待选样本数据中选取所述至少一种类型中的每种类型对应的数量的样本数据,将选取的样本数据作为构建应用于目标业务的业务模型所需的样本数据。
本说明书实施例中,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
将所述第二类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并从所述第一类型对应的样本数据中选取预定数量的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定数量基于所述第二类型对应的样本数据的数量确定。
本说明书实施例中,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
对所述第二类型对应的样本数据进行有放回的预定次数的采样,采集的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并将所述第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定次数基于所述第一类型对应的样本数据的数量确定。
本说明书实施例中,所述待选样本数据为执行所述业务标识对应的目标业务的过程中产生的业务数据,或者为对所述业务数据进行处理得到的结构化数据,或者为执行所述目标业务的过程中产生的结构化数据和/或非结构化数据。
本说明书实施例中,所述基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,包括:
基于所述业务标识和预定数据搜索算法,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述预定数据搜索算法为基于数据哈希的方式进行数据搜索的算法。
本说明书实施例中,所述将所述样本数据和所述评估目标输入到预定模型构建系统中,包括:
对所述样本数据进行分析,确定不同样本数据之间的关联关系;
将所述样本数据、所述不同样本数据之间的关联关系和所述评估目标输入到所述模型构建系统中。
本说明书实施例中,还包括:
输出下述信息中的一种或多种:所述模型构建系统对所述样本数据进行特征提取所得到的数据特征、提取的所述数据特征对应的所述样本数据的相关信息、提取的所述数据特征对应的特征提取类型。
本说明书实施例中,所述模型构建规则中包括特征提取子规则和模型训练子规则,所述特征提取子规则通过一种或多种不同的特征提取算法构建,所述模型训练子规则通过一种或多种不同模型对应的算法构建,所述数据特征是基于所述模型构建系统中的所述特征提取子规则对所述样本数据进行特征提取得到的特征,所述输出的满足所述评估目标的业务模型是基于所述模型构建系统中的所述模型训练子规则和所述数据特征进行模型的构建和训练得到的模型。
本说明书实施例中,所述模型训练子规则为基于自动机器学习AutoML算法构建。
本说明书实施例中,所述数据特征包括基于所述模型构建系统中的所述特征提取子规则对所述样本数据进行特征提取得到的第一数据特征和基于已进行模型训练且训练的模型对应的特征重要性超过预定阈值的所述第一数据特征对所述特征提取子规则进行修正后生成的第二数据特征。
本说明书实施例提供一种模型构建设备,通过获取构建业务模型所需的构建参数数据,该构建参数数据中包括构建的业务模型所需达到的评估目标,然后,可以根据构建参数数据,确定构建业务模型所需使用的样本数据,可以将将样本数据和评估目标输入到预定模型构建系统中,以基于样本数据和模型构建系统中的模型构建规则进行模型的构建和训练,并通过评估目标对训练的模型进行评估处理,得到满足评估目标的业务模型,最终,可以输出满足评估目标的业务模型,这样,用户只需要提供构建参数数据即可完整对样本数据的特征提取、通过数据特征进行模型训练和模型评估的过程,在此过程中用户不需要参与,从而不需要用户预先了解各个不同的模型的特点,以及特征提取的相关信息,即可以得到满足用户设定的评估目标的业务模型,从而大大减少了用户在建模过程中的人工参与,提高了模型构建的效率,而且,能够基于样本数据进行特征挖掘、自动特征工程、模型选择和模型调参等,进而构建端到端的建模机制。
此外,通过数据发现,可以使得样本数据与全量的数据库进行匹配,关联有效的数据,在进行特征提取和特征工程,把数据原始的含有转化为不可能泄密的抽样的结构化编码值,再应用到模型的训练中,完全屏蔽数据泄密的可能性,而且,本方法可以大大降低机器学习应用的门槛,提供一套AutoML算法的自动化平台,使得模型的构建智能化,另外,还可以在不开放赝本数据的提前下通过算法验证样本数据的效果,从而既保障数据安全,又能验证数据效果,并且,通过算法可以解决人力无法进行的大数据下数据挖掘和验证的困难,打破了思考问题局限性的思维,通过数据效果验证数据关联性。
实施例五
进一步地,基于上述图1至图6所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标;
根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据;
将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型;
输出满足所述评估目标的业务模型。
本说明书实施例中,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括至少一种类型的样本数据;
根据预先设定的不同类型对应的数据获取比例和所述待选样本数据的总数量,分别从所述待选样本数据中选取所述至少一种类型中的每种类型对应的数量的样本数据,将选取的样本数据作为构建应用于目标业务的业务模型所需的样本数据。
本说明书实施例中,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
将所述第二类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并从所述第一类型对应的样本数据中选取预定数量的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定数量基于所述第二类型对应的样本数据的数量确定。
本说明书实施例中,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
对所述第二类型对应的样本数据进行有放回的预定次数的采样,采集的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并将所述第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定次数基于所述第一类型对应的样本数据的数量确定。
本说明书实施例中,所述待选样本数据为执行所述业务标识对应的目标业务的过程中产生的业务数据,或者为对所述业务数据进行处理得到的结构化数据,或者为执行所述目标业务的过程中产生的结构化数据和/或非结构化数据。
本说明书实施例中,所述基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,包括:
基于所述业务标识和预定数据搜索算法,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述预定数据搜索算法为基于数据哈希的方式进行数据搜索的算法。
本说明书实施例中,所述将所述样本数据和所述评估目标输入到预定模型构建系统中,包括:
对所述样本数据进行分析,确定不同样本数据之间的关联关系;
将所述样本数据、所述不同样本数据之间的关联关系和所述评估目标输入到所述模型构建系统中。
本说明书实施例中,还包括:
输出下述信息中的一种或多种:所述模型构建系统对所述样本数据进行特征提取所得到的数据特征、提取的所述数据特征对应的所述样本数据的相关信息、提取的所述数据特征对应的特征提取类型。
本说明书实施例中,所述模型构建规则中包括特征提取子规则和模型训练子规则,所述特征提取子规则通过一种或多种不同的特征提取算法构建,所述模型训练子规则通过一种或多种不同模型对应的算法构建,所述数据特征是基于所述模型构建系统中的所述特征提取子规则对所述样本数据进行特征提取得到的特征,所述输出的满足所述评估目标的业务模型是基于所述模型构建系统中的所述模型训练子规则和所述数据特征进行模型的构建和训练得到的模型。
本说明书实施例中,所述模型训练子规则为基于自动机器学习AutoML算法构建。
本说明书实施例中,所述数据特征包括基于所述模型构建系统中的所述特征提取子规则对所述样本数据进行特征提取得到的第一数据特征和基于已进行模型训练且训练的模型对应的特征重要性超过预定阈值的所述第一数据特征对所述特征提取子规则进行修正后生成的第二数据特征。
本说明书实施例提供一种存储介质,通过获取构建业务模型所需的构建参数数据,该构建参数数据中包括构建的业务模型所需达到的评估目标,然后,可以根据构建参数数据,确定构建业务模型所需使用的样本数据,可以将将样本数据和评估目标输入到预定模型构建系统中,以基于样本数据和模型构建系统中的模型构建规则进行模型的构建和训练,并通过评估目标对训练的模型进行评估处理,得到满足评估目标的业务模型,最终,可以输出满足评估目标的业务模型,这样,用户只需要提供构建参数数据即可完整对样本数据的特征提取、通过数据特征进行模型训练和模型评估的过程,在此过程中用户不需要参与,从而不需要用户预先了解各个不同的模型的特点,以及特征提取的相关信息,即可以得到满足用户设定的评估目标的业务模型,从而大大减少了用户在建模过程中的人工参与,提高了模型构建的效率,而且,能够基于样本数据进行特征挖掘、自动特征工程、模型选择和模型调参等,进而构建端到端的建模机制。
此外,通过数据发现,可以使得样本数据与全量的数据库进行匹配,关联有效的数据,在进行特征提取和特征工程,把数据原始的含有转化为不可能泄密的抽样的结构化编码值,再应用到模型的训练中,完全屏蔽数据泄密的可能性,而且,本方法可以大大降低机器学习应用的门槛,提供一套AutoML算法的自动化平台,使得模型的构建智能化,另外,还可以在不开放赝本数据的提前下通过算法验证样本数据的效果,从而既保障数据安全,又能验证数据效果,并且,通过算法可以解决人力无法进行的大数据下数据挖掘和验证的困难,打破了思考问题局限性的思维,通过数据效果验证数据关联性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程模型构建设备的处理器以产生一个机器,使得通过计算机或其他可编程模型构建设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程模型构建设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程模型构建设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (18)

1.一种模型构建方法,所述方法包括:
获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标;
根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据;
将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型;
输出满足所述评估目标的业务模型。
2.根据权利要求1所述的方法,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括至少一种类型的样本数据;
根据预先设定的不同类型对应的数据获取比例和所述待选样本数据的总数量,分别从所述待选样本数据中选取所述至少一种类型中的每种类型对应的数量的样本数据,将选取的样本数据作为构建应用于目标业务的业务模型所需的样本数据。
3.根据权利要求1所述的方法,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
将所述第二类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并从所述第一类型对应的样本数据中选取预定数量的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定数量基于所述第二类型对应的样本数据的数量确定。
4.根据权利要求1所述的方法,所述构建参数数据中包括业务标识,所述根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据,包括:
基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
对所述第二类型对应的样本数据进行有放回的预定次数的采样,采集的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并将所述第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定次数基于所述第一类型对应的样本数据的数量确定。
5.根据权利要求2-4中任一项所述的方法,所述待选样本数据为执行所述业务标识对应的目标业务的过程中产生的业务数据,或者为对所述业务数据进行处理得到的结构化数据,或者为执行所述目标业务的过程中产生的结构化数据和/或非结构化数据。
6.根据权利要求2-4中任一项所述的方法,所述基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,包括:
基于所述业务标识和预定数据搜索算法,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述预定数据搜索算法为基于数据哈希的方式进行数据搜索的算法。
7.根据权利要求1所述的方法,所述将所述样本数据和所述评估目标输入到预定模型构建系统中,包括:
对所述样本数据进行分析,确定不同样本数据之间的关联关系;
将所述样本数据、所述不同样本数据之间的关联关系和所述评估目标输入到所述模型构建系统中。
8.根据权利要求1所述的方法,所述方法还包括:
输出下述信息中的一种或多种:所述模型构建系统对所述样本数据进行特征提取所得到的数据特征、提取的所述数据特征对应的所述样本数据的相关信息、提取的所述数据特征对应的特征提取类型。
9.根据权利要求8所述的方法,所述模型构建规则中包括特征提取子规则和模型训练子规则,所述特征提取子规则通过一种或多种不同的特征提取算法构建,所述模型训练子规则通过一种或多种不同模型对应的算法构建,所述数据特征是基于所述模型构建系统中的所述特征提取子规则对所述样本数据进行特征提取得到的特征,所述输出的满足所述评估目标的业务模型是基于所述模型构建系统中的所述模型训练子规则和所述数据特征进行模型的构建和训练得到的模型。
10.根据权利要求9所述的方法,所述模型训练子规则为基于自动机器学习AutoML算法构建。
11.根据权利要求9所述的方法,所述数据特征包括基于所述模型构建系统中的所述特征提取子规则对所述样本数据进行特征提取得到的第一数据特征和基于已进行模型训练且训练的模型对应的特征重要性超过预定阈值的所述第一数据特征对所述特征提取子规则进行修正后生成的第二数据特征。
12.一种模型构建装置,所述装置包括:
参数获取模块,获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标;
样本获取模块,根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据;
模型构建模块,将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型;
模型输出模块,输出满足所述评估目标的业务模型。
13.根据权利要求12所述的装置,所述构建参数数据中包括业务标识,所述样本获取模块,包括:
待选样本获取单元,基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括至少一种类型的样本数据;
样本获取单元,根据预先设定的不同类型对应的数据获取比例和所述待选样本数据的总数量,分别从所述待选样本数据中选取所述至少一种类型中的每种类型对应的数量的样本数据,将选取的样本数据作为构建应用于目标业务的业务模型所需的样本数据。
14.根据权利要求12所述的装置,所述构建参数数据中包括业务标识,所述样本获取模块,包括:
待选样本获取单元,基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
第一类型确定单元,确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
第一样本获取单元,将所述第二类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并从所述第一类型对应的样本数据中选取预定数量的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定数量基于所述第二类型对应的样本数据的数量确定。
15.根据权利要求12所述的装置,所述构建参数数据中包括业务标识,所述样本获取模块,包括:
待选样本获取单元,基于所述业务标识,从所述业务标识对应的数据库中获取用于构建所述业务模型的待选样本数据,所述待选样本数据包括多种类型的样本数据;
第二类型确定单元,确定所述待选样本数据中样本数据的数量超过第一预定阈值的第一类型和所述待选样本数据中样本数据的数量未超过第二预定阈值的第二类型,所述第一预定阈值大于或等于所述第二预定阈值;
第二样本获取单元,对所述第二类型对应的样本数据进行有放回的预定次数的采样,采集的样本数据作为构建应用于目标业务的业务模型所需的样本数据,并将所述第一类型对应的样本数据作为构建应用于目标业务的业务模型所需的样本数据,所述预定次数基于所述第一类型对应的样本数据的数量确定。
16.根据权利要求12所述的装置,所述装置还包括:
信息输出模块,输出下述信息中的一种或多种:所述模型构建系统对所述样本数据进行特征提取所得到的数据特征、提取的所述数据特征对应的所述样本数据的相关信息、提取的所述数据特征对应的特征提取类型。
17.一种模型构建设备,所述模型构建设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标;
根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据;
将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型;
输出满足所述评估目标的业务模型。
18.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取构建业务模型所需的构建参数数据,所述构建参数数据中包括构建的所述业务模型所需达到的评估目标;
根据所述构建参数数据,确定构建所述业务模型所需使用的样本数据;
将所述样本数据和所述评估目标输入到预定模型构建系统中,以基于所述样本数据和所述模型构建系统中的模型构建规则进行模型的构建和训练,并通过所述评估目标对训练的模型进行评估处理,得到满足所述评估目标的业务模型;
输出满足所述评估目标的业务模型。
CN202010631130.0A 2020-07-03 2020-07-03 一种模型构建方法、装置及设备 Pending CN111782637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010631130.0A CN111782637A (zh) 2020-07-03 2020-07-03 一种模型构建方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010631130.0A CN111782637A (zh) 2020-07-03 2020-07-03 一种模型构建方法、装置及设备

Publications (1)

Publication Number Publication Date
CN111782637A true CN111782637A (zh) 2020-10-16

Family

ID=72759257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010631130.0A Pending CN111782637A (zh) 2020-07-03 2020-07-03 一种模型构建方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111782637A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784420A (zh) * 2021-01-26 2021-05-11 支付宝(杭州)信息技术有限公司 一种风控策略的仿真评估方法、装置及设备
CN112860955A (zh) * 2021-03-01 2021-05-28 杨皓淳 基于云计算和大数据的业务数据管理系统和方法
CN113553097A (zh) * 2021-07-30 2021-10-26 上海玳鸽信息技术有限公司 模型版本管理方法及装置
CN114579110A (zh) * 2022-05-05 2022-06-03 支付宝(杭州)信息技术有限公司 优化模型的求解方法、电子设备、应用程序及存储介质
TWI787669B (zh) * 2020-11-16 2022-12-21 國立陽明交通大學 基於模型處方的自動機器學習之系統與方法
WO2023217026A1 (zh) * 2022-05-13 2023-11-16 维沃移动通信有限公司 业务处理方法、设备及可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI787669B (zh) * 2020-11-16 2022-12-21 國立陽明交通大學 基於模型處方的自動機器學習之系統與方法
CN112784420A (zh) * 2021-01-26 2021-05-11 支付宝(杭州)信息技术有限公司 一种风控策略的仿真评估方法、装置及设备
CN112860955A (zh) * 2021-03-01 2021-05-28 杨皓淳 基于云计算和大数据的业务数据管理系统和方法
CN112860955B (zh) * 2021-03-01 2022-03-08 杨皓淳 基于云计算和大数据的业务数据管理系统和方法
CN113553097A (zh) * 2021-07-30 2021-10-26 上海玳鸽信息技术有限公司 模型版本管理方法及装置
CN113553097B (zh) * 2021-07-30 2022-11-18 上海玳鸽信息技术有限公司 模型版本管理方法及装置
CN114579110A (zh) * 2022-05-05 2022-06-03 支付宝(杭州)信息技术有限公司 优化模型的求解方法、电子设备、应用程序及存储介质
CN114579110B (zh) * 2022-05-05 2022-08-19 支付宝(杭州)信息技术有限公司 优化模型的求解方法、电子设备、应用程序及存储介质
WO2023217026A1 (zh) * 2022-05-13 2023-11-16 维沃移动通信有限公司 业务处理方法、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111782637A (zh) 一种模型构建方法、装置及设备
Wang et al. Deep model for dropout prediction in MOOCs
WO2021046551A1 (en) Graph evolution and outcome determination for graph-defined program states
CN113901799B (zh) 模型训练、文本预测方法、装置、电子设备及介质
CN103927302A (zh) 一种文本分类方法和系统
CN109033277A (zh) 基于机器学习的类脑系统、方法、设备及存储介质
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN111563192A (zh) 实体对齐方法、装置、电子设备及存储介质
CN112153426A (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN110263817B (zh) 一种基于用户账号的风险等级划分方法及装置
CN115878902A (zh) 基于神经网络模型的融媒体平台自动信息关键主题提取系统
García‐Ortega et al. StarTroper, a film trope rating optimizer using machine learning and evolutionary algorithms
CN115470328A (zh) 基于知识图谱的开放领域问答方法及相关设备
Madaan et al. Conditional set generation using seq2seq models
Zhong et al. Javascript code suggestion based on deep learning
CN108595395B (zh) 一种昵称的生成方法、装置及设备
Wakchaure et al. A scheme of answer selection in community question answering using machine learning techniques
Wirsch Analysis of a top-down bottom-up data analysis framework and software architecture design
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN111242520B (zh) 特征合成模型的生成方法、装置及电子设备
CN114547310A (zh) 一种假新闻早期检测方法、系统、设备及介质
CN110493088B (zh) 一种基于url的移动互联网流量分类方法
CN113869049A (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination