CN109165249B - 数据处理模型构建方法、装置、服务器和用户端 - Google Patents

数据处理模型构建方法、装置、服务器和用户端 Download PDF

Info

Publication number
CN109165249B
CN109165249B CN201810889565.8A CN201810889565A CN109165249B CN 109165249 B CN109165249 B CN 109165249B CN 201810889565 A CN201810889565 A CN 201810889565A CN 109165249 B CN109165249 B CN 109165249B
Authority
CN
China
Prior art keywords
model
data
data processing
training
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810889565.8A
Other languages
English (en)
Other versions
CN109165249A (zh
Inventor
钱江
何昌华
胡喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810889565.8A priority Critical patent/CN109165249B/zh
Publication of CN109165249A publication Critical patent/CN109165249A/zh
Priority to TW108119718A priority patent/TWI703458B/zh
Priority to EP19847397.7A priority patent/EP3779723A4/en
Priority to PCT/CN2019/091853 priority patent/WO2020029689A1/zh
Priority to SG11202010515VA priority patent/SG11202010515VA/en
Application granted granted Critical
Publication of CN109165249B publication Critical patent/CN109165249B/zh
Priority to US17/106,833 priority patent/US11210569B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本说明书提供了一种数据处理模型构建方法、装置、服务器和用户端。方法包括:获取目标数据处理模型的模型描述参数和样本数据;根据所述模型描述参数和所述样本数据,确定基础模型;根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。在本说明书实施例中,通过有针对性地获取模型描述参数,并基于模型描述参数,服务器能够准确地确定出用户的建模要求,并根据用户的建模要求自动匹配到合适的模型作为基础模型,再进行相应的数据处理模型的构建,从而使得用户不用再繁琐地去做测试、特征工程、模型选择、模型参数搜索等操作来寻找合适的基础模型,降低了用户的操作难度,提高了处理效率。

Description

数据处理模型构建方法、装置、服务器和用户端
技术领域
本说明书属于互联网技术领域,尤其涉及一种数据处理模型构建方法、装置、服务器和用户端。
背景技术
随着人工智能技术的发展,通过机器学习构建相应的数据处理模型,再利用所构建的数据处理模型对目标数据进行具体的数据处理,这种数据处理方法在越来越多的领域得到普及应用。
目前,基于现有方法构建上述数据处理模型时,用户需要同时设计并通过对应的代码程序等对多个可能的模型分析进行测试分析等操作(例如包括特征工程、模型选择、模型参数搜索等),以确定出满足目标数据处理要求、合适的模型作为基础模型,再基于该基础模型训练构建所需要的目标数据处理模型。上述方法在实现过程中,对用户的专业能力(例如对模型结构的测试、模型的数据分析等)要求相对较高,并且每一次构建数据处理模型都需要用户手动进行多次测试来找到合适的基础模型,势必会增加处理过程的复杂度,影响处理效率。因此,亟需一种更加简便、高效的数据处理模型构建方法,使得用户不用再繁琐地做测试、分析来寻找合适的模型作为基础模型,从而降低了用户的操作难度,提高了处理效率。
发明内容
本说明书目的在于提供一种数据处理模型构建方法、装置、服务器和用户端,使得用户不用自己繁琐地去做测试、分析来寻找合适的基础模型,构建目标数据处理模型,降低了用户的操作难度,提高了处理效率。
本说明书提供的一种数据处理模型构建方法、装置、服务器和用户端是这样实现的:
一种数据处理模型构建方法,包括:获取目标数据处理模型的模型描述参数和样本数据;根据所述模型描述参数和所述样本数据,确定基础模型;根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
一种数据处理方法,包括:获取待处理的目标数据;调用目标数据处理模型对所述目标数据进行数据处理,其中,所述目标数据处理模型是根据所获取的目标数据处理模型的模型描述参数和样本数据,确定基础模型,再根据所述样本数据对所述基础模型进行训练得到的。
一种数据处理方法,包括:显示数据输入界面;接收用户在所述数据输入界面输入的目标数据处理模型的模型描述参数,以及样本数据,其中,所述模型描述参数和所述样本数据用于确定基础模型,所述基础模型用于建立目标数据处理模型。
一种数据处理模型构建装置,包括:获取模块,用于获取目标数据处理模型的模型描述参数和样本数据;确定模块,用于根据所述模型描述参数和所述样本数据,确定基础模型;训练模块,用于根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取目标数据处理模型的模型描述参数和样本数据;根据所述模型描述参数和所述样本数据,确定基础模型;根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
一种用户端,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现显示数据输入界面;接收用户在所述数据输入界面输入的目标数据处理模型的模型描述参数,以及样本数据,其中,所述模型描述参数和所述样本数据用于确定基础模型,所述基础模型用于建立目标数据处理模型。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取目标数据处理模型的模型描述参数和样本数据;根据所述模型描述参数和所述样本数据,确定基础模型;根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
本说明书提供的一种数据处理模型构建方法、装置、服务器和用户端,由于通过有针对性地获取模型的描述参数,并基于模型的描述参数,服务器能够准确地确定出用户的建模要求,并根据用户的建模要求自动匹配到合适的模型作为基础模型,再进行相应的数据处理模型的构建,从而使得用户不用再繁琐地去做测试、分析来确定合适的基础模型,降低了用户的操作难度,提高了处理效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是基于本说明书实施例提供的数据处理模型构建方法的系统结构的一种实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的数据处理模型构建方法所展示的数据输入界面的一种实施例示意图;
图3是在一个场景示例中,应用本说明书实施例提供的数据处理模型构建方法筛选候选模型的一种实施例示意图;
图4是在一个场景示例中,应用本说明书实施例提供的数据处理模型构建方法筛选候选模型的另一种实施例示意图;
图5是本说明书实施例提供的数据处理模型构建方法的流程的一种实施例的示意图;
图6是本说明书实施例提供的数据处理方法的流程的一种实施例的示意图;
图7是本说明书实施例提供的数据处理方法的流程的另一种实施例的示意图;
图8是本说明书实施例提供的服务器的结构的一种实施例的示意图;
图9是本说明书实施例提供的用户端的结构的一种实施例的示意图;
图10是本说明书实施例提供的数据处理模型构建装置的结构的一种实施例的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
考虑到基于现有的数据处理模型构建方法,用户在通过机器学习构建目标数据处理模型的过程中,往往需要自己通过编代码等方式去测试、分析(例如具体可以包括:特征工程,模型选择,模型参数搜索等步骤),从多种可能的模型中确定适合的模型作为基础模型(或称初始模型)。但上述确定合适的模型作为基础模型对用户的专业性要求相对较高,操作难度相对较大。例如,可能需要用户具有较高的数据分析能力和编程知识,以便对基于各个测试模型所反馈的底层数据(例如程序代码等)进行解读、分析,以确定各个测试模型对所要处理的目标数据的适用性程度。此外,由于需要用户自己去寻找合适的基础模型,实施过程相对较为复杂,处理效率也相对较低。
针对产生上述问题的根本原因,本说明书考虑可以将模型的描述,以及相关的基础模型的确定分离出来。具体的,在面向用户一侧,可以允许用户提供较为简便的模型描述参数来表征用户对所需要的基础模型的要求限定,进而平台服务器可以根据模型描述参数自动为用户匹配到合适的模型作为基础模型,以便用户可以通过对该基础模型的训练来构建出自己所需要的数据处理模型,从而使得用户不用在繁琐地去做测试、分析来确定合适的基础模型,降低了用户的操作难度,提高了处理效率。
基于上述想法,本说明书实施方式提供一种数据处理模型构建方法,所述数据处理模型构建方法可以应用于包括服务器和用户端的系统中。可以参阅图1所示,其中,上述用户端和服务器相互耦合以进行具体的数据交互。
基于上述系统,用户可以通过用户端设定满足自己建模要求的模型描述参数,以及输入相应的样本数据。服务器可以接收用户端发送的模型描述参数和样本数据,并根据用户设定的模型描述参数和样本数据选择合适的模型作为基础模型以及对应的模型参数,进而可以将该基础模型和模型参数提供给用户,以便用户可以直接利用该基础模型进行目标数据处理模型的训练构建;也可以基于该基础模型和模型参数利用用户输入的样本数据自动进行目标数据处理模型的训练和构建。
在本实施方式中,所述服务器具体可以为具备数据分析、处理,以及数据通信功能的后台业务服务器。所述服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件。在本实施方式中并不具体限定所述服务器的数量。所述服务器可以为一个服务器,还可以为几个服务器,或者,若干服务器形成的服务器集群。
在本实施方式中,所述用户端可以为具备数据输入、数据展示,以及数据通信功能的端口设备。具体地,所述用户端例如可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、具有网络访问功能的电视机等。或者,所述用户端也可以为能够运行于上述电子设备中的软件应用、图形界面等。
在一个具体的场景示例中,用户可以应用本说明书实施例提供的数据处理模型构建方法,简单、高效地进行目标数据处理模型的训练构建。
在本场景示例中,用户想要构建一种能够识别图片中人物性别的数据处理模型。如果直接基于现有的数据处理模型构建方法,用户需要自己去对多种可能的模型进行测试、分析,以挑选适宜于识别图片人物性别的模型作为基础模型,再进行具体的数据处理模型的训练构建。对用户而言实现较为繁琐,操作难度较大,处理效率也相对较低。
而基于本说明书实施例提供的数据处理模型构建方法,平台服务器可以基于预先定义好的模型描述规则,为用户生成一种可以输入模型描述参数的数据输入界面,并将该数据输入界面发送至用户端。用户端可以向用户展示上述数据输入界面。具体可以参阅图2所示。数据输入界面上展示有多个待用户设定的模型描述参数。
其中,上述模型描述参数具体可以理解为一种由用户设定,能够有效地表征出待构建的目标数据处理模型的数据处理要求和/或用户定制要求的参数数据。这样,即使用户对于具体的底层数据不够了解,或者专业能力相对较弱,也可以根据想要构建的目标数据处理模型所要实现的数据处理,简便、高效地通过模型描述参数设置自己的建模要求。并且,上述参数数据符合模型描述规则。即服务器可以基于模型描述规则,通过用户端向用户展示相应的数据输入界面,以便用户能够按照与模型描述规则对应的格式设定具体的模型描述参数,进而可以准确地识别并确定出上述模型描述参数所包含的具体信息,并以上述信息作为依据为用户自动寻找匹配到满足待构建的目标数据处理模型实现要求和/或用户定制要求的模型(即合适的模型),作为基础模型。
具体的,上述模型描述参数可以包括:目标数据处理模型的名称(可以记为model_name)、数据标签(可以记为label)、数据特征(可以记为feature)、评估指标(可以记为eval_metrics)等。当然,需要说明的是,上述所列举的模型描述参数只是为了更好地说明本说明书实施方式。具体实施时,根据用户的具体情况和待构建的目标数据处理模型的具体特点,还可以引入其他类型的参数数据,例如模型类型等作为模型描述参数。对此,本说明书不作限定。
其中,上述目标数据处理模型的名称可以理解为用户想要构建的数据处理模型的标识符号,例如A模型,或者图片人物性别识别模型等。
上述数据标签可以理解为目标数据处理模型对目标数据进行数据处理得到的处理结果。例如,可以是通过数据处理模型预测或识别得到的结果数据(对应数据处理模型中的y列的数据)。具体的,例如,可以是通过数据处理模型识别图片人物性别得到的结果“男”或者“女”。
上述数据特征可以理解为目标数据处理模型在对目标数据进行数据处理的过程中用以作为处理依据的数据特征。例如,可以是数据处理模型从样本数据中提取出来的用于得到预测或识别结果的数据特征(对应数据处理模型中的x列的数据)。具体的,例如,可以是图片中人脸部位置处的毛发浓密程度、图片中人脖子位置处的凸起幅度、图片中人脸位置处的颜色值等。
上述评估指标(也可以称为评估参量)可以理解为一种能够评价目标数据处理模型数据处理精度、处理效率等性能的参数。
具体的,对于不同类型的数据处理模型,对应的评估指标可以不同。对于分类模型,上述评估指标可以包括AUC(Area Under roc Curve,曲线下面积)参数,该指标是一种用于度量模型的分类效果的评估指标,通常分类效果越好,精度越高,对应的AUC指标数值越大。此外,对于分类模型,上述评估指标还可以包括:准确率、平均准确率、对数损失函数、精确率-召回率、混淆矩阵等。对于回归模型,上述评估指标可以包括:平方根误差、Quantiles ofErrors(误差分位数)、Almost Correct Predictions(近似准确度预测)等。当然,需要说明的是,上述所列举的评估指标只是为了更好地说明本说明书实施方式。具体实施时,可以根据目标数据处理模型所要应用的数据处理的具体特点和用户的具体要求,选择其他合适的性能参数作为上述评估指标。对此,本说明书不作限定。
在本场景示例中,用户可以在用户所展示的数据输入界面中的数据处理模型的名称栏中设定名称为“WM”。在数据标签栏中分别设定数据标签1为“man”(对应男)、数据标签2为“woman”(对应女)。在数据特征栏中分别设定数据特征1为图片中人脸的颜色值,数据特征2为图片中人脸的光滑程度值,数据特征3为图片中人脖子位置的凸起幅度等。在评估指标栏中设定评估指标为“AUC”。
此外,上述数据输入界面上还提供有样本数据输入接口,用户可以通过该输入接口导入对应的样本数据。在场景示例中,上述样本数据具体可以是包含有人物的图片数据。
用户端通过上述数据输入界面接收用户设定的模型描述参数和样本数据,并通过网络将上述数据发送至平台服务器。
平台服务器在接收到模型描述参数和样本数据后,可以根据模型描述参数,结合样本数据自动地为用户进行测试和分析,进而为用户确定出满足用户要求的模型作为基础模型(也可以称初始模型);进而可以利用样本数据对该基础模型进行训练以构建得到用户所需要的能够识别图片中人物性别的目标数据处理模型。
具体实施时,服务器在收到模型描述参数后,可以先对模型描述参数进行解析,以确定出用户设定的目标数据处理模型的名称、数据标签、数据特征、评估指标等参数的具体数据。例如,可以通过解析确定出用户设定的目标数据处理模型的名称为“WM”;有两个数据标签,且数据标签1为“man”,数据标签2为“woman”;有三个数据特征,且数据特征1为图片中人脸的颜色值,数据特征2为图片中人脸的光滑程度值,数据特征3为图片中人脖子位置的凸起幅度;有一个评估指标为AUC参数。
进而,服务器通过对上述数据标签进行分析,可以发现数据标签的数量为2而不是1,且目标数据处理模型所要确定的是目标数据对应的是“man”还是“woman”。因此,可以确定出目标数据处理模型所要执行的数据处理是一种分类类型的数据处理。继而可以从预设的模型类型中进行检索,确定出与上述分类类型的数据处理匹配的模型为分类类型,因此将目标数据处理模型的基础模型的模型类型确定为分类类型。
在确定基础模型的模型类型为分类类型后,服务器可以检索预设的模型数据库,从满足基础模型的模型类型(即分类模型)的模型中筛选出多个模型作为候选模型,以便后续可以从上述多个候选模型中确定效果较好的模型作为基础模型。
在本场景示例中,为了能够尽可能从满足基础模型的模型类型的许多模型筛选出可能性较高、效果较好的模型作为候选模型进行后续的测试分析,排除干扰模型,避免对一些效果较差的模型浪费时间和资源进行测试分析,可以对所获取的多个满足基础模型的模型类型的模型进行进一步的筛选。
具体的,为了能够更加准确、快速地找到效果较好、较合适的候选模型,可以参阅图3所示,将样本数据作为输入,输入至预设的数据处理模型库中已经训练好的,且所应用的基础模型满足上述基础模型的模型类型的数据处理模型(例如数据处理模型AC、数据处理模型YU、数据处理模型B2)中,得到各个数据处理模型的数据处理结果(例如预测结果);再根据各个数据处理模型的数据处理结果统计得到各个数据处理模型的评估指标;再根据目标数据处理模型的评估指标,挑选出与目标数据处理模型的评估指标近似或者一致的数据处理模型AC作为推荐模型;并将推荐模型AC所应用的基础模型a_c确定为候选模型。
此外,还可以根据样本数据的数据类型,对满足基础模型的模型类型的多个模型进行筛选。可以参阅图4所示,可以先确定样本数据的数据类型,为图片数据。进而可以确定出目标数据处理模型后续要处理的目标数据也为图片数据。而对模型而言,不同种类的模型有的对图片数据的分析处理准确度比较高,有的对文本数据的分析处理比较高。为了提高后续构建的数据处理模型的准确度可以从满足所述基础模型的模型类型的多个模型中筛选出与图片数据匹配(或者适合处理图片数据)的模型作为候选模型。例如,可以提取出模型a_c、a_r、b_2、m等模型作为候选模型。
当然,需要说明的是,上述所列举的对满足基础模型的模型类型中的多个模型进行进一步筛选,以获取效果较好的模型作为候选模型的实现方式只是一种示意性说明,不应构成对本说明书的不当限定。
服务器在确定了多个候选模型后,可以对为多个候选模型中的各个候选模型分别建立预训练模型,再利用上述预训练模型进行测试分析,以选择出效果较好、适用于目标数据处理的,且满足用户要求的模型作为目标数据处理模型的基础模型。
具体的,服务器可以先获取的样本数据中提取预设比例的样本数据作为测试数据;再对所述测试数据进行预处理,得到处理后的测试数据;进而可以根据所述数据特征,从所述处理后的测试数据中选择出特征数据;根据所述特征数据分别对所述多个候选模型中的各个候选模型进行训练,得到所述预训练模型。
在本场景示例中,具体实施时,服务器可以随机提取样本数据中10%的样本数据作为测试数据。当然该数值可以根据具体情况设定,例如,如果想要提高所确定的基础模型的准确度,可以增加该比例值,以增加测试数据的数量。如果想要提高确定基础模型的速度,可以减少该比例值,以减少测试数据的数量。对此,本说明书不作限定。
上述预处理具体可以包括降维处理、清洗处理等等。当然上述所列举的预处理方式只是为了更好地说明本说明书实施方式。具体实施时,可以根据具体的应用场景和要求选择合适的预处理方式。对此,本说明书不作限定。
在本场景示例中,具体实施时,服务器可以根据数据特征1图片中人脸的颜色值,有针对性地提取出测试数据中图片中表征人脸的颜色值的那部分数据作为第一特征数据。类似的,可以分别提取出测试数据中图片中表征人脸的光滑程度值、人脖子位置的凸起幅度的那部分数据作为第二特征数据、第三特征数据。进而可以根据上述第一特征数据、第二特征数据、第三特征数据分别对多个候选模型进行训练,以得到较为简单的多个预训练模型。其中,每一个预训练模型是基于一种候选模型得到的。
在得到多个预训练模型后,服务器还可以根据预训练模型,通过模型参数搜索确定出各个预训练模型所对应的模型参数。其中,上述模型参数可以理解为预训练模型运行时所要涉及到的相关运行参数。具体的,上述模型参数可以包括:迭代次数、收敛条件、运行时间等等。
进一步,服务器可以对各个预训练模型进行测试,具体的,可以根据评估指标,确定预训练模型和模型参数的适用度;再根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型。从而可以从多个候选模型中筛选出适用于目标数据处理场景、准确度较高,或者满足用户要求的候选模型作为基础模型。
其中,所述适用度具体可以理解为用于表征预训练模型和模型参数在针对样本数据的数据处理中的适用性程度。通常对于预训练模型而言,适用度值越高,该预训练模型在进行目标数据的数据处理时准确度也越高,效果也越好。相应的,该预训练模型对应的候选模型在处理该目标数据的数据处理时效果也更为理想。
在本场景示例中,具体实施时,可以随机抽取部分测试数据,对所建立的预训练模型进行测试,得到测试结果。再根据测试结果统计各个预训练模型的AUC参数,并根据AUC参数确定各个预训练模型的适用度值。例如,如果某个预训练模型的AUC参数较高,则该预训练模型的精确度较高,在目标数据的数据处理中的适用性也相对较好,相应得到适用度也相对极高。再根据各个适用度对多个预训练模型进行排序,选择适用度值最高的预训练模型所对应的候选模型(即合适的模型)作为基础模型。当然,也可以选择适用度值靠前的预设个数的预训练模型对应的多个候选模型或者适用度值大于预设适用度阈值的预训练模型对应的候选模型进行组合,得到组合模型,将该组合模型作为基础模型。
例如,可以将预训练模型1、2、3、4、5、6分别对随机抽取的同样的多个图片数据进行分类识别,得到各个预训练模型的对各个图片数据的识别结果,作为各个预训练模型的测试结果。再根据上述测试结果分别统计各个预训练模型的AUC参数。进一步根据AUC参数确定各个预训练模型的适用度值。比较各个预训练模型的适用度值,发现预训练模型1的适用度值最高,因此,可以将预训练模型1对应的候选模型确定为目标数据处理模型的基础模型。
在本场景示例中,还可以按照以下方式确定各个预训练模型的适用度,以评价对应的候选模型的效果:根据所述预训练模型和模型参数,进行参数搜索和结构搜索,得到搜索结果;根据所述搜索结果和所述评估指标,确定所述预训练模型和模型参数的适用度。其中,上述根据所述预训练模型和对应的模型参数进行参数搜索和结构搜索,具体实施时,可以包括:通过以下算法中的至少之一进行参数搜索和结构搜索:蒙特卡洛算法、网格算法、贝叶斯算法、遗传算法等。
当然,需要说明的是上述所列举的确定预训练模型的适用度的方法只是为了更好地说明本说明书实施方式。具体实施,可以根据具体情况选择合适的方式确定预训练模型的适用度。对此,本说明书不作限定。
按照上述方式,服务器可以根据用户简单设定的模型描述参数,准确地匹配到适用于用户待构建的目标数据处理模型的基础模型,并将该基础模型反馈给用户。进而可以利用样本数据对该基础模型进行训练,以构建得到满足用户要求的,能够高效、准确地识别图片中人物性别的WM模型,从而高效地完成了目标数据处理模型的构建。
由上述场景示例可见,本说明书提供的数据处理模型构建方法,由于通过有针对性地获取模型的描述参数,并基于模型的描述参数,服务器能够准确地确定出用户的建模要求,并根据用户的建模要求自动匹配到合适的模型作为基础模型,再进行相应的数据处理模型的构建,从而使得用户不用再繁琐地去做测试、分析来确定合适的基础模型,降低了用户的操作难度,提高了处理效率。
参阅图5所示,本说明书实施例提供了一种数据处理模型构建方法,其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容:
S51:获取目标数据处理模型的模型描述参数和样本数据。
在本实施方式中,上述目标数据处理模型具体可以为待构建的,用于进行目标数据处理的机器学习模型。例如,上述目标数据处理模型可以是用于识别文本数据语义识别模型,也可以是用于区分图片数据中不同颜色的分类模型等等。对于目标数据处理模型的类型和应用本说明书不作限定。
在本实施方式中,上述模型描述参数具体可以为一种由用户设定,能够有效地表征出待构建的目标数据处理模型的数据处理要求和/或用户定制要求的参数数据。
在一个实施方式中,上述模型描述参数具体可以包括以下至少之一:目标数据处理模型的名称、数据标签、数据特征、评估指标等。当然,需要说明的是,上述所列举的模型描述参数只是为了更好地说明本说明书实施方式。具体实施时,根据具体的应用场景和用户要求还可以引入其他类型的参数作为上述模型描述参数。对此,本说明书不作限定。
其中,上述目标数据处理模型的名称可以理解为用户想要构建的数据处理模型的标识符号,例如A模型,或者图片人物性别识别模型等。上述数据标签可以理解为目标数据处理模型对目标数据进行数据处理得到的处理结果。例如,可以是通过数据处理模型预测或识别得到的结果数据(对应数据处理模型中的y列的数据)。具体的,例如,可以是通过数据处理模型识别图片人物性别得到的结果“男”或者“女”。上述数据特征可以理解为目标数据处理模型在对目标数据进行数据处理的过程中用以作为处理依据的数据特征。例如,可以是数据处理模型从样本数据中提取出来的用于得到预测或识别结果的数据特征(对应数据处理模型中的x列的数据)。具体的,例如,可以是图片中人脸部位置处的毛发浓密程度、图片中人脖子位置处的凸起幅度、图片中人脸位置处的颜色值等。上述评估指标(也可以称为评估参量)可以理解为一种能够评价目标数据处理模型数据处理精度、处理效率等性能的参数。例如,可以是AUC参数、准确率、平均准确率、对数损失函数、精确率-召回率、混淆矩阵、平方根误差、Quantiles ofErrors(误差分位数)、Almost Correct Predictions(近似准确预测值)等。
在本实施方式中,上述样本数据具体可以理解为待处理的目标数据数据类型相同的数据。其中,上述样本数据具体可以是图片数据,也可以是文本数据等等。对于样本数据的数据类型,本说明书不作限定。
S53:根据所述模型描述参数和所述样本数据,确定基础模型。
在本实施方式中,上述基础模型具体可以称为用于构建目标数据处理模型的初始模型,具体的上述基础模型可以是具有一定数据处理、分析能力的模型结构(或算法结构),通常需要通过对基础模型的训练学习,来构建得到符合用户要求的,能够进行目标数据处理的目标数据处理模型。
在本实施方式中,需要说明的是,不同的模型结构在进行具体的数据处理时差异较大。例如,有的模型结构适用于处理文本数据,有的模型结构适用于处理图片数据。或者,有的模型结构适用于解决分类问题,有的模型结构适用于解决回归问题。因此,确定一种适用于目标数据处理的,满足用户要求的基础模型对于后续构建得到目标数据处理模型的使用效果具有较为重要的影响。
在本实施方式中,为了避免用户繁琐地自己去做多次测试分析来找到合适的模型作为基础模型,服务器可以以用户设定的模型描述参数作为处理依据,结合用户输入的样本数据自动地去做测试分析,来寻找能够进行目标数据处理,满足用户要求的模型(即合适的模型)作为数据处理模型。
在本实施方式中,具体实施时,可以根据模型描述参数确定出用户所要构建的目标数据处理模型的模型特征;再根据模型特征逐步地缩小范围从多个模型结构中筛选得到合适的模型作为基础模型,提供给用户来构建具体的目标数据处理模型。
在一个实施方式中,上述根据所述模型描述参数和所述样本数据,确定基础模型,具体实施时,可以包括:根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型,其中,所述预设的模型类型组中至少包括:分类类型和回归预测类型;从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型;根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,并确定各个预训练模型的模型参数;根据所述评估指标,确定各个预训练模型的适用度,其中,所述适用度用于表征基于预训练模型和该预训练模型对应的模型参数对所述样本数据进行数据处理的适用性程度;根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型。
S55:根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
在本实施方式中,在确定了基础模型后,进一步可以将基础模型作为初始模型;再利用样本数据对所述基础模型进行训练,以构建得到符合要求的目标数据处理模型。当然,需要说明说明,上述所列举的利用基础模型进行训练以构建得到目标数据处理模型只是应用基础模型的一种实现方式。具体实施时,根据具体的应用场景和技术的发展程度还可以利用所确定的基础模型进行其他方面的应用。对此,本说明书不作限定。
在本实施方式中,通过将模型描述、确定基础模型,与数据处理模型的构建分离,用户仅需提供模型描述参数,服务器即可以根据用户提供的模型描述参数自动进行模型描述,并自动确定出合适的基础模型提供给用户,以便可以基于上述基础模型再进行数据处理模型的构建。从而使得用户不需要自己再繁琐地寻找合适的基础模型,减轻了用户的负担。
由上可见,本说明书提供的数据处理模型构建方法,由于通过有针对性地获取模型的描述参数,并基于模型的描述参数,服务器能够准确地确定出用户的建模要求,并根据用户的建模要求自动匹配到合适的模型作为基础模型,再进行相应的数据处理模型的构建,从而使得用户不用再繁琐地去做测试、分析来确定合适的基础模型,降低了用户的操作难度,提高了处理效率。
在一个实施方式中,所述模型描述参数具体可以包括以下至少之一:目标数据处理模型的名称、数据标签、数据特征、评估指标等。当然,需要说明的是,上述所列举的模型描述参数只是一种示意性说明。具体实施时,还可以根据具体情况引入其他类型的参数作为上述模型描述参数。对此,本说明书不作限定。
在一个实施方式中,所述模型描述参数具体还可以包括:基础模型的模型类型、样本数据的拆分规则、阈值参数等等。对于具有一定专业能力的用户,例如工程师,可以为他们提供更多的模型参数的设定权限,以便获取更多的模型参数,从而可以基于更多地模型参数更加快速、精确地找到合适的模型作为目标数据处理模型的基础模型。
在一个实施方式中,根据所述模型描述参数和所述样本数据,确定基础模型,具体实施时,可以包括以下内容:
S1:根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型,其中,所述预设的模型类型组中至少包括:分类类型和回归预测类型。
在本实施方式中,上述根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型,具体可以理解为分析数据标签数量,以及数据标签的数据和数据标签的相互关系,来确定待构建的目标数据处理模型所要执行的目标数据处理的类型;再根据目标数据处理的类型确定出适用于该目标数据处理的基础模型的类型。
在本实施方式中,还需要补充的是,通过分析评估指标也可以判断模型类型。因此,具体实施时,除了可以根据数据标签外,还可以根据评估指标,或者数据标签和评估指标的组合,从预设的模型类型组中确定出基础模型的模型类型。
在本实施方式中,上述预设的模型类型组中至少包括有分类类型和回归预测类型等。其中,对于每一种类型而言,分别可以包含有多个具体的模型结构。当然,需要说明的是,上述所列举的预设的模型类型组中所包含的模型类型只是一种示意性说明。根据具体的应用场景和技术的发展情况,上述预设的模型类型组中还可以包含其他的模型类型。对此,本说明书不作限定。
在本实施方式中,需要补充的是,模型类型为分类类型的模型往往相对较适用于解决涉及分类问题的数据处理;分类类型为回归预测类型的模型往往相对较适用于解决涉及预测问题的数据处理。
S2:从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型。
在本实施方式中,上述候选模型具体可以理解为适用于目标数据处理的(即满足基础模型的模型类型),有可能用作目标数据处理模型的基础模型的模型结构。具体的,后续可以对上述后选模型进行进一步的测试筛选,以候选模型中确定出基础模型。
S3:根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,并确定各个预训练模型的模型参数。
在本实施方式中,上述预训练模型具体可以理解为基于候选模型得到的相对较为简单的数据处理模型。
在本实施方式中,上述模型参数具体可以理解为可以理解为预训练模型运行时所要涉及到的相关运行参数。具体的,上述模型参数可以包括:迭代次数、收敛条件、运行时间等等。当然,上述所列举的模型参数只是一种示意性说明。对于模型参数的具体内容,本说明书不作限定。
在本实施方式中,上述根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,具体可以包括:从所述样本数据中提取测试数据;根据数据特征从测试数据中提取特征数据;利用上述特征数据对各个候选模型分别进行训练,以得到与各个候选模型对应的预训练模型。
其中,上述特征数据可以理解为样本数据中包含有数据特征的部分数据。例如,上述特征数据可以是表征图片中人脸颜色的数据。
在本实施方式中,在得到多个预训练模型后,进一步,还可以根据具体的预训练模型,通过模型参数搜索确定出各个预训练模型所对应的模型参数。
S4:根据所述评估指标,确定各个预训练模型的适用度,其中,所述适用度用于表征基于预训练模型和该预训练模型对应的模型参数对所述样本数据进行数据处理的适用性程度。
在本实施方式中,上述适用度具体可以理解为用于表征预训练模型和模型参数在针对样本数据的数据处理中的适用性程度。通常对于预训练模型和对应的模型参数而言,适用度值越高,该预训练模型基于对应的模型参数在进行目标数据的数据处理时准确度也越高,效果也越好。相应的,该预训练模型所对应的候选模型基于上述模型参数在处理该目标数据的数据处理时效果也更为理想。
在一个实施方式中,上述根据所述评估指标,确定各个预训练模型的适用度,具体可以包括以下内容:分别利用各个预训练模型和对应的模型参数对测试数据进行数据处理,得到数据处理结果作为各个预训练模型和模型参数的测试结果;根据各个预训练模型和模型参数的测试结果统计各个预训练模型的评估指标;根据各个预训练模型的指标参确定各个预训练模型和模型参数的适用度。需要说明的是,上述所列举的适用度的确定方式只是一种示意性说明。具体实施时,还可以根据具体情况和要求,采用其他合适的方式确定预训练模型的适用度。对此,本说明书不作限定。
S5:根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型。
在本实施方式中,上述根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型,具体实施时,可以包括:比较各个预训练模型的适用度,将适用度最高的预训练模型所对应的模型确定为目标数据处理模型的基础模型。也可以包括:将适用度大于预设适用度阈值的多个预训练模型所对应的模型进行组合,得到组合模型;并将所述组合模型确定为所述基础模型等。当然,上述所列举的根据适用度从候选模型中确定出合适的基础模型只是一种示意性说明。具体实施时,根据具体情况,也可以采用其他合适的方式来根据适用度确定出基础模型。对此,本说明书不作限定。
在一个实施方式中,从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型,具体实施时,可以包括以下内容:
S1:分别利用预设的数据处理模型库中所应用的基础模型满足所述基础模型的模型类型的数据处理模型对所述样本数据进行数据处理,得到数据处理模型的数据处理结果;
S2:根据所述数据处理模型的数据处理结果,统计数据处理模型的评估指标;
S3:将评估指标与目标数据处理模型的评估指标的差异程度小于预设程度阈值的数据处理模型确定为推荐模型;
S4:将所述推荐模型所应用的基础模型确定为候选模型。
在本实施方式中,上述预设的数据处理模型库中具体存储有多种不同的已经训练好的数据处理模型。需要补充的是,上述预设的数据处理模型库可以每隔预设时间段获取最新的训练好的数据处理模型对预设的数据处理模型库进行更新。
在本实施方式中,上述评估指标与目标数据处理模型的评估指标的差异程度小于预设程度阈值,具体可以理解为数据处理模型的评估指标与目标数据处理模型的评估指标相似或者一致。其中,上述预设程度阈值具体可以根据精度要求灵活设定。对此,本说明书不作限定。
在本实施方式中,上述推荐模型可以理解为所适用的数据处理与待构建的目标数据处理模型所要执行的目标数据处理相似或者一致的,且已经训练好的数据处理模型。这类数据处理模型对于构建目标数据处理模型具有较高的参考借鉴价值。
在本实施方式中,具体实施时,可以将所获取的样本数据作为输入,分别输入至预设的数据处理模型中所应用的基础模型满足上述基础模型的模型类型的数据处理模型中,得到上述各个数据处理模型的数据处理结果;再分别根据各个数据处理模型的数据处理结果,统计得到各个数据处理模型的评估指标;再以目标数据处理模型的评估指标作为依据,找到与目标数据处理模型的评估指标一致或相似的数据处理模型确定为推荐模型,再将推荐模型所应用的模型确定为所述候选模型,从而可以更加快速、高效地找到效果较好的候选模型。
在一个实施方式中,为了进一步缩小候选模型的数量,提高确定基础模型的效率,具体实施时,所述方法还可以包括以下内容:
S1:确定所述样本数据的数据类型,其中,所述样本数据的数据类型包括以下至少之一:图片数据、文本数据;
S2:根据所述样本数据的数据类型,从所述基础模型的模型类型中筛选出与所述样本数据的数据类型匹配的模型类型作为所述基础模型的模型类型。
在本实施方式中,上述样本数据的数据类型具体可以包括图片数据、文本数据、图像数据、数值数据等等。当然,需要说明的是上述所列举的数据类型只是为了更好地说明本说明书实施方式。对于样本数据的数据类型,本说明书不作限定。
在本实施方式中,需要补充的,不同的模型结构往往所适用的数据类型也不相同。例如,有的模型可能适用于处理图像数据,而不适用于处理文本数据。有的模型则可能适用于处理文本数据,而不适用于处理数值数据。因此,为了进一步缩小候选模型的数量,更加快速地确定出适用于目标数据处理的基础模型,可以结合样本数据的数据类型对基础模型的模型类型做进一步的限定。例如,数据处理涉及的解决问题是分类问题,且样本数据的数据类型为文本数据,则可以综合上述情况,确定基础模型的模型类型为分类类型,且适用于处理文本数据(即与文本数据匹配)的模型类型。这样可以进一步缩小可以作为基础模型的模型类型范围,从而可以减少基于基础模型的模型类型所获取的候选模型的数量,后续只要对更少的候选模型进行测试便可以确定出合适的基础模型。从而达到降低工作量,提高确定效率的目的。
在一个实施方式中,上述根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,具体实施时,可以包括以下内容:
S1:从所述样本数据中提取预设比例的样本数据作为测试数据。
在本实施方式中,具体实施时时可以从样本数据中按照预设比例随机提取部分样本数据作为测试数据。其中,上述预设比例可以根据具体的应用场景和精度要求灵活设定。例如,如果想要提高所确定的基础模型的准确度,可以增加该比例值,以增加测试数据的数量。如果想要提高确定基础模型的速度,可以减少该比例值,以减少测试数据的数量。对此,本说明书不作限定。
S2:对所述测试数据进行预处理,得到处理后的测试数据,其中,所述预处理包括:降维处理和/或清洗处理。
在本实施方式中,上述预处理具体可以包括:降维处理、清洗处理等等。当然上述所列举的预处理方式只是为了更好地说明本说明书实施方式。具体实施时,可以根据具体的应用场景和要求选择合适的预处理方式。例如,样本数据的数据量比较大,所包含的信息比较多,因此,可以通过降维处理对测试数据进行预处理,以便提高后续数据处理的效率。又例如,对于一些随机性较强的数据处理,要求用来训练的样本数据之间尽量不存在一定顺序上的联系,因此,可以先通过清洗数据对测试数据进行预处理,以降低由于测试数据之间的相互联系对模型产生的误差。
S3:根据所述数据特征,从所述处理后的测试数据中选择出特征数据。
在本实施方式中,根据所述数据特征,从所述处理后的测试数据中选择出特征数据,具体可以包括:从处理后的测试数据中,抽取包含有数据特征的部分数据作为上述特征数据(也可以称为特征工程)。
S4:根据所述特征数据分别对所述多个候选模型中的各个候选模型进行训练,得到所述预训练模型。
在本实施方式中,上述预训练模型具体可以理解为基于一个候选模型通过较为简单的训练得到的,具有一定数据处理精度的数据处理模型。
在本实施方式中,根据所述特征数据分别对所述多个候选模型中的各个候选模型进行训练,得到所述预训练模型,具体可以包括:利用所抽取的特征数据分别对各个候选模型进行训练,从而可以得到多个相对较为简单的预训练模型。其中,上述预训练模型分别和一个候选模型对应。
在一个实施方式中,上述根据所述评估指标,确定各个预训练模型的适用度,具体实施时,可以包括以下内容:根据所述预训练模型和模型参数,进行参数搜索和结构搜索,得到搜索结果;根据所述搜索结果和所述评估指标,确定所述预训练模型和模型参数的适用度。
在本实施方式中,上述根据所述预训练模型和对应的模型参数进行参数搜索和结构搜索,具体可以包括:通过以下算法中的至少之一进行参数搜索和结构搜索:蒙特卡洛算法、网格算法、贝叶斯算法、遗传算法等。当然,需要说明的是,上述所列举的用于进行参数搜索和结构搜索的算法只是一种示意性说明。具体实施时,根据具体的应用场景和精度要求还可以根据其他算法进行参数搜索和结构搜索。对此,本说明书不作限定。
在本实施方式中,上述根据所述搜索结果和所述评估指标,确定所述预训练模型和模型参数的适用度,具体实施时,可以包括:根据各个预训练模型和模型参数的搜索结果,以及用户设定的评估指标对各个预训练模型和对应的模型参数进行评分,并将该评分数值作为预训练模型和模型参数的适用度。
在一个实施方式中,上述根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型,具体实施时,可以包括:将所述预训练模型中适用度最高的预训练模型所使用的模型确定为所述基础模型。
在一个实施方式中,上述根据所述适用度,根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型,具体实施时,还可以包括:将所述预训练模型中适用度大于预设适用度阈值(或者适用度排序前几位)的多个预训练模型所使用的模型进行组合,得到组合模型;并将所述组合模型确定为所述基础模型。这样可以综合多种不同的效果较好的模型结构的优势,得到更加适用于目标数据处理的模型结构作为基础模型。
在一个实施方式中,所述模型描述参数还可以包括:基础模型的模型类型、样本数据的拆分规则等。其中,上述样本数据的拆分规则具体可以包括有用户设定测试数据的预设比例,以及拆分样本数据的指定方式等。这样可以为具备不同的专业能力的用户提供更多选择的模型描述参数进行设定,以便能够更好地满足用户的个性化要求,更加准确、快速地确定出基础模型和模型参数。
由上可见,本说明书提供的数据处理模型构建方法,由于通过有针对性地获取模型的描述参数,并基于模型的描述参数,服务器能够准确地确定出用户的建模要求,并根据用户的建模要求自动匹配到合适的模型作为基础模型,再进行相应的数据处理模型的构建,从而使得用户不用再繁琐地去做测试、分析来确定合适的基础模型,降低了用户的操作难度,提高了处理效率;还具体通过依据数据标签、样本数据的数据类型等多种特征筛选合适的候选模型来确定基础模型,排除了部分干扰,减少了工作量,从而进一步提高了处理效率。
参阅图6所示,本说明书实施例提供了一种数据处理方法,用于进行具体的目标数据处理。具体实施时,该方法可以包括以下内容:
S61:获取待处理的目标数据。
在本实施方式中,上述待处理的目标数据具体可以是待分类的图片数据,也可以是待识别的文本数据,还可以是待预测的图像数据等。对于上述待处理的目标数据的数据类型和数据内容,本说明书不作限定。
S63:调用目标数据处理模型对所述目标数据进行数据处理,其中,所述目标数据处理模型是根据所获取的目标数据处理模型的模型描述参数和样本数据,确定基础模型,再根据所述样本数据对所述基础模型进行训练得到的。
在本实施方式中,上述目标数据处理模型是服务器预先根据用户设定的模型描述参数和输入的样本数据,匹配得到能够适用于目标数据处理,且满足用户的要求的合适模型作为基础模型;再通过利用样本数据对上述基础模型进行训练、学习所构建得到的数据处理模型。
在本实施方式中,上述调用目标数据处理模型对所述目标数据进行数据处理,具体可以包括:将目标数据作为输入,输入将上述目标数据处理模型中;目标数据处理模型对该目标数据处理模型进行相应的数据处理,以得到对应的数据处理结果。例如,将包含有人物的图片输入至能够识别图片中人物性别的目标数据处理模型中;目标数据处理模型对图片进行相应的数据处理,得到数据处理结果为:图片中人物为女,从而完成了对目标数据的数据处理。
参阅图7所示,本说明书实施例还提供了一种数据处理方法,该方法可以用于用户端,用于获取目标数据处理模型的模型描述参数。具体实施时,该方法可以包括以下内容:
S71:显示数据输入界面。
在本实施方式中,上述数据输入界面具体可以是如图2所示的图像输入界面,也可以是一种代码输入界面(即提供给用户设置定义的代码模板)等。当然,需要说明的是,上述所列举的数据输入界面只是为了更好地说明本说明书实施方式,对于数据输入界面的具体形式,本说明书不作限定。
在本实施方式中,需要补充的是,通过输入界面输入模型描述参数只是一种示意性说明,具体实施时,用户还可以通过命令行、交互式,例如presto(一种分布式SQL查询引擎)、ipython-notebook(一种基于Python的编程工具)等,或者合并在API或程序中输入接口等输入目标数据处理模型的模型参数。
S73:接收用户在所述数据输入界面输入的目标数据处理模型的模型描述参数,以及样本数据,其中,所述模型描述参数和所述样本数据用于确定基础模型,所述基础模型用于建立目标数据处理模型。
在本实施方式中,需要说明的是,现有的数据处理模型构建方法,由于将模型描述、基础模型的确定与模型的训练构建混合在一起,导致实施时缺乏灵活性,不容易拓展,对开发者也不够友好,不能跟踪开发全过程,没法借助版本管理工具,例如git,进行灵活的帮助控制和代码审核,并且也不易于更新对某个问题升级新的解法模型。即现有方法对用户操作难度较高,不够方便、友好。
为了解决上述问题,可以事先通过语言定义,定义出模型描述参数,这样用户可以有针对性地输入或者设置具体的满足目标数据处理以及用户定制化要求的模型描述参数,机器可以按照一定的语法规则获取用户设定的具体的模型描述参数,并生成相应的执行文件,例如代码程序,进而根据执行文件中用户设定的模型描述参数自动寻找合适的基础模型,提供给用户;再对所寻找到的基础模型进行训练,构建具体的目标数据处理模型,从而将模型描述、基础模型的确定与模型的训练构建分离,降低数据处理模型的构建难度和复杂度,提高用户体验。
在本实施方式中,具体实施时,可以采用SQL(Structured Query Language,结构化查询语言)语言按照一定语法规则(例如通过关键词方式)定义上述模型描述参数。例如,生成关于模型描述参数的用于定义的代码,再基于上述用于定义的代码向用户显示相应的数据输入界面,以接收用户设定的模型描述参数。当然,需要说明的是,上述所列举的定义语言以及语法规则只是为了更好地说明本说明书实施方式。具体实施时,可以根据具体情况选择使用其他语言或者语法规则定义上述模型描述参数。对此,本说明书不作限定。
在本实施方式中,上述模型描述参数具体可以包括:目标数据处理模型的名称、数据标签、数据特征、评估指标等,对应的关键词分别为:model_name、label、feature、eval_metrics等。当然,需要说明的是,上述所列举的模型描述参数只是为了更好地说明本说明书实施方式。不应构成对本说明书的不当限定。
在本实施方式中,具体实施时,可以按照以下方式进行具体的定义,得到包含有模型描述参数的用于定义的代码:TRAIN model_name[[BY model_type][WITH params]][FOLD number][PARTITION partition_fields]<br/>SELECT[LABEL label_names]<br/>EVAL eval_metrics[SELECT]<br/>[TIME time_limit]。
其中,上述用于定义的代码包含有四个部分,分别为训练部分、数据部分、评估部分和计算限制条件部分。
上述TRAIN model_name[[BY model_type][WITH params]][FOLD number][PARTITION partition_fields]<br/>用于定义训练部分,其中,[]表示可选部分,TRAIN表示所述训练部分的关键词,model_name表示训练产生的模型名称;BY用于指定模型类型model_type进行训练;WITH用于指定模型参数params;FOLD用于指定层k-fold的取值number;PARTITION用于指定用于分区的数据字段partition_fields;。需要补充的是,上述<br/>的具体含义可以参考相关技术,例如HTML 5。这里可以是表示为一种常用的描述,例如将问题分成多种子问题,将模型分成子模型。
上述SELECT[LABEL label_names]<br/>用于定义数据部分,其中,[]表示可选部分,SELECT表示使用一个或多个数据字段,LABEL用于指定一个或多个标签label_names。例如,可以缺省用第一个数据字段作为标签LABEL,如果LABEL多过一个,则可以用LABEL指定label_names<br/>。
上述EVAL eval_metrics[SELECT]<br/>用于定义评估部分,其中,[]表示可选部分,EVAL用于指定评估指标eval_metrics。如果用不同的数据来评估,可以在评估部分再添加评估数据部分<br/>。
上述[TIME time_limit]用于定义计算限制条件部分,其中,[]表示可选部分,TIME用于指定模型训练完成的时间限制。例如,可以用TIME指定模型训练完成的时间限制;如果没有指定,则可以完全交给系统处理。
进一步,考虑到对所述训练模型进行离线计算,上述用于定义的代码还可以包括离线计算部分,表示为:<br/>SCORE mode_name TO table_name INDEX Index_list(创建table/insert with index list)<br/>SELECT<br/>。其中,<br/>SCORE用于选取训练好的模型名称;mode_name TO用于定义计算完后存储的数据表table_name;INDEX用于定义所述数据表的索引字段Index_list,这些index字段也将出现在SELECT部分;<br/>SELECT用于定义用于离线计算的数据。例如可以要求去掉INDEX部分后和训练模型的非LABEL字段完全一致。
进一步,考虑到对所述训练模型进行在线计算,上述用于定义的代码还可以包括在线计算部分,表示为:<br/>DEPLOY model_name WITH params<br/>。其中,DEPLOY用于将所述训练模型model_name部署成接口服务(例如rest api),WITH用于根据数据中心的要求添加相应的参数配置params。其中,<br/>语言可以通过嵌套,拓展到多个模型组合的情况。
当然,上述所列举的用于定义的代码只是一种示意性说明,不应构成对本说明书的不当限定。语言的具体描述可以是演进或变化的。例如还可以描述如下形式:
CREATE TABLE model1AS
SELECT
model_train(features[,labels][,options])FROM source_table1;
CREATE TABLE predict1ASSELECT model_predict(model1[,options])FROMsource_table2。
在本实施方式中,对于图像输入界面,参阅图2所示,可以通过接收各个数据栏中的数据信息获取目标数据处理模型的模型描述参数和样本数据。例如,可以通过数据输入界面中的数据标签栏获取用户设定的数据标签,通过数据特征栏获取用户设定的数据特征,通过评估指标栏获取用户设定的评估指标,通过目标数据处理模型的名称栏获取用户设定的目标数据处理模型的模型名称,通过样本数据输入接口获取用户输入的样本数据。
在本实施方式中,对于代码输入界面,可以通过接收用户在代码输入界面中的预设位置处设置的字符串来获取目标数据处理模型的模型描述参数,通过接收用户触发的预设的代码指令来获取指定位置处的相应的样本数据。
具体的,用户可以在上述代码输入界面中的预设位置处定义或者设置具体的字符串作为模型描述参数。例如,用户端可以通过SELECT指令接收代码输入界面中“TRAINmodel_name”中下划线位置的用户设置的字符串作为目标数据处理模型的模型名称。通过SELECT指令接收“LABEL label_names”中下划线位置的用户设置的字符串作为目标数据处理模型的数据标签。通过SELECT指令接收“EVAL eval_metrics”中下划线位置的用户设置的字符串作为目标数据处理模型的评估指标等。对于其他模型描述参数的获取可以参照上述实施方式,本说明书不在赘述。
在本实施方式中,用户端在通过上述方式获取了模型描述参数和样本数据后,可以将上述模型描述参数和样本数据以代码等执行文件的形式发送至服务器;服务器可以通过解析(基于SQL的解析)代码等执行文件,获取用户设定的模型描述参数;根据用户设定的模型描述参数确定基础模型;再根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
在本实施方式中,服务器在接收到包含有模型描述参数的代码等执行文件时,具体实施时,可以相应的将执行文件分成4个部分进行分析处理。
第一部分是训练部分,具体可以利用TRAIN关键词提取model_name作为训练产生的数据处理模型的模型名称;可以利用BY关键词指定用哪些model_type(即模型类型)进行训练;可以利用WITH关键词指定相关模型的参数params,其中,模型参数具体可以用Json描述的FOLD指定k-fold的取值;可以利用PARTITION关键词指定用于分区的数据字段partition_fields。
第二个部分是数据部分,具体可以利用SELECT关键词通过SQL语法,缺省用第一个数据字段作为标签LABEL。具体的,如果LABEL多过一个,则用LABEL指定label_names。
第三部分是评估部分,具体可以利用EVAL关键词指定评估指标eval_metrics。如果用不同的数据来评估,可以再评估部分添加评估数据部分。
第四部分是计算限制性条件部分,具体可以利用TIME关键词指定模型训练完成的时间限制。如果用户没设定时间限制,则可以完全交给服务器自行处理。
进一步,对于服务器,训练好的模型还可以按照以下方式用于离线计算:COREmode_name TO table_name INDEX Index_list<br/>SELECT<br/>。其中,模型离线计算具体可以分成两个部分:SCORE选取训练好的模型名字mode_name TO定义计算完存储的数据表INDEX定义数据表的index字段,其中,这些index字段也将出现在SELECT部分。而SELECT定义用于离线计算的数据,要求去掉INDEX部分后和训练model的非label字段完全一致。对于模型在线计算可以按照以下方式执行:DEPLOY model_name WITH params将模型deploy成一个rest api服务,WITH根据数据中心的要求添加相应的参数配置params。
这样服务器通过解析可以获取得到由用户设定的具体的模型描述参数,以便后续可以利上述模型描述参数自动确定出合适的基础模型。
在一个实施方式中,考虑到对于部分专业能力较强的用户,可以为他们提供更大的自由度和权限来设置模型描述参数,以便服务器能够更加快速、精准地确定出合适的基础模型。因此,在接收用户在所述数据输入界面输入的目标数据处理模型的模型描述参数,以及样本数据后,所述方法具体实施时,还可以包括以下内容:响应展示操作,展示基于所述模型描述参数生成的执行文件;接收对所述执行文件的修改操作,并根据所述修改操作更新所述执行文件。
在本实施方式中,上述执行文件可以理解为具体的程序代码。其中,上述执行文件中包含有模型描述参数,以及基于模型描述参数自动生成其他的模型设置参数。
在本实施方式中,上述数据输入界面中具体可以包含有展示键或者展示执行文件的指令。用户可以通过点击上述展示键或者调用展示执行文件的指令来发出展示操作。继而用户端在接收到用户的展示操作,展示出相应的执行文件。
用户可以对上述执行文件中所包含的模型描述参数,以及其他模型设置参数直接进行修改操作。用户端可以接收用户对执行文件的修改操作,并根据用户的修改操作更新所述执行文件,并将更新后的执行文件发送至服务器,以便服务器可以根据用户修改后的执行文件更加快速、准确地确定基础模型,来构建目标数据处理模型。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取目标数据处理模型的模型描述参数和样本数据;根据所述模型描述参数和所述样本数据,确定基础模型;根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
为了能够更加准确地完成上述指令,参阅图8所示,本说明书还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口801、处理器802以及存储器803,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口801,具体可以用于获取目标数据处理模型的模型描述参数和样本数据。
所述处理器802,具体可以用于根据所述模型描述参数和所述样本数据,确定基础模型;根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
所述存储器803,具体可以用于存储所获取的模型描述参数、样本数据、处理器902生成的中间数据,以及存储相应的指令程序。
在本实施方式中,所述网络通信端口801可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施方式中,所述处理器802可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施方式中,所述存储器803可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供一种用户端,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:显示数据输入界面;接收用户在所述数据输入界面输入的目标数据处理模型的模型描述参数,以及样本数据,其中,所述模型描述参数和所述样本数据用于确定基础模型,所述基础模型用于建立目标数据处理模型。
为了能够更加准确地完成上述指令,参阅图9所示,本说明书还提供了另一种具体的用户端,其中,所述用户端包括显示器901、处理器902以及存储器903,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述显示器901,具体可以用于显示数据输入界面。
所述处理器902,具体可以用于接收用户在所述数据输入界面输入的目标数据处理模型的模型描述参数,以及样本数据,其中,所述模型描述参数和所述样本数据用于确定基础模型,所述基础模型用于建立目标数据处理模型。
所述存储器903,具体可以用于存储相应的指令程序。
在本实施方式中,所述显示器901可以是将一定的电子文件通过特定的传输设备显示到屏幕上再反射到人眼的显示工具。所述显示器可以包括液晶LCD显示屏、阴极射线管CRT显示屏、发光二极管LED显示屏等。
本说明书实施例还提供了一种基于上述数据处理模型构建方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取目标数据处理模型的模型描述参数和样本数据;根据所述模型描述参数和所述样本数据,确定基础模型;根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图10,在软件层面上,本说明书实施例还提供了一种数据处理模型构建装置,该装置具体可以包括以下的结构模块:
获取模块1001,具体可以用于获取目标数据处理模型的模型描述参数和样本数据;
确定模块1002,具体可以用于根据所述模型描述参数和所述样本数据,确定基础模型;
训练模块1003,具体可以用于根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型。
在一个实施方式中,所述模型描述参数具体可以包括以下至少之一:目标数据处理模型的名称、数据标签、数据特征、评估指标等。当然,需要说明的是,上述所列举的模型描述参数只是一种示意性说明。具体实施时,还可以引入其他类型的参数作为上述模型描述参数。对此,本说明书不作限定。
在一个实施方式中,所述确定模块1002,具体可以包括以下结构单元:
第一确定单元,具体可以用于根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型,其中,所述预设的模型类型组中至少包括:分类类型和回归预测类型;
选择单元,具体可以用于从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型;
建立单元,具体可以用于根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,并确定各个预训练模型的模型参数;
第二确定单元,具体可以用于根据所述评估指标,确定各个预训练模型的适用度,其中,所述适用度用于表征基于预训练模型和该预训练模型对应的模型参数对所述样本数据进行数据处理的适用性程度;
第三确定单元,具体可以用于根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型。
在一个实施方式中,所述选择单元具体可以包括以下结构子单元:
处理子单元,具体可以用于分别利用预设的数据处理模型库中满足所述基础模型的模型类型的数据处理模型对所述样本数据进行数据处理,得到数据处理模型的数据处理结果;
统计子单元,具体可以用于根据所述数据处理模型的数据处理结果,统计数据处理模型的评估指标;
第一确定子单元,具体可以用于将评估指标与目标数据处理模型的评估指标的差异程度小于预设程度阈值的数据处理模型确定为推荐模型;
第二确定子单元,具体可以用于将所述推荐模型所应用的基础模型确定为候选模型。
在一个实施方式中,所述建立单元具体可以包括以下结构子单元:
提取子单元,具体可以用于从所述样本数据中提取预设比例的样本数据作为测试数据;
预处理子单元,具体可以用于对所述测试数据进行预处理,得到处理后的测试数据,其中,所述预处理包括:降维处理和/或清洗处理;
选择子单元,具体可以用于根据所述数据特征,从所述处理后的测试数据中选择出特征数据;
训练子单元,具体可以用于根据所述特征数据分别对所述多个候选模型中的各个候选模型进行训练,得到所述预训练模型。
在一个实施方式中,所述第三确定单元具体可以包括:第三确定子单元,具体可以用于将所述适用度最高的预训练模型所使用的模型确定为所述基础模型。
在一个实施方式中,所述第三确定单元具体还可以包括:第四确定子单元,具体可以用于将所述适用度大于预设适用度阈值的多个预训练模型所使用的模型进行组合,得到组合模型;并将所述组合模型确定为所述基础模型。
在一个实施方式中,所述模型描述参数还可以包括:基础模型的模型类型、样本数据的拆分规则等。这样可以为具备不同的专业能力的用户提供更多选择的模型描述参数,以便能够更加准确、快速地确定出基础模型和模型参数。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的数据处理模型构建装置,由于通过获取模块有针对性地获取模型的描述参数,并基于模型的描述参数,通过确定模块准确地确定出用户的建模要求,并根据用户的建模要求自动匹配到合适的模型作为基础模型,再通过训练模块进行相应的数据处理模型的构建,从而使得用户不用再繁琐地去做测试、分析来确定合适的基础模型,降低了用户的操作难度,提高了处理效率。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (21)

1.一种数据处理模型构建方法,包括:
获取目标数据处理模型的模型描述参数和样本数据;其中,所述模型描述参数包括:数据标签、数据特征、评估指标;
根据所述模型描述参数和所述样本数据,确定基础模型;
根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型;
根据所述模型描述参数和所述样本数据,确定基础模型,包括:根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型,其中,所述预设的模型类型组中至少包括:分类类型和回归预测类型;从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型;根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,并确定各个预训练模型的模型参数;根据所述评估指标,确定各个预训练模型的适用度,其中,所述适用度用于表征基于预训练模型和该预训练模型对应的模型参数对所述样本数据进行数据处理的适用性程度;根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型。
2.根据权利要求1所述的方法,从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型,包括:
利用预设的数据处理模型库中所应用的基础模型满足所述基础模型的模型类型的数据处理模型对所述样本数据进行数据处理,得到数据处理模型的数据处理结果;
根据所述数据处理模型的数据处理结果,统计数据处理模型的评估指标;
将评估指标与目标数据处理模型的评估指标的差异程度小于预设程度阈值的数据处理模型确定为推荐模型;
将所述推荐模型所应用的基础模型确定为候选模型。
3.根据权利要求1所述的方法,在根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型后,所述方法还包括:
确定所述样本数据的数据类型,其中,所述样本数据的数据类型包括以下至少之一:图片数据、文本数据;
根据所述样本数据的数据类型,从所述基础模型的模型类型中筛选出与所述样本数据的数据类型匹配的模型类型作为所述基础模型的模型类型。
4.根据权利要求1所述的方法,根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,包括:
从所述样本数据中提取预设比例的样本数据作为测试数据;
对所述测试数据进行预处理,得到处理后的测试数据,其中,所述预处理包括:降维处理和/或清洗处理;
根据所述数据特征,从所述处理后的测试数据中选择出特征数据;
根据所述特征数据分别对所述多个候选模型中的各个候选模型进行训练,得到所述预训练模型。
5.根据权利要求1所述的方法,根据所述评估指标,确定各个预训练模型的适用度,包括:
根据所述预训练模型和对应的模型参数,进行参数搜索和结构搜索,得到搜索结果;
根据所述搜索结果和所述评估指标,确定所述预训练模型的适用度。
6.根据权利要求5所述的方法,根据所述预训练模型和对应的模型参数,进行参数搜索和结构搜索,包括:
通过以下算法中的至少之一进行参数搜索和结构搜索:蒙特卡洛算法、网格算法、贝叶斯算法、遗传算法。
7.根据权利要求1所述的方法,根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型,包括:
将所述适用度最高的预训练模型所使用的模型确定为所述基础模型。
8.根据权利要求7所述的方法,根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型,还包括:
将所述适用度大于预设适用度阈值的多个预训练模型所使用的模型进行组合,得到组合模型;并将所述组合模型确定为所述基础模型。
9.根据权利要求1所述的方法,所述模型描述参数还包括:基础模型的模型类型、样本数据的拆分规则。
10.一种数据处理方法,包括:
获取待处理的目标数据;
调用目标数据处理模型对所述目标数据进行数据处理,其中,所述目标数据处理模型是根据所获取的目标数据处理模型的模型描述参数和样本数据,确定基础模型,再根据所述样本数据对所述基础模型进行训练得到的;其中,所述模型描述参数包括:数据标签、数据特征、评估指标;所述基础模型按照以下方式确定:确定基础模型,包括:根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型,其中,所述预设的模型类型组中至少包括:分类类型和回归预测类型;从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型;根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,并确定各个预训练模型的模型参数;根据所述评估指标,确定各个预训练模型的适用度,其中,所述适用度用于表征基于预训练模型和该预训练模型对应的模型参数对所述样本数据进行数据处理的适用性程度;根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型。
11.一种数据处理方法,包括:
显示数据输入界面;
接收用户在所述数据输入界面输入的目标数据处理模型的模型描述参数,以及样本数据,其中,所述模型描述参数和所述样本数据用于确定基础模型,所述基础模型用于建立目标数据处理模型;所述模型描述参数包括:数据标签、数据特征、评估指标;所述基础模型按照以下方式确定:确定基础模型,包括:根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型,其中,所述预设的模型类型组中至少包括:分类类型和回归预测类型;从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型;根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,并确定各个预训练模型的模型参数;根据所述评估指标,确定各个预训练模型的适用度,其中,所述适用度用于表征基于预训练模型和该预训练模型对应的模型参数对所述样本数据进行数据处理的适用性程度;根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型。
12.根据权利要求11所述的方法,在接收用户在所述数据输入界面输入的目标数据处理模型的模型描述参数,以及样本数据后,所述方法还包括:
响应展示操作,展示基于所述模型描述参数生成的执行文件;
接收对所述执行文件的修改操作,并根据所述修改操作更新所述执行文件。
13.一种数据处理模型构建装置,包括:
获取模块,用于获取目标数据处理模型的模型描述参数和样本数据;所述模型描述参数包括:数据标签、数据特征、评估指标;
确定模块,用于根据所述模型描述参数和所述样本数据,确定基础模型;
训练模块,用于根据所述样本数据对所述基础模型进行训练,得到目标数据处理模型;
其中,所述确定模块包括:第一确定单元,用于根据所述数据标签,从预设的模型类型组中确定基础模型的模型类型,其中,所述预设的模型类型组中至少包括:分类类型和回归预测类型;选择单元,用于从满足所述基础模型的模型类型的模型中,选择出多个模型作为候选模型;建立单元,用于根据所述样本数据和所述数据特征,为多个候选模型中的各个候选模型建立预训练模型,并确定各个预训练模型的模型参数;第二确定单元,用于根据所述评估指标,确定各个预训练模型的适用度,其中,所述适用度用于表征基于预训练模型和该预训练模型对应的模型参数对所述样本数据进行数据处理的适用性程度;第三确定单元,用于根据各个预训练模型的适用度,从所述多个候选模型中确定出所述基础模型。
14.根据权利要求13所述的装置,所述选择单元包括:
处理子单元,用于分别利用预设的数据处理模型库中所应用的基础模型满足所述基础模型的模型类型的数据处理模型对所述样本数据进行数据处理,得到数据处理模型的数据处理结果;
统计子单元,用于根据所述数据处理模型的数据处理结果,统计数据处理模型的评估指标;
第一确定子单元,用于将评估指标与目标数据处理模型的评估指标的差异程度小于预设程度阈值的数据处理模型确定为推荐模型;
第二确定子单元,用于将所述推荐模型所应用的基础模型确定为候选模型。
15.根据权利要求13所述的装置,所述建立单元包括:
提取子单元,用于从所述样本数据中提取预设比例的样本数据作为测试数据;
预处理子单元,用于对所述测试数据进行预处理,得到处理后的测试数据,其中,所述预处理包括:降维处理和/或清洗处理;
选择子单元,用于根据所述数据特征,从所述处理后的测试数据中选择出特征数据;
训练子单元,用于根据所述特征数据分别对所述多个候选模型中的各个候选模型进行训练,得到所述预训练模型。
16.根据权利要求13所述的装置,所述第三确定单元包括:第三确定子单元,用于将所述适用度最高的预训练模型所使用的模型确定为所述基础模型。
17.根据权利要求16所述的装置,所述第三确定单元还包括:第四确定子单元,用于将所述适用度大于预设适用度阈值的多个预训练模型所使用的模型进行组合,得到组合模型;并将所述组合模型确定为所述基础模型。
18.根据权利要求13所述的装置,所述模型描述参数还包括:基础模型的模型类型、样本数据的拆分规则。
19.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。
20.一种用户端,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求11至12中任一项所述方法的步骤。
21.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至9中任一项所述方法的步骤。
CN201810889565.8A 2018-08-07 2018-08-07 数据处理模型构建方法、装置、服务器和用户端 Active CN109165249B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201810889565.8A CN109165249B (zh) 2018-08-07 2018-08-07 数据处理模型构建方法、装置、服务器和用户端
TW108119718A TWI703458B (zh) 2018-08-07 2019-06-06 資料處理模型構建方法、裝置、伺服器和用戶端
EP19847397.7A EP3779723A4 (en) 2018-08-07 2019-06-19 METHOD AND DEVICE FOR CONSTRUCTION OF A DATA PROCESSING MODEL, SERVER AND CLIENT
PCT/CN2019/091853 WO2020029689A1 (zh) 2018-08-07 2019-06-19 数据处理模型构建方法、装置、服务器和用户端
SG11202010515VA SG11202010515VA (en) 2018-08-07 2019-06-19 Method, apparatus, server, and user terminal for constructing data processing model
US17/106,833 US11210569B2 (en) 2018-08-07 2020-11-30 Method, apparatus, server, and user terminal for constructing data processing model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810889565.8A CN109165249B (zh) 2018-08-07 2018-08-07 数据处理模型构建方法、装置、服务器和用户端

Publications (2)

Publication Number Publication Date
CN109165249A CN109165249A (zh) 2019-01-08
CN109165249B true CN109165249B (zh) 2020-08-04

Family

ID=64895184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810889565.8A Active CN109165249B (zh) 2018-08-07 2018-08-07 数据处理模型构建方法、装置、服务器和用户端

Country Status (6)

Country Link
US (1) US11210569B2 (zh)
EP (1) EP3779723A4 (zh)
CN (1) CN109165249B (zh)
SG (1) SG11202010515VA (zh)
TW (1) TWI703458B (zh)
WO (1) WO2020029689A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165249B (zh) * 2018-08-07 2020-08-04 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
US11321629B1 (en) * 2018-09-26 2022-05-03 Intuit Inc. System and method for labeling machine learning inputs
CN109800441B (zh) * 2019-02-01 2023-03-24 北京金山数字娱乐科技有限公司 一种模型输出推荐方法和装置、模型输出推荐系统
CN109840508A (zh) * 2019-02-17 2019-06-04 李梓佳 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质
CN111859592A (zh) * 2019-04-08 2020-10-30 阿里巴巴集团控股有限公司 参数确定方法和装置以及电子设备、计算机可读存储介质
CN111796925A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 算法模型的筛选方法、装置、存储介质和电子设备
CN110134669A (zh) * 2019-05-09 2019-08-16 深圳美美网络科技有限公司 一种数据模型监控方法
CN110222097A (zh) * 2019-06-18 2019-09-10 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110309127B (zh) * 2019-07-02 2021-07-16 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110399404A (zh) * 2019-07-25 2019-11-01 北京明略软件系统有限公司 一种计算机的用户表示生成方法及装置
CN110598125A (zh) * 2019-08-26 2019-12-20 精硕科技(北京)股份有限公司 一种评估关键意见领袖投入的方法及装置、存储介质
CN110674184B (zh) * 2019-09-06 2023-10-17 创新先进技术有限公司 一种构造异动检测模型库的方法、系统及设备
CN112487699A (zh) * 2019-09-11 2021-03-12 北京国双科技有限公司 动液面确定方法、动液面确定模型获得方法及相关设备
CN110838069A (zh) * 2019-10-15 2020-02-25 支付宝(杭州)信息技术有限公司 数据处理方法、装置以及系统
CN110826342A (zh) * 2019-10-29 2020-02-21 北京明略软件系统有限公司 一种实现模型管理的方法、装置、计算机存储介质及终端
CN110991658A (zh) * 2019-11-28 2020-04-10 重庆紫光华山智安科技有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN110990698B (zh) * 2019-11-29 2021-01-08 珠海大横琴科技发展有限公司 一种推荐模型构建方法和装置
CN110990461A (zh) * 2019-12-12 2020-04-10 国家电网有限公司大数据中心 大数据分析模型算法选型方法、装置、电子设备及介质
CN111209931A (zh) * 2019-12-23 2020-05-29 深圳智链物联科技有限公司 数据处理方法、平台、终端设备及存储介质
CN111144950B (zh) * 2019-12-30 2023-06-30 北京顺丰同城科技有限公司 模型筛选方法、装置、电子设备及存储介质
CN113591884B (zh) * 2020-04-30 2023-11-14 上海高德威智能交通系统有限公司 字符识别模型的确定方法、装置、设备及存储介质
CN111738442A (zh) * 2020-06-04 2020-10-02 江苏名通信息科技有限公司 一种大数据修复模型的构建方法和模型构建装置
CN111680754B (zh) * 2020-06-11 2023-09-19 抖音视界有限公司 图像分类方法、装置、电子设备及计算机可读存储介质
CN112308205A (zh) * 2020-06-28 2021-02-02 北京沃东天骏信息技术有限公司 基于预训练模型的模型改进方法及装置
CN111784000A (zh) * 2020-07-16 2020-10-16 矩阵元技术(深圳)有限公司 数据处理方法、装置和服务器
CN111966850A (zh) * 2020-07-21 2020-11-20 珠海格力电器股份有限公司 一种图片筛选方法、装置、电子设备及存储介质
CN112612872A (zh) * 2020-12-17 2021-04-06 第四范式(北京)技术有限公司 一种实现人工智能可解释的方法、装置、设备及存储介质
CN112801465B (zh) * 2021-01-08 2024-03-01 上海画龙信息科技有限公司 一种交互式建模预测产品指标的方法、装置和电子设备
CN113033090B (zh) * 2021-03-24 2023-03-03 平安科技(深圳)有限公司 推送模型训练方法、数据推送方法、装置及存储介质
WO2022215559A1 (ja) * 2021-04-05 2022-10-13 パナソニックIpマネジメント株式会社 ハイブリッドモデル作成方法、ハイブリッドモデル作成装置、及び、プログラム
CN113283972A (zh) * 2021-05-06 2021-08-20 胡立禄 一种税务大数据模型的构建系统及方法
CN113191824A (zh) * 2021-05-24 2021-07-30 北京大米科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN113469020A (zh) * 2021-06-29 2021-10-01 苏州一径科技有限公司 一种基于聚类的目标检测模型的评估方法
CN115688932A (zh) * 2021-07-28 2023-02-03 上海联影医疗科技股份有限公司 选定数据处理模型的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041920A1 (en) * 2010-08-12 2012-02-16 Kim Yeo-Jin Apparatus and method for generating probabilistic graphical model based on time-space structure
CN105550746A (zh) * 2015-12-08 2016-05-04 北京旷视科技有限公司 机器学习模型的训练方法和训练装置
CN108170909A (zh) * 2017-12-13 2018-06-15 中国平安财产保险股份有限公司 一种智能建模的模型输出方法、设备及存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020871B2 (en) * 2010-06-18 2015-04-28 Microsoft Technology Licensing, Llc Automated classification pipeline tuning under mobile device resource constraints
WO2015136533A1 (en) * 2014-03-10 2015-09-17 Nova Measuring Instruments Ltd. Test structures and metrology technique utilizing the test structures for measuring in patterned structures
US10452992B2 (en) * 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
US10102480B2 (en) * 2014-06-30 2018-10-16 Amazon Technologies, Inc. Machine learning service
US10643144B2 (en) * 2015-06-05 2020-05-05 Facebook, Inc. Machine learning system flow authoring tool
US10438132B2 (en) * 2015-12-16 2019-10-08 Accenture Global Solutions Limited Machine for development and deployment of analytical models
CN107103171B (zh) * 2016-02-19 2020-09-25 阿里巴巴集团控股有限公司 机器学习模型的建模方法及装置
CN109716346A (zh) * 2016-07-18 2019-05-03 河谷生物组学有限责任公司 分布式机器学习系统、装置和方法
CN108269110B (zh) * 2016-12-30 2021-10-26 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
CN106971709B (zh) * 2017-04-19 2021-10-15 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
US10782988B2 (en) * 2017-04-25 2020-09-22 Petuum Inc. Operating system for distributed enterprise artificial intelligence programs on data centers and the clouds
CN109327421A (zh) * 2017-08-01 2019-02-12 阿里巴巴集团控股有限公司 数据加密、机器学习模型训练方法、装置及电子设备
CN108021986A (zh) * 2017-10-27 2018-05-11 平安科技(深圳)有限公司 电子装置、多模型样本训练方法和计算机可读存储介质
CN107766940B (zh) * 2017-11-20 2021-07-23 北京百度网讯科技有限公司 用于生成模型的方法和装置
US11250340B2 (en) * 2017-12-14 2022-02-15 Microsoft Technology Licensing, Llc Feature contributors and influencers in machine learned predictive models
CN109947497B (zh) * 2017-12-20 2021-06-08 Oppo广东移动通信有限公司 应用程序预加载方法、装置、存储介质及移动终端
CN108108821B (zh) * 2017-12-29 2022-04-22 Oppo广东移动通信有限公司 模型训练方法及装置
US20190213503A1 (en) * 2018-01-08 2019-07-11 International Business Machines Corporation Identifying a deployed machine learning model
CN108197664B (zh) * 2018-01-24 2020-09-04 北京墨丘科技有限公司 模型获取方法、装置、电子设备及计算机可读存储介质
CN109643229B (zh) * 2018-04-17 2022-10-04 深圳鲲云信息科技有限公司 网络模型的应用开发方法、平台及计算机可读存储介质
US20190354850A1 (en) * 2018-05-17 2019-11-21 International Business Machines Corporation Identifying transfer models for machine learning tasks
US10699194B2 (en) * 2018-06-01 2020-06-30 DeepCube LTD. System and method for mimicking a neural network without access to the original training dataset or the target model
CN108985238B (zh) * 2018-07-23 2021-10-22 武汉大学 联合深度学习和语义概率的不透水面提取方法及系统
CN109165249B (zh) * 2018-08-07 2020-08-04 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
US11030484B2 (en) * 2019-03-22 2021-06-08 Capital One Services, Llc System and method for efficient generation of machine-learning models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041920A1 (en) * 2010-08-12 2012-02-16 Kim Yeo-Jin Apparatus and method for generating probabilistic graphical model based on time-space structure
CN105550746A (zh) * 2015-12-08 2016-05-04 北京旷视科技有限公司 机器学习模型的训练方法和训练装置
CN108170909A (zh) * 2017-12-13 2018-06-15 中国平安财产保险股份有限公司 一种智能建模的模型输出方法、设备及存储介质

Also Published As

Publication number Publication date
US20210081725A1 (en) 2021-03-18
EP3779723A4 (en) 2021-06-23
US11210569B2 (en) 2021-12-28
SG11202010515VA (en) 2020-11-27
EP3779723A1 (en) 2021-02-17
WO2020029689A1 (zh) 2020-02-13
TW202018533A (zh) 2020-05-16
TWI703458B (zh) 2020-09-01
CN109165249A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165249B (zh) 数据处理模型构建方法、装置、服务器和用户端
US11361243B2 (en) Recommending machine learning techniques, features, and feature relevance scores
US11640563B2 (en) Automated data processing and machine learning model generation
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
EP3905126A2 (en) Image clustering method and apparatus
EP3848855A1 (en) Learning method and apparatus for intention recognition model, and device
CN110399476A (zh) 人才画像的生成方法、装置、设备及存储介质
CN110362663B (zh) 自适应多感知相似度检测和解析
KR20180127622A (ko) 텍스트 데이터 수집 및 분석을 위한 시스템
CN112733042A (zh) 推荐信息的生成方法、相关装置及计算机程序产品
CN111400473A (zh) 意图识别模型的训练方法及装置、存储介质及电子设备
US11816573B1 (en) Robust systems and methods for training summarizer models
KR20230006601A (ko) 정렬 방법, 정렬 모델의 트레이닝 방법, 장치, 전자 기기 및 매체
US10229212B2 (en) Identifying Abandonment Using Gesture Movement
CN113657087A (zh) 信息的匹配方法及装置
CN109829033A (zh) 数据展示方法和终端设备
CN113674065B (zh) 基于服务触点的业务推荐方法、装置、电子设备及介质
Shapiro et al. Visual deep learning recommender system for personal computer users
CN113190154B (zh) 模型训练、词条分类方法、装置、设备、存储介质及程序
CN114021739B (zh) 业务处理、业务处理模型训练方法、装置及电子设备
CN112818228B (zh) 向用户推荐对象的方法、装置、设备和介质
CN112765479B (zh) 一种信息推荐的方法、装置、电子设备和可读存储介质
US20230044508A1 (en) Data labeling processing
EP3734498A1 (en) An apparatus and method for performing image-based dish recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right