CN112036492B - 样本集处理方法、装置、设备及存储介质 - Google Patents
样本集处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112036492B CN112036492B CN202010904755.XA CN202010904755A CN112036492B CN 112036492 B CN112036492 B CN 112036492B CN 202010904755 A CN202010904755 A CN 202010904755A CN 112036492 B CN112036492 B CN 112036492B
- Authority
- CN
- China
- Prior art keywords
- target
- sample
- field name
- sample set
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 189
- 238000000034 method Methods 0.000 claims abstract description 109
- 230000004044 response Effects 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims description 152
- 230000008569 process Effects 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 17
- 230000014759 maintenance of location Effects 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 description 25
- 238000007726 management method Methods 0.000 description 23
- 238000012360 testing method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 210000000577 adipose tissue Anatomy 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了一种样本集处理方法、装置、设备及存储介质,属于计算机技术领域。方法包括:获取第一样本集;通过样本处理界面,显示第一样本集中的至少一个字段名称;响应于对任一目标字段名称的类型设置操作,确定为目标字段名称设置的目标特征类型;将目标特征类型确定为目标特征数据所属的特征类型,目标特征数据为与目标字段名称对应的特征数据。提供了一种可视化处理样本集的方法,使得样本集的处理方式更加灵活,并且通过该样本处理界面,能够为样本数据的特征数据设置特征类型,使得样本数据更加准确,后续能够利用处理后得到的样本集对模型进行训练,将训练后的模型部署在云服务器中,以供终端使用。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种样本集处理方法、装置、设备及存储介质。
背景技术
随着人工智能技术的不断发展,越来越多地采用模型对数据进行处理,例如,采用图像分类模型对图片进行分类,采用文本生成模型自动生成文本等。目前,在采用模型对数据进行处理之前,需要采用样本集训练模型。但是采用样本集训练模型的过程比较缓慢,因此亟需一种处理样本集的方法,以提高训练效率。
发明内容
本申请实施例提供了一种样本集处理方法、装置、设备及存储介质,能够提高模型的训练效率。所述技术方案如下:
一方面,提供了一种样本集处理方法,所述方法包括:
获取第一样本集,所述第一样本集包括至少一条样本数据,所述样本数据包括至少一个特征数据,且每个特征数据具有对应的字段名称;
通过样本处理界面,显示所述第一样本集中的至少一个字段名称;
响应于对任一目标字段名称的类型设置操作,确定为所述目标字段名称设置的目标特征类型;
将所述目标特征类型确定为目标特征数据所属的特征类型,所述目标特征数据为与所述目标字段名称对应的特征数据。
可选地,所述统计信息包括平均值、最大值、最小值、标准差、关联度或者缺失比例中的至少一项;
所述平均值为同一字段名称对应的多条特征数据的平均值;
所述最大值为同一字段名称对应的多条特征数据的最大值;
所述最小值为同一字段名称对应的多条特征数据的最小值;
所述标准差为同一字段名称对应的多条特征数据的标准差;
所述关联度为同一字段名称对应的多条特征数据所属的特征类型与样本结果所属的特征类型的关联度,所述第一样本集还包括所述样本数据的样本结果;
所述缺失比例为所述第一样本集中缺失样本数据所占的比例,所述缺失样本数据是指缺少所述字段名称对应的特征数据的样本数据。
可选地,所述通过样本处理界面,显示所述第一样本集中的至少一个字段名称之后,所述方法还包括:
响应于样本集更换操作,显示样本获取界面,所述样本获取界面用于获取输入的第三样本集。
可选地,所述通过样本处理界面,显示所述第一样本集中的至少一个字段名称,包括:
通过所述样本处理界面,显示样本数据列表,所述样本数据列表包括多列;
其中的任一列用于显示所述至少一个字段名称;
另一列用于显示所述至少一个字段名称对应的特征类型。
可选地,所述方法还包括:
所述样本数据列表的再一列用于显示所述至少一个字段名称对应的状态,所述状态为丢弃状态或保留状态。
可选地,所述方法还包括:
所述样本数据列表的再一列用于显示所述至少一个字段名称对应的统计信息,所述字段名称对应的统计信息通过对所述字段名称对应的至少一个特征数据进行统计处理得到。
可选地,所述处理后得到的样本集还包括测试集,所述根据训练后的多个模型的性能参数,从所述训练后的多个模型中选取目标模型之前,所述方法还包括:
根据所述测试集,对所述训练后的多个模型进行测试处理,得到所述训练后的多个模型的性能参数。
可选地,所述根据所述第二训练集继续训练所述目标模型之后,所述方法还包括:
显示所述目标模型的性能参数。
另一方面,提供了一种样本集处理装置,所述装置包括:
样本获取模块,用于获取第一样本集,所述第一样本集包括至少一条样本数据,所述样本数据包括至少一个特征数据,且每个特征数据具有对应的字段名称;
显示模块,用于通过样本处理界面,显示所述第一样本集中的至少一个字段名称;
第一确定模块,用于响应于对任一目标字段名称的类型设置操作,确定为所述目标字段名称设置的目标特征类型;
第二确定模块,用于将所述目标特征类型确定为目标特征数据所属的特征类型,所述目标特征数据为与所述目标字段名称对应的特征数据。
可选地,所述样本处理界面包括每个字段名称的至少一个候选特征类型,所述第一确定模块,用于响应于对所述目标字段名称的任一候选特征类型的确认操作,将所述候选特征类型确定为所述目标特征类型。
可选地,所述样本处理界面包括每个字段名称的类型输入框,所述第一确定模块,用于响应于对所述目标字段名称的类型输入框的输入操作,将输入的特征类型确定为所述目标特征类型。
可选地,所述装置还包括:
编辑模块,用于响应于对所述目标字段名称的数据编辑操作,对所述目标特征数据进行编辑。
可选地,所述编辑模块,包括:
丢弃单元,用于响应于对所述目标字段名称的数据丢弃操作,丢弃所述第一样本集中所述目标特征数据;或者,
保留单元,用于响应于对所述目标字段名称的数据保留操作,将所述目标特征数据以及所述目标特征数据所属的目标特征类型存储于第二样本集中。
可选地,所述编辑模块,包括:
第一确定单元,用于响应于对所述目标字段名称的状态编辑操作,确定为所述目标字段名称编辑的目标状态;
第二确定单元,用于将所述目标状态确定为所述目标特征数据的状态,所述目标状态为丢弃状态或保留状态。
可选地,所述样本处理界面包括每个字段名称的至少一个候选状态,所述候选状态为丢弃状态或保留状态,所述第一确定单元,用于响应于对所述目标字段名称的任一候选状态的确认操作,将所述候选状态确定为所述目标状态。
可选地,所述编辑模块,还包括:
编辑单元,用于响应于设置完成操作,将所述第一样本集中处于丢弃状态的特征数据删除;或者,从所述第一样本集中筛选出处于保留状态的目标特征数据,将所述目标特征数据以及所述目标特征数据所属的目标特征类型存储于第二样本集中。
可选地,所述显示模块,用于通过所述样本处理界面,显示所述至少一个字段名称,以及每个字段名称对应的统计信息,所述字段名称对应的统计信息通过对所述字段名称对应的至少一个特征数据进行统计处理得到。
可选地,所述统计信息包括平均值、最大值、最小值、标准差、关联度或者缺失比例中的至少一项;
所述平均值为同一字段名称对应的多条特征数据的平均值;
所述最大值为同一字段名称对应的多条特征数据的最大值;
所述最小值为同一字段名称对应的多条特征数据的最小值;
所述标准差为同一字段名称对应的多条特征数据的标准差;
所述关联度为同一字段名称对应的多条特征数据所属的特征类型与样本结果所属的特征类型的关联度,所述第一样本集还包括所述样本数据的样本结果;
所述缺失比例为所述第一样本集中缺失样本数据所占的比例,所述缺失样本数据是指缺少所述字段名称对应的特征数据的样本数据。
可选地,所述显示模块,还用于响应于样本集更换操作,显示样本获取界面,所述样本获取界面用于获取输入的第三样本集。
可选地,所述显示模块,用于通过所述样本处理界面,显示样本数据列表,所述样本数据列表包括多列;
其中的任一列用于显示所述至少一个字段名称;
另一列用于显示所述至少一个字段名称对应的特征类型。
可选地,所述样本数据列表的再一列用于显示所述至少一个字段名称对应的状态,所述状态为丢弃状态或保留状态。
可选地,所述样本数据列表的再一列用于显示所述至少一个字段名称对应的统计信息,所述字段名称对应的统计信息通过对所述字段名称对应的至少一个特征数据进行统计处理得到。
可选地,所述装置还包括:
训练模块,用于根据处理后得到的样本集训练多个模型,不同模型采用的训练方法不同;
参数获取模块,用于获取所述多个模型的性能参数,所述性能参数用于指示所述模型的准确性;
选取模块,用于根据所述多个模型的性能参数,从所述多个模型中选取目标模型。
可选地,处理后得到的样本集包括第一训练集和第二训练集,所述装置还包括:
训练模块,用于根据所述第一训练集训练多个模型,不同模型采用的训练方法不同;
参数获取模块,用于根据训练后的多个模型的性能参数,从所述训练后的多个模型中选取目标模型,所述性能参数用于指示所述模型的准确性;
训练模块,用于根据所述第二训练集继续训练所述目标模型。
可选地,所述处理后得到的样本集还包括测试集,所述装置还包括:
测试模块,用于根据所述测试集,对所述训练后的多个模型进行测试处理,得到所述训练后的多个模型的性能参数。
可选地,所述显示模块,还用于显示所述目标模型的性能参数。
可选地,所述装置还包括:
打包模块,用于响应于对所述目标模型的部署操作,将所述目标模型打包至目标容器中;
部署模块,用于将所述目标容器部署至容器管理系统中,通过所述容器管理系统生成所述目标容器的调用接口,所述容器管理系统用于管理多个容器,所述调用接口用于调用所述目标容器中的所述目标模型。
可选地,所述装置还包括:
所述显示模块,用于显示模型展示界面,所述模型展示界面包括所述目标模型的调用按钮;
数据获取模块,用于根据对所述调用按钮的触发操作,获取输入的数据;
处理模块,用于通过所述目标容器的调用接口,调用所述目标模型对所述数据进行处理,得到处理结果。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行上述方面所述的样本集处理方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如上述方面所述的样本集处理方法中所执行的操作。
再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备实现如上述方面所述的样本集处理方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的样本集处理方法,提供了一种可视化处理样本集的方法,通过样本处理界面显示样本集的信息,对样本处理界面中的信息进行设置来实现对样本集的处理,使得样本集的处理方式更加灵活,并且,通过该样本处理界面,能够为样本数据的特征数据设置特征类型,使得样本数据更加准确,后续能够利用处理后得到的样本集对模型进行训练,减少了无效训练的次数,因此,提高了模型的训练效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种样本集处理方法的流程图;
图3是本申请实施例提供的一种样本集处理方法的流程图;
图4是本申请实施例提供的一种样本获取界面的示意图;
图5是本申请实施例提供的一种样本处理界面的示意图;
图6是本申请实施例提供的另一种样本处理界面的示意图;
图7是本申请实施例提供的一种模型训练方法的流程图;
图8是本申请实施例提供的一种训练参数设置界面的示意图;
图9是本申请实施例提供的一种模型评估界面的示意图;
图10是本申请实施例提供的一种模型训练方法的流程图;
图11是本申请实施例提供的一种模型部署方法的流程图;
图12是本申请实施例提供的一种模型部署配置界面的示意图;
图13是本申请实施例提供的一种模型展示界面的示意图;
图14是本申请实施例提供的一种自动化训练并部署模型的流程图;
图15是本申请实施例提供的一种自动化训练模型的组件示意图;
图16是本申请实施例提供的一种样本集处理装置的结构图;
图17是本申请实施例提供的一种样本集处理装置的结构图;
图18是本申请实施例提供的一种终端的结构框图;
图19是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。需要说明的是,本申请所涉及的样本集中的样本数据均为经用户授权或者经各方充分授权的,且相关数据收集、使用和处理均严格遵守相关国家法律法规。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一样本集称为第二样本集,且类似地,可将第二样本集称为第一样本集。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或者两个以上,多个包括两个或者两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个,举例来说,多个候选特征类型包括3个候选特征类型,而每个是指这3个候选特征类型中的每一个候选特征类型,任一是指这3个候选特征类型中的任意一个,可以是第一个,也可以是第二个,还可以是第三个。
人工智能云服务,一般也被称作是AIaaS(Artificial Intelligence as aService,中文为“人工智能即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务。本申请实施例能够使用该平台提供的人工智能服务器对样本集进行处理,并根据处理后得到的样本集对模型进行训练,使用该平台提供的AI框架和AI基础设施来部署训练后的模型,运维自已专属的云人工智能服务。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习等技术,通过如下实施例进行说明:
本申请实施例提供的样本集处理方法应用于计算机设备,在一种可能实现方式中,该计算机设备为终端,例如,该终端为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。在另一种可能实现方式中,该计算机设备为服务器,该服务器为独立的物理服务器,或者,该服务器是多个物理服务器构成的服务器集群或者分布式系统,或者,该服务器是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在另一种可能实现方式中,该计算机设备包括终端和服务器,图1是本申请实施例提供的一种实施环境的示意图,参见图1,该实施环境包括:至少一个终端101和服务器102,该至少一个终端101和服务器102通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端101上安装由服务器102提供服务的目标应用,终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地,目标应用为终端101操作系统中的目标应用,或者为第三方提供的目标应用。例如,目标应用为样本集处理应用,该样本集处理应用具有处理样本集的功能,当然,模型训练应用还能够具有模型训练、模型部署、模型应用,本申请实施例对此不做限定。
可选地,终端101对获取的样本集进行处理,将处理后的样本集上传至服务器102中,之后该服务器102能够采用处理后得到的样本集训练模型。
可选地,服务器102对获取的样本集进行处理,并采用处理后得到的样本集训练模型,将训练完成的模型进行部署,将该模型的调用接口提供为终端101,以使终端101能够通过该接口使用该模型提供的服务。
本申请实施例提供的样本集处理方法能够应用于模型自动化训练和部署的场景下:
例如,在采用样本集对模型进行训练的场景下:
由于样本集中的部分样本数据的特征数据存在信息不全、信息错误等问题,直接采用该样本集对模型进行训练的话,如果样本数据的特征数据存在信息不全、信息错误等问题,那么采用该样本数据对模型进行训练,可能是一次无效训练,因此,直接采用该样本集训练模型,存在训练效率较低的问题,若采用本申请实施例提供的样本集处理方法,对样本集进行处理,再采用处理后的样本集对模型进行训练,能够提高训练效率。
由于采用本申请实施例提供的样本集处理方法,能够为样本集中的特征数据设置正确的特征类型,保证了样本数据的准确性,减少了无效训练的次数,因此,提高了模型的训练效率。
本申请实施例能够应用于其他任一对模型进行训练的场景中,本申请实施例对应用场景不做限定。
图2是本申请实施例提供的一种样本集处理方法的流程图。本申请实施例的执行主体为计算机设备,参见图2,该方法包括:
201、获取第一样本集。
其中,第一样本集为用于训练模型的至少一条样本数据构成的集合,可选地,该第一样本集中包括至少一条样本数据以及每条样本数据对应的样本结果,该第一样本集用于对模型进行训练,通过将第一样本集中的样本数据输入至模型中,由模型对样本数据进行处理,得到预测结果,根据预测结果与该样本数据的样本结果之间的差异,对模型进行训练。
样本数据中包括至少一个特征数据,特征数据为能够表示样本数据所描述对象的特点的数据。每个特征数据具有对应的字段名称,字段名称为任一名称,用于对不同的特征数据进行区分,可选地,字段名称为顺序编号。
202、通过样本处理界面,显示第一样本集中的至少一个字段名称。
其中,样本处理界面为用于对样本集进行处理的界面。
203、响应于对任一目标字段名称的类型设置操作,确定为目标字段名称设置的目标特征类型。
其中,该目标字段名称为样本处理界面中显示的至少一个字段名称中的任一个字段名称。类型设置操作是为目标字段名称对应的特征数据设置特征类型的操作,可选地,该类型设置操作为输入特征类型的操作或者选择特征类型的操作等,本申请实施例对类型设置操作不做限定。
204、将目标特征类型确定为目标特征数据所属的特征类型,该目标特征数据为目标字段名称对应的特征数据。
本申请实施例提供的样本集处理方法,提供了一种可视化处理样本集的方法,通过样本处理界面显示样本集的信息,对样本处理界面中的信息进行设置来实现对样本集的处理,使得样本集的处理方式更加灵活,并且,通过该样本处理界面,能够为样本数据的特征数据设置特征类型,使得样本数据更加准确,后续能够利用处理后得到的样本集对模型进行训练,减少了无效训练的次数,因此,提高了模型的训练效果。
图3是本申请实施例提供的一种样本集处理方法的流程图,本申请实施例的执行主体为计算机设备,参见图3,该方法包括:
301、获取第一样本集。
其中,第一样本集为用于训练模型的至少一条样本数据的集合。样本数据中包括至少一个特征数据,特征数据为能够表示样本数据所描述对象的特点的数据,例如,样本数据为“小明,性别男,年龄为15岁,身高为172厘米,体重为52公斤”,其中,样本数据所描述的对象为“小明”,“男”、“15岁”、“172厘米”和“52公斤”均为特征数据,能够描述“小明”的特点。
每个特征数据具有对应的字段名称,字段名称为任一名称,可选地,字段名称为顺序编号,例如,第一样本集中包括5个字段名称,5个字段名称分别为1、2、3、4和5。
在一种可能实现方式中,第一样本集为样本表格,该样本表格包括至少一条样本数据,样本数据包括至少一个特征数据,且每个特征数据具有对应的字段名称。
可选地,样本表格包括至少一个样本行和字段名称行,其中,每一样本行代表一条样本数据,字段名称行包括至少一个字段名称。其中,不同的字段名称位于不同的列,样本数据中的不同特征数据也位于不同的列,且位于同一列中的字段名称和特征数据表示:该字段名称为该列中的每个特征数据对应的字段名称。
可选地,第一样本集还包括每条样本数据的样本结果,该样本结果与对应的样本数据位于同一行。
例如,如表1所示,样本表格的第一行为字段名称行,第二行至第五行为样本行,每个样本行包括一条样本数据和该样本数据对应的样本结果,以第二行为例,“156厘米”、“45千克”、“18岁”和“女”为特征数据,该4个特征数据组成样本数据,“瘦”为样本结果。以第一列为例,“156厘米”、“173厘米”、“172厘米”和“189厘米”对应的字段名称为“身高”。
表1
身高 | 体重 | 年龄 | 性别 | 样本结果 |
156厘米 | 45千克 | 18岁 | 女 | 瘦 |
173厘米 | 65千克 | 23岁 | 男 | 瘦 |
172厘米 | 79千克 | 21岁 | 男 | 胖 |
189厘米 | 75千克 | 29岁 | 男 | 瘦 |
可选地,样本表格包括至少一个样本列和字段名称列,其中,样本列包括一条样本数据以及该样本数据的样本结果,字段名称列包括至少一个字段名称。其中,不同的字段名称位于不同的行,样本数据中的不同特征数据也位于不同的行,且位于同一行的字段和特征数据表示:该字段名称为该行中的每个特征数据对应的字段名称。
可选地,第一样本集还包括每条样本数据的样本结果,该样本结果与对应的样本数据位于同一列。
在另一种可能实现方式中,第一样本集为纯文本形式表示的表格数据,例如,该第一样本集为CSV(Comma-Separated Values,逗号分隔值)数据。需要说明的是,本申请实施例仅是第一样本集为样本表格、或者为纯文本形式表示的表数据为例,对第一样本集进行说明,而在另一实施例中,第一样本集为文本数据,或者,至少一条样本数据的文本集合等。
需要说明的是,本申请实施例仅是以第一样本集为样本表格或者CSV数据为例,对第一样本集的格式进行示例性说明,本申请实施例对第一样本集的格式不做限定。
在一种可能实现方式中,计算机设备中存储有至少一个样本集,相应地,获取第一样本集,包括:响应于对任一样本集的选取操作,将该任一样本集确定为第一样本集。在另一种可能实现方式中,获取第一样本集,包括:获取输入的第一样本集。该输入的第一样本集并非计算机设备本地存储的样本集。
在一种可能实现方式中,计算机设备显示有样本获取界面,该样本获取界面用于获取样本集,可选地,获取第一样本集,包括:通过样本获取界面获取输入的第一样本集。
例如,图4示出了一种样本获取界面的示意图,如图4所示,该样本获取界面400包括第一输入框401和第二输入框402,如果用户选择“样本数据库”选项403,则第一输入框401处于可编辑状态,第二输入框402处于不可编辑状态,如果用户选择“本地文件上传”选项404,则第一输入框401处于不可编辑状态,第二输入框402处于可编辑状态。
另外,第一输入框401包括下拉按钮4011,通过对下拉按钮4011进行触发操作,该输入框401显示下拉列表,该下拉列表中包括样本数据库中多个样本集的样本集标识,用户能够对显示的样本集标识进行选择,其中,被选中的样本集标识对应的样本集被确定为第一样本集。
如果用户对第二输入框402进行触发操作,则计算机设备显示本地文件夹中至少一个文件的文件标识,其中,该至少一个文件中的每个文件均存储有至少一条样本数据,因此,该文件能够看做一个样本集,用户对显示的任一文件标识进行选择,被选中的文件标识对应的文件被确定为第一样本集。
在一种可能实现方式中,计算机设备上安装有目标应用,该样本获取界面为目标应用提供的界面,样本数据库为该目标应用提供的数据库。
302、通过样本处理界面,显示第一样本集中的至少一个字段名称。
其中,样本处理界面为用于对样本集进行处理的界面,可选地,该处理包括为特征数据设置特征类型、对特征数据进行编辑等。
该样本处理界面中显示有第一样本集中的至少一个字段名称包括:该样本处理界面中显示有第一样本集中全部的字段名称;或者,该样本处理界面中显示有第一样本集中的部分字段名称。
例如,样本处理界面的显示区域有限,只能显示第一数量个字段名称,如果第一样本集中的字段名称数量不超过该第一数量,则该样本处理界面能够显示第一样本集中全部的字段名称,如果第一样本集中的字段名称数量超过第一数量,则该样本处理界面显示第一样本集中第一数量个字段名称以及滚动条,通过拖动滚动条,显示第一样本集中的其他字段名称。
在一种可能实现方式中,计算机设备通过样本获取界面获取第一样本集,在获取到第一样本集之后,直接从样本获取界面跳转至样本处理界面,通过该样本处理界面,显示第一样本集中的至少一个字段名称。
用户在上传样本集之后,可能会想要更换样本集,例如,用户可能因为误操作等原因上传了错误的样本集,因此,在另一种可能实现方式中,样本获取界面包括完成选项,响应于对该完成选项的触发操作,计算机设备从样本获取界面跳转至样本处理界面,以便在样本处理界面中对第一样本集进行处理,由于根据用户的触发操作来显示样本处理界面,因此更加满足用户对样本集的处理需求。
在一种可能实现方式中,该样本获取界面还会显示每个字段名称对应的初始特征类型,其中,字段名称对应的初始特征类型表示:该字段名称对应的特征数据所属的初始特征类型。
可选地,字段名称和初始特征类型是通过列表的形式显示的,例如,通过样本处理界面,显示第一样本集中的至少一个字段名称,包括:通过样本处理界面,显示样本数据列表,该样本数据列表包括多列,其中的任一列用于显示至少一个字段名称;另一列用于显示该至少一个字段名称对应的初始特征类型。例如,样本数据列表的第一列用于显示至少一个字段名称,第二列用于显示该至少一个字段名称对应的初始特征类型。
可选地,计算机设备中预先存储有多个特征类型,该样本处理界面显示的初始特征类型为预先存储的多个特征类型中的任一特征类型。可选地,该样本处理界面显示的初始特征类型为系统默认的特征类型。可选地,第一样本集中的字段名称能够指示该字段名称对应的特征数据所属的特征类型,该样本处理界面显示的初始特征类型是根据该字段名称确定的,例如,将字段名称直接作为初始特征类型,或者,确定与字段名称匹配的初始特征类型。例如,字段名称为高度,与该字段名称匹配的特征类型为身高。
可选地,用于显示至少一个字段名称对应的特征类型的一列为空,后续在为至少一个字段名称设置特征类型之后,才会显示设置的特征类型。
303、响应于对任一目标字段名称的类型设置操作,确定为目标字段名称设置的目标特征类型。
其中,类型设置操作是为目标字段名称对应的特征数据设置特征类型的操作。用户通过执行该类型设置操作,能够为目标字段名称设置对应的目标特征类型。其中,为目标字段名称设置目标特征类型是指:为目标字段名称对应的特征数据设置目标特征类型,也即是,通过为目标字段名称设置目标特征类型,来实现为目标字段名称对应的特征数据设置目标特征类型。
特征类型用于指示特征数据所属的维度,例如,特征数据为“2020年3月8日”,则该特征数据所属的特征类型为“日期”。
在一种可能实现方式中,类型设置操作为特征类型选择操作,可选地,样本处理界面包括每个字段名称的至少一个候选特征类型,响应于对任一目标字段名称的类型设置操作,确定为目标字段名称设置的目标特征类型,包括:响应于对目标字段名称的任一候选特征类型的确认操作,将候选特征类型确定为目标特征类型。
可选地,该至少一个候选特征类型直接显示在样本处理界面中,用户通过对该至少一个候选特征类型进行选择,为字段名称设置特征类型。可选地,样本处理界面显示系统默认的候选特征类型,或者,样本处理界面显示与字段名称匹配的候选特征类型,响应于对该任一字段名称的候选特征类型的触发操作,显示该字段名称对应的至少一个候选特征类型。
例如,图5示出了一种样本处理界面的示意图,如图5所示,该样本处理界面500包括3个字段名称,分别为“高度”501、“重量”502和“性别”503,且对应该3个字段名称显示有3个初始特征类型,该3个初始特征类型均为“数字”,用户通过“数字”选项504进行点击操作,以使计算机设备显示字段名称“高度”501对应的至少一个候选特征类型,该至少一个候选特征类型为“身高”、“地址”、“日期”等,从该至少一个候选特征类型中选择“身高”作为字段名称“高度”501的目标特征类型。采用目标特征类型替换对应的初始特征类型,以使样本处理界面500中对应“高度”501显示的特征类型为“身高”。
在另一种可能实现方式中,类型设置操作为特征类型输入操作,由于系统中预先设置的特征类型可能不够全面,为了使为字段名称设置的特征类型更加准确,样本处理界面还包括每个字段名称的类型输入框,响应于对任一目标字段名称的类型设置操作,确定为目标字段名称设置的目标特征类型,包括:响应于对目标字段名称的类型输入框的输入操作,将输入的特征类型确定为目标特征类型。
可选地,该类型输入框不仅能够获取用户手动输入的特征类型,还能够获取被选中的候选特征类型,也就是说,响应于对任一类型输入框的触发操作,显示至少一个候选特征类型,响应于对任一候选特征类型的选择操作,将该候选特征类型输入至类型输入框中。也就是说,若不存在准确的候选特征类型,用户能够手动输入准确的特征类型,若存在准确的候选特征类型,用户能够选择计算机设备提供的候选特征类型,因为计算机设备提供的候选特征类型的描述更加规范和准确,因此,上述通过类型输入框输入特征类型的方法,能够为字段名称配置更加准确的特征类型。
其中,候选特征类型是否准确是相对于字段名称对应的特征数据而言的,如果候选特征类型能够准确表示对应特征数据所属的维度,则该候选特征类型准确,如果候选特征类型不能够准确表示对应特征数据所属的维度,则该候选特征类型不准确。
304、将目标特征类型确定为目标特征数据所属的特征类型,目标特征数据为与目标字段名称对应的特征数据。
由于字段名称与特征数据存在对应关系,通过在样本处理界面上显示字段名称,对字段名称进行处理,以使计算机设备对该字段名称对应的特征数据进行相应地处理。这样,样本处理界面无需显示全部的特征数据,使得样本处理界面更加简洁,由于用户无需对每个特征数据进行管理,而是对对应同一字段名称的特征数据进行统一管理,因此,还简化了用户的管理操作。
在一种可能实现方式中,将目标特征类型确定为目标特征数据所属的特征类型,包括:建立目标特征类型与该目标特征数据的关联关系。
例如,建立目标特征类型与目标特征数据的关联关系为:将目标特征类型与目标特征数据对应存储。
305、响应于对目标字段名称的数据编辑操作,对目标特征数据进行编辑。
其中,数据编辑操作为对特征数据的编辑操作,可选地,该编辑操作为丢弃操作、保留操作等。
样本数据包括至少一个特征数据,该至少一个特征数据中可能存在一些特征数据与该样本数据对应的样本结果无关,例如,如表1所示,样本结果为“胖”或“瘦”,特征数据“年龄”与该样本结果是“胖”还是“瘦”,没有任何影响,若采用包括“年龄”的样本数据去训练用于分类“胖瘦”的模型,会增大模型的处理量,降低模型的训练效率。
其中,对目标数据进行编辑至少包括以下两种情况:
第一种情况:对目标特征数据进行编辑是指:在第一样本集中,删除或者保留目标特征数据,以得到处理后的第一样本集。
可选地,响应于对目标字段名称的数据编辑操作,对目标特征数据进行编辑,包括:响应于对该目标字段名称的数据丢弃操作,丢弃该第一样本集中该目标特征数据。其中,丢弃第一样本集中的目标特征数据是指:删除第一样本集中的目标特征数据,由于目标特征数据对应有目标字段名称,在目标特征数据删除之后,该目标字段失去了原有的作用,可选地,还删除第一样本集中的目标字段名称。
在样本设置界面中,用户能够删除第一样本集中与样本结果无关的特征数据,得到处理后的第一样本集,若采用处理后的第一样本集训练模型的话,由于第一样本集中减少的特征数据均与样本结果无关,因此采用处理后的第一样本集训练模型,能够在保证模型准确性的基础上,减少模型的处理量,提高了模型的训练效率。
可选地,在样本处理界面中还包括每个字段名称的删除选项,对目标字段名称的数据丢弃操作为对该目标字段名称的删除选项的选择操作。可选地,响应于对目标字段名称,或者目标字段名称所在行,或者目标字段名称所在列的右击操作,显示至少一个编辑选项,对目标字段名称的数据丢弃操作为对该至少一个编辑选项中的删除选项的触发操作。
需要说明的是,如果字段名称与字段名称对应的类型位于同一行,与其他字段名称位于同一列,则响应于对目标字段所在行的右击操作,显示至少一个编辑选项;如果字段名称与字段名称对应的类型位于同一列,与其他字段名称位于同一行,则响应于对目标字段所在列的右击操作,显示至少一个编辑选项。
第二种情况:对目标特征数据进行编辑是指:如果对目标特征数据进行保留操作,则将第一样本集中的目标特征数据存储至第二样本集中,如果对目标特征数据进行丢弃操作,则将目标特征数据保留在第一样本集中,第二样本集为处理后得到的样本集。
例如,响应于对目标字段名称的数据编辑操作,对目标特征数据进行编辑,包括:响应于对该目标字段名称的数据保留操作,将该目标特征数据以及该目标特征数据所属的目标特征类型存储于第二样本集中。其中,第二样本集为用于训练模型的样本集。可选地,响应于对目标字段名称的数据编辑操作,对目标特征数据进行编辑,包括:响应于对该目标字段名称的数据丢弃操作,将该目标特征数据以及该目标特征数据所属的目标特征类型保留在第一样本集中。
在样本设置界面中,用户能够从第一样本集中选择与样本结果相关的特征数据,形成第二样本集,若采用第二样本集对模型进行训练,由于第二样本集中不包括无用特征数据,因此,减少了模型的处理量,提高了模型的训练效率。
可选地,第二样本集为空样本集,或者,第二样本集存储有用于训练模型的样本数据。可选地,第二样本集存储有用于训练模型的样本数据是指:该第二样本集中存储有从第一样本集中获取的特征数据、或者从其中样本集中获取的特征数据中的至少一项。
例如,如果样本集中的样本数量较少,那么计算机设备能够从多个样本集中获取特征数据,将获取的特征数据存储到第二样本集中,后续采用第二样本集对模型进行训练。
可选地,在样本处理界面中还包括每个字段名称的选择选项,对目标字段名称的数据保留操作为对该目标字段名称的选择选项的选中操作。可选地,数据保留操作为对字段名称、或者字段名称所在行、或者字段名称所在列的选中操作。
例如,用户对字段名称的选择选项进行触发操作,则计算机设备检测到字段名称的数据保留操作,若用户对该字段名称的选择选项再次进行触发操作,则计算机设备检测到该字段名称的取消数据保留操作。
在一种可能实现方式中,通过为字段名称编辑状态,实现对字段名称对应的特征数据的处理,可选地,响应于对该目标字段名称的数据编辑操作,对该目标特征数据进行编辑,包括:响应于对该目标字段名称的状态编辑操作,确定为该目标字段名称编辑的目标状态;将该目标状态确定为该目标特征数据的状态,该目标状态为丢弃状态或保留状态。
可选地,样本处理界面包括每个字段名称的至少一个候选状态,该候选状态为保留状态或丢弃状态,为字段名称编辑的状态为该字段名称的至少一个候选状态中的任一状态。例如,响应于该样本处理界面中对任一目标字段名称的状态编辑操作,确定为该目标字段名称编辑的目标状态,包括:响应于对该目标字段名称的任一候选状态的确认操作,将该候选状态确定为该目标状态。
可选地,样本处理界面包括每个字段名称的状态输入框,响应于对任一字段名称的状态输入框的触发操作,显示该字段名称的至少一个候选状态。
其中,第一样本集中包括特征数据和样本结果,该特征数据和样本结果均具有对应的字段名称,因此,在样本处理界面中为字段名称编辑状态时,能够根据该字段名称对应的数据进行编辑,例如,如图5所示,字段名称对应的数据为特征数据,则为该字段名称编辑的状态为“特征列”,该“特征列”不仅能够指示该字段名称对应的特征数据处于保留状态,还能够指示该字段名称对应的特征数据为在样本集中的角色。字段名称对应的数据为样本结果,则为该字段名称编辑的状态为“标签列”,该“标签列”不仅能够指示该字段名称对应的样本结果处于保留状态,还能够指示该字段名称对应的样本结果为在样本集中的角色。
可选地,第一样本集中还包括样本数据的样本标识,其中,特征数据、样本结果和样本标识均具有对应的字段名称。可选地,若要保留样本标识,则将样本标识对应的字段名称的状态编辑为“标识列”,若要丢弃样本标识,则将样本标识对应的字段名称的状态编辑为“不使用”。
由于用户在样本处理界面中可能会对某一字段名称进行多次反复操作,例如,将某一字段名称的状态编辑为“不使用”之后,又将该字段名称的状态编辑为“特征列”,为了减少计算机设备的处理量,在一种可能实现方式中,用户在样本处理界面中为字段名称编辑状态,计算机设备不会按照字段名称的状态,对字段名称对应的特征数据进行处理,而是在后续检测到目标操作之后,才会按照至少一个字段名称的状态,对该至少一个字段名称对应的特征数据进行处理。
可选地,该目标操作为设置完成操作,该样本集处理方法还包括:响应于设置完成操作,将第一样本集中处于丢弃状态的特征数据删除;或者,从第一样本集中筛选出处于保留状态的目标特征数据,将目标特征数据以及目标特征数据所属的目标特征类型存储于第二样本集中。
可选地,样本处理界面中包括设置完成选项,该设置完成操作为对完成选项的触发操作。
在一种可能实现方式中,样本处理界面中显示有样本数据列表,该样本数据列表包括多列,其中的任一列用于显示至少一个字段名称;另一列用于显示至少一个字段名称对应的特征类型,再一列用于显示至少一个字段名称对应的状态,该状态包括丢弃状态或保留状态。
306、响应于设置完成操作,通过样本处理界面,显示至少一个字段名称以及每个字段名称对应的统计信息。
采用样本集对模型进行训练,训练结果的好坏与样本集中样本数据有很大关系,例如,在训练用于分类胖瘦的模型时,如果样本集中的样本数据大多为指向“瘦”的样本数据,则根据该样本集训练的模型,分类效果会比较差,该样本集不合格。因此,为了得到较好的样本集,有必要为用户提供样本集的统计信息,以便用户确定该样本集是否合格。样本集的统计信息是对样本集中的特征数据进行统计处理得到的。
其中,字段名称对应的统计信息通过对该字段名称对应的至少一个特征数据进行统计处理得到。可选地,该统计信息包括平均值、最大值、最小值、标准差、关联度或者缺失比例中的至少一项。
其中,平均值为同一字段名称对应的多条特征数据的平均值;最大值为同一字段名称对应的多条特征数据的最大值;最小值为同一字段名称对应的多条特征数据的最小值;标准差为同一字段名称对应的多条特征数据的标准差;关联度为同一字段名称对应的多条特征数据所属的特征类型与样本结果所属的特征类型的关联度,第一样本集还包括样本数据的样本结果;缺失比例为第一样本集中缺失样本数据所占的比例,缺失样本数据是指缺少字段名称对应的特征数据的样本数据。
其中,平均值表示特征数据的集中趋势;标准差表示特征数据的离散程度最大值和最小值表示特征数据的数据区间;关联度表示特征数据与样本结果的相关性,该关联度的数值为位于区间[0,1]之间,-1表示负相关,1表示正相关,0表示无相关性,对于相关性较小的特征数据,即便从样本集中删除,在采用样本集训练模型时,也不会对模型的性能造成较大的影响。如果某一字段名称对应的缺失比例较大,则说明大部分的样本数据中都不包括该对应该字段名称的特征数据,因此,对于缺失比例较大的字段名称,即便从样本集中删除该字段名称对应的特征数据,对模型的性能也不会产生较大的影响。
通过显示每个字段名称对应的特征数据,能够使得用户对样本集中的特征数据进行筛选,在保证样本集对模型的训练效果的基础上,对样本集进行了简化。同时使用户更好地了解该样本集,确定该样本集是否合格。可选地,如果样本集不合格,还能够执行步骤307。
在一种可能实现方式中,上述步骤306中,通过样本处理界面,显示至少一个字段名称以及每个字段名称对应的统计信息时,不再显示每个字段名称对应的特征类型,或者,不再显示每个字段名称对应的状态。
在另一种可能实现方式中,上述步骤306中,通过样本处理界面,显示至少一个字段名称以及每个字段名称都对应的统计信息时,继续显示每个字段名称对应的特征类型,或者,继续显示每个字段名称对应的状态。
在一种可能实现方式中,样本处理界面中的数据显示在样本数据列表中,如,通过样本处理界面,显示样本数据列表,该样本数据列表包括多列,其中的任一列用于显示至少一个字段名称;另一列用于显示至少一个字段名称对应的特征类型;再一列用于显示至少一个字段对应的统计信息,字段名称对应的统计信息通过对该字段名称对应的至少一个特征数据进行统计处理得到。
例如,图6示出了一种样本处理界面的示意图,如图6所示,该样本处理界面600包括3个字段名称,以及该3个字段名称对应的平均值、缺失比例、不同值、关联度和标准差。
需要说明的是,本申请实施例仅是以响应于设置完成操作,显示每个字段名称的统计信息为例,对样本集的处理过程进行示例性说明,而在另一实施例中,响应于对目标字段名称的数据编辑操作,显示该目标字段名称对应的统计信息,以辅助用户判断是否对该目标字段名称进行编辑。例如,用户对字段名称“身高”进行丢弃操作,计算机设备显示该“身高”对应的统计信息,该统计信息中包括关联度,用户根据该关联度发现“身高”对应的特征数据与样本结果的相关性较高,如果丢弃该“身高”对应的特征数据,会影响对模型的训练效果,因此,用户放弃对该“身高”进行丢弃操作。
在另一实施例中,在步骤302中,显示第一样本集中的至少一个字段名称时,显示每个字段名称的统计信息。本申请实施例对统计信息的显示时机不做限定。
307、响应于样本集更换操作,显示样本获取界面,该样本获取界面用于获取输入的第三样本集。
如果用户根据每个字段名称的统计信息发现,该样本集不适用于训练模型,还能够更换样本集,根据用户的样本集更换操作,计算机设备能够显示样本获取界面,用户在该样本获取界面中重新输入第三样本集,其中,第三样本集与第一样本集不同。
在一种可能实现方式中,样本处理界面包括样本集更换选项,响应于样本集更换操作,显示样本获取界面,包括:响应于对样本集更换选项的触发操作,显示样本获取界面。
需要说明的是,在显示样本获取界面后,第一样本集和第一样本集中至少一个字段名称的类型、状态以及统计信息缓存在计算机设备中,或者直接删除。
本申请实施例提供的样本集处理方法,提供了一种可视化处理样本集的方法,通过样本处理界面显示样本集的信息,对样本处理界面中的信息进行设置来实现对样本集的处理,使得样本集的处理方式更加灵活,并且,通过该样本处理界面,能够为样本数据的特征数据设置特征类型,使得样本数据更加准确,后续能够利用处理后得到的样本集对模型进行训练,减少了无效训练的次数,因此,提高了模型的训练效果。
并且,通过该样本处理界面还能够对特征数据进行筛选,丢弃对训练模型没有帮助的特征数据,在保证训练模型的准确性的基础上,减少了模型的处理量,提高了训练效率。
并且,该样本处理界面能够提供特征名称对应的多个特征数据的统计信息,以辅助用户判断特征数据是否为对训练模型没有帮助的数据,能够用户能够更加准确地对数据进行处理,也使得处理后得到的样本集的质量更高。
图7是本申请实施例提供的一种模型训练方法的流程图,本申请实施例的执行主体为计算机设备,参见图7,该方法包括:
701、根据处理后得到的样本集训练多个模型,不同模型采用的训练方法不同。
其中,处理后得到的样本集为通过上述图3所示的样本集处理方法得到的样本集。可选地,该处理后得到的样本集为处理后的第一样本集或者为第二样本集。
不同模型采用的训练方法为:任一种机器学习算法,或者是任一种深度学习算法。例如,线性回归算法、支持向量机算法、最近邻居/k-近邻算法、逻辑回归算法、决策树算法、k-平均算法、随机森林算法、朴素贝叶斯算法、反向传播、随机梯度下降等。在一种可能实现方式中,计算机设备安装有目标应用,该多个模型为目标应用提供的模型。
在一种可能实现方式中,在对样本集处理完成之后,即可根据处理后的样本集训练多个模型,因此,响应于样本集处理完成操作,根据处理后得到的样本集训练多个模型。
在一种可能实现方式中,由用户设置用于模型训练的训练参数,该训练参数用于指示模型的训练方式,可选地,该训练参数包括训练次数、训练方法类型、是否自动筛选特征数据、训练集在样本集中的占比或者测试集在样本集中的占比中的至少一项。其中训练方法类型指示采用机器学习算法进行训练还是采用深度学习算法进行训练。可选地,通过训练参数设置界面,获取输入的训练参数,根据处理后得到的样本集以及训练参数,对多个模型进行训练。
例如,图8示出了一种训练参数设置界面,如图8所示,用户能够在训练参数设置界面800中的训练次数输入框801中输入训练次数,还能够选择训练方法类型是机器学习算法还是深度学习算法,还能够选择是否自动筛选特征数据,如果用户选择了“是”802,则计算机设备将自动过滤到处理后得到的样本集中关联度较小、标准差较小的特征数据;该训练参数设置界面800还包括处理后得到的样本集的数据条803,该数据条803包括分割指针8031,用户通过移动分割指针能够改变训练集在样本集中的占比。
702、获取多个模型的性能参数。
其中,性能参数用于指示模型的准确性。可选地,该性能参数为ROC(receiveroperating characteristic,接收者操作特征)曲线、混淆矩阵或者指标数据等。其中,指标数据包括模型得分、模型准确率或者模型精确率中的至少一项。
在一种可能实现方式中,处理后得到的样本集包括测试集,根据该测试集对该多个模型进行测试处理,得到该多个模型的性能参数。
其中,根据该测试集对该多个模型进行测试处理,得到该多个模型的性能参数包括:将测试集中的样本数据输入分别输入至该多个模型中,由该多个模型分别对输入的样本数据进行处理,得到多个预测结果,根据每个预测结果与样本结果的差异,得到每个模型的性能参数。
其中,预测结果与样本结果的差异越小,模型的性能参数越高,模型的性能参数越高表示该模型越准确。
在一种可能实现方式中,在获取多个模型的性能参数后,向用户展示该多个模型的性能参数,例如,计算机设备通过模型评估界面,显示多个模型的性能参数。
703、根据该多个模型的性能参数,从多个模型中选取目标模型。
其中,目标模型为能够投入使用的模型,可选地,多个模型中的其他模型被丢弃。
由于选取的目标模型后续将要投入使用,则目标模型的准确性要好,因此,在一种可能实现方式中,根据该多个模型的性能参数,从多个模型中选取目标模型,包括:根据该多个模型的性能参数,将多个模型中准确性最高的模型确定为目标模型;或者,根据该多个模型的模型参数,将性能参数满足第一阈值的模型确定为目标模型。
可选地,在从多个模型中选取目标模型之后,显示目标模型的性能参数,由用户根据该性能参数,确定模型是否符合要求。例如,如图9所示,模型评估界面900中显示有目标模型的多个性能参数,该多个性能参数包括:性能参数为ROC(receiver operatingcharacteristic,接收者操作特征)曲线、混淆矩阵和指标数据。可选地,该模型评估界面特征重要性。
需要说明的是,该目标模型能够由计算机设备根据多个模型的性能参数自动选择,可选地,计算机设备向用户展示多个模型的模型参数,由用户根据该多个模型的模型参数,从多个模型中选取目标模型。例如,响应于对任一模型的选择操作,将该模型确定为目标模型。
本申请实施例提供的模型训练方法,通过同一样本集,对采用不同训练方法的多个模型进行训练,获取训练后的多个模型的性能参数,能够从训练后的多个模型中选取比较准确的模型,也能够确定较好的训练方法,后续能够直接采用该训练方法对模型进行训练。
图10是本申请实施例提供的一种模型训练方法的流程图,本申请实施例的执行主体为计算机设备,参见图10,该方法包括:
1001、根据第一训练集训练多个模型,不同模型采用的训练方法不同,处理后得到的样本集包括第一训练集和第二训练集。
该步骤1001中处理后得到的样本集与步骤701中处理后得到的样本集类似,在此不再一一赘述。
为了确定多种训练方法中,哪种训练方法较准确,本申请实施例先采用部分样本数据对采用不同训练方法的多个模型进行训练,确定出准确的训练方法后,继续采用样本数据和该训练方法对模型继续进行训练,在保证模型训练效果的基础上,尽可能地减少了计算机设备的处理量。
需要说明的是,本申请实施例还能够通过训练参数设置界面设置训练参数,该过程与步骤701中通过训练参数设置界面设置训练参数的过程类似,在此不再一一赘述。
可选地,处理后得到的样本集被划分为第一训练集和第二训练集,该划分过程是由计算机设备自动完成的,或者由用户完成的,例如,用户在训练参数设置界面800中,对处理后得到的样本集的数据条803进行划分。
1002、根据训练后的多个模型的性能参数,从训练后的多个模型中选取目标模型,该性能参数用于指示模型的准确性。
该步骤1002与上述步骤703类似,在此不再一一赘述。
可选地,处理后得到的样本集还包括测试集,根据训练后的多个模型的性能参数,从训练后的多个模型中选取目标模型之前,该方法还包括:根据测试集,对训练后的多个模型进行测试处理,得到训练后的多个模型的性能参数。
1003、根据第二训练集继续训练目标模型。
本申请实施例提供的模型训练方法,先采用样本集中的部分样本数据,多个采用不同训练方法的多个模型进行训练,根据训练后的多个模型的训练参数,获取到训练效果最好的模型,采用继续采用样本数据对该模型进行训练,由于同样的样本数据下,该模型的训练效果最好,因此,对模型进行训练,降低了对样本数据的数量要求,并且还能保证模型的准确性。并且,无需采用处理后得到的样本集中的全部样本数据,对多个模型进行训练,因此,减少了计算机设备的处理量。
图11是本申请实施例提供的一种模型部署方法的流程图。本申请实施例的执行主体为计算机设备,参见图11,该方法包括:
1101、响应于对目标模型的部署操作,将目标模型打包至目标容器中。
在目标模型训练完成之后,还能够对目标模型进行部署,以便后续调用该目标模型对数据进行处理。
目标容器为可移植的容器,在一种可能实现方式中,目标容器为Docker(一个开源的应用容器引擎)容器,该Docker容器通过Docker镜像来创建。其中,Docker是一个开源的应用容器引擎,用户能够将程序打包到Docker容器中,之后能够将该容器部署至任一设备上。
其中,Docker镜像能够看做是容器的模板,可选地,该Docker镜像为其他任一Docker容器的复制版本。该Docker镜像能够提供容器运行时所需的程序、库、资源等文件,还能够为一些运行时提供配置参数,如环境变量等。
不同的Docker镜像能够创建不同的Docker容器,因此,通过Docker镜像创建Docker容器,包括:从至少一个Docker镜像中选取目标Docker镜像,根据目标Docker镜像创建Docker容器。
其中,部署操作为对模型进行部署的操作,在一种可能实现方式中,该步骤操作为对部署选项的触发操作。可选地,计算机设备通过模型部署界面,获取输入的部署参数。
例如,图12示出了一种模型部署界面的示意图,如图12所示,该模型部署界面1200中,包括:模型名称输入框1201、模型资源配置选项1202。用户在该模型部署界面1200中能够设置目标模型的模型名称、部署所需的资源参数等。
1102、将目标容器部署至容器管理系统中,通过容器管理系统生成目标容器的调用接口,该容器管理系统用于管理多个容器,调用接口用于调用该目标容器中的目标模型。
其中,容器管理系统为能够用于管理容器的系统,可选地,该容器管理系统为K8s(一种对容器进行编排的技术)系统,将目标容器部署至容器管理系统是指:将目标容器部署至目标管理系统的多个容器集群中。通过K8s的NodePort(容器所在宿主机的端口)方式部署,会产生一个对外端口号,通过该端口号,就能够让模型提供我们所需要的模型服务了。可选地,K8s还能够提供鉴权功能,通过K8s生成目标容器的调用接口,在调用目标模型时,更加安全。
其中,容器管理系统包括Master(主)节点和Node(计算)节点,其中,Master节点用于对容器进行管理和控制,可选地,该Master节点包括接口服务,该接口服务用于提供对外接口,以供其他客户端或者组件进行调用。该Node节点的内部能够封装多个容器。可选地,将目标容器部署至容器管理系统中是指:将目标容器部署在Node节点。
在一种可能实现方式中,将目标容器部署至容器管理系统中,通过容器管理系统生成目标容器的调用接口,包括:按照部署策略,将目标容器部署至容器集群中,设置命名空间,根据该设置的命名空间,为目标容器、目标容器对应的Docker镜像、目标容器的内部端口号中的至少一项命名,根据该目标容器、目标容器对应的Docker镜像、目标容器的内部端口号中至少一项的名称,创建调用接口,该调用接口用于根据该至少一项的名称,调用目标容器中的目标模型。
可选地,调用接口在后续使用过程中可能会进行更新,因此,在创建调用接口之前,还需设置版本号。
需要说明的是,在另一些实施例中,容器管理系统包括Docker(一个开源的应用容器引擎),因此,容器管理系统还能够自己创建容器,例如,该容器管理系统中的Docker根据Docker镜像在容器集群中生成目标容器,并设置该目标容器的名称、内部端口号等,根据该目标容器的名称和内部端口号等生成目标容器的调用接口。
1103、显示模型展示界面,该模型展示界面包括目标模型的调用按钮。
在目标模型部署之后,计算机设备能够显示模型展示界面,该模型展示界面用于展示至少一个模型的调用按钮。用户对该调用按钮进行触发操作,能够调用对应的模型,以使模型对数据进行处理。
例如,如图13所示,该模型展示界面1300展示有3个模型的模型名称,以及该3个模型的启动按钮。
1104、根据对调用按钮的触发操作,获取输入的数据。
由于模型运行的过程是对数据进行处理的过程,因此,在对调用按钮进行触发操作之后,会先输入数据,以使模型对该数据进行处理。
可选地,计算机设备响应于对调用按钮的触发操作,显示数据输入框,通过该数据输入框获取输入的数据。
1105、通过目标容器的调用接口,调用目标模型对数据进行处理,得到处理结果。
其中在对调用按钮进行触发操作后,计算机设备响应于对调用按钮的触发操作,调用该目标容器的接口。
可选地,处理结果为目标模型对数据进行处理后生成的结果文件,用户通过下载结果文件得到处理结果;可选地,目标模型对数据进行处理得到处理结果后,直接显示该处理结果,例如,弹出显示框,将处理结果显示在显示框中。
需要说明的是,本申请实施例仅是以在在计算机设备检测到部署操作之后,直接对目标模型进行部署为例,对模型的部署过程进行示例性说明,而在另一实施例中,在进行模型部署操作之后,计算机设备并未对目标模型进行部署,而是显示模型发布页面,该模型发布页面用于获取模型的模型信息,可选地,该模型信息包括模型名称、模型用途或者模型大小等中的至少一项,在计算机设备获取到模型信息之后,将模型信息发送给管理人员,在经过管理人员审核通过之后,再对目标模型进行模型部署过程。
本申请实施例提供的模型部署方法,在模型训练完成之后,通过将模型部署在容器中,将容器部署在容器管理系统中,由容器管理系统提供对外接口,使得终端通过该对外接口,获取目标模型的服务,也就是说,本申请能够自动对模型进行部署,以提供调用接口的方式,使得训练好的模型快速对外提供服务。
需要说明的是,在一种可能实现方式中,本申请实施例提供的上述样本集处理方法、模型训练方法以及模型部署方法为顺序执行的方法,也即是在样本集处理完成之后,根据处理后得到的样本集对模型进行训练,在模型训练完成之后,对模型进行部署。如图14所示,该流程为:用户对问题进行定义,并获取或者制作样本集,采用自动化机器学习的流程,对样本集进行特征工程处理、模型选择处理,算法选择处理以及评估验证,对验证通过的模型进行部署,并提供相应的对外接口,用户可以通过该对外接口调用模型,使用该模型提供的服务。
其中,如图15所示,自动化机器学习的过程包括5个组件,分别为特征推断组件1501、自动化特征工程组件1502、自动化特征验证组件1503、自动化模型选择组件1504和超参数优化组件1505。
图16是本申请实施例提供的一种样本集处理装置的结构示意图,参见图16,该装置包括:样本获取模块1601、显示模块1602、第一确定模块1603和第二确定模块1604。
样本获取模块1601,用于获取第一样本集,该第一样本集包括至少一条样本数据,该样本数据包括至少一个特征数据,且每个特征数据具有对应的字段名称;
显示模块1602,用于通过样本处理界面,显示该第一样本集中的至少一个字段名称;
第一确定模块1603,用于响应于对任一目标字段名称的类型设置操作,确定为该目标字段名称设置的目标特征类型;
第二确定模块1604,用于将该目标特征类型确定为目标特征数据所属的特征类型,该目标特征数据为与该目标字段名称对应的特征数据。
如图17所示,可选地,该样本处理界面包括每个字段名称的至少一个候选特征类型,该第一确定模块1603,用于响应于对该目标字段名称的任一候选特征类型的确认操作,将该候选特征类型确定为该目标特征类型。
可选地,该样本处理界面包括每个字段名称的类型输入框,该第一确定模块1603,用于响应于对该目标字段名称的类型输入框的输入操作,将输入的特征类型确定为该目标特征类型。
可选地,该装置还包括:
编辑模块1605,用于响应于对该目标字段名称的数据编辑操作,对该目标特征数据进行编辑。
可选地,该编辑模块1605,包括:
丢弃单元16051,用于响应于对该目标字段名称的数据丢弃操作,丢弃该第一样本集中该目标特征数据;或者,
保留单元16052,用于响应于对该目标字段名称的数据保留操作,将该目标特征数据以及该目标特征数据所属的目标特征类型存储于第二样本集中。
可选地,该编辑模块1605,包括:
第一确定单元16053,用于响应于对该目标字段名称的状态编辑操作,确定为该目标字段名称编辑的目标状态;
第二确定单元16054,用于将该目标状态确定为该目标特征数据的状态,该目标状态为丢弃状态或保留状态。
可选地,该样本处理界面包括每个字段名称的至少一个候选状态,该候选状态为丢弃状态或保留状态,该第一确定单元16053,用于响应于对该目标字段名称的任一候选状态的确认操作,将该候选状态确定为该目标状态。
可选地,该编辑模块1605,还包括:
编辑单元16055,用于响应于设置完成操作,将该第一样本集中处于丢弃状态的特征数据删除;或者,从该第一样本集中筛选出处于保留状态的目标特征数据,将该目标特征数据以及该目标特征数据所属的目标特征类型存储于第二样本集中。
可选地,该显示模块1602,用于通过该样本处理界面,显示该至少一个字段名称,以及每个字段名称对应的统计信息,该字段名称对应的统计信息通过对该字段名称对应的至少一个特征数据进行统计处理得到。
可选地,该统计信息包括平均值、最大值、最小值、标准差、关联度或者缺失比例中的至少一项;
该平均值为同一字段名称对应的多条特征数据的平均值;
该最大值为同一字段名称对应的多条特征数据的最大值;
该最小值为同一字段名称对应的多条特征数据的最小值;
该标准差为同一字段名称对应的多条特征数据的标准差;
该关联度为同一字段名称对应的多条特征数据所属的特征类型与样本结果所属的特征类型的关联度,该第一样本集还包括该样本数据的样本结果;
该缺失比例为该第一样本集中缺失样本数据所占的比例,该缺失样本数据是指缺少该字段名称对应的特征数据的样本数据。
可选地,该显示模块1602,还用于响应于样本集更换操作,显示样本获取界面,该样本获取界面用于获取输入的第三样本集。
可选地,该显示模块1602,用于通过该样本处理界面,显示样本数据列表,该样本数据列表包括多列;
其中的任一列用于显示该至少一个字段名称;
另一列用于显示该至少一个字段名称对应的特征类型。
可选地,该样本数据列表的再一列用于显示该至少一个字段名称对应的状态,该状态为丢弃状态或保留状态。
可选地,该样本数据列表的再一列用于显示该至少一个字段名称对应的统计信息,该字段名称对应的统计信息通过对该字段名称对应的至少一个特征数据进行统计处理得到。
可选地,该装置还包括:
训练模块1606,用于根据处理后得到的样本集训练多个模型,不同模型采用的训练方法不同;
参数获取模块1607,用于获取该多个模型的性能参数,该性能参数用于指示该模型的准确性;
选取模块1608,用于根据该多个模型的性能参数,从该多个模型中选取目标模型。
可选地,处理后得到的样本集包括第一训练集和第二训练集,该装置还包括:
训练模块1606,用于根据该第一训练集训练多个模型,不同模型采用的训练方法不同;
参数获取模块1607,用于根据训练后的多个模型的性能参数,从该训练后的多个模型中选取目标模型,该性能参数用于指示该模型的准确性;
训练模块1606,用于根据该第二训练集继续训练该目标模型。
可选地,该处理后得到的样本集还包括测试集,该装置还包括:
测试模块1609,用于根据该测试集,对该训练后的多个模型进行测试处理,得到该训练后的多个模型的性能参数。
可选地,该显示模块1602,还用于显示该目标模型的性能参数。
可选地,该装置还包括:
打包模块1610,用于响应于对该目标模型的部署操作,将该目标模型打包至目标容器中;
部署模块1611,用于将该目标容器部署至容器管理系统中,通过该容器管理系统生成该目标容器的调用接口,该容器管理系统用于管理多个容器,该调用接口用于调用该目标容器中的该目标模型。
可选地,该装置还包括:
该显示模块1602,用于显示模型展示界面,该模型展示界面包括该目标模型的调用按钮;
数据获取模块1612,用于根据对该调用按钮的触发操作,获取输入的数据;
处理模块1613,用于通过该目标容器的调用接口,调用该目标模型对该数据进行处理,得到处理结果。
需要说明的是:上述实施例提供的样本集处理装置在对样本集进行处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的样本集处理装置与样本集处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图18是本申请实施例提供的一种终端的结构框图。该终端1800用于执行上述实施例中终端执行的步骤,可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1800包括有:处理器1801和存储器1802。
处理器1801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1801可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1802中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1801所执行以实现本申请中方法实施例提供的样本集处理方法。
在一些实施例中,终端1800还可选包括有:外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地,外围设备包括:射频电路1804、显示屏1805、摄像头组件1806、音频电路1807和电源1809中的至少一种。
外围设备接口1803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中,处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上;在一些其他实施例中,处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现,本申请实施例对此不加以限定。
射频电路1804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时,显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时,显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1805可以为一个,设置终端1800的前面板;在另一些实施例中,显示屏1805可以为至少两个,分别设置在终端1800的不同表面或呈折叠设计;在另一些实施例中,显示屏1805可以是柔性显示屏,设置在终端1800的弯曲表面上或折叠面上。甚至,显示屏1805还可以设置成非矩形的不规则图形,也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1806用于采集图像或视频。可选地,摄像头组件1806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1801进行处理,或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1807还可以包括耳机插孔。
电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于:加速度传感器1811、陀螺仪传感器1812、压力传感器1813、光学传感器1818以及接近传感器1816。
加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号,控制显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1812可以检测终端1800的机体方向及转动角度,陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1813可以设置在终端1800的侧边框和/或显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时,可以检测用户对终端1800的握持信号,由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在显示屏1805的下层时,由处理器1801根据用户对显示屏1805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1818用于采集环境光强度。在一个实施例中,处理器1801可以根据光学传感器1818采集的环境光强度,控制显示屏1805的显示亮度。具体地,当环境光强度较高时,调高显示屏1805的显示亮度;当环境光强度较低时,调低显示屏1805的显示亮度。在另一个实施例中,处理器1801还可以根据光学传感器1818采集的环境光强度,动态调整摄像头组件1806的拍摄参数。
接近传感器1816,也称距离传感器,通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中,当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时,由处理器1801控制显示屏1805从亮屏状态切换为息屏状态;当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时,由处理器1801控制显示屏1805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图18中示出的结构并不构成对终端1800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图19是本申请实施例提供的一种服务器的结构示意图,该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)1901和一个或一个以上的存储器1902,其中,存储器1902中存储有至少一条程序代码,至少一条程序代码由处理器1901加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器1900可以用于执行上述样本集处理方法中服务器所执行的步骤。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码,该至少一条程序代码由该处理器加载并执行上述实施例的样本集处理方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现上述实施例的样本集处理方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行如上述实施例的样本集处理方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来程序代码相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种样本集处理方法,其特征在于,所述方法包括:
获取第一样本集,所述第一样本集包括至少一条样本数据,所述样本数据包括至少一个特征数据,且每个特征数据具有对应的字段名称;
通过样本处理界面,显示所述第一样本集中的至少一个字段名称、每个字段名称的至少一个候选特征类型以及每个字段名称的至少一个候选状态,所述候选状态为丢弃状态或保留状态;
响应于对任一目标字段名称的任一候选特征类型的确认操作,将所述候选特征类型确定为所述目标字段名称设置的目标特征类型;
将所述目标特征类型确定为目标特征数据所属的特征类型,所述目标特征数据为与所述目标字段名称对应的特征数据;
响应于对所述目标字段名称的任一候选状态的确认操作,将所述候选状态确定为目标状态;
将所述目标状态确定为所述目标特征数据的状态,所述目标状态为丢弃状态或保留状态;
响应于对所述样本处理界面中的设置完成选项的触发操作,从所述第一样本集中筛选出处于保留状态的目标特征数据;将所述目标特征数据以及所述目标特征数据所属的目标特征类型存储于第二样本集中;通过所述样本处理界面,显示所述第一样本集中的至少一个字段名称以及每个字段名称对应的统计信息,所述字段名称对应的统计信息通过对所述字段名称对应的至少一个特征数据进行统计处理得到;
响应于对所述样本处理界面中的样本集更换选项的触发操作,显示样本获取界面,所述样本获取界面用于获取输入的第三样本集。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述样本处理界面包括每个字段名称的类型输入框,响应于对所述目标字段名称的类型输入框的输入操作,将输入的特征类型确定为所述目标特征类型。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于对所述目标字段名称的数据丢弃操作,丢弃所述第一样本集中所述目标特征数据;或者,
响应于对所述目标字段名称的数据保留操作,将所述目标特征数据以及所述目标特征数据所属的目标特征类型存储于第二样本集中。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于设置完成操作,将所述第一样本集中处于丢弃状态的特征数据删除。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述目标特征类型确定为目标特征数据所属的特征类型之后,所述方法还包括:
根据处理后得到的样本集训练多个模型,不同模型采用的训练方法不同;
获取所述多个模型的性能参数,所述性能参数用于指示所述模型的准确性;
根据所述多个模型的性能参数,从所述多个模型中选取目标模型。
6.根据权利要求1-4任一项所述的方法,其特征在于,处理后得到的样本集包括第一训练集和第二训练集,所述将所述目标特征类型确定为目标特征数据所属的特征类型之后,所述方法还包括:
根据所述第一训练集训练多个模型,不同模型采用的训练方法不同;
根据训练后的多个模型的性能参数,从所述训练后的多个模型中选取目标模型,所述性能参数用于指示所述模型的准确性;
根据所述第二训练集继续训练所述目标模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第二训练集继续训练所述目标模型之后,所述方法还包括:
响应于对所述目标模型的部署操作,将所述目标模型打包至目标容器中;
将所述目标容器部署至容器管理系统中,通过所述容器管理系统生成所述目标容器的调用接口,所述容器管理系统用于管理多个容器,所述调用接口用于调用所述目标容器中的所述目标模型。
8.根据权利要求7所述的方法,其特征在于,所述将所述目标容器部署至容器管理系统中,通过所述容器管理系统生成所述目标容器的调用接口之后,所述方法还包括:
显示模型展示界面,所述模型展示界面包括所述目标模型的调用按钮;
根据对所述调用按钮的触发操作,获取输入的数据;
通过所述目标容器的调用接口,调用所述目标模型对所述数据进行处理,得到处理结果。
9.一种样本集处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取第一样本集,所述第一样本集包括至少一条样本数据,所述样本数据包括至少一个特征数据,且每个特征数据具有对应的字段名称;
显示模块,用于通过样本处理界面,显示所述第一样本集中的至少一个字段名称、每个字段名称的至少一个候选特征类型以及每个字段名称的至少一个候选状态,所述候选状态为丢弃状态或保留状态;
第一确定模块,用于响应于对任一目标字段名称的任一候选特征类型的确认操作,将所述候选特征类型确定为所述目标字段名称设置的目标特征类型;
第二确定模块,用于将所述目标特征类型确定为目标特征数据所属的特征类型,所述目标特征数据为与所述目标字段名称对应的特征数据;
编辑模块,包括第一确定单元、第二确定单元、编辑单元;
所述第一确定单元,用于响应于对所述目标字段名称的任一候选状态的确认操作,将所述候选状态确定为目标状态;
所述第二确定单元,用于将所述目标状态确定为所述目标特征数据的状态,所述目标状态为丢弃状态或保留状态;
所述编辑单元,用于响应于对所述样本处理界面中的设置完成选项的触发操作,从所述第一样本集中筛选出处于保留状态的目标特征数据;将所述目标特征数据以及所述目标特征数据所属的目标特征类型存储于第二样本集中;
显示模块,用于通过所述样本处理界面,显示所述第一样本集中的至少一个字段名称以及每个字段名称对应的统计信息,所述字段名称对应的统计信息通过对所述字段名称对应的至少一个特征数据进行统计处理得到;
所述显示模块,还用于响应于对所述样本处理界面中的样本集更换选项的触发操作,显示样本获取界面,所述样本获取界面用于获取输入的第三样本集。
10.根据权利要求9所述的装置,其特征在于,所述样本处理界面包括每个字段名称的类型输入框,所述第一确定模块,用于响应于对所述目标字段名称的类型输入框的输入操作,将输入的特征类型确定为所述目标特征类型。
11.根据权利要求9所述的装置,其特征在于,所述编辑模块,还包括:
丢弃单元,用于响应于对所述目标字段名称的数据丢弃操作,丢弃所述第一样本集中所述目标特征数据;或者,
保留单元,用于响应于对所述目标字段名称的数据保留操作,将所述目标特征数据以及所述目标特征数据所属的目标特征类型存储于第二样本集中。
12.根据权利要求9所述的装置,其特征在于,所述编辑单元,还用于:
响应于设置完成操作,将所述第一样本集中处于丢弃状态的特征数据删除。
13.根据权利要求9-12任一项所述的装置,其特征在于,所述装置还包括:
训练模块,用于根据处理后得到的样本集训练多个模型,不同模型采用的训练方法不同;
参数获取模块,用于获取所述多个模型的性能参数,所述性能参数用于指示所述模型的准确性;
选取模块,用于根据所述多个模型的性能参数,从所述多个模型中选取目标模型。
14.根据权利要求9-12任一项所述的装置,其特征在于,处理后得到的样本集包括第一训练集和第二训练集,所述装置还包括:
训练模块,用于根据所述第一训练集训练多个模型,不同模型采用的训练方法不同;
参数获取模块,用于根据训练后的多个模型的性能参数,从所述训练后的多个模型中选取目标模型,所述性能参数用于指示所述模型的准确性;
所述训练模块,还用于根据所述第二训练集继续训练所述目标模型。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
打包模块,用于响应于对所述目标模型的部署操作,将所述目标模型打包至目标容器中;
部署模块,用于将所述目标容器部署至容器管理系统中,通过所述容器管理系统生成所述目标容器的调用接口,所述容器管理系统用于管理多个容器,所述调用接口用于调用所述目标容器中的所述目标模型。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
所述显示模块,用于显示模型展示界面,所述模型展示界面包括所述目标模型的调用按钮;
数据获取模块,用于根据对所述调用按钮的触发操作,获取输入的数据;
处理模块,用于通过所述目标容器的调用接口,调用所述目标模型对所述数据进行处理,得到处理结果。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至8任一项所述的样本集处理方法中所执行的操作。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至8任一项所述的样本集处理方法中所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010904755.XA CN112036492B (zh) | 2020-09-01 | 2020-09-01 | 样本集处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010904755.XA CN112036492B (zh) | 2020-09-01 | 2020-09-01 | 样本集处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112036492A CN112036492A (zh) | 2020-12-04 |
CN112036492B true CN112036492B (zh) | 2024-02-02 |
Family
ID=73590816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010904755.XA Active CN112036492B (zh) | 2020-09-01 | 2020-09-01 | 样本集处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036492B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112799556B (zh) * | 2021-01-26 | 2022-12-30 | 浙江吉利控股集团有限公司 | 一种车辆数据的显示控制方法及波形显示装置 |
CN113486986A (zh) * | 2021-08-02 | 2021-10-08 | 浙江大华技术股份有限公司 | 增量数据的确定方法及装置、存储介质、电子装置 |
CN115859098A (zh) * | 2022-11-22 | 2023-03-28 | 北京中关村科金技术有限公司 | 模型训练方法、装置、设备及存储介质 |
CN116346697B (zh) * | 2023-05-30 | 2023-09-19 | 亚信科技(中国)有限公司 | 通信业务质量评测方法、装置及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108008942A (zh) * | 2017-11-16 | 2018-05-08 | 第四范式(北京)技术有限公司 | 对数据记录进行处理的方法及系统 |
CN108710949A (zh) * | 2018-04-26 | 2018-10-26 | 第四范式(北京)技术有限公司 | 用于创建机器学习建模模板的方法及系统 |
CN108846660A (zh) * | 2018-05-29 | 2018-11-20 | 阿里巴巴集团控股有限公司 | 一种识别异常资金的方法及系统 |
CN109783788A (zh) * | 2019-01-02 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 数据表填补方法、装置、计算机设备和存储介质 |
CN110287313A (zh) * | 2019-05-20 | 2019-09-27 | 阿里巴巴集团控股有限公司 | 一种风险主体的确定方法及服务器 |
CN110442568A (zh) * | 2019-07-30 | 2019-11-12 | 北京明略软件系统有限公司 | 字段标签的获取方法及装置、存储介质、电子装置 |
CN110532299A (zh) * | 2019-08-29 | 2019-12-03 | 南京邮电大学 | 基于半监督学习的DPI数据中host的自动化挖掘方法及系统 |
CN111008707A (zh) * | 2019-12-09 | 2020-04-14 | 第四范式(北京)技术有限公司 | 自动化建模方法、装置及电子设备 |
CN111507768A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种潜在用户的确定方法、模型训练的方法及相关装置 |
CN111506595A (zh) * | 2020-04-20 | 2020-08-07 | 金蝶软件(中国)有限公司 | 一种数据查询方法、系统及相关设备 |
CN111523677A (zh) * | 2020-04-17 | 2020-08-11 | 第四范式(北京)技术有限公司 | 实现对机器学习模型的预测结果进行解释的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160232457A1 (en) * | 2015-02-11 | 2016-08-11 | Skytree, Inc. | User Interface for Unified Data Science Platform Including Management of Models, Experiments, Data Sets, Projects, Actions and Features |
-
2020
- 2020-09-01 CN CN202010904755.XA patent/CN112036492B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108008942A (zh) * | 2017-11-16 | 2018-05-08 | 第四范式(北京)技术有限公司 | 对数据记录进行处理的方法及系统 |
CN108710949A (zh) * | 2018-04-26 | 2018-10-26 | 第四范式(北京)技术有限公司 | 用于创建机器学习建模模板的方法及系统 |
CN108846660A (zh) * | 2018-05-29 | 2018-11-20 | 阿里巴巴集团控股有限公司 | 一种识别异常资金的方法及系统 |
CN109783788A (zh) * | 2019-01-02 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 数据表填补方法、装置、计算机设备和存储介质 |
CN110287313A (zh) * | 2019-05-20 | 2019-09-27 | 阿里巴巴集团控股有限公司 | 一种风险主体的确定方法及服务器 |
CN110442568A (zh) * | 2019-07-30 | 2019-11-12 | 北京明略软件系统有限公司 | 字段标签的获取方法及装置、存储介质、电子装置 |
CN110532299A (zh) * | 2019-08-29 | 2019-12-03 | 南京邮电大学 | 基于半监督学习的DPI数据中host的自动化挖掘方法及系统 |
CN111008707A (zh) * | 2019-12-09 | 2020-04-14 | 第四范式(北京)技术有限公司 | 自动化建模方法、装置及电子设备 |
CN111507768A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种潜在用户的确定方法、模型训练的方法及相关装置 |
CN111523677A (zh) * | 2020-04-17 | 2020-08-11 | 第四范式(北京)技术有限公司 | 实现对机器学习模型的预测结果进行解释的方法及装置 |
CN111506595A (zh) * | 2020-04-20 | 2020-08-07 | 金蝶软件(中国)有限公司 | 一种数据查询方法、系统及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112036492A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112036492B (zh) | 样本集处理方法、装置、设备及存储介质 | |
CN109299315B (zh) | 多媒体资源分类方法、装置、计算机设备及存储介质 | |
CN109189950B (zh) | 多媒体资源分类方法、装置、计算机设备及存储介质 | |
CN108536463B (zh) | 获取资源包的方法、装置、设备及计算机可读存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN111931946B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
CN111897996A (zh) | 话题标签推荐方法、装置、设备及存储介质 | |
CN111209377B (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
CN110942046B (zh) | 图像检索方法、装置、设备及存储介质 | |
CN113822322B (zh) | 图像处理模型训练方法及文本处理模型训练方法 | |
CN112269853A (zh) | 检索处理方法、装置及存储介质 | |
CN111368116A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN111984803B (zh) | 多媒体资源处理方法、装置、计算机设备及存储介质 | |
CN111507094B (zh) | 基于深度学习的文本处理模型训练方法、装置及设备 | |
CN111325220B (zh) | 图像生成方法、装置、设备及存储介质 | |
CN111738365A (zh) | 图像分类模型训练方法、装置、计算机设备及存储介质 | |
CN112561084B (zh) | 特征提取方法、装置、计算机设备及存储介质 | |
CN114328815A (zh) | 文本映射模型的处理方法、装置、计算机设备及存储介质 | |
CN114281936A (zh) | 分类方法、装置、计算机设备及存储介质 | |
CN112053360B (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN113761195A (zh) | 文本分类方法、装置、计算机设备及计算机可读存储介质 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN112232890B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN113762585A (zh) | 数据的处理方法、账号类型的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40035418 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |