CN106611021B - 一种数据处理方法和设备 - Google Patents

一种数据处理方法和设备 Download PDF

Info

Publication number
CN106611021B
CN106611021B CN201510708687.9A CN201510708687A CN106611021B CN 106611021 B CN106611021 B CN 106611021B CN 201510708687 A CN201510708687 A CN 201510708687A CN 106611021 B CN106611021 B CN 106611021B
Authority
CN
China
Prior art keywords
parameter
combination
analysis model
parameters
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510708687.9A
Other languages
English (en)
Other versions
CN106611021A (zh
Inventor
王凯
毛仁歆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510708687.9A priority Critical patent/CN106611021B/zh
Publication of CN106611021A publication Critical patent/CN106611021A/zh
Application granted granted Critical
Publication of CN106611021B publication Critical patent/CN106611021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据处理方法和设备,包括:获取数据样本集合,数据样本集合中包含训练数据样本集合和测试数据样本集合;针对待处理的分析模型的每一个参数组合,分别将参数组合和数据样本集合发送至与参数组合的资源指示属性相匹配的计算单元,使计算单元利用训练数据样本集合和参数组合训练得到分析模型的一个子分析模型;利用测试数据样本集合对每一个子分析模型所对应的参数组合进行评分,得到每一个参数组合的评分结果;根据评分结果,确定出满足设定条件的参数组合,实现从全局参数中选择出最优的参数组合,建立性能可靠的分析模型;在分析全局参数时采用异构计算集群系统,有效地使用系统资源,提升系统资源的利用率。

Description

一种数据处理方法和设备
技术领域
本申请涉及互联网信息处理技术领域,尤其涉及一种数据处理方法和设备。
背景技术
随着互联网技术的发展,人们借助互联网平台进行各种网上交流,这样在互联网平台的服务器中存储了大量数据。如何对这些数据进行分析以获取数据中蕴含的商业价值成为数据处理领域的一个重要问题。
目前解决上述问题采用的方式包括但不限于:首先从大量数据中抽取数据样本,利用这些数据样本通过学习算法构建分析模型,其次利用得到的分析模型对大量数据进行分析。
然而,在构建分析模型时需要确定分析模型所使用的参数,在实际应用中,参数确定的方式一般有两种:第一种方式是根据经验预设分析模型所使用的参数;第二种方式是通过人工筛选的方式筛选出效果较好的参数。
上述两种方式存在的问题在于:在确定参数的过程中需要消耗大量的资源(包含人力资源),同时由于在确定参数时没能覆盖到所有参数值,因此无法保证基于确定的参数建立的分析模型性能稳定,这样,后续在利用分析模型对大量数据进行分析时,导致分析结果不够准确。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法和设备,用于解决如何为分析模型确定出比较精准的参数的问题。
一种数据处理方法,包括:
获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;
针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述训练数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;
根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。
一种数据处理设备,包括:
获取单元,用于获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;
分配单元,用于针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;
处理单元,用于根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。
本申请有益效果如下:
本申请实施例提供的数据处理方法和设备,通过获取数据样本集合,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。这样,基于任意一种分析模型,可以对该分析模型所包含的全局参数进行测试,进而从所述全局参数中选择出最优的参数组合,以便于建立性能可靠的分析模型,并为后续利用分析模型对大量数据进行分析奠定基础,有效提高数据分析结果的精度;同时,本申请在分析全局参数时采用异构计算集群系统,根据参数组合的资源指示属性选择计算单元,以保证计算单元之间的资源均衡,有效地使用系统资源,提升了系统资源的利用率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的流程示意图;
图2为基于异构计算集群对不同参数组合进行评分的结构示意图;
图3为基于异构计算集群对K-近邻分类算法中的参数K进行评分的结构示意图;
图4为本申请实施例提供的一种数据处理设备的结构示意图。
具体实施方式
为了实现本申请的目的,本申请实施例提供了一种数据处理方法和设备,通过获取数据样本集合,所述数据样本集合中包含测试数据样本集合和训练数据样本集合;针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。
这样,基于任意一种分析模型,可以对该分析模型所包含的全局参数进行测试,进而从所述全局参数中选择出最优的参数组合,以便于建立性能可靠的分析模型,并为后续利用分析模型对大量数据进行分析奠定基础,有效提高数据分析结果的精度;同时,本申请在分析全局参数时采用异构计算集群系统,根据参数组合的资源指示属性选择计算单元,以保证计算单元之间的资源均衡,有效地使用系统资源,提升了系统资源的利用率。
需要说明的是,本申请实施例中所述分析模型可以是机器学习算法,例如:K-近邻算法,随机森林算法,支持向量机算法等等,也可以是构造的某一种数据分析模型,这里不做具体限定。
下面结合说明书附图对本申请各个实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种数据处理方法的流程示意图。所述方法可以如下所示。
步骤101:获取数据样本集合。
其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合。
在步骤101中,从原始数据集合中获取数据样本集合。假设原始数据集合的规模比较大,所包含的数据量比较多时,可以通过数据采样技术从原始数据集合中采样得到相对少量的N个数据组合得到数据样本集合。N的取值范围不限,可以根据原始数据集合规模而定,也可以根据实际需要确定。若原始数据集合的规模比较小,那么直接将原始数据集合作为数据样本集合即可,无需进行数据采样。
在得到数据样本集合后,对数据样本集合中的数据进行拆分,以得到训练数据样本集合和测试数据样本集合。即从数据样本集合中随机抽取一部分数据作为训练数据样本集合中的数据,剩余部分作为测试数据样本集合中的数据(例如:可选择80%的数据作为训练数据样本集合中的数据,剩余20%的数据作为测试数据样本集合中的数据)。
这里需要说明的是,训练数据样本集合中正负数据样本的比例以及测试数据样本集合中正负数据样本的比例与数据样本集合中正负数据样本的比例一致。例如:数据样本集合中正负数据样本的比例为2:8,那么训练数据样本集合中正负数据样本的比例以及测试数据样本集合中正负数据样本的比例也需要保证为2:8。
步骤102:针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果。
其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源。
需要说明的是,这里的参数组合包括该组合中仅有一个参数的情况。
在步骤102中,首先,针对待处理的分析模型,确定所述分析模型所使用的至少一个参数以及所述参数的参数属性。
其中,所述参数属性中包含所述参数的迭代间隔、所述参数的取值范围以及所述参数与基于所述参数完成计算所需的计算资源之间的相关性。
本申请实施例中所述的迭代间隔可以是根据需要确定,例如:假设分析模型所用的参数包含参数a,参数a的取值范围为【0.1~1】,若设定的迭代间隔为0.1,那么参数a的取值可以为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1;若设定的迭代间隔为0.2,那么参数a的取值可以为0.2、0.4、0.6、0.8、1。
所谓所述参数与基于所述参数完成计算所需的计算资源之间的相关性是指当参数取值增加/减少时,完成计算所需的计算资源是增加还是减少。
假设,分析模型包含3个参数,分别是参数a、参数b和参数c,那么参数a、参数b和参数c分别对应的参数属性如下表1所示:
表1
Figure BDA0000831771620000061
其次,根据各个所述参数的迭代间隔和各个所述参数的取值范围,得到所述分析模型的参数组合。
其中,每一个所述参数组合中包含每一个所述参数,不同所述参数组合中包含的至少一个相同的所述参数的取值不同。
仍以上述表1中所列数据为例,参数a的取值为:0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1;参数b的取值为3、4、5、6、7、8;参数c的取值为100、200、300、400、500、600、700、800、900、1000。那么根据各个所述参数的迭代间隔,得到所述分析模型的参数组合为:{0.1、3、100}......{1、8、1000}等600个参数组合。每一个组合中都包含参数a、参数b和参数c;不同参数组合中包含的参数a、参数b以及参数c中的至少一个相同参数的取值不同。
第三,确定每一个参数组合的资源指示属性。
具体地,针对每一个参数组合分别执行以下操作:
分别计算所述参数组合中每一个参数的资源指示属性,并根据每一个参数的资源指示属性,计算得到所述参数组合的资源指示属性。
具体地,计算所述参数组合中每一个参数的资源指示属性,包括:
针对所述参数组合中每一个参数,执行以下操作:
选择其中一个未执行操作的参数,并确定选择的所述参数的取值以及所述参数与基于所述参数完成计算所需要的计算资源之间的相关性;
根据所述参数的取值以及所述相关性,计算得到选择的所述参数的资源指示属性。
仍以上述表1中所列数据为例,参数b的取值范围为【3,8】,且参数b与基于所述参数b完成计算所需的计算资源之间的相关性为正相关,那么当参数b的取值为3时,确定参数b的资源指示属性为0;当参数b的取值为8时,确定参数b的资源指示属性为1。
此外,还可以通过以下方式确定每一个参数的资源指示属性:
Figure BDA0000831771620000071
其中,ω(vi)表示参数v的第i个取值对应的资源指示属性,公式(1)用于表示若参数v与基于所述参数v完成计算所需的计算资源之间的相关性为正相关时,利用公式(1)可以计算得到数v的第i个取值对应的资源指示属性,公式(2)用于表示若参数v与基于所述参数v完成计算所需的计算资源之间的相关性为负相关时,利用公式(2)可以计算得到数v的第i个取值对应的资源指示属性,min(v)表示参数V的最小取值,max(v)表示参数V的最大取值。
由此可见,资源指示属性的取值范围为0~1。
假设分析模型的一个参数组合为{a=0.5;b=5;c=200},分别计算得到的每一个参数的资源指示属性为:
Figure BDA0000831771620000081
进而计算得到的参数组合的资源指示属性:
Figure BDA0000831771620000082
需要说明的是,本申请实施例中参数组合的资源指示属性采用取平均值的方式得到,还可以采用其他方式得到,例如加权平均等等,可以根据实际需要确定,这里不做限定。
第四,确定异构计算集群系统中每一个计算单元的计算资源的大小值。
第五,根据所述参数组合的资源指示属性,从所述异构计算集群系统中选择计算资源的大小值与所述参数组合的资源指示属性相匹配的计算单元。
具体地,在确定异构计算集群系统中每一个计算单元的计算资源的大小值后,按照计算资源的大小值将计算单元进行排序,同时,将参数组合按照资源指示属性进行排序,根据排序结果为参数组合选择相匹配的计算单元。
例如:参数组合的资源指示属性值越高,选择的计算单元的计算资源越多;参数组合的资源指示属性值越小,选择的计算单元的计算资源越少。
这样,可以避免资源消耗比较大的参数组合被发送至计算资源较少的计算单元中,导致计算效率降低,同时也能够比较资源消耗较小的参数组合被发送至计算资源较多的计算单元中,导致计算资源的浪费,有效保证系统资源利用的均衡,进而提升系统资源的处理效率。
第六,将所述参数组合和所述数据样本集合发送至选择的所述计算单元。
这样所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型。
所述计算单元还利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果。
基于其中一个计算单元为例进行说明。计算单元在接收到参数组合和数据样本集合后,首先利用所述训练数据样本集合和所述参数组合训练得到一个子分析模型;其次利用所述测试数据样本集合和该子分析模型对所述参数组合进行评分。
这里需要说明的是,本申请实施例中所述子分析模型是待处理的分析模型的一种实现形式。
步骤103:根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。
在步骤103中,在每一个计算单元都对参数组合进行评分后,根据评分结果确定出基于所述待处理的分析模型的满足设定条件的参数组合。
具体地,针对每一个所述参数组合对应的所述评分结果,将其中所述评分结果大于设定阈值的参数组合确定为基于所述待处理的分析模型的满足设定条件的参数组合。
可选地,满足设定条件可以是评分结果最高的参数组合,这里不做限定。
图2为基于异构计算集群对不同参数组合进行评分的结构示意图。
从图2中可以看出,参数组合有N个,计算单元有N个。每一个参数组合和数据样本集合被发送至相匹配的计算单元,针对一个计算单元,首先根据接收到参数组合和训练数据样本集合训练得到一个子分析模型;其次,利用该子分析模型和测试数据样本集合对该参数组合进行评分,得到评分结果;最后输出评分结果,根据输出的评分结果确定基于所述待处理的分析模型的满足设定条件的参数组合。
通过本申请实施例所述的技术方案,获取数据样本集合,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;针对待处理的分析模型的至少一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。
这样,基于任意一种分析模型,可以对该分析模型所包含的全局参数进行测试,进而从所述全局参数中选择出最优的参数组合,以便于建立性能可靠的分析模型,并为后续利用分析模型对大量数据进行分析奠定基础,有效提高数据分析结果的精度;同时,本申请在分析全局参数时采用异构计算集群系统,根据参数组合的资源指示属性选择计算单元,以保证计算单元之间的资源均衡,有效地使用系统资源,提升了系统资源的利用率。
下面以分析模型为K-近邻分类算法为例对上述实施例中所描述的参数确定方法进行详细描述。
所谓K-近邻分类算法的原理是:假设有N个类别已知的样本,每一个样本被标记为正样本或者负样本。当前存在一个待分类的样本,为了确定该样本属于正样本还是属于负样本,可以使用K-近邻分类算法。具体地,利用欧式距离计算距离待分类的样本距离满足设定条件的K个样本,统计这K个样本对应的类别(即正样本或者负样本)出现的频次,将出现频次较高的类别作为待分类的样本的类别。
由此可见,选择K个样本中K的取值非常关键,那么如何确定K-近邻分类算法中K的取值呢?基于图1中所述的数据处理方法能够确定出比较精准的K以提高分类准确率。
首先,对样本数据进行预处理。将样本数据进行分类,80%的样本数据作为训练样本,20%的样本数据作为测试样本。
其次,确定K-近邻分类算法的参数属性。
参数属性包含:参数取值范围、参数的迭代间隔、参数取值与基于参数取值所需的计算资源之间的相关性。如表2所示:
表2
参数名 取值范围 迭代间隔 参数取值与基于参数取值所需的计算资源之间的相关性
K 【1,10】 1 正相关
需要说明的是,对于K-近邻分类算法中的参数K,最小取值为1,最大取值可以根据实际应用场景确定,本申请实施例中最大值假设为10,假设迭代间隔为1。参数K的取值与所需的计算资源之间的相关性为正相关,那么说明K的取值越大,需要计算资源越多。
第三,确定每一个参数K的资源指示属性。
具体地,根据参数K的取值范围和参数取值与所需计算资源的相关性,利用下述方式可计算得到每个K的取值对应的资源指示属性:
Figure BDA0000831771620000111
其中,ω(vi)表示参数K的第i个取值对应的资源指示属性,min(v)表示参数K的最小取值,max(v)表示参数K的最大取值。
具体地,当K=1时,资源指示属性为0,当K=2时,资源指示属性为1/9,当K=3时,资源指示属性为2/9,当K=4时,资源指示属性为3/9,当K=5时,资源指示属性为4/9,当K=6时,资源指示属性为5/9,当K=7时,资源指示属性为6/9,当K=8时,资源指示属性为7/9,当K=9时,资源指示属性为8/9,当K=10时,资源指示属性为1。
第四,确定异构计算集群系统中每一个计算单元的计算资源的大小值。
假设异构计算集群系统中可以使用的计算单元有10个,按照计算资源从小到达的顺序为,计算单元2、计算单元3、计算单元1、计算单元10、计算单元5、计算单元9、计算单元7、计算单元6、计算单元8和计算单元4。
第五,根据所述参数组合的资源指示属性,从所述异构计算集群系统中选择计算资源的大小值与所述参数组合的资源指示属性相匹配的计算单元。
仍以上述记载为例,K=1所匹配的计算单元为计算单元2;K=2所匹配的计算单元为计算单元3;K=3所匹配的计算单元为计算单元1;K=4所匹配的计算单元为计算单元10;K=5所匹配的计算单元为计算单元5;K=6所匹配的计算单元为计算单元9;K=7所匹配的计算单元为计算单元7;K=8所匹配的计算单元为计算单元6;K=9所匹配的计算单元为计算单元8;K=10所匹配的计算单元为计算单元4。
第六,将所述参数组合和所述数据样本集合发送至选择的所述计算单元。
仍以上述记载为例,此时,将K=1以及训练样本发送至计算单元2中,将K=2以及训练样本发送至计算单元3中,将K=3以及训练样本发送至计算单元1中,将K=4以及训练样本发送至计算单元10中,将K=5以及训练样本发送至计算单元5中,将K=6以及训练样本发送至计算单元9中,将K=7以及训练样本发送至计算单元7中,将K=8以及训练样本发送至计算单元6中,将K=9以及训练样本发送至计算单元8中,将K=10以及训练样本发送至计算单元4中。
这样所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型;并利用所述测试样本数据对每一个所述子分析模型所对应的参数K进行评分,得到每一个所述参数K的评分结果。
第七,根据所述评分结果,确定出基于K-近邻分类算法最优的参数K。
需要说明的是,在本申请实施例中,对参数K进行评分的依据是参数K预测准确率,即对测试样本的类别越策准确的数目占测试样本总数的比例。
如图3所示,为基于异构计算集群对K-近邻分类算法中的参数K进行评分的结构示意图。
图4为本申请实施例提供的一种数据处理设备的结构示意图。所述数据处理设备包括:获取单元41、分配单元42和处理单元43,其中:
获取单元41,用于获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;
分配单元42,用于针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;
处理单元43,用于根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。
可选地,所述数据处理设备还包括:确定单元44,其中:
所述确定单元44确定所述参数组合的资源指示属性,包括:
分别计算所述参数组合中每一个参数的资源指示属性;
根据每一个参数的资源指示属性,计算得到所述参数组合的资源指示属性。
具体地,所述确定单元44计算所述参数组合中每一个参数的资源指示属性,包括:
针对所述参数组合中每一个参数,执行以下操作:
选择其中一个未执行操作的参数,并确定选择的所述参数的取值以及所述参数与基于所述参数完成计算所需要的计算资源之间的相关性;
根据所述参数以及所述相关性,计算得到选择的所述参数的资源指示属性。
具体地,所述分配单元42将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,包括:
确定异构计算集群系统中每一个计算单元的计算资源的大小值;
根据所述参数组合的资源指示属性,从所述异构计算集群系统中选择计算资源的大小值与所述参数组合的资源指示属性相匹配的计算单元;
将所述参数组合和所述数据样本集合发送至选择的所述计算单元。
具体地,所述确定单元44确定待处理的分析模型的参数组合,包括:
获取待处理的分析模型,并确定所述分析模型所使用的参数以及所述参数的参数属性,其中,所述参数属性中包含所述参数的迭代间隔、所述参数的取值范围以及所述参数取值与基于所述参数取值完成计算所需的计算资源之间的相关性;
根据各个所述参数的迭代间隔,得到所述分析模型的参数组合,其中,每一个所述参数组合中包含每一个所述参数,不同所述参数组合中包含的至少一个相同的所述参数的取值不同。
具体地,所述处理单元43根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合,包括:
针对每一个所述参数组合对应的所述评分结果,将其中所述评分结果大于设定阈值的参数组合确定为基于所述待处理的分析模型的满足设定条件的参数组合。
需要说明的是,本申请实施例中所述的数据处理设备可以通过硬件方式实现,也可以通过软件方式实现,这里不做限定。
基于任意一种分析模型,数据处理设备可以对该分析模型所包含的全局参数进行测试,进而从所述全局参数中选择出最优的参数组合,以便于建立性能可靠的分析模型,并为后续利用分析模型对大量数据进行分析奠定基础,有效提高数据分析结果的精度;同时,在分析全局参数时采用异构计算集群系统,根据参数组合的资源指示属性选择计算单元,以保证计算单元之间的资源均衡,有效地使用系统资源,提升了系统资源的利用率。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;
针对待处理的分析模型的每一个参数组合,分别确定所述参数组合的资源指示属性;其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源的多少;以及,
确定异构计算集群系统中每个计算单元的计算资源的大小值;根据所述参数组合的资源指示属性,从所述异构计算集群系统中选择所述计算资源的大小值与所述资源指示属性相匹配的计算单元;将所述参数组合和所述数据样本集合发送至所述计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果;
根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。
2.如权利要求1所述的数据处理方法,其特征在于,所述确定所述参数组合的资源指示属性,包括:
分别计算所述参数组合中每一个参数的资源指示属性;
根据每一个参数的资源指示属性,计算得到所述参数组合的资源指示属性。
3.如权利要求2所述的数据处理方法,其特征在于,计算所述参数组合中每一个参数的资源指示属性,包括:
针对所述参数组合中每一个参数,执行以下操作:
选择其中一个未执行操作的参数,并确定选择的所述参数的取值以及所述参数与基于所述参数完成计算所需要的计算资源之间的相关性;
根据所述参数的取值以及所述相关性,计算得到选择的所述参数的资源指示属性。
4.如权利要求1所述的数据处理方法,其特征在于,确定待处理的分析模型的参数组合,包括:
获取待处理的分析模型,并确定所述分析模型所使用的参数以及所述参数的参数属性,其中,所述参数属性中包含所述参数的迭代间隔、所述参数的取值范围以及所述参数与基于所述参数完成计算所需的计算资源之间的相关性;
根据各个所述参数的迭代间隔和各个所述参数的取值范围,得到所述分析模型的参数组合,其中,每一个所述参数组合中包含每一个所述参数,不同所述参数组合中包含的至少一个相同的所述参数的取值不同。
5.如权利要求1所述的数据处理方法,其特征在于,根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合,包括:
针对每一个所述参数组合对应的所述评分结果,将其中所述评分结果大于设定阈值的参数组合确定为基于所述待处理的分析模型的满足设定条件的参数组合。
6.一种数据处理设备,其特征在于,包括:
获取单元,用于获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;
确定单元,用于针对待处理的分析模型的每一个参数组合,分别确定所述参数组合的资源指示属性;其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源的多少;
分配单元,用于确定异构计算集群系统中每个计算单元的计算资源的大小值;根据所述参数组合的资源指示属性,从所述异构计算集群系统中选择所述计算资源的大小值与所述资源指示属性相匹配的计算单元;将所述参数组合和所述数据样本集合发送至所述计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果;
处理单元,用于根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。
7.如权利要求6所述的数据处理设备,其特征在于,所述确定单元,确定所述参数组合的资源指示属性,包括:
分别计算所述参数组合中每一个参数的资源指示属性;
根据每一个参数的资源指示属性,计算得到所述参数组合的资源指示属性。
8.如权利要求7所述的数据处理设备,其特征在于,所述确定单元计算所述参数组合中每一个参数的资源指示属性,包括:
针对所述参数组合中每一个参数,执行以下操作:
选择其中一个未执行操作的参数,并确定选择的所述参数的取值以及所述参数与基于所述参数完成计算所需要的计算资源之间的相关性;
根据所述参数的取值以及所述相关性,计算得到选择的所述参数的资源指示属性。
9.如权利要求6所述的数据处理设备,其特征在于,所述数据处理设备还包括:确定单元,其中:
所述确定单元确定待处理的分析模型的参数组合,包括:
获取待处理的分析模型,并确定所述分析模型所使用的参数以及所述参数的参数属性,其中,所述参数属性中包含所述参数的迭代间隔、所述参数的取值范围以及所述参数与基于所述参数完成计算所需的计算资源之间的相关性;
根据各个所述参数的迭代间隔和各个所述参数的取值范围,得到所述分析模型的参数组合,其中,每一个所述参数组合中包含每一个所述参数,不同所述参数组合中包含的至少一个相同的所述参数的取值不同。
10.如权利要求6所述的数据处理设备,其特征在于,所述处理单元根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合,包括:
针对每一个所述参数组合对应的所述评分结果,将其中所述评分结果大于设定阈值的参数组合确定为基于所述待处理的分析模型的满足设定条件的参数组合。
CN201510708687.9A 2015-10-27 2015-10-27 一种数据处理方法和设备 Active CN106611021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510708687.9A CN106611021B (zh) 2015-10-27 2015-10-27 一种数据处理方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510708687.9A CN106611021B (zh) 2015-10-27 2015-10-27 一种数据处理方法和设备

Publications (2)

Publication Number Publication Date
CN106611021A CN106611021A (zh) 2017-05-03
CN106611021B true CN106611021B (zh) 2020-06-02

Family

ID=58614727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510708687.9A Active CN106611021B (zh) 2015-10-27 2015-10-27 一种数据处理方法和设备

Country Status (1)

Country Link
CN (1) CN106611021B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509727B (zh) * 2018-03-30 2022-04-08 深圳市智物联网络有限公司 数据建模中的模型选择处理方法及装置
CN109255517B (zh) * 2018-07-27 2022-04-26 创新先进技术有限公司 风控策略的生成方法、装置、服务器及可读存储介质
CN112035625B (zh) * 2020-11-03 2021-03-02 上海慧捷智能技术有限公司 元件拆分与组合的语音文本数据分析方法及设备
CN115544029A (zh) * 2021-06-29 2022-12-30 华为技术有限公司 一种数据处理方法及相关装置
CN114297242A (zh) * 2021-12-31 2022-04-08 上海淇玥信息技术有限公司 一种基于入参解耦的数据查询方法、装置和电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323968A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Learning Discriminative Projections for Text Similarity Measures
CN102624870A (zh) * 2012-02-01 2012-08-01 北京航空航天大学 基于智能优化算法的云制造计算资源可重构配置方法
US9367601B2 (en) * 2012-03-26 2016-06-14 Duke University Cost-based optimization of configuration parameters and cluster sizing for hadoop
CN103713942B (zh) * 2012-09-28 2018-01-05 腾讯科技(深圳)有限公司 在集群中调度运行分布式计算框架的方法和系统
CN103744978A (zh) * 2014-01-14 2014-04-23 清华大学 一种基于网格搜索技术用于支持向量机的参数寻优方法

Also Published As

Publication number Publication date
CN106611021A (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
CN106611021B (zh) 一种数据处理方法和设备
US20200097709A1 (en) Classification model training method, server, and storage medium
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN108052387B (zh) 一种移动云计算中的资源分配预测方法及系统
CN109118119A (zh) 风控模型生成方法及装置
CN106779272A (zh) 一种风险预测方法和设备
CN106612511B (zh) 一种基于支持向量机的无线网络吞吐量的评估方法及装置
CN109214446A (zh) 潜力绩优人员类型识别方法、系统、终端及计算机可读存储介质
CN103455411B (zh) 日志分类模型的建立、行为日志分类方法及装置
CN104581748B (zh) 一种在无线通信网络中识别场景的方法和装置
CN110111113A (zh) 一种异常交易节点的检测方法及装置
WO2023168812A1 (zh) 一种搜索系统的优化方法、装置、存储介质及计算机设备
CN111428885B (zh) 一种联邦学习中用户的索引方法及联邦学习装置
CN107169520A (zh) 一种大数据缺失属性补全方法
CN107515876B (zh) 一种特征模型的生成、应用方法及装置
CN112486676B (zh) 一种基于边缘计算的数据共享分发装置
CN117172633A (zh) 一种面向工业互联网平台的制造服务子图仿真方法及系统
CN107609570A (zh) 基于属性分类和多视角特征融合的微视频流行度预测方法
CN104572820B (zh) 模型的生成方法及装置、重要度获取方法及装置
Parau et al. Using community detection for sentiment analysis
CN115099354A (zh) 训练样本的构建方法、装置、设备及存储介质
CN106301880B (zh) 一种确定网络关系稳定度、互联网业务推荐方法和设备
CN108932704A (zh) 图片处理方法、图片处理装置及终端设备
CN114548229A (zh) 训练数据增广方法、装置、设备和存储介质
CN115409225A (zh) 配送时长确定方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right