CN109978081B - 特征变换方式的确定方法、装置、设备及介质 - Google Patents
特征变换方式的确定方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN109978081B CN109978081B CN201910368232.5A CN201910368232A CN109978081B CN 109978081 B CN109978081 B CN 109978081B CN 201910368232 A CN201910368232 A CN 201910368232A CN 109978081 B CN109978081 B CN 109978081B
- Authority
- CN
- China
- Prior art keywords
- transformation mode
- performance improvement
- global
- alternative
- feature transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009466 transformation Effects 0.000 title claims abstract description 428
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000006872 improvement Effects 0.000 claims abstract description 220
- 238000013524 data verification Methods 0.000 claims abstract description 90
- 238000012552 review Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000011426 transformation method Methods 0.000 claims description 7
- 238000013502 data validation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 21
- 238000010801 machine learning Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 208000033748 Device issues Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Factory Administration (AREA)
- Stored Programmes (AREA)
Abstract
本发明实施例公开了一种特征变换方式的确定方法、装置、设备及介质。该方法包括:主设备确定与目标数据对应的多项备选特征变换方式,并分发至不同的从设备进行局部数据验证;主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度;主设备根据各预估性能提升幅度控制从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的全局复核性能提升幅度确定出目标特征变换方式以生成目标数据的组合特征。上述技术方案采用分布式并行计算的形式,在性能损失可接受的情况下极大地加速了计算过程,而且通过进一步的全局数据验证保证了最终确定的目标特征变换方式的准确性和有效性。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种特征变换方式的确定方法、装置、设备及介质。
背景技术
对于数据挖掘应用来说,特征的重要性不言而喻,在其他条件确定的情况下,特征决定了模型最终能够达到的效果。而一般应用的原始数据中,通常仅包含少量低阶特征,如果仅使用这些特征作为模型输入,模型效果可能比较一般,因此,在数据处理完成后,建模人员通常会花费一定的时间完成组合特征的探索与检验。
组合特征的生成方式通常有手动和自动两种。其中,手动方式是指建模人员运用业务知识组合低阶特征,得到可能会产生效果的高阶特征,其效果依赖于建模人员自身的业务素质,不仅需要建模人员具备丰富的业务背景知识,而且比较耗时。
自动方式是指利用计算机的计算能力,自动探索各种特征组合方式及其效果,得到有效的组合特征,它极大地解放了人力资源。但是特征组合空间的大小通常是特征的指数级,如何在这个空间中进行高效搜索是一个值得被探讨的问题。目前探索如何高效搜索的方法大致可以分为三类:
(1)基于启发式规则的方法,即人为制定一些启发式的规则对特征完成筛选。按照规则的不同,可以包括如下两种方式,1)在每次生成新特征后加入原数据特征中完成一次训练,观测模型性能是否提升,但是此种方式非常耗时;2)根据某种指标判断是否选择新特征,例如新特征与标签之间的相关性等,此种方式速度虽快但也会存在一定误差,且误差随着数据集的不同而不同。
(2)基于元学习(Meta-Learning)的方法,即将判断某个特征是否有效看作一个机器学习问题。但是,此方法与实际应用之间存在一定的距离,元信息的选择对新特征的质量至关重要,而目前未有一个通用的元信息选取原则,通常选取的元信息包括特征的方差分布等统计指标,它们是否能完全表达特征仍是一个悬而未解的问题。因此,使用此方法也不能保证选到的新特征一定是有效的,仍需其他额外的检验。
(3)基于强化学习的方法,例如将如何生成一个新特征看作是动作(Action),当前的特征组合看作是一个状态(State),新特征对性能的提升看作是奖励(Reward)。此方法也存在两个问题,一个是如何将生成新特征这个问题更好地规划到强化学习的范式中,即将状态、动作和奖励这些更好地映射到问题场景中;另一个是模型训练难度大,这也是强化学习本身问题,训练难的问题会导致无法较好地发现问题源头以及耗时较长等。这两个问题阻碍了基于强化学习的方法的实际应用。
此外,随着大数据时代的到来,对实现方法的时间性能也有了更严格的要求,进而严重降低了这些方法的适用性。
发明内容
本发明实施例提供一种特征变换方式的确定方法、装置、设备及介质,以对现有技术中的组合特征的生成方法进行优化,根据确定的特征变换方式生成组合特征,尽量减少人员的参与过程,实现快速生成一系列高效的组合特征的效果。
第一方面,本发明实施例提供了一种特征变换方式的确定方法,包括:
主设备确定与目标数据对应的多项备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
第二方面,本发明实施例提供了一种特征变换方式的确定方法,包括:
从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
第三方面,本发明实施例还提供了一种特征变换方式的确定装置,包括:
备选特征变换方式分发模块,用于主设备确定与目标数据对应的多项备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
预估性能接收模块,用于所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
目标特征变换方式确定模块,用于所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
第四方面,本发明实施例还提供了一种特征变换方式的确定装置,包括:
局部验证模块,用于从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
预估性能反馈模块,用于所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
全局复核模块,用于所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
全局复核性能反馈模块,用于所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
第五方面,本发明实施例还提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所提供的应用于主设备侧的特征变换方式的确定方法。
第六方面,本发明实施例还提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所提供的应用于从设备侧的特征变换方式的确定方法。
第七方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的应用于主设备侧的特征变换方式的确定方法。
第八方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的应用于从设备侧的特征变换方式的确定方法。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
附图说明
图1是本发明实施例一中的一种特征变换方式的确定方法的流程图;
图2是本发明实施例二中的一种特征变换方式的确定方法的流程图;
图3是本发明实施例三中的一种特征变换方式的确定方法的流程图;
图4是本发明实施例四中的一种特征变换方式的确定方法的流程图;
图5是本发明实施例五中的一种特征变换方式的确定装置的结构示意图;
图6是本发明实施例六中的一种特征变换方式的确定装置的结构示意图;
图7是本发明实施例七中的一种设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种特征变换方式的确定方法的流程图,可适用于自动生成用于机器学习建模任务的组合特征的情况,该方法可以由本发明实施例提供的应用于主设备侧的特征变换方式的确定装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如分布式计算框架中主设备的处理器中。
本实施例提供的技术方案不依赖于任何一种计算机语言、软件或硬件,只需实施本技术方案的计算机集群之间能够正常通信即可。具体的,本实施方案可以采用分布式并行计算模式Master-Worker,Master进程负责接收和分配任务,Worker进程负责处理子任务,当各个Worker进程处理完成后将结果返回给Master进程,由Master进程作归纳总结。作为本实施例一种具体的实施方式,本实施例可以通过Spark计算框架来实现,将SparkDriver作为Master,Spark Executor作为Worker,通过Spark框架提供的通信机制来传递所需要的信息。
如图1所示,本实施例的方法具体包括:
S110、主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证。
其中,本实施例中涉及的主设备为运行Master线程的计算机设备,下述简称Master,从设备为运行Worker线程的计算机设备,下述简称Worker。
在数据建模人员利用计算机探索特征组合方式的应用场景下,向Master下发确定特征变换方式的任务,Master接收到任务后执行本实施例提供的特征变换方式的确定方法。
Master读取接收的任务的原始数据,根据原始数据确定与目标数据对应的备选特征变换方式,具体可以是根据原始数据的数据格式确定所需目标数据的数据格式,然后根据目标数据的数据格式获取预先定义的与该数据格式匹配的多种备选特征变换方式。例如,原始数据包括a、b、c三个数值型特征,意味着目标数据的数据格式也为数值型,那么根据预先定义的变换函数,可以得到备选特征变换方式的列表,备选特征变换方式比如为a+b、a*b、sin(c)等。其中,备选特征变换方式可以是根据原始数据的一个或多个原始特征确定的。
Master将这些备选特征变换方式分发至不同的Worker进行局部数据验证,其中,Master可以根据Worker的数量将多种备选特征变换方式均分至不同的Worker进行局部数据验证。在此过程中,Master分发的仅是备选特征变换方式,而非真正的数据,故此过程仅需传递很少的信息。
在本实施例中,原始数据可以是分布式存储,也可以不是分布式存储,只要Master和Worker能够读取到相应的原始数据即可,本实施例对此不做具体限定。下述以原始数据分布式存储为例进行解释说明。
Worker接收到备选特征变换方式之后,根据本地存储的局部数据对根据该备选特征变换方式生成的新特征的有效程度进行判定。
具体的,Worker首先根据接收到的备选特征变换方式以及局部数据中每条数据的初始特征生成新特征,将生成的新特征添加至本地的局部特征集中,训练机器模型(或称数据训练模型),判断添加新特征后机器模型的性能是否存在提升,将机器模型的局部新性能指标相对于局部初始性能指标的提升幅度(例如是百分比)作为接收的备选特征变换方式对应的预估性能提升幅度,其中,局部初始性能指标为Worker根据未添加新特征的局部特征集训练机器模型得到的机器模型的性能指标,局部新性能指标为Worker根据添加新特征的局部特征集训练机器模型得到的机器模的性能指标。
例如,原始数据全量共有100万条,存储到某一个Worker上的原始数据共有10万条,每条数据包括a、b、c三个数值型特征,该Worker接收到的Master分发的备选特征变换方式为a+b,它会按照备选特征变换方式a+b生成每条数据的一个新特征,进而10万条数据中每条数据会包括a、b、c和a+b这四个特征。假如,该Worker根据这10万条数据(每条数据包括a、b、c三个特征)训练机器模型,机器模型的某一性能指标为0.5,该Worker根据添加新特征的这10万条数据(每条数据会包括a、b、c和a+b这四个特征)训练机器模型,机器模型对应的性能指标为0.8,那么与备选特征变换方式为a+b对应的预估性能提升幅度为(0.8-0.5)/0.5=60%。
值得指出的是,经过Worker的局部数据验证,与备选特征变换方式对应的预估性能提升幅度可能是正值,可能是负值,也可能是零,其中,正值指示性能指标提升,负值指示性能下降,零值指示性能既无下降也无上升。
S120、主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度。
各个Worker对接收的备选特征变换方式完成局部数据验证之后,将确定的与备选特征变换方式对应的预估性能提升幅度反馈回Master。
作为本实施例一种具体的实施方式,可以将主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度,具体为:主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升。
也即,在每个Worker确定出与接收到的备选特征变换方式对应的预估性能提升幅度之后,根据预估性能提升幅度判断是否存在性能提升,如果确定存在性能提升,则将与该备选特征变换方式对应的预估性能提升幅度反馈回Master,如果确定不存在性能提升,则不将与该备选特征变换方式对应的预估性能提升幅度反馈回Master。
由此,实现了在不同的Worker上对各个备选特征变换方式进行初步筛选,使用Worker上的本地数据判断根据对应的备选特征变换方式生成的组合特征是否有利于性能提升,在判断结果误差可接受的情况下,极大地加速了计算过程。
S130、主设备根据接收的各预估性能提升幅度,控制从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成目标数据的组合特征。
Master接收到Worker反馈的各与备选特征变换方式对应的预估性能提升幅度之后,根据这些预估性能提升幅度确定要进行全局数据验证的备选特征变换方式,例如可以是对预估性能提升幅度为正值的所有备选特征变换方式进行全局数据验证,还可以是对预估性能提升幅度大于预设的提升幅度阈值的所有备选特征变换方式进行全局数据验证。
Master确定待进行全局数据验证的某一备选特征变换方式之后,下发对该备选特征变换方式进行全局数据验证的任务,以控制各个Worker对该备选特征变换方式进行全局数据验证。例如,Master确定待进行全局数据验证的备选特征变换方式为a+b,各个Worker接收到全局数据验证任务之后,按照备选特征变换方式a+b为每条数据生成的一个新特征,将生成的新特征添加至全局特征集中,进而100万条数据中每条数据会包括a、b、c和a+b这四个特征。
各个Worker使用添加新特征的全局特征集训练机器模型(或称数据训练模型),判断添加新特征后机器模型的性能是否存在提升,将机器模型的全局新性能指标相对于全局初始性能指标的提升幅度(例如百分比)作为接收的备选特征变换方式对应的全局复核性能提升幅度,其中,全局初始性能指标为Worker根据未添加新特征的全局特征集训练机器模型得到的机器模型的性能指标,全局新性能指标为Worker根据添加新特征的全局特征集训练机器模型得到的机器模的性能指标。各个Worker在确定出与备选特征变换方式对应的全局复核性能提升幅度之后,反馈回Master,进而Master根据与备选特征变换方式对应的全局复核性能提升幅度确定最终用于生成组合特征的目标特征变换方式。
具体的,可以将主设备根据从设备反馈的与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式,具体为:主设备如果根据从设备反馈的与备选特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述备选特征变换方式确定为目标特征变换方式。
也即,如果Master根据全局复核性能提升幅度确定存在性能提升(即全局复核性能提升幅度为正值),则将对应的备选特征变换方式确定为目标特征变换方式,进而可以根据该目标特征变换方式生成组合特征。
还可以是,Master将全局复核性能提升幅度大于预设的提升幅度阈值的备选特征变换方式确定为目标特征变换方式,以根据该目标特征变换方式生成组合特征。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。
本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失(或称分析误差)可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
实施例二
图2是本发明实施例二提供的一种特征变换方式的确定方法的流程图,本实施例以上述实施例为基础进行具体化,其中,
将主设备根据接收的各预估性能提升幅度,控制从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式,具体为:
主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序;
主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式;
主设备下发对当前操作特征变换方式进行全局数据验证的任务,并接收与当前操作特征变换方式对应的全局复核性能提升幅度;
主设备如果根据与当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述当前操作特征变换方式确定为目标特征变换方式;
返回执行主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升。
典型的,还可以是,返回执行主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备连续根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
如图2所示,本实施例的方法具体包括:
S210、主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证。
S220、主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升。
S230、主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序。
不同的Worker对各种备选特征变换方式进行局部数据验证之后,得到与各备选特征变换方式对应的预估性能提升幅度,如果根据预估性能提升幅度确定存在性能提升,则将相应的与备选特征变换方式对应的预估性能提升幅度反馈回Master。
Master接收到各Worker反馈的与各备选特征变换方式对应的预估性能提升幅度之后,根据预估性能提升幅度的大小,将这些备选特征变换方式进行排序,进而可以控制Worker按照顺序依次对这些备选特征变换方式进行全局数据验证。
S240、主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式。
S250、主设备下发对当前操作特征变换方式进行全局数据验证的任务,并接收与当前操作特征变换方式对应的全局复核性能提升幅度。
在对当前操作特征变换方式进行全局数据验证时,Worker将根据当前操作特征变换方式生成的新特征添加至全局特征集,利用添加新特征的全局特征集训练机器模型,判断机器模型的性能是否存在提升,将机器模型根据添加新特征的全局特征集训练得到的全局新性能指标相对于根据未添加新特征的全局特征集训练得到的全局初始性能指标的提升幅度(例如百分比)作为与当前操作特别变换方式对应的全局复核性能提升幅度。
S260、主设备如果根据与当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将当前操作特征变换方式确定为目标特征变换方式。
Master接收到Worker反馈的与当前操作特征变换方式对应的全局复核性能提升幅度之后,根据全局复核性能提升幅度判断机器模型的性能是否存提升,如果是(全局复核性能提升幅度为正值),则将当前操作特征变换方式确定为目标特征变换方式,进而可以根据该目标特征变换方式生成组合特征,并将新生产的组合特征添加至全局特征集中,构成对下一个备选特征变换方式进行全局验证时的全局初始特征集。
S270、返回执行主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升。
接下来,按顺序选择下一个备选特征变换方式进行全局数据验证。
在对各Worker反馈回的各备选特征变换方式进行全局数据验证的过程汇总,Master只要确定根据某一备选特征变换方式生成的组合特征加入全局特征集后,能够使机器性能存在提升,则按照贪心策略将新生成的组合特征添加至全局特征集,直至确定根据某一备选特征变换方式生成的组合特征加入全局特征集后,不能使机器性能存在提升。
例如,按照顺序,根据前5种备选特征变换方式生成的组合特征加入全局特征集后,均能够使机器模型性能提升,而根据第6种备选特征变换方式生成的组合特征加入全局特征集后,不能使机器模型性能提升,则将根据前5种备选特征变换方式生成的组合特征加入全局特征集后的特征集作为最终的全局特征集。
作为本实施例一种具体的实施方式,可以将S270具体为:返回执行主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备连续根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
以设定数量阈值为k为例,比如,按照顺序,根据前5种备选特征变换方式生成的组合特征加入全局特征集后,均能够使机器模型性能提升,而根据第6种备选特征变换方式生成的组合特征加入全局特征集后,不能使机器模型性能提升,则不将根据第6种备选特征变换方式生成的组合特征加入全局特征集,继续选择第7种备选特征变换方式进行全局数据验证,验证结果同样是不将根据第7种备选特征变换方式生成的组合特征加入全局特征集,如果连续k次(也即验证至第k+5种备选特征变换方式)不将新生产的组合特征加入全局特征集,则不再对后续的备选特征变换方式进行全局数据验证,进而将根据前5种备选特征变换方式生成的组合特征加入全局特征集后的特征集作为最终的全局特征集。
本实施例未尽详细解释之处,请参见前述实施例,在此不再赘述。
在上述技术方案中,将确定特征生成方式的过程分为“初筛阶段”和“精选阶段”,在“初筛阶段”,使用每个Worker的本地数据计算和验证,能够充分的利用集群计算资源,在精度损失可接受的情况下得到一个粗略的排序结果;在“精选阶段”,使用贪心策略按照“初筛”阶段的排序结果依次加入新生成的组合特征,并在全局数据上进行验证,以保障最终结果的有效性。
实施例三
图3是本发明实施例三提供的一种特征变换方式的确定方法的流程图,可适用于自动生成用于机器学习建模任务的组合特征的情况,该方法可以由本发明实施例提供的应用于从设备侧的特征变换方式的确定装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如分布式计算框架中从设备的处理器中。如图3所示,本实施例的方法具体包括:
S310、从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的。
典型的,从设备确定与所述备选特征变换方式对应的预估性能提升幅度,具体可以包括下述步骤:
从设备根据接收到的备选特征变换方式以及局部初始特征生成新特征;
从设备根据添加新特征的局部特征集训练机器模型,得到机器模型的局部新性能指标;
从设备将局部新性能指标相对于局部初始性能指标的提升幅度作为与备选特征变换方式对应的预估性能提升幅度,其中,局部初始性能指标为从设备根据未添加所述新特征的局部特征集训练机器模型得到的。
S320、从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回主设备,以使主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式。
作为本实施例一种具体的实施方式,S320还可以是从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回所述主设备。
S330、从设备对至少一种备选特征变换方式进行全局数据验证,确定与至少一种备选特征变换方式对应的全局复核性能提升幅度。
S340、从设备将与至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回主设备,以使主设备根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成目标数据的组合特征。
本实施例未尽详细解释之处,请参见前述实施例,在此不再赘述。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
实施例四
图4是本发明实施例三提供的一种特征变换方式的确定方法的流程图。在上述实施例的基础上,本实施例提供一种具体的实施方式,如图4所示,本实施例提供的方法具体包括:
S410、主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备。
S420、从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度。
S430、从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回主设备。
S440、主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度。
S450、主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序。
S460、主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式。
S470、主设备下发对当前操作特征变换方式进行全局数据验证的任务。
S480、各从设备对当前操作特征变换方式进行全局数据验证,确定与当前操作特征变换方式对应的全局复核性能提升幅度,并反馈回主设备。
S490、主设备接收与当前操作特征变换方式对应的全局复核性能提升幅度。
S4100、主设备如果根据与当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将当前操作特征变换方式确定为目标特征变换方式。
S4110、返回执行主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备连续根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
本实施例未尽详细解释之处,请参见前述实施例,在此不再赘述。
在上述技术方案中,首先划分出一系列不相交的特征变换方式(备选特征变换方式),并将这些特征变换方式的检验划分到集群中的每个节点(Worker)上,使用节点自身的计算能力得到可能产生效果的特征变换方式;然后,利用一个启发式的贪心算法,从这些可能产生效果的特征变换方式中挑选出有效果的特征变换方式(目标特征变换方式),进而可以根据挑选出的有效果的特征变换方式生成一系列高效的组合特征。
实施例五
图5是本发明实施例五提供的一种特征变换方式的确定装置的结构示意图,可适用于自动生成用于机器学习建模任务的组合特征的情况,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如是分布式计算框架中主设备的处理器中。
如图5所示,该特征变换方式的确定装置具体包括:备选特征变换方式分发模块510、预估性能接收模块520和目标特征变换方式确定模块530。其中,备选特征变换方式分发模块510,用于主设备确定与目标数据对应的多项备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
预估性能接收模块520,用于所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
目标特征变换方式确定模块530,用于所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。
本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
进一步的,预估性能接收模块520具体用于所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升。
进一步的,目标特征变换方式确定模块530具体用于所述主设备如果根据从设备反馈的与备选特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述备选特征变换方式确定为目标特征变换方式。
进一步的,目标特征变换方式确定模块530具体包括:排序单元、选择单元、全局复核性能提升幅度接收单元、目标特征变换方式确定单元和循环单元,其中,
排序单元,用于所述主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序;
选择单元,用于所述主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式;
全局复核性能提升幅度接收单元,用于所述主设备下发对所述当前操作特征变换方式进行全局数据验证的任务,并接收与所述当前操作特征变换方式对应的全局复核性能提升幅度;
目标特征变换方式确定单元,用于所述主设备如果根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述当前操作特征变换方式确定为目标特征变换方式;
循环单元,用于返回执行所述主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至所述主设备根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升。
进一步的,循环单元具体用于返回执行所述主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至所述主设备连续根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
上述特征变换方式的确定装置可执行本发明任意实施例所提供的应用于主设备侧的特征变换方式的确定方法,具备执行特征变换方式的确定方法相应的功能模块和有益效果。
实施例六
图6是本发明实施例五提供的一种特征变换方式的确定装置的结构示意图,可适用于自动生成用于机器学习建模任务的组合特征的情况,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如是分布式计算框架中从设备的处理器中。
如图6所示,该特征变换方式的确定装置具体包括:局部验证模块610、预估性能反馈模块620、全局复核模块630和全局复核性能反馈模块640。其中,
局部验证模块610,用于从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
预估性能反馈模块620,用于所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
全局复核模块630,用于所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
全局复核性能反馈模块640,用于所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。
本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
进一步的,预估性能反馈模块620具体用于所述从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回所述主设备。
进一步的,局部验证模块610具体包括:新特征生成单元、局部新性能指标获取单元和预估性能提升幅度确定单元,其中,
新特征生成单元,用于所述从设备根据接收到的备选特征变换方式以及局部初始特征生成新特征;
局部新性能指标获取单元,用于所述从设备根据添加所述新特征的局部特征集训练机器模型,得到所述机器模型的局部新性能指标;
预估性能提升幅度确定单元,用于所述从设备将所述局部新性能指标相对于局部初始性能指标的提升幅度作为与备选特征变换方式对应的预估性能提升幅度,其中,所述局部初始性能指标为所述从设备根据未添加所述新特征的局部特征集训练机器模型得到的。
上述特征变换方式的确定装置可执行本发明任意实施例所提供的应用于从设备侧的特征变换方式的确定方法,具备执行特征变换方式的确定方法相应的功能模块和有益效果。
实施例七
图7为本发明实施例七提供的一种设备的硬件结构示意图,如图7所示,该设备包括:
一个或多个处理器710,图7中以一个处理器710为例;
存储器720;
所述设备还可以包括:输入装置730和输出装置740。
所述设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器720作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种特征变换方式的确定方法对应的程序指令/模块(例如,附图5所示的备选特征变换方式分发模块510、预估性能接收模块520和目标特征变换方式确定模块530;又例如,附图6所示的局部验证模块610、预估性能反馈模块620、全局复核模块630和全局复核性能反馈模块640)。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种特征变换方式的确定方法。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
实施例八
本发明实施例八提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的应用于主设备侧的特征变换方式的确定方法:也即,该程序被处理器执行时实现:主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
或者,实现如本申请所有发明实施例提供的应用于从设备侧的特征变换方式的确定方法:也即,该程序被处理器执行时实现:
从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本发明任意实施例所提供的应用于主设备侧的一种特征变换方式的确定方法的技术方案,或者应用于从设备侧的一种特征变换方式的确定方法的技术方案。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述应用于主设备侧的特征变换方式的确定装置或者应用于从设备侧的特征变换方式的确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种特征变换方式的确定方法,其特征在于,包括:
主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升,所述预估性能提升幅度为机器模型的局部新性能指标相对于局部初始性能指标的提升幅度;
所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征,其中,所述全局复核性能提升幅度为机器模型的全局新性能指标相对于全局初始性能指标的提升幅度。
2.根据权利要求1所述的方法,其特征在于,所述主设备根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式,包括:
所述主设备如果根据从设备反馈的与备选特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述备选特征变换方式确定为目标特征变换方式。
3.根据权利要求2所述的方法,其特征在于,所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式,包括:
所述主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序;
所述主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式;
所述主设备下发对所述当前操作特征变换方式进行全局数据验证的任务,并接收与所述当前操作特征变换方式对应的全局复核性能提升幅度;
所述主设备如果根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述当前操作特征变换方式确定为目标特征变换方式;
返回执行所述主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至所述主设备根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升。
4.根据权利要求3所述的方法,其特征在于,直至所述主设备根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升,包括:
直至所述主设备连续根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
5.一种特征变换方式的确定方法,其特征在于,包括:
从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
所述从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式,其中,所述预估性能提升幅度为机器模型的局部新性能指标相对于局部初始性能指标的提升幅度;
所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,其中,所述全局复核性能提升幅度为机器模型的全局新性能指标相对于全局初始性能指标的提升幅度;
所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
6.根据权利要求5所述的方法,其特征在于,所述从设备对接收到的所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,包括:
所述从设备根据接收到的备选特征变换方式以及局部初始特征生成新特征;
所述从设备根据添加所述新特征的局部特征集训练机器模型,得到所述机器模型的局部新性能指标;
所述从设备将所述局部新性能指标相对于局部初始性能指标的提升幅度作为与备选特征变换方式对应的预估性能提升幅度,其中,所述局部初始性能指标为所述从设备根据未添加所述新特征的局部特征集训练机器模型得到的。
7.一种特征变换方式的确定装置,应用于主设备侧,其特征在于,包括:
备选特征变换方式分发模块,用于主设备确定与目标数据对应的多项备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
预估性能接收模块,用于所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升,所述预估性能提升幅度为机器模型的局部新性能指标相对于局部初始性能指标的提升幅度;
目标特征变换方式确定模块,用于所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征,其中,所述全局复核性能提升幅度为机器模型的全局新性能指标相对于全局初始性能指标的提升幅度。
8.一种特征变换方式的确定装置,应用于从设备侧,其特征在于,包括:
局部验证模块,用于从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
预估性能反馈模块,用于所述从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式,其中,所述预估性能提升幅度为机器模型的局部新性能指标相对于局部初始性能指标的提升幅度;
全局复核模块,用于所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,其中,所述预估性能提升幅度为机器模型的局部新性能指标相对于局部初始性能指标的提升幅度;
全局复核性能反馈模块,用于所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的方法,或者实现如权利要求5-6中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的方法,或者实现如权利要求5-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910368232.5A CN109978081B (zh) | 2019-05-05 | 2019-05-05 | 特征变换方式的确定方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910368232.5A CN109978081B (zh) | 2019-05-05 | 2019-05-05 | 特征变换方式的确定方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109978081A CN109978081A (zh) | 2019-07-05 |
CN109978081B true CN109978081B (zh) | 2019-12-24 |
Family
ID=67072787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910368232.5A Active CN109978081B (zh) | 2019-05-05 | 2019-05-05 | 特征变换方式的确定方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109978081B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101945010A (zh) * | 2010-09-19 | 2011-01-12 | 中国联合网络通信集团有限公司 | 业务许可的处理方法、设备和系统 |
CN106599040A (zh) * | 2016-11-07 | 2017-04-26 | 中国科学院软件研究所 | 一种面向云存储的分层索引方法与检索方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510031B2 (en) * | 2009-11-24 | 2013-08-13 | Joseph Williams | Systems and methods for information transformation and exchange |
US20130304739A1 (en) * | 2012-05-10 | 2013-11-14 | Samsung Electronics Co., Ltd. | Computing system with domain independence orientation mechanism and method of operation thereof |
CN109359213A (zh) * | 2018-08-27 | 2019-02-19 | 博康智能信息技术有限公司 | 一种安防视频智能检索系统及其检索方法 |
-
2019
- 2019-05-05 CN CN201910368232.5A patent/CN109978081B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101945010A (zh) * | 2010-09-19 | 2011-01-12 | 中国联合网络通信集团有限公司 | 业务许可的处理方法、设备和系统 |
CN106599040A (zh) * | 2016-11-07 | 2017-04-26 | 中国科学院软件研究所 | 一种面向云存储的分层索引方法与检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109978081A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Adaptive asynchronous federated learning in resource-constrained edge computing | |
CN105652833B (zh) | 基于双向智能搜索的制造企业车间调度优化方法 | |
CN109144696A (zh) | 一种任务调度方法、装置、电子设备及存储介质 | |
TW201717066A (zh) | 叢集運算架構的資源規劃方法、系統及裝置 | |
CN113821332B (zh) | 自动机器学习系统效能调优方法、装置、设备及介质 | |
CN104834599A (zh) | Web安全检测方法和装置 | |
CN107086929B (zh) | 一种基于排队建模的批量流式计算系统性能保障方法 | |
CN103942108B (zh) | Hadoop同构集群下的资源参数优化方法 | |
Li et al. | An effective scheduling strategy based on hypergraph partition in geographically distributed datacenters | |
US9898061B2 (en) | Resource capacity management in a cluster of host computers using power management analysis | |
CN114237869A (zh) | 基于强化学习的Ray双层调度方法、装置和电子设备 | |
CN117271101B (zh) | 一种算子融合方法、装置、电子设备及存储介质 | |
CN105450684A (zh) | 云计算资源调度方法和系统 | |
CN113033806A (zh) | 一种训练深度强化学习模型的方法、装置以及调度方法 | |
CN102799960B (zh) | 面向数据模型的并行业务流程异常检测方法 | |
Švogor et al. | An extended model for multi-criteria software component allocation on a heterogeneous embedded platform | |
CN109978081B (zh) | 特征变换方式的确定方法、装置、设备及介质 | |
CN114091688A (zh) | 一种计算资源获取方法、装置、电子设备和存储介质 | |
CN116974994A (zh) | 一种基于集群的高效能文件协作系统 | |
CN114968585A (zh) | 资源配置方法、装置、介质和计算设备 | |
CN114443970A (zh) | 基于人工智能和大数据的数字化内容推送方法及ai系统 | |
Xiao et al. | An Efficient Service-Aware Virtual Machine Scheduling Approach Based on Multi-Objective Evolutionary Algorithm | |
CN106453656A (zh) | 一种集群主机选取方法及装置 | |
CN108958793B (zh) | 一种基于改进gn算法的程序控制流图划分方法 | |
CN110363497A (zh) | 一种审核方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 200233 11-12 / F, building B, 88 Hongcao Road, Xuhui District, Shanghai Patentee after: Star link information technology (Shanghai) Co.,Ltd. Address before: 200233 11-12 / F, building B, 88 Hongcao Road, Xuhui District, Shanghai Patentee before: TRANSWARP TECHNOLOGY (SHANGHAI) Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |