CN109978081A - 特征变换方式的确定方法、装置、设备及介质 - Google Patents

特征变换方式的确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN109978081A
CN109978081A CN201910368232.5A CN201910368232A CN109978081A CN 109978081 A CN109978081 A CN 109978081A CN 201910368232 A CN201910368232 A CN 201910368232A CN 109978081 A CN109978081 A CN 109978081A
Authority
CN
China
Prior art keywords
alternative features
mapping mode
equipment
mode
performance boost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910368232.5A
Other languages
English (en)
Other versions
CN109978081B (zh
Inventor
曾宪宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Transwarp Technology Shanghai Co Ltd
Original Assignee
Star Link Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Star Link Information Technology (shanghai) Co Ltd filed Critical Star Link Information Technology (shanghai) Co Ltd
Priority to CN201910368232.5A priority Critical patent/CN109978081B/zh
Publication of CN109978081A publication Critical patent/CN109978081A/zh
Application granted granted Critical
Publication of CN109978081B publication Critical patent/CN109978081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Factory Administration (AREA)
  • Stored Programmes (AREA)

Abstract

本发明实施例公开了一种特征变换方式的确定方法、装置、设备及介质。该方法包括:主设备确定与目标数据对应的多项备选特征变换方式,并分发至不同的从设备进行局部数据验证;主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度;主设备根据各预估性能提升幅度控制从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的全局复核性能提升幅度确定出目标特征变换方式以生成目标数据的组合特征。上述技术方案采用分布式并行计算的形式,在性能损失可接受的情况下极大地加速了计算过程,而且通过进一步的全局数据验证保证了最终确定的目标特征变换方式的准确性和有效性。

Description

特征变换方式的确定方法、装置、设备及介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种特征变换方式的确定方法、装置、设备及介质。
背景技术
对于数据挖掘应用来说,特征的重要性不言而喻,在其他条件确定的情况下,特征决定了模型最终能够达到的效果。而一般应用的原始数据中,通常仅包含少量低阶特征,如果仅使用这些特征作为模型输入,模型效果可能比较一般,因此,在数据处理完成后,建模人员通常会花费一定的时间完成组合特征的探索与检验。
组合特征的生成方式通常有手动和自动两种。其中,手动方式是指建模人员运用业务知识组合低阶特征,得到可能会产生效果的高阶特征,其效果依赖于建模人员自身的业务素质,不仅需要建模人员具备丰富的业务背景知识,而且比较耗时。
自动方式是指利用计算机的计算能力,自动探索各种特征组合方式及其效果,得到有效的组合特征,它极大地解放了人力资源。但是特征组合空间的大小通常是特征的指数级,如何在这个空间中进行高效搜索是一个值得被探讨的问题。目前探索如何高效搜索的方法大致可以分为三类:
(1)基于启发式规则的方法,即人为制定一些启发式的规则对特征完成筛选。按照规则的不同,可以包括如下两种方式,1)在每次生成新特征后加入原数据特征中完成一次训练,观测模型性能是否提升,但是此种方式非常耗时;2)根据某种指标判断是否选择新特征,例如新特征与标签之间的相关性等,此种方式速度虽快但也会存在一定误差,且误差随着数据集的不同而不同。
(2)基于元学习(Meta-Learning)的方法,即将判断某个特征是否有效看作一个机器学习问题。但是,此方法与实际应用之间存在一定的距离,元信息的选择对新特征的质量至关重要,而目前未有一个通用的元信息选取原则,通常选取的元信息包括特征的方差分布等统计指标,它们是否能完全表达特征仍是一个悬而未解的问题。因此,使用此方法也不能保证选到的新特征一定是有效的,仍需其他额外的检验。
(3)基于强化学习的方法,例如将如何生成一个新特征看作是动作(Action),当前的特征组合看作是一个状态(State),新特征对性能的提升看作是奖励(Reward)。此方法也存在两个问题,一个是如何将生成新特征这个问题更好地规划到强化学习的范式中,即将状态、动作和奖励这些更好地映射到问题场景中;另一个是模型训练难度大,这也是强化学习本身问题,训练难的问题会导致无法较好地发现问题源头以及耗时较长等。这两个问题阻碍了基于强化学习的方法的实际应用。
此外,随着大数据时代的到来,对实现方法的时间性能也有了更严格的要求,进而严重降低了这些方法的适用性。
发明内容
本发明实施例提供一种特征变换方式的确定方法、装置、设备及介质,以对现有技术中的组合特征的生成方法进行优化,根据确定的特征变换方式生成组合特征,尽量减少人员的参与过程,实现快速生成一系列高效的组合特征的效果。
第一方面,本发明实施例提供了一种特征变换方式的确定方法,包括:
主设备确定与目标数据对应的多项备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
第二方面,本发明实施例提供了一种特征变换方式的确定方法,包括:
从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
第三方面,本发明实施例还提供了一种特征变换方式的确定装置,包括:
备选特征变换方式分发模块,用于主设备确定与目标数据对应的多项备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
预估性能接收模块,用于所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
目标特征变换方式确定模块,用于所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
第四方面,本发明实施例还提供了一种特征变换方式的确定装置,包括:
局部验证模块,用于从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
预估性能反馈模块,用于所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
全局复核模块,用于所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
全局复核性能反馈模块,用于所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
第五方面,本发明实施例还提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所提供的应用于主设备侧的特征变换方式的确定方法。
第六方面,本发明实施例还提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所提供的应用于从设备侧的特征变换方式的确定方法。
第七方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的应用于主设备侧的特征变换方式的确定方法。
第八方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的应用于从设备侧的特征变换方式的确定方法。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
附图说明
图1是本发明实施例一中的一种特征变换方式的确定方法的流程图;
图2是本发明实施例二中的一种特征变换方式的确定方法的流程图;
图3是本发明实施例三中的一种特征变换方式的确定方法的流程图;
图4是本发明实施例四中的一种特征变换方式的确定方法的流程图;
图5是本发明实施例五中的一种特征变换方式的确定装置的结构示意图;
图6是本发明实施例六中的一种特征变换方式的确定装置的结构示意图;
图7是本发明实施例七中的一种设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种特征变换方式的确定方法的流程图,可适用于自动生成用于机器学习建模任务的组合特征的情况,该方法可以由本发明实施例提供的应用于主设备侧的特征变换方式的确定装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如分布式计算框架中主设备的处理器中。
本实施例提供的技术方案不依赖于任何一种计算机语言、软件或硬件,只需实施本技术方案的计算机集群之间能够正常通信即可。具体的,本实施方案可以采用分布式并行计算模式Master-Worker,Master进程负责接收和分配任务,Worker进程负责处理子任务,当各个Worker进程处理完成后将结果返回给Master进程,由Master进程作归纳总结。作为本实施例一种具体的实施方式,本实施例可以通过Spark计算框架来实现,将SparkDriver作为Master,Spark Executor作为Worker,通过Spark框架提供的通信机制来传递所需要的信息。
如图1所示,本实施例的方法具体包括:
S110、主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证。
其中,本实施例中涉及的主设备为运行Master线程的计算机设备,下述简称Master,从设备为运行Worker线程的计算机设备,下述简称Worker。
在数据建模人员利用计算机探索特征组合方式的应用场景下,向Master下发确定特征变换方式的任务,Master接收到任务后执行本实施例提供的特征变换方式的确定方法。
Master读取接收的任务的原始数据,根据原始数据确定与目标数据对应的备选特征变换方式,具体可以是根据原始数据的数据格式确定所需目标数据的数据格式,然后根据目标数据的数据格式获取预先定义的与该数据格式匹配的多种备选特征变换方式。例如,原始数据包括a、b、c三个数值型特征,意味着目标数据的数据格式也为数值型,那么根据预先定义的变换函数,可以得到备选特征变换方式的列表,备选特征变换方式比如为a+b、a*b、sin(c)等。其中,备选特征变换方式可以是根据原始数据的一个或多个原始特征确定的。
Master将这些备选特征变换方式分发至不同的Worker进行局部数据验证,其中,Master可以根据Worker的数量将多种备选特征变换方式均分至不同的Worker进行局部数据验证。在此过程中,Master分发的仅是备选特征变换方式,而非真正的数据,故此过程仅需传递很少的信息。
在本实施例中,原始数据可以是分布式存储,也可以不是分布式存储,只要Master和Worker能够读取到相应的原始数据即可,本实施例对此不做具体限定。下述以原始数据分布式存储为例进行解释说明。
Worker接收到备选特征变换方式之后,根据本地存储的局部数据对根据该备选特征变换方式生成的新特征的有效程度进行判定。
具体的,Worker首先根据接收到的备选特征变换方式以及局部数据中每条数据的初始特征生成新特征,将生成的新特征添加至本地的局部特征集中,训练机器模型(或称数据训练模型),判断添加新特征后机器模型的性能是否存在提升,将机器模型的局部新性能指标相对于局部初始性能指标的提升幅度(例如是百分比)作为接收的备选特征变换方式对应的预估性能提升幅度,其中,局部初始性能指标为Worker根据未添加新特征的局部特征集训练机器模型得到的机器模型的性能指标,局部新性能指标为Worker根据添加新特征的局部特征集训练机器模型得到的机器模的性能指标。
例如,原始数据全量共有100万条,存储到某一个Worker上的原始数据共有10万条,每条数据包括a、b、c三个数值型特征,该Worker接收到的Master分发的备选特征变换方式为a+b,它会按照备选特征变换方式a+b生成每条数据的一个新特征,进而10万条数据中每条数据会包括a、b、c和a+b这四个特征。假如,该Worker根据这10万条数据(每条数据包括a、b、c三个特征)训练机器模型,机器模型的某一性能指标为0.5,该Worker根据添加新特征的这10万条数据(每条数据会包括a、b、c和a+b这四个特征)训练机器模型,机器模型对应的性能指标为0.8,那么与备选特征变换方式为a+b对应的预估性能提升幅度为(0.8-0.5)/0.5=60%。
值得指出的是,经过Worker的局部数据验证,与备选特征变换方式对应的预估性能提升幅度可能是正值,可能是负值,也可能是零,其中,正值指示性能指标提升,负值指示性能下降,零值指示性能既无下降也无上升。
S120、主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度。
各个Worker对接收的备选特征变换方式完成局部数据验证之后,将确定的与备选特征变换方式对应的预估性能提升幅度反馈回Master。
作为本实施例一种具体的实施方式,可以将主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度,具体为:主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升。
也即,在每个Worker确定出与接收到的备选特征变换方式对应的预估性能提升幅度之后,根据预估性能提升幅度判断是否存在性能提升,如果确定存在性能提升,则将与该备选特征变换方式对应的预估性能提升幅度反馈回Master,如果确定不存在性能提升,则不将与该备选特征变换方式对应的预估性能提升幅度反馈回Master。
由此,实现了在不同的Worker上对各个备选特征变换方式进行初步筛选,使用Worker上的本地数据判断根据对应的备选特征变换方式生成的组合特征是否有利于性能提升,在判断结果误差可接受的情况下,极大地加速了计算过程。
S130、主设备根据接收的各预估性能提升幅度,控制从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成目标数据的组合特征。
Master接收到Worker反馈的各与备选特征变换方式对应的预估性能提升幅度之后,根据这些预估性能提升幅度确定要进行全局数据验证的备选特征变换方式,例如可以是对预估性能提升幅度为正值的所有备选特征变换方式进行全局数据验证,还可以是对预估性能提升幅度大于预设的提升幅度阈值的所有备选特征变换方式进行全局数据验证。
Master确定待进行全局数据验证的某一备选特征变换方式之后,下发对该备选特征变换方式进行全局数据验证的任务,以控制各个Worker对该备选特征变换方式进行全局数据验证。例如,Master确定待进行全局数据验证的备选特征变换方式为a+b,各个Worker接收到全局数据验证任务之后,按照备选特征变换方式a+b为每条数据生成的一个新特征,将生成的新特征添加至全局特征集中,进而100万条数据中每条数据会包括a、b、c和a+b这四个特征。
各个Worker使用添加新特征的全局特征集训练机器模型(或称数据训练模型),判断添加新特征后机器模型的性能是否存在提升,将机器模型的全局新性能指标相对于全局初始性能指标的提升幅度(例如百分比)作为接收的备选特征变换方式对应的全局复核性能提升幅度,其中,全局初始性能指标为Worker根据未添加新特征的全局特征集训练机器模型得到的机器模型的性能指标,全局新性能指标为Worker根据添加新特征的全局特征集训练机器模型得到的机器模的性能指标。各个Worker在确定出与备选特征变换方式对应的全局复核性能提升幅度之后,反馈回Master,进而Master根据与备选特征变换方式对应的全局复核性能提升幅度确定最终用于生成组合特征的目标特征变换方式。
具体的,可以将主设备根据从设备反馈的与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式,具体为:主设备如果根据从设备反馈的与备选特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述备选特征变换方式确定为目标特征变换方式。
也即,如果Master根据全局复核性能提升幅度确定存在性能提升(即全局复核性能提升幅度为正值),则将对应的备选特征变换方式确定为目标特征变换方式,进而可以根据该目标特征变换方式生成组合特征。
还可以是,Master将全局复核性能提升幅度大于预设的提升幅度阈值的备选特征变换方式确定为目标特征变换方式,以根据该目标特征变换方式生成组合特征。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。
本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失(或称分析误差)可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
实施例二
图2是本发明实施例二提供的一种特征变换方式的确定方法的流程图,本实施例以上述实施例为基础进行具体化,其中,
将主设备根据接收的各预估性能提升幅度,控制从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式,具体为:
主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序;
主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式;
主设备下发对当前操作特征变换方式进行全局数据验证的任务,并接收与当前操作特征变换方式对应的全局复核性能提升幅度;
主设备如果根据与当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述当前操作特征变换方式确定为目标特征变换方式;
返回执行主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升。
典型的,还可以是,返回执行主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备连续根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
如图2所示,本实施例的方法具体包括:
S210、主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证。
S220、主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升。
S230、主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序。
不同的Worker对各种备选特征变换方式进行局部数据验证之后,得到与各备选特征变换方式对应的预估性能提升幅度,如果根据预估性能提升幅度确定存在性能提升,则将相应的与备选特征变换方式对应的预估性能提升幅度反馈回Master。
Master接收到各Worker反馈的与各备选特征变换方式对应的预估性能提升幅度之后,根据预估性能提升幅度的大小,将这些备选特征变换方式进行排序,进而可以控制Worker按照顺序依次对这些备选特征变换方式进行全局数据验证。
S240、主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式。
S250、主设备下发对当前操作特征变换方式进行全局数据验证的任务,并接收与当前操作特征变换方式对应的全局复核性能提升幅度。
在对当前操作特征变换方式进行全局数据验证时,Worker将根据当前操作特征变换方式生成的新特征添加至全局特征集,利用添加新特征的全局特征集训练机器模型,判断机器模型的性能是否存在提升,将机器模型根据添加新特征的全局特征集训练得到的全局新性能指标相对于根据未添加新特征的全局特征集训练得到的全局初始性能指标的提升幅度(例如百分比)作为与当前操作特别变换方式对应的全局复核性能提升幅度。
S260、主设备如果根据与当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将当前操作特征变换方式确定为目标特征变换方式。
Master接收到Worker反馈的与当前操作特征变换方式对应的全局复核性能提升幅度之后,根据全局复核性能提升幅度判断机器模型的性能是否存提升,如果是(全局复核性能提升幅度为正值),则将当前操作特征变换方式确定为目标特征变换方式,进而可以根据该目标特征变换方式生成组合特征,并将新生产的组合特征添加至全局特征集中,构成对下一个备选特征变换方式进行全局验证时的全局初始特征集。
S270、返回执行主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升。
接下来,按顺序选择下一个备选特征变换方式进行全局数据验证。
在对各Worker反馈回的各备选特征变换方式进行全局数据验证的过程汇总,Master只要确定根据某一备选特征变换方式生成的组合特征加入全局特征集后,能够使机器性能存在提升,则按照贪心策略将新生成的组合特征添加至全局特征集,直至确定根据某一备选特征变换方式生成的组合特征加入全局特征集后,不能使机器性能存在提升。
例如,按照顺序,根据前5种备选特征变换方式生成的组合特征加入全局特征集后,均能够使机器模型性能提升,而根据第6种备选特征变换方式生成的组合特征加入全局特征集后,不能使机器模型性能提升,则将根据前5种备选特征变换方式生成的组合特征加入全局特征集后的特征集作为最终的全局特征集。
作为本实施例一种具体的实施方式,可以将S270具体为:返回执行主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备连续根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
以设定数量阈值为k为例,比如,按照顺序,根据前5种备选特征变换方式生成的组合特征加入全局特征集后,均能够使机器模型性能提升,而根据第6种备选特征变换方式生成的组合特征加入全局特征集后,不能使机器模型性能提升,则不将根据第6种备选特征变换方式生成的组合特征加入全局特征集,继续选择第7种备选特征变换方式进行全局数据验证,验证结果同样是不将根据第7种备选特征变换方式生成的组合特征加入全局特征集,如果连续k次(也即验证至第k+5种备选特征变换方式)不将新生产的组合特征加入全局特征集,则不再对后续的备选特征变换方式进行全局数据验证,进而将根据前5种备选特征变换方式生成的组合特征加入全局特征集后的特征集作为最终的全局特征集。
本实施例未尽详细解释之处,请参见前述实施例,在此不再赘述。
在上述技术方案中,将确定特征生成方式的过程分为“初筛阶段”和“精选阶段”,在“初筛阶段”,使用每个Worker的本地数据计算和验证,能够充分的利用集群计算资源,在精度损失可接受的情况下得到一个粗略的排序结果;在“精选阶段”,使用贪心策略按照“初筛”阶段的排序结果依次加入新生成的组合特征,并在全局数据上进行验证,以保障最终结果的有效性。
实施例三
图3是本发明实施例三提供的一种特征变换方式的确定方法的流程图,可适用于自动生成用于机器学习建模任务的组合特征的情况,该方法可以由本发明实施例提供的应用于从设备侧的特征变换方式的确定装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如分布式计算框架中从设备的处理器中。如图3所示,本实施例的方法具体包括:
S310、从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的。
典型的,从设备确定与所述备选特征变换方式对应的预估性能提升幅度,具体可以包括下述步骤:
从设备根据接收到的备选特征变换方式以及局部初始特征生成新特征;
从设备根据添加新特征的局部特征集训练机器模型,得到机器模型的局部新性能指标;
从设备将局部新性能指标相对于局部初始性能指标的提升幅度作为与备选特征变换方式对应的预估性能提升幅度,其中,局部初始性能指标为从设备根据未添加所述新特征的局部特征集训练机器模型得到的。
S320、从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回主设备,以使主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式。
作为本实施例一种具体的实施方式,S320还可以是从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回所述主设备。
S330、从设备对至少一种备选特征变换方式进行全局数据验证,确定与至少一种备选特征变换方式对应的全局复核性能提升幅度。
S340、从设备将与至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回主设备,以使主设备根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成目标数据的组合特征。
本实施例未尽详细解释之处,请参见前述实施例,在此不再赘述。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
实施例四
图4是本发明实施例三提供的一种特征变换方式的确定方法的流程图。在上述实施例的基础上,本实施例提供一种具体的实施方式,如图4所示,本实施例提供的方法具体包括:
S410、主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备。
S420、从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度。
S430、从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回主设备。
S440、主设备分别接收各从设备反馈的与备选特征变换方式对应的预估性能提升幅度。
S450、主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序。
S460、主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式。
S470、主设备下发对当前操作特征变换方式进行全局数据验证的任务。
S480、各从设备对当前操作特征变换方式进行全局数据验证,确定与当前操作特征变换方式对应的全局复核性能提升幅度,并反馈回主设备。
S490、主设备接收与当前操作特征变换方式对应的全局复核性能提升幅度。
S4100、主设备如果根据与当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将当前操作特征变换方式确定为目标特征变换方式。
S4110、返回执行主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至主设备连续根据与当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
本实施例未尽详细解释之处,请参见前述实施例,在此不再赘述。
在上述技术方案中,首先划分出一系列不相交的特征变换方式(备选特征变换方式),并将这些特征变换方式的检验划分到集群中的每个节点(Worker)上,使用节点自身的计算能力得到可能产生效果的特征变换方式;然后,利用一个启发式的贪心算法,从这些可能产生效果的特征变换方式中挑选出有效果的特征变换方式(目标特征变换方式),进而可以根据挑选出的有效果的特征变换方式生成一系列高效的组合特征。
实施例五
图5是本发明实施例五提供的一种特征变换方式的确定装置的结构示意图,可适用于自动生成用于机器学习建模任务的组合特征的情况,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如是分布式计算框架中主设备的处理器中。
如图5所示,该特征变换方式的确定装置具体包括:备选特征变换方式分发模块510、预估性能接收模块520和目标特征变换方式确定模块530。其中,备选特征变换方式分发模块510,用于主设备确定与目标数据对应的多项备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
预估性能接收模块520,用于所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
目标特征变换方式确定模块530,用于所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。
本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
进一步的,预估性能接收模块520具体用于所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升。
进一步的,目标特征变换方式确定模块530具体用于所述主设备如果根据从设备反馈的与备选特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述备选特征变换方式确定为目标特征变换方式。
进一步的,目标特征变换方式确定模块530具体包括:排序单元、选择单元、全局复核性能提升幅度接收单元、目标特征变换方式确定单元和循环单元,其中,
排序单元,用于所述主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序;
选择单元,用于所述主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式;
全局复核性能提升幅度接收单元,用于所述主设备下发对所述当前操作特征变换方式进行全局数据验证的任务,并接收与所述当前操作特征变换方式对应的全局复核性能提升幅度;
目标特征变换方式确定单元,用于所述主设备如果根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述当前操作特征变换方式确定为目标特征变换方式;
循环单元,用于返回执行所述主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至所述主设备根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升。
进一步的,循环单元具体用于返回执行所述主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至所述主设备连续根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
上述特征变换方式的确定装置可执行本发明任意实施例所提供的应用于主设备侧的特征变换方式的确定方法,具备执行特征变换方式的确定方法相应的功能模块和有益效果。
实施例六
图6是本发明实施例五提供的一种特征变换方式的确定装置的结构示意图,可适用于自动生成用于机器学习建模任务的组合特征的情况,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如是分布式计算框架中从设备的处理器中。
如图6所示,该特征变换方式的确定装置具体包括:局部验证模块610、预估性能反馈模块620、全局复核模块630和全局复核性能反馈模块640。其中,
局部验证模块610,用于从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
预估性能反馈模块620,用于所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
全局复核模块630,用于所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
全局复核性能反馈模块640,用于所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
在本发明实施例提供的技术方案中,主设备首先将多种备选特征变换方式分发至从设备进行局部数据验证,在接收到从设备反馈的与各备选特征变换方式对应的预估性能提升幅度后,根据各预估性能提升幅度控制从设备对至少一中备选特征变换方式进行全局数据验证,进而根据与至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出用于生成组合特征的目标特征变换方式,由此,可以根据确定的目标特征变换方式自动扩展出大量的组合特征用于机器学习建模任务。
本发明实施例提供的技术方案采用分布式并行计算的形式,主设备首先控制从设备对备选特征变换方式进行局部数据验证,在性能损失可接受的情况下,极大地加速了计算过程,然后根据局部数据验证结果控制从设备对至少一个备选特征变换方式进行全局数据验证,进一步保证了最终确定的目标特征变换方式的准确性、有效性。
进一步的,预估性能反馈模块620具体用于所述从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回所述主设备。
进一步的,局部验证模块610具体包括:新特征生成单元、局部新性能指标获取单元和预估性能提升幅度确定单元,其中,
新特征生成单元,用于所述从设备根据接收到的备选特征变换方式以及局部初始特征生成新特征;
局部新性能指标获取单元,用于所述从设备根据添加所述新特征的局部特征集训练机器模型,得到所述机器模型的局部新性能指标;
预估性能提升幅度确定单元,用于所述从设备将所述局部新性能指标相对于局部初始性能指标的提升幅度作为与备选特征变换方式对应的预估性能提升幅度,其中,所述局部初始性能指标为所述从设备根据未添加所述新特征的局部特征集训练机器模型得到的。
上述特征变换方式的确定装置可执行本发明任意实施例所提供的应用于从设备侧的特征变换方式的确定方法,具备执行特征变换方式的确定方法相应的功能模块和有益效果。
实施例七
图7为本发明实施例七提供的一种设备的硬件结构示意图,如图7所示,该设备包括:
一个或多个处理器710,图7中以一个处理器710为例;
存储器720;
所述设备还可以包括:输入装置730和输出装置740。
所述设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器720作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种特征变换方式的确定方法对应的程序指令/模块(例如,附图5所示的备选特征变换方式分发模块510、预估性能接收模块520和目标特征变换方式确定模块530;又例如,附图6所示的局部验证模块610、预估性能反馈模块620、全局复核模块630和全局复核性能反馈模块640)。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种特征变换方式的确定方法。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
实施例八
本发明实施例八提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的应用于主设备侧的特征变换方式的确定方法:也即,该程序被处理器执行时实现:主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
或者,实现如本申请所有发明实施例提供的应用于从设备侧的特征变换方式的确定方法:也即,该程序被处理器执行时实现:
从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本发明任意实施例所提供的应用于主设备侧的一种特征变换方式的确定方法的技术方案,或者应用于从设备侧的一种特征变换方式的确定方法的技术方案。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述应用于主设备侧的特征变换方式的确定装置或者应用于从设备侧的特征变换方式的确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种特征变换方式的确定方法,其特征在于,包括:
主设备确定与目标数据对应的多种备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
2.根据权利要求1所述的方法,其特征在于,所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度,包括:
所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度,其中,所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度指示存在性能提升。
3.根据权利要求1或2所述的方法,其特征在于,所述主设备根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式,包括:
所述主设备如果根据从设备反馈的与备选特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述备选特征变换方式确定为目标特征变换方式。
4.根据权利要求3所述的方法,其特征在于,所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式,包括:
所述主设备对接收的与各备选特征变换方式对应的预估性能提升幅度按照大小顺序排序;
所述主设备按顺序选择一种备选特征变换方式作为当前操作特征变换方式;
所述主设备下发对所述当前操作特征变换方式进行全局数据验证的任务,并接收与所述当前操作特征变换方式对应的全局复核性能提升幅度;
所述主设备如果根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定存在性能提升,则将所述当前操作特征变换方式确定为目标特征变换方式;
返回执行所述主设备选择一种备选特征变换方式作为当前操作特征变换方式的操作,直至所述主设备根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升。
5.根据权利要求4所述的方法,其特征在于,直至所述主设备根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升,包括:
直至所述主设备连续根据与所述当前操作特征变换方式对应的全局复核性能提升幅度确定不存在性能提升的次数达到设定数量阈值。
6.一种特征变换方式的确定方法,其特征在于,包括:
从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
7.根据权利要求6所述的方法,其特征在于,所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,包括:
所述从设备如果根据与备选特征变换方式对应的预估性能提升幅度确定存在性能提升,则将与备选特征变换方式对应的预估性能提升幅度反馈回所述主设备。
8.根据权利要求6或7所述的方法,其特征在于,所述从设备对接收到的所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,包括:
所述从设备根据接收到的备选特征变换方式以及局部初始特征生成新特征;
所述从设备根据添加所述新特征的局部特征集训练机器模型,得到所述机器模型的局部新性能指标;
所述从设备将所述局部新性能指标相对于局部初始性能指标的提升幅度作为与备选特征变换方式对应的预估性能提升幅度,其中,所述局部初始性能指标为所述从设备根据未添加所述新特征的局部特征集训练机器模型得到的。
9.一种特征变换方式的确定装置,应用于主设备侧,其特征在于,包括:
备选特征变换方式分发模块,用于主设备确定与目标数据对应的多项备选特征变换方式,并将所述备选特征变换方式分发至不同的从设备进行局部数据验证;
预估性能接收模块,用于所述主设备分别接收各所述从设备反馈的与备选特征变换方式对应的预估性能提升幅度;
目标特征变换方式确定模块,用于所述主设备根据接收的各预估性能提升幅度,控制所述从设备对至少一种备选特征变换方式进行全局数据验证,并根据从设备反馈的与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
10.一种特征变换方式的确定装置,应用于从设备侧,其特征在于,包括:
局部验证模块,用于从设备接收主设备分发的备选特征变换方式,并对所述备选特征变换方式进行局部数据验证,确定与所述备选特征变换方式对应的预估性能提升幅度,其中,所述备选特征变换方式是与目标数据对应的;
预估性能反馈模块,用于所述从设备将与所述备选特征变换方式对应的预估性能提升幅度反馈回所述主设备,以使所述主设备根据接收的各预估性能提升幅度,确定进行全局数据验证的至少一种备选特征变换方式;
全局复核模块,用于所述从设备对所述至少一种备选特征变换方式进行全局数据验证,确定与所述至少一种备选特征变换方式对应的全局复核性能提升幅度;
全局复核性能反馈模块,用于所述从设备将与所述至少一种备选特征变换方式对应的全局复核性能提升幅度反馈回所述主设备,以使所述主设备根据与所述至少一种备选特征变换方式对应的全局复核性能提升幅度,确定出目标特征变换方式以生成所述目标数据的组合特征。
11.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的方法,或者实现如权利要求6-8中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法,或者实现如权利要求6-8中任一项所述的方法。
CN201910368232.5A 2019-05-05 2019-05-05 特征变换方式的确定方法、装置、设备及介质 Active CN109978081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910368232.5A CN109978081B (zh) 2019-05-05 2019-05-05 特征变换方式的确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910368232.5A CN109978081B (zh) 2019-05-05 2019-05-05 特征变换方式的确定方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN109978081A true CN109978081A (zh) 2019-07-05
CN109978081B CN109978081B (zh) 2019-12-24

Family

ID=67072787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910368232.5A Active CN109978081B (zh) 2019-05-05 2019-05-05 特征变换方式的确定方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN109978081B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945010A (zh) * 2010-09-19 2011-01-12 中国联合网络通信集团有限公司 业务许可的处理方法、设备和系统
US20110125393A1 (en) * 2009-11-24 2011-05-26 Joseph Williams Systems and methods for information transformation and exchange
US20130304739A1 (en) * 2012-05-10 2013-11-14 Samsung Electronics Co., Ltd. Computing system with domain independence orientation mechanism and method of operation thereof
CN106599040A (zh) * 2016-11-07 2017-04-26 中国科学院软件研究所 一种面向云存储的分层索引方法与检索方法
CN109359213A (zh) * 2018-08-27 2019-02-19 博康智能信息技术有限公司 一种安防视频智能检索系统及其检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125393A1 (en) * 2009-11-24 2011-05-26 Joseph Williams Systems and methods for information transformation and exchange
CN101945010A (zh) * 2010-09-19 2011-01-12 中国联合网络通信集团有限公司 业务许可的处理方法、设备和系统
US20130304739A1 (en) * 2012-05-10 2013-11-14 Samsung Electronics Co., Ltd. Computing system with domain independence orientation mechanism and method of operation thereof
CN106599040A (zh) * 2016-11-07 2017-04-26 中国科学院软件研究所 一种面向云存储的分层索引方法与检索方法
CN109359213A (zh) * 2018-08-27 2019-02-19 博康智能信息技术有限公司 一种安防视频智能检索系统及其检索方法

Also Published As

Publication number Publication date
CN109978081B (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN109144696A (zh) 一种任务调度方法、装置、电子设备及存储介质
JP6122621B2 (ja) プロジェクトの計画及び管理のシミュレーション及び視覚化
CN106371840A (zh) 基于众包的软件开发方法及装置
CN114862656B (zh) 基于多gpu的分布式深度学习模型训练代价的获取方法
CN109144697A (zh) 一种任务调度方法、装置、电子设备及存储介质
CN110083526A (zh) 应用程序测试方法、装置、计算机装置及存储介质
US20210232729A1 (en) Systems and Methods to Define and Monitor a Scenario of Conditions
CN102289491B (zh) 基于模糊规则推理的并行应用性能脆弱点分析方法
Liu et al. RFID: Towards low latency and reliable DAG task scheduling over dynamic vehicular clouds
US10313457B2 (en) Collaborative filtering in directed graph
US11409928B2 (en) Configurable digital twin
CN107679766B (zh) 一种群智任务动态冗余调度方法及装置
CN113742069A (zh) 基于人工智能的容量预测方法、装置及存储介质
CN108829882A (zh) 信息收集方法、装置、终端及介质
US8417489B2 (en) Duration estimation of repeated directed graph traversal
CN109978081A (zh) 特征变换方式的确定方法、装置、设备及介质
CN116823164A (zh) 一种业务审批方法、装置、设备及存储介质
CN112988403B (zh) 具有保密功能的集成电路仿真多线程管理并行方法及装置
CN107688582B (zh) 资源推荐模型的获取方法及装置
CN116049420A (zh) 知识图谱生成任务构建方法、装置、电子设备和存储介质
CN114443970A (zh) 基于人工智能和大数据的数字化内容推送方法及ai系统
CN113742581A (zh) 榜单的生成方法、装置、电子设备及可读存储介质
CN113469853A (zh) 一种加速指挥控制交战方法和人工智能装置
CN113411841A (zh) 5g切片的割接合并方法、装置及计算设备
Silva et al. SLA-aware interactive workflow assistant for HPC parameter sweeping experiments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 200233 11-12 / F, building B, 88 Hongcao Road, Xuhui District, Shanghai

Patentee after: Star link information technology (Shanghai) Co.,Ltd.

Address before: 200233 11-12 / F, building B, 88 Hongcao Road, Xuhui District, Shanghai

Patentee before: TRANSWARP TECHNOLOGY (SHANGHAI) Co.,Ltd.