CN110275889A - 一种适用于机器学习的特征处理方法及装置 - Google Patents
一种适用于机器学习的特征处理方法及装置 Download PDFInfo
- Publication number
- CN110275889A CN110275889A CN201910562484.1A CN201910562484A CN110275889A CN 110275889 A CN110275889 A CN 110275889A CN 201910562484 A CN201910562484 A CN 201910562484A CN 110275889 A CN110275889 A CN 110275889A
- Authority
- CN
- China
- Prior art keywords
- feature
- dependence
- characteristic processing
- mark sheet
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 25
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 131
- 238000003754 machining Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000010276 construction Methods 0.000 claims abstract description 14
- 230000001419 dependent effect Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 239000000779 smoke Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Abstract
本发明涉及金融科技领域,并公开了一种适用于机器学习的特征处理方法及装置,方法包括:获取特征处理请求后,根据各特征表中的各个特征构建特征池,所述特征表至少由特征列表、所属特征库、依赖特征表、所属业务、特征加工逻辑构成,所述特征列表中包括至少一个特征,所述依赖特征表用于记录与各特征表具有依赖关系的其它特征表,所述特征处理请求中包括需要处理的特征;根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,并根据特征依赖关系确定特征处理路径;根据所述特征处理路径进行特征处理。数据库中的特征是以特征表的形式进行保存的,在该特征表中,包括了多个特征以及这些特征的加工逻辑,便于特征加工。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种适用于机器学习的特征处理方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Finteh)转变,特征处理技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。
特征工程是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高模型对未见数据的准确性。现有技术中通常利用Hive数据仓库存储特征,数据仓库可以提供SQL加工特征以及存储特征的能力。但是现有技术中没有统一管理特征以及特征加工的逻辑,无法清晰表达特征之间的依赖关系,为特征增加、删除、维护等带来不便。
发明内容
有鉴于此,本发明实施例提供一种适用于机器学习的特征处理方法及装置,至少解决了现有技术存在的没有统一管理特征以及特征加工的逻辑的问题。
一方面,本发明实施例提供一种适用于机器学习的特征处理方法,包括:
获取特征处理请求后,根据各特征表中的各个特征构建特征池,所述特征表至少由特征列表、所属特征库、依赖特征表、所属业务、特征加工逻辑构成,所述特征列表中包括至少一个特征,所述依赖特征表用于记录与各特征表具有依赖关系的其它特征表,所述特征处理请求中包括需要处理的特征;
根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,并根据特征依赖关系确定特征处理路径;
根据所述特征处理路径进行特征处理。
本发明实施例中,数据库中的特征是以特征表的形式进行保存的,在该特征表中,包括了多个特征以及这些特征的加工逻辑,并且为了便于特征加工,还保存了与该特征表存在依赖关系的特征表;在进行特征处理任务时,将在任务中使用到的所有特征表中的特征构建处理特征依赖关系,通过各个依赖关系确定特征处理路径,并根据特征处理路径进行特征处理。在本发明实施例中,特征是通过特征表进行管理的,能够清晰的表达特征之间的依赖关系,为特征增加、删除、维护等带来便利。
可选的,所述根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,包括:
以所述需要处理的特征作为根节点,将与根节点具有之接依赖关系或者间接依赖关系的特征表作为上层节点,构建特征依赖树。
在本发明实施例中,通过特征依赖树的形式能够更好的梳理特征之间的依赖关系,便于进行特征加工以及特征处理。
可选的,所述根据特征依赖关系确定特征处理路径,包括:
确定所述特征依赖树中当前没有依赖的关系的特征表,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第一加工路径中,删除当前没有依赖的关系的特征表与所述特征依赖树中其它特征表的关联,返回确定所述特征依赖树中当前没有依赖的关系的特征表的步骤,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第二加工路径中,直到将所述依赖树中所有特征表加入到特征处理路径表中。
本发明实施例中,通过在特征依赖树中逐步确定加工序列的方式,能够将多个特征表同时加工,并且能够梳理特征之间的加工序列,提高了特征处理的效率。
可选的,所述根据所述特征处理路径进行特征处理后,还包括:
将处理后的特征经过多个连续的处理步骤得到机器特征。
本发明实施例中,通过多个连续的处理步骤,能够实现在特征处理工程中存在多个中间状态,能够通过配置修改任一步骤而不需要修改其它步骤,就可以实现修过程,并且能够灵活的运用中间状态的特征处理结果。
一方面,本发明实施例提供一种适用于机器学习的特征处理装置,包括:
获取单元,用于获取特征处理请求后,根据各特征表中的各个特征构建特征池,所述特征表至少由特征列表、所属特征库、依赖特征表、所属业务、特征加工逻辑构成,所述特征列表中包括至少一个特征,所述依赖特征表用于记录与各特征表具有依赖关系的其它特征表,所述特征处理请求中包括需要处理的特征;
特征处理路径确定单元,用于根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,并根据特征依赖关系确定特征处理路径;
特征处理单元,用于根据所述特征处理路径进行特征处理。
可选的,所述特征处理路径确定单元具体用于:
以所述需要处理的特征作为根节点,将与根节点具有之接依赖关系或者间接依赖关系的特征表作为上层节点,构建特征依赖树。
可选的,所述特征处理路径确定单元具体用于:
确定所述特征依赖树中当前没有依赖的关系的特征表,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第一加工路径中,删除当前没有依赖的关系的特征表与所述特征依赖树中其它特征表的关联,返回确定所述特征依赖树中当前没有依赖的关系的特征表的步骤,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第二加工路径中,直到将所述依赖树中所有特征表加入到特征处理路径表中。
可选的,所述特征处理单元还用于:
将处理后的特征经过多个连续的处理步骤得到机器特征。
一方面,本发明实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序实现的适用于机器学习的特征处理方法的步骤。
一方面,本发明实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行适用于机器学习的特征处理方法的步骤。
附图说明
图1为本发明实施例提供的一种适用于机器学习的特征处理方法的流程示意图;
图2为本发明实施例提供的一种特征管理结构示意图;
图3为本发明实施例提供的一种特征表业务层级管理示意图;
图4为本发明实施例提供的一种特征依赖树示意图;
图5为本发明实施例提供的一种特征处理流水线的流程示意图;
图6为本发明实施例提供的一种适用于机器学习的特征处理方法的流程示意图;
图7为本发明实施例提供的一种适用于机器学习的特征处理装置的结构示意图;
图8为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了便于对说明书中的实施例的理解,在此首先进行部分名词的解释。
特征工程:从数据中获取、整理、加工出计算机程序可以理解和方便处理的特征的过程,主要用途是给机器学习提供训练、评估和预测的输入数据。
机器学习:机器学习是指计算机程序一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的过程。
归一化:数值映射到[0,1]区间的过程。
缺失值处理:特征数据缺失时的处理方式,如填充为0等。
自然特征:人类可以理解的特征。
机器特征:机器学习算法处理的特征。
独热码:即One Hot编码,将特征的多个值映射为多个比特;特征值对应的比特为1,其他比特为0。
拓扑排序:一种排序算法,该算法将没有依赖的元素排在前面。
入度:有向图中某个节点,指向该节点的边的个数。
出度:有向图中某个节点,指向其他节点的边的个数。
现有技术中的机器学习,通常需要一些训练数据,这些训练数据是通过特征工程确定的,但是现有技术中通常利用Hive数据仓库存储特征,数据仓库可以提供SQL加工特征以及存储特征的能力。但是现有技术中没有统一管理特征以及特征加工的逻辑,无法清晰表达特征之间的依赖关系,为特征增加、删除、维护等带来不便。
基于现有技术中存在的问题,本发明实施例提供一种适用于机器学习的特征处理方法,具体如图1所示,包括以下步骤:
步骤S101,在本发明实施例中,若获取了特征处理请求后,就通过与特征处理请求相关的特征组成的特征池来进行特征处理。这些特征是以特征表的形式进行定义的,而特征表至少由特征列表、所属特征库、依赖特征表、所属业务、特征加工逻辑构成,所述特征列表中包括至少一个特征,所述依赖特征表用于记录与各特征表具有依赖关系的其它特征表,所述特征处理请求中包括需要处理的特征。
具体的,在本发明实施例中,特征处理请求可以是针对一些特征进行抽取加工的请求,一般来说都是通过获取原始数据,然后利用数据处理技术,从这些数据中获取、处理和提取有意义的特征和属性,最后,通常利用统计模型或机器学习模型等技术对这些特征进行建模的过程。我们可以将特征处理的过程分为两个阶段,第1个阶段将原始数据加工成自然特征,自然特征关注特征本身的含义,如客户的年龄、职业、年收入,公司的职工规模、办公地点等。有的自然特征可以从原始数据直接得到,有的特征则需要经过复杂的加工逻辑得到。第2个阶段,将自然特征加工成机器特征,机器特征的加工方式依赖于机器学习算法的输入要求,不同的算法要求的加工方式不一样。比如深度学习算法往往需要将目录属性加工成独热码,而决策树算法则可以直接处理目录属性。
在本发明实施例中,特征是通过特征表存储在数据库中的,如图2所示,数据库K中存在多个特征表t,特征表t中又包括多个自然特征f。
需要说明的是,在本发明实施例中的特征库可以对应于数据仓库中的库,也可以不对应数据仓库中的库,同样的,本发明实施例中的特征表可以对应于数据仓库中的表,也可以不对应数据仓库中的表,逻辑上并没有依赖关系。
在本发明实施例中,特征表中除了包括的多个特征,是通过特征列表的形式进行定义的,也就是说,每个特征表中包括了特征列表的部分,该特征列表的部分至少包括一个特征,该特征在特征列表中的表示,可以如表1所示。
表1
特征标识 | 中文名 | 英文名 | 数据类型 | 描述 | 属性 |
当然了,表1只是一种特征的标识方法,在表1中还可以删除或者增加特征的表示元素。
在本发明实施例中,除了特征列表外,特征表中还包括依赖特征表,例如特征表中包括特征A,特征A与特征B有依赖关系,特征B属于特征表B,所以在依赖特征表中就包括特征表B。
在发明实施例中,特征表还包括所属特征库、所属业务以及特征加工逻辑部分内容。所属特征库指的是特征表属于的是哪个库,而所属业务,则指的是特征表中的特征是属于哪种业务。
在本发明实施例中,可以定义三种业务,一种是操作数据层业务,可以理解为用户的输入信息,第二种是公共维度模型业务,也就是将用户的输入信息进行模型加工或者判断得到的特征,第三种是应用数据层业务,也就是将特征直接应用在某些应用中。示例性的,如图3所示,本发明实施例提供一种通用的业务层级划分方式,当然也可以有其他的划分方法。业务层级可以看做特征表的一个标记,同一个特征表可以有多个相同层级的业务标记,比如特征表3:应用1,应用2。但同一张特征表上,不会存在跨级的业务层级标记,比如不允许存在特征表1:模型1,应用2。
在本发明实施例中,加工逻辑包含加工程序和程序配置;加工程序可以是SQL语句、或其他可以在特定环境运行的程序,运行之前程序配置必需已经完成。需要说明的是,加工程序只负责将特征加工出来,不关心目标特征数据如何保存,如加工程序如果是sql,那不会包含类似insert into[目标表]或者insertoverwrite[目标表]等逻辑;相反,特征的保存行为由运行时的系统控制和跟踪。
步骤S102,根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,并根据特征依赖关系确定特征处理路径。
在本发明实施例中,通过特征池中的各个特征以及需要处理的特征之间的依赖关系,能够确定特征处理路径,进而能够提高特征处理效率,也能够便于特征管理。
在本发明实施例中,可以通过逐层确定特征依赖关系,例如,以需要处理的特征为特征A,特征A保存在特征表1、特征表2以及特征表3中;而特征表1与特征4有依赖关系,特征表2与特征表5有依赖关系,特征表3与特征表6有依赖关系,所以在处理特征A时,需要首先加工特征表4、特征表5以及特征表6,然后再加工特征表1、特征表2以及特征表3。
可选的,在本发明实施例中,上述方法可以用简单的拓扑排序方法来确定,也就是说,通过需要处理的特征进行依赖排序,最终得到加工路径。
可选的,在本发明实施例中,为了能够清晰的显示特征加工路径,便于快速特征处理,以需要处理的特征作为根节点,将与根节点具有之接依赖关系或者间接依赖关系的特征表作为上层节点,构建特征依赖树。也就是说,将需要处理的特征作为根节点,然后逐步向上层建立节点,形成树形依赖关系。
示例性的,以需要处理的特征为特征A,特征A保存在特征表1、特征表2以及特征表3中;而特征表1与特征4有依赖关系,特征表2与特征表5有依赖关系,特征表3与特征表6有依赖关系,而特征表4、特征表5以及特征表6是通过加工原始表1、原始表2以及原始表3中的特征得到的,则形成的依赖树如图4所示。
在确定了依赖树后,就能够通过拓扑排序快速的确定特征之间的加工序列。
可选的,在本发明实施例中,还可以选择将一个批次的特征进行并行处理,来提高特征处理的效率,例如,上述示例中的,原始表1、原始表2以及原始表3可以为一个批次,之间没有依赖关系,可以同时进行特征加工,得到特征表4、特征表5以及特征表6;进一步地,特征表4、特征表5以及特征表6可以同时进行加工得到特征表1、特征表2以及特征表3。
可选的,在本发明实施例中,提出一种特征加工路径生成算法,具体包括:
(1)初始化加工序列R,初始化的序列R为空;初始化集合S,S为所有特征表;初始化临时集合C,临时集合C为所有的原始数据表;
(2)当集合C为非空时,也就是原始数据表不为空时,遍历集合S中所有特征表,并标记当前遍历到的表为Si;
(3)遍历集合C中所有表,这些表可能是原始表或特征表,记当前遍历到的表为Cj;
(4)若确定Cj是Si的依赖表,则依赖图中存在Cj指向Si的边,则删除这条表边,可以理解为将Cj出度Si的部分删除;
(5)循环第(3)步,然后执行步骤(2);
(6)将当前集合C中的非原始表(C1,C2,...)取出,并组成一个并行子任务task(C1|C2|..),添加到加工序列R的尾部;清空集合C为空集合;
(7)遍历所有S集合中的特征表,找出所有入度为0的表,将它们从S中删除,并加入到集合C中;
(8)返回第(2)步;
(9)若确定集合S为非空,提示出现循环依赖并退出路径计算;
(10)程序结束,序列R中所有子任务即为抽取任务的加工路径。
为了更好的理解该方法,以图4中的特征依赖树为示例进行说明,首先初始化加工序列R为空,然后初始化集合S为所有特征表,初始化临时集合C,为所有的原始数据表。
在第一次循环时,集合C不为空,当前遍历的为S1以及C1,例如S1为特征表4,C1为原始表1,原始表1是特征表4的依赖表,删除了特征表的入度。然后继续遍历,S2为特征表6,C2为原始表2,这两个特征表没有依赖关系,继续遍历,S3为特征表5,C3为原始表2,原始表2是特征表4的依赖表,删除了特征表5的入度,直到将特征表6的入度也删除;然后更新C表,此时C表中就包括了特征表,使用上述继续删除特征表的入度,并将删除入度的特征表组成一个并行子任务,然后清空C表,继续上述步骤,直到将所有的特征表的入度删除,组成了多个并行子任务。
也就是说,在本发明实施例中,需要找出当前没有依赖的表的集合,并删除依赖图中与该集合中表的关联,以此生成下一批没有依赖的表,直到将所有表加入加工序列。与标准拓扑排序的区别在于,算法的每一步都将当前没有依赖的表组成一个并行的子任务,并行运行可以加快整体的运行效率。
步骤S103,根据所述特征处理路径进行特征处理。
在本发明实施例中,通过确定的特征处理路径可以将需要的特征进行加工处理,在加工完成后,即完成了第一个步骤,将原始特征加工成自然特征的过程,然后需要将自然特征加工为机器特征。
在本发明实施例中,可以通过多个连续的处理步骤得到机器特征,并且在每个处理步骤后,都可以将处理结果进行保存,便于后续的特征利用。例如说,在本发明实施例中,如将目录属性客户是否抽烟:是|否进行数值化的过程中,需要记录目录类别和数值的对应关系,例如抽烟->1,不抽烟->0,其他如均值方差归一化,需要记录特征的均值和方差,所以在本发明实施例中,可以经均值步骤以及方差步骤后,得到机器特征,即1或者0。
在本发明实施例中,经过多个连续的处理步骤得到机器特征的过程也可以称为机器特征加工流水线,如图5所示,自然特征到机器特征的加工是以单个特征的维度进行的。多个特征也可以共享一个流水线。多个处理步骤组成了一个处理流水线,流水线上的步骤接收上一个步骤的输出,处理后输出到下一个步骤。每个步骤可以输出一个步骤状态,也可以没有。
流水线中每个步骤需要支持处理一个或多个特征。因为输入流水线时可能只有一个特征,但中间的某个步骤,可能将一个特征变成多个特征。比如独热码将特征的每一种取值新增一个特征。如将客户是否抽烟这个特征,处理成客户抽烟、客户不抽烟2个特征。
也就是说,通过加工流水线,可以将特征处理的中间状态进行保存,并且可以通过自定义的方式,设置中间过程,就例如上述示例中的将归一化的过程,设置为均值和方差两个步骤,则可以保存归一化过程中的特征,以便特征复用。
为了更好的解释本申请实施例,下面结合具体的实施场景描述本申请实施例提供的一种适用于机器学习的特征处理方法,该方法用于提取特征S,特征S位于特征表1中,特征表1与特征表2,特征表3,特征表4有关联关系,特征表2与特征表5,特征表6有关联关系,具体如图6所示:
步骤S601,获取特征处理请求;
步骤S602,将特征表1、特征表2、特征表3、特征表4、特征表5以及特征表6中的特征构建特征池;
步骤S603,将特征池中的特征构建依赖树,该依赖树可以体现为,特征S为根节点,根节点上层节点为特征表1,特征表1的上层节点为特征表2,特征表3,特征表4,特征表2的上层节点为特征表5,特征表6;
步骤S604,找出当前没有依赖的表的集合,并删除依赖图中与该集合中表的关联,以此生成下一批没有依赖的表,直到将所有表加入加工序列,得到加工序列,具体为特征表5,特征表6>特征表2,特征表3,特征表4>特征表1;
步骤S605,根据加工序列进行特征加工,得到特征S;
步骤S606,将特征S经过多个步骤得到机器特征T,并保存多个步骤的特征结果。
基于相同的技术构思,本申请实施例提供了一种适用于机器学习的特征处理装置,如图7所示,该装置700包括:
获取单元701,用于获取特征处理请求后,根据各特征表中的各个特征构建特征池,所述特征表至少由特征列表、所属特征库、依赖特征表、所属业务、特征加工逻辑构成,所述特征列表中包括至少一个特征,所述依赖特征表用于记录与各特征表具有依赖关系的其它特征表,所述特征处理请求中包括需要处理的特征;
特征处理路径确定单元702,用于根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,并根据特征依赖关系确定特征处理路径;
特征处理单元703,用于根据所述特征处理路径进行特征处理。
可选的,所述特征处理路径确定单元702具体用于:
以所述需要处理的特征作为根节点,将与根节点具有之接依赖关系或者间接依赖关系的特征表作为上层节点,构建特征依赖树。
可选的,所述特征处理路径确定单元702具体用于:
确定所述特征依赖树中当前没有依赖的关系的特征表,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第一加工路径中,删除当前没有依赖的关系的特征表与所述特征依赖树中其它特征表的关联,返回确定所述特征依赖树中当前没有依赖的关系的特征表的步骤,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第二加工路径中,直到将所述依赖树中所有特征表加入到特征处理路径表中。
可选的,所述特征处理单元703还用于:
将处理后的特征经过多个连续的处理步骤得到机器特征。
基于相同的技术构思,本申请实施例提供了一种计算机设备,如图8所示,包括至少一个处理器801,以及与至少一个处理器连接的存储器802,本申请实施例中不限定处理器801与存储器802之间的具体连接介质,图8中处理器801和存储器802之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器802存储有可被至少一个处理器801执行的指令,至少一个处理器801通过执行存储器802存储的指令,可以执行前述的适用于机器学习的特征处理方法中所包括的步骤。
其中,处理器801是计算机设备的控制中心,可以利用各种接口和线路连接终端设备的各个部分,通过运行或执行存储在存储器802内的指令以及调用存储在存储器802内的数据,从而获得客户端地址。可选的,处理器801可包括一个或多个处理单元,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。在一些实施例中,处理器801和存储器802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于相同的技术构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行适用于机器学习的特征处理方法的步骤。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种适用于机器学习的特征处理方法,其特征在于,所述方法包括:
获取特征处理请求后,根据各特征表中的各个特征构建特征池,所述特征表至少由特征列表、所属特征库、依赖特征表、所属业务、特征加工逻辑构成,所述特征列表中包括至少一个特征,所述依赖特征表用于记录与各特征表具有依赖关系的其它特征表,所述特征处理请求中包括需要处理的特征;
根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,并根据特征依赖关系确定特征处理路径;
根据所述特征处理路径进行特征处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,包括:
以所述需要处理的特征作为根节点,将与根节点具有之接依赖关系或者间接依赖关系的特征表作为上层节点,构建特征依赖树。
3.根据权利要求2所述的方法,其特征在于,所述根据特征依赖关系确定特征处理路径,包括:
确定所述特征依赖树中当前没有依赖的关系的特征表,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第一加工路径中,删除当前没有依赖的关系的特征表与所述特征依赖树中其它特征表的关联,返回确定所述特征依赖树中当前没有依赖的关系的特征表的步骤,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第二加工路径中,直到将所述依赖树中所有特征表加入到特征处理路径表中。
4.根据权利要求1所述的方法,其特征在于,所述根据所述特征处理路径进行特征处理后,还包括:
将处理后的特征经过多个连续的处理步骤得到机器特征。
5.一种适用于机器学习的特征处理装置,其特征在于,所述装置包括:
获取单元,用于获取特征处理请求后,根据各特征表中的各个特征构建特征池,所述特征表至少由特征列表、所属特征库、依赖特征表、所属业务、特征加工逻辑构成,所述特征列表中包括至少一个特征,所述依赖特征表用于记录与各特征表具有依赖关系的其它特征表,所述特征处理请求中包括需要处理的特征;
特征处理路径确定单元,用于根据所述需要处理的特征以及所述特征池中各个特征确定特征依赖关系,并根据特征依赖关系确定特征处理路径;
特征处理单元,用于根据所述特征处理路径进行特征处理。
6.根据权利要求5所述的装置,其特征在于,所述特征处理路径确定单元具体用于:
以所述需要处理的特征作为根节点,将与根节点具有之接依赖关系或者间接依赖关系的特征表作为上层节点,构建特征依赖树。
7.根据权利要求6所述的装置,其特征在于,所述特征处理路径确定单元具体用于:
确定所述特征依赖树中当前没有依赖的关系的特征表,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第一加工路径中,删除当前没有依赖的关系的特征表与所述特征依赖树中其它特征表的关联,返回确定所述特征依赖树中当前没有依赖的关系的特征表的步骤,将当前没有依赖的关系的特征表作为并行子任务加入到特征处理路径表中的第二加工路径中,直到将所述依赖树中所有特征表加入到特征处理路径表中。
8.根据权利要求5所述的装置,其特征在于,所述特征处理单元还用于:
将处理后的特征经过多个连续的处理步骤得到机器特征。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得计算机执行如权利要求1至4中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562484.1A CN110275889B (zh) | 2019-06-26 | 2019-06-26 | 一种适用于机器学习的特征处理方法及装置 |
PCT/CN2020/095934 WO2020259325A1 (zh) | 2019-06-26 | 2020-06-12 | 一种适用于机器学习的特征处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562484.1A CN110275889B (zh) | 2019-06-26 | 2019-06-26 | 一种适用于机器学习的特征处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110275889A true CN110275889A (zh) | 2019-09-24 |
CN110275889B CN110275889B (zh) | 2023-11-24 |
Family
ID=67963408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910562484.1A Active CN110275889B (zh) | 2019-06-26 | 2019-06-26 | 一种适用于机器学习的特征处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110275889B (zh) |
WO (1) | WO2020259325A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581305A (zh) * | 2020-05-18 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 特征处理方法、装置、电子设备和介质 |
CN111752967A (zh) * | 2020-06-12 | 2020-10-09 | 第四范式(北京)技术有限公司 | 基于sql的数据处理方法、装置、电子设备和存储介质 |
CN111859928A (zh) * | 2020-07-30 | 2020-10-30 | 网易传媒科技(北京)有限公司 | 特征处理方法、装置、介质和计算设备 |
WO2020259325A1 (zh) * | 2019-06-26 | 2020-12-30 | 深圳前海微众银行股份有限公司 | 一种适用于机器学习的特征处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103645948A (zh) * | 2013-11-27 | 2014-03-19 | 南京师范大学 | 一种面向数据密集型及依赖关系的并行计算方法 |
CN105103120A (zh) * | 2013-04-30 | 2015-11-25 | 惠普发展公司,有限责任合伙企业 | 特征标志之间的依赖性 |
CN108595157A (zh) * | 2018-04-28 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 区块链数据的处理方法、装置、设备和存储介质 |
US20190007263A1 (en) * | 2017-06-30 | 2019-01-03 | Microsoft Technology Licensing, Llc | Automatic reconfiguration of dependency graph for coordination of device configuration |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090037466A1 (en) * | 2007-07-31 | 2009-02-05 | Cross Micah M | Method and system for resolving feature dependencies of an integrated development environment with extensible plug-in features |
CN103019651B (zh) * | 2012-08-02 | 2016-06-29 | 青岛海信传媒网络技术有限公司 | 复杂任务的并行处理方法和装置 |
CN108537543B (zh) * | 2018-03-30 | 2023-07-28 | 百度在线网络技术(北京)有限公司 | 区块链数据的并行处理方法、装置、设备和存储介质 |
CN110275889B (zh) * | 2019-06-26 | 2023-11-24 | 深圳前海微众银行股份有限公司 | 一种适用于机器学习的特征处理方法及装置 |
-
2019
- 2019-06-26 CN CN201910562484.1A patent/CN110275889B/zh active Active
-
2020
- 2020-06-12 WO PCT/CN2020/095934 patent/WO2020259325A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105103120A (zh) * | 2013-04-30 | 2015-11-25 | 惠普发展公司,有限责任合伙企业 | 特征标志之间的依赖性 |
CN103645948A (zh) * | 2013-11-27 | 2014-03-19 | 南京师范大学 | 一种面向数据密集型及依赖关系的并行计算方法 |
US20190007263A1 (en) * | 2017-06-30 | 2019-01-03 | Microsoft Technology Licensing, Llc | Automatic reconfiguration of dependency graph for coordination of device configuration |
CN108595157A (zh) * | 2018-04-28 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 区块链数据的处理方法、装置、设备和存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020259325A1 (zh) * | 2019-06-26 | 2020-12-30 | 深圳前海微众银行股份有限公司 | 一种适用于机器学习的特征处理方法及装置 |
CN111581305A (zh) * | 2020-05-18 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 特征处理方法、装置、电子设备和介质 |
CN111581305B (zh) * | 2020-05-18 | 2023-08-08 | 抖音视界有限公司 | 特征处理方法、装置、电子设备和介质 |
CN111752967A (zh) * | 2020-06-12 | 2020-10-09 | 第四范式(北京)技术有限公司 | 基于sql的数据处理方法、装置、电子设备和存储介质 |
CN111859928A (zh) * | 2020-07-30 | 2020-10-30 | 网易传媒科技(北京)有限公司 | 特征处理方法、装置、介质和计算设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020259325A1 (zh) | 2020-12-30 |
CN110275889B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110275889A (zh) | 一种适用于机器学习的特征处理方法及装置 | |
CN109657138B (zh) | 一种视频推荐方法、装置、电子设备及存储介质 | |
CN110083623B (zh) | 一种业务规则生成方法及装置 | |
CN110765770A (zh) | 一种合同自动生成方法及装置 | |
CN109948710B (zh) | 基于api相似度的微服务识别方法 | |
CN107688591B (zh) | 一种精算处理方法和装置 | |
KR102104316B1 (ko) | 뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법 | |
WO2020034880A1 (zh) | 物流对象信息处理方法、装置及计算机系统 | |
CN110990529B (zh) | 企业的行业明细划分方法及系统 | |
CN115547466B (zh) | 基于大数据的医疗机构登记评审系统及其方法 | |
CN111831629A (zh) | 一种数据处理方法及装置 | |
CN110852559A (zh) | 资源的分配方法和装置、存储介质、电子装置 | |
CN110969172A (zh) | 一种文本的分类方法以及相关设备 | |
CN116090867A (zh) | 指标规则生成方法、装置、电子设备及存储介质 | |
CN114860941A (zh) | 一种基于数据大脑的行业数据治理方法及系统 | |
US9830377B1 (en) | Methods and systems for hierarchical blocking | |
CN112101891B (zh) | 一种应用于项目申报系统中的数据处理方法 | |
CN107871055A (zh) | 一种数据分析方法和装置 | |
CN114021005A (zh) | 网点信息查询方法、装置、设备及存储介质 | |
CN107729330A (zh) | 获取数据集的方法和装置 | |
CN116362589B (zh) | 一种质量工作考核评价方法 | |
CN113434273B (zh) | 数据处理方法、装置、系统及存储介质 | |
JPH1196132A (ja) | 分類予測装置およびそのコンピュータプログラムを記憶した記憶媒体 | |
CN114092057A (zh) | 一种项目模型的构建方法、装置、终端设备和存储介质 | |
CN115422000A (zh) | 异常日志处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |