CN112347102A - 多表拼接方法和多表拼接装置 - Google Patents
多表拼接方法和多表拼接装置 Download PDFInfo
- Publication number
- CN112347102A CN112347102A CN202011211583.4A CN202011211583A CN112347102A CN 112347102 A CN112347102 A CN 112347102A CN 202011211583 A CN202011211583 A CN 202011211583A CN 112347102 A CN112347102 A CN 112347102A
- Authority
- CN
- China
- Prior art keywords
- sub
- main
- data
- auxiliary
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000010276 construction Methods 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 33
- 238000012216 screening Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000002776 aggregation Effects 0.000 claims description 30
- 238000004220 aggregation Methods 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 9
- 238000007637 random forest analysis Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种多表拼接方法和多表拼接装置,其中,多表拼接方法包括:获取主表以及与主表关联的至少一个副表;获取主表与每个副表之间的表关系;对于至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表,以及对该对应的构造表进行特征选择处理,得到对应的特征筛选表;将至少一个副表分别对应的特征筛选表与主表拼接,得到宽表。利用本公开的技术方案,执行多表拼接可得到数据量减小的构造表,进而可提高后续数据分析的效率。
Description
技术领域
本公开涉及计算机技术领域,更具体地讲,涉及多表拼接方法和多表拼接装置。
背景技术
在现阶段涉及大数据的相关应用中,通常需要借助人工智能模型对大数据进行分析。而在利用人工智能模型分析大数据的过程中,需要涉及大量表格数据操作,其中,多表拼接是所述表格数据操作中不可缺少的一个环节,具体地,所述多表拼接是指将分散的表聚合在一起,通过所述多表拼接后,可以将多个表的业务信息汇集在一张表中,便于后续的分析应用。
但是在相关技术中,经过所述多表拼接后得到的宽表中往往存在数据量太大的问题,不利于后续的数据分析。
发明内容
本公开提供了多表拼接方法和多表拼接装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开示例性实施例的一个方面,提供一种多表拼接方法,其中,所述多表拼接方法包括:获取主表以及与所述主表关联的至少一个副表;获取主表与每个副表之间的表关系;对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表,以及对该对应的构造表进行特征选择处理,得到对应的特征筛选表;将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。
可选地,所述表关系包括连接键和表连接关系,其中,所述表连接关系为所述主表与每个副表之间的连接键的对应关系,包括一对一或者一对多。
可选地,在所述对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤之前,所述多表拼接方法还包括:对于所述至少一个副表中的每个副表,在所述主表和该副表都包括时间列的情况下,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表;基于过滤后的副表,执行所述在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤。
可选地,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表的步骤包括:以所述主表的时间列作为主时间列,以该副表的时间列作为副时间列,基于所述连接键将主表中的所述主时间列拼接至该副表;对于该副表中的每一行,判断副时间列与主时间列中对应时间的大小关系,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据,最终得到过滤后的副表。
可选地,对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表的步骤包括:判断所述主表和该副表之间的连接键的对应关系为一对一还是一对多,在所述主表和该副表之间的连接键的对应关系为一对一的情况下,确定该副表本身即为该副表对应的构造表;在所述主表和该副表之间的连接键的对应关系为一对多的情况下,对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征;基于所述连接键拼接每个聚合特征,得到该副表对应的构造表。
可选地,所述对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征的步骤包括:对于每个连接键,在该副表中找到该连接键对应的所有的一行或多行数据;对于所述一行或多行数据中的每个离散型数据列,统计每种离散取值的出现次数,得到该连接键对应的至少一个第一聚合特征;对于所述一行或多行数据中的每个连续型数据列,统计至少一个数理统计值,得到该连接键对应的至少一个第二聚合特征。
可选地,所述对该对应的构造表进行特征选择处理,得到对应的特征筛选表的步骤包括:基于所述连接键将所述主表的标签列拼接至该对应的构造表中,并以该对应的构造表中的标签列作为数据标签列,以连接键列为样本标识列,以标签列和连接键列以外的各列作为样本特征列,得到第一数据集;基于第一数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分;打乱该对应的构造表中的标签列的顺序,得到第二数据集;基于第二数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第二特征重要性评分;计算该对应的构造表中的各样本特征列各自的第一特征重要性评分和第二特征重要性评分的差值,并按照差值大小进行排序;从该对应的构造表中,删除所述差值小于预设值的各样本特征列,得到特征筛选表。
可选地,该方法在所述按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分的步骤之前,还包括:将该对应的构造表中的字符串型变量转换为数值型变量。
可选地,该方法在所述按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分的步骤之前,还包括:在该对应的构造表中存在时间列的情况下,分解所述时间列,得到多个关于时间的数值列。
根据本公开示例性实施例的另一个方面,提供一种多表拼接装置,其中,所述多表拼接装置包括:获取单元,被配置为:获取主表以及与所述主表关联的至少一个副表,以及获取主表与每个副表之间的表关系;预处理单元,被配置为:对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表;选择单元,被配置为:对该对应的构造表进行特征选择处理,得到对应的特征筛选表;拼接单元,被配置为:将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。
可选地,所述表关系包括连接键和表连接关系,其中,所述表连接关系为所述主表与每个副表之间的连接键的对应关系,包括一对一或者一对多。
可选地,预处理单元被配置为:对于所述至少一个副表中的每个副表,在所述主表和该副表都包括时间列的情况下,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表;基于过滤后的副表,执行所述在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤。
可选地,预处理单元被配置为:以所述主表的时间列作为主时间列,以该副表的时间列作为副时间列,基于所述连接键将主表中的所述主时间列拼接至该副表;对于该副表中的每一行,判断副时间列与主时间列中对应时间的大小关系,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据,最终得到过滤后的副表。
可选地,预处理单元被配置为:判断所述主表和该副表之间的连接键的对应关系为一对一还是一对多,在所述主表和该副表之间的连接键的对应关系为一对一的情况下,确定该副表本身即为该副表对应的构造表;在所述主表和该副表之间的连接键的对应关系为一对多的情况下,对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征;基于所述连接键拼接每个聚合特征,得到该副表对应的构造表。
可选地,预处理单元被配置为:对于每个连接键,在该副表中找到该连接键对应的所有的一行或多行数据;对于所述一行或多行数据中的每个离散型数据列,统计每种离散取值的出现次数,得到该连接键对应的至少一个第一聚合特征;对于所述一行或多行数据中的每个连续型数据列,统计至少一个数理统计值,得到该连接键对应的至少一个第二聚合特征。
可选地,选择单元被配置为:基于所述连接键将所述主表的标签列拼接至该对应的构造表中,并以该对应的构造表中的标签列作为数据标签列,以连接键列为样本标识列,以标签列和连接键列以外的各列作为样本特征列,得到第一数据集;基于第一数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分;打乱该对应的构造表中的标签列的顺序,得到第二数据集;基于第二数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第二特征重要性评分;计算该对应的构造表中的各样本特征列各自的第一特征重要性评分和第二特征重要性评分的差值,并按照差值大小进行排序;从该对应的构造表中,删除所述差值小于预设值的各样本特征列,得到特征筛选表。
可选地,预处理单元还被配置为:在该对应的构造表中存在时间列的情况下,分解所述时间列,得到多个关于时间的数值列。
根据本公开示例性实施例的又一个方面,提供一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时,实现本公开所述的多表拼接方法。
根据本公开示例性实施例的再一个方面,提供一种电子设备,其中,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行本公开所述的多表拼接方法。
本公开的有益技术效果:
利用本公开提供的多表拼接方法,可在进行多表拼接之前,先基于连接键对副表进行聚合、以及基于主表与副表的时间相关性对副表进行数据过滤,从而得到数据量减小、消除数据穿越的构造表;然后对所述构造表进行特征重要性选择,得到特征筛选表,最后将所述特征筛选表拼接到主表得到宽表,从而提高后续数据分析的效率以及保证分析结果的有效性。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本公开的示例性实施例的多表拼接方法的流程图;
图2是示出根据本公开的示例性实施例的多表拼接装置的框图;
图3是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中的主表示意图;
图4是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中的副表-用户基本信息表的示意图;
图5是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中的副表-银行流水表的示意图;
图6a和6b是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图5所示副表进行数据过滤的中间过程示意图;
图7是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图5所示副表进行预处理得到的构造表的示意图;
图8a至8b是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图7所示的构造表进行特征筛选得到特征筛选表的中间过程示意图;
图8c至8d是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图4所示的用户基本信息表作为构造表进行特征筛选得到特征筛选表的中间过程示意图;
图9是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图4和图7所示的构造表进行特征筛选得到的特征筛选表的示意图;
图10是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,将图9所示特征筛选表拼接到图3所示主表,得到的宽表的示意图。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,本领域已知的特征的描述可被省略。
在此描述的特征可以以不同的形式来实现,而不应被解释为限于在此描述的示例。相反,已提供在此描述的示例,以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式,所述许多可行方式在理解本申请的公开之后将是清楚的。
在此使用的术语仅用于描述各种示例,并不将用于限制公开。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义,并且不应被理想化或过于形式化地解释。
此外,在示例的描述中,当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时,将省略这样的详细描述。
在下文中,将参照附图详细描述实施例。然而,实施例可以以各种形式实现,并且不限于在此描述的示例。
为了解决上述背景技术部分提及的技术问题,本公开的发明人经过对相关技术进行反复研究,发现了导致上述技术问题的原因,具体如下:
相关技术中,涉及的多表拼接技术方案主要包括直接将副表拼接到主表,或者只对副表进行简单的聚合后直接拼接到主表。
由于原始的副表中可能数据量庞大,对于主表而言包括一些不必要的冗余数据,因此采用上述相关技术中的多表拼接操作,会造成拼接后得到的宽表的数据量太大,从而导致后续的数据分析效率很低。
另外,在主表和待拼接的副表中均包括时间列的情况下,没有考虑主表与副表的时间相关性,直接将副表中时间大于主表时间的数据行的数据也拼接到主表中,从而导致数据穿越,即实际对于主表而言,这些副表中时间大于主表时间的数据应该是未知的。
基于上述原因,发明人想到,可以在进行多表拼接之前,先对副表进行处理。所述处理可以为更细化的聚合、基于主表与副表的时间相关性对副表进行数据过滤,从而得到数据量减小、消除数据穿越的构造表,然后所述构造表拼接到主表,以提高后续数据分析的效率,以及保证分析结果的有效性。
有鉴于此,根据本公开示例性实施例的一个方面,提供一种多表拼接方法,所述多表拼接方法可由下文将描述的多表拼接装置执行。
本公开的技术方案的应用场景包括但不限于金融机构(例如,银行)预测用户是否会逾期还款。具体地,在银行预测用户是否会逾期还款的应用场景中,可采用本公开提供的多表拼接方法和/装置,获取用户在申请贷款时间之前的银行流水数据,基于这些数据评估该用户的还款能力,以最终决定是否要在用户申请的贷款时间放贷给该用户。
图1是示出根据本公开的示例性实施例的多表拼接方法的流程图。参照图1,本公开所述多表拼接方法包括步骤S110至步骤S140。
具体地,在步骤S110中,获取主表以及与所述主表关联的至少一个副表;在步骤S120中,获取主表与每个副表之间的表关系。
如能理解的,可以通过多种适用的方式执行上述步骤S110或S120中的“获取”操作。例如,可由多表拼接装置向数据存储服务端发送请求,所述请求可以为请求获取“主表以及与所述主表关联的至少一个副表”以及“主表与每个副表之间的表关系”。由数据存储服务端响应于所述请求向多表拼接装置推送“主表以及与所述主表关联的至少一个副表”以及“主表与每个副表之间的表关系”。或者,多表拼接装置可只从数据存储服务端接收“主表以及与所述主表关联的至少一个副表”,然后将从数据存储服务端接收到的“主表以及与所述主表关联的至少一个副表”发送给独立的数据处理服务端。由该数据处理服务端分析所述主表与每个副表之间的表关系,然后将结果返回给该多表拼接装置。
在一个可选地实施方式中,所述表关系包括连接键和表连接关系,其中,所述表连接关系为所述主表与每个副表之间的连接键的对应关系,包括一对一或者一对多。
根据情况,所述连接键可以为表征数据表中每行数据唯一性的标识。即,通过该标识可确定数据表中每行数据的从属关系,便于数据管理以及后续将执行的表拼接操作。
图3是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中的主表示意图。图4是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中的副表-用户基本信息表的示意图。图5是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中的副表-银行流水表的示意图。
参照图3,在主表中连接键为用户标识,即,该标识所在数据行的数据属于该用户。例如,用户标识“966685f4d34386f3ea23cbb72d01cd94”所在数据行的数据(例如,贷款时间字段对应的时间戳59238414877以及标签1)属于该标识对应的用户。
参照图4,该副表是用户基本信息表,包括如下字段:用户标识、性别、职业、教育程度、婚姻状态、户口类型。用户标识为连接键,主表中连接键与用户基本信息表中连接键的对应关系为一对一,即表连接关系为一对一。参照图5,该副表是银行流水表,包括如下字段:用户标识、流水时间、交易类型、交易金额和工资收入标记。主表中连接键与银行交易流水表中连接键与的对应关系为一对多,即表连接关系为一对多。
在步骤S130中,对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表,以及对该对应的构造表进行特征选择处理,得到对应的特征筛选表。
可通过多种适用的方式实施执行对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表的步骤。例如,在一个可选地实施方式中,可先判断所述主表和该副表之间的连接键的对应关系为一对一还是一对多,然后根据情况,在所述主表和该副表之间的连接键的对应关系为一对一的情况下,确定该副表本身即为该副表对应的构造表;在所述主表和该副表之间的连接键的对应关系为一对多的情况下,对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征;最后基于所述连接键拼接每个聚合特征,得到该副表对应的构造表。
对于所述主表和该副表之间的连接键的对应关系为一对一的情况,参照图4,该副表为用户的基本信息表。具体地,每行的连接键为用户标识,每行的用户标识与其它行不同,并且该副表中记录的每个用户标识与主表中记录的相应用户标识的对应关系均为一对一,因此该副表中的数据相对于主表而言,数据量较少,结构比较简化,因此可直接作为构造表。
上述主表与副表之间连接键的对应关系为“一对一”可以参照图4理解。具体地,图3所示主表中记录的用户标识“eddcaa8984f8db5199ec28323efb18a4、966685f4d34386f3ea23cbb72d01cd94、65b01fba105ee82613babff7c88929c5、d721497ae58b1ab5164d1b39263248c0、e69cf2ce4683229904f05fc4c8c7a003”,分别与图4所示副表中记录的用户标识“eddcaa8984f8db5199ec28323efb18a4、966685f4d34386f3ea23cbb72d01cd94、65b01fba105ee82613babff7c88929c5、d721497ae58b1ab5164d1b39263248c0、e69cf2ce4683229904f05fc4c8c7a003”呈一一对应关系。
对于所述主表和该副表之间的连接键的对应关系为一对多的情况,参照图5,该副表为用户的银行流水表。具体地,每行的连接键为用户标识,该副表中,每个用户标识对应的用户可存在多条银行流水数据,即有多行数据的用户标识是相同的,从而与主表中用户标识形成一对多的情况。
例如,参照图5,该副表中用户标识“966685f4d34386f3ea23cbb72d01cd94”对应的有5行数据;用户标识“65b01fba105ee82613babff7c88929c5”对应的有4行数据,对于该用户标识,主表与副表的对应关系为1对4;用户标识“eddcaa8984f8db5199ec28323efb18a4”对应的有5行数据;用户标识“d721497ae58b1ab5164d1b39263248c0”对应的有3行数据;用户标识“e69cf2ce4683229904f05fc4c8c7a003”对应的有4行数据。图3示出的主表与该副表之间对应上述用户标识的对应关系分别为1对5、1对4、1对5、1对3以及1对4。
如上所述,如果直接将图5所示的对应同一用户标识的数据直接拼接到图3所示的主表中,会导致主表的数据量大幅增加,不利于数据分析,因此需要对副表中的数据进行聚合,降低数据量,得到构造表。
可通过任何可用的实施方式,执行上述对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征的步骤。
例如,在一个可选地实施方式中,对于每个连接键,在该副表中找到该连接键对应的所有的一行或多行数据;对于所述一行或多行数据中的每个离散型数据列,统计每种离散取值的出现次数,得到该连接键对应的至少一个第一聚合特征;对于所述一行或多行数据中的每个连续型数据列,统计至少一个数理统计值,得到该连接键对应的至少一个第二聚合特征。
参照图5,所述连接键为用户标识,可通过该用户标识作为数据查询的索引,以在该副表中找到每个用户标识对应的所有的一行或多行数据。具体地,该副表中有5个用户标识,用户标识“966685f4d34386f3ea23cbb72d01cd94”对应有5行数据;用户标识“65b01fba105ee82613babff7c88929c5”对应有4行数据;用户标识“eddcaa8984f8db5199ec28323efb18a4”对应有5行数据;用户标识“d721497ae58b1ab5164d1b39263248c0”对应有3行数据;用户标识“e69cf2ce4683229904f05fc4c8c7a003”对应有4行数据。
在图5所示的实施方式中,交易类型和工资收入标记属于离散型数据列,流水时间和交易金额为连续型数据列。
图7是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图5所示副表进行预处理得到的构造表的示意图。
参照图5、图7,对于所述一行或多行数据中的每个离散型数据列,可基于每个离散型数据列中的离散取值的种类确定第一类统计字段。例如,交易类型的离散取值包括数据包括0和1,则关于交易类型的第一类统计字段可确定为“交易类型0”和“交易类型1”;或者,工资收入标记的离散取值包括0和1,则关于工资收入标记的第一类统计字段可确定为“工资收入标记0”和“工资收入标记1”。
结合图5、图7,以统计用户标识“966685f4d34386f3ea23cbb72d01cd94”的离散型数据列中数据为例,统计各离散型数据列中每种离散取值的出现次数,即可实现为基于上述的第一类统计字段进行统计。具体地,统计“交易类型0”的统计值为2、“交易类型1”的统计值为3、“工资收入标记0”的统计值为5以及“工资收入标记1”的统计值为0,每个统计值即为对应该用户标识的一个第一聚合特征。
参照图5、图7,对于所述一行或多行数据中的每个连续型数据列,也可基于需要的数理统计的类型确定对应的第二类统计字段。例如,对交易金额的数理统计可包括计算平均值、求最大值以及最小值,则关于交易金额的第二类统计字段可确定为“交易金额最大值”、“交易金额最小值”以及“交易金额平均值”;或者,流水时间的数理统计可以为求最早的时间,则关于流水时间的第二类统计字段可确定为“流水时间最小值”。
结合图5、图7,以统计用户标识“966685f4d34386f3ea23cbb72d01cd94”的连续型数据列中数据为例,统计至少一个数理统计值,即可实现为基于上述的第二类统计字段进行统计。具体地,统计“交易金额最大值”、“交易金额最小值”以及“交易金额平均值”的统计值分别为46.313934、41.866171以及44.9485548;统计“流水时间最小值”的统计值为58943163877;每个统计值即为对应该用户标识的一个第二聚合特征。
在图5所示的实施方式中,可以每个用户标识作为连接键,将对应同一用户标识的第一聚合特征和第二聚合特征拼接,从而得到如图7所示的对应图5所示副表的构造表。
基于上述实施方式,对比图5和图7可知,通过数据聚合可以简化原始副表的数据量,得到数据量较少的构造表,从而便于数据分析。
需要说明的是,本公开对上述“数理统计”不做限定,可根据需求调整。例如除上述的“求平均值、最大值、最小值”之外,还可包括求方差、标准差、中位数等。
在一个可选地实施方式中,在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤之前,所述多表拼接方法还包括:对于所述至少一个副表中的每个副表,在所述主表和该副表都包括时间列的情况下,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表;基于过滤后的副表,执行所述在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤。
可通过任何可用的方式执行基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表的步骤。
例如,可以所述主表的时间列作为主时间列,以该副表的时间列作为副时间列,基于所述连接键将主表中的所述主时间列拼接至该副表;对于该副表中的每一行,判断副时间列与主时间列中对应时间的大小关系,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据,最终得到过滤后的副表。
图6a和6b是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图5所示副表进行数据过滤的中间过程示意图。
参照图3和图5,将贷款时间列作为主时间列,用户的流水时间作为副时间列,以用户标识作为连接键。基于所述用户标识将所述主时间列拼接至图5所示的副表中,得到如图6a所示的拼接有主时间列的副表。
具体地,在图3中,用户标识“966685f4d34386f3ea23cbb72d01cd94”对应的贷款时间为“59238414877”,在图5所示的副表中,用户标识“966685f4d34386f3ea23cbb72d01cd94”对应多行数据,因此需要将贷款时间“59238414877”写入用户标识“966685f4d34386f3ea23cbb72d01cd94”对应多行数据中的每一行,以得到如图6a所示的拼接有主时间列的副表。
基于图6a所示的拼接有主时间列的副表,针对每个用户标识对应的多行数据,逐行判断副时间列与主时间列中对应时间的大小关系。
容易理解的是,可通过任何可用方式实现逐行判断副时间列与主时间列中对应时间的大小关系。例如,由于表中记录的时间戳为数值型变量,因此可通过计算同一数据行的两个时间戳之间的数值大小关系,确定副时间列与主时间列中对应时间的大小关系。
根据情况,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据。例如,参照图6a,副时间列中加粗的时间(59875535647、59775645987、59875535647、59775645987以及59875535647)均大于主时间列中对应的时间,因此删除对应的数据行,然后删除拼接过来的主时间列,最终得到如图6b所示的过滤后的副表。
在一个优选地实施方式中,可基于该图6b所示的过滤后的副表,执行上述“聚合”,得到对应的构造表,例如图7所示的构造表。具体的聚合方式与前述部分描述的聚合方式类似,这里不再赘述。
本公开的技术方案可通过任何可用的方式,实现所述对该对应的构造表进行特征选择处理,得到对应的特征筛选表的步骤。
例如,在一个可选地实施方式中,可通过以下步骤S1至S6实现所述对该对应的构造表进行特征选择处理。具体地,
步骤S1、可基于所述连接键将所述主表的标签列拼接至该对应的构造表中,并以该对应的构造表中的标签列作为数据标签列,以连接键列为样本标识列,以标签列和连接键列以外的各列作为样本特征列,得到第一数据集。
在步骤S1中,参照图3,主表中包含标签列,在上述的预测用户逾期还款的场景中,所述标签可以表示用户预期还款的可能性。例如,标签列中标签值1、2、3以及4可分别表示用户预期还款的概率为25%、50%、75%以及100%。
图8a至8b是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图7所示的构造表进行特征筛选得到特征筛选表的中间过程示意图。图8c至8d是示出根据本公开的示例性实施例的预测用户是否会逾期还款的场景中,对图4所示的用户基本信息表作为构造表进行特征筛选得到特征筛选表的中间过程示意图。
基于用户标识,将图3所示主表的标签列拼接至图7所示的构造表中,得到图8a所示的拼接有标签列的构造表;或者,将图3所示主表的标签列拼接至图4所示的构造表中,得到图8c所示的拼接有标签列的构造表;图8a、8c所示的拼接有标签列的构造表,即可作为所述第一数据集。
其中,参照图8a,用户标识列为样本标识列,标签列为数据标签列,样本特征列包括流水时间最小值、交易类型0、交易类型1、交易金额最大值、交易金额最小值、交易金额平均值、工资收入标记0、工资收入标记1。其中,交易类型0可表示银行卡交易、交易类型1可表示微信交易;工资收入标记0可表示月薪,工资收入标记1可表示周薪。
参照图8c,用户标识列为样本标识列,标签列为数据标签列,样本特征列包括性别、职业、教育程度、婚姻状态、户口类型。各样本特征列中的特征值具有相应的含义,例如,职业样本特征列中特征值2可表示该用户的职业为医生;教育程度样本特征列中特征值2和4,可分别表示用户教育程度为大专和硕士;婚姻状态样本特征列中特征值1、3可分别表示用户的婚姻状态为未婚和已婚;户口类型样本特征列中特征值1、2以及4可分别表示用户的户口状态为城镇居民家庭户、城镇居民集体户以及农村居民家庭户。
参照图8c,由于性别样本特征列中记录的是“男、女”这样的字符字符串型变量,其不便于数据的分析和计算。因此,在一个可选地实施方式中,可将该对应的构造表中的字符串型变量转换为数值型变量。例如,用数字1表示性别“男”,用数字0表示性别“女”。
以上参照图8a、8c的描述仅为本公开示例,本公开对各样本特征列中涉及的具体数字、指标的含义不做限定,可根据需求调整。
另外,可选地,在该对应的构造表中存在时间列的情况下,分解所述时间列,得到多个关于时间的数值列(附图中未示出)。
对时间列进行分解,得到的多个关于时间的数值列,可提升数据时间维度的刻画精度,并且分解后的关于时间的数值列作为样本特征列,参与到后续将执行的特征选择。
例如,时间列中某一行的时间,从时间戳形式“58943163877”转换为字符串形式为“3837-11-01 21:04:37”,即表示3837年11月01日晚上9点零4分37秒,分解后可以得到“3837-11-01 21:04:37”可得到形如“3837”、“11”、“01”、“21”、“04”以及“37”的关于时间的样本特征值。这些样本特征可基于用户标识与其他样本特征值拼接,从而形成一条样本数据。
步骤S2、基于第一数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分。
如能理解的,可通过多种可用的方式实现上述步骤S2。例如,通过训练随机森林模型来得到所述构造表中的各样本特征列的第一特征重要性评分。
具体地,首先需要说明的是,作为第一数据集的所述构造性表(例如,图8a或图8c)的每一行即为一条样本数据,每一行中的标签列的值为对应样本数据的标签,每一行中的除标签列和连接键列以外的各列的值为对应样本数据的各特征值。
基于此,可以将第一数据集中包括的多条样本数据,输入到初始的随机森林模型,进行预设迭代次数训练,得到第一随机森林模型;然后分析第一随机森林模型中每个决策树的每个节点(这里所述“节点”表示基于某个样本特征列执行分裂而形成的决策树的多个分支的连接点。即,一个节点对应构造表中一个样本特征列),分别计算每个节点(样本特征列)在随机森林中每个决策树上所做的贡献度,然后计算每个节点的贡献度平均值,作为对应节点的第一重要性评分,从而得到每个节点的第一重要性评分,即得到对应的构造表中的各样本特征列的第一特征重要性评分。
其中,本公开对所述预设迭代次数不做限定,可根据需求而定,例如可以为1000次。上述随机森林模型还可适应性的替换为其他机器学习模型,例如GBDT模型、Lightgbm模型、xgboost模型以及Adaboost模型。
步骤S3、打乱该对应的构造表中的标签列的顺序,得到第二数据集。
根据情况,可以采用预设算法随机打乱标签列的顺序。例如,基于图8a,在其他列的顺序不变的情况下,标签列的顺序从“1,2,3,3,4”变为“2,3,1,4,3”,得到图8b所示拼接有打乱顺序的标签列的数据表。类似的,基于图8c,在其他列的顺序不变的情况下,标签列的顺序从“1,2,3,3,4”变为“2,3,1,4,3”,得到图8d所示拼接有打乱顺序的标签列的数据表。
以上图8b、8d所示的拼接有打乱顺序的标签列的数据表,均可作为所述第二数据集。需要说明的是,所述第二数据集与所述第一数据集的区别仅在于标签列的顺序不同。
步骤S4、基于第二数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第二特征重要性评分。
该步骤的实施与步骤S2的不同之处仅在于采用了第二数据集。
步骤S5、计算该对应的构造表中的各样本特征列各自的第一特征重要性评分和第二特征重要性评分的差值,并按照差值大小进行排序。
参照图8a、8b,执行步骤S2后,得到各样本特征{流水时间最小值、交易类型0、交易类型1、交易金额最大值、交易金额最小值、交易金额平均值、工资收入标记0、工资收入标记1}的第一特征重要性评分分别为20、20、30、80、85、90、30、25。
执行步骤S4后,得到各样本特征{流水时间最小值、交易类型0、交易类型1、交易金额最大值、交易金额最小值、交易金额平均值、工资收入标记0、工资收入标记1}的第二特征重要性评分分别为25、15、35、20、35、30、35、20。
执行步骤S5,得到第一特征重要性评分和第二特征重要性评分的差值的绝对值为5、5、5、60、50、60、5、5。按照大小排序确定各样本特征的重要性排序为{交易金额最大值、交易金额平均值、交易金额最小、流水时间最小值、交易类型0、交易类型1、工资收入标记0、工资收入标记1}。
步骤S6、从该对应的构造表中,删除所述差值小于预设值的各样本特征列,得到特征筛选表。
需要说明的是,所述预设值可以根据需求调整,不做具体限定,例如可以为45。参照图8a、8b,执行步骤S6,可删除样本特征{流水时间最小值、交易类型0、交易类型1、工资收入标记0、工资收入标记1},只保留样本特征{交易金额最大值、交易金额平均值、交易金额最小},得到如图9所示的特征筛选表。即表明用户的交易金额相关的样本特征对判断其是否会逾期还款的影响较大。
下面就上述步骤S1至S4的原理进行说明。
以随机森林模型为例,作为构成训练用数据集的标签列和样本特征列,标签列的顺序会影响各特征的重要性评分。具体地,在标签列没有打乱顺序的前提下,标签列中每行标签与特征列中对应的每行特征具有较高的相关性,此时,一个特征的重要性越高,则相应的特征重要性评分越高;而在标签列打乱顺序后,由于标签列中每行标签与特征列中对应的每行特征具有较低的相关性,就会导致各特征的特征重要性评分均降低。对于特征重要性相对较高的特征,其在标签列的顺序打乱前后两次特征重要性评分差距也相对较大;而对于特征重要性相对较低的特征,其在标签列的顺序打乱前后两次特征重要性评分差距相对较小。基于此,通过执行上述步骤S5“计算该对应的构造表中的各样本特征列各自的第一特征重要性评分和第二特征重要性评分的差值,并按照差值大小进行排序”,即可筛选出特征重要性较高的特征。
在步骤S140中,将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。
如能理解的,参照图3、图9,可基于用户标识将特征筛选表与所述主表拼接,得到如图10所示的宽表。所述宽表也可用作训练数据集,例如用于训练执行预测用户逾期还款概率的机器学习模型。
基于上文描述可知,利用本公开提供的多表拼接方法,可在进行多表拼接之前,先基于连接键对副表进行聚合、以及基于主表与副表的时间相关性对副表进行数据过滤,从而得到数据量减小、消除数据穿越的构造表;然后对所述构造表进行特征重要性选择,得到特征筛选表,最后将所述特征筛选表拼接到主表得到宽表,从而提高后续数据分析的效率以及保证分析结果的有效性。
根据本公开示例性实施例的另一个方面,提供一种用于主机设备的数据缓存装置,其中,参照图2,多表拼接装置200可包括获取单元210和预处理单元220、选择单元230和拼接单元240,各单元之间可通信地耦合。
获取单元210可被配置为:获取主表以及与所述主表关联的至少一个副表,以及获取主表与每个副表之间的表关系;预处理单元220可被配置为:对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表;选择单元230可被配置为:对该对应的构造表进行特征选择处理,得到对应的特征筛选表;拼接单元240可被配置为:将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。
可选地,所述表关系包括连接键和表连接关系,其中,所述表连接关系为所述主表与每个副表之间的连接键的对应关系,包括一对一或者一对多。
可选地,预处理单元220可被配置为:对于所述至少一个副表中的每个副表,在所述主表和该副表都包括时间列的情况下,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表;基于过滤后的副表,执行所述在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤。
可选地,预处理单元220可被配置为:以所述主表的时间列作为主时间列,以该副表的时间列作为副时间列,基于所述连接键将主表中的所述主时间列拼接至该副表;对于该副表中的每一行,判断副时间列与主时间列中对应时间的大小关系,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据,最终得到过滤后的副表。
可选地,预处理单元220可被配置为:判断所述主表和该副表之间的连接键的对应关系为一对一还是一对多,在所述主表和该副表之间的连接键的对应关系为一对一的情况下,确定该副表本身即为该副表对应的构造表;在所述主表和该副表之间的连接键的对应关系为一对多的情况下,对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征;基于所述连接键拼接每个聚合特征,得到该副表对应的构造表。
可选地,预处理单元220可被配置为:对于每个连接键,在该副表中找到该连接键对应的所有的一行或多行数据;对于所述一行或多行数据中的每个离散型数据列,统计每种离散取值的出现次数,得到该连接键对应的至少一个第一聚合特征;对于所述一行或多行数据中的每个连续型数据列,统计至少一个数理统计值,得到该连接键对应的至少一个第二聚合特征。
可选地,选择单元230可被配置为:基于所述连接键将所述主表的标签列拼接至该对应的构造表中,并以该对应的构造表中的标签列作为数据标签列,以连接键列为样本标识列,以标签列和连接键列以外的各列作为样本特征列,得到第一数据集;基于第一数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分;打乱该对应的构造表中的标签列的顺序,得到第二数据集;基于第二数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第二特征重要性评分;计算该对应的构造表中的各样本特征列各自的第一特征重要性评分和第二特征重要性评分的差值,并按照差值大小进行排序;从该对应的构造表中,删除所述差值小于预设值的各样本特征列,得到特征筛选表。
可选地,预处理单元220可还被配置为:在该对应的构造表中存在时间列的情况下,分解所述时间列,得到多个关于时间的数值列。
应理解,本公开前述关于多表拼接方法所描述的具体特征也可类似地应用于多表拼接装置中进行类似扩展。为简化起见,未对其进行详细描述。
应该理解,根据本公开的示例性实施例的多表拼接装置中的各个单元/模块可被实现为硬件组件和/或软件组件。本领域技术人员根据限定的各个单元/模块所执行的处理,可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元/模块。
根据本公开示例性实施例的再一个方面,提供一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时,实现本公开所述的多表拼接方法。
具体地,根据本公开的示例性实施例的多表拼接方法可被编写为计算机程序、代码段、指令或它们的任何组合,并被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。所述计算机可读存储介质是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读存储介质的示例包括:只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。
根据本公开示例性实施例的又一个方面,提供一种电子设备,其中,所述电子设备包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行本公开所述的多表拼接方法。
具体地,所述电子设备可以广义地为平板电脑、智能手机、智能手表,或任何其他具有必要的计算和/或处理能力的电子设备。在一个实施例中,该电子设备可包括通过系统总线连接的处理器、存储器、网络接口、通信接口等。该电子设备的处理器可用于提供必要的计算、处理和/或控制能力。该电子设备的存储器可包括非易失性存储介质和内存储器。该非易失性存储介质中或上可存储有操作系统、计算机程序等。该内存储器可为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口和通信接口可用于与外部的设备通过网络连接和通信。
综上所述,利用本公开提供的多表拼接方法和/或装置,可在进行多表拼接之前,先基于连接键对副表进行聚合、以及基于主表与副表的时间相关性对副表进行数据过滤,从而得到数据量减小、消除数据穿越的构造表;然后对所述构造表进行特征重要性选择,得到特征筛选表,最后将所述特征筛选表拼接到主表得到宽表,从而提高后续数据分析的效率、以及保证分析结果的有效性。
虽然已表示和描述了本公开的一些示例性实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下,可以对这些实施例进行修改。
Claims (10)
1.一种多表拼接方法,其特征在于,所述多表拼接方法包括:
获取主表以及与所述主表关联的至少一个副表;
获取主表与每个副表之间的表关系;
对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表,以及对该对应的构造表进行特征选择处理,得到对应的特征筛选表;
将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。
2.根据权利要求1所述的多表拼接方法,其特征在于,
所述表关系包括连接键和表连接关系,其中,所述表连接关系为所述主表与每个副表之间的连接键的对应关系,包括一对一或者一对多。
3.根据权利要求2所述的多表拼接方法,其特征在于,在所述对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤之前,所述多表拼接方法还包括:
对于所述至少一个副表中的每个副表,在所述主表和该副表都包括时间列的情况下,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表;
基于过滤后的副表,执行所述在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤。
4.根据权利要求3所述的多表拼接方法,其特征在于,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表的步骤包括:
以所述主表的时间列作为主时间列,以该副表的时间列作为副时间列,基于所述连接键将主表中的所述主时间列拼接至该副表;
对于该副表中的每一行,判断副时间列与主时间列中对应时间的大小关系,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据,最终得到过滤后的副表。
5.根据权利要求2所述的多表拼接方法,其特征在于,对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表的步骤包括:
判断所述主表和该副表之间的连接键的对应关系为一对一还是一对多,
在所述主表和该副表之间的连接键的对应关系为一对一的情况下,确定该副表本身即为该副表对应的构造表;
在所述主表和该副表之间的连接键的对应关系为一对多的情况下,对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征;
基于所述连接键拼接每个聚合特征,得到该副表对应的构造表。
6.根据权利要求5所述的多表拼接方法,其特征在于,所述对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征的步骤包括:
对于每个连接键,在该副表中找到该连接键对应的所有的一行或多行数据;
对于所述一行或多行数据中的每个离散型数据列,统计每种离散取值的出现次数,得到该连接键对应的至少一个第一聚合特征;
对于所述一行或多行数据中的每个连续型数据列,统计至少一个数理统计值,得到该连接键对应的至少一个第二聚合特征。
7.根据权利要求2所述的多表拼接方法,其特征在于,所述对该对应的构造表进行特征选择处理,得到对应的特征筛选表的步骤包括:
基于所述连接键将所述主表的标签列拼接至该对应的构造表中,并以该对应的构造表中的标签列作为数据标签列,以连接键列为样本标识列,以标签列和连接键列以外的各列作为样本特征列,得到第一数据集;
基于第一数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分;
打乱该对应的构造表中的标签列的顺序,得到第二数据集;
基于第二数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第二特征重要性评分;
计算该对应的构造表中的各样本特征列各自的第一特征重要性评分和第二特征重要性评分的差值,并按照差值大小进行排序;
从该对应的构造表中,删除所述差值小于预设值的各样本特征列,得到特征筛选表。
8.一种多表拼接装置,其特征在于,所述多表拼接装置包括:
获取单元,被配置为:获取主表以及与所述主表关联的至少一个副表,以及获取主表与每个副表之间的表关系;
预处理单元,被配置为:对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表;
选择单元,被配置为:对该对应的构造表进行特征选择处理,得到对应的特征筛选表;
拼接单元,被配置为:将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的多表拼接方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行权利要求1到7中的任一权利要求所述的多表拼接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011211583.4A CN112347102B (zh) | 2020-11-03 | 2020-11-03 | 多表拼接方法和多表拼接装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011211583.4A CN112347102B (zh) | 2020-11-03 | 2020-11-03 | 多表拼接方法和多表拼接装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347102A true CN112347102A (zh) | 2021-02-09 |
CN112347102B CN112347102B (zh) | 2024-05-07 |
Family
ID=74356879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011211583.4A Active CN112347102B (zh) | 2020-11-03 | 2020-11-03 | 多表拼接方法和多表拼接装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347102B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191825A (zh) * | 2021-05-26 | 2021-07-30 | 上海悟景信息科技有限公司 | 一种基于人工智能的客户画像模型建模方法、系统及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850927B1 (en) * | 2002-05-21 | 2005-02-01 | Oracle International Corporation | Evaluating queries with outer joins by categorizing and processing combinations of relationships between table records |
CN109739855A (zh) * | 2018-12-28 | 2019-05-10 | 第四范式(北京)技术有限公司 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
CN110955659A (zh) * | 2019-11-28 | 2020-04-03 | 第四范式(北京)技术有限公司 | 处理数据表的方法及系统 |
CN111460047A (zh) * | 2020-03-09 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于实体关系的特征构建方法、装置、设备及存储介质 |
CN111767277A (zh) * | 2020-07-08 | 2020-10-13 | 深延科技(北京)有限公司 | 数据处理方法和装置 |
-
2020
- 2020-11-03 CN CN202011211583.4A patent/CN112347102B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850927B1 (en) * | 2002-05-21 | 2005-02-01 | Oracle International Corporation | Evaluating queries with outer joins by categorizing and processing combinations of relationships between table records |
CN109739855A (zh) * | 2018-12-28 | 2019-05-10 | 第四范式(北京)技术有限公司 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
CN110955659A (zh) * | 2019-11-28 | 2020-04-03 | 第四范式(北京)技术有限公司 | 处理数据表的方法及系统 |
CN111460047A (zh) * | 2020-03-09 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于实体关系的特征构建方法、装置、设备及存储介质 |
CN111767277A (zh) * | 2020-07-08 | 2020-10-13 | 深延科技(北京)有限公司 | 数据处理方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191825A (zh) * | 2021-05-26 | 2021-07-30 | 上海悟景信息科技有限公司 | 一种基于人工智能的客户画像模型建模方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112347102B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180253657A1 (en) | Real-time credit risk management system | |
CN106897930A (zh) | 一种信用评估的方法及装置 | |
CN111681091A (zh) | 基于时间域信息的金融风险预测方法、装置及存储介质 | |
US11775504B2 (en) | Computer estimations based on statistical tree structures | |
CN111898675A (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN114357000A (zh) | 一种区块链交易数据检索系统、方法、设备及存储介质 | |
CN111695938B (zh) | 产品推送方法及系统 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
CN117081602B (zh) | 基于区块链的资金结算数据优化处理方法 | |
CN112347102B (zh) | 多表拼接方法和多表拼接装置 | |
CN117829994A (zh) | 一种基于图计算的洗钱风险分析方法 | |
CN112363996A (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN113988878A (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
US20210073247A1 (en) | System and method for machine learning architecture for interdependence detection | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN116308370A (zh) | 异常交易识别模型的训练方法、异常交易识别方法及装置 | |
CN112907254A (zh) | 欺诈交易识别、模型训练方法、装置、设备及存储介质 | |
CN113282686A (zh) | 一种不平衡样本的关联规则确定方法及装置 | |
CN113269179A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112927012A (zh) | 营销数据的处理方法及装置、营销模型的训练方法及装置 | |
CN113064597B (zh) | 一种冗余代码的识别方法、装置和设备 | |
CN112347146B (zh) | 一种索引推荐方法及装置 | |
CN113987309B (zh) | 个人隐私数据识别方法、装置、计算机设备及存储介质 | |
CN116611923A (zh) | 基于知识图谱的风险数据获取方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |