CN114817257A - 数据表关联生成及业务处理方法、装置、设备及存储介质 - Google Patents
数据表关联生成及业务处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114817257A CN114817257A CN202210432984.5A CN202210432984A CN114817257A CN 114817257 A CN114817257 A CN 114817257A CN 202210432984 A CN202210432984 A CN 202210432984A CN 114817257 A CN114817257 A CN 114817257A
- Authority
- CN
- China
- Prior art keywords
- data
- wide
- source
- association
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据表关联生成及业务处理方法、装置、设备及存储介质,数据表关联生成方法包括:读取多个源表的源表数据,确定所述源表数据中的关联字段;以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表;若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据表。本发明避免了在进行数据表关联时,计算机资源开销大的现象发生。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据表关联生成及业务处理方法、装置、设备及存储介质。
背景技术
大数据计算通常使用MapReduce(编程模型)、Hive(数据仓库工具)、和spark(计算引擎)等框架,这些计算框架在进行表格关联时,一般是以一个表格中的某个字段扫描另外一个表格中的所有字段,并且是表格中的所有字段都要进行至少一次扫描另外一个表格中的所有字段的操作,然后再构建关联后的表格,但是这种表格关联方式操作复杂,需要对表格内同样的字段进行多次扫描,造成计算机资源开销较大。
发明内容
本发明的主要目的在于提供一种数据表关联生成及业务处理方法、装置、设备及存储介质,旨在解决如何进行表格关联时,减少计算机资源开销的技术问题。
为实现上述目的,本发明提供一种数据表关联生成方法,包括以下步骤:
读取多个源表的源表数据,确定所述源表数据中的关联字段;
以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表;
若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据表。
可选地,若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据表的步骤,包括:
若所述宽表中仅存在一种关联字段且所述宽表中存在所述关联字段的值相同的若干条数据,则对所述若干条数据中的所述关联字段的值进行数据去重,并对所述若干条数据中除所述关联字段外的其他字段的值进行叠加,得到目标数据表;
若所述宽表中存在多种关联字段且所述宽表中存在各关联字段的值分别对应相同的若干条数据,则对所述若干条数据中的所述各关联字段的值进行数据去重,对所述若干条数据中除所述各关联字段外的其他字段的值进行叠加,得到目标数据表。
可选地,所述读取多个源表的源表数据的步骤,包括:
通过网络获取多个源表的源表数据。
可选地,以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表的步骤之后,还包括:
若所述宽表中所述关联字段的值不存在重复,或者,若所述宽表中存在多种关联字段且所述宽表中不存在各关联字段的值分别对应相同的若干条数据,将所述宽表作为所述目标数据表。
此外,为实现上述目的,本发明提供一种业务处理方法,包括以下步骤:
根据上述数据表关联生成方法,生成目标数据表;
获取业务需求,根据所述目标数据表执行所述业务需求对应的业务处理。
可选地,根据所述目标数据表执行所述业务需求对应的业务处理的步骤,包括:
基于所述业务需求确定所述目标数据表中新的关联字段,并对所述目标数据表中新的关联字段进行数据去重,得到新的目标数据表,根据所述新的目标数据表执行所述业务需求对应的业务处理。
此外,为实现上述目的,本发明还提供一种数据表关联生成装置,包括:
确定模块,用于读取多个源表的源表数据,确定所述源表数据中的关联字段;
合并模块,用于以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表;
数据去重模块,用于若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据。
此外,为实现上述目的,本发明还提供一种业务处理装置,包括:
如上述的数据表关联生成装置;
执行模块,用于获取业务需求,根据所述目标数据表执行所述业务需求对应的业务处理。
此外,为实现上述目的,本发明还提供一种设备,设备包括存储器、处理器及存储在存储器上并可在处理器上运行的数据表关联生成程序、和/或业务处理程序,数据表关联生成程序被处理器执行时实现如上述的数据表关联生成方法的步骤,业务处理程序被处理器执行时实现如上述的业务处理方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,存储介质上存储有数据表关联生成程序、和/或业务处理程序,数据表关联生成程序被处理器执行时实现如上述的数据表关联生成方法的步骤,业务处理程序被处理器执行时实现如上述的业务处理方法的步骤。
本发明通过读取多个源表的源表数据,再根据源表数据中的关联字段为各个源表数据的共用字段,将各个源表数据合并为宽表,从而可以实现仅仅只需要进行一次读取操作就获取到所有的源表数据,无需多次重复读取源表数据,并且是以关联字段为共用字段来合并宽表的,因此也可以从宽表中体现源表之间的关联性,并且当发现宽表中关联字段的值存在重复时,会对宽表中关联字段的值进行数据去重,以得到目标数据表,从而可以保障最终生成的目标数据表的简洁,并且整体生成目标数据表的流程相对简洁,无需进行多次重复读取操作,也避免了计算机资源开销大的现象发生。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图;
图2为本发明数据表关联生成方法第一实施例的流程示意图;
图3为本发明业务处理方法第三实施例的流程示意图;
图4为本发明数据表关联生成装置的装置模块示意图;
图5为本发明业务处理装置的装置模块示意图;
图6为本发明数据表关联生成方法中的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端为设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在终端设备移动到耳边时,关闭显示屏和/或背光。当然,终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据表关联生成及业务处理程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据表关联生成及业务处理程序,并执行以下操作:
参照图2,本发明提供一种数据表关联生成方法,在数据表关联生成方法的第一实施例中,数据表关联生成方法包括以下步骤:
步骤S10,读取多个源表的源表数据,确定所述源表数据中的关联字段;
目前进行表格关联时,需要对表格内同样的字段进行多次扫描,造成计算机资源开销较大。因此在本实施例中,先读取待参与关联的源表,即可以按照谓词下推策略读取网络中经过过滤后的多个源表中的数据,并将其作为源表数据。其中,谓词下推策略可以是尽可能早的处理表达式,属于逻辑优化,优化器将谓词过滤下推到数据源,使物理执行跳过无关数据。例如参与关联的表A存储了2021年一年的数据,而当前需要处理的只是1月份的数据(即查询条件中限制了时间范围在1月份),此时在源机器读数据时只挑选1月的数据,这样可以有效减少参与网络传输和关联运算的数据量,减少了计算机资源开销。
并且在获取到多个源表的源表数据后,需要确定源表数据中的关联字段,以便进行后续的关联处理,需要说明的是,关联字段为每个源表所共有的字段。例如,若获取到源表E和源表F这两个源表的源表数据,若根据源表数据检测发现源表E中存在字段c1,源表F也存在字段c1,则可以将字段c1作为关联字段。
步骤S20,以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表;
当确定关联字段后,就可以直接以关联字段为各个源表数据的共用字段进行合并处理。例如,参与关联的表A有字段列c1、c2、c3,表B有字段列c1、c4、c5。两个表用各自的c1字段列关联。其中,表A和表B如下表一所示。
表一
对表A和表B进行合并,得到宽表,例如,如下表二所示,并且,表二的中间处理行数为表A的记录行数3加上表B的记录行数4,即7行。
表二
也就是在获取到源表数据后,可以将读取的各个源表数据进行简单的并入集合,以得到宽表。并且宽表中包括关联字段,关联字段的值,A表字段,A表字段的值,B表字段,B表字段的值,不在A表出现的B表的字段的值置空,不在B表出现的A表的字段的值置空。
并且在确定宽表后,还需要对宽表中关联字段的值进行检测,当检测发现关联字段的值存在重复,则需要对关联字段的值进行数据去重处理,例如,上述表二中的关联字段c1,经检测发现关联字段c1的值存在重复,需要进行数据去重处理。但是若发现关联字段c1的值不存在重复,则可以直接将宽表作为最终生成的目标数据表。
步骤S30,若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据表。
当经过判断发现宽表中关联字段的值存在重复,则需要对宽表中关联字段的值进行数据去重,并且在对关联字段的值进行数据去重的同时,需要对宽表中其他字段的值进行叠加。例如,若宽表中关联字段c1的值中的第一行和第4行均为1,进行数据去重后,宽表中关联字段c1的值就只存在一个1了,与此同时宽表中c2、c3、c4和c5这四个字段的值也会同步进行叠加,如c2字段在第1行的值为x1,在第4行的值为空值,进行叠加后得到的值为x1。因此在对上述表二中关联字段的值进行数据去重,并对其它字段的值进行叠加后,就会得到目标数据表,如下表三所示:
c2 | c3 | c1 | c4 | c5 | |
1 | x1 | y1 | 1 | m1 | n1 |
2 | x2 | y2 | 2 | m2 | n2 |
3 | x3 | y3 | 3 | m3 | n3 |
7 | 4 | m4 | n4 |
表三
当构建好大表关联后的目标数据表后,就可以在此基础上进行业务处理,根据用户输入的业务需求和目标集合进行相应的业务处理。
此外,为辅助理解本实施例中的数据表管理生成执行方法流程的理解,下面进行举例说明。
例如,如图6所示,若通过网络获取的源表为两个表,分别是table A和table B,则可以对两个表采取同样的操作来获取相应的数据,即可以对table A进行谓词下推,取过滤后的结果,同时对table B进行谓词下推,取过滤后的结果。然后再用类似宽表的容器(即并集宽表)存放2个表的记录(此处无join),即存放table A和table B。然后对并集宽表中的集合按关联字段分组收敛,即把关键字段作为join后大宽表的唯一键,对非关键字段进行收敛。并且在收敛时,是取选择字段(此处取非空值就能把原A表值和原B表值合并为一条),其中,选择字段是选择除了关联字段之外的字段,比如,m表c1、c2,n表c1、c3,此时,c1为关联字段,c2和c3就是选择字段,若来源于m表记录的c3为空值,来源于n表的c2为空值,则在收敛时,对c2和c3取非空值。再按需要可选择做二次收敛,也可以不做二次收敛,并输出最终结果。其中,二次收敛是业务逻辑后的更粗粒度的汇总,不限于前面关联字段粒度。例如,若关联字段有a、b、c三个维度,业务需求为查看a维度的总量,就可以以a维度进行二次收敛。
在本实施例中,通过读取多个源表的源表数据,再根据源表数据中的关联字段为各个源表数据的共用字段,将各个源表数据合并为宽表,从而可以实现仅仅只需要进行一次读取操作就获取到所有的源表数据,无需多次重复读取源表数据,并且是以关联字段为共用字段来合并宽表的,因此也可以从宽表中体现源表之间的关联性,并且当发现宽表中关联字段的值存在重复时,会对宽表中关联字段的值进行数据去重,以得到目标数据表,从而可以保障最终生成的目标数据表的简洁,并且整体生成目标数据表的流程相对简洁,无需进行多次重复读取操作,也避免了计算机资源开销大的现象发生。
进一步地,基于上述本发明的第一实施例,提出本发明数据表关联生成方法的第二实施例,在本实施例中,上述实施例步骤S30,若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据表的步骤的细化,包括:
若所述宽表中仅存在一种关联字段且所述宽表中存在所述关联字段的值相同的若干条数据,则对所述若干条数据中的所述关联字段的值进行数据去重,并对所述若干条数据中除所述关联字段外的其他字段的值进行叠加,得到目标数据表;
在本实施例中,当将各个源表数据合并为宽表后,需要对宽表整体进行检测,确定合并的宽表是否为用户所需要的宽表,对宽表检测时,可以先检测宽表中关联字段存在多少种,若宽表中只存在一种关联字段,此时就可以直接对宽表中关联字段的值进行重复度检测,重复度检测的检测方式可以是将宽表中关联字段的某个值和宽表中关联字段的其它值进行比较,若一致,则确定关联字段的值存在重复,需要进行数据去重处理。也就是当宽表中仅存在一种关联字段,且该关联字段的值存在重复时,就确定需要对宽表进行相应的表格数据处理。其中,表格数据处理的处理方式可以是先确定关联字段的所有值,并根据各个不同值将宽表划分为多个数据组,其中,每个数据组中关联字段的值与其它数据组中关联字段的值不同。同一数据组内关联字段的值存在多个时,每个关联字段的值是相同的。然后可以并行对每个数据组进行相应的处理,即对每个数据组中关联字段的值进行数据去重,同时对该数据组内其他字段的值进行叠加,使得每个字段的值的数量都是相同的,并在检测到所有的数据组都已完成关联字段的值进行数据去重,并对其他字段的值进行叠加的操作后,就可以将其生成的数据表作为目标数据表。
若所述宽表中存在多种关联字段且所述宽表中存在各关联字段的值分别对应相同的若干条数据,则对所述若干条数据中的所述各关联字段的值进行数据去重,对所述若干条数据中除所述各关联字段外的其他字段的值进行叠加,得到目标数据表。
在本实施例中,还存在另一场景,即生成的宽表中存在多种关联字段,如两种关联字段,此时就可以将这两种关联字段作为一个整体进行重复度检测,在对宽表中关联字段的值进行重复度检测时,需要同时考虑所有的关联字段的值。当检测发现宽表中存在多种关联字段,且各个关联字段分别对应相同的若干条数据。需要对若干条数据中的各个关联字段的值进行数据去重,对其他字段的值进行叠加。例如,参与关联的表C有字段列w1、w2、w3,表D有字段列w1、w2、w5。两个表用各自的c1字段列关联。其中,表A和表B如下表四所示。
表四
对表C和表D进行合并,得到如下宽表,如表五所示。
表五
此时可以发现宽表中存在多种关联字段,即w1和w2,且存在各关联字段的值分别对应相同的若干条数据,如第1行数据和第2行数据;其中,每行数据是一条数据。此时就需要对第1行数据和第二数据中的各个关联字段的值进行数据去重,对其他字段的值进行叠加,得到目标数据表,如表六所示。
w3 | w2 | w1 | w5 | |
1 | y1 | 11 | 10 | n1 |
3 | 400 | 40 | n4 |
表六
在本实施例中,通过在宽表中仅存在一种关联字段且关联字段的值存在重复时,将宽表划分为多个数据组,再对数据组中关联字段的值进行数据去重,其他字段的值进行叠加,得到目标数据表,或者是在宽表中存在多种关联字段且宽表中各关联字段的值分别对应相同的若干条数据,则对若干条数据中的各个关联字段的值进行数据去重,若干条数据中除各关联字段外的其他字段的值进行叠加,得到目标数据表,从而保障了获取得到的目标数据表的简洁性。
进一步地,读取多个源表的源表数据的步骤,包括:
通过网络获取多个源表的源表数据。
此外,由于在大表关联时会造成大量数据走网络传输分配到计算节点,大量网络资源占用导致网络堵塞,以及基本都是以一个表为基准,去扫描匹配另个表,造成超多次扫描读取。因此在本实施例的一场景中,读取源表的源表数据可以是从网络中进行一次获取的,无需多次获取的,其获取方式可以是通过无线网络获取,也可以是通过有线网络获取,具体地,在此不做限制。并且在通过网络获取多个源表的源表数据时,可以先确定需求信息,该需求信息可以是业务需求,也可以是非业务需求,如检测实验的需求等等。然后再通过网络获取数据仓库中与该需求信息匹配的源表中的源表数据。此外,在另一场景中,还可以是通过网络确定数据仓库中与需求信息匹配的多个源表,然后根据需求信息对每个源表中的数据筛选,再将筛选的数据作为源表数据进行获取。
并且在本实施例中,在大表关联的关键数据处理环节极大的节省了数据的处理体量,通过把关联常规的“笛卡儿积”处理方式改造为“并集宽表”的实现方式,把处理集合由参与关联的各表的记录数乘积的体量精简为各表记录数之和的体量。当前的大数据表处理技术,都是基于分布式集群的处理方式,而减小了数据体量就意味着减少了网络传输、减少了内存占用、减少了关联的占用,从而极大了节省了集群资源,提升了处理速度。
在本实施例中,通过网络获取多个源表的源表数据,仅仅只需要进行一次获取的操作即可,无需进行多次扫描操作,避免了计算机资源浪费的现象发生。
进一步地,以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表的步骤之后,还包括:
若所述宽表中所述关联字段的值不存在重复,或者,若所述宽表中存在多种关联字段且所述宽表中不存在各关联字段的值分别对应相同的若干条数据,将所述宽表作为所述目标数据表。
在本实施例中,当以关联字段为各源表数据的共用字段将源表数据合并为宽表后,对宽表中关联字段的种类数量进行检测,发现宽表中只存在一种关联字段时,对该关联字段的值进行重复度检测,发现宽表中关联字段的值不存在重复,此时就可以直接将宽表作为最终生成的目标数据表。在另一场景中,当生成宽表,对宽表中关联字段的种类数量进行检测,发现宽表中存在多种关联字段,如存在两种关联字段,此时需要先检测所有的关联字段的值,即发现宽表中不存在各关联字段的值分别对应相同的若干条数据时,直接将宽表作为目标数据表。例如,若宽表中存在两个关联字段,第一个关联字段的值第一行为1,第二行为1,第三行为2,第二个关联字段的值第一行为4,第二行为5,第三行为3,则可以确定宽表中这两个关联字段对应的值不相同,因此可以直接将此宽表作为目标数据表表。
在本实施例中,通过在宽表中关联字段的值不存在重复、或者,宽表中不存在各关联字段的值分别对应相同的若干条数据,将宽表作为目标数据表,从而保障了获取的目标数据表的准确性。
此外,参照图3,本发明还提供一种业务处理方法,在业务处理方法的第三实施例中,数据表关联生成方法包括以下步骤:
根据上述第一或第二实施例中的数据表关联生成方法,生成目标数据表;
获取业务需求,根据所述目标数据表执行所述业务需求对应的业务处理。
例如:步骤S10,读取多个源表的源表数据,确定所述源表数据中的关联字段;
步骤S20,以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表;
步骤S30,若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据表;
步骤S40,获取业务需求,根据所述目标数据表执行所述业务需求对应的业务处理。
在本实施例中,需要先获取根据上述第一或第二实施例中的数据表关联生成方法中生成的目标数据表,然后再进行业务处理。也就是在生成目标数据表后,可以获取业务需求,例如对目标数据表中的某个字段进行聚合统计操作等。并且当获取到业务需求后,需要先确定根据上述第一或第二实施例中的目标数据表是否符合业务需求所需要应用到的数据表,若不符合,则根据业务需求从网络中继续读取新的源表的源表数据,其中新的源表的源表数据为和业务需求匹配的数据。然后再执行上述第一或第二实施例中的数据表关联生成方法的步骤,以根据新的源表数据生成和业务需求匹配的目标数据表。
但是在另一场景中,当经过判断发现根据上述第一或第二实施例生成的目标数据表和业务需求匹配,此时就可以直接根据目标数据表执行业务需求对应的业务处理。
在本实施例中,通过根据上述实施例生成的目标数据表进行业务需求对应的业务处理,从而可以实现进行业务处理时无需多次扫描多个表格,仅仅只需要对目标数据表这一个表格进行扫描,执行相应的业务处理操作即可,避免了计算机资源浪费的现象发生。
进一步地,根据所述目标数据表执行所述业务需求对应的业务处理的步骤,包括:
基于所述业务需求确定所述目标数据表中新的关联字段,并对所述目标数据表中新的关联字段进行数据去重,得到新的目标数据表,根据所述新的目标数据表执行所述业务需求对应的业务处理。
在本实施例中,当确定目标数据表为根据业务需求进行业务处理所需要应用到的数据表时,还需要继续对目标数据表进行检测,即根据业务需求检测是否需要继续对目标数据表进行处理,若需要,则先确定目标数据表中和业务需求存在关联关系的字段,并将此字段作为新的关联字段,然后再对目标数据表新的关联字段进行数据去重,得到的数据表,即为新的目标数据表,再根据目标数据表执行业务需求对应的业务处理。
在本实施例中,通过根据业务需求确定目标数据表中新的关联字段,再根据新的关联字段进行数据去重,得到新的目标数据表,并基于新的目标数据表执行业务需求对应的业务处理,从而保障了业务处理的正常进行。
此外,参照图4,本发明实施例还提供一种数据表关联生成装置,包括:
确定模块A10,用于读取多个源表的源表数据,确定所述源表数据中的关联字段;
合并模块A20,用于以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表;
数据去重模块A30,用于若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据。
可选地,数据去重模块A30,还用于:
若所述宽表中仅存在一种关联字段且所述宽表中存在所述关联字段的值相同的若干条数据,则对所述若干条数据中的所述关联字段的值进行数据去重,并对所述若干条数据中除所述关联字段外的其他字段的值进行叠加,得到目标数据表;
若所述宽表中存在多种关联字段且所述宽表中存在各关联字段的值分别对应相同的若干条数据,则对所述若干条数据中的所述各关联字段的值进行数据去重,对所述若干条数据中除所述各关联字段外的其他字段的值进行叠加,得到目标数据表。
可选地,确定模块A10,还用于:
通过网络获取多个源表的源表数据。
可选地,合并模块A20,还用于:
若所述宽表中所述关联字段的值不存在重复,或者,若所述宽表中存在多种关联字段且所述宽表中不存在各关联字段的值分别对应相同的若干条数据,将所述宽表作为所述目标数据表。
此外,参照图5,本发明实施例还提供一种业务处理装置,包括:
数据表关联生成装置中的确定模块A10,合并模块A20和数据去重模块A30;
执行模块A40,用于获取业务需求,根据所述目标数据表执行所述业务需求对应的业务处理。
可选地,执行模块A40,还用于:
基于所述业务需求确定所述目标数据表中新的关联字段,并对所述目标数据表中新的关联字段进行数据去重,得到新的目标数据表,根据所述新的目标数据表执行所述业务需求对应的业务处理。
其中,数据表关联生成装置和业务处理装置的各个功能模块实现的步骤可参照本发明数据表关联生成方法和业务处理方法的各个实施例,此处不再赘述。
此外,本发明还提供一种设备,设备包括存储器、处理器及存储在存储器上并可在处理器上运行的数据表关联生成程序、和/或业务处理程序,数据表关联生成程序被处理器执行时实现如上述的数据表关联生成方法的步骤,业务处理程序被处理器执行时实现如上述的业务处理方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,存储介质上存储有数据表关联生成程序、和/或业务处理程序,数据表关联生成程序被处理器执行时实现如上述的数据表关联生成方法的步骤,业务处理程序被处理器执行时实现如上述的业务处理方法的步骤。其中,存储介质可以为计算机可读存储介质。
本发明存储介质具体实施方式与上述数据表关联生成方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据表关联生成方法,其特征在于,所述数据表关联生成方法包括以下步骤:
读取多个源表的源表数据,确定所述源表数据中的关联字段;
以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表;
若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据表。
2.如权利要求1所述的数据表关联生成方法,其特征在于,所述若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据表的步骤,包括:
若所述宽表中仅存在一种关联字段且所述宽表中存在所述关联字段的值相同的若干条数据,则对所述若干条数据中的所述关联字段的值进行数据去重,并对所述若干条数据中除所述关联字段外的其他字段的值进行叠加,得到目标数据表;
若所述宽表中存在多种关联字段且所述宽表中存在各关联字段的值分别对应相同的若干条数据,则对所述若干条数据中的所述各关联字段的值进行数据去重,对所述若干条数据中除所述各关联字段外的其他字段的值进行叠加,得到目标数据表。
3.如权利要求1或2所述的数据表关联生成方法,其特征在于,所述读取多个源表的源表数据的步骤,包括:
通过网络获取多个源表的源表数据。
4.如权利要求1或2所述的数据表关联生成方法,其特征在于,所述以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表的步骤之后,还包括:
若所述宽表中所述关联字段的值不存在重复,或者,若所述宽表中存在多种关联字段且所述宽表中不存在各关联字段的值分别对应相同的若干条数据,将所述宽表作为所述目标数据表。
5.一种业务处理方法,其特征在于,所述业务处理方法包括以下步骤:
根据权利要求1-4任一项所述的数据表关联生成方法,生成目标数据表;
获取业务需求,根据所述目标数据表执行所述业务需求对应的业务处理。
6.如权利要求5所述的业务处理方法,其特征在于,所述根据所述目标数据表执行所述业务需求对应的业务处理的步骤,包括:
基于所述业务需求确定所述目标数据表中新的关联字段,并对所述目标数据表中新的关联字段进行数据去重,得到新的目标数据表,根据所述新的目标数据表执行所述业务需求对应的业务处理。
7.一种数据表关联生成装置,其特征在于,所述数据表关联生成装置包括:
确定模块,用于读取多个源表的源表数据,确定所述源表数据中的关联字段;
合并模块,用于以所述关联字段为各所述源表数据的共用字段,将各所述源表数据合并为宽表;
数据去重模块,用于若所述宽表中所述关联字段的值存在重复,对所述宽表中所述关联字段的值进行数据去重,并根据数据去重后的所述宽表确定目标数据。
8.一种业务处理装置,其特征在于,所述业务处理装置包括:
权利要求7所述的数据表关联生成装置;
执行模块,用于获取业务需求,根据所述目标数据表执行所述业务需求对应的业务处理。
9.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据表关联生成程序、和/或业务处理程序,所述数据表关联生成程序被所述处理器执行时实现如权利要求1至4中任一项所述的数据表关联生成方法的步骤,所述业务处理程序被所述处理器执行时实现如权利要求5至6任一项所述的业务处理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有数据表关联生成程序、和/或业务处理程序,所述数据表关联生成程序被处理器执行时实现如权利要求1至4中任一项所述的数据表关联生成方法的步骤,所述业务处理程序被处理器执行时实现如权利要求5至6任一项所述的业务处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210432984.5A CN114817257A (zh) | 2022-04-22 | 2022-04-22 | 数据表关联生成及业务处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210432984.5A CN114817257A (zh) | 2022-04-22 | 2022-04-22 | 数据表关联生成及业务处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817257A true CN114817257A (zh) | 2022-07-29 |
Family
ID=82507989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210432984.5A Pending CN114817257A (zh) | 2022-04-22 | 2022-04-22 | 数据表关联生成及业务处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817257A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609210A (zh) * | 2023-11-30 | 2024-02-27 | 上海一谈网络科技有限公司 | 数据表处理方法、装置、计算机设备和存储介质 |
-
2022
- 2022-04-22 CN CN202210432984.5A patent/CN114817257A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609210A (zh) * | 2023-11-30 | 2024-02-27 | 上海一谈网络科技有限公司 | 数据表处理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9892187B2 (en) | Data analysis method, data analysis device, and storage medium storing processing program for same | |
US10282406B2 (en) | System for modifying a table | |
CN109564566B (zh) | 对调用应用的发现以用于控制文件水化行为 | |
US10175954B2 (en) | Method of processing big data, including arranging icons in a workflow GUI by a user, checking process availability and syntax, converting the workflow into execution code, monitoring the workflow, and displaying associated information | |
CN108415912B (zh) | 基于MapReduce模型的数据处理方法和设备 | |
CN106557307B (zh) | 业务数据的处理方法及处理系统 | |
CA3154763A1 (en) | Data operation method, device and system | |
WO2018205689A1 (zh) | 合并文件的方法、存储装置、存储设备和存储介质 | |
CN110968585A (zh) | 面向列的存储方法、装置、设备及计算机可读存储介质 | |
CN114817257A (zh) | 数据表关联生成及业务处理方法、装置、设备及存储介质 | |
US20160019776A1 (en) | Reporting results of processing of continuous event streams | |
CN111047434B (zh) | 一种操作记录生成方法、装置、计算机设备和存储介质 | |
CN112199407B (zh) | 一种数据分组排序方法、装置、设备及存储介质 | |
US20180365205A1 (en) | Tabular data analysis method, recording medium storing tabular data analysis program, and information processing apparatus | |
CN106991116B (zh) | 数据库执行计划的优化方法和装置 | |
CN111090651A (zh) | 数据源的处理方法、装置、设备及可读存储介质 | |
CN110442616B (zh) | 一种针对大数据量的页面访问路径分析方法与系统 | |
US20230213573A1 (en) | Method and device for testing wafer, electronic device and storage medium | |
CN116467179A (zh) | 一种测试用例批量编辑方法、装置以及处理设备 | |
CN111427890B (zh) | 一种多表连接处理方法、装置、设备及存储介质 | |
CN113506099A (zh) | 申报业务的配置系统、方法、计算机设备和存储介质 | |
CN111209284A (zh) | 基于元数据的分表方法及装置 | |
CN113641911B (zh) | 广告拦截规则库的建立方法、装置、设备及存储介质 | |
CN116301758B (zh) | 基于事件时机点的规则编辑方法、装置、设备及介质 | |
CN107590161A (zh) | 一种生成哈希连接表的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |