CN110347683B - 一种数据表合并处理方法及装置 - Google Patents

一种数据表合并处理方法及装置 Download PDF

Info

Publication number
CN110347683B
CN110347683B CN201910570302.5A CN201910570302A CN110347683B CN 110347683 B CN110347683 B CN 110347683B CN 201910570302 A CN201910570302 A CN 201910570302A CN 110347683 B CN110347683 B CN 110347683B
Authority
CN
China
Prior art keywords
data
data table
merged
merging
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910570302.5A
Other languages
English (en)
Other versions
CN110347683A (zh
Inventor
张硕
张毅然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910570302.5A priority Critical patent/CN110347683B/zh
Publication of CN110347683A publication Critical patent/CN110347683A/zh
Application granted granted Critical
Publication of CN110347683B publication Critical patent/CN110347683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据表合并处理方法及装置,其中,该方法包括:对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,因此,可以解决相关技术中对于字段对应数据存在冲突的结构形同数据表合并方式,若数据量大或存在增量数据时无法调整的问题,根据动态调整的权重值合并数据表,提高了存在冲突的字段的数据表合并的准确性。

Description

一种数据表合并处理方法及装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种数据表合并处理方法及装置。
背景技术
结构相同的两张数据表合并成一张表时,会出现相同主键的数据存在数据冲突的情况。比如一张表A有x,y,z字段,另一张表B有相同的表结构,即也有x,y,z字段,设主键是x。将A和B表进行合并,生成表C,表C的结构与A、B一致,即字段为x,y,z,主键是x。对于A中的一条记录,x=a,y=b,z=c;以及B中的一条记录,x=a,y=d,z=c;将两条记录合并生成一条新纪录插入到表C。对于有相同主键x=a的这条记录,字段y的值分别为y=b,来源于A,y=d,来源于B,存在冲突。这条记录合并的时候到底该取y=b,还是y=d,如果有多个字段存在冲突,到底哪些字段该取源自A的值,哪些字段该取源自B的值。
现有技术一般是直接指定存在冲突时选择来自A的数据,或者选择来自B的数据。数据量大的时候,以及存在增量数据时,也无法自动调整。
针对相关技术中对于字段对应数据存在冲突的结构形同数据表合并方式,若数据量大或存在增量数据时无法调整的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种数据表合并处理方法及装置,以至少解决相关技术中对于字段对应数据存在冲突的结构形同数据表合并方式,若数据量大或存在增量数据时无法调整的问题。
根据本发明的一个实施例,提供了一种数据表合并处理方法,包括:
对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;
根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的。
可选地,根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据表包括:
确定所述多个数据表中所述目标字段对应的权重值中的最大权重值;
将所述最大权重值对应的数据表中所述目标字段对应的数据确定为合并后的数据表中所述目标字段对应的数据。
可选地,在所述当前数据表合并为第一次数据表合并的情况下,所述权重值是随机初始化得到的;
在所述当前数据表合并为第二次数据表合并的情况下,所述权重值是根据第一次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的;
在所述当前数据表合并为第j次数据表合并的情况下,所述权重值是根据前两次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,其中,j为大于或等于3的整数。
可选地,在根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,所述方法还包括:
在所述当前数据表合并为第一次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第一准确度,根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值;
在所述当前数据表合并为第i次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度以及上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;根据所述第i准确度以及所述第i-1准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值。
可选地,
通过以下方式根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值:
Figure BDA0002110712630000031
其中,W2为第二次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值,p1为在所述第一次数据表合并后的数据表中所述目标字段的数量,C1为所述第一准确度,W1为所述第一次数据表合并使用的所述多个数据表的数据中所述目标字段对应的权重值,W1是随机初始化得到的。
可选地,根据所述第i准确度以及所述第i-1准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值包括:
对于所述多个数据表中的每个数据表执行以下操作,其中,在执行以下操作时所述每个数据表被称为当前数据表:获取所述当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度和所述上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;
通过以下方式根据所述第i准确度和所述第i-1准确度调整下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值:
Figure BDA0002110712630000032
其中,i为大于或等于2的整数,Wi+1为所述下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,Wi为所述当前数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,pi为所述当前数据表合并后的数据表中所述目标字段的数量,pi-1为所述上一次数据表合并后的数据表中所述目标字段的数量,Ci为所述第i准确度,Ci-1为所述第i-1准确度。
可选地,在根据所述多个数据表的增量数据中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,所述方法还包括:
在所述当前合并后的数据表中标记存在冲突的所述目标字段。
可选地,在根据所述多个数据表的增量数据中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,所述方法还包括:
记录所述当前数据表合并的版本号,其中,所述版本号用于指示所述当前数据表合并对应的时间和次数。
根据本发明的另一个实施例,还提供了一种数据表合并处理装置,包括:
检测模块,用于对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;
合并模块,用于根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的。
可选地,所述合并模块包括:
确定子模块,用于确定所述多个数据表中所述目标字段对应的权重值中的最大权重值;
确定子模块,用于将所述最大权重值对应的数据表中所述目标字段对应的数据确定为合并后的数据表中所述目标字段对应的数据。
可选地,
在所述当前数据表合并为第一次数据表合并的情况下,所述权重值是随机初始化得到的;
在所述当前数据表合并为第二次数据表合并的情况下,所述权重值是根据第一次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的;
在所述当前数据表合并为第j次数据表合并的情况下,所述权重值是根据前两次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,其中,j为大于或等于3的整数。
可选地,所述装置还包括:
第一调整模块,用于在所述当前数据表合并为第一次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第一准确度,根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值;
第二调整模块,用于在所述当前数据表合并为第i次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度以及上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;根据所述第i准确度以及所述第i-1准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值。
可选地,
所述第一调整模块,还用于通过以下方式根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值:
Figure BDA0002110712630000051
其中,W2为第二次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值,p1为在所述第一次数据表合并后的数据表中所述目标字段的数量,C1为所述第一准确度,W1为所述第一次数据表合并使用的所述多个数据表的数据中所述目标字段对应的权重值,W1是随机初始化得到的。
可选地,所述第二调整模块包括:
执行单元,用于对于所述多个数据表中的每个数据表执行以下操作,其中,在执行以下操作时所述每个数据表被称为当前数据表:获取所述当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度和所述上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;
通过以下方式根据所述第i准确度和所述第i-1准确度调整下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值:
Figure BDA0002110712630000061
其中,i为大于或等于2的整数,Wi+1为所述下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,Wi为所述当前数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,pi为所述当前数据表合并后的数据表中所述目标字段的数量,pi-1为所述上一次数据表合并后的数据表中所述目标字段的数量,Ci为所述第i准确度,Ci-1为所述第i-1准确度。
可选地,所述装置还包括:
标记模块,用于在所述当前合并后的数据表中标记存在冲突的所述目标字段。
可选地,所述方法还包括:
记录模块,用于记录所述当前数据表合并的版本号,其中,所述版本号用于指示所述当前数据表合并对应的时间和次数。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,因此,可以解决相关技术中对于字段对应数据存在冲突的结构形同数据表合并方式,若数据量大或存在增量数据时无法调整的问题,根据动态调整的权重值合并数据表,提高了存在冲突的字段的数据表合并的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种数据表合并处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的数据表合并处理方法的流程图;
图3是根据本发明实施例的多个数据表合并的流程图;
图4是根据本发明实施例的数据表合并处理装置的框图;
图5是根据本发明优选实施例的数据表合并处理装置的框图一;
图6是根据本发明优选实施例的数据表合并处理装置的框图二;
图7是根据本发明优选实施例的数据表合并处理装置的框图三;
图8是根据本发明优选实施例的数据表合并处理装置的框图四。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种数据表合并处理方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述的移动终端,本实施例提供了一种数据表合并处理方法,图2是根据本发明实施例的数据表合并处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;
步骤S204,根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的。
通过上述步骤S202至S204,对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,因此,可以解决相关技术中对于字段对应数据存在冲突的结构形同数据表合并方式,若数据量大或存在增量数据时无法调整的问题,根据动态调整的权重值合并数据表,提高了存在冲突的字段的数据表合并的准确性。
可选地,上述步骤S204具体可以包括:
S2041,确定所述多个数据表中所述目标字段对应的权重值中的最大权重值;
S2042,将所述最大权重值对应的数据表中所述目标字段对应的数据确定为合并后的数据表中所述目标字段对应的数据。
本发明实施例中,上述权重值是动态调整的,在所述当前数据表合并为第一次数据表合并的情况下,所述权重值是随机初始化得到的;在所述当前数据表合并为第二次数据表合并的情况下,所述权重值是根据第一次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的;在所述当前数据表合并为第j次数据表合并的情况下,所述权重值是根据前两次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,其中,j为大于或等于3的整数。
本发明实施例中,上述权重值是动态调整的,每次数据表合并之后便会根据多个数据表中存在冲突的字段合并到一个数据表之后,在合并后的数据表中的准确度调整,可以根据之前的一次或多次数据表合并后的准确度来调整,具体地,在根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,在所述当前数据表合并为第一次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第一准确度,根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值;
在所述当前数据表合并为第i次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度以及上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;根据所述第i准确度以及所述第i-1准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值。
进一步地,通过以下方式根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值:
Figure BDA0002110712630000101
其中,W2为第二次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值,p1为在所述第一次数据表合并后的数据表中所述目标字段的数量,C1为所述第一准确度,W1为所述第一次数据表合并使用的所述多个数据表的数据中所述目标字段对应的权重值,W1是随机初始化得到的。
进一步地,根据所述第i准确度以及所述第i-1准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值包括:
对于所述多个数据表中的每个数据表执行以下操作,其中,在执行以下操作时所述每个数据表被称为当前数据表:获取所述当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度和所述上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;
通过以下方式根据所述第i准确度和所述第i-1准确度调整下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值:
Figure BDA0002110712630000111
其中,i为大于或等于2的整数,Wi+1为所述下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,Wi为所述当前数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,pi为所述当前数据表合并后的数据表中所述目标字段的数量,pi-1为所述上一次数据表合并后的数据表中所述目标字段的数量,Ci为所述第i准确度,Ci-1为所述第i-1准确度。
本发明实施例中,为例便于查看存在字段冲突,在根据所述多个数据表的增量数据中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,在所述当前合并后的数据表中标记存在冲突的所述目标字段。
本发明实施例中,为了便于查看合并的次数,还可以记录数据表合并的次数和时间,具体地,在根据所述多个数据表的增量数据中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,记录所述当前数据表合并的版本号,其中,所述版本号用于指示所述当前数据表合并对应的时间和次数。
下面以举例对本发明实施例进行详细说明。
图3是根据本发明实施例的多个数据表合并的流程图,如3所示,包括:
步骤S301,初始化多个数据表中每个数据表的目标字段的权重;
步骤S302,在数据表合并时,检测到多个数据表的目标字段存在冲突,根据权重将多个数据表合并为一个数据表;
步骤S303,记录数据表合并过程中存在冲突的目标字段;
步骤S304,验证冲突准确性,调整多个数据表中目标字段的权重;
步骤S305,对于新输入的多个数据表的增量数据,在合并过程中,检测到目标字段存在冲突,根据调整后的权重将多个数据表合并到一个数据中;
之后在步骤S303至S305之间重复执行,每一批数据冲突时,根据权重进行合并,记录冲突位置,做准确性校验,调整权重,形成权重自适应调整。不断反复迭代,把合并表的字段的准确率逐步提高。
下面以数据表A、数据表B合并为数据表C为例进行说明。
设数据表A、B、C字段为x,y,z,表A,B的每个字段权重分别为WxA,WxB,WyA,WyB,WzA,随机初始化WxA>WxB,WyA<WyB,WzA<WzB
对于来自表A、B的数据,设其版本为1,合并成C的时候,如果发生冲突,根据每个字段的权重,分别取来自A、B的数据,插入表C。并记录发生冲突数据的位置。
根据记录的位置,对C中的数据进行校验,验证数据正确性。如果验证正确,增加源表对应字段的权重,否则降低该权重。
对于来自表A、B的增量数据,设其版本为2,合并生成C的增量数据时,如果发生冲突,根据每个字段的新权重,分别取来自A、B的数据,插入表C。并记录发生冲突数据的位置。
重复执行上述步骤,对每一次的合并数据的权重进行自动调整,插入。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
本发明实施例,还提供了一种数据表合并处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的数据表合并处理装置的框图,如图4所示,包括:
检测模块42,用于对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;
合并模块44,用于根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的。
图5是根据本发明优选实施例的数据表合并处理装置的框图一,如图5所示,所述合并模块44包括:
第一确定子模块52,用于确定所述多个数据表中所述目标字段对应的权重值中的最大权重值;
第二确定子模块54,用于将所述最大权重值对应的数据表中所述目标字段对应的数据确定为合并后的数据表中所述目标字段对应的数据。
可选地,在所述当前数据表合并为第一次数据表合并的情况下,所述权重值是随机初始化得到的;
在所述当前数据表合并为第二次数据表合并的情况下,所述权重值是根据第一次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的;
在所述当前数据表合并为第j次数据表合并的情况下,所述权重值是根据前两次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,其中,j为大于或等于3的整数。
图6是根据本发明优选实施例的数据表合并处理装置的框图二,如图6所示,所述装置还包括:
第一调整模块62,用于在所述当前数据表合并为第一次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第一准确度,根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值;
第二调整模块64,用于在所述当前数据表合并为第i次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度以及上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;根据所述第i准确度以及所述第i-1准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值。
可选地,所述第一调整模块62,还用于通过以下方式根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值:
Figure BDA0002110712630000141
其中,W2为第二次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值,p1为在所述第一次数据表合并后的数据表中所述目标字段的数量,C1为所述第一准确度,W1为所述第一次数据表合并使用的所述多个数据表的数据中所述目标字段对应的权重值,W1是随机初始化得到的。
可选地,所述第二调整模块64包括:
执行单元,用于对于所述多个数据表中的每个数据表执行以下操作,其中,在执行以下操作时所述每个数据表被称为当前数据表:获取所述当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度和所述上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;
通过以下方式根据所述第i准确度和所述第i-1准确度调整下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值:
Figure BDA0002110712630000151
其中,i为大于或等于2的整数,Wi+1为所述下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,Wi为所述当前数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,pi为所述当前数据表合并后的数据表中所述目标字段的数量,pi-1为所述上一次数据表合并后的数据表中所述目标字段的数量,Ci为所述第i准确度,Ci-1为所述第i-1准确度。
图7是根据本发明优选实施例的数据表合并处理装置的框图三,如图7所示,所述装置还包括:
标记模块72,用于在所述当前合并后的数据表中标记存在冲突的所述目标字段。
图8是根据本发明优选实施例的数据表合并处理装置的框图四,如图8所示,所述装置还包括:
记录模块82,用于记录所述当前数据表合并的版本号,其中,所述版本号用于指示所述当前数据表合并对应的时间和次数。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S11,对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;
S12,根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S11,对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;
S12,根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据表合并处理方法,其特征在于,包括:
对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;
根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的;
在所述当前数据表合并为第一次数据表合并的情况下,所述权重值是随机初始化得到的;
在所述当前数据表合并为第二次数据表合并的情况下,所述权重值是根据第一次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的;
在所述当前数据表合并为第j次数据表合并的情况下,所述权重值是根据前两次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,其中,j为大于或等于3的整数。
2.根据权利要求1所述的方法,其特征在于,根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据表包括:
确定所述多个数据表中所述目标字段对应的权重值中的最大权重值;
将所述最大权重值对应的数据表中所述目标字段对应的数据确定为合并后的数据表中所述目标字段对应的数据。
3.根据权利要求1所述的方法,其特征在于,在根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,所述方法还包括:
在所述当前数据表合并为第一次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第一准确度,根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值;
在所述当前数据表合并为第i次数据表合并的情况下,确定当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度以及上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;根据所述第i准确度以及所述第i-1准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值。
4.根据权利要求3所述的方法,其特征在于,
通过以下方式根据所述第一准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值:
Figure FDA0003260105810000021
其中,W2为第二次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值,p1为在所述第一次数据表合并后的数据表中所述目标字段的数量,C1为所述第一准确度,W1为所述第一次数据表合并使用的所述多个数据表的数据中所述目标字段对应的权重值,W1是随机初始化得到的。
5.根据权利要求3所述的方法,其特征在于,根据所述第i准确度以及所述第i-1准确度调整下一次数据表合并使用的所述多个数据表的增量数据中所述目标字段对应的权重值包括:
对于所述多个数据表中的每个数据表执行以下操作,其中,在执行以下操作时所述每个数据表被称为当前数据表:获取所述当前数据表合并后的数据表中所述目标字段对应的数据的第i准确度和所述上一次数据表合并后的数据表中所述目标字段对应的数据的第i-1准确度;
通过以下方式根据所述第i准确度和所述第i-1准确度调整下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值:
Figure FDA0003260105810000031
其中,i为大于或等于2的整数,Wi+1为所述下一次数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,Wi为所述当前数据表合并使用的所述当前数据表的增量数据中所述目标字段对应的权重值,pi为所述当前数据表合并后的数据表中所述目标字段的数量,pi-1为所述上一次数据表合并后的数据表中所述目标字段的数量,Ci为所述第i准确度,Ci-1为所述第i-1准确度。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在根据所述多个数据表的增量数据中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,所述方法还包括:
在所述当前合并后的数据表中标记存在冲突的所述目标字段。
7.根据权利要求1至5中任一项所述的方法,其特征在于,在根据所述多个数据表的增量数据中所述目标字段对应的权重值将所述多个数据表合并为一个数据表之后,所述方法还包括:
记录所述当前数据表合并的版本号,其中,所述版本号用于指示所述当前数据表合并对应的时间和次数。
8.一种数据表合并处理装置,其特征在于,包括:
检测模块,用于对于当前数据表合并,检测到多个数据表中存在数据冲突的目标字段;
合并模块,用于根据所述多个数据表中所述目标字段对应的权重值将所述多个数据表合并为一个数据,其中,所述权重值是根据数据表合并后的数据表中所述目标字段对应的数据的准确度调整的;
在所述当前数据表合并为第一次数据表合并的情况下,所述权重值是随机初始化得到的;
在所述当前数据表合并为第二次数据表合并的情况下,所述权重值是根据第一次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的;
在所述当前数据表合并为第j次数据表合并的情况下,所述权重值是根据前两次数据表合并后的数据表中所述目标字段对应的数据的准确度调整的,其中,j为大于或等于3的整数。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的方法。
CN201910570302.5A 2019-06-27 2019-06-27 一种数据表合并处理方法及装置 Active CN110347683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910570302.5A CN110347683B (zh) 2019-06-27 2019-06-27 一种数据表合并处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910570302.5A CN110347683B (zh) 2019-06-27 2019-06-27 一种数据表合并处理方法及装置

Publications (2)

Publication Number Publication Date
CN110347683A CN110347683A (zh) 2019-10-18
CN110347683B true CN110347683B (zh) 2022-04-12

Family

ID=68177153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910570302.5A Active CN110347683B (zh) 2019-06-27 2019-06-27 一种数据表合并处理方法及装置

Country Status (1)

Country Link
CN (1) CN110347683B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111258981A (zh) * 2020-01-13 2020-06-09 中国建设银行股份有限公司 一种数据处理方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447030A (zh) * 2014-08-29 2016-03-30 阿里巴巴集团控股有限公司 一种索引处理方法与设备
CN106462859A (zh) * 2014-01-21 2017-02-22 口袋医生公司 动态文档匹配和合并
CN107729423A (zh) * 2017-09-28 2018-02-23 链家网(北京)科技有限公司 一种大数据处理方法及装置
CN108932268A (zh) * 2017-05-26 2018-12-04 华为软件技术有限公司 数据处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9411859B2 (en) * 2009-12-14 2016-08-09 Lexisnexis Risk Solutions Fl Inc External linking based on hierarchical level weightings

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462859A (zh) * 2014-01-21 2017-02-22 口袋医生公司 动态文档匹配和合并
CN105447030A (zh) * 2014-08-29 2016-03-30 阿里巴巴集团控股有限公司 一种索引处理方法与设备
CN108932268A (zh) * 2017-05-26 2018-12-04 华为软件技术有限公司 数据处理方法及装置
CN107729423A (zh) * 2017-09-28 2018-02-23 链家网(北京)科技有限公司 一种大数据处理方法及装置

Also Published As

Publication number Publication date
CN110347683A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
EP3678346B1 (en) Blockchain smart contract verification method and apparatus, and storage medium
US10225145B2 (en) Method and device for updating client
WO2018000607A1 (zh) 一种识别测试用例失败原因的方法及电子设备
US10936833B2 (en) NFC configuration method, mobile terminal, and computer-readable storage medium
CN111277958A (zh) 标签位置确定方法及装置
CN106130972B (zh) 资源访问控制方法和装置
CN110830234A (zh) 一种用户流量分配方法及装置
CN110611876A (zh) 室内资产管理的方法、装置及系统
CN110472216B (zh) 字段的确定方法、装置、存储介质及电子装置
CN110347683B (zh) 一种数据表合并处理方法及装置
CN104765792A (zh) 一种维度数据存储的方法、装置及系统
CN110990381B (zh) 服务器的处理方法及装置、存储介质和电子装置
CN110516258B (zh) 数据校验方法及装置、存储介质、电子装置
US10740218B2 (en) Method and device for determining usage log
CN111131324A (zh) 业务系统的登陆方法及装置、存储介质、电子装置
CN110020166B (zh) 一种数据分析方法及相关设备
CN107038051B (zh) 一种bios配置项推荐方法及装置
CN113703753B (zh) 用于产品开发的方法、装置和产品开发系统
CN112667538B (zh) 一种获取网卡标识号方法、系统、设备以及介质
CN110580172B (zh) 配置规则的验证方法及装置、存储介质、电子装置
CN111371818B (zh) 一种数据请求的验证方法、装置及设备
CN113486025A (zh) 数据存储方法、数据查询方法及装置
CN110751204A (zh) 数据融合的方法及装置、存储介质和电子装置
CN112463125B (zh) 一种虚拟定时器的定时方法及设备
CN109783580A (zh) 数据同步方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant