CN107169003B - 一种数据关联方法及装置 - Google Patents

一种数据关联方法及装置 Download PDF

Info

Publication number
CN107169003B
CN107169003B CN201710207342.4A CN201710207342A CN107169003B CN 107169003 B CN107169003 B CN 107169003B CN 201710207342 A CN201710207342 A CN 201710207342A CN 107169003 B CN107169003 B CN 107169003B
Authority
CN
China
Prior art keywords
data
type
association
result
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710207342.4A
Other languages
English (en)
Other versions
CN107169003A (zh
Inventor
韩红根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710207342.4A priority Critical patent/CN107169003B/zh
Publication of CN107169003A publication Critical patent/CN107169003A/zh
Application granted granted Critical
Publication of CN107169003B publication Critical patent/CN107169003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据关联方法及装置,其中,所述方法包括:获取待关联的第一类数据和第二类数据;在第一类数据、和/或第二类数据更新后,针对所更新的内容,对第一类数据与第二类数据进行关联,得到并保存关联结果。通过本发明实施例的数据关联方法及装置,能够实现数据关联后,数据结果的完整性。

Description

一种数据关联方法及装置
技术领域
本发明涉及数据分析技术领域,特别是涉及一种数据关联方法及装置。
背景技术
目前,在数据分析领域,实时计算变得越来越重要,如实时监测、实时指标计算等。而在实时计算中,数据之间的关联问题比较突出。数据关联,即发现存在于大量数据中的关联性或相关性,进而将相关的数据关联起来,为数据分析提供条件。
具体的数据关联,例如:数据类A包括学生的学号、姓名以及年龄等内容,数据类B中包括学生的学号,成绩等内容,通过数据类A和数据类B都包括的学号,将数据类A和数据类B进行关联,进而可以将学生的姓名、年龄、以及成绩等信息结合起来。
现有的数据关联方法,在多个数据关联过程中,由于多个数据不完全同步的问题,导致只能关联一部分数据。如,在部分数据更新时,不能对更新后的数据进行关联,从而导致数据关联有缺失,数据结果不完整。
发明内容
本发明实施例的目的在于提供一种数据关联方法及装置,以实现数据关联后,数据结果的完整性。具体技术方案如下:
一方面,本发明实施例提供了一种数据关联方法,包括:
获取待关联的第一类数据和第二类数据;
在所述第一类数据、和/或所述第二类数据更新后,针对所更新的内容,对所述第一类数据与所述第二类数据进行关联,得到并保存关联结果。
可选的,在所述获取待关联的第一类数据和第二类数据后,所述方法还包括:
预处理待关联的第一类数据和第二类数据,对应得到包括第一行键的第一预处理结果和包括第二行键的第二预处理结果。
可选的,所述针对所更新的内容,对所述第一类数据与所述第二类数据进行关联,包括:
针对所述第一类数据更新的第一更新内容,查询所述第二预处理结果,得到所述第一更新内容中的关联字段对应的所述第二预处理结果中的第二内容;
将所述第一更新内容与所述第二内容进行关联得到关联结果,并保存所述关联结果;
针对所述第二类数据更新的第二更新内容,查询所述关联结果,在未查询到所述第二更新内容中第二行键对应的记录时,查询所述第一预处理结果,得到所述第二更新内容中的关联字段对应的所述第一预处理结果中的第一内容;
将所述第二更新内容与所述第一内容进行关联,并将得到的结果保存至所述关联结果中。
可选的,对所述第一类数据与所述第二类数据进行关联,包括:
通过所述第一类数据与所述第二类数据的关联字段,完成所述第一类数据与所述第二类数据的关联。
可选的,所述保存关联结果包括:将所述关联结果存储至第三方存储介质。
可选的,所述第三方存储介质包括:Hbase数据库。
另一方面,本发明实施例还提供了一种数据关联装置,包括:
获取模块,用于获取待关联的第一类数据和第二类数据;
关联模块,用于在所述第一类数据、和/或所述第二类数据更新后,针对所更新的内容,对所述第一类数据与所述第二类数据进行关联,得到并保存关联结果。
可选的,本发明实施例提供的数据关联装置还包括:
预处理模块,用于预处理待关联的第一类数据和第二类数据,对应得到包括第一行键的第一预处理结果和包括第二行键的第二预处理结果。
可选的,所述关联模块包括:
第一查询子模块,用于针对所述第一类数据更新的第一更新内容,查询所述第二预处理结果,得到所述第一更新内容中的关联字段对应的所述第二预处理结果中的第二内容;
第一关联子模块,用于将所述第一更新内容与所述第二内容进行关联得到关联结果,并保存所述关联结果;
第二查询子模块,用于针对所述第二类数据更新的第二更新内容,查询所述关联结果,在未查询到所述第二更新内容中第二行键对应的记录时,查询所述第一预处理结果,得到所述第二更新内容中的关联字段对应的所述第一预处理结果中的第一内容;
第二关联子模块,用于将所述第二更新内容与所述第一内容进行关联,并将得到的结果保存至所述关联结果中。
可选的,所述关联模块具体用于,通过所述第一类数据与所述第二类数据的关联字段,完成所述第一类数据与所述第二类数据的关联。
可选的,所述关联模块具体用于将所述关联结果存储至第三方存储介质。
可选的,所述第三方存储介质包括:Hbase数据库。
本发明实施例提供的数据关联方法及装置,可以获取待关联的第一类数据和第二类数据;在第一类数据、和/或第二类数据更新后,针对所更新的内容,对第一类数据与第二类数据进行关联,得到并保存关联结果。每次进行关联后得到的关联结果保存,可以通过查询关联结果,将没有进行关联的数据完成补充关联计算。如此使得,在第一类数据、和/或第二类数据更新后,实现数据关联、数据结果的完整性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据关联方法的一种流程图;
图2为本发明实施例提供的数据关联方法的另一种流程图;
图3为本发明实施例提供的数据更新的一种示意图;
图4为本发明实施例提供的数据更新的另一种示意图;
图5为本发明实施例提供的数据关联装置的一种结构示意图;
图6为本发明实施例提供的数据关联装置的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1对本发明实施例数据关联方法进行详细说明,本发明实施例提供的数据关联方法,包括:
步骤101,获取待关联的第一类数据和第二类数据。
本发明实施例提供的方法可以应用于电子设备。具体的,该电子设备可以为台式计算机、便携式计算机、智能移动终端等。
在本发明实施例中,电子设备可以将待关联的第一类数据与第二类数据进行关联。待关联的第一类数据与第二类数据存在关联性或者相关性,本发明实施例中,可以将第一类数据与第二类数据进行关联,找出它们之间的相关性。
步骤102,在第一类数据、和/或第二类数据更新后,针对所更新的内容,对第一类数据与第二类数据进行关联,得到并保存关联结果。
不难理解的是,第一类数据与第二类数据是不断更新的,具体的更新情况可以包括:第一类数据更新、第二类数据没有更新;第二类数据更新、第一类数据没有更新;或者第一类数据与第二类数据都更新。需要说明的是,第一类数据与第二类数据的内容都是不断更新的,且可以不同步地进行更新。
在本发明实施例中,电子设备可以针对第一类数据与第二类数据更新的内容,对第一类数据与第二类数据进行关联,得到关联结果。
并且,将第一类数据与第二类数据关联后,电子设备还可以保存得到的关联结果。例如,电子设备可以将关联结果存储至第三方存储介质。该第三方存储介质例如可以为移动硬盘、Hbase数据库等。
需要重点说明的是,因为数据内容是不断更新的,所以在实际的应用过程中,需要不断地检测数据的内容是否有更新,且在数据的内容更新后,对更新的内容进行关联。同时,需要在每次进行关联后,将得到的关联结果进行保存。
本发明实施例数据关联方法,通过获取待关联的第一类数据和第二类数据,在第一类数据、和/或第二类数据更新后,针对所更新的内容,对第一类数据与第二类数据进行关联,得到并保存关联结果,完成第一类数据与第二类数据的关联。通过本发明实施例数据关联方法,可以将数据的所有内容都进行关联,实现在数据关联后,保证数据内容的完整性。
作为本发明实施例的一种实施方式,电子设备对第一类数据和第二类数据进行关联之前,可以首先对待关联的第一类数据和第二类数据进行预处理,对应得到包括第一行键的第一预处理结果和包括第二行键的第二预处理结果。例如,可以选择第一类数据中的关键字段关联字段作为第一类数据的行健,即第一行键,然后将该第一行健与第一类数据中的内容结合起来,作为第一预处理结果;同样地,选择第二类数据中的关键字段关联字段作为第二类数据的行健,即第二行键,然后将该第二行健与第二类数据中的内容结合起来,作为第二预处理结果。通过预处理之后的第一处理结果的第一行键、与第二处理结果的第二行键,方便后续的关联计算。需要说明的是,行键是数据按行进行排序、存储时、每一行内容的标识符;关联字段是第一类数据与第二类数据中具有相同业务意义的字段。
参照图2,在得到第一处理结果与第二处理结果之后,具体地,针对所更新的内容,对第一类数据与第二类数据进行关联,包括:
步骤201,针对第一类数据更新的第一更新内容,查询第二预处理结果,得到第一更新内容中的关联字段对应的第二预处理结果中的第二内容。
某一时刻,第一类数据进行了更新,例如,可以将第一类数据和第二类数据看成是一系列的数据记录组成的数据流,第一类数据进行更新可以是新增、更新或者删除数据记录等。
需要说明的是,因为第一类数据是与第二类数据进行关联,所以在第一类数据更新时,通过查询第二类数据对应的第二预处理结果,获取需要与第一类数据的第一更新内容、进行关联的第二预处理结果中的第二内容,即第二类数据中的内容。
具体地,可以将B看成是第一类数据,A看成是第二类数据,获取第一类数据更新的第一更新内容,即当B有更新内容时,获取B更新的第一更新内容,其中,第一更新内容可以是包括关联字段的数据流;然后,针对B更新的第一更新内容,通过该第一更新内容中的关联字段,查询第二类数据A对应的第二预处理结果,得到第一更新内容中的关联字段对应的第二预处理结果中的第二内容。
另外,本发明实施例一种可选的实施方式中,查询第二预处理结果,得到第一更新内容中的关联字段、对应的第二预处理结果中的第二内容,可以通过设置开始行键startkey和结束行键stopkey,例如,开始行键startkey设置为B.id-a,结束行键stopkey设置为B.id-b,对第二预处理结果进行查询操作,通过将第一更新内容中的关联字段,与第二预处理结果中对应的字段进行对比,即可得到第一更新内容中的关联字段对应的第二预处理结果中的第二内容。
步骤202,将第一更新内容与第二内容进行关联得到关联结果,并保存关联结果。
获得第一类数据更新的第一更新内容,并查找到需要与其关联的第二类数据的第二内容,将该第一更新内容与第二内容进行关联。具体地关联是通过第一更新内容中的关键字段,将该关键字段作为关联字段,将第一更新内容与该关联字段、对应的第二预处理结果中的第二内容结合起来,作为关联结果,并且保存关联结果,并记录该第一更新内容与第二内容已经进行过关联,在本发明实施例一种可实现方式中,可以将记录写入临时的记录表中,保存至关联结果中,后面的补充运算,查询关联结果,其实就是查询关联结果中的临时记录表。
本发明实施例一种可选的实施例中,通过第一类数据与第二类数据的关联字段,完成第一类数据与第二类数据的关联。例如,第一类数据B包括字段:id,第二类数据A包含字段:id和joinid。其中,第一类数据B的字段id与第二类数据A的joinid具有相关性,即可通过第一类数据B的id与第二类数据A的joinid进行关联计算。具体地,可以通过A.joinid=B.id完成第一类数据B与第二类数据A的关联。
步骤203,针对第二类数据更新的第二更新内容,查询关联记录,在未查询到第二更新内容中第二行键对应的记录时,查询第一预处理结果,得到第二更新内容中的关联字段对应的第一预处理结果中的第一内容。
类似于第一类数据更新,某一时刻,第二类数据进行了更新,例如,同样地,第二类数据进行更新可以是增加了新增、更新或删除数据记录等。
需要说明的是,上述步骤已经将第一类数据和第二类数据进行了关联,并且保存了关联结果。所以为了计算更加简便,在第二类数据更新后,首先可以查询保存的关联结果中的关联记录,查看对应的内容是否已经被关联,如果已经被关联,就不需要再进行重复运算;如果没有被关联,按照类似于上述第一类数据更新后的关联方法进行关联,进行补充运算。
步骤204,将第二更新内容与第一内容进行关联,并将得到的结果保存至关联结果中。
获得第二类数据更新的第二更新内容,并查找到需要与其关联的第一类数据的第一内容,将该第二更新内容与第一内容进行关联。具体地关联是通过第二更新内容中的关键字段,将该关键字段作为关联字段,将第二更新内容与该关键字段、对应的第一预处理结果中的第一内容结合起来,作为关联结果,并且保存得到的结果至上述步骤得到的关联结果中,如此完成第一类数据与第二类数据的关联。
另外,需要说明的是,在实际应用过程中,需要不断检查第一类数据和第二类数据是否有更新,在第一类数据、和/或第二类数据有更新时,对第一类数据、和/或第二类数据更新的内容进行关联。
通过本发明实施例数据关联方法,可以在数据关联过程中,即使一类数据的更新早于或者晚于其他类数据的更新时间,也能够完成数据的关联,并且不会造成数据的丢失,保证数据关联结果的完整性。
在本发明实施例一种可选的实施方式中,保存关联后的关联结果可以包括:将关联结果存储至第三方存储介质。另外,需要说明的是,可以在每次进行关联后,将得到的关联结果进行保存。
第三方存储介质可以包括:SQL SERVER数据库、My SQL数据库、Oracle数据库以及Hbase数据库等。因为Hbase数据库相比较于其他数据库有着更好的读写性能以及保证了操作原子性等优点,所以优选地,本发明实施例数据关联方法采用的第三方存储介质可以为Hbase数据库。
下面通过具体的实例对上述第一类数据和第二类数据的关联过程进行详细地说明。
首先说明:第一类数据:订单表(order);第二类数据:订单明细表(order_detail)。Order_detail表中的Order_id字段对应order表中Id字段,具体地关联过程通过表达式:即order_detail.order_id=order.Id,进行关联。具体地,第一类数据:订单表(order);第二类数据:订单明细表(order_detail)可以分别如下表1和表2所示。
表1
Figure BDA0001260162410000081
表2
Figure BDA0001260162410000082
下面,对订单表(order)和订单明细表(order_detail)进行预处理。
参照图3,对订单明细表(order_detail)进行预处理,得到的预处理结果order_detail_pre表,如下表3所示,其中,order_detail_pre表的行健rowkey为:order_id_id。
表3
Figure BDA0001260162410000091
参照图4,对订单表(order)进行预处理,得到的预处理结果表order_pre表如下表4所示,其中,order_pre表的行健rowkey为:id。
表4
Figure BDA0001260162410000092
接下来对具体的关联进行说明。参照图3,在第一更新时间点批处理流batch1中,获取数据(52000039449,.,insert..),查询表预处理结果表order_detail_pre,获取到数据如下表5所示。
表5
Figure BDA0001260162410000093
在order_detail_pre表中,获取到52000039449对应的明细2条,则将(52000039449,.,insert..)与这两条数据做关联计算,关联记录写入临时cal_tmp中,关联结果写入结果表中,同时记录53000167587和53000141832已完成计算(写入用于保存关联记录的cal_tmp表)。
继续消费数据,进行计算。在第二更新时间点批处理流batch10中,获取数据(52000039449,.,delete..),通过查询预处理结果表order_detail_pre,获取到数据如下表6所示。
表6
Figure BDA0001260162410000101
然后,将更新内容(52000039449,.,delete..)和上述数据分别进行关联计算,结果更新到结果表中。
参照图4,对上述的关联运算进行补充运算。
在第三更新时间点批处理流batch1,获取到(53000167587,52000039449......)、(53000141832,52000039449......),通过查询临时表cal_tmp,这两条数据都已经计算过,则不再计算。当在第四更新时间点批处理流batch2,获取到更新内容(53000075528,52000039449......)和(53000123740,52000039449......),通过查询临时表cal_tmp,这两条数据没有被计算过,通过order_pre表,获取到52000039449对应的记录,如下表7所示。
表7
Figure BDA0001260162410000102
获取到的(53000075528,52000039449......)、(53000123740,52000039449......)两条记录分别与表7中订单记录进行关联计算,将计算结果写入结果表中,同时标识53000075528和53000123740已完成计算(写入临时表cal_tmp表)。
本发明实施例还提供了一种数据关联装置,图5为本发明实施例数据关联装置的一种结构示意图,参照图5对本发明实施例数据关联装置进行详细说明,装置包括:
获取模块501,用于获取待关联的第一类数据和第二类数据。
关联模块502,用于在第一类数据、和/或第二类数据更新后,针对所更新的内容,对第一类数据与第二类数据进行关联,得到并保存关联结果。
本发明实施例提供的数据关联装置,可以获取待关联的第一类数据和第二类数据;在第一类数据、和/或第二类数据更新后,针对所更新的内容,对第一类数据与第二类数据进行关联,得到并保存关联结果。每次进行关联后得到的关联结果保存,可以通过查询关联结果,将没有进行关联的数据补充进行关联计算。如此使得,在第一类数据、和/或第二类数据更新后,实现数据关联、数据结果的完整性。通过本发明实施例数据关联装置,实现数据关联结果的完整性。
可选的,本发明实施例提供的数据关联装置还包括:预处理模块,用于预处理待关联的第一类数据和第二类数据,对应得到包括第一行键的第一预处理结果和包括第二行键的第二预处理结果。
图6为本发明实施例数据关联装置的另一种结构示意图,如图6所示,本发明实施例数据关联装置中关联模块包括:
第一查询子模块5021,用于针对第一类数据更新的第一更新内容,查询第二预处理结果,得到第一更新内容中的关联字段对应的第二预处理结果中的第二内容。
第一关联子模块5022,用于将第一更新内容与第二内容进行关联得到关联结果,并保存关联结果。
第二查询子模块5023,用于针对第二类数据更新的第二更新内容,查询关联结果,在未查询到第二更新内容中第二行键对应的记录时,查询第一预处理结果,得到第二更新内容中的关联字段对应的第一预处理结果中的第一内容。
第二关联子模块5024,用于将第二更新内容与第一内容进行关联,并将得到的结果保存至关联结果中。
可选的,本发明实施例数据关联装置中关联模块具体用于,通过第一类数据与第二类数据的关联字段,完成第一类数据与第二类数据的关联。
可选的,本发明实施例数据关联装置中关联模块具体用于将关联结果存储至第三方存储介质。
可选的,本发明实施例数据关联装置中,第三方存储介质包括:Hbase数据库。
需要说明的是,本发明实施例的装置是应用上述数据关联方法的装置,则上述数据关联方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种数据关联方法,其特征在于,包括:
获取待关联的第一类数据和第二类数据;
在所述第一类数据、和/或所述第二类数据更新后,针对所更新的内容,对所述第一类数据与所述第二类数据进行关联,得到并保存关联结果;
在所述获取待关联的第一类数据和第二类数据后,所述方法还包括:
预处理待关联的第一类数据和第二类数据,对应得到包括第一行键的第一预处理结果和包括第二行键的第二预处理结果;其中,所述第一行键包括第一类数据对应的关联字段,所述第二行键包括所述第二类数据对应的关联字段,且所述第一行键包括的关联字段与所述第二行键中包括的关联字段是具有相同业务意义的字段;
所述针对所更新的内容,对所述第一类数据与所述第二类数据进行关联,包括:
针对所述第一类数据更新的第一更新内容,查询所述第二预处理结果,得到所述第一更新内容中的关联字段对应的所述第二预处理结果中的第二内容;
将所述第一更新内容与所述第二内容进行关联得到关联结果,并保存所述关联结果;
针对所述第二类数据更新的第二更新内容,查询所述关联结果,在未查询到所述第二更新内容中第二行键对应的记录时,查询所述第一预处理结果,得到所述第二更新内容中的关联字段对应的所述第一预处理结果中的第一内容;
将所述第二更新内容与所述第一内容进行关联,并将得到的结果保存至所述关联结果中。
2.根据权利要求1所述的数据关联方法,其特征在于,对所述第一类数据与所述第二类数据进行关联,包括:
通过所述第一类数据与所述第二类数据的关联字段,完成所述第一类数据与所述第二类数据的关联。
3.根据权利要求1或2所述的数据关联方法,其特征在于,所述保存关联结果包括:
将所述关联结果存储至第三方存储介质。
4.根据权利要求3所述的数据关联方法,其特征在于,所述第三方存储介质包括:Hbase数据库。
5.一种数据关联装置,其特征在于,包括:
获取模块,用于获取待关联的第一类数据和第二类数据;
关联模块,用于在所述第一类数据、和/或所述第二类数据更新后,针对所更新的内容,对所述第一类数据与所述第二类数据进行关联,得到并保存关联结果;
所述装置还包括:
预处理模块,用于预处理待关联的第一类数据和第二类数据,对应得到包括第一行键的第一预处理结果和包括第二行键的第二预处理结果;其中,所述第一行键包括第一类数据对应的关联字段,所述第二行键包括所述第二类数据对应的关联字段,且所述第一行键包括的关联字段与所述第二行键中包括的关联字段是具有相同业务意义的字段;
所述关联模块包括:
第一查询子模块,用于针对所述第一类数据更新的第一更新内容,查询所述第二预处理结果,得到所述第一更新内容中的关联字段对应的所述第二预处理结果中的第二内容;
第一关联子模块,用于将所述第一更新内容与所述第二内容进行关联得到关联结果,并保存所述关联结果;
第二查询子模块,用于针对所述第二类数据更新的第二更新内容,查询所述关联结果,在未查询到所述第二更新内容中第二行键对应的记录时,查询所述第一预处理结果,得到所述第二更新内容中的关联字段对应的所述第一预处理结果中的第一内容;
第二关联子模块,用于将所述第二更新内容与所述第一内容进行关联,并将得到的结果保存至所述关联结果中。
6.根据权利要求5所述的数据关联装置,其特征在于,所述关联模块具体用于,通过所述第一类数据与所述第二类数据的关联字段,完成所述第一类数据与所述第二类数据的关联。
7.根据权利要求5或6所述的数据关联装置,其特征在于,所述关联模块具体用于将所述关联结果存储至第三方存储介质。
8.根据权利要求7所述的数据关联装置,其特征在于,所述第三方存储介质包括:Hbase数据库。
CN201710207342.4A 2017-03-31 2017-03-31 一种数据关联方法及装置 Active CN107169003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710207342.4A CN107169003B (zh) 2017-03-31 2017-03-31 一种数据关联方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710207342.4A CN107169003B (zh) 2017-03-31 2017-03-31 一种数据关联方法及装置

Publications (2)

Publication Number Publication Date
CN107169003A CN107169003A (zh) 2017-09-15
CN107169003B true CN107169003B (zh) 2020-05-22

Family

ID=59849096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710207342.4A Active CN107169003B (zh) 2017-03-31 2017-03-31 一种数据关联方法及装置

Country Status (1)

Country Link
CN (1) CN107169003B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832349B (zh) * 2017-10-18 2021-06-22 金蝶软件(中国)有限公司 一种业务对象的管理方法以及信息管理系统
CN109325055A (zh) * 2018-08-02 2019-02-12 阿里巴巴集团控股有限公司 业务关联数据表的筛选及核对方法、装置、电子设备
CN109726223B (zh) * 2018-12-30 2021-12-03 北京奇艺世纪科技有限公司 一种数据流的关联方法及装置
CN112328677B (zh) * 2021-01-05 2021-04-02 平安科技(深圳)有限公司 基于表关联的丢失数据回收方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689631B2 (en) * 2005-05-31 2010-03-30 Sap, Ag Method for utilizing audience-specific metadata
CN100383793C (zh) * 2006-03-17 2008-04-23 华为技术有限公司 一种在实时数据库中实现更新数据的方法和系统
CN102541952A (zh) * 2010-12-29 2012-07-04 北大方正集团有限公司 一种基于数据库获取历史数据的方法及装置
CN102508862A (zh) * 2011-09-29 2012-06-20 用友软件股份有限公司 数据扩展装置和数据扩展方法
CN104408159B (zh) * 2014-12-04 2018-01-16 曙光信息产业(北京)有限公司 一种数据关联、加载、查询方法及装置
CN105045830B (zh) * 2015-06-30 2018-08-07 北京奇艺世纪科技有限公司 一种数据关联方法及装置
CN106294792B (zh) * 2016-08-15 2019-05-31 上海携程商务有限公司 关联查询系统的建立方法及建立系统

Also Published As

Publication number Publication date
CN107169003A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
CN111459985B (zh) 标识信息处理方法及装置
US9639542B2 (en) Dynamic mapping of extensible datasets to relational database schemas
US8140495B2 (en) Asynchronous database index maintenance
CN107169003B (zh) 一种数据关联方法及装置
JP5328808B2 (ja) データをクラスタリングする方法、システム、装置およびその方法を適用するためのコンピュータ・プログラム
WO2015106711A1 (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
CN104750681B (zh) 一种海量数据的处理方法及装置
US10417265B2 (en) High performance parallel indexing for forensics and electronic discovery
US8924373B2 (en) Query plans with parameter markers in place of object identifiers
US9959326B2 (en) Annotating schema elements based on associating data instances with knowledge base entities
US20220083618A1 (en) Method And System For Scalable Search Using MicroService And Cloud Based Search With Records Indexes
US20150310129A1 (en) Method of managing database, management computer and storage medium
CN106611053B (zh) 一种数据清理、索引方法
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
US20220019739A1 (en) Item Recall Method and System, Electronic Device and Readable Storage Medium
CN108319608A (zh) 访问日志存储查询的方法、装置及系统
CN108984626B (zh) 一种数据处理方法、装置及服务器
US8799329B2 (en) Asynchronously flattening graphs in relational stores
CN105354283A (zh) 一种资源的搜索方法和装置
CN107291938A (zh) 订单查询系统及方法
CN111897837B (zh) 数据查询方法、装置、设备和介质
CN105005619A (zh) 一种海量网站基础信息的快速检索方法和系统
CN109542912B (zh) 区间数据存储方法、装置、服务器及存储介质
US20170242880A1 (en) B-tree index structure with grouped index leaf pages and computer-implemented method for modifying the same
US8805820B1 (en) Systems and methods for facilitating searches involving multiple indexes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant