CN110727654B - 分布式系统的数据提取方法、装置、服务器和存储介质 - Google Patents

分布式系统的数据提取方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN110727654B
CN110727654B CN201911018401.9A CN201911018401A CN110727654B CN 110727654 B CN110727654 B CN 110727654B CN 201911018401 A CN201911018401 A CN 201911018401A CN 110727654 B CN110727654 B CN 110727654B
Authority
CN
China
Prior art keywords
data
relation
node
connecting line
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911018401.9A
Other languages
English (en)
Other versions
CN110727654A (zh
Inventor
张超
刘涛
张志远
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201911018401.9A priority Critical patent/CN110727654B/zh
Publication of CN110727654A publication Critical patent/CN110727654A/zh
Application granted granted Critical
Publication of CN110727654B publication Critical patent/CN110727654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了分布式系统的数据提取方法,包括:从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系;获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系;对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果;根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储发明名称。还公开了分布式系统的数据提取装置、服务器和存储介质。本发明通过将新增数据和历史数据进行合并,使增量数据的数据关系更快捷提取。

Description

分布式系统的数据提取方法、装置、服务器和存储介质
技术领域
本发明实施例涉及数据提取技术,尤其涉及一种分布式系统的数据提取方法、装置、服务器和存储介质。
背景技术
随着计算机技术的发展,系统需要处理的数据量一直在不断增长,需要提取的数据之间的关联关系也越来越多。
现有技术采用全量数据提取,当数据量较大时,在一个定时周期内无法完成大量增量数据提取,数据先全量存储后定时批处理全量提取关联关系的方式需要的处理时间很长,很可能出现在一个定时周期内不能够完成全量数据提取的情况,需要采用一种增量处理的方式解决大量数据提取的问题。
发明内容
本发明提供一种分布式系统的数据提取方法、装置、服务器和存储介质,以实现在分布式系统中方便快速提取增量数据。
第一方面,本发明实施例提供了一种分布式系统的数据提取方法,包括如下步骤:
从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系;
获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系;
对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果;
根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储。
第二方面,本发明实施例还提供了一种分布式系统的数据提取装置,其特征在于,包括如下模块:
第一获取模块,用于从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系;
第二获取模块,用于获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系;
匹配模块,用于对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果;
存储模块,用于根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储。
第三方面,本发明实施例还提供了一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如上述任一所述的分布式系统的数据提取方法。
第四方面,本发明实施例还提供了一种终端可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时能够实现如上述任一所述的分布式系统的数据提取方法。
本发明通过从新增数据中提取第一数据和第一数据关系、从历史数据中获取第二数据和第二数据关系,将新增数据与历史数据进行匹配,将新增数据的数据关系与历史数据的数据关系相匹配,生成新的总量数据和新的总量数据关系并保存,实现了在分布式系统中对大量新增数据的数据和数据关系的提取,使数据提取减少耗时,更快捷。
附图说明
图1是本发明实施例一中的分布式系统的数据提取方法的流程图。
图2是本发明实施例二中的分布式系统的数据提取方法的流程图。
图3是本发明实施例三中的分布式系统的数据提取方法的流程图。
图4是本发明实施例三中的第一关系图。
图5是本发明实施例三中的第二关系图。
图6是本发明实施例三中的第三关系图。
图7是本发明实施例四中的分布式系统的数据提取装置的模块图。
图8是本发明实施例四替代实施例中的分布式系统的数据提取装置的模块图。
图9是本发明实施例五中的服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,第一数据可以为第二数据或第三数据,且类似地,第二数据、第三数据可以为第一数据。第一数据和第二数据或第三数据是指不同阶段的数据,但其不是同一数据。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”、“批量”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
图1为本发明实施例一提供的一种分布式系统的数据提取方法的流程图,本实施例可适用于新增数据与历史数据进行合并的情况。
具体包括如下步骤:
S101、从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系。
本实施例的关联关系是数据的相互依赖和影响关系,示例性地,比如现有某学校三个数据表:学生(学号,姓名),课程(课程名,课程编号),选课 (学号,课程号,成绩),则选课表中的“学号”,“课程号”一定与学生的学号、姓名以及课程中的课程名和编号对应,当学生姓名被删除或课程名被删除,选课表中的相应学号或课程号必须关联删除,这就是数据之间的关联关系,通过提取具有关联关系的数据,能够保证数据的完整性。
新增数据指的是咋分布式文件系统中从消息队列新抽取的数据,由于分布式系统的消息队列有一个或多个,分布在不同的服务器上,因此“从新增数据中提取第一数据和第一数据关系”的步骤,可以但不限于指一个或多个处理单元从一个或多个消息队列中依照一定次序抽取的数据。
在该步骤中,第一数据指的是新增数据中符合数据提取规则的数据,第一数据关系指的是新增数据中第一数据的关联关系。
该步骤中,可选地,从新增数据中提取第一数据和第一数据关系需要使用预设的数据提取规则,包括基于第一数据模板,从所述新增数据中提取第一数据;基于第一关系模板,从所述新增数据中提取第一数据关系。示例性地,新增数据中包含发送设备id,接收设备id,发送时间和接收时间等信息,则发送设备id和接收设备id提取为第一数据,发送设备的发送时间和接收设备的接收时间为第一数据关系。
S102、获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系。
该步骤中,历史数据是指文件系统在新增数据之前保存的数据,该步骤的数据抽取过程与上述步骤S101、类似。
S103、对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果。
该步骤中,将第一数据和第二数据进行匹配的目的是为了对比得出新增数据中有哪些数据信息为历史数据中未保存的内容。
S104、根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储。
本实施例通过将历史数据与新增数据合并,将新增数据与历史数据进行匹配,将新增数据的数据关系与历史数据的数据关系相匹配,生成新的总量数据和新的总量数据关系并保存,实现了在分布式系统中对大量新增数据的数据和数据关系的提取,使数据提取减少耗时,更快捷。
实施例二
如图2所示,本实施例提供了一种分布式系统的数据提取方法,在上述实施例的基础上增加了新增数据与历史数据匹配的具体步骤,如下:
S201、从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系;
S202、获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系;
S2031、将所述第一数据与第二数据依次进行比对,判断每个所述第一数据与所述第二数据是否重复;
S2032、若重复,则删去所述第一数据,将所述第二数据保存为所述第三数据;
S2033、若不重复,则将所述第一数据与所述第二数据合并为所述第三数据;
该步骤的第三数据指的是总体数据。若第一数据与第二数据不重复,则表明第一数据为初次出现的数据,可以直接并入第三数据中,若第一数据与第二数据重复,则表明第一数据不是初次出现的数据,因此将已有的第二数据记为总体数据。
S2034、将所述第一数据关系与第二数据关系依次进行比对,判断每个所述第一数据关系与所述第二数据关系是否重复;
S2035、若重复,则删去所述第一数据关系,将所述第二数据关系保存为所述第三数据关系;
S2036、若不重复,则将所述第一数据关系与所述第二数据关系合并为所述第三数据关系。
上述步骤S2034-S2036与步骤S2031-2033的过程类似,此处不再赘述。
S204、根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储。
在替代实施例中,在所述根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储之前,还增加了如下步骤:在所述第三数据中标记所述第一数据和第一数据关系。目的是在总体数据中标记出与历史数据不重复的数据,便于进行增量数据的分析和查询。
该步骤中,可选地,系统可以存储新增数据与历史数据合并形成的总体数据,或仅存储新增数据,或存储标记出新增数据的总体数据。数据提取的结果可根据需求转换为适于保存的格式,如数据文本或表格。本实施例所述的方法可以同时提取多个消息队列的信息进行处理并保存。管理人员根据需要可调整存储的数据格式,使存储方式能直观表明数据信息,方便进行数据的归档、整理、分析和查询。
本实施例通过将第一数据与第二数据对比,第一数据关系与第二数据关系对比,以达到将新增数据与历史数据进行合并,实现了在分布式系统中对大量新增数据的数据和数据关系的提取,使数据提取减少耗时,更快捷。
实施例三
如图3所示,本实施例提供了一种分布式系统的数据提取方法,对上述实施例中第一数据与第二数据进行匹配,第一数据关系和第二数据关系进行匹配以生成匹配结果的步骤进行了细化,通过绘制关系图的方式来实现,具体步骤如下:
S301、从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系。
S302、获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系。
S3031、以所述第一数据作为第一节点,以所述第一数据关系作为第一连接线。
S3032、将所述第一节点和第一连接线组成第一关系图。
如图4所示,示例性地,第一数据包括第一节点A和第一节点B,第一数据关系包括第一连接线AB,第一节点和第一连接线组成第一关系图。
S3033、以所述第二数据作为第二节点,以所述第二数据关系作为第二连接线。
S3034、将所述第二节点和第二连接线组成第二关系图。
如图5所示,示例性地,第二数据包括第二节点A、第二节点C和第二节点D,第二数据关系包括第二连接线AD和第二连接线CD,第二节点和第二连接线组成第二关系图。
S3041、将所述第一节点与第二节点依次进行比对,判断每个所述第一节点与所述第二节点是否重复。
S3042、若重复,则删去所述第一节点,将所述第二节点保存为第三节点。
S3043、若不重复,则将所述第一节点与所述第二节点合并为所述第三节点。
如图6所示,示例性地,第一节点A与第二节点A重复,则删去第一节点 A,将第二节点A保存为第三节点A;第一节点B与第二节点不重复,则将第一节点B与第二节点合并为第三节点B、第三节点C和第三节点D。
S3044、将所述第一连接线与第二连接线依次进行比对,判断每个所述第一连接线与所述第二连接线是否重复。
S3045、若重复,则删去所述第一连接线,将所述第二连接线保存为所述第三连接线。
S3046、若不重复,则将所述第一连接线与所述第二连接线合并为所述第三连接线。
如图6所示,示例性地,第一连接线AB与第二连接线AD、第二连接线CD 不重复,将第一连接线AB与第二连接线AD、第二连接线CD合并为第三连接线 AB、第三连接线AD、第三连接线CD。
S3047、基于所述第三节点和第三连接线生成第三关系图。
如图6所示,将第三节点和第三连接线组合成为第三关系图,第三关系图展示了数据A、B、C、D和数据A、B、C、D之间的关联关系。
S305、根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储。
本实施例在将第一数据与第二数据对比,第一数据关系与第二数据关系对比的过程中,采用将数据和数据关系抽象为关系图的方式,即将数据抽象为节点,数据关系抽象为连接关系,使新增数据与历史数据的合并过程更加直观,提高了数据合并的效率。
实施例四
如图7所示,本实施例提供了一种分布式系统的数据提取装置4,具体包括如下模块:
第一获取模块401,用于从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系;
第二获取模块402,用于获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系;
匹配模块403,用于对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果;
存储模块404,用于根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储。
如图8所示,在替代实施例中,第一获取模块401包括:
第一提取单元4011,用于基于第一数据模板,从所述新增数据中提取第一数据;
第二提取单元4012,用于基于第一关系模板,从所述新增数据中提取第一数据关系。
在替代实施例中,所述匹配模块403包括:
第一判断单元4031,用于将所述第一数据与第二数据依次进行比对,判断每个所述第一数据与所述第二数据是否重复;
第一生成单元4032,用于若重复,则删去所述第一数据,将所述第二数据保存为所述第三数据;
若不重复,则将所述第一数据与所述第二数据合并为所述第三数据;
第二判断单元4033,用于将所述第一数据关系与第二数据关系依次进行比对,判断每个所述第一数据关系与所述第二数据关系是否重复;
第二生成单元4034,用于若重复,则删去所述第一数据关系,将所述第二数据关系保存为所述第三数据关系;
若不重复,则将所述第一数据关系与所述第二数据关系合并为所述第三数据关系。
在替代实施例中,还包括标记模块405,用于在所述第三数据中标记所述第一数据和第一数据关系。
在替代实施例中,还包括关系图绘制模块,其包括如下单元:
第一关系图单元4061:用于以所述第一数据作为第一节点;以所述第一数据关系作为第一连接线;将所述第一节点和第一连接线组成第一关系图;
第二关系图单元4062,用于以所述第二数据作为第二节点;以所述第二数据关系作为第二连接线;将所述第二节点和第二连接线组成第二关系图。
在替代实施例中,具体包括:
节点对比单元4063,用于将所述第一节点与第二节点依次进行比对,判断每个所述第一节点与所述第二节点是否重复;
节点生成单元4064,用于若重复,则删去所述第一节点,将所述第二节点保存为第三节点;
若不重复,则将所述第一节点与所述第二节点合并为所述第三节点;
连接线对比单元4065,用于将所述第一连接线与第二连接线依次进行比对,判断每个所述第一连接线与所述第二连接线是否重复;
连接线生成单元4066,用于若重复,则删去所述第一连接线,将所述第二连接线保存为所述第三连接线;
若不重复,则将所述第一连接线与所述第二连接线合并为所述第三连接线;
第三关系图单元4067,用于基于所述第三节点和第三连接线生成第三关系图。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例五
本实施例提供了一种服务器的结构示意图,如图9所示,该服务器包括处理器501、存储器502、输入装置503和输出装置504;服务器中处理器501的数量可以是一个或多个,图中以一个处理器501为例;设备/终端/服务器中的处理器501、存储器502、输入装置503和输出装置504可以通过总线或其他方式连接,图9中以通过总线连接为例。
存储器502作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的主题更新方法对应的程序指令/模块 (例如第一获取模块401,第二获取模块402等)。处理器501通过运行存储在存储器502中的软件程序、指令以及模块,从而执行设备/终端/服务器的各种功能应用以及数据处理,即实现上述的分布式系统的数据提取方法。
存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器502可进一步包括相对于处理器501 远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置503可用于接收输入的数字或字符信息,以及产生与设备/终端/ 服务器的用户设置以及功能控制有关的键信号输入。输出装置504可包括显示屏等显示设备。
本发明实施例五通过提供一种服务器,可执行本发明任意实施例所提供的分布式系统的数据提取方法,具备执行方法相应的功能模块和有益效果。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的一种分布式系统的数据提取方法,该方法可以包括:
从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系;
获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系;
对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果;
根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种分布式系统的数据提取方法,其特征在于,包括:
从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系;
获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系;
对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果;
根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储;
所述对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果之前,包括:
以所述第一数据作为第一节点;
以所述第一数据关系作为第一连接线;
将所述第一节点和第一连接线组成第一关系图;
以所述第二数据作为第二节点;
以所述第二数据关系作为第二连接线;
将所述第二节点和第二连接线组成第二关系图;
所述对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果,包括:
将所述第一节点与第二节点依次进行比对,判断每个所述第一节点与所述第二节点是否重复;
若重复,则删去所述第一节点,将所述第二节点保存为第三节点;
若不重复,则将所述第一节点与所述第二节点合并为所述第三节点;
将所述第一连接线与第二连接线依次进行比对,判断每个所述第一连接线与所述第二连接线是否重复;
若重复,则删去所述第一连接线,将所述第二连接线保存为第三连接线;
若不重复,则将所述第一连接线与所述第二连接线合并为所述第三连接线;
基于所述第三节点和第三连接线生成第三关系图。
2.根据权利要求1所述的分布式系统的数据提取方法,其特征在于,所述对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果,包括:
将所述第一数据与第二数据依次进行比对,判断每个所述第一数据与所述第二数据是否重复;
若重复,则删去所述第一数据,将所述第二数据保存为第三数据;
若不重复,则将所述第一数据与所述第二数据合并为所述第三数据;
将所述第一数据关系与第二数据关系依次进行比对,判断每个所述第一数据关系与所述第二数据关系是否重复;
若重复,则删去所述第一数据关系,将所述第二数据关系保存为所述第三数据关系;
若不重复,则将所述第一数据关系与所述第二数据关系合并为所述第三数据关系。
3.根据权利要求2所述的分布式系统的数据提取方法,其特征在于,在所述根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储之前,还包括:
在所述第三数据中标记所述第一数据和第一数据关系。
4.根据权利要求1所述的分布式系统的数据提取方法,其特征在于,所述从新增数据中提取第一数据和第一数据关系,包括:
基于第一数据模板,从所述新增数据中提取第一数据;
基于第一关系模板,从所述新增数据中提取第一数据关系。
5.一种分布式系统的数据提取装置,其特征在于,包括如下模块:
第一获取模块,用于从新增数据中提取第一数据和第一数据关系,所述第一数据关系为第一数据之间的第一关联关系;
第二获取模块,用于获取历史数据,所述历史数据包括第二数据和第二数据关系,所述第二数据关系为第二数据之间的第二关联关系;
匹配模块,用于对所述第一数据和第二数据进行匹配,同时对所述第一数据关系和第二数据关系进行匹配,以生成匹配结果;
存储模块,用于根据所述匹配结果将所述新增数据和所述历史数据合并后进行存储;
关系图绘制模块包括:
第一关系图单元,用于以所述第一数据作为第一节点;以所述第一数据关系作为第一连接线;将所述第一节点和第一连接线组成第一关系图;
第二关系图单元,用于以所述第二数据作为第二节点;以所述第二数据关系作为第二连接线;将所述第二节点和第二连接线组成第二关系图;
节点对比单元,用于将所述第一节点与第二节点依次进行比对,判断每个所述第一节点与所述第二节点是否重复;
节点生成单元,用于若重复,则删去所述第一节点,将所述第二节点保存为第三节点;若不重复,则将所述第一节点与所述第二节点合并为所述第三节点;
连接线对比单元,用于将所述第一连接线与第二连接线依次进行比对,判断每个所述第一连接线与所述第二连接线是否重复;
连接线生成单元,用于若重复,则删去所述第一连接线,将所述第二连接线保存为第三连接线;若不重复,则将所述第一连接线与所述第二连接线合并为所述第三连接线;
第三关系图单元,用于基于所述第三节点和第三连接线生成第三关系图。
6.根据权利要求5 所述的分布式系统的数据提取装置,其特征在于,所述匹配模块包括:
第一判断单元,用于将所述第一数据与第二数据依次进行比对,判断每个所述第一数据与所述第二数据是否重复;
第一生成单元,用于若重复,则删去所述第一数据,将所述第二数据保存为第三数据;
若不重复,则将所述第一数据与所述第二数据合并为所述第三数据;
第二判断单元,用于将所述第一数据关系与第二数据关系依次进行比对,判断每个所述第一数据关系与所述第二数据关系是否重复;
第二生成单元,用于若重复,则删去所述第一数据关系,将所述第二数据关系保存为所述第三数据关系;
若不重复,则将所述第一数据关系与所述第二数据关系合并为所述第三数据关系。
7.一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一所述的分布式系统的数据提取方法。
8.一种终端可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时能够实现如权利要求1-4任一所述的分布式系统的数据提取方法。
CN201911018401.9A 2019-10-24 2019-10-24 分布式系统的数据提取方法、装置、服务器和存储介质 Active CN110727654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911018401.9A CN110727654B (zh) 2019-10-24 2019-10-24 分布式系统的数据提取方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911018401.9A CN110727654B (zh) 2019-10-24 2019-10-24 分布式系统的数据提取方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN110727654A CN110727654A (zh) 2020-01-24
CN110727654B true CN110727654B (zh) 2022-02-18

Family

ID=69222001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911018401.9A Active CN110727654B (zh) 2019-10-24 2019-10-24 分布式系统的数据提取方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN110727654B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和系统及存储装置
CN103514235A (zh) * 2012-06-30 2014-01-15 北京百度网讯科技有限公司 一种增量码库的建立方法和装置
CN104050234A (zh) * 2013-03-15 2014-09-17 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
CN105045881A (zh) * 2015-07-21 2015-11-11 上海融甸信息科技有限公司 一种历史数据新增方法
CN106407207A (zh) * 2015-07-29 2017-02-15 阿里巴巴集团控股有限公司 一种实时新增数据更新方法和装置
CN107239226A (zh) * 2016-03-29 2017-10-10 联想(北京)有限公司 一种数据去重方法及终端、服务器
CN107547912A (zh) * 2017-09-01 2018-01-05 深圳创维数字技术有限公司 一种全媒资的资源处理方法、系统和存储介质
CN109741184A (zh) * 2018-12-30 2019-05-10 深圳乐信软件技术有限公司 融资数据的管理方法、装置、服务器和存储介质
CN109935290A (zh) * 2019-03-20 2019-06-25 杭州卓健信息科技有限公司 一种基于大数据分析的药品匹配系统及其匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9471660B2 (en) * 2014-03-13 2016-10-18 Sybase, Inc. Partition lookup and state synchronization

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514235A (zh) * 2012-06-30 2014-01-15 北京百度网讯科技有限公司 一种增量码库的建立方法和装置
CN104050234A (zh) * 2013-03-15 2014-09-17 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和系统及存储装置
CN105045881A (zh) * 2015-07-21 2015-11-11 上海融甸信息科技有限公司 一种历史数据新增方法
CN106407207A (zh) * 2015-07-29 2017-02-15 阿里巴巴集团控股有限公司 一种实时新增数据更新方法和装置
CN107239226A (zh) * 2016-03-29 2017-10-10 联想(北京)有限公司 一种数据去重方法及终端、服务器
CN107547912A (zh) * 2017-09-01 2018-01-05 深圳创维数字技术有限公司 一种全媒资的资源处理方法、系统和存储介质
CN109741184A (zh) * 2018-12-30 2019-05-10 深圳乐信软件技术有限公司 融资数据的管理方法、装置、服务器和存储介质
CN109935290A (zh) * 2019-03-20 2019-06-25 杭州卓健信息科技有限公司 一种基于大数据分析的药品匹配系统及其匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于众源轨迹数据的人造地表覆盖增量信息提取;高永伟等;《地理信息世界》;20170630;第24卷(第3期);第42-48页 *

Also Published As

Publication number Publication date
CN110727654A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN109508326B (zh) 用于处理数据的方法、装置和系统
CN110321544B (zh) 用于生成信息的方法和装置
EP3279816A1 (en) Data analysis processing method, apparatus, computer device, and storage medium
CN112711581A (zh) 医疗数据校验方法、装置、电子设备及存储介质
CN114528044B (zh) 一种接口调用方法、装置、设备及介质
CN109543154B (zh) 表格数据的类型转换方法、装置、存储介质及电子设备
CN112084179B (zh) 一种数据处理的方法、装置、设备及存储介质
CN111857720B (zh) 用户界面状态信息的生成方法、装置、电子设备及介质
CN112948486A (zh) 批量数据同步方法、系统及电子设备
CN113282611A (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN113254767A (zh) 大数据搜索方法、装置、计算机设备及存储介质
CN108153896B (zh) 针对输入数据、输出数据的处理方法及装置
CN112818026A (zh) 数据整合方法和装置
CN114356962A (zh) 一种数据查询方法、装置、电子设备和存储介质
CN113190517A (zh) 数据集成方法、装置、电子设备和计算机可读介质
CN112860662A (zh) 数据血缘关系建立方法、装置、计算机设备及存储介质
CN108959343A (zh) 一种文字修改的方法及装置
CN110727654B (zh) 分布式系统的数据提取方法、装置、服务器和存储介质
CN117314139A (zh) 业务流程的建模方法、装置、终端设备及存储介质
CN112948138A (zh) 一种处理消息的方法和装置
CN110941658A (zh) 一种数据导出方法、装置、服务器及存储介质
CN115793911A (zh) 数据处理方法、装置、电子设备及存储介质
CN111143355B (zh) 数据处理方法及装置
CN114490718A (zh) 数据输出方法、装置、电子设备和计算机可读介质
CN113393288A (zh) 订单处理信息生成方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant