CN114647652A - 数据抽取方法、装置、电子设备和计算机可读介质 - Google Patents

数据抽取方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN114647652A
CN114647652A CN202210133671.XA CN202210133671A CN114647652A CN 114647652 A CN114647652 A CN 114647652A CN 202210133671 A CN202210133671 A CN 202210133671A CN 114647652 A CN114647652 A CN 114647652A
Authority
CN
China
Prior art keywords
target
data set
target data
query
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210133671.XA
Other languages
English (en)
Inventor
孙静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Zhenshi Information Technology Co Ltd filed Critical Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority to CN202210133671.XA priority Critical patent/CN114647652A/zh
Publication of CN114647652A publication Critical patent/CN114647652A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • G06F16/2315Optimistic concurrency control
    • G06F16/2322Optimistic concurrency control using timestamps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例公开了数据抽取方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:利用守护进程,检测目标数据集抽取任务是否完成;响应于检测到该目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化,其中,该目标时间戳为该目标数据集抽取任务启动或在执行该目标数据集抽取任务过程中从数据库查询目标数据集的时间戳;响应于确定该目标时间戳在该第一时长内未发生变化,再次执行该目标数据集抽取任务,以及对该目标时间戳进行更新。该实施方式可以快捷、高效地实现目标数据集的抽取。

Description

数据抽取方法、装置、电子设备和计算机可读介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及数据抽取方法、装置、电子设备和计算机可读介质。
背景技术
目前,各个公司在执行某种业务时,常常需要获取某一时刻的静态库存数据才能完成上述业务。因此,库存快照的稳定性和准确性对于各个公司来说是至关重要的。对于库存快照的获取,通常采用的方式为:配置一个任务定时去数据库定时采集数据以获取库存快照。
然而,当采用上述方式来获取库存快照,经常会存在如下技术问题:
当系统出现宕机或者数据库出现连接超时,不能准确地生成库存快照。即使后续生成库存快照,也存在耗时耗力的问题。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了数据抽取方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题。
第一方面,本公开的一些实施例提供了一种数据抽取方法,包括:利用守护进程,检测目标数据集抽取任务是否完成;响应于检测到上述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化,其中,上述目标时间戳为上述目标数据集抽取任务启动或在执行上述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳;响应于确定上述目标时间戳在上述第一时长内未发生变化,再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。
可选地,上述再次执行上述目标数据集抽取任务,包括:将第一目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集;响应于确定上述第一目标数据库对应的第一目标数据集查询失败次数达到第一数目,以及各次目标数据集查询的任务版本信息相同,将第二目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集;响应于确定上述第二目标数据库对应的第二目标数据集查询失败次数小于第二数目,以及各次目标数据集查询的任务版本信息相同,从上述第二目标数据库中抽取上述目标数据集,以及将上述目标数据集发送至目标消息队列。
可选地,上述方法还包括:对上述目标数据集中的每个数据添加主键信息,得到添加后的数据集;将上述添加后的数据集的数据量确定为第一数据量,以及将上述目标消息队列中目标数据集的数据量确定为第二数据量;响应于上述第一数据量等于上述第二数据量,对上述添加后的数据集进行数据校验。
可选地,上述方法还包括:响应于确定上述第一目标数据集查询失败次数小于上述第一数目以及各次目标数据集查询的上述任务版本信息相同,继续从上述第一目标数据库中查询上述目标数据集。
可选地,上述方法还包括:响应于确定上述第一目标数据库对应的各次目标数据集查询的任务版本信息不相同或上述第二目标数据库对应的各次目标数据集查询的任务版本信息不相同,结束再次执行的上述目标数据集抽取任务。
可选地,上述对上述添加后的数据集进行数据校验,包括:基于上述第一目标数据库中的数据集或上述第二目标数据库的数据集,利用预设数据校验方法来对上述添加后的数据集进行数据校验。
可选地,上述方法还包括:针对每次上述第一目标数据库查询上述目标数据集或每次上述第二目标数据库查询上述目标数据集,对更新后的目标时间戳进行再次更新。
可选地,通过以下步骤来确定上述第一目标数据库是否查询数据集失败:响应于确定上述第一目标数据库查询上述目标数据集的查询时长大于第二时长,生成表征上述第一目标数据库查询上述目标数据集失败的信息。
可选地,通过以下步骤来确定上述第二目标数据库是否查询数据集失败:响应于确定上述第二目标数据库查询上述目标数据集的查询时长大于第三时长,生成表征上述第二目标数据库查询上述目标数据集失败的信息。
第二方面,本公开的一些实施例提供了一种数据抽取装置,包括:检测单元,被配置成利用守护进程,检测目标数据集抽取任务是否完成;确定单元,被配置成响应于检测到上述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化,其中,上述目标时间戳为上述目标数据集抽取任务启动或在执行上述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳;执行更新单元,被配置成响应于确定上述目标时间戳在上述第一时长内未发生变化,再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。
可选地,上述装置还包括:响应于检测到再次执行上述目标数据集抽取任务,对任务版本信息进行更新。
可选地,执行更新单元被配置成:将第一目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集;响应于确定上述第一目标数据库对应的第一目标数据集查询失败次数达到第一数目,以及各次目标数据集查询的任务版本信息相同,将第二目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集;响应于确定上述第二目标数据库对应的第二目标数据集查询失败次数小于第二数目,以及各次目标数据集查询的任务版本信息相同,从上述第二目标数据库中抽取上述目标数据集,以及将上述目标数据集发送至目标消息队列。
可选地,上述装置还包括:对上述目标数据集中的每个数据添加主键信息,得到添加后的数据集;将上述添加后的数据集的数据量确定为第一数据量,以及将上述目标消息队列中目标数据集的数据量确定为第二数据量;响应于上述第一数据量等于上述第二数据量,对上述添加后的数据集进行数据校验。
可选地,上述装置还包括:响应于确定上述第一目标数据集查询失败次数小于上述第一数目以及各次目标数据集查询的上述任务版本信息相同,继续从上述第一目标数据库中查询上述目标数据集。
可选地,上述装置还包括:响应于确定上述第二目标数据集查询失败次数达到上述第二数目或上述添加后的数据集未通过数据校验,执行与报警信息对应的目标操作。
可选地,上述装置还包括:响应于确定上述第一目标数据库对应的各次目标数据集查询的任务版本信息不相同或上述第二目标数据库对应的各次目标数据集查询的任务版本信息不相同,结束再次执行的上述目标数据集抽取任务。
可选地,上述装置还包括:将上述添加后的数据集写入至上述第一目标数据库和/或上述第二目标数据库。
可选地,上述装置还包括:基于上述第一目标数据库中的数据集或上述第二目标数据库的数据集,利用预设数据校验方法来对上述添加后的数据集进行数据校验。
可选地,上述装置还包括:针对每次上述第一目标数据库查询上述目标数据集或每次上述第二目标数据库查询上述目标数据集,对更新后的目标时间戳进行再次更新。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开的上述各个实施例中具有如下有益效果:本公开的一些实施例的数据抽取方法可以快捷、高效地实现目标数据集的抽取。具体来说,当系统出现宕机或者数据库出现连接超时,不能准确地生成库存快照。即使后续生成库存快照,也存在耗时耗力的问题。基于此,本公开的一些实施例的数据抽取方法可以首先利用守护进程,检测目标数据集抽取任务是否完成。在这里,通过守护线程时刻检测目标数据集抽取任务是否完成可以提高后续在目标数据集抽取任务未完成时,对目标时间戳的监督。然后,响应于检测到上述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化。其中,上述目标时间戳为上述目标数据集抽取任务启动或在执行上述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳。需要说明的是,通过确定目标时间戳在第一时长内是否发生变化可以有效的避免目标数据集抽取任务过程中出现的各种问题,例如,系统宕机问题,数据库连接不上的问题等等。由此,大大提高了数据抽取的效率。最后,响应于确定上述目标时间戳在上述第一时长内未发生变化,再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。在这里,上述目标时间戳在上述第一时长内未发生变化可以表征目标数据集抽取任务过程中出现了一些问题,导致目标数据集抽取任务一直没有进展或进展较慢。由此,需要再次执行上述目标数据集抽取任务以进一步进行数据集的抽取。进一步提高了数据集抽取效率。除此之外,对上述目标时间戳进行更新,以后续通过守护进程监督再次执行的目标数据集抽取任务是否在执行过程中出现一些问题,保障了数据集的高效抽取。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的一些实施例的数据抽取方法的一个应用场景的示意图;
图2是根据本公开的数据抽取方法的一些实施例的流程图;
图3是根据本公开的数据抽取方法的另一些实施例的流程图;
图4是根据本公开的数据抽取方法的一些实施例中的目标时间戳发生变化的示意图;
图5是根据本公开的数据抽取装置的一些实施例的结构示意图;
图6是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开一些实施例的数据抽取方法的一个应用场景的示意图。
在图1的应用场景中,电子设备101可以首先利用守护进程102,检测目标数据集抽取任务103是否完成。然后,响应于检测到上述目标数据集抽取任务103未完成,确定目标时间戳104在第一时长105内是否发生变化。其中,上述目标时间戳104为上述目标数据集抽取任务103启动或在执行上述目标数据集抽取任务103过程中从数据库查询目标数据集的时间戳。最后,响应于确定上述目标时间戳104在上述第一时长105内未发生变化,再次执行上述目标数据集抽取任务103,以及对上述目标时间戳104进行更新,得到更新后的目标时间戳106。
需要说明的是,上述电子设备101可以是硬件,也可以是软件。当电子设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当电子设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的电子设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的电子设备。
继续参考图2,示出了根据本公开的数据抽取方法的一些实施例的流程200。该数据抽取方法,包括以下步骤:
步骤201,利用守护进程,检测目标数据集抽取任务是否完成。
在一些实施例中,上述数据抽取方法的执行主体(例如图1所示的电子设备101)可以利用守护进程,时刻检测目标数据集抽取任务是否完成。其中,上述守护进程可以是程序运行时在后台提供通用服务的线程,例如垃圾回收进程。上述目标数据集抽取任务可以是针对目标数据集的抽取任务。目标数据集的抽取任务可以对应着库存快照的获取。上述目标数据集可以是在各个数据库中进行抽取。
可选地,响应于守护进程检测到目标数据集抽取任务的完成,将上述目标数据集抽取任务对应的任务状态可以更新为:“任务完成”。
可选地,在目标数据集抽取任务对应的任务状态为“任务完成”时,经过一定时间后,上述执行主体可以重新启动上述目标数据集抽取任务的完成以周期性的获取库存快照。
步骤202,响应于检测到上述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化。
在一些实施例中,响应于检测到上述目标数据集抽取任务未完成,上述执行主体可以确定目标时间戳在第一时长内是否发生变化。其中,上述目标时间戳为上述目标数据集抽取任务启动或在执行上述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳。上述第一时长可以是预先设置的。例如,30s。上述数据库可以是用于查询目标数据集的各种数据库。例如,MySQL(关系型数据库管理系统)。其中,在目标数据集抽取任务中可以包括:目标数据集的查询和目标数据集的抽取。
作为示例,响应于守护进程检测到上述目标数据集抽取任务未完成,利用守护进程可以确定目标时间戳在第一时长内是否发生变化。
步骤203,响应于确定上述目标时间戳在上述第一时长内未发生变化,再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。
在一些实施例中,响应于确定上述目标时间戳在上述第一时长内未发生变化,上述执行主体可以再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。
需要说明的是,再次执行上述目标数据集抽取任务不是使得还未结束的目标数据集抽取任务结束,重新启动这个还未结束的目标数据集抽取任务。而是,在未结束的目标数据集抽取任务继续进行的过程中,又一次执行目标数据集抽取任务。
在这里,对目标时间戳进行更新以用户后续守护进程监督再次执行的目标数据集抽取任务的执行。
可选地,响应于检测到再次执行上述目标数据集抽取任务,执行主体可以对任务版本信息进行更新。其中,上述任务版本信息可以表征当前目标数据抽取任务对应的执行版本信息。更新后的任务版本信息可以是再次执行的目标数据集抽取任务的任务版本信息。作为示例,上述任务版本信息可以是标识值。例如,任务版本信息可以是:“1.3.4”。
作为示例,响应于检测到再次执行上述目标数据集抽取任务,上述执行主体可以将任务版本信息由“1.3.4”更新为“1.3.5”。
本公开的上述各个实施例中具有如下有益效果:本公开的一些实施例的数据抽取方法可以快捷、高效地实现目标数据集的抽取。具体来说,当系统出现宕机或者数据库出现连接超时,不能准确地生成库存快照。即使后续生成库存快照,也存在耗时耗力的问题。基于此,本公开的一些实施例的数据抽取方法可以首先利用守护进程,检测目标数据集抽取任务是否完成。在这里,通过守护线程时刻检测目标数据集抽取任务是否完成可以提高后续在目标数据集抽取任务未完成时,对目标时间戳的监督。然后,响应于检测到上述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化。其中,上述目标时间戳为上述目标数据集抽取任务启动或在执行上述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳。需要说明的是,通过确定目标时间戳在第一时长内是否发生变化可以有效的避免目标数据集抽取任务过程中出现的各种问题,例如,系统宕机问题,数据库连接不上的问题等等。由此,大大提高了数据抽取的效率。最后,响应于确定上述目标时间戳在上述第一时长内未发生变化,再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。在这里,上述目标时间戳在上述第一时长内未发生变化可以表征目标数据集抽取任务过程中出现了一些问题,导致目标数据集抽取任务一直没有进展或进展较慢。由此,需要再次执行上述目标数据集抽取任务以进一步进行数据集的抽取。进一步提高了数据集抽取效率。除此之外,对上述目标时间戳进行更新,以后续通过守护进程监督再次执行的目标数据集抽取任务是否在执行过程中出现一些问题,保障了数据集的高效抽取。
进一步参考图3,示出了根据本公开的数据抽取方法的另一些实施例的流程300。该数据抽取方法,包括以下步骤:
步骤301,利用守护进程,检测目标数据集抽取任务是否完成。
步骤302,响应于检测到上述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化。
步骤303,响应于确定上述目标时间戳在上述第一时长内未发生变化,再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。
在一些实施例中,步骤301-303的具体实现及其所带来的技术效果,可以参考图2对应的实施例中的步骤201-203,在此不再赘述。
步骤304,将第一目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集。
在一些实施例中,执行主体(例如图1所示的电子设备101)可以将第一目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集。
作为示例,上述执行主体可以将MySQL数据库确定为上述目标数据集的查询数据源以查询上述目标数据集。
步骤305,响应于确定上述第一目标数据库对应的第一目标数据集查询失败次数达到第一数目,以及各次目标数据集查询的任务版本信息相同,将第二目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集。
在一些实施例中,响应于确定上述第一目标数据库对应的第一目标数据集查询失败次数达到第一数目,以及各次目标数据集查询的任务版本信息相同,上述执行主体可以将第二目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集。其中,上述第一数目可以是预先设置的。例如,3次。其中,上述各次目标数据集查询为目标数据集失败的查询。上述第一目标数据查询失败次数可以是第一目标数据库查询目标数据集失败的次数。
需要说明的是,针对第一目标数据库对应的第一目标数据集查询失败次数达到第一数目,每次第一目标数据库查询目标数据集失败后,都会确定任务版本信息是否相同,即任务版本信息是否发生了变换。对于在第一目标数据库查询目标数据集的过程中,可能会存在系统宕机或数据库连接超时等情况的发生,长时间导致目标时间戳未发生更新。进一步地,守护线程会强制性的再次执行目标数据集抽取任务。此时,目标数据集抽取任务的再次启动,会重新更新任务版本信息。导致第一目标数据库在查询目标数据集的过程中,出现任务版本信息不同的情况。对此,第一目标数据库在查询目标数据集的过程中,需要确定各次目标数据集查询的任务版本信息相同,以保障第一目标数据库查询过程中未出现其他问题。
在一些实施例的一些可选的实现方式中,通过以下步骤来确定上述第一目标数据库是否查询数据集失败:
响应于确定上述第一目标数据库查询上述目标数据集的查询时长大于第二时长,上述第一目标数据库可以生成表征上述第一目标数据库查询上述目标数据集失败的信息。其中,上述第二时长可以是预先设置的。例如,上述第二时长可以是10秒。
步骤306,响应于确定上述第二目标数据库对应的第二目标数据集查询失败次数小于第二数目,以及各次目标数据集查询的任务版本信息相同,从上述第二目标数据库中抽取上述目标数据集,以及将上述目标数据集发送至目标消息队列。
在一些实施例中,响应于确定上述第二目标数据库对应的第二目标数据集查询失败次数小于第二数目,以及各次目标数据集查询的任务版本信息相同,上述执行主体可以从上述第二目标数据库中抽取上述目标数据集,以及将上述目标数据集发送至目标消息队列。其中,上述第二数目可以是预先设置的。例如,3次。上述第二目标数据库可以是用于存储数据的ES(Elasticsearch)数据库。上述ES数据库可以是非关系型数据库。上述目标消息队列可以是消息中间件(JMQ)。在这里,将上述目标数据集发送至目标消息队列以供上游数据的使用。其中,上述各次目标数据集查询包括:目标数据集失败的查询和目标数据集成功的查询。上述第二目标数据查询失败次数可以是第二目标数据库查询目标数据集失败的次数。
需要说明的是,针对第二目标数据库对应的第二目标数据集查询失败次数小于第二数目,每次第二目标数据库查询目标数据集失败后,都会确定任务版本信息是否相同,即任务版本信息是否发生了变换。对于第二目标数据库查询目标数据集的过程中,可能会存在系统宕机或数据库连接超时等情况的发生,长时间导致目标时间戳未发生更新。进一步地,守护线程会强制性的再次执行目标数据集抽取任务。此时,目标数据集抽取任务的再次启动,会重新更新任务版本信息。导致第二目标数据库在查询目标数据集的过程中,出现任务版本信息不同的情况。对此,第二目标数据库在查询目标数据集的过程中,需要确定各次目标数据集查询的任务版本信息相同。
在一些实施例的一些可选的实现方式中,上述步骤还包括:
第一步,对上述目标数据集中的每个数据添加主键信息,得到添加后的数据集。其中,上述主键信息可以是索引信息。上述主键信息可以包括但不限于以下至少一项:事业部编码、物品编码、仓库编码、物品等级、库存类型、库存状态、数据时间。
第二步,上述执行主体可以将上述添加后的数据集的数据量确定为第一数据量,以及将上述目标消息队列中目标数据集的数据量确定为第二数据量。
第三步,响应于上述第一数据量等于上述第二数据量,上述执行主体对上述添加后的数据集进行数据校验。
在一些实施例的一些可选的实现方式中,上述步骤还包括:响应于确定上述第一目标数据集查询失败次数小于上述第一数目以及各次目标数据集查询的上述任务版本信息相同,上述执行主体可以继续从上述第一目标数据库中查询上述目标数据集。其中,上述各次目标数据集查询可以是第一目标数据库失败的查询。
需要说明的是,针对第一目标数据库对应的第一目标数据集查询失败次数小于第一数目,每次第一目标数据库查询目标数据集失败后,都会确定任务版本信息是否相同,即任务版本信息是否发生了变换。对于第一目标数据库查询目标数据集的过程中,可能会存在系统宕机或数据库连接超时等情况的发生,长时间导致目标时间戳未发生更新。进一步地,守护线程会强制性的再次执行目标数据集抽取任务。此时,目标数据集抽取任务的再次启动,会重新更新任务版本信息。导致第一目标数据库在查询目标数据集的过程中,出现任务版本信息不同的情况。对此,第一目标数据库在查询目标数据集的过程中,需要确定各次目标数据集查询的任务版本信息相同。
可选地,上述步骤还包括:响应于确定上述第二目标数据集查询失败次数达到上述第二数目或上述添加后的数据集未通过数据校验,上述执行主体可以执行与报警信息对应的目标操作。其中,上述目标操作可以是针对报警信息而执行的操作。例如,报警信息发送操作,报警信息显示操作等等。作为示例,上述报警信息可以是UMP报警信息。
在一些实施例的一些可选的实现方式中,上述步骤还包括:响应于确定上述第一目标数据库对应的各次目标数据集查询的任务版本信息不相同或上述第二目标数据库对应的各次目标数据集查询的任务版本信息不相同,上述执行主体可以结束再次执行的上述目标数据集抽取任务。
需要说明的是,第一目标数据库对应的各次目标数据集查询的任务版本信息不相同或上述第二目标数据库对应的各次目标数据集查询的任务版本信息不相同可以表征第一目标数据库或第二目标数据库在查询目标数据集的过程中,可能会存在系统宕机或数据库连接超时等情况的发生。导致长时间目标时间戳未发生更新。进一步地,守护线程会强制性的再次执行目标数据集抽取任务。以此,上述执行主体可以结束对应目标数据集抽取任务的执行。
可选地,上述步骤还包括:上述执行主体可以将上述添加后的数据集写入至上述第一目标数据库和/或上述第二目标数据库。
可选地,上述对上述添加后的数据集进行数据校验,可以包括以下步骤:
基于上述第一目标数据库中的数据集或上述第二目标数据库的数据集,上述执行主体可以利用预设数据校验方法来对上述添加后的数据集进行数据校验。
作为示例,上述执行主体可以首先确定添加后的数据集的数据量作为第三数据量。然后,响应于确定目标数据集的查询数据源为第一目标数据库,确定上述第一目标数据库中数据集的数量是否位于第三数据量×(1-2%)和第三数据量×(1+2%)之间。进而,响应于确定上述第一目标数据库中数据集的数量位于第三数据量×(1-2%)和第三数据量×(1+2%)之间,确定上述添加后的数据集数据校验通过。
作为示例,上述执行主体可以首先确定添加后的数据集的数据量作为第三数据量。然后,响应于确定目标数据集的查询数据源为第二目标数据库,确定上述第二目标数据库中数据集的数量是否位于第三数据量×(1-2%)和第三数据量×(1+2%)之间。进而,响应于确定上述第二目标数据库中数据集的数量位于第三数据量×(1-2%)和第三数据量×(1+2%)之间,确定上述添加后的数据集数据校验通过。
作为又一个示例,上述执行主体可以首先确定添加后的数据集的数据量作为第三数据量。然后,响应于确定目标数据集的查询数据源为第一目标数据库,确定上述第一目标数据库的数量是否位于第三数据量×(1-2%)和第三数据量×(1+2%)之间。进而,响应于确定上述第一目标数据库的数量位于第三数据量×(1-2%)和第三数据量×(1+2%)之间,确定上述添加后的数据集数据校验通过。
作为再一个示例,上述执行主体可以首先确定添加后的数据集对应的库存量作为第一库存量。然后,将第一目标数据库的库存量确定为第二库存量。进而,响应于确定目标数据集的查询数据源为第一目标数据库,确定上述第二库存量是否位于第一库存量×(1-2%)和第一库存量×(1+2%)之间。最后,响应于确定上述第二库存量是否位于第一库存量×(1-2%)和第一库存量×(1+2%)之间,确定上述添加后的数据集数据校验通过。
同样地,上述执行主体可以首先确定添加后的数据集对应的库存量作为第一库存量。然后,将第二目标数据库的库存量确定为第三库存量。进而,响应于确定目标数据集的查询数据源为第二目标数据库,确定上述第三库存量是否位于第一库存量×(1-2%)和第一库存量×(1+2%)之间。最后,响应于确定上述第三库存量是否位于第一库存量×(1-2%)和第一库存量×(1+2%)之间,确定上述添加后的数据集数据校验通过。
在一些实施例的一些可选的实现方式中,上述方法还包括:针对每次上述第一目标数据库查询上述目标数据集或每次上述第二目标数据库查询上述目标数据集,上述执行主体可以对更新后的目标时间戳进行再次更新。
作为示例,如图4所示,在第一目标数据库401查询上述目标数据集402之前,目标时间戳可以是时间戳403。时间戳403可以是:“1625629554”。在第一目标数据库401第一次查询目标数据集402失败后,目标时间戳由时间戳403更新为时间戳404。上述时间戳404可以是:“1625629614”。在第一目标数据库401第二次查询目标数据集402失败后,目标时间戳由时间戳404更新为时间戳405。上述时间戳405可以是:“1625629674”。在第一目标数据库401第三次查询目标数据集402成功后,目标时间戳由时间戳405更新为时间戳406。上述时间戳406可以是:“1625629734。
在一些实施例的一些可选的实现方式中,通过以下步骤来确定上述第二目标数据库是否查询数据集失败:
响应于确定上述第二目标数据库查询上述目标数据集的查询时长大于第三时长,上述第二目标数据库可以生成表征上述第二目标数据库查询上述目标数据集失败的信息。其中,上述第三时长可以是预先设置的,例如10秒。
从图3中可以看出,与图2对应的一些实施例的描述相比,图3对应的一些实施例中的数据抽取方法的流程300更加突出了目标数据集查询和目标数据集抽取的具体步骤。由此,这些实施例描述的方案通过依次使用第一目标数据库和第二目标数据库来多次查询可以更为精准、高效的实现目标数据集的抽取。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种数据抽取装置的一些实施例,这些装置实施例与图2所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,一种数据抽取装置500包括:检测单元501、确定单元502和执行更新单元503。其中,检测单元501,被配置成利用守护进程,检测目标数据集抽取任务是否完成;确定单元502,被配置成响应于检测到上述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化,其中,上述目标时间戳为上述目标数据集抽取任务启动或在执行上述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳;执行更新单元503,被配置成响应于确定上述目标时间戳在上述第一时长内未发生变化,再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。
在一些实施例的一些可选的实现方式中,上述执行更新单元503可以进一步被配置成:将第一目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集;响应于确定上述第一目标数据库对应的第一目标数据集查询失败次数达到第一数目,以及各次目标数据集查询的任务版本信息相同,将第二目标数据库确定为上述目标数据集的查询数据源以查询上述目标数据集;响应于确定上述第二目标数据库对应的第二目标数据集查询失败次数小于第二数目,以及各次目标数据集查询的任务版本信息相同,从上述第二目标数据库中抽取上述目标数据集,以及将上述目标数据集发送至目标消息队列。
在一些实施例的一些可选的实现方式中,上述装置500还包括:添加单元、数据量确定单元和数据校验单元(图中未显示)。其中,上述添加单元可以被配置成:对上述目标数据集中的每个数据添加主键信息,得到添加后的数据集。数据量确定单元可以被配置成:将上述添加后的数据集的数据量确定为第一数据量,以及将上述目标消息队列中目标数据集的数据量确定为第二数据量。数据校验单元可以被配置成:响应于上述第一数据量等于上述第二数据量,对上述添加后的数据集进行数据校验。
在一些实施例的一些可选的实现方式中,上述装置500还包括:查询单元(图中未显示)。其中,上述查询单元可以被配置成:响应于确定上述第一目标数据集查询失败次数小于上述第一数目以及各次目标数据集查询的上述任务版本信息相同,继续从上述第一目标数据库中查询上述目标数据集。
在一些实施例的一些可选的实现方式中,上述装置500还包括:结束单元(图中未显示)。其中,上述结束单元可以被配置成:响应于确定上述第一目标数据库对应的各次目标数据集查询的任务版本信息不相同或上述第二目标数据库对应的各次目标数据集查询的任务版本信息不相同,结束再次执行的上述目标数据集抽取任务。
在一些实施例的一些可选的实现方式中,数据校验单元可以进一步被配置成:基于上述第一目标数据库中的数据集或上述第二目标数据库的数据集,利用预设数据校验方法来对上述添加后的数据集进行数据校验。
在一些实施例的一些可选的实现方式中,上述装置500还包括:时间戳更新单元(图中未显示)。其中,上述时间戳更新单元可以被配置成:针对每次上述第一目标数据库查询上述目标数据集或每次上述第二目标数据库查询上述目标数据集,对更新后的目标时间戳进行再次更新。
可以理解的是,该装置500中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置500及其中包含的单元,在此不再赘述。
下面参考图6,其示出了适于用来实现本公开的一些实施例的电子设备(例如图1中的电子设备101)600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:利用守护进程,检测目标数据集抽取任务是否完成;响应于检测到上述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化,其中,上述目标时间戳为上述目标数据集抽取任务启动或在执行上述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳;响应于确定上述目标时间戳在上述第一时长内未发生变化,再次执行上述目标数据集抽取任务,以及对上述目标时间戳进行更新。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括检测单元、确定单元和执行更新单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,检测单元还可以被描述为“利用守护进程,检测目标数据集抽取任务是否完成的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种数据抽取方法,包括:
利用守护进程,检测目标数据集抽取任务是否完成;
响应于检测到所述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化,其中,所述目标时间戳为所述目标数据集抽取任务启动或在执行所述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳;
响应于确定所述目标时间戳在所述第一时长内未发生变化,再次执行所述目标数据集抽取任务,以及对所述目标时间戳进行更新。
2.根据权利要求1所述的方法,其中,所述再次执行所述目标数据集抽取任务,包括:
将第一目标数据库确定为所述目标数据集的查询数据源以查询所述目标数据集;
响应于确定所述第一目标数据库对应的第一目标数据集查询失败次数达到第一数目,以及各次目标数据集查询的任务版本信息相同,将第二目标数据库确定为所述目标数据集的查询数据源以查询所述目标数据集;
响应于确定所述第二目标数据库对应的第二目标数据集查询失败次数小于第二数目,以及各次目标数据集查询的任务版本信息相同,从所述第二目标数据库中抽取所述目标数据集,以及将所述目标数据集发送至目标消息队列。
3.根据权利要求2所述的方法,其中,所述方法还包括:
对所述目标数据集中的每个数据添加主键信息,得到添加后的数据集;
将所述添加后的数据集的数据量确定为第一数据量,以及将所述目标消息队列中目标数据集的数据量确定为第二数据量;
响应于所述第一数据量等于所述第二数据量,对所述添加后的数据集进行数据校验。
4.根据权利要求3所述的方法,其中,所述方法还包括:
响应于确定所述第一目标数据集查询失败次数小于所述第一数目以及各次目标数据集查询的所述任务版本信息相同,继续从所述第一目标数据库中查询所述目标数据集。
5.根据权利要求2所述的方法,其中,所述方法还包括:
响应于确定所述第一目标数据库对应的各次目标数据集查询的任务版本信息不相同或所述第二目标数据库对应的各次目标数据集查询的任务版本信息不相同,结束再次执行的所述目标数据集抽取任务。
6.根据权利要求3所述的方法,其中,所述对所述添加后的数据集进行数据校验,包括:
基于所述第一目标数据库中的数据集或所述第二目标数据库的数据集,利用预设数据校验方法来对所述添加后的数据集进行数据校验。
7.根据权利要求2所述的方法,其中,所述方法还包括:
针对每次所述第一目标数据库查询所述目标数据集或每次所述第二目标数据库查询所述目标数据集,对更新后的目标时间戳进行再次更新。
8.根据权利要求2所述的方法,其中,通过以下步骤来确定所述第一目标数据库是否查询数据集失败:
响应于确定所述第一目标数据库查询所述目标数据集的查询时长大于第二时长,生成表征所述第一目标数据库查询所述目标数据集失败的信息。
9.根据权利要求2所述的方法,其中,通过以下步骤来确定所述第二目标数据库是否查询数据集失败:
响应于确定所述第二目标数据库查询所述目标数据集的查询时长大于第三时长,生成表征所述第二目标数据库查询所述目标数据集失败的信息。
10.一种数据抽取装置,包括:
检测单元,被配置成利用守护进程,检测目标数据集抽取任务是否完成;
确定单元,被配置成响应于检测到所述目标数据集抽取任务未完成,确定目标时间戳在第一时长内是否发生变化,其中,所述目标时间戳为所述目标数据集抽取任务启动或在执行所述目标数据集抽取任务过程中从数据库查询目标数据集的时间戳;
执行更新单元,被配置成响应于确定所述目标时间戳在所述第一时长内未发生变化,再次执行所述目标数据集抽取任务,以及对所述目标时间戳进行更新。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN202210133671.XA 2022-02-14 2022-02-14 数据抽取方法、装置、电子设备和计算机可读介质 Pending CN114647652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210133671.XA CN114647652A (zh) 2022-02-14 2022-02-14 数据抽取方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210133671.XA CN114647652A (zh) 2022-02-14 2022-02-14 数据抽取方法、装置、电子设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN114647652A true CN114647652A (zh) 2022-06-21

Family

ID=81993970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210133671.XA Pending CN114647652A (zh) 2022-02-14 2022-02-14 数据抽取方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN114647652A (zh)

Similar Documents

Publication Publication Date Title
US11036713B2 (en) Sending notifications in a multi-client database environment
CN108647357B (zh) 数据查询的方法及装置
US11954123B2 (en) Data processing method and device for data integration, computing device and medium
CN112416708B (zh) 异步调用链路监控方法及系统
WO2019148728A1 (zh) 电子装置、分布式系统执行任务分配方法及存储介质
CN111338834B (zh) 数据存储方法和装置
CN110737655B (zh) 用于上报数据的方法和装置
CN112463549A (zh) 云平台的审计方法、装置、设备及计算机可读存储介质
CN118427277A (zh) 数据处理方法、装置及相关设备
CN109218338B (zh) 信息处理系统、方法和装置
CN110750424B (zh) 资源巡检方法和装置
CN112328602A (zh) 一种数据写入Kafka的方法、装置及设备
CN109597819B (zh) 用于更新数据库的方法和装置
CN109739883B (zh) 提升数据查询性能的方法、装置和电子设备
CN116701053A (zh) 生产环境数据库的数据备份恢复方法、装置、设备及介质
CN114860782B (zh) 数据查询方法、装置、设备及介质
CN114647652A (zh) 数据抽取方法、装置、电子设备和计算机可读介质
CN108628909B (zh) 信息推送方法和装置
CN114996057A (zh) 数据备份方法及装置、电子设备和计算机可读存储介质
CN112235332B (zh) 一种集群的读写切换方法和装置
CN112241332B (zh) 一种接口补偿的方法和装置
CN113421109A (zh) 一种业务核对方法、装置、电子设备和存储介质
CN113468218A (zh) 一种对数据库慢sql进行监测和管理的方法和装置
CN113535768A (zh) 生产监控方法和装置
CN108509455B (zh) 数据表处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination