CN112732669A - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN112732669A
CN112732669A CN202011615121.9A CN202011615121A CN112732669A CN 112732669 A CN112732669 A CN 112732669A CN 202011615121 A CN202011615121 A CN 202011615121A CN 112732669 A CN112732669 A CN 112732669A
Authority
CN
China
Prior art keywords
data
task
task data
deleted
dependency relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011615121.9A
Other languages
English (en)
Other versions
CN112732669B (zh
Inventor
于帅
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202011615121.9A priority Critical patent/CN112732669B/zh
Publication of CN112732669A publication Critical patent/CN112732669A/zh
Application granted granted Critical
Publication of CN112732669B publication Critical patent/CN112732669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/235Update request formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供一种数据处理方法和装置,涉及互联网技术领域,以至少解决现有技术中的数据处理方法确定出的待删除数据不准确的问题。该数据处理方法包括:获取多个任务数据之间的依赖关系和每个任务数据的热度;其中,依赖关系由与任务数据对应的任务的执行顺序确定,任务数据的热度用于表征任务数据在预设时间段内被查询的次数;根据依赖关系和每个任务数据的热度,确定多个任务数据中的待删除数据;删除多个任务数据中的待删除数据。

Description

一种数据处理方法和装置
技术领域
本公开涉及互联网技术领域,尤其涉及一种数据处理方法和装置。
背景技术
随着数据架构的重构和设备的长时间使用,设备中将会产生大量的冷数据(读写频率较低的数据)和临时数据(临时存放的数据),这些数据会持续占用计算和存储资源,使得设备的边际成本(边际成本指的是每一新增生产的产品或者购买的产品带来的总成本的增量)越来越高。为了解决这一问题,现有技术通过根据数据的热度(数据的读写频率反映数据的热度)确定待删除数据,并删除待删除数据,以降低边际成本。
上述方法是基于数据的热度来确定待删除数据的。但是,在实际过程中,大多数数据之间是相互依赖的,一个热数据(读写频率较高的数据)的生成可能需要依赖一个冷数据。若采用上述数据处理方法对数据进行处理,热数据依赖的冷数据也会被命中。这样,将会导致确定出的待删除数据不准确。此外,若删除热数据依赖的冷数据,还会引发热数据的错误。
发明内容
本公开提供一种数据处理方法和装置,以至少解决现有技术中的数据处理方法确定出的待删除数据不准确的问题。本公开的技术方案如下:
根据本公开的第一方面,提供一种数据处理方法,该数据处理方法包括:获取多个任务数据之间的依赖关系和每个任务数据的热度,并根据依赖关系和每个任务数据的热度,确定多个任务数据中的待删除数据。之后,删除多个任务数据中的待删除数据。其中,依赖关系由与任务数据对应的任务的执行顺序确定,任务数据的热度用于表征任务数据在预设时间段内被查询的次数。
可选的,上述“根据依赖关系和每个任务数据的热度,确定多个任务数据中的待删除数据”的方法,包括:获取依赖关系中不存在后继任务数据的目标任务数据,并根据目标任务数据的热度,确定多个任务数据中的待删除数据。其中,目标任务数据对应的目标任务执行顺序位于后继任务数据对应的后继任务之前。
可选的,在上述依赖关系通过有向图表示,且目标任务数据为有向图中出度为零的任务数据的情况下,上述“根据目标任务数据的热度,确定多个任务数据中的待删除数据”的方法包括:从目标任务数据中,获取热度小于预设阈值的任务数据,并将获取到的任务数据确定为多个任务数据中的待删除数据。
可选的,在上述“删除多个任务数据中的待删除数据”之后,该数据处理方法还包括:从依赖关系中,去除多个任务数据中的待删除数据,并更新依赖关系。之后,若确定剩余任务数据中存在目标任务数据,则根据目标任务数据的热度,确定剩余任务数据中的待删除数据,并删除剩余任务数据中的待删除数据。
可选的,上述:“获取多个任务数据之间的依赖关系”的方法,包括:获取与多个任务数据对应的多个任务之间的执行顺序,并根据多个任务之间的执行顺序,生成有向图。
其中,有向图包括多个有向边和多个任务数据;在有向图中,一个有向边的始端对应第一任务数据,一个有向边的末端对应第二任务数据,第一任务数据对应第一任务,第二任务数据对应第二任务,第二任务的执行顺序位于第一任务的后一个位置。
根据本公开的第二方面,提供一种数据处理装置,该数据处理装置包括获取模块、确定模块以及处理模块。获取模块,被配置为执行获取多个任务数据之间的依赖关系和每个任务数据的热度。确定模块,被配置为执行根据获取模块获取到的依赖关系和每个任务数据的热度,确定多个任务数据中待删除数据。处理模块,被配置为执行删除多个任务数据中的待删除数据。其中,依赖关系由与任务数据对应的任务的执行顺序确定,任务数据的热度用于表征任务数据在预设时间段内被查询的次数。
可选的,确定模块,具体被配置为执行:获取依赖关系中不存在后继任务数据的目标任务数据,并根据目标任务数据的热度,确定多个任务数据中的待删除数据。其中,目标任务数据对应的目标任务执行顺序位于后继任务数据对应的后继任务之前;
可选的,在依赖关系通过有向图表示的情况下,目标任务数据为有向图中出度为零的任务数据,确定模块,具体被配置为执行:从目标任务数据中,获取热度小于预设阈值的任务数据,并将获取到的任务数据确定为多个任务数据中的待删除数据。
可选的,处理模块,还被配置为执行从依赖关系中,去除多个任务数据中的待删除数据,并更新依赖关系。确定模块,还被配置为执行若确定剩余任务数据中存在目标任务数据,则根据目标任务数据的热度,确定剩余任务数据中的待删除数据。处理模块,还被配置为执行删除剩余任务数据中的待删除数据。
可选的,获取模块,具体被配置为执行:获取与多个任务数据对应的多个任务之间的执行顺序,并根据多个任务之间的执行顺序,生成有向图。其中,有向图包括多个有向边和多个任务数据;在有向图中,一个有向边的始端对应第一任务数据,一个有向边的末端对应第二任务数据,第一任务数据对应第一任务,第二任务数据对应第二任务,第二任务的执行顺序位于第一任务的后一个位置。
根据本公开的第三方面,提供一种数据处理装置,包括:处理器和用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现如第一方面中任一种可选的数据处理方法。
根据本公开的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由数据处理装置的处理器执行时,使得数据处理装置能够执行如上述第一方面中任一项可选的数据处理方法。
根据本公开的第五方面,提供一种计算机程序产品,包含计算机指令,当其在计算机上运行时,使得计算机执行如第一方面中任一种可选的数据处理方法。
本公开实施例提供的技术方案至少带来以下有益效果:
上述方案中,根据多个任务数据的依赖关系和每个任务数据的热度确定多个任务数据中的待删除数据。避免了仅根据任务数据的热度确定待删除数据时,将热数据依赖的冷数据命中的问题,提高了确定出的待删除数据的准确度。
另外,上述方案中,每从依赖关系中,去除多个任务数据中的待删除数据后,更新一次依赖关系,这样层层递进,直到剩余任务数据中不存在待删除数据,从而得到多个任务数据中所有的待删除数据。能够避免在确定待删除数据时,出现遗漏,进而提高确定出的待删除数据的准确度。
除此之外,上述方案中,在依赖关系通过有向图表示的情况下,将有向图中出度为零,且热度满足一定条件的任务数据确定为待删除数据。这样,避免了将热数据依赖的冷数据命中时,还需要后续进行二次判断的问题,在提高了确定出的待删除数据的准确度的基础上,还提高了确定任务数据中待删除数据的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种数据之间的依赖关系的示意图。
图2是根据一示例性实施例示出的一种数据处理装置的硬件结构示意图。
图3是根据一示例性实施例示出的一种数据处理方法的流程图。
图4A是根据一示例性实施例示出的一种生成有向图的流程示意图。
图4B是根据一示例性实施例示出的一种有向图的结构示意图。
图5是根据一示例性实施例示出的一种确定待删除数据的方法的流程示意图。
图6是根据一示例性实施例示出的一种数据处理装置的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先,对本公开实施例中的术语进行介绍。
冷数据,是指在存储设备中,读写频率较低的数据,例如,读写频率小于第一阈值的数据。其中,第一阈值可以为默认值,或者相关管理人员自定义的数值。
热数据,是指在存储设备中,读写频率较高的数据,例如,读写频率大于第二阈值的数据。其中,第二阈值可以为默认值,或者相关管理人员自定义的数值。
临时数据,是指在存储设备中临时存放的数据。通常,临时数据在使用之后会被删除,但是在一些情况下,临时数据也会被保留,例如,临时数据在使用过程中被异常打断,或是在设备的应用程序调用临时数据时应用程序崩溃。
然后,对本公开实施例的应用场景进行介绍。
本公开实施例的数据处理方法应用于设备至少存储冷数据和临时数据的场景中。随着设备的长时间使用,设备中将会产生大量的冷数据和临时数据,使得设备的边际成本越来越高。为了降低设备的边际成本,目前通常是根据设备中数据的热度确定待删除数据,并删除确定的待删除数据。
但是在实际过程中,多个任务在执行时,通常存在相互的调用关系,这样导致多个任务生成的大多数数据之间是相互依赖的,例如,参见图1所示,数据A依赖于数据B、数据C、数据D,数据D依赖于数据C,数据B依赖于数据E,数据B的热度为8,数据A、数据C、数据D、数据E的热度均为0。这样,目前的数据处理方法会将数据B判别为热数据,数据A、数据C、数据D、数据E判别为冷数据,此时会把数据A、数据C、数据D、数据E确定为待删除数据。但是,数据B的生成依赖于数据E。因此,目前的数据处理方法,针对存在依赖关系的数据中,确定出的待删除数据的并不准确。
为了解决上述问题,本公开实施例提供一种数据处理方法,该方法可以应用于数据处理装置。具体根据多个任务数据之间的依赖关系和每个任务数据的热度,确定多个任务数据中的待删除数据。避免了根据任务数据的热度确定待删除数据时,将热数据依赖的冷数据命中的问题,提高了确定出的待删除数据的准确度。
图2是根据一示例性实施例示出的一种数据处理装置的结构示意图。该数据处理装置可以包括处理器202,处理器202用于执行应用程序代码或计算机指令,从而实现本公开中的数据处理方法。
处理器202可以是一个中央处理器(central processing unit,CPU),微处理器,应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本公开方案程序执行的集成电路。
如图2所示,数据处理装置还可以包括存储器203。其中,存储器203用于存储执行本公开方案的应用程序代码,并由处理器202来控制执行。
存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器203可以是独立存在,通过总线204与处理器202相连接。存储器203也可以和处理器202集成在一起。
如图2所示,数据处理装置还可以包括通信接口201,其中,通信接口201、处理器202、存储器203可以相互耦合,例如,通过总线204相互耦合。通信接口201用于与其他设备进行信息交互,例如支持数据处理装置与其他设备的信息交互。
需要指出的是,图2中示出的设备结构并不构成对该数据处理装置的限定,除图2所示部件之外,该数据处理装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合附图对本公开实施例提供的数据处理方法进行描述。
图3是根据一示例性实施例示出的一种数据处理方法的流程图示意图。如图3所示,该数据处理方法包括301-303。
301、数据处理装置获取多个任务数据之间的依赖关系和每个任务数据的热度。
本公开实施例中的依赖关系用于表示多个任务数据对应的任务在执行时的先后顺序。
一个实施例中,某一任务必须在其他任务执行完毕之后才能执行。也就是说,某一任务数据必须在其他任务数据生成后才能生成。
例如,执行任务A生成数据A、执行任务B生成数据B,而执行任务A之前,必须执行任务B,这样,数据A必须在数据B生成之后才能生成,这就形成了数据A与数据B之间的依赖关系。
当数据处理装置采用有向图表示多个任务数据之间的依赖关系时,获取多个任务数据之间的依赖关系的方法,包括:数据处理装置获取与多个任务数据对应的多个任务之间的执行顺序,并根据多个任务之间的执行顺序,生成有向图。其中,有向图包括多个有向边和多个任务数据。在有向图中,一个有向边的始端对应第一任务数据,一个有向边的末端对应第二任务数据,第一任务数据对应第一任务,第二任务数据对应第二任务,第二任务的执行顺序位于第一任务的后一个位置。第一任务数据和第二任务数据均为多个任务数据中的任意任务数据。
具体的,在本公开实施例的有向图中,任务数据之间采用有向边连接,有向边末端的任务数据在有向边始端的任务数据生成之后生成。另外,由于任务之间成环的调用会造成死循环,例如,当执行任务A时调用了任务B,那么执行任务B时,就不会再调用任务A,而本公开实施例中的依赖关系是根据多个任务数据对应的任务,在执行时的先后顺序确定的,因此本公开中采用有向图表示多个任务数据之间的依赖关系时,采用的是有向无环图。
示例性的,如图4A所示,数据A在数据B、数据C、数据D生成后生成,则数据A依赖于数据B、数据C、数据D,数据处理装置得到依赖关系1;数据D在数据C生成后生成,则数据D依赖于数据C,数据处理装置得到依赖关系2;数据B在数据E生成后生成,则数据D依赖于数据C,数据处理装置得到依赖关系3。
这样,数据处理装置根据如图4A所示的依赖关系生成如图4B所示有向图,该有向图包括数据A、数据B、数据C、数据D、数据E,以及依赖关系1~依赖关系3。
上述方案中,采用有向图表示多个任务之间的依赖关系,将每个任务数据作为有向图的节点,能够清楚的表示出依赖关系的结构,提高冷数据的发现效率。
本公开实施例中的任务数据的热度用于表征任务数据在预设时间段内被查询的次数。具体的,数据处理装置通过查询数据应用系统的查询操作记录,获取每个任务数据的热度。其中,数据应用系统为能够查询任务数据的应用程序或者系统,例如,自动报表系统、点对点(AdHoc)分析系统、联机分析处理(online analytical processing,olap)引擎等。
302、数据处理装置根据依赖关系和每个任务数据的热度,确定多个任务数据中的待删除数据。
具体的,数据处理装置获取依赖关系中不存在后继任务数据的目标任务数据,并根据目标任务数据的热度,确定多个任务数据中的待删除数据。其中,一个任务数据的后继任务数据为:依赖于该一个任务数据的任务数据,即后继任务数据在该一个任务数据生成后生成。例如,数据D在数据C生成后生成,即数据D依赖于数据C,则数据D为数据C的后继任务数据。
一个实施例中,数据处理装置从目标任务数据中,获取热度小于预设阈值的任务数据,并将获取到的任务数据确定为多个任务数据中的待删除数据,数据处理装置将目标任务数据中,热度小于预设阈值的任务数据,确定为多个任务数据中的待删除数据。
其中,目标任务数据对应的目标任务执行顺序位于后继任务数据对应的后继任务之前。例如,当数据处理装置采用有向图表示多个任务数据之间的依赖关系时,则在如图4B所示有向图中,数据D为数据C的后继任务数据。这样,数据D对应的任务为后继任务,数据C对应的任务为目标任务,数据C对应的目标任务的执行顺序在数据D对应的后继任务之前。预设阈值可以为默认值,也可以为相关管理人员根据任务状态自定义的数值。例如,预设阈值为5,图1中出度为零的任务数据为数据A,且数据A的热度为0,则数据处理装置确定数据A为当前待删除数据。
上述方案中,将依赖关系中不存在后继任务数据的目标任务数据中,热度满足一定条件的任务数据确定为待删除数据。这样,避免了将热数据依赖的冷数据命中时,导致后继任务无法进行或崩溃的问题,在提高了确定出的待删除数据的准确度的基础上,还提高了确定任务数据中待删除数据的效率。
可选的,数据处理装置将目标任务数据中热度位于预设热度范围的目标任务数据确定为多个任务数据中的待删除数据。预设热度范围可以为默认值,也可以为相关管理人员根据任务状态自定义的数值。
可选的,当多个任务数据之间的依赖关系通过有向图表示时,目标任务数据为有向图中出度为零的任务数据(即依赖关系中不存在后继任务数据的任务数据)。数据处理装置从目标任务数据中,获取热度小于预设阈值的任务数据,并将获取到的任务数据确定为多个任务数据中的待删除数据,即数据处理装置将有向图中,出度为零的任务数据中,热度小于预设阈值的任务数据,确定为多个任务数据中的待删除数据。
具体的,数据处理装置获取有向图中每个任务数据的出度,确定有向图中出度为零的任务数据,并根据出度为零的任务数据中每个任务数据的热度,从出度为零的任务数据中确定待删除数据。
上述方案中,在依赖关系通过有向图表示的情况下,将有向图中出度为零、且热度满足一定条件的任务数据确定为待删除数据。在有向图中,出度为零的任务数据,为依赖关系中不存在后继任务数据的任务数据。因此,避免了将热数据依赖的冷数据命中时,导致后继任务无法进行或崩溃的问题,提高了确定出的待删除数据的准确度。
可选的,在确定多个任务数据中的待删除数据之后,数据处理装置从依赖关系中,去除多个任务数据中的待删除数据,并更新依赖关系。之后,若确定剩余任务数据中存在目标任务数据,则根据目标任务数据的热度,确定剩余任务数据中的待删除数据,并删除剩余任务数据中的待删除数据。
一个实施例中,当多个任务数据之间的依赖关系通过有向图表示时,数据处理装置从有向图中删除待删除数据,并更新有向图。之后,数据处理装置若确定剩余任务数据中存在出度为零的任务数据,则根据出度为零的任务数据的热度确定剩余任务数据中的待删除数据,并删除剩余任务数据中的待删除数据。数据处理装置若确定剩余任务数据中不存在出度为零的任务数据,或者,不存在待删除数据,则结束此次数据处理流程。
例如,如图5所示,数据A出度为零,数据处理装置从有向图中去除数据A,在去除数据A后,更新有向图中剩余任务数据的出度,并确定剩余任务数据中出度为零的任务数据。如图5所示,在去除数据A之后,数据B、数据C、数据D、数据E中出度为零的任务数据有数据B和数据C。然后,数据处理装置根据出度为零的任务数据中每个任务数据的热度,从出度为零的任务数据中确定待删除数据。例如,预设阈值为5,图5中出度为零的任务数据有数据B和数据C,且数据B的热度为8,数据C的热度为0,数据处理装置确定数据C为剩余任务数据中的待删除数据。
数据处理装置继续从有向图中去除待删除数据,更新有向图,并用上述方式继续确定待删除数据,直到有向图中剩余任务数据中不存在出度为零的任务数据,或者,不存在待删除数据。如图5所示,在去除数据C之后,数据B和数据D的出度皆为零,但是上述步骤已判断过数据B,因此,本次仅判断数据D是否为待删除数据。由于预设阈值为5,数据D的热度为0,因此,数据D为待删除数据。在删除数据D之后,有向图中虽然存在出度为零的任务数据(数据B),但并不存在待删除数据,因此,有向图中不存在待删除数据。
上述方案中,根据任务数据是否存在后继任务数据和任务数据的热度是否满足条件(热度小于预设阈值),来确定待删除数据,并且每从依赖关系中删除多个任务数据中的待删除数据后,更新一次依赖关系,这样层层递进,直到剩余任务数据中不存在待删除数据,从而删除多个任务数据中所有的待删除数据,不仅能够避免将热数据依赖的冷数据命中时,导致后继任务无法进行或崩溃的问题,还能够避免在确定待删除数据时,出现遗漏,进而提高了确定出的待删除数据的准确度。
303、数据处理装置删除多个任务数据中的待删除数据。
本公开实施例提供的技术方案至少带来以下有益效果:
上述方案中,根据多个任务数据的依赖关系和每个任务数据的热度确定多个任务数据中的待删除数据。避免了根据任务数据的热度确定待删除数据时,将热数据依赖的冷数据命中的问题,提高了确定出的待删除数据的准确度。
本公开实施例可以根据上述的方法实施例对数据处理装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
以上结合图3-图5详细说明了本公开实施例提供的方法。以下,结合图6详细说明本公开实施例提供的数据处理装置。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
图6是根据一示例性实施例示出的一种数据处理装置的结构示意图。参见图6所示,该数据处理装置包括:获取模块601、确定模块602以及处理模块603。
获取模块601,被配置为执行获取多个任务数据之间的依赖关系和每个任务数据的热度。依赖关系由与任务数据对应的任务的执行顺序确定。任务数据的热度用于表征任务数据在预设时间段内被查询的次数。例如,参照图3所示,获取模块601,被配置为执行步骤301。确定模块602,被配置为执行根据获取模块601获取到的依赖关系和每个任务数据的热度,确定多个任务数据中的待删除数据。例如,参照图3所示,确定模块602,被配置为执行步骤302。处理模块603,被配置为执行删除多个任务数据中的待删除数据。例如,参照图3所示,处理模块603,被配置为执行步骤303。
可选的,确定模块602,具体被配置为执行:获取依赖关系中不存在后继任务数据的目标任务数据,目标任务数据对应的目标任务执行顺序位于后继任务数据对应的后继任务之前。根据目标任务数据的热度,确定多个任务数据中的待删除数据。
可选的,依赖关系通过有向图表示,目标任务数据为有向图中出度为零的任务数据。确定模块602,具体被配置为执行:从目标任务数据中,获取热度小于预设阈值的任务数据。将获取到的任务数据确定为多个任务数据中的待删除数据。
可选的,处理模块603,还被配置为执行从依赖关系中,去除多个任务数据中的待删除数据,并更新依赖关系。确定模块602,还被配置为执行若确定剩余任务数据中存在目标任务数据,则根据目标任务数据的热度,确定剩余任务数据中的待删除数据。处理模块603,还被配置为执行删除剩余任务数据中的待删除数据。
可选的,获取模块601,具体被配置为执行:获取与多个任务数据对应的多个任务之间的执行顺序。根据多个任务之间的执行顺序,生成有向图。其中,有向图包括多个有向边和多个任务数据。在有向图中,一个有向边的始端对应第一任务数据,一个有向边的末端对应第二任务数据,第一任务数据对应第一任务,第二任务数据对应第二任务,第二任务的执行顺序位于第一任务的后一个位置。
本公开另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在数据处理装置上运行时,该数据处理装置,执行如图3所示的实施例的数据处理方法。
在本公开的另一实施例中,还提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,该计算机执行指令存储在计算机可读存储介质中。数据处理装置的处理器可以从计算机可读存储介质读取该计算机执行指令,处理器执行该计算机执行指令使得数据处理装置,执行如图3所示的实施例的数据处理方法。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取多个任务数据之间的依赖关系和每个任务数据的热度,所述依赖关系由与所述任务数据对应的任务的执行顺序确定,所述任务数据的热度用于表征所述任务数据在预设时间段内被查询的次数;
根据所述依赖关系和所述每个任务数据的热度,确定所述多个任务数据中的待删除数据;
删除所述多个任务数据中的待删除数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述依赖关系和所述每个任务数据的热度,确定所述多个任务数据中的待删除数据,包括:
获取所述依赖关系中不存在后继任务数据的目标任务数据,所述目标任务数据对应的目标任务执行顺序位于所述后继任务数据对应的后继任务之前;
根据所述目标任务数据的热度,确定所述多个任务数据中的待删除数据。
3.根据权利要求2所述的数据处理方法,其特征在于,所述依赖关系通过有向图表示,所述目标任务数据为所述有向图中出度为零的任务数据;
所述根据所述目标任务数据的热度,确定所述多个任务数据中的待删除数据,包括:
从所述目标任务数据中,获取热度小于预设阈值的任务数据;
将获取到的任务数据确定为所述多个任务数据中的待删除数据。
4.根据权利要求2或3所述的数据处理方法,其特征在于,在删除所述多个任务数据中的待删除数据之后,所述数据处理方法还包括:
从所述依赖关系中,去除所述多个任务数据中的待删除数据,并更新所述依赖关系;
若确定剩余任务数据中存在所述目标任务数据,则根据所述目标任务数据的热度,确定所述剩余任务数据中的待删除数据;
删除所述剩余任务数据中的待删除数据。
5.根据权利要求3所述的数据处理方法,其特征在于,所述获取多个任务数据之间的依赖关系,包括:
获取与所述多个任务数据对应的多个任务之间的执行顺序;
根据所述多个任务之间的执行顺序,生成所述有向图;其中,所述有向图包括多个有向边和所述多个任务数据;在所述有向图中,一个有向边的始端对应第一任务数据,所述一个有向边的末端对应第二任务数据,所述第一任务数据对应第一任务,所述第二任务数据对应第二任务,所述第二任务的执行顺序位于所述第一任务的后一个位置。
6.一种数据处理装置,其特征在于,包括获取模块、确定模块以及处理模块;
所述获取模块,被配置为执行获取多个任务数据之间的依赖关系和每个任务数据的热度,所述依赖关系由与所述任务数据对应的任务的执行顺序确定,所述任务数据的热度用于表征所述任务数据在预设时间段内被查询的次数;
所述确定模块,被配置为执行根据所述获取模块获取到的所述依赖关系和所述每个任务数据的热度,确定所述多个任务数据中的待删除数据;
所述处理模块,被配置为执行删除所述多个任务数据中的待删除数据。
7.根据权利要求6所述的数据处理装置,其特征在于,
所述确定模块,具体被配置为执行:
获取所述依赖关系中不存在后继任务数据的目标任务数据,所述目标任务数据对应的目标任务执行顺序位于所述后继任务数据对应的后继任务之前;
根据所述目标任务数据的热度,确定所述多个任务数据中的待删除数据。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-5中任一项所述的数据处理方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由数据处理装置的处理器执行时,使得所述数据处理装置执行如权利要求1-5中任一项所述的数据处理方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,当所述计算机指令被处理器执行时,实现如权利要求1-5中任一项所述的数据处理方法。
CN202011615121.9A 2020-12-31 2020-12-31 一种数据处理方法和装置 Active CN112732669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011615121.9A CN112732669B (zh) 2020-12-31 2020-12-31 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011615121.9A CN112732669B (zh) 2020-12-31 2020-12-31 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN112732669A true CN112732669A (zh) 2021-04-30
CN112732669B CN112732669B (zh) 2024-03-19

Family

ID=75611140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011615121.9A Active CN112732669B (zh) 2020-12-31 2020-12-31 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN112732669B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220310A (zh) * 2017-05-11 2017-09-29 中国联合网络通信集团有限公司 一种数据库数据管理系统、方法及装置
CN109788043A (zh) * 2018-12-28 2019-05-21 亚信科技(中国)有限公司 任务处理方法、装置、计算机设备和存储介质
US20190384508A1 (en) * 2018-06-15 2019-12-19 EMC IP Holding Company LLC Method, electronic device and computer program product for maintenance of component in storage system
CN110609740A (zh) * 2019-09-19 2019-12-24 深圳前海微众银行股份有限公司 一种确定任务间依赖关系的方法及装置
CN111125269A (zh) * 2019-12-31 2020-05-08 腾讯科技(深圳)有限公司 一种数据管理方法、血缘关系显示方法和相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220310A (zh) * 2017-05-11 2017-09-29 中国联合网络通信集团有限公司 一种数据库数据管理系统、方法及装置
US20190384508A1 (en) * 2018-06-15 2019-12-19 EMC IP Holding Company LLC Method, electronic device and computer program product for maintenance of component in storage system
CN109788043A (zh) * 2018-12-28 2019-05-21 亚信科技(中国)有限公司 任务处理方法、装置、计算机设备和存储介质
CN110609740A (zh) * 2019-09-19 2019-12-24 深圳前海微众银行股份有限公司 一种确定任务间依赖关系的方法及装置
CN111125269A (zh) * 2019-12-31 2020-05-08 腾讯科技(深圳)有限公司 一种数据管理方法、血缘关系显示方法和相关装置

Also Published As

Publication number Publication date
CN112732669B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN113760476B (zh) 任务依赖处理方法及相关装置
CN113448862B (zh) 软件版本测试方法、装置及计算机设备
CN111026568A (zh) 数据和任务关系构建方法、装置、计算机设备及存储介质
CN112487083A (zh) 一种数据校验方法和设备
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN110716924B (zh) 删除过期数据的方法和装置
US20110093688A1 (en) Configuration management apparatus, configuration management program, and configuration management method
CN112732669A (zh) 一种数据处理方法和装置
CN113792026B (zh) 数据库脚本的部署方法、装置及计算机可读存储介质
CN115827028A (zh) 系统的升级方法、装置、存储介质以及电子设备
CN114625515A (zh) 一种任务管理方法、装置、设备及存储介质
CN111796845B (zh) 数据库升级方法、状态数据查询方法、设备和存储介质
CN115599793A (zh) 一种更新数据的方法、装置及存储介质
CN106648550B (zh) 用于并发执行任务的方法与设备
CN113312412A (zh) 一种统计数据的获取方法、装置、电子设备及存储介质
CN113486035B (zh) 数据记录批处理方法、装置、存储介质及电子设备
CN110597828A (zh) 一种数据库变更方法、装置、设备及存储介质
CN110659042A (zh) 一种服务器固件管理方法与装置
CN110968587A (zh) 一种数据处理方法及装置
CN111464580B (zh) 主服务器的选取方法及装置
CN109885328B (zh) 一种bios的更新方法、系统及相关组件
CN116756131A (zh) 数据清理方法、装置、电子设备及存储介质
US10496059B2 (en) Operational control management apparatus and operational control management method
CN115344543A (zh) 自动驾驶软件同步方法、装置、存储介质及计算机设备
CN115562834A (zh) 一种任务调度方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant