CN106997369B - 数据清理方法及装置 - Google Patents

数据清理方法及装置 Download PDF

Info

Publication number
CN106997369B
CN106997369B CN201610710396.8A CN201610710396A CN106997369B CN 106997369 B CN106997369 B CN 106997369B CN 201610710396 A CN201610710396 A CN 201610710396A CN 106997369 B CN106997369 B CN 106997369B
Authority
CN
China
Prior art keywords
data
node
data node
nodes
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610710396.8A
Other languages
English (en)
Other versions
CN106997369A (zh
Inventor
罗鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN106997369A publication Critical patent/CN106997369A/zh
Application granted granted Critical
Publication of CN106997369B publication Critical patent/CN106997369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了数据清理方法及装置,该方法包括:在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;根据数据血缘关系表确定与所述第一数据节点具有数据血缘关系的第二数据节点,并为所述第二数据节点添加对应的节点标记;在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。因此,本申请可以自动清理未添加节点标记的第三数据节点即无用数据,降低了存储成本,还提高了数据清理的准确性。

Description

数据清理方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及数据清理方法及装置。
背景技术
随着互联网技术的发展,用户可以通过互联网使用各种便利的业务应用,例如,即时通信应用、支付宝应用等,这些业务应用在使用过程中,会产生大量的数据,这些数据经过加工生产以数据表的形式保存在数据库中。
现有技术中,一般通过人工的方式清理数据库中的无用数据。
但是,采用人工清理的方式,容易导致很多清理错误,从而降低了数据清理的可靠性,还增加了数据清理的难度。
发明内容
本申请提供数据清理方法及装置,以解决现有技术中采用人工清理的方式,容易导致很多清理错误,从而降低了数据清理的可靠性,还增加了数据清理的难度的问题。
根据本申请实施例的第一方面,提供一种数据清理方法,所述方法用于对数据库中的多个数据节点进行处理,其中每个数据节点对应一个数据表,所述方法包括:
在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;
从所述多个数据节点中确定与所述第一数据节点具有数据血缘关系的第二数据节点,并为所述第二数据节点添加对应的节点标记;
在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。
根据本申请实施例的第二方面,提供一种数据清理装置,所述装置用于对数据库中的多个数据节点进行处理,其中每个数据节点对应一个数据表,所述装置包括:
第一数据节点处理单元,用于在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;
第二数据节点处理单元,用于从所述多个数据节点中确定与所述第一数据节点具有数据血缘关系的第二数据节点,并为所述第二数据节点添加对应的节点标记;
第三数据节点清理单元,用于在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。
根据本申请实施例的第三方面,提供一种数据清理装置,所述装置用于对数据库中的多个数据节点进行处理,其中每个数据节点对应一个数据表,所述装置包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;
从所述多个数据节点中确定与所述第一数据节点具有数据血缘关系的第二数据节点,并为所述第二数据节点添加对应的节点标记;
在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。
应用本申请实施例对数据库中的多个数据节点进行处理,在接收到业务信息时,通过为业务信息对应的第一数据节点添加对应的节点标记,从多个数据节点中确定与第一数据节点具有数据血缘关系的第二数据节点,并为第二数据节点添加对应的节点标记,在检测到未添加节点标记的第三数据节点时,对第三数据节点进行清理,从而实现了自动清理作为无用数据的第三数据节点,降低了存储成本,还提高了数据清理的准确性。
附图说明
图1A为本申请实施例的数据清理场景示意图;
图1B为本申请实施例的数据血缘关系的一示意图;
图1C为本申请实施例的添加节点标记的一示意图;
图1D为本申请实施例的数据清理的一示意图;
图2为本申请数据清理方法的一个实施例流程图;
图3为本申请数据清理方法的另一个实施例流程图;
图4为本申请数据清理装置所在设备的一种硬件结构图;
图5为本申请数据清理装置的一个实施例框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在详细描述本申请实施例之前,对本申请实施例中涉及的术语进行解释:
业务信息,可以指某个业务的业务名称,例如,支付宝;
数据节点,可以指对业务运行过程中产生的数据进行加工后,保存在数据库中的数据表,例如,用户信息表、业务信息表等;
数据血缘关系,可以指上述多个数据节点在生产过程中的上下游关系,例如,如果根据数据节点A生成数据节点B,则数据节点A是数据节点B的上游节点,同理数据节点B是数据节点A的下游节点;各个数据节点之间的数据血缘关系可以定期从结构化查询语言(Structured Query Language,SQL)代码信息和日志信息中获取,比如,一天获取一次;
数据血缘关系表,可以指用于保存上述数据节点之间的数据血缘关系的表,例如,每一条表项可以包括下游节点(也可称为目标数据节点)的节点名称,对应的上游节点(也可称为源数据节点)的节点名称,以及从上游节点加工出下游节点的加工方式等;
节点标记,可以指用于表征某个数据节点是与业务相关联的信息,本申请实施例中添加了节点标记的数据节点为有用的数据节点,未添加节点标记的数据节点为无用的数据节点。节点标记可以包括业务标识、分类标识、业务等级中的至少一个,其中,业务标识用于表征数据节点的节点名称;分类标识用于表征数据节点在某个维度上所属的具体分类,比如该维度可以是公司部门(相应具体分类可以包括业务部门、财务部门和技术支持部门等);业务等级用于表征数据节点对应业务的重要程度。上述业务标识、分类标识、业务等级都可以用预先定义的数字、字母、或符号表示,对此本申请实施例不进行限制。
参见图1A,为本申请实施例的数据清理场景示意图:
图1A场景中包括:数据节点A、数据节点B、…、数据节点P。其中,数据节点A、数据节点B、…、数据节点P均是数据库中的数据节点。上述数据节点之间的数据血缘关系的示意可以如图1B中各个箭头所示,通过箭头连接的两个数据节点之间具有数据血缘关系,其中箭头的起点为下游节点,箭头的终点指向上游节点。
以数据节点A、数据节点C、数据节点F为例,来说明数据节点之间的上下游关系。对数据节点C来说,数据节点A是数据节点C的下游节点,数据节点F是数据节点C的上游节点;对数据节点A来说,数据节点C和数据节点F均是数据节点A的上游节点;对数据节点F来说,数据节点C和数据节点A均是数据节点F的下游节点。
本申请实施例中,首先,在接收到业务信息时,获取该业务信息对应的至少一个第一数据节点。比如:该业务信息对应的第一数据节点包括图1B所示中的数据节点A和数据节点B。
其次,从多个数据节点中确定与第一数据节点具有数据血缘关系的第二数据节点。比如:根据图1B所示,通过各个箭头指示的数据血缘关系来确定数据节点A的上游节点分别是数据节点C、数据节点D、数据节点F、数据节点G、数据节点K、数据节点L、数据节点H、数据节点M;以及,数据节点B的上游节点分别是数据节点E、数据节点J、数据节点H、数据节点I、数据节点L、数据节点M、数据节点N。并且,为数据节点A和数据节点B、以及数据节点A的所有上游节点、数据节点B的所有上游节点添加节点标记,如图1C所示,颜色为灰色的数据节点代表添加了节点标记的数据节点。
最后,在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。比如:图1C中的数据节点O和数据节点P,这两个数据节点没有添加节点标记,也就是这两个数据节点与数据节点A和数据节点B均没有数据血缘关系,可以将数据节点O和数据节点P清理掉,并且清理掉后的数据库中包括的各个数据节点,如图1D所示。
由上述实施例可见,本申请从业务出发,根据数据节点之间的数据血缘关系自动为与业务相关的所有数据节点添加节点标记,从而可以将未添加节点标记的数据节点作为无用数据清理掉,从而节省了存储资源。
下面结合附图对本申请实施例进行进一步详细说明。
参见图2,为本申请数据清理方法的一个实施例的流程图,该方法可以应用于数据处理设备上,比如:该数据处理设备为服务器,服务器用于对数据库中的多个数据节点进行处理,从而自动清理数据库中的无用数据。
该方法包括以下步骤:
步骤210:在接收到业务信息时,为业务信息对应的第一数据节点添加对应的节点标记。
在业务系统中,当新增一个业务时,系统管理员可以从数据库中为该业务指定与其直接关联的数据节点,并保存该业务的业务信息和与该业务直接关联的数据节点之间的对应关系。
本申请实施例中,在接收到业务信息时,可以先按照前述保存的对应关系,获取该业务信息对应的一个或多个数据节点,本申请实施例中称为第一数据节点,然后为第一数据节点添加对应的节点标记,该节点标记用于指明该第一数据节点是与业务相关的有用数据节点。
上述第一数据节点对应的节点标记可以包括对应的业务标识和对应的分类标识中的至少一种。另外,第一数据节点对应的节点标记还可以包括业务等级。比如:业务信息是余额宝,其重要等级为第一,则可以将第一数据节点对应的业务等级设置为1,表明该第一数据节点对应的数据表为重要数据报表。
举例来说:第一数据节点为图1B所示中的数据节点A,对数据节点A添加对应的节点标记后,得到的数据结构如表1所示。其中,节点标记包括业务标识、分类标识和业务等级。
表1
数据节点 业务标识 分类标识 业务等级
数据节点A A 1 1
步骤220:从多个数据节点中确定与第一数据节点具有数据血缘关系的第二数据节点,并为第二数据节点添加对应的节点标记。
本申请实施例中,数据库中所有数据节点的数据血缘关系可以通过数据血缘关系表保存。
在步骤210确定第一数据节点之后,可以先在数据血缘关系表中查询到第一数据节点,再以第一数据节点为起点,查询该第一数据节点的上游节点,该上游节点是与第一数据节点具有数据血缘关系的第二数据节点;
若查询到一个第二数据节点,则为该第二数据节点添加对应的节点标记;若查询到多个第二数据节点时,则为各个第二数据节点添加对应的节点标记。其中,第二数据节点对应的节点标记可以包括对应的业务标识和对应的分类标识中的至少一种。
另外,第二数据节点对应的节点标记中也可以包括对应的业务等级,并且,第一数据节点对应的业务等级和第二数据节点对应的业务等级可以相同。其中,在设置相同的业务等级时,可以通过重复迭代的方法将第一数据节点对应的业务等级传递到各个第二数据节点,使得第一数据节点的业务等级和各个第二数据节点对应的业务等级相同,从而提高了添加节点标记的速度。
举例来说:第一数据节点为图1B所示中的数据节点A,数据节点A对应的第二数据节点包括数据节点C和数据节点D,对数据节点A、以及数据节点C和数据节点D添加各自对应的节点标记后,得到的数据结构如表2所示。其中,节点标记包括业务标识、分类标识和业务等级。
表2
数据节点 业务标识 分类标识 业务等级
数据节点A A 1 1
数据节点C C 3 1
数据节点D D 4 1
步骤230:在检测到未添加节点标记的第三数据节点时,对第三数据节点进行清理。
本申请实施例中,可以将未添加节点标记的第三数据节点中的数据视为针对本次业务信息的无用数据,因此可以根据需要清理这些无用数据。
根据实际需要,可以实时检测数据库中是否包括未添加节点标记的第三数据节点;还可以定时检测数据库中是否包括未添加节点标记的第三数据节点,比如,定时检测周期可以为一天检测一次。
若检测到一个或多个第三数据节点时,可以删除第三数据节点,以及释放第三数据节点所占用的存储空间。
其中,判断一个数据节点是否为未添加节点标记的第三数据节点的方式,可以包括但不限于以下这种方式:
判断该数据节点对应的数据结构中的节点标记是否为空,若为空,则可以确定该数据节点为第三数据节点。例如,假设节点标记包括业务标识和分类标识,则判断业务标识和分类标识是否皆为空,若皆为空,则可以确定该数据节点是未添加节点标记的第三数据节点。
由上述实施例可见,在接收到业务信息时,为业务信息对应的第一数据节点添加对应的节点标记,根据数据血缘关系表确定与第一数据节点具有数据血缘关系的第二数据节点,并为第二数据节点添加对应的节点标记,在检测到未添加节点标记的第三数据节点时,对第三数据节点进行清理,从而实现了自动清理作为无用数据的第三数据节点,降低了存储成本,还提高了数据清理的准确性。
参见图3,为本申请数据清理方法的另一个实施例的流程图,该方法可以应用于数据清理设备上,并结合图2所示的实施例,该实施例用于定期更新数据血缘关系表中的各个数据节点之间的数据血缘关系,比如:一天更新一次。
该方法包括:
步骤310:从SQL代码信息和日志信息中获取各个数据节点之间的数据血缘关系,该数据血缘关系用于表征各个数据节点之间的上下游关系。
本申请实施例中,SQL是一种用于数据库操作的语言。日志信息可以是数据加工过程中产生的日志信息。
步骤320:根据各个数据节点之间的数据血缘关系更新数据血缘关系表中的数据血缘关系。
比如:通过SQL代码信息和日志信息获得数据节点A、数据节点C、数据节点F之间的数据结构,如表3所示。
表3
源数据节点 目标数据节点 备注
数据节点F 数据节点C
数据节点C 数据节点A
从表1数据结构可以看出数据节点A、数据节点C、数据节点F之间的数据血缘关系:对数据节点C来说,数据节点A是数据节点C的下游节点,数据节点F是数据节点C的上游节点;对数据节点A来说,数据节点C和数据节点F均是数据节点A的上游节点;对数据节点F来说,数据节点C和数据节点A均是数据节点F的下游节点。其中,下游节点即表3中所示的目标数据节点,上游节点即表3中所示的源数据节点。
根据定期获得的数据节点A、数据节点C、数据节点F之间的数据血缘关系可以更新数据血缘关系表中对应的数据节点A、数据节点C、数据节点F之间的数据血缘关系。
由上述实施例可见,从SQL代码信息和日志信息中获取各个数据节点之间的数据血缘关系,根据各个数据节点之间的数据血缘关系更新数据血缘关系表中数据血缘关系,使得数据血缘关系表中的数据血缘关系始终为最新的数据血缘关系,便于为数据清理时提供依据,从而提高了数据清理的可靠性。
与本申请数据清理方法的实施例相对应,本申请还提供了数据清理装置的实施例。
本申请数据清理装置的实施例可以分别应用在数据清理设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请数据清理装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,如对于终端来说,可能包括摄像头、触摸屏、通信组件等,对于服务器来说,可能包括负责处理报文的转发芯片等等。
参见图5,为本申请数据清理装置的一个实施例框图,该数据清理装置可以应用在数据处理设备上,并可以用于执行图2所示的数据清理方法,该装置用于对数据库中的多个数据节点进行处理,其中每个数据节点对应一个数据表,该装置包括:第一数据节点处理单元51、第二数据节点处理单元52和第三数据节点清理单元53。
第一数据节点处理单元51,用于在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;
第二数据节点处理单元52,用于从所述多个数据节点中确定与所述第一数据节点具有数据血缘关系的第二数据节点,并为所述第二数据节点添加对应的节点标记;
第三数据节点清理单元53,用于在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。
在另一个可选的实现方式中:所述装置还包括获取单元和更新单元(图5中未示出)。
获取单元,用于从SQL代码信息和日志信息中获取各个数据节点之间的数据血缘关系,所述数据血缘关系用于表征各个数据节点之间的上下游关系;
更新单元,用于根据所述各个数据节点之间的数据血缘关系更新用于保存所述数据血缘关系的数据血缘关系表中。
在另一个可选的实现方式中:所述第一数据节点处理单元51包括确定子单元和第一添加子单元(图5中未示出)。
确定子单元,用于在接收到业务信息时,确定所述业务信息对应的至少一个第一数据节点;
第一添加子单元,用于为各个所述第一数据节点添加对应的节点标记。
在另一个可选的实现方式中:所述第二数据节点处理单元52包括查询子单元和第二添加子单元(图5中未示出)。
查询子单元,用于在数据血缘关系表中查询到所述第一数据节点时,以所述第一数据节点为起点,查询所述多个数据节点中所述第一数据节点的上游节点,所述上游节点是与所述第一数据节点具有数据血缘关系的第二数据节点,其中,所述数据血缘关系表用于保存所述多个数据节点的数据血缘关系;
第二添加子单元,用于若查询到至少一个所述第二数据节点时,为各个所述第二数据节点添加对应的节点标记。
在另一个可选的实现方式中:所述第三数据节点清理单元53包括检测子单元和清理子单元(图5中未示出)。
检测子单元,用于检测所述数据库中是否包括未添加节点标记的第三数据节点;
清理子单元,用于若检测到至少一个所述第三数据节点时,删除各个所述第三数据节点,以及释放各个所述第三数据节点所占用的存储空间。
上述装置实施例中涉及的节点标记可以包括业务标识和分类标识中的至少一种;进一步,所述节点标记还可以包括业务等级。在一个可选的实现方式中,第一数据节点对应的业务等级和第二数据节点对应的业务等级可以相同。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本请求方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供了一种数据清理装置,所述装置用于对数据库中的多个数据节点进行处理,其中每个数据节点对应一个数据表,所述装置包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;
从所述多个数据节点中确定与所述第一数据节点具有数据血缘关系的第二数据节点,并为所述第二数据节点添加对应的节点标记;
在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。
由上述实施例可见,在接收到业务信息时,为业务信息对应的第一数据节点添加对应的节点标记,根据数据血缘关系表确定与第一数据节点具有数据血缘关系的第二数据节点,并为第二数据节点添加对应的节点标记,在检测到未添加节点标记的第三数据节点时,对第三数据节点进行清理,从而实现了自动清理作为无用数据的第三数据节点,降低了存储成本,还提高了数据清理的准确性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (13)

1.一种数据清理方法,其特征在于,所述方法用于对数据库中的多个数据节点进行处理,其中每个数据节点对应一个数据表,所述方法包括:
在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;
在数据血缘关系表中查询到所述第一数据节点时,以所述第一数据节点为起点,查询所述多个数据节点中所述第一数据节点的上游节点,所述上游节点是与所述第一数据节点具有数据血缘关系的第二数据节点,其中,所述数据血缘关系表用于保存所述多个数据节点的数据血缘关系;
若查询到至少一个所述第二数据节点时,为各个所述第二数据节点添加对应的节点标记;
在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从结构化查询语言SQL代码信息和日志信息中获取各个数据节点之间的数据血缘关系,所述数据血缘关系用于表征各个数据节点之间的上下游关系;
根据所述各个数据节点之间的数据血缘关系更新用于保存所述数据血缘关系的数据血缘关系表。
3.根据权利要求1所述的方法,其特征在于,为所述业务信息对应的第一数据节点添加对应的节点标记,包括:
确定所述业务信息对应的至少一个第一数据节点;
为各个所述第一数据节点添加对应的节点标记。
4.根据权利要求1所述的方法,其特征在于,所述在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理,包括:
检测所述数据库中是否包括未添加节点标记的第三数据节点;
若检测到至少一个所述第三数据节点时,删除各个所述第三数据节点,以及释放各个所述第三数据节点所占用的存储空间。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述对应的节点标记包括对应的业务标识和对应的分类标识中的至少一种。
6.根据权利要求5所述的方法,其特征在于,所述对应的节点标记还包括:业务等级;其中,所述第一数据节点对应的业务等级和所述第二数据节点对应的业务等级相同。
7.一种数据清理装置,其特征在于,所述装置用于对数据库中的多个数据节点进行处理,其中每个数据节点对应一个数据表,所述装置包括:
第一数据节点处理单元,用于在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;
第二数据节点处理单元,用于在数据血缘关系表中查询到所述第一数据节点时,以所述第一数据节点为起点,查询所述多个数据节点中所述第一数据节点的上游节点,所述上游节点是与所述第一数据节点具有数据血缘关系的第二数据节点,其中,所述数据血缘关系表用于保存所述多个数据节点的数据血缘关系;若查询到至少一个所述第二数据节点时,为各个所述第二数据节点添加对应的节点标记;
第三数据节点清理单元,用于在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取单元,用于从SQL代码信息和日志信息中获取各个数据节点之间的数据血缘关系,所述数据血缘关系用于表征各个数据节点之间的上下游关系;
更新单元,用于根据所述各个数据节点之间的数据血缘关系更新用于保存所述数据血缘关系的数据血缘关系表。
9.根据权利要求7所述的装置,其特征在于,所述第一数据节点处理单元包括:
确定子单元,用于在接收到业务信息时,确定所述业务信息对应的至少一个第一数据节点;
第一添加子单元,用于为各个所述第一数据节点添加对应的节点标记。
10.根据权利要求7所述的装置,其特征在于,所述第三数据节点清理单元包括:
检测子单元,用于检测所述数据库中是否包括未添加节点标记的第三数据节点;
清理子单元,用于若检测到至少一个所述第三数据节点时,删除各个所述第三数据节点,以及释放各个所述第三数据节点所占用的存储空间。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述对应的节点标记包括对应的业务标识和对应的分类标识中的至少一种。
12.根据权利要求11所述的装置,其特征在于,所述对应的节点标记还包括:业务等级;其中,所述第一数据节点对应的业务等级和所述第二数据节点对应的业务等级相同。
13.一种数据清理装置,其特征在于,所述装置用于对数据库中的多个数据节点进行处理,其中每个数据节点对应一个数据表,所述装置包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
在接收到业务信息时,为所述业务信息对应的第一数据节点添加对应的节点标记;
在数据血缘关系表中查询到所述第一数据节点时,以所述第一数据节点为起点,查询所述多个数据节点中所述第一数据节点的上游节点,所述上游节点是与所述第一数据节点具有数据血缘关系的第二数据节点,其中,所述数据血缘关系表用于保存所述多个数据节点的数据血缘关系;若查询到至少一个所述第二数据节点时,为各个所述第二数据节点添加对应的节点标记;
在检测到未添加节点标记的第三数据节点时,对所述第三数据节点进行清理。
CN201610710396.8A 2016-01-26 2016-08-23 数据清理方法及装置 Active CN106997369B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016100528257 2016-01-26
CN201610052825 2016-01-26

Publications (2)

Publication Number Publication Date
CN106997369A CN106997369A (zh) 2017-08-01
CN106997369B true CN106997369B (zh) 2020-11-24

Family

ID=59430943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610710396.8A Active CN106997369B (zh) 2016-01-26 2016-08-23 数据清理方法及装置

Country Status (1)

Country Link
CN (1) CN106997369B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009209B (zh) * 2017-11-08 2021-11-23 山东中创软件商用中间件股份有限公司 一种查询服务血缘关系信息的方法及装置
CN110196888B (zh) * 2019-05-27 2024-05-10 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、系统及介质
CN111046242B (zh) * 2019-11-27 2023-09-26 支付宝(杭州)信息技术有限公司 数据处理方法、装置、设备及介质
CN112287183A (zh) * 2020-10-30 2021-01-29 北京字节跳动网络技术有限公司 一种链路拓扑图展示方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571968A (zh) * 2001-08-17 2005-01-26 通用商业矩阵有限责任公司 向数据添加元数据的方法
CN103369003A (zh) * 2012-03-30 2013-10-23 网秦无限(北京)科技有限公司 一种利用云计算扫描移动设备的冗余文件的方法和系统
CN103902653A (zh) * 2014-02-28 2014-07-02 珠海多玩信息技术有限公司 一种构建数据仓库表血缘关系图的方法和装置
CN104182436A (zh) * 2014-02-25 2014-12-03 无锡天脉聚源传媒科技有限公司 一种清理数据库的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131855A1 (en) * 2003-12-11 2005-06-16 Forman George H. Data cleaning
US7827153B2 (en) * 2007-12-19 2010-11-02 Sap Ag System and method to perform bulk operation database cleanup

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571968A (zh) * 2001-08-17 2005-01-26 通用商业矩阵有限责任公司 向数据添加元数据的方法
CN103369003A (zh) * 2012-03-30 2013-10-23 网秦无限(北京)科技有限公司 一种利用云计算扫描移动设备的冗余文件的方法和系统
CN104182436A (zh) * 2014-02-25 2014-12-03 无锡天脉聚源传媒科技有限公司 一种清理数据库的方法及装置
CN103902653A (zh) * 2014-02-28 2014-07-02 珠海多玩信息技术有限公司 一种构建数据仓库表血缘关系图的方法和装置

Also Published As

Publication number Publication date
CN106997369A (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
CN106997369B (zh) 数据清理方法及装置
US20190182265A1 (en) Facilitating cross-platform content access
CN107092544B (zh) 监控方法及装置
US11755675B2 (en) Method and apparatus for managing region tag
CN109741060B (zh) 信息查询系统、方法、装置、电子设备及存储介质
CN108647357B (zh) 数据查询的方法及装置
CN108255620B (zh) 一种业务逻辑处理方法、装置、业务服务器及系统
CN112613917A (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN111078742B (zh) 用户分类模型训练方法、用户分类方法及装置
WO2020000801A1 (zh) 多方协作项目的问题处理方法、系统及服务器
CN101452556A (zh) 一种客户信息处理系统及方法
US20220253422A1 (en) Generating tables using data records
US9405796B2 (en) Systems and methods for analyzing registrar and hosting provider relationships
CN110187836B (zh) 一种数据删除方法、装置、计算机及存储介质
CN110704699A (zh) 数据画像的构建方法、装置、计算机设备及存储介质
CN110134721A (zh) 基于位图的数据统计方法、装置及电子设备
CN108694219B (zh) 一种数据处理方法及装置
US9009073B1 (en) Product availability check using image processing
CN111046242A (zh) 数据处理方法、装置、设备及介质
CN113256240A (zh) 消息的处理方法、装置和服务器
CN110598072A (zh) 一种特征数据聚合方法及装置
JP2008234013A (ja) 問い合わせ管理システム及び問い合わせ管理プログラム
JP6429755B2 (ja) 相互関連イベント抽出プログラム、装置及び方法
CN110851456B (zh) 一种信息处理方法、电子设备及存储介质
JP2012168870A (ja) 情報処理システム及び帳票イメージ保管サーバ

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant