CN113282586A - 一种信息处理方法、装置、设备及可读存储介质 - Google Patents
一种信息处理方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN113282586A CN113282586A CN202110609310.3A CN202110609310A CN113282586A CN 113282586 A CN113282586 A CN 113282586A CN 202110609310 A CN202110609310 A CN 202110609310A CN 113282586 A CN113282586 A CN 113282586A
- Authority
- CN
- China
- Prior art keywords
- node
- data
- processed
- nodes
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息处理方法、装置、设备及可读存储介质,涉及计算机技术领域,以提高对无效信息的识别准确性。该方法包括:获取待处理信息,其中,所述待处理信息包括待处理数据表,或者,所述待处理信息包括待处理数据表和访问所述待处理数据表的应用的信息;根据所述待处理信息,生成数据关系有向有环图;根据所述数据关系有向有环图,从所述待处理信息中确定无效信息;其中,所述数据关系有向有环图是根据数据表之间的访问关系生成的,或者,所述数据关系有向有环图是根据数据表之间的访问关系以及应用对数据表的访问关系生成的。本申请实施例可以提高对无效信息的识别准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息处理方法、装置、设备及可读存储介质。
背景技术
随着互联网行业的发展,企业在进行系统建设、数字化转型的过程中必定产生积累大量的数据,但是,这些数据并不一定都是有价值的。如果不能有效地识别和管理这些包括无价值数据在内的无效信息,将使得这些无效信息占用大量资源并增加人力维护成本。
现有技术中,主要是通过人工的方式对这些无效信息进行标记和处理。因此,这种方式识别出的无效信息的准确率较低。
发明内容
本申请实施例提供一种信息处理方法、装置、设备及可读存储介质,以提高对无效信息的识别准确性。
第一方面,本申请实施例提供了一种信息处理方法,包括:
获取待处理信息,其中,所述待处理信息包括待处理数据表,或者,所述待处理信息包括待处理数据表和访问所述待处理数据表的应用的信息;
根据所述待处理信息,生成数据关系有向有环图;
根据所述数据关系有向有环图,从所述待处理信息中确定无效信息;
其中,所述数据关系有向有环图是根据数据表之间的访问关系生成的,或者,所述数据关系有向有环图是根据数据表之间的访问关系以及应用对数据表的访问关系生成的。
第二方面,本申请实施例还提供一种信息处理装置,包括:
第一获取模块,用于获取待处理信息,其中,所述待处理信息包括待处理数据表,或者,所述待处理信息包括待处理数据表和访问所述待处理数据表的应用的信息;
生成模块,用于根据所述待处理信息,生成数据关系有向有环图;
第一处理模块,用于根据所述数据关系有向有环图,从所述待处理信息中确定无效信息;
其中,所述数据关系有向有环图是根据数据表之间的访问关系生成的,或者,所述数据关系有向有环图是根据数据表之间的访问关系以及应用对数据表的访问关系生成的。
第三方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现如上所述的信息处理方法中的步骤。
第四方面,本申请实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的信息处理方法中的步骤。
在本申请实施例中,根据待处理信息生成数据关系有向有环图,进而通过数据关系有向有环图从所述待处理信息中确定无效信息。因此,利用本申请实施例的方案,无需人工识别无效信息,从而避免了人工识别所造成的误处理等,进而提高了对无效信息的识别准确性。
附图说明
图1是本申请实施例提供的信息处理方法的流程图之一;
图2是本申请实施例提供的信息处理方法的流程图之二;
图3和图4是本申请实施例中的数据关系有向有环图的示意图;
图5是本申请实施例的信息处理系统的示意图;
图6是本申请实施例提供的信息处理装置的结构图。
具体实施方式
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的信息处理方法的流程图,如图1所示,包括以下步骤:
步骤101、获取待处理信息。
其中,待处理信息包括待处理数据表,或者,待处理信息包括待处理数据表和访问待处理数据表的应用的信息。待处理数据表可以是来自于任意系统的数据表。其中,访问待处理数据表可以理解为访问过该待处理数据表,或者,将要访问该待处理数据表。数据表可以理解为是一个文件或者是多个数据的集合。
步骤102、根据待处理信息,生成数据关系有向有环图。
其中,数据关系有向有环图是根据数据表之间的访问关系生成的,或者,数据关系有向有环图是根据数据表之间的访问关系以及应用对数据表的访问关系生成的。数据关系有向有环图指的是有环路的有向图,用于表示通过数据加工、调用等访问方式而形成的数据上下游关系。如果某个数据被调用,那么,该数据可作为调用方的上游,反之调用方为该数据的下游。
在形成该数据关系有向有环图的过程中,每个待处理信息被看作为一个节点。例如,每个数据表被看作为一个节点,每个应用被看作为一个节点。因此,在此步骤中,可通过如下方式生成数据关系有向有环图:
(1)确定待处理信息对应的节点之间的连线信息。
具体的,连线信息包括连线的方向以及对应的时间信息等。当待处理信息包括待处理数据表时,若第二数据表是通过访问第一数据表生成的,则利用第一连线连接第一节点和第二节点,且第一连线由第一节点指向第二节点;标记第二数据表访问第一数据表的时间信息。例如,可在第一连线上标注该时间信息。此时,第一节点可称为上游节点,第二节点可称为下游节点。
当待处理信息包括待处理数据表和访问待处理数据表的应用的信息时,利用第二连线连接第三节点和第四节点,且第二连线由第三节点指向第四节点;标记第一应用访问第三数据表的时间信息。此时,第三节点可称为上游节点,第四节点可称为下游节点。
其中,第一数据表、第二数据表和第三数据表是待处理数据表中的任一数据表,第一应用为访问第三数据表的应用中的任一应用,第一数据表对应第一节点,第二数据表对应第二节点,第三数据表对应第三节点,第一应用对应第四节点。
对于每个待处理数据表和应用,根据其对应的访问关系,可得到多个节点之间的连线信息。
(2)设置各节点的节点类型。
具体的,当待处理信息包括待处理数据表时,将待处理数据表对应的节点设置为数据类型节点;当待处理信息包括待处理数据表和访问待处理数据表的应用的信息时,将待处理数据表对应的节点设置为数据类型节点,将应用对应的节点设置为应用类型节点。
(3)利用各节点的节点类型以及各节点之间的连线信息形成数据关系有向有环图。
由于数据关系有向有环图中体现了各节点的访问关系,每个连线具有方向性,因此,上游节点和下游节点之间构成了数据层级。在本申请实施例中,在数据关系有向有环图中,除了最下游外,其它层级中的节点均为数据类型节点。
步骤103、根据数据关系有向有环图,从待处理信息中确定无效信息。
无效信息包括无效数据表。通过在数据关系有向有环图中确定无效资产节点的方式,可以将无效资产节点对应的数据表作为无效数据表。
在此步骤中,其中一种确定无效信息的方式包括:从数据关系有向有环图中选择待处理节点和数据环,该数据环为由至少两个节点形成的闭合的有向环,该待处理节点不位于数据环上。然后,从待处理节点中确定无效资产节点,以及,从数据环中确定无效资产节点。之后,再将无效资产节点对应的数据表作为无效信息。通过这种方式,可避免对节点的漏判,使得确定的无效资产节点更为全面和准确。由于数据环上的节点之间所形成的环形关系和待处理其节点与其他节点所形成的链状关系不同,那么,数据环上的节点和待处理节点需要具有不同的判断准则,因此,将待处理节点和环分开进行处理,从而保证可以对每个节点进行准确的标识。
具体的,在此种方式下,可按照以下方式从待处理节点中确定无效资产节点,以及,从数据环中确定无效资产节点。
1、从待处理节点中确定无效资产节点,包括:
待处理节点包括最下游的待处理节点或第一目标待处理节点。为减少遍历数据关系有向有环图的次数,在本申请实施例中可从最下游的待处理节点开始进行处理。具体的,可按照如下方式从待处理节点中确定无效资产节点:
S1:当满足以下任一条件时,将最下游的待处理节点标记为无效资产节点,该条件包括:
最下游的待处理节点为没有下游节点的数据类型节点;
最下游的待处理节点为在第一预设时间段内未访问过上游节点的应用类型节点。
S2:从最下游的待处理节点开始向上逐层级查找待处理节点直至遍历完数据关系有向有环图,当满足以下任一条件时,将第一目标待处理节点标记为无效资产节点,该条件包括:
第一目标待处理节点的所有下游节点都被标记为无效资产节点;
第一目标待处理节点在第二预设时间段内未被访问过;
其中,第一目标待处理节点为最下游的待处理节点的直接上游待处理节点或者间接上游待处理节点。例如,节点A的上游节点是节点B,节点B的上游节点为节点C,那么,节点B可以认为是节点A的直接上游待处理节点,而节点C可以认为是节点A的间接上游待处理节点。
其中,第一预设时间段、第二预设时间段可根据需要设置。
对于每层级的节点,根据节点所对应的时间信息以及当前时间信息,确定节点是否访问过上游节点或者是否被访问过。其中,节点所对应的时间信息可以通过节点所对应的连线上标注的时间信息来确定。当前时间信息例如可以指的是执行本申请实施例的时间,或者是根据实际需要指定的时间。例如,连线对应的时间是2021年3月22日,当前时间是2021年5月11日,第二预设时间段为30天,那么,可确定该节点未被访问过。
例如,由于是位于最下游,因此,数据关系有向有环图的最下游的节点都不具有下游节点。对于最下游的待处理节点,如果某个待处理节点为数据类型节点,那么,该待处理节点可被标记为无效资产节点;否则将其标记为有效资产节点。如果某个待处理节点为应用类型的节点,那么,可根据该待处理节点所对应的时间信息以及当前时间信息,确定待处理节点是否在第二预设时间段内(如1个月内)访问过上游节点。如果未访问过,则待处理节点标记为无效资产节点;否则将其标记为有效资产节点。在实际应用中,该待处理节点可能具有对应的多条连线,那么,只要其中一条连线上标记的时间信息表示该待处理节点在第二预设时间段内访问过上游节点,那么,待处理节点都不能被标记为无效资产节点,也即将其标记为有效资产节点。
在标记完最下游的每个待处理节点之后,可在每个待处理节点的上一层继续进行标记。如果上游的某个待处理节点的所有下游节点都被标记为无效资产节点或者在第一预设时间段内未被访问过,那么,该上游的待处理节点可被标记为无效资产节点;否则将其标记为有效资产节点。在实际应用中,该上游的待处理节点可能具有对应的多条连线,那么,只要其中一条连线上标记的时间信息表示该上游的待处理节点在第一预设时间段内被访问过,那么,该上游的待处理节点都不能被标记为无效资产节点,也即将其标记为有效资产节点。
那么,对于上游节点之后的再上游的节点,都按照前述上游节点的处理方式进行标记,直至遍历完全部的数据关系有向有环图。
2、从数据环中确定无效资产节点,包括:
S1:当满足以下任一条件时,将目标数据环上的节点标记为无效资产节点,该条件包括:
目标数据环上的所有节点仅在该目标数据环上具有下游节点;
目标数据环上的所有节点除在该目标数据环上具有下游节点外,还具有其他不位于该目标数据环上的其他下游节点,且其他下游节点都被标记为无效资产节点;
目标数据环上的所有节点在第三预设时间段内都未被访问过。
其中,目标数据环可以是任意的数据环。为减少遍历数据关系有向有环图的次数,在本申请实施例中可从最下游的数据环开始进行处理。此时,目标数据环可以是最下游的任一的数据环。
S2:从目标数据环的节点开始向上逐层级查找直至遍历完所述数据关系有向有环图,按照以下任一方式标记第一目标上游节点:
当第一目标上游节点的所有下游节点都被标记为无效资产节点时,将该第一目标上游节点标记为无效资产节点;
当第一目标上游节点在第四预设时间段内未被访问过,且第一目标上游节点不位于数据环上时,将该第一目标上游节点标记为无效资产节点;
当第一目标上游节点在第四预设时间段内未被访问过且第一目标上游节点位于数据环上时,结合对第一目标上游节点所在的数据环的判断结果标记该第一目标上游节点。
第一目标上游节点为目标环上的节点的上游节点中的任一节点,可以是为目标环上的节点的直接上游节点,也可以是其间接上游节点。第一目标上游节点有可能位于一个或者多个数据环上,也有可能不位于数据环上。例如,目标数据环上的节点A的上游节点是节点B,节点B的上游节点为节点C,那么,节点B可以认为是节点A的直接上游节点,而节点C可以认为是节点A的间接上游节点。
其中,第三预设时间段、第四预设时间段可根据需要设置。
在结合对第一目标上游节点所在的数据环的判断结果标记第一目标上游节点的过程中,当满足下述任一条件时,将第一目标上游节点所在的数据环上的所有节点标记为无效资产节点;所述条件包括:
第一目标上游节点仅在所在的数据环上具有下游节点;
第一目标上游节点所在的数据环上的所有节点的下游节点都被标记为无效资产节点;
第一目标上游节点所在的数据环上的所有节点在第五预设时间段内都未被访问过。
其中,第五预设时间段可根据需要设置。
例如,数据环1由ABC三个节点组成,其中,A的上游节点E位于数据环2和数据环3中。那么,在对E节点进行判断时,可结合数据环2或者数据环3的判断的结果,来对其进行标识。如果结合对数据环2的判断结果得到需将节点E标识为无效资产节点,那么,节点E被标记为无效资产节点;同时,数据环3上的节点也可同时被标记为无效资产节点。如果单独结合数据环2或者数据环3的判断结果无法对节点E进行标识,那么,可将数据环2和数据环3上的所有节点作为一个整体,即利用数据环2和数据环3上的所有节点形成一个新的数据环,对该新的数据环进行判断,从而确定对节点E的标识。
在此步骤中,另一种确定无效信息的方式包括:获取预设的有效资产信息。其中,有效资产信息可以包括有效数据表的信息等,可根据实际需要设置。然后,从数据关系有向有环图中选择待处理节点以及数据环,该数据环为由至少两个节点形成的闭合的有向环,该待处理节点不位于数据环上。接着,根据有效资产信息,从待处理节点中确定无效资产节点以及从数据环中确定无效资产节点。最后,将无效资产节点对应的数据表作为无效信息。
具体的,在此种方式下,可按照以下方式从待处理节点中确定无效资产节点,以及,从数据环中确定无效资产节点。
1、从待处理节点中确定无效资产节点,包括:
待处理节点包括最下游的待处理节点或第一目标待处理节点。为减少遍历数据关系有向有环图的次数,在本申请实施例中可从最下游的待处理节点开始进行处理。具体的,可按照如下方式从待处理节点中确定无效资产节点:
S1:当满足以下任一条件时,将最下游的待处理节点标记为无效资产节点,该条件包括:
所述最下游的待处理节点为没有下游节点且对应的数据表不位于所述有效资产信息中的数据类型节点;
所述最下游的待处理节点为在第一预设时间段内未访问过上游节点且对应的数据表不位于所述有效资产信息中的应用类型节点。
S2:从最下游的待处理节点开始向上逐层级查找待处理节点直至遍历完所述数据关系有向有环图,当满足以下任一条件时,将第一目标待处理节点标记为无效资产节点,所述条件包括:
第一目标上游待处理节点的所有下游节点都被标记为无效资产节点;
第一目标上游待处理节点在第二预设时间段内未被访问过,且第一目标上游待处理节点对应的数据表不位于有效资产信息中;
其中,第一目标待处理节点为最下游的待处理节点的直接上游待处理节点或者间接上游待处理节点。
其中,第一预设时间段、第二预设时间段可根据需要设置。
例如,数据关系有向有环图的最下游的节点都不具有下游节点,如果某个待处理节点为数据类型节点,那么,如果该待处理节点所对应的数据表不位于有效资产信息中,该待处理节点可被标记为无效资产节点;否则将其标记为有效资产节点。如果某个待处理节点为应用类型的节点,那么,可根据该待处理节点所对应的连线上的时间信息,确定待处理节点是否在第二预设时间段内(如1个月内)访问过上游节点。如果未访问过且该待处理节点所对应的数据表不位于有效资产信息中,则待处理节点标记为无效资产节点;否则将其标记为有效资产节点。在实际应用中,该待处理节点可能具有对应的多条连线,那么,只要其中一条连线上标记的时间信息表示该待处理节点在第二预设时间段内访问过上游节点,即可再结合该待处理节点所对应的数据表是否位于有效资产信息中进行判断。
在标记完最下游的每个待处理节点之后,可在每个待处理节点的上一层继续进行标记。如果上游的某个待处理节点的所有下游节点都被标记为无效资产节点且对应的数据表不位于有效资产信息中,或者,如果上游的某个待处理节在某个预设时间段(可根据需要设置)内未被访问过且对应的数据表不位于有效资产信息中,那么,该上游的待处理节点可被标记为无效资产节点;否则,将其标记为有效资产节点。在实际应用中,该上游的待处理节点可能具有对应的多条连线,那么,只要其中一条连线上标记的时间信息表示该上游的待处理节点在第一预设时间段内被访问过,那么,即可再结合该上游的待处理节点所对应的数据表是否位于有效资产信息中进行判断。
那么,对于上游节点之后的再上游的节点,都按照前述上游节点的处理方式进行标记,直至遍历完全部的数据关系有向有环图。
2、从数据环中确定无效资产节点,包括:
S1:当满足以下任一条件时,将目标数据环上的所有节点标记为无效资产节点,该条件包括:
目标数据环上的所有节点仅在目标数据环上具有下游节点且目标数据环上的所有节点对应的数据表都不位于有效资产信息中;
目标数据环上的所有节点除在目标数据环上具有下游节点外,还具有其他不位于目标数据环上的其他下游节点、其他下游节点都被标记为无效资产节点,且目标数据环上的所有节点对应的数据表都不位于有效资产信息中;
目标数据环上的所有节点在第三预设时间段内都未被访问过,且目标数据环上的所有节点对应的数据表都不位于有效资产信息中。
S2:从目标数据环的节点开始向上逐层级查找直至遍历完数据关系有向有环图,按照以下任一方式标记第一目标上游节点:
当第一目标上游节点的所有下游节点都被标记为无效资产节点且目标数据环上的所有节点对应的数据表都不位于有效资产信息中时,将第一目标上游节点标记为无效资产节点;
当第一目标上游节点在第四预设时间段内未被访问过,且第一目标上游节点不位于数据环上以及目标数据环上的所有节点对应的数据表都不位于有效资产信息中时,将第一目标上游节点标记为无效资产节点;
当第一目标上游节点在第四预设时间段内未被访问过,且第一目标上游节点位于数据环上以及目标数据环上的所有节点对应的数据表都不位于有效资产信息中时,结合对第一目标上游节点所在的环的判断结果标记第一目标上游节点。
其中,目标数据环可以是任意的数据环。为减少遍历数据关系有向有环图的次数,在本申请实施例中可从最下游的数据环开始进行处理。此时,目标数据环可以是最下游的任一的数据环。
在结合对第一目标上游节点所在的环的判断结果标记第一目标上游节点的过程中,当满足下述任一条件时,将第一目标上游节点所在的数据环上的所有节点标记为无效资产节点;该条件包括:
第一目标上游节点仅在所在的数据环上具有下游节点且第一目标上游节点所在数据环上节点对应的数据表都不位于有效资产信息中;
第一目标上游节点所在的数据环上的所有节点的下游节点都被标记为无效资产节点且第一目标上游节点所在数据环上节点对应的数据表都不位于有效资产信息中;
第一目标上游节点所在的一数据环上的所有节点在第五预设时间段内都未被访问过,且第一目标上游节点所在的数据环上的所有节点对应的数据表都不位于有效资产信息中。
例如,数据环1由ABC三个节点组成,其中,A的上游节点E位于数据环2和数据环3中。那么,在对E节点进行判断时,可结合数据环2或者数据环3的判断的结果,来对其进行标识。如果结合对数据环2的判断结果得到需将节点E标识为无效资产节点,那么,节点E被标记为无效资产节点;同时,数据环3上的节点也可同时被标记为无效资产节点。如果单独结合数据环2或者数据环3的判断结果无法对节点E进行标识,那么,可将数据环2和数据环3上的所有节点作为一个整体,即利用数据环2和数据环3上的所有节点形成一个新的数据环,对该新的数据环进行判断,从而确定对节点E的标识。
其中,第三预设时间段、第四预设时间段、第五预设时间段可根据需要设置。
在这种方式中,结合节点对应的数据表是否位于有效资产信息中来标记节点,可在考虑该节点的类型或者下游节点的标记结果或者其他节点对该节点的访问情况的基础上,结合有效资产信息对其做进一步的判断,从而可进一步增加标记结果的准确性,并且,由于该有效资产信息可以根据实际需要设置,因此,也增加了此种方案对多种应用场景的适用性。
通过以上描述可以看出,在本申请实施例中,通过构建的有向有环图,可以准确的表示各个节点的访问关系以及访问时间,从而可快速、准确的确定下文的无效信息。同时,通过该有向有环图中的数据环,可准确的形成节点之间的循环访问关系,从而在遍历该有向有环图时,当数据环上的某个节点被确认为有效资产节点时,由于各节点之间形成有环形连接,因此,各该数据环上的其他节点无需进行判断即可被认为是有效资产节点;而只有当数据环上的所有节点都被认为是无效资产节点时,该数据环上才被作为无效,相当于将该数据环上的节点作为一个整体进行处理,避免了对节点的误判,保证了每个节点的可使用性,从而进一步的提高了确定后续无效信息的效率和准确性。
在本申请实施例中,根据待处理信息生成数据关系有向有环图,进而通过数据关系有向有环图从待处理信息中确定无效信息。因此,利用本申请实施例的方案,无需人工识别无效信息,从而避免了人工识别所造成的误处理等,进而提高了对无效信息的识别准确性。
在上述实施例的基础上,还可对被标记为无效资产节点的数据类型节点所对应的数据表进行处理,其中,该处理包括以下一项或者多项:
将被标记为无效资产节点的数据类型节点所对应的数据表存储到数据库;
禁止或恢复对被标记为无效资产节点的数据类型节点所对应的数据表的访问;
删除被标记为无效资产节点的数据类型节点所对应的数据表。
参见图2,图2是本申请实施例提供的信息处理方法的流程图,如图2所示,包括以下步骤:
步骤201、生成数据关系有向有环图。
对于数据表,根据数据加工关系,将被使用的数据表作为数据提供方,加工出来的产出表作为数据使用方,连接数据提供方对应的节点和数据使用方对应的节点,方向为从数据提供方到数据使用方的方向,将发生该加工关系的时间,记录到该连线属性上(例如标记在该连线上);数据表对应的节点类型为数据类型节点。
通过分析数据的应用关系,将被使用的数据表作为数据提供方,应用作为数据使用方,连接数据提供方对应的节点和数据使用方对应的节点,方向为从数据提供方到数据使用方的方向,将发生该调用关系的时间,记录到该连线属性上。应用对应的节点类型为应用类型节点。
通过上述方式,生成数据关系有向有环图,也可称为数据血缘关系有向有环图。以上过程可通过数据血缘构建程序执行,生成的数据关系有向有环图可存储于数据血缘关系数据库中。
在具体应用过程中,可通过Hive钩子程序、Yarn执行历史、调度任务内容等多种途径采集数据加工关系或者可通过人工配置得到加工逻辑的数据来源方和数据使用方,数据来源方作为数据使用方的上游,构建成数据关系有向有环图中的上下游数据节点。同时,也可采集Hive库中数据被应用系统直接访问情况,并体现到数据关系有向有环图中,作为数据使用下游方。
例如,如图3所示,可形成图示的数据关系有向有环图。其中,数据关系有向有环图设计两种节点类型,圆形表示数据类型节点(节点A、B、C、D、E、F、H),三角形表示应用类型的节点(节点G,I),节点与节点间用带箭头的线连接,带箭头的线表示上下游关系(由上游指向下游),线上设置时间,表示该关系的最后构建时间。
步骤202、定义无效资产白名单,在白名单内的数据表为有效资产。
步骤203、根据数据关系有向有环图对节点进行识别。
无效数据资产识别程序从数据血缘关系数据库中读取据关系有向有环图,识别出数据关系有向有环图中的数据环,并记录;从数据关系有向有环图读取出无下游节点的节点作为第一批判定节点。
若第一批判定节点中的节点为数据类型节点,且该节点对应的数据表不在无效资产白名单内,则该节点标记为无效资产节点。若第一批判定节点中的节点为应用类型节点,在规定的时间内没有访问上游数据节点,且该节点对应的数据表不在无效资产白名单内,则该节点标记为无效资产节点。重复上述过程,直至第一批判定节点中的所有节点都标记完成。
从第一批判定节点向上逐级检查上游节点。如果上游节点位于某个数据环上,则跳过该上游节点。否则,如果上游节点的所有下游节点都被标记为无效资产且上游节点对应的数据表不在无效资产白名单内,或者,如果上游节点在规定时间内没有被访问过且上游节点对应的数据表不在无效资产白名单内,则该上游节点标记为无效资产。之后,按照相同的方式,再向上查找上游节点,直至遍历完整个数据关系有向有环图。
识别所有数据环。如果数据环上的所有节点除本环上的节点外都无其他下游节点并且该数据环上所有节点对应的数据表都不在无效资产白名单内,或者,该数据环上的所有节点除在该数据环上具有下游节点外,还具有其他不位于该数据环上的其他下游节点、其他下游节点都为无效资产节点并且该环上所有节点对应的数据表都不在无效资产白名单内,或者,该数据环上所有节点在规定时间内没有被访问过并且该环上所有节点对应的数据表都不在无效资产白名单内,那么,将该环上所有的节点都标记为无效资产节点。
从数据环上识别出的无效资产节点开始,向上层级逐级查找上游节点。如果上游节点位于某个数据环上,则结合对该数据环的判断结果对该上游节点进行标识。具体的对该数据环的判断方式可参照前述的数据环的判断方式。否则,如果上游节点的所有下游节点都被标记为无效资产且上游节点对应的数据表不在无效资产白名单内,或者如果上游节点在规定时间内没有被访问过且上游节点对应的数据表不在无效资产白名单内,则该上游节点标记为无效资产。之后,按照相同的方式,再向上查找上游节点,直至遍历完整个数据关系有向有环图。
步骤204、对标记为无效资产的节点所对应的数据表进行处理。
例如,经过无效数据资产识别程序标记出来的无效资产节点,将其中被标记为无效数据资产节点的数据类型节点对应的数据表存储到无效数据资产数据库中。数据管理人员确认无效数据资产节点后,无效数据资产下线程序将无效资产迁移至无效数据资产保留区,对应的数据加工任务(该任务无其他的有效数据产出)停止执行。待保留期满后,删除无效数据资产保留区的数据,同时下线对应的数据加工任务,在保留期内,数据管理人员可从数据资产保留区恢复数据,并恢复对应的数据加工任务。
以图3所示的数据有向有环图为例,假设无效资产白名单内为A节点对应的数据表。无效数据资产标记程序是一个后台Java批处理程序,分批分层扫描数据关系有向有环图上的节点。
在图3中,D、E、H节点形成环;C、G、I节点无下游节点,作为第一批扫描节点。首先判断C节点。C节点为数据类型节点,无下游节点,且不在无效资产白名单内,则C节点被标记为无效资产节点;G、I节点为应用类型节点,没有下游节点,扫描时间为2020-09-10,在设定时间段(如30天)内没有访问上游节点,且不在无效资产白名单内,则G、I节点被标记为无效应用资产节点。
从C、G、I节点向上游遍历。I节点的上游是E节点,E节点位于数据环上,故跳过。G节点的上游是F节点,F节点的下游节点G为无效资产节点,且F节点不在无效资产白名单中,因此F节点被标记为无效资产节点。从C、F节点出发分别向上游遍历,找到C、F节点共同上游节点为B节点,由于B节点的所有下游节点C、F节点都已被标记为无效资产,因此B节点被标记为无效资产节点。从B节点出发得到上游A节点,A节点的所有下游节点B被标记为无效资产节点,但A节点存在无效资产白名单中,因此不能标记A节点为无效资产节点,即将其标记为有效资产节点。
由节点D、E、H构成的数据环中,D、E、H三个节点中,除了在数据环上的下游节点外,D、E节点还存在其他下游节点B和I,且节点B和I为无效资产节点,故D、E、H节点都被标记为无效资产节点。
如图4所示,为标记完的数据有向有环图的示意图,其中,C、G、I、F、B、D、E、H为无效资产节点,A为有效资产节点。
在标记出无效资产节点后,数据管理人员通过查询数据库获取被标记的无效数据资产记录。此外,还可以通过文件存储标记的无效数据资产,也可以在无效数据资产标记程序执行完毕后给数据管理人员发送无效数据资产标记结果邮件;也可以开发WEB应用、PC应用,通过应用查询无效资产标记数据库。这样数据管理人员查看被标记的无效数据资产更方便直观,也便于在该功能上进行扩展。数据管理人员可在界面上二次确认无效数据资产后,再通过自动处理程序清理被数据管理人员确认为无效数据资产的数据记录。
在实际的数据开发、维护管理过程中,对于临时备份的数据表、业务下线等,都可利用以上方法快速标记出无效数据资产的表,从而可推进数据表下线,降低数据存储空间消耗,同时下线这些数据的产出任务,可节约因计算这些无效数据资产而造成的资源消耗。例如,当前由于业务的发展,某产品线需要改造升级,原业务下的表A需要下线。因此,不仅需要评估表A下线关联需要下线或者调整的下游表,同时也需要评估表A下线的同时是否有相关的上游表也需要下线。此时,将表A标记为无效资产,利用上述的可快速标记出无效数据资产。如果通过上述方法判断得出因下线表A将要产生无效数据资产表B,表C等,因此,在做表A下线操作时,可一并下线表B,表C,以及对应的数据生产任务A、任务B和任务C,从而可降低存储空间和减少计算资源消耗。
如图5所示,为本申请实施例的信息处理系统示意图,该系统可包括终端501,业务处理系统502,以及服务器503。在实际应用中,各个终端501对业务处理系统502(如金融系统)的访问都会形成有访问记录,而终端所访问的某个业务,往往也会涉及到业务系统的不同应用之间的调用。在各应用相互调用的过程中,通常包括用户之间的数据的调用等。
服务器503在获得终端的访问记录以及由于应用之间的调用而形成的记录时,可根据各个记录的特征形成多个数据表,以及,根据应用对数据表的访问而获取应用的信息。之后,服务器503将该数据表以及应用的信息作为待处理信息,并按照如前述实施例所描述的方式生成数据关系有向有环图。对于数据关系有向有环图中的节点,服务器503可按照前述的方式进行判断,从而确定无效资产节点。对于获得的无效资产节点,服务器503可将这些节点的信息提供给数据管理人员,以便对这些节点所对应的数据表做进一步的处理。在实际应用中,服务器503也可以设置于业务处理系统502中。
具体的,结合图5,服务器503中的数据血缘构建模块5031基于获取到的待处理信息生成数据关系有向有环图,并将生成的数据关系有向有环图存储于数据血缘关系数据库5032中。无效数据资产识别模块5033读取数据血缘关系数据库中5032的数据关系有向有环图,识别其中的无效资产节点。之后,将无效资产节点的信息等存储于无效数据资产记录数据库5034中,例如将其中被标记为无效数据资产节点的数据类型节点对应的数据表存储到无效数据资产记录数据库5034中。
其中,数据血缘构建模块5031,根据数据加工关系,将被使用的数据表作为数据提供方,加工出来的产出表作为数据使用方,连接数据提供方对应的节点和数据使用方对应的节点,方向为从数据提供方到数据使用方的方向,将发生该加工关系的时间,记录到该连线属性上(例如标记在该连线上);数据表对应的节点类型为数据类型节点。通过分析数据的应用关系,将被使用的数据表作为数据提供方,应用作为数据使用方,连接数据提供方对应的节点和数据使用方对应的节点,方向为从数据提供方到数据使用方的方向,将发生该调用关系的时间,记录到该连线属性上。应用对应的节点类型为应用类型节点。
无效数据资产识别模块5033按照如下方式进行处理:
从数据血缘关系数据库中读取据关系有向有环图,识别出数据关系有向有环图中的数据环,并记录;从数据关系有向有环图读取出无下游节点的节点作为第一批判定节点。
若第一批判定节点中的节点为数据类型节点,且该节点对应的数据表不在无效资产白名单内,则该节点标记为无效资产节点。若第一批判定节点中的节点为应用类型节点,在规定的时间内没有访问上游数据节点,且该节点对应的数据表不在无效资产白名单内,则该节点标记为无效资产节点。重复上述过程,直至第一批判定节点中的所有节点都标记完成。
从第一批判定节点向上逐级检查上游节点。如果上游节点位于某个数据环上,则跳过该上游节点。否则,如果上游节点的所有下游节点都被标记为无效资产且上游节点对应的数据表不在无效资产白名单内,或者,如果上游节点在规定时间内没有被访问过且上游节点对应的数据表不在无效资产白名单内,则该上游节点标记为无效资产。之后,按照相同的方式,再向上查找上游节点,直至遍历完整个数据关系有向有环图。
识别所有数据环。如果数据环上的所有节点除本环上的节点外都无其他下游节点并且该数据环上所有节点对应的数据表都不在无效资产白名单内,或者,该数据环上的所有节点除在该数据环上具有下游节点外,还具有其他不位于该数据环上的其他下游节点、其他下游节点都为无效资产节点并且该环上所有节点对应的数据表都不在无效资产白名单内,或者,该数据环上所有节点在规定时间内没有被访问过并且该环上所有节点对应的数据表都不在无效资产白名单内,那么,将该环上所有的节点都标记为无效资产节点。
从数据环上识别出的无效资产节点开始,向上层级逐级查找上游节点。如果上游节点位于某个数据环上,则结合对该数据环的判断结果对该上游节点进行标识。具体的对该数据环的判断方式可参照前述的数据环的判断方式。否则,如果上游节点的所有下游节点都被标记为无效资产且上游节点对应的数据表不在无效资产白名单内,或者如果上游节点在规定时间内没有被访问过且上游节点对应的数据表不在无效资产白名单内,则该上游节点标记为无效资产。之后,按照相同的方式,再向上查找上游节点,直至遍历完整个数据关系有向有环图。
在本申请实施例中,通过构建数据关系有向有环图可标记出无效数据资产,无需数据管理人员人工识别记录无效数据资产,从而提高了识别的完整性和准确性,降低了人力投入成本。
本申请实施例还提供了一种信息处理装置。如图6所示,信息处理装置600包括:
第一获取模块601,用于获取待处理信息,其中,待处理信息包括待处理数据表,或者,待处理信息包括待处理数据表和访问待处理数据表的应用的信息;生成模块602,用于根据待处理信息,生成数据关系有向有环图;第一处理模块603,用于根据数据关系有向有环图,从待处理信息中确定无效信息;其中,数据关系有向有环图是根据数据表之间的访问关系生成的,或者,数据关系有向有环图是根据数据表之间的访问关系以及应用对数据表的访问关系生成的。
可选的,生成模块包括:
确定子模块,用于确定待处理信息对应的节点之间的连线信息;设置子模块,用于设置各节点的节点类型;生成子模块,用于利用各节点的节点类型以及各节点之间的连线信息形成数据关系有向有环图。
可选的,确定子模块,用于当待处理信息包括待处理数据表时,若第二数据表是通过访问第一数据表生成的,则利用第一连线连接第一节点和第二节点,且第一连线由第一节点指向第二节点;标记第二数据表访问第一数据表的时间信息;当待处理信息包括待处理数据表和访问待处理数据表的应用的信息时,利用第二连线连接第三节点和第四节点,且第二连线由第三节点指向第四节点;标记第一应用访问第三数据表的时间信息;
其中,第一数据表、第二数据表和第三数据表是待处理数据表中的任一数据表,第一应用为访问第三数据表的应用中的任一应用,第一数据表对应第一节点,第二数据表对应第二节点,第三数据表对应第三节点,第一应用对应第四节点。
可选的,设置子模块,用于当待处理信息包括待处理数据表时,将待处理数据表对应的节点设置为数据类型节点;当待处理信息包括待处理数据表和访问待处理数据表的应用的信息时,将待处理数据表对应的节点设置为数据类型节点,将应用对应的节点设置为应用类型节点。
可选的,第一处理模块包括:
第一选择子模块,用于从数据关系有向有环图中选择待处理节点和数据环,数据环为由至少两个节点形成的闭合的有向环,待处理节点不位于数据环上;
第一确定子模块,用于从待处理节点中确定无效资产节点;
第二确定子模块,用于从数据环中确定无效资产节点;
第三确定子模块,用于将无效资产节点对应的数据表作为无效信息。
可选的,待处理节点包括最下游的待处理节点或第一目标待处理节点。
第一确定子模块用于:
当满足以下任一条件时,将最下游的待处理节点标记为无效资产节点,条件包括:
最下游的待处理节点为没有下游节点的数据类型节点;
最下游的待处理节点为在第一预设时间段内未访问过上游节点的应用类型节点;
或者
从最下游的待处理节点开始向上逐层级查找待处理节点直至遍历完数据关系有向有环图,当满足以下任一条件时,将第一目标待处理节点标记为无效资产节点,条件包括:
第一目标待处理节点的所有下游节点都被标记为无效资产节点;
第一目标待处理节点在第二预设时间段内未被访问过;
其中,第一目标待处理节点为最下游的待处理节点的直接上游待处理节点或者间接上游待处理节点。
第二确定子模块,用于:当满足以下任一条件时,将目标数据环上的节点标记为无效资产节点,条件包括:
目标数据环上的所有节点仅在目标数据环上具有下游节点;
目标数据环上的所有节点除在目标数据环上具有下游节点外,还具有其他不位于目标数据环上的其他下游节点,且其他下游节点都被标记为无效资产节点;
目标数据环上的所有节点在第三预设时间段内都未被访问过;
或者
从目标数据环的节点开始向上逐层级查找直至遍历完数据关系有向有环图,按照以下任一方式标记第一目标上游节点:
当第一目标上游节点的所有下游节点都被标记为无效资产节点时,将第一目标上游节点标记为无效资产节点;
当第一目标上游节点在第四预设时间段内未被访问过,且第一目标上游节点不位于数据环上时,将第一目标上游节点标记为无效资产节点;
当第一目标上游节点在第四预设时间段内未被访问过且所述第一目标上游节点位于数据环上时,结合对所述第一目标上游节点所在的数据环的判断结果标记所述第一目标上游节点。
可选的,所述第二确定子模块在结合对所述第一目标上游节点所在的数据环的判断结果标记所述第一目标上游节点时,用于:
当满足下述任一条件时,将所述第一目标上游节点所在的数据环上的所有节点标记为无效资产节点;所述条件包括:
所述第一目标上游节点仅在所在的数据环上具有下游节点;
所述第一目标上游节点所在的数据环上的所有节点的下游节点都被标记为无效资产节点;
所述第一目标上游节点所在的数据环上的所有节点在第五预设时间段内都未被访问过。
可选的,所述待处理节点包括最下游的待处理节点或第一目标待处理节点。
可选的,所述第一处理模块包括:
第一获取子模块,用于获取预设的有效资产信息;
第一选择子模块,用于从所述数据关系有向有环图中选择待处理节点以及数据环,所述数据环为由至少两个节点形成的闭合的有向环,所述待处理节点不位于数据环上;
第四确定子模块,用于根据所述有效资产信息,从所述待处理节点中确定无效资产节点;
第五确定子模块,用于根据所述有效资产信息,所述数据环中确定无效资产节点;
第六确定子模块,用于将所述无效资产节点对应的数据表作为无效信息。
可选的,所述待处理节点包括最下游的待处理节点或第一目标待处理节点;所述第四确定子模块,用于:
当满足以下任一条件时,将所述最下游的待处理节点标记为无效资产节点,所述条件包括:
所述最下游的待处理节点为没有下游节点且对应的数据表不位于所述有效资产信息中的数据类型节点;
所述最下游的待处理节点为在第一预设时间段内未访问过上游节点且对应的数据表不位于所述有效资产信息中的应用类型节点;
或者
从最下游的待处理节点开始向上逐层级查找待处理节点直至遍历完所述数据关系有向有环图,当满足以下任一条件时,将第一目标待处理节点标记为无效资产节点,所述条件包括:
所述第一目标上游待处理节点的所有下游节点都被标记为无效资产节点;
所述第一目标上游待处理节点在第二预设时间段内未被访问过,且第一目标上游待处理节点对应的数据表不位于所述有效资产信息中;
其中,所述第一目标待处理节点为最下游的待处理节点的直接上游待处理节点或者间接上游待处理节点。
可选的,所述第五确定子模块,用于:
当满足以下任一条件时,将目标数据环上的所有节点标记为无效资产节点,所述条件包括:
所述目标数据环上的所有节点仅在目标数据环上具有下游节点且所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中;
所述目标数据环上的所有节点除在所述目标数据环上具有下游节点外,还具有其他不位于所述目标数据环上的其他下游节点、所述其他下游节点都被标记为无效资产节点,且所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中;
所述目标数据环上的所有节点在第三预设时间段内都未被访问过,且所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中;
或者
从所述目标数据环的节点开始向上逐层级查找直至遍历完所述数据关系有向有环图,按照以下任一方式标记第一目标上游节点:
当第一目标上游节点的所有下游节点都被标记为无效资产节点且所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中时,将所述第一目标上游节点标记为无效资产节点;
当所述第一目标上游节点在第四预设时间段内未被访问过,且所述第一目标上游节点不位于数据环上以及所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中时,将所述第一目标上游节点标记为无效资产节点;
当所述第一目标上游节点在第四预设时间段内未被访问过,且所述第一目标上游节点位于数据环上以及所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中时,结合对所述第一目标上游节点所在的环的判断结果标记所述第一目标上游节点。
可选的,所述第五确定子模块在结合对所述第一目标上游节点所在的环的判断结果标记所述第一目标上游节点时,用于:
当满足下述任一条件时,将所述第一目标上游节点所在的数据环上的所有节点标记为无效资产节点;所述条件包括:
所述第一目标上游节点仅在所在的数据环上具有下游节点且所述第一目标上游节点所在数据环上节点对应的数据表都不位于所述有效资产信息中;
所述第一目标上游节点所在的数据环上的所有节点的下游节点都被标记为无效资产节点且所述第一目标上游节点所在数据环上节点对应的数据表都不位于所述有效资产信息中;
所述第一目标上游节点所在的一数据环上的所有节点在第五预设时间段内都未被访问过,且所述第一目标上游节点所在的数据环上的所有节点对应的数据表都不位于所述有效资产信息中。
可选的,根据每个节点所对应的时间信息以及当前时间信息,确定每个节点是否访问过上游节点或者是否被访问过。
可选的,所述装置还包括:第二处理模块,用于对被标记为无效资产节点的数据类型节点所对应的数据表进行处理,其中,所述处理包括以下一项或者多项:
将被标记为无效资产节点的数据类型节点所对应的数据表存储到数据库;禁止或恢复对被标记为无效资产节点的数据类型节点所对应的数据表的访问;
删除被标记为无效资产节点的数据类型节点所对应的数据表。
本申请实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现包括如前所述的信息处理法中的步骤。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (17)
1.一种信息处理方法,其特征在于,包括:
获取待处理信息,其中,所述待处理信息包括待处理数据表,或者,所述待处理信息包括待处理数据表和访问所述待处理数据表的应用的信息;
根据所述待处理信息,生成数据关系有向有环图;
根据所述数据关系有向有环图,从所述待处理信息中确定无效信息;
其中,所述数据关系有向有环图是根据数据表之间的访问关系生成的,或者,所述数据关系有向有环图是根据数据表之间的访问关系以及应用对数据表的访问关系生成的。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理信息,生成数据关系有向有环图,包括:
确定所述待处理信息对应的节点之间的连线信息;
设置各节点的节点类型;
利用所述各节点的节点类型以及各节点之间的连线信息形成所述数据关系有向有环图。
3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理信息对应的节点之间的连线信息,包括:
当所述待处理信息包括待处理数据表时,若第二数据表是通过访问第一数据表生成的,则利用第一连线连接第一节点和第二节点,且所述第一连线由所述第一节点指向第二节点;标记所述第二数据表访问所述第一数据表的时间信息;
当所述待处理信息包括待处理数据表和访问所述待处理数据表的应用的信息时,利用第二连线连接第三节点和第四节点,且所述第二连线由所述第三节点指向第四节点;标记第一应用访问所述第三数据表的时间信息;
其中,所述第一数据表、第二数据表和第三数据表是所述待处理数据表中的任一数据表,所述第一应用为访问所述第三数据表的应用中的任一应用,所述第一数据表对应所述第一节点,所述第二数据表对应所述第二节点,所述第三数据表对应所述第三节点,所述第一应用对应所述第四节点。
4.根据权利要求2所述的方法,其特征在于,所述设置各节点的节点类型,包括:
当所述待处理信息包括待处理数据表时,将待处理数据表对应的节点设置为数据类型节点;
当所述待处理信息包括待处理数据表和访问所述待处理数据表的应用的信息时,将待处理数据表对应的节点设置为数据类型节点,将应用对应的节点设置为应用类型节点。
5.根据权利要求1所述的方法,其特征在于,所述根据所述数据关系有向有环图,从所述待处理信息中确定无效信息,包括:
从所述数据关系有向有环图中选择待处理节点和数据环,所述数据环为由至少两个节点形成的闭合的有向环,所述待处理节点不位于数据环上;
从所述待处理节点中确定无效资产节点,以及,从所述数据环中确定无效资产节点;
将所述无效资产节点对应的数据表作为无效信息。
6.根据权利要求5所述的方法,其特征在于,所述待处理节点包括最下游的待处理节点或第一目标待处理节点;
所述从所述待处理节点中确定无效资产节点,具体包括:
当满足以下任一条件时,将所述最下游的待处理节点标记为无效资产节点,所述条件包括:
所述最下游的待处理节点为没有下游节点的数据类型节点;
所述最下游的待处理节点为在第一预设时间段内未访问过上游节点的应用类型节点;
或者
从最下游的待处理节点开始向上逐层级查找待处理节点直至遍历完所述数据关系有向有环图,当满足以下任一条件时,将所述第一目标待处理节点标记为无效资产节点,所述条件包括:
所述第一目标待处理节点的所有下游节点都被标记为无效资产节点;
所述第一目标待处理节点在第二预设时间段内未被访问过;
其中,所述第一目标待处理节点为最下游的待处理节点的直接上游待处理节点或者间接上游待处理节点。
7.根据权利要求5所述的方法,其特征在于,所述从所述数据环中确定无效资产节点,包括:
当满足以下任一条件时,将目标数据环上的节点标记为无效资产节点,所述条件包括:
所述目标数据环上的所有节点仅在所述目标数据环上具有下游节点;
所述目标数据环上的所有节点除在所述目标数据环上具有下游节点外,还具有其他不位于所述目标数据环上的其他下游节点,且所述其他下游节点都被标记为无效资产节点;
所述目标数据环上的所有节点在第三预设时间段内都未被访问过;
或者
从所述目标数据环的节点开始向上逐层级查找直至遍历完所述数据关系有向有环图,按照以下任一方式标记第一目标上游节点:
当所述第一目标上游节点的所有下游节点都被标记为无效资产节点时,将所述第一目标上游节点标记为无效资产节点;
当所述第一目标上游节点在第四预设时间段内未被访问过,且所述第一目标上游节点不位于数据环上时,将所述第一目标上游节点标记为无效资产节点;
当所述第一目标上游节点在第四预设时间段内未被访问过且所述第一目标上游节点位于数据环上时,结合对所述第一目标上游节点所在的数据环的判断结果标记所述第一目标上游节点。
8.根据权利要求7所述的方法,其特征在于,所述结合对所述第一目标上游节点所在的数据环的判断结果标记所述第一目标上游节点,包括:
当满足下述任一条件时,将所述第一目标上游节点所在的数据环上的所有节点标记为无效资产节点;所述条件包括:
所述第一目标上游节点仅在所在的数据环上具有下游节点;
所述第一目标上游节点所在的数据环上的所有节点的下游节点都被标记为无效资产节点;
所述第一目标上游节点所在的数据环上的所有节点在第五预设时间段内都未被访问过。
9.根据权利要求1所述的方法,其特征在于,所述根据所述数据关系有向有环图,从所述待处理信息中确定无效信息,包括:
获取预设的有效资产信息;
从所述数据关系有向有环图中选择待处理节点以及数据环,所述数据环为由至少两个节点形成的闭合的有向环,所述待处理节点不位于数据环上;
根据所述有效资产信息,从所述待处理节点中确定无效资产节点以及从所述数据环中确定无效资产节点;
将所述无效资产节点对应的数据表作为无效信息。
10.根据权利要求9所述的方法,其特征在于,所述待处理节点包括最下游的待处理节点或第一目标待处理节点;
所述从所述待处理节点中确定无效资产节点,包括:
当满足以下任一条件时,将所述最下游的待处理节点标记为无效资产节点,所述条件包括:
所述最下游的待处理节点为没有下游节点且对应的数据表不位于所述有效资产信息中的数据类型节点;
所述最下游的待处理节点为在第一预设时间段内未访问过上游节点且对应的数据表不位于所述有效资产信息中的应用类型节点;
或者
从最下游的待处理节点开始向上逐层级查找待处理节点直至遍历完所述数据关系有向有环图,当满足以下任一条件时,将第一目标待处理节点标记为无效资产节点,所述条件包括:
所述第一目标上游待处理节点的所有下游节点都被标记为无效资产节点;
所述第一目标上游待处理节点在第二预设时间段内未被访问过,且第一目标上游待处理节点对应的数据表不位于所述有效资产信息中;
其中,所述第一目标待处理节点为最下游的待处理节点的直接上游待处理节点或者间接上游待处理节点。
11.根据权利要求9所述的方法,其特征在于,所述从所述数据环中确定无效资产节点,包括:
当满足以下任一条件时,将目标数据环上的所有节点标记为无效资产节点,所述条件包括:
所述目标数据环上的所有节点仅在目标数据环上具有下游节点且所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中;
所述目标数据环上的所有节点除在所述目标数据环上具有下游节点外,还具有其他不位于所述目标数据环上的其他下游节点、所述其他下游节点都被标记为无效资产节点,且所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中;
所述目标数据环上的所有节点在第三预设时间段内都未被访问过,且所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中;
或者
从所述目标数据环的节点开始向上逐层级查找直至遍历完所述数据关系有向有环图,按照以下任一方式标记第一目标上游节点:
当第一目标上游节点的所有下游节点都被标记为无效资产节点且所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中时,将所述第一目标上游节点标记为无效资产节点;
当所述第一目标上游节点在第四预设时间段内未被访问过,且所述第一目标上游节点不位于数据环上以及所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中时,将所述第一目标上游节点标记为无效资产节点;
当所述第一目标上游节点在第四预设时间段内未被访问过,且所述第一目标上游节点位于数据环上以及所述目标数据环上的所有节点对应的数据表都不位于所述有效资产信息中时,结合对所述第一目标上游节点所在的环的判断结果标记所述第一目标上游节点。
12.根据权利要求11所述的方法,其特征在于,所述结合对所述第一目标上游节点所在的环的判断结果标记所述第一目标上游节点,包括:
当满足下述任一条件时,将所述第一目标上游节点所在的数据环上的所有节点标记为无效资产节点;所述条件包括:
所述第一目标上游节点仅在所在的数据环上具有下游节点且所述第一目标上游节点所在数据环上节点对应的数据表都不位于所述有效资产信息中;
所述第一目标上游节点所在的数据环上的所有节点的下游节点都被标记为无效资产节点且所述第一目标上游节点所在数据环上节点对应的数据表都不位于所述有效资产信息中;
所述第一目标上游节点所在的一数据环上的所有节点在第五预设时间段内都未被访问过,且所述第一目标上游节点所在的数据环上的所有节点对应的数据表都不位于所述有效资产信息中。
13.根据权利要求5至11任一项所述的方法,其特征在于,根据每个节点所对应的时间信息以及当前时间信息,确定每个节点是否访问过上游节点或者是否被访问过。
14.根据权利要求5至11任一项所述的方法,其特征在于,所述方法还包括:
对被标记为无效资产节点的数据类型节点所对应的数据表进行处理,其中,所述处理包括以下一项或者多项:
将被标记为无效资产节点的数据类型节点所对应的数据表存储到数据库;
禁止或恢复对被标记为无效资产节点的数据类型节点所对应的数据表的访问;
删除被标记为无效资产节点的数据类型节点所对应的数据表。
15.一种信息处理装置,其特征在于,包括:
第一获取模块,用于获取待处理信息,其中,所述待处理信息包括待处理数据表,或者,所述待处理信息包括待处理数据表和访问所述待处理数据表的应用的信息;
生成模块,用于根据所述待处理信息,生成数据关系有向有环图;
第一处理模块,用于根据所述数据关系有向有环图,从所述待处理信息中确定无效信息;
其中,所述数据关系有向有环图是根据数据表之间的访问关系生成的,或者,所述数据关系有向有环图是根据数据表之间的访问关系以及应用对数据表的访问关系生成的。
16.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现包括如权利要求1至14中任一项所述的信息处理方法中的步骤。
17.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现包括如权利要求1至14中任一项所述的信息处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609310.3A CN113282586A (zh) | 2021-06-01 | 2021-06-01 | 一种信息处理方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609310.3A CN113282586A (zh) | 2021-06-01 | 2021-06-01 | 一种信息处理方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113282586A true CN113282586A (zh) | 2021-08-20 |
Family
ID=77282984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110609310.3A Withdrawn CN113282586A (zh) | 2021-06-01 | 2021-06-01 | 一种信息处理方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282586A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510338A (zh) * | 2022-04-19 | 2022-05-17 | 浙江大华技术股份有限公司 | 一种任务调度方法、任务调度设备和计算机可读存储介质 |
-
2021
- 2021-06-01 CN CN202110609310.3A patent/CN113282586A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510338A (zh) * | 2022-04-19 | 2022-05-17 | 浙江大华技术股份有限公司 | 一种任务调度方法、任务调度设备和计算机可读存储介质 |
CN114510338B (zh) * | 2022-04-19 | 2022-09-06 | 浙江大华技术股份有限公司 | 一种任务调度方法、任务调度设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10275355B2 (en) | Method and apparatus for cleaning files in a mobile terminal and associated mobile terminal | |
CN108647883B (zh) | 一种业务审批方法、装置、设备及介质 | |
CN108089893B (zh) | 冗余资源的确定方法、装置、终端设备与存储介质 | |
US9813450B1 (en) | Metadata-based verification of artifact quality policy compliance | |
CN108255620B (zh) | 一种业务逻辑处理方法、装置、业务服务器及系统 | |
CN109214785B (zh) | 工作流的实现方法、服务器及系统 | |
CN110956269A (zh) | 数据模型的生成方法、装置、设备以及计算机存储介质 | |
CN110032568B (zh) | 数据结构的读取及更新方法、装置、电子设备 | |
CN113282586A (zh) | 一种信息处理方法、装置、设备及可读存储介质 | |
CN115292473A (zh) | 低代码方案中的扩展的选择性推荐和部署 | |
CN110457332B (zh) | 一种信息处理方法及相关设备 | |
CN110489416A (zh) | 一种基于数据处理的信息存储方法及相关设备 | |
CN114281688A (zh) | 一种无码或低码的自动化用例管理方法和装置 | |
CN110221952B (zh) | 业务数据的处理方法及装置、业务数据处理系统 | |
CN113821166A (zh) | 一种聚合多版本小对象的方法、装置及设备 | |
CN112583761B (zh) | 安全实体的管理方法、装置、计算机设备和存储介质 | |
CN111858619A (zh) | 一种数据自流转的方法、装置和电子设备 | |
CN106959888B (zh) | 云存储系统中的任务处理方法及装置 | |
CN111368146A (zh) | 一种路径信息的查询方法及装置、存储介质和处理器 | |
US20230222513A1 (en) | Recording ethics decisions | |
CN111061721A (zh) | 数据处理方法及装置 | |
CN113127056B (zh) | 一种信息处理方法、装置、设备及可读存储介质 | |
CN111158746B (zh) | 一种调用关系的获取方法及装置 | |
JP7131139B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN112559331A (zh) | 测试方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210820 |
|
WW01 | Invention patent application withdrawn after publication |