CN105868521A - 数据信息处理方法及装置 - Google Patents
数据信息处理方法及装置 Download PDFInfo
- Publication number
- CN105868521A CN105868521A CN201510927475.XA CN201510927475A CN105868521A CN 105868521 A CN105868521 A CN 105868521A CN 201510927475 A CN201510927475 A CN 201510927475A CN 105868521 A CN105868521 A CN 105868521A
- Authority
- CN
- China
- Prior art keywords
- data
- blood relationship
- node
- logic
- tasks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Abstract
本公开是关于一种数据信息处理方法及装置,该方法包括:在对数据处理时,获取对所述数据进行处理的任务逻辑;根据所述任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据;确定所述输入数据和输出数据的血缘关系信息;针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。利用该方法,可以在该网络中的某一个数据出现问题时,可以通过该血缘关系网络中的其它疑似问题数据,以便于技术人员将出现质量问题的数据剔除或修改,提高存储的数据的质量。
Description
技术领域
本公开涉及数据信息处理技术领域,尤其涉及一种数据信息处理方法及装置。
背景技术
数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
在目前的数据质量管理过程中,大量数据采用手工录入,使得数据之间相对分散,而实际在数据产生过程中,不同数据之间可能具有一定关联性,这就导致当数据量较大时,一旦某一个数据质量出现问题,无法及时有效发现与该出现质量问题相关的其它数据,进而导致数据可能存在隐患,使得数据质量降低。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据信息处理方法及装置。
根据本公开实施例的第一方面,提供一种数据信息处理方法,该方法包括:
在对数据处理时,获取对所述数据进行处理的任务逻辑;
根据所述任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据;
确定所述输入数据和输出数据的血缘关系信息;
针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。
可选地,所述血缘关系信息至少包括:数据流向;
所述任务逻辑包括:数据格式转换和数据运算中的任意一种。
可选地,所述建立所述多个存储数据之间的血缘关系网络,包括:
生成包含所述多个存储数据的节点图,每个存储数据在所述节点图中以节点的形式展现;
判断所述节点图中任意两个节点之间是否存在血缘关系;
当两个节点之间存在血缘关系时,根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。
可选地,所述方法还包括:
当检测到具有质量问题的问题数据时,获取所述问题数据所在的目标血缘关系网络;
在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据;
将查找到的数据确定为疑似问题数据。
可选地,所述方法还包括:
判断是否检测到对所述血缘关系网络中的第一数据进行数据处理;
当检测到对所述血缘关系网络中的第一数据进行数据处理时,根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息;
根据所述第二数据的血缘关系信息,在所述血缘关系网络中增加与所述第二数据相对应的节点。
根据本公开实施例的第二方面,提供一种数据信息处理装置,包括:
任务逻辑获取模块,用于在对数据处理时,获取对所述数据进行处理的任务逻辑;
关联数据确定模块,用于根据所述任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据;
血缘关系信息确定模块,用于确定所述输入数据和输出数据的血缘关系信息;
网络建立模块,用于针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。
可选地,所述血缘关系信息至少包括:数据流向;
所述任务逻辑包括:数据格式转换和数据运算中的任意一种。
可选地,所述网络建立模块,包括:
节点图生成子模块,用于生成包含所述多个存储数据的节点图,每个存储数据在所述节点图中以节点的形式展现;
血缘关系判断子模块,用于判断所述节点图中任意两个节点之间是否存在血缘关系;
数据流向标示子模块,用于当两个节点之间存在血缘关系时,根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。
可选地,所述装置还包括:
第一血缘关系网络获取模块,用于当检测到具有质量问题的问题数据时,获取所述问题数据所在的目标血缘关系网络;
数据查找模块,用于在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据;
疑似问题数据确定模块,用于将查找到的数据确定为疑似问题数据。
可选地,所述装置还包括:
数据处理判断模块,用于判断是否检测到对所述血缘关系网络中的第一数据进行数据处理;
第二血缘关系信息获取模块,用于当检测到对所述血缘关系网络中的第一数据进行数据处理时,根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息;
节点增加模块,用于根据所述第二数据的血缘关系信息,在所述血缘关系网络中增加与所述第二数据相对应的节点。
本公开的实施例提供的技术方案可以包括以下有益效果:
本发明实施例提供的该方法,在对数据处理时,获取对该数据进行处理的任务逻辑,然后根据该任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据;确定所述输入数据和输出数据的血缘关系信息;针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。
通过该方法,对于任意一个处理的数据,通过获取对应的任务逻辑的执行逻辑,确定和该任务逻辑相关的输入数据和输出数据,由于输入数据和输出数据之间存在有任务逻辑,因此可以确定二者之间是具有血缘关系,然后针对每个存储的数据均通过该方法确定数据之间的血缘关系,最终可以得到所有存储数据之间的血缘关系网络。利用该方法,可以在该网络中的某一个数据出现问题时,可以通过该血缘关系网络中的其它疑似问题数据,以便于技术人员将出现质量问题的数据剔除或修改,提高存储的数据的质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据信息处理方法的流程图;
图2为图1中步骤S103的流程示意图;
图3为本发明实施例提供的节点的示意图;
图4为本发明实施例提供的一种血缘关系网络的示意图;
图5本发明实施例提供的另一种数据信息处理方法的流程图;
图6本发明实施例提供的又一种数据信息处理方法的流程图;
图7为本发明实施例提供的另一种血缘关系网络的示意图;
图8为本发明实施例提供的一种数据信息处理装置的结构示意图;
图9为图8中的网络建立模块的结构示意图;
图10为本发明实施例提供的另一种数据信息处理装置的结构示意图;
图11为本发明实施例提供的又一种数据信息处理装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是本发明实施例提供的一种数据信息处理方法的流程图。该数据信息处理方法可以应用与服务器中,如图1所示,该方法可以包括以下步骤。
步骤S101:在对数据处理时,获取对所述数据进行处理的任务逻辑。
在不同的存储媒介中,数据的形式可以均不相同。为了描述方便,在本发明实施例中,以数据单元来描述数据。一般而言,每个数据处理任务的输出目标可以作为一个数据单元,另外,每个数据处理任务的输入源也可以作为一个数据单元。例如:在关系型数据库中,数据表中的每一个单元格可以作为一个数据单元;另外,在前端展现中,报表也可以作为一个数据单元。
参见上述描述,在该步骤中,可以以数据单元为对象,获取对该数据单元进行处理的任务逻辑。
在本发明实施例中,任务逻辑是指对数据进行处理的方式,例如:数据格式转换和数据运算等
步骤S102:根据所述任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据。
对于每个任务逻辑而言,均有执行逻辑。在本发明实施例中个,执行逻辑是指数据之间的流向,以数据格式转换为例,格式转换前的数据为输入数据,格式转换后的数据为输出数据,以数据运算为例,数据运算前的每个参数均可以为输入数据,数据运算后得到的数据为输出数据。
步骤S103:确定所述输入数据和输出数据的血缘关系信息。
由于输入数据和输出数据均与同一任务逻辑相关联,所以,输出数据是将输入数据进行处理后得到的,因此,可以确定输入数据和输出数据之间存在关联关系。
在本发明实施例中,血缘关系信息至少可以包括:数据流向。
步骤S104:针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。
对于服务器中记录到的每个存储数据,均可以得到可以和该存储数据对应的血缘关系信息,这样,在存储数据积累过程中,可以同时得到每个存储数据的血缘关系信息,利用这些血缘关系信息,就可以得到存储数据之间的流向关系,因此,在该步骤中可以通过存储数据之间的流向关系,将所有存储数据之间关系梳理清楚,得到这多个存储数据之间的血缘关系网络,也即数据之间的“族谱图”,通过“族谱图”可以找到每个节点的父节点(即输入数据)以及子节点(即输出数据)。
本发明实施例提供的该方法,在对数据处理时,获取对该数据进行处理的任务逻辑,然后根据该任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据;确定所述输入数据和输出数据的血缘关系信息;针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。
通过该方法,对于任意一个处理的数据,通过获取对应的任务逻辑的执行逻辑,确定和该任务逻辑相关的输入数据和输出数据,由于输入数据和输出数据之间存在有任务逻辑,因此可以确定二者之间是具有血缘关系,然后针对每个存储的数据均通过该方法确定数据之间的血缘关系,最终可以得到所有存储数据之间的血缘关系网络。进而当该网络中的某一个数据出现问题时,可以通过该血缘关系网络中的其它疑似问题数据,以便于技术人员将出现质量问题的数据剔除或修改,提高存储的数据的质量。
在本发明另一实施例中,如图2所示,上述图1所示的步骤S103可以包括以下步骤。
步骤S1031:生成包含所述多个存储数据的节点图。
在本发明实施例中,每个存储数据在所述节点图中以节点的形式展现。如图3所示,每个圆圈为一个节点,表示一个数据,在节点上均设置有和该数据对应编号。
步骤S1032:判断所述节点图中任意两个节点之间是否存在血缘关系。
在该步骤中,通过判断两个节点之间是否具有任务逻辑的方式,来判断这两个节点之间是否存在血缘关系。
当两个节点之间存在血缘关系时,执行步骤S1033。否则,结束流程。
步骤S1033:根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。
如图4所示,在节点之间可以通过箭头的方式,标示出两个节点之间的数据流向,进而得到血缘关系网络。
在本发明其它实施例中,如图5所示,当建立多个存储数据之间的血缘关系网络后,该方法还可以包括以下步骤。
步骤S201:当检测到具有质量问题的问题数据时,获取所述问题数据所在的目标血缘关系网络。
当检测到问题数据后,通过查找前面建立的所有血缘关系网络,可以查找出该问题数据所在的目标血缘关系网络。以上述图4为例,当问题数据为节点12对应的数据时,可以将图4所示的血缘关系网络确定为目标血缘关系网络。
步骤S202:在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据。
当图4中节点12对应的数据为问题数据时,查找与该数据之间具有任务逻辑所有节点,例如:图4中和节点12之间具有直接任务逻辑的节点为:11、14和15,图4中和节点12具有间接任务逻辑的节点为:14、16、17、18和19。
步骤S203:将查找到的数据确定为疑似问题数据。
当将节点12作为输出数据时,对应的直接输入数据可以包括:节点11和节点14,并且对于节点14而言,节点19为节点14的直接输入数据,当将节点12作为输入数据时,对应的直接输出数据可以包括:节点15和节点17,对于节点15而言,对应的直接输出数据为节点14和节点16,对于节点17而言,对应的直接输出数据为节点18。
一旦确定节点12对应的数据为问题数据时,由于节点11、14和15,以及,节点14、16、17、18和19均和节点12相关联,所以,这些节点均可以作为疑似问题数据。
通过本发明实施例提供的该方法,在大量存储数据中,一旦确定出某一个节点出现质量问题时,可以快速通过血缘关系网络查找到和该出现质量问题的节点相关联的所有节点作为疑似问题数据,进而可以对本次出现质量问题的数据进行快速定位,进而为解决数据问题提供有力保障。
在本发明另一实施例中,对于网络中的每个节点对应的数据,还可能被作为输入数据进行数据处理,相应地,如图6所示,该方法还可以包括以下步骤。
步骤S301:判断是否检测到对所述血缘关系网络中的第一数据进行数据处理。
对于数据库中存储的数据,可能会被前端调用,并且以这些存储的数据作为数据处理的基础,即将这些存储的数据作为输入数据进行逻辑运算,因此,在该步骤中,可以实时检测是否对血缘关系网络中的第一数据进行数据处理。
当检测到对所述血缘关系网络中的第一数据进行数据处理时,执行步骤S302;否则,结束流程。
步骤S302:根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息。
当将第一数据作为输入数据,对第一数据进行数据处理时,在数据处理后得到的目标数据可以为第二数据,然后获取第一数据和第二数据之间的血缘关系信息。
步骤S303:根据所述第二数据的血缘关系信息,在所述血缘关系网络中增加与所述第二数据相对应的节点。
以图4为例,当以节点18为输入数据进行数据处理时,若生成的第二数据为节点x,如图7所示,可以在图4的基础上,增加上节点x,并且标示出节点18和节点x之间的数据流向。
基于同一公开构思,本公开实施例还提供了一种数据信息处理装置。图8为本发明实施例提供的一种数据信息处理装置的结构示意图,如图8所示,该数据信息处置装置可以包括:
任务逻辑获取模块11,用于在对数据处理时,获取对所述数据进行处理的任务逻辑。
在不同的存储媒介中,数据的形式可以均不相同。为了描述方便,在本发明实施例中,以数据单元来描述数据。一般而言,每个数据处理任务的输出目标可以作为一个数据单元,另外,每个数据处理任务的输入源也可以作为一个数据单元。例如:在关系型数据库中,数据表中的每一个单元格可以作为一个数据单元;另外,在前端展现中,报表也可以作为一个数据单元。
参见上述描述,在该步骤中,可以以数据单元为对象,获取对该数据单元进行处理的任务逻辑。
在本发明实施例中,任务逻辑是指对数据进行处理的方式,例如:数据格式转换和数据运算等
关联数据确定模块12,用于根据所述任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据。
对于每个任务逻辑而言,均有执行逻辑。在本发明实施例中个,执行逻辑是指数据之间的流向,以数据格式转换为例,格式转换前的数据为输入数据,格式转换后的数据为输出数据,以数据运算为例,数据运算前的每个参数均可以为输入数据,数据运算后得到的数据为输出数据。
血缘关系信息确定模块13,用于确定所述输入数据和输出数据的血缘关系信息。
由于输入数据和输出数据均与同一任务逻辑相关联,所以,输出数据是将输入数据进行处理后得到的,因此,可以确定输入数据和输出数据之间存在关联关系。
在本发明实施例中,血缘关系信息至少可以包括:数据流向。
网络建立模块14,用于针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。
对于服务器中记录到的每个存储数据,均可以得到可以和该存储数据对应的血缘关系信息,这样,在存储数据积累过程中,可以同时得到每个存储数据的血缘关系信息,利用这些血缘关系信息,就可以得到存储数据之间的流向关系,因此,在该步骤中可以通过存储数据之间的流向关系,将所有存储数据之间关系梳理清楚,得到这多个存储数据之间的血缘关系网络,也即数据之间的“族谱图”,通过“族谱图”可以找到每个节点的父节点(即输入数据)以及子节点(即输出数据)。
在本发明另一实施例中,如图9所示,上述图8实施例中所示的网络建立模块14可以包括:
节点图生成子模块141,用于生成包含所述多个存储数据的节点图,每个存储数据在所述节点图中以节点的形式展现。
在本发明实施例中,每个存储数据在所述节点图中以节点的形式展现。如图3所示,每个圆圈为一个节点,表示一个数据,在节点上均设置有和该数据对应编号。
血缘关系判断子模块142,用于判断所述节点图中任意两个节点之间是否存在血缘关系。
在本发明实施例中,通过判断两个节点之间是否具有任务逻辑的方式,来判断这两个节点之间是否存在血缘关系。
数据流向标示子模块143,用于当两个节点之间存在血缘关系时,根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。
如图4所示,在节点之间可以通过箭头的方式,标示出两个节点之间的数据流向。
在本发明另一实施例中,如图10所示,本发明实施例提供的该数据信息处理装置还可以包括:
第一血缘关系网络获取模块21,用于当检测到具有质量问题的问题数据时,获取所述问题数据所在的目标血缘关系网络。
当检测到问题数据后,通过查找前面建立的所有血缘关系网络,可以查找出该问题数据所在的目标血缘关系网络。以上述图4为例,当问题数据为节点12对应的数据时,可以将图4所示的血缘关系网络确定为目标血缘关系网络。
数据查找模块22,用于在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据。
当图4中节点12对应的数据为问题数据时,查找与该数据之间具有任务逻辑所有节点,例如:图4中和节点12之间具有直接任务逻辑的节点为:11、14和15,图4中和节点12具有间接任务逻辑的节点为:14、16、17、18和19。
疑似问题数据确定模块23,用于将查找到的数据确定为疑似问题数据。
当将节点12作为输出数据时,对应的直接输入数据可以包括:节点11和节点14,并且对于节点14而言,节点19为节点14的直接输入数据,当将节点12作为输入数据时,对应的直接输出数据可以包括:节点15和节点17,对于节点15而言,对应的直接输出数据为节点14和节点16,对于节点17而言,对应的直接输出数据为节点18。
一旦确定节点12对应的数据为问题数据时,由于节点11、14和15,以及,节点14、16、17、18和19均和节点12相关联,所以,这些节点均可以作为疑似问题数据。
通过本发明实施例提供的该装置,在大量存储数据中,一旦确定出某一个节点出现质量问题时,可以快速通过血缘关系网络查找到和该出现质量问题的节点相关联的所有节点作为疑似问题数据,进而可以对本次出现质量问题的数据进行快速定位,进而为解决数据问题提供有力保障。
在本发明另一实施例中,如图11所示,本发明实施例提供的该数据信息处理装置还可以包括:
数据处理判断模块31,用于判断是否检测到对所述血缘关系网络中的第一数据进行数据处理。
对于数据库中存储的数据,可能会被前端调用,并且以这些存储的数据作为数据处理的基础,即将这些存储的数据作为输入数据进行逻辑运算,因此,在该步骤中,可以实时检测是否对血缘关系网络中的第一数据进行数据处理。
第二血缘关系信息获取模块32,用于当检测到对所述血缘关系网络中的第一数据进行数据处理时,根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息。
当将第一数据作为输入数据,对第一数据进行数据处理时,在数据处理后得到的目标数据可以为第二数据,然后获取第一数据和第二数据之间的血缘关系信息。
节点增加模块33,用于根据所述第二数据的血缘关系信息,在所述血缘关系网络中增加与所述第二数据相对应的节点。
以图4为例,当以节点18为输入数据进行数据处理时,若生成的第二数据为节点x,如图7所示,可以在图4的基础上,增加上节点x,并且标示出节点18和节点x之间的数据流向。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种数据信息处理方法,其特征在于,包括:
在对数据处理时,获取对所述数据进行处理的任务逻辑;
根据所述任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据;
确定所述输入数据和输出数据的血缘关系信息;
针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。
2.根据权利要求1所述的方法,其特征在于,所述血缘关系信息至少包括:数据流向;
所述任务逻辑包括:数据格式转换和数据运算中的任意一种。
3.根据权利要求1所述的方法,其特征在于,所述建立所述多个存储数据之间的血缘关系网络,包括:
生成包含所述多个存储数据的节点图,每个存储数据在所述节点图中以节点的形式展现;
判断所述节点图中任意两个节点之间是否存在血缘关系;
当两个节点之间存在血缘关系时,根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当检测到具有质量问题的问题数据时,获取所述问题数据所在的目标血缘关系网络;
在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据;
将查找到的数据确定为疑似问题数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
判断是否检测到对所述血缘关系网络中的第一数据进行数据处理;
当检测到对所述血缘关系网络中的第一数据进行数据处理时,根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息;
根据所述第二数据的血缘关系信息,在所述血缘关系网络中增加与所述第二数据相对应的节点。
6.一种数据信息处理装置,其特征在于,包括:
任务逻辑获取模块,用于在对数据处理时,获取对所述数据进行处理的任务逻辑;
关联数据确定模块,用于根据所述任务逻辑的执行逻辑,确定与所述任务逻辑相对应的输入数据和输出数据;
血缘关系信息确定模块,用于确定所述输入数据和输出数据的血缘关系信息;
网络建立模块,用于针对多个存储数据,根据每个所述存储数据的血缘关系信息,建立所述多个存储数据之间的血缘关系网络。
7.根据权利要求6所述的装置,其特征在于,所述血缘关系信息至少包括:数据流向;
所述任务逻辑包括:数据格式转换和数据运算中的任意一种。
8.根据权利要求6所述的装置,其特征在于,所述网络建立模块,包括:
节点图生成子模块,用于生成包含所述多个存储数据的节点图,每个存储数据在所述节点图中以节点的形式展现;
血缘关系判断子模块,用于判断所述节点图中任意两个节点之间是否存在血缘关系;
数据流向标示子模块,用于当两个节点之间存在血缘关系时,根据血缘关系信息在所述两个节点之间标示出所述两个节点之间的数据流向。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一血缘关系网络获取模块,用于当检测到具有质量问题的问题数据时,获取所述问题数据所在的目标血缘关系网络;
数据查找模块,用于在所述目标血缘网络中查找与所述问题数据之间具有血缘关系的所有数据;
疑似问题数据确定模块,用于将查找到的数据确定为疑似问题数据。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
数据处理判断模块,用于判断是否检测到对所述血缘关系网络中的第一数据进行数据处理;
第二血缘关系信息获取模块,用于当检测到对所述血缘关系网络中的第一数据进行数据处理时,根据本次任务逻辑获取与所述第一数据相关联第二数据的血缘关系信息;
节点增加模块,用于根据所述第二数据的血缘关系信息,在所述血缘关系网络中增加与所述第二数据相对应的节点。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510927475.XA CN105868521A (zh) | 2015-12-14 | 2015-12-14 | 数据信息处理方法及装置 |
EP16758075.2A EP3206146A4 (en) | 2015-12-14 | 2016-07-01 | Data information processing method and device |
PCT/CN2016/088128 WO2017101301A1 (zh) | 2015-12-14 | 2016-07-01 | 数据信息处理方法及装置 |
US15/241,292 US20170169167A1 (en) | 2015-12-14 | 2016-08-19 | Method And Electronic Device For Data Information Processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510927475.XA CN105868521A (zh) | 2015-12-14 | 2015-12-14 | 数据信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105868521A true CN105868521A (zh) | 2016-08-17 |
Family
ID=56623737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510927475.XA Pending CN105868521A (zh) | 2015-12-14 | 2015-12-14 | 数据信息处理方法及装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3206146A4 (zh) |
CN (1) | CN105868521A (zh) |
WO (1) | WO2017101301A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239335A (zh) * | 2017-06-09 | 2017-10-10 | 中国工商银行股份有限公司 | 分布式系统的作业调度系统及方法 |
CN108694195A (zh) * | 2017-04-10 | 2018-10-23 | 腾讯科技(深圳)有限公司 | 一种分布式数据仓库的管理方法及系统 |
CN109976929A (zh) * | 2017-12-28 | 2019-07-05 | 中国电信股份有限公司 | 数据生产过程的故障定位方法、装置 |
CN110019315A (zh) * | 2018-06-19 | 2019-07-16 | 杭州数澜科技有限公司 | 一种用于数据血缘解析的方法和装置 |
CN110502589A (zh) * | 2019-08-20 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 一种节点血缘关系确定方法、装置以及电子设备 |
CN111597255A (zh) * | 2020-04-29 | 2020-08-28 | 北京金山云网络技术有限公司 | 数据灾备处理方法、装置、电子设备及存储介质 |
CN112818015A (zh) * | 2021-01-21 | 2021-05-18 | 广州汇通国信科技有限公司 | 基于数据血缘分析的数据追踪方法、系统及存储介质 |
CN114090558A (zh) * | 2021-11-10 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 针对数据库的数据质量管理方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860811B (zh) * | 2021-02-05 | 2023-07-18 | 北京百度网讯科技有限公司 | 数据血缘关系的确定方法、装置、电子设备和存储介质 |
CN114090266B (zh) * | 2021-12-01 | 2022-12-09 | 中科三清科技有限公司 | 空气质量预报生成方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090022519A (ko) * | 2007-08-30 | 2009-03-04 | 김정태 | 인터넷을 이용한 족보 서비스 시스템 및 그 방법 |
CN102902750A (zh) * | 2012-09-20 | 2013-01-30 | 浪潮齐鲁软件产业有限公司 | 一种通用的数据抽取转换方法 |
CN103617182A (zh) * | 2013-11-07 | 2014-03-05 | 宁波保税区攀峒信息科技有限公司 | 一种基本亲缘关系数据库构建方法和装置 |
CN103902653A (zh) * | 2014-02-28 | 2014-07-02 | 珠海多玩信息技术有限公司 | 一种构建数据仓库表血缘关系图的方法和装置 |
CN104915390A (zh) * | 2015-05-25 | 2015-09-16 | 广州精点计算机科技有限公司 | 一种etl数据血统查询系统及查询方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510254B2 (en) * | 2008-10-27 | 2013-08-13 | Taiwan Semiconductor Manufacturing Company, Ltd. | Ontology model to accelerate engineering analysis in manufacturing |
US9767100B2 (en) * | 2008-12-02 | 2017-09-19 | Ab Initio Technology Llc | Visualizing relationships between data elements |
CN103268355B (zh) * | 2013-06-05 | 2016-12-28 | 中国电子科技集团公司第十五研究所 | 数据问题处理方法和处理系统 |
CN104346367B (zh) * | 2013-07-30 | 2018-10-02 | 华为技术有限公司 | 一种数据集成的方法和装置 |
US9256656B2 (en) * | 2013-08-20 | 2016-02-09 | International Business Machines Corporation | Determining reliability of data reports |
CN103955526B (zh) * | 2014-05-09 | 2017-05-10 | 中国联合网络通信集团有限公司 | 数据存储方法和装置 |
CN104881427A (zh) * | 2015-04-01 | 2015-09-02 | 北京科东电力控制系统有限责任公司 | 一种面向电网调控运行的数据血统分析方法 |
-
2015
- 2015-12-14 CN CN201510927475.XA patent/CN105868521A/zh active Pending
-
2016
- 2016-07-01 EP EP16758075.2A patent/EP3206146A4/en not_active Withdrawn
- 2016-07-01 WO PCT/CN2016/088128 patent/WO2017101301A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090022519A (ko) * | 2007-08-30 | 2009-03-04 | 김정태 | 인터넷을 이용한 족보 서비스 시스템 및 그 방법 |
CN102902750A (zh) * | 2012-09-20 | 2013-01-30 | 浪潮齐鲁软件产业有限公司 | 一种通用的数据抽取转换方法 |
CN103617182A (zh) * | 2013-11-07 | 2014-03-05 | 宁波保税区攀峒信息科技有限公司 | 一种基本亲缘关系数据库构建方法和装置 |
CN103902653A (zh) * | 2014-02-28 | 2014-07-02 | 珠海多玩信息技术有限公司 | 一种构建数据仓库表血缘关系图的方法和装置 |
CN104915390A (zh) * | 2015-05-25 | 2015-09-16 | 广州精点计算机科技有限公司 | 一种etl数据血统查询系统及查询方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694195A (zh) * | 2017-04-10 | 2018-10-23 | 腾讯科技(深圳)有限公司 | 一种分布式数据仓库的管理方法及系统 |
CN108694195B (zh) * | 2017-04-10 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种分布式数据仓库的管理方法及系统 |
CN107239335A (zh) * | 2017-06-09 | 2017-10-10 | 中国工商银行股份有限公司 | 分布式系统的作业调度系统及方法 |
CN107239335B (zh) * | 2017-06-09 | 2020-06-05 | 中国工商银行股份有限公司 | 分布式系统的作业调度系统及方法 |
CN109976929A (zh) * | 2017-12-28 | 2019-07-05 | 中国电信股份有限公司 | 数据生产过程的故障定位方法、装置 |
CN110019315A (zh) * | 2018-06-19 | 2019-07-16 | 杭州数澜科技有限公司 | 一种用于数据血缘解析的方法和装置 |
CN110502589A (zh) * | 2019-08-20 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 一种节点血缘关系确定方法、装置以及电子设备 |
CN110502589B (zh) * | 2019-08-20 | 2023-12-01 | 创新先进技术有限公司 | 一种节点血缘关系确定方法、装置以及电子设备 |
CN111597255A (zh) * | 2020-04-29 | 2020-08-28 | 北京金山云网络技术有限公司 | 数据灾备处理方法、装置、电子设备及存储介质 |
CN112818015A (zh) * | 2021-01-21 | 2021-05-18 | 广州汇通国信科技有限公司 | 基于数据血缘分析的数据追踪方法、系统及存储介质 |
CN114090558A (zh) * | 2021-11-10 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 针对数据库的数据质量管理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3206146A1 (en) | 2017-08-16 |
EP3206146A4 (en) | 2017-08-16 |
WO2017101301A1 (zh) | 2017-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868521A (zh) | 数据信息处理方法及装置 | |
CN110493025B (zh) | 一种基于多层有向图的故障根因诊断的方法及装置 | |
CN104486109B (zh) | 一种故障检测、恢复方法及装置 | |
CN105631026A (zh) | 一种安全数据分析系统 | |
Seeliger et al. | Detecting concept drift in processes using graph metrics on process graphs | |
CN110928772A (zh) | 一种测试方法及装置 | |
Taleb et al. | Big data pre-processing: closing the data quality enforcement loop | |
US10412117B2 (en) | Method and system for automated cybersecurity incident and artifact visualization and correlation for security operation centers and computer emergency response teams | |
CN109992478A (zh) | 一种服务器巡检方法及装置 | |
CN105871581A (zh) | 云计算中报警信息的处理方法及装置 | |
CN109828886B (zh) | 一种容器云环境下的ci/cd监控方法和系统 | |
CN105844390A (zh) | 一种数据质量追溯的方法及其装置以及硬件处理器 | |
CN108733698A (zh) | 一种日志消息的处理方法及后台服务系统 | |
CN113608969A (zh) | 业务系统运行监控系统及方法 | |
CN115104336A (zh) | 跟踪和公开用于生成分析的数据 | |
CN102546235B (zh) | 云计算环境下面向web应用的性能诊断方法和系统 | |
CN112579558A (zh) | 展示拓扑图的方法、装置、存储介质及设备 | |
CN107920067B (zh) | 一种主动对象存储系统上的入侵检测方法 | |
US20230004487A1 (en) | System and method for anomaly detection and root cause automation using shrunk dynamic call graphs | |
Basirati et al. | Towards systematic inconsistency identification for product service systems | |
CN106875015B (zh) | 一种飞机故障诊断方法及系统 | |
CN103970667B (zh) | 一种基于缺陷管理平台的缺陷分派方法及系统 | |
JP2013077124A (ja) | ソフトウェアテストケース生成装置 | |
CN106712990B (zh) | 服务部署方法和系统 | |
Li et al. | A generic approach for process performance analysis using bipartite graph matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160817 |
|
WD01 | Invention patent application deemed withdrawn after publication |