CN111782641B - 数据错误修复方法及系统 - Google Patents

数据错误修复方法及系统 Download PDF

Info

Publication number
CN111782641B
CN111782641B CN202010596769.XA CN202010596769A CN111782641B CN 111782641 B CN111782641 B CN 111782641B CN 202010596769 A CN202010596769 A CN 202010596769A CN 111782641 B CN111782641 B CN 111782641B
Authority
CN
China
Prior art keywords
field
tables
graph
information
dependency graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010596769.XA
Other languages
English (en)
Other versions
CN111782641A (zh
Inventor
梁婷
康永乐
童敏
张智勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010596769.XA priority Critical patent/CN111782641B/zh
Publication of CN111782641A publication Critical patent/CN111782641A/zh
Application granted granted Critical
Publication of CN111782641B publication Critical patent/CN111782641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种数据错误修复方法及系统,所述方法包含:根据预定关系型数据库中存储的元数据获取二元字段依赖关系,并利用图转化计算将二元字段依赖关系转化为第一字段依赖图;根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联的一个或多个第二表和字段信息;对所述第一表和字段信息对应的数据加工任务修复后,通过元数据库中表和任务的映射关系,对所述第二表和字段信息所对应的任务进行重跑修复。

Description

数据错误修复方法及系统
技术领域
本发明涉及大数据运维领域,尤指一种数据发生错误时的数据错误修复方法及系统。
背景技术
交易系统的生产数据流入数据湖,并经过数据仓库的层层加工后,数据应用到很多业务。当入湖的数据发生错误,则会影响下游所有的业务使用方,造成巨大影响。数据错误发生的原因包含但不局限于同步数据时服务器宕机、网络异常等原因,对这种数据错误需要及时修复。当前数据错误的修复方案为:确定最源头出错的数据加工任务,修复该任务的产出数据,调度其下游所有依赖的任务进行任务重跑。
现有方案能够修复错误数据,但会导致计算资源的大量浪费和数据产出延迟。原因是数据错误通常影响表中的某些字段而非全部字段,现有方案对任务的全部下游任务进行重跑调度,将会把大量的没有使用错误字段的任务也调度起来重跑,而这些任务实际上不用重跑。
综上,如何提供一种新的方案,能够花费最小计算成本、时间成本对错误数据进行修复,是本领域亟待解决的难题。
发明内容
本发明目的在于提供一种数据错误修复方法及系统,以花费较少计算资源、时间成本的基础上对错误数据进行修改。
为达上述目的,本发明所提供的数据错误修复方法具体包含:根据预定关系型数据库中存储的元数据获取二元字段依赖关系,并利用图转化计算将二元字段依赖关系转化为第一字段依赖图;根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联的一个或多个第二表和字段信息;对所述第一表和字段信息对应的数据加工任务修复后,通过元数据库中表和任务的映射关系,对所述第二表和字段信息所对应的任务进行重跑修复。
在上述数据错误修复方法中,优选的,利用图转化计算将二元字段依赖关系转化为第一字段依赖图包含:以表和对应字段为节点,以各表之间的依赖关系为边,将二元字段依赖关系转化为第一字段依赖图。
在上述数据错误修复方法中,优选的,根据问题数据的源头的第一表和字段信息于所述字段依赖图中定位受影响的关联的一个或多个第二表和字段信息之前还包含:根据所述字段依赖图中各表和字段信息之间的关系类型,筛选所述第一字段依赖图获得第二字段依赖图。
在上述数据错误修复方法中,优选的,根据所述字段依赖图中各表和字段信息之间的关系类型,筛选所述第一字段依赖图获得第二字段依赖图包含:通过深度优化遍历算法访问所述第一字段依赖图中各个节点,获得所述节点的节点信息;通过预设标识筛除所述节点信息中临时关系类型的依赖关系,获得第二字段依赖图。
在上述数据错误修复方法中,优选的,通过预设标识筛除所述节点信息中临时表对应的依赖关系包含:当所述节点信息中包含所述预设标识时,将所述节点信息对应节点的邻接点互连,并删除于所述第一字段依赖图中当前节点及连接邻接点的边。
在上述数据错误修复方法中,优选的,根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联第二表和字段信息包含:通过广度遍历优先算法或深度优先遍历算法分析定位所述问题数据对应源头的第一表和字段信息;以所述第一表和字段信息为根节点,分析所述第二字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息。
在上述数据错误修复方法中,优选的,根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联第二表和字段信息包含:通过广度遍历优先算法或深度优先遍历算法分析定位所述问题数据对应源头的第一表和字段信息;以所述第一表和字段信息为根节点,分析所述第一字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息。
本发明还提供一种数据错误修复系统,所述系统包含转化装置、查询装置和修复装置;所述转化装置用于根据预定关系型数据库中存储的元数据获取二元字段依赖关系,并利用图转化计算将二元字段依赖关系转化为第一字段依赖图;所述查询装置用于根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联的一个或多个第二表和字段信息;所述修复装置用于对所述第一表和字段信息对应的数据加工任务修复后,通过元数据库中表和任务的映射关系,对所述第二表和字段信息所对应的任务进行重跑修复。
在上述数据错误修复系统中,优选的,所述转化装置包含元数据模块和图转化模块;所述元数据模块用于通过关系型数据按关联关系存储字段、任务、表的元数据;所述图转化模块用于以表和对应字段为节点,以各表之间的依赖关系为边,将二元字段依赖关系转化为第一字段依赖图。
在上述数据错误修复系统中,优选的,所述系统还包含图重构模块,所述图重构模块用于根据所述字段依赖图中各表和字段信息之间的关系类型,筛选所述第一字段依赖图获得第二字段依赖图。
在上述数据错误修复系统中,优选的,所述图重构模块包含筛选单元,所述筛选单元用于通过深度优化遍历算法访问所述第一字段依赖图中各个节点,获得所述节点的节点信息;当所述节点信息中包含预设标识时,将所述节点信息对应节点的邻接点互连,并删除于所述第一字段依赖图中当前节点及连接邻接点的边。
在上述数据错误修复系统中,优选的,所述查询装置包含图查询模块,所述图查询模块用于通过广度遍历优先算法或深度优先遍历算法分析定位所述问题数据对应源头的第一表和字段信息;以所述第一表和字段信息为根节点,分析所述第二字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明的有益技术效果在于:采用图计算技术,提出基于图的深度优先遍历算法对字段依赖元数据进行字段依赖图的重构方案;基于重构的字段依赖图,找到对数据错误的字段有依赖关系的子图进行重跑调度,节省计算成本、时间成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所提供的数据错误修复方法的流程示意图;
图2为本发明一实施例所提供的字段依赖图的重构流程示意图;
图3为本发明一实施例所提供的待重跑数据的定位流程示意图;
图4为本发明一实施例所提供的数据错误修复方法的应用流程示意图;
图5为本发明一实施例所提供的数据错误修复系统的结构示意图;
图6为本发明一实施例所提供的数据结构关系示意图;
图7为本发明一实施例所提供的数据重构逻辑示意图;
图8为本发明一实施例所提供的电子设备的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
请参考图1所示,本发明所提供的数据错误修复方法具体包含:
S101根据预定关系型数据库中存储的元数据获取二元字段依赖关系,并利用图转化计算将二元字段依赖关系转化为第一字段依赖图;
S102根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联的一个或多个第二表和字段信息;
S103对所述第一表和字段信息对应的数据加工任务修复后,通过元数据库中表和任务的映射关系,对所述第二表和字段信息所对应的任务进行重跑修复。
在上述实施例中,利用图转化计算将二元字段依赖关系转化为第一字段依赖图包含:以表和对应字段为节点,以各表之间的依赖关系为边,将二元字段依赖关系转化为第一字段依赖图。在实际工作中,可将父表、父字段连接以.分隔;将子表、子字段连接以.分隔;设“表.子段”为图的点,设父子依赖关系为图的边,以此进行画图。
在本发明一实施例中,根据问题数据的源头的第一表和字段信息于所述字段依赖图中定位受影响的关联的一个或多个第二表和字段信息之前还可包含:根据所述字段依赖图中各表和字段信息之间的关系类型,筛选所述第一字段依赖图获得第二字段依赖图。具体的,请参考图2所示,可S201通过深度优化遍历算法访问所述第一字段依赖图中各个节点,获得所述节点的节点信息;S202通过预设标识筛除所述节点信息中临时关系类型的依赖关系,获得第二字段依赖图。其中,通过预设标识筛除所述节点信息中临时表对应的依赖关系包含:当所述节点信息中包含所述预设标识时,将所述节点信息对应节点的邻接点互连,并删除于所述第一字段依赖图中当前节点及连接邻接点的边。
在实际工作中,以上实施例的具体实现流程可如下:从根节点开始,深度遍历访问所述第一字段依赖图中的每个点,当点为Tmp开头(代表临时关系的标识)时,则先存储该点的邻接点,删除该点的出边和入边、再删除该点、再新建边:从该点入边连接的点指向该点出边连接的点;由此对所述第一字段依赖图中所有点逐一筛选完成后,即可获得第二字段依赖图。
请参考图3所示,在本发明一实施例中,根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联第二表和字段信息可包含:
S301通过广度遍历优先算法或深度优先遍历算法分析定位所述问题数据对应源头的第一表和字段信息;
S302以所述第一表和字段信息为根节点,分析所述第二字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息。
当然,如临时关系较少,无需对所述第一字段依赖图进行筛选操作时,上述步骤S302也可替换以所述第一表和字段信息为根节点,分析所述第一字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息;由此,减少前述筛选重构流程,降低数据错误修复的整体用时和计算资源消耗。值得说明的是,当存在所述第二字段依赖图时,步骤S301主要采用广度遍历优先算法,原因在于通常出错的任务在第二字段依赖图中层次较小,该场景下广度遍历优于深度遍历的处理效率。
为便于更清楚的理解本发明所提供的上述实施例的应用方式,以下请参考图4所示,基于现实场景对本发明所提供的数据错误修复方法做完整流程说明:
一、获取字段依赖元数据二元关系
二、字段依赖元数据二元关系转化为图:利用图转化逻辑,设置规则将二元字段依赖关系对转化为图。所示规则为:将父表、父字段连接以.分隔;将子表、子字段连接以.分隔;设“表.子段”为图的点,设父子依赖关系为图的边,画图。
三、字段依赖图重构,从根节点开始,深度遍历访问图中的每个点,当点为Tmp开头时,则先存储该点的邻接点,删除该点的出边和入边、再删除该点、再新建边:从该点入边连接的点指向该点出边连接的点;因字段依赖图中可能包含多个需要删除的节点,因此该处需要重复删除临时表所指明的临时关系对应的节点。
四、通过人工或其他数据故障定位方法进行数据问题排查,定位到最源头出错的数据加工任务、表和字段,并通过数据修复模块的编写自定义脚本功能,修复该任务的产出数据。
五、利用广度遍历优先算法找到最源头出错的表和字段(因为该任务在依赖图中层次通常较小,该场景下广度遍历优于深度遍历)。
六、通过广度遍历优先算法遍历以该“表.字段”为根节点的子图,得出所有受影响的表和字段。
七、利用元数据库中表和任务的映射关系元数据(1:1),将步骤六中得到的所有受影响的表映射到所有受影响的任务。并调度所有受影响的任务重跑。
请参考以下表1所示,当A.col1发生数据错误时,现有方案将会调度C、D两个任务重跑;本发明仅会调度C任务,从而避免对D任务的多余处理。
表1
父表 父字段 子表 子字段
A col1 Tmp1 col1
B col1 Tmp1 col1
Tmp1 col1 Tmp2 col1
Tmp2 col1 C col1
A col1 C col1
C col2 D col2
请参考图5所示,本发明还提供一种数据错误修复系统,所述系统包含转化装置、查询装置和修复装置;所述转化装置用于根据预定关系型数据库中存储的元数据获取二元字段依赖关系,并利用图转化计算将二元字段依赖关系转化为第一字段依赖图;所述查询装置用于根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联的一个或多个第二表和字段信息;所述修复装置用于对所述第一表和字段信息对应的数据加工任务修复后,通过元数据库中表和任务的映射关系,对所述第二表和字段信息所对应的任务进行重跑修复。
在上述实施例中,所述转化装置包含元数据模块和图转化模块;所述元数据模块用于通过关系型数据按关联关系存储字段、任务、表的元数据;所述图转化模块用于以表和对应字段为节点,以各表之间的依赖关系为边,将二元字段依赖关系转化为第一字段依赖图。实际工作中,所述元数据模块可为元数据库用以在关系型数据库中存储字段、任务、表的元数据。所述图转化模块主要用于通过定义图的点和边规则,完成从关系型数据库到图数据库的转化;以及,其中定义的图规则可为:将父表、父字段连接以.分隔;将子表、子字段连接以.分隔;设“表.子段”为图的点,设父子依赖关系为图的边,画图。字段依赖元数据使用脚本代码解析获取,存储在关系型数据库中,其数据结构可参考上述表1所示,表1对应的示例图可参考图6所示。
在本发明一实施例中,所述系统还可包含图重构模块,所述图重构模块用于根据所述字段依赖图中各表和字段信息之间的关系类型,筛选所述第一字段依赖图获得第二字段依赖图。具体的,所述图重构模块可包含筛选单元,所述筛选单元用于通过深度优化遍历算法访问所述第一字段依赖图中各个节点,获得所述节点的节点信息;当所述节点信息中包含预设标识时,将所述节点信息对应节点的邻接点互连,并删除于所述第一字段依赖图中当前节点及连接邻接点的边。在该实施例中,针对数据错误修复场景,对初始图进行合理重构,目的是缩减图的复杂度,降低图的存储和计算成本。在实际工作中,因为字段依赖元数据从脚本代码中解析,其中会解析出大量的临时表的依赖关系(1个任务包含多段脚本,会产出1张正式表和n张临时表。通常数据仓库建设标准会规定临时表的名称规范,如以Tmp开头的表为临时表);字段依赖图中代表临时表的点和关系会增加图的深度和广度、对寻找子图产生不利影响。为此,本发明利用图的深度优先遍历算法对字段依赖图进行重构,将代表临时表的点和关系删除,并新建代表正式表的点之间的关系,图6经过图重构模块的重构后可为图7所示。
在本发明一实施例中,所述查询装置包含图查询模块,所述图查询模块用于通过广度遍历优先算法或深度优先遍历算法分析定位所述问题数据对应源头的第一表和字段信息;以所述第一表和字段信息为根节点,分析所述第二字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息。实际工作中,采用常用图遍历算法(如广度优先遍历算法、深度优先遍历算法等),通过自主选择遍历算法查找子图;以此,提供后续修复装置定位具体需要重跑调度的位置,亦即通过修复装置根据工作人员编写的自定义脚本结合确定的重跑位置执行任务重跑调度完成数据错误修复。
本发明的有益技术效果在于:采用图计算技术,提出基于图的深度优先遍历算法对字段依赖元数据进行字段依赖图的重构方案;基于重构的字段依赖图,找到对数据错误的字段有依赖关系的子图进行重跑调度,节省计算成本、时间成本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
如图8所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图8中所示的所有部件;此外,电子设备600还可以包括图8中没有示出的部件,可以参考现有技术。
如图8所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种数据错误修复方法,其特征在于,所述方法包含:
根据预定关系型数据库中存储的元数据获取二元字段依赖关系,并利用图转化计算将二元字段依赖关系转化为第一字段依赖图;
根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联的一个或多个第二表和字段信息;
对所述第一表和字段信息对应的数据加工任务修复后,通过元数据库中表和任务的映射关系,对所述第二表和字段信息所对应的任务进行重跑修复。
2.根据权利要求1所述的数据错误修复方法,其特征在于,利用图转化计算将二元字段依赖关系转化为第一字段依赖图包含:以表和对应字段为节点,以各表之间的依赖关系为边,将二元字段依赖关系转化为第一字段依赖图。
3.根据权利要求2所述的数据错误修复方法,其特征在于,根据问题数据的源头的第一表和字段信息于所述字段依赖图中定位受影响的关联的一个或多个第二表和字段信息之前还包含:根据所述字段依赖图中各表和字段信息之间的关系类型,筛选所述第一字段依赖图获得第二字段依赖图。
4.根据权利要求3所述的数据错误修复方法,其特征在于,根据所述字段依赖图中各表和字段信息之间的关系类型,筛选所述第一字段依赖图获得第二字段依赖图包含:通过深度优化遍历算法访问所述第一字段依赖图中各个节点,获得所述节点的节点信息;通过预设标识筛除所述节点信息中临时关系类型的依赖关系,获得第二字段依赖图。
5.根据权利要求4所述的数据错误修复方法,其特征在于,通过预设标识筛除所述节点信息中临时表对应的依赖关系包含:当所述节点信息中包含所述预设标识时,将所述节点信息对应节点的邻接点互连,并删除于所述第一字段依赖图中当前节点及连接邻接点的边。
6.根据权利要求5所述的数据错误修复方法,其特征在于,根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联第二表和字段信息包含:通过广度遍历优先算法或深度优先遍历算法分析定位所述问题数据对应源头的第一表和字段信息;以所述第一表和字段信息为根节点,分析所述第二字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息。
7.根据权利要求1所述的数据错误修复方法,其特征在于,根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联第二表和字段信息包含:通过广度遍历优先算法或深度优先遍历算法分析定位所述问题数据对应源头的第一表和字段信息;以所述第一表和字段信息为根节点,分析所述第一字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息。
8.一种数据错误修复系统,其特征在于,所述系统包含转化装置、查询装置和修复装置;
所述转化装置用于根据预定关系型数据库中存储的元数据获取二元字段依赖关系,并利用图转化计算将二元字段依赖关系转化为第一字段依赖图;
所述查询装置用于根据问题数据的源头的第一表和字段信息于所述第一字段依赖图中定位受影响的关联的一个或多个第二表和字段信息;
所述修复装置用于对所述第一表和字段信息对应的数据加工任务修复后,通过元数据库中表和任务的映射关系,对所述第二表和字段信息所对应的任务进行重跑修复。
9.根据权利要求8所述的数据错误修复系统,其特征在于,所述转化装置包含元数据模块和图转化模块;
所述元数据模块用于通过关系型数据按关联关系存储字段、任务、表的元数据;
所述图转化模块用于以表和对应字段为节点,以各表之间的依赖关系为边,将二元字段依赖关系转化为第一字段依赖图。
10.根据权利要求9所述的数据错误修复系统,其特征在于,所述系统还包含图重构模块,所述图重构模块用于根据所述字段依赖图中各表和字段信息之间的关系类型,筛选所述第一字段依赖图获得第二字段依赖图。
11.根据权利要求10所述的数据错误修复系统,其特征在于,所述图重构模块包含筛选单元,所述筛选单元用于通过深度优化遍历算法访问所述第一字段依赖图中各个节点,获得所述节点的节点信息;当所述节点信息中包含预设标识时,将所述节点信息对应节点的邻接点互连,并删除于所述第一字段依赖图中当前节点及连接邻接点的边。
12.根据权利要求11所述的数据错误修复系统,其特征在于,所述查询装置包含图查询模块,所述图查询模块用于通过广度遍历优先算法或深度优先遍历算法分析定位所述问题数据对应源头的第一表和字段信息;以所述第一表和字段信息为根节点,分析所述第二字段依赖图中受所述第一表和字段信息影响的一个或多个第二表和字段信息。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一所述方法的计算机程序。
CN202010596769.XA 2020-06-28 2020-06-28 数据错误修复方法及系统 Active CN111782641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010596769.XA CN111782641B (zh) 2020-06-28 2020-06-28 数据错误修复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010596769.XA CN111782641B (zh) 2020-06-28 2020-06-28 数据错误修复方法及系统

Publications (2)

Publication Number Publication Date
CN111782641A CN111782641A (zh) 2020-10-16
CN111782641B true CN111782641B (zh) 2023-07-28

Family

ID=72760110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010596769.XA Active CN111782641B (zh) 2020-06-28 2020-06-28 数据错误修复方法及系统

Country Status (1)

Country Link
CN (1) CN111782641B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860186B (zh) * 2023-09-05 2023-11-10 上海凯翔信息科技有限公司 一种分布式集群的数据清理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516730A (zh) * 2013-09-29 2015-04-15 国际商业机器公司 一种数据处理方法和装置
CN110245270A (zh) * 2019-05-09 2019-09-17 重庆天蓬网络有限公司 基于图模型的数据血缘关系存储方法、系统、介质和设备
CN110502509A (zh) * 2019-08-27 2019-11-26 广东工业大学 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017132717A1 (en) * 2016-02-01 2017-08-10 Global Software Innovation Pty Ltd Graph-based operations on an entity-relationship database

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516730A (zh) * 2013-09-29 2015-04-15 国际商业机器公司 一种数据处理方法和装置
CN110245270A (zh) * 2019-05-09 2019-09-17 重庆天蓬网络有限公司 基于图模型的数据血缘关系存储方法、系统、介质和设备
CN110502509A (zh) * 2019-08-27 2019-11-26 广东工业大学 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置

Also Published As

Publication number Publication date
CN111782641A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
US11163744B2 (en) Test data generation and scale up for database testing using unique common factor sequencing
US10282350B1 (en) Data store optimizer
CN104423960A (zh) 一种项目持续集成的方法及系统
CN106557307B (zh) 业务数据的处理方法及处理系统
CN110737594A (zh) 自动生成测试用例的数据库标准符合性测试方法及装置
US20170169073A1 (en) Executing Graph Path Queries
CN104820663A (zh) 发现低性能的sql语句以及预测sql语句性能的方法和装置
CN105512017A (zh) 一种数据库兼容性检测方法及设备
CN114820080A (zh) 基于人群流转的用户分群方法、系统、装置及介质
CN110597821B (zh) 数据仓库表结构变更方法及装置
CN111782641B (zh) 数据错误修复方法及系统
JP2023553220A (ja) マルチインスタンスプロセスのためのプロセスマイニング
CN112948473A (zh) 数据仓库的数据处理方法、装置、系统及存储介质
CN106843822B (zh) 一种执行代码生成方法及设备
CN111831696A (zh) 基于图理论的资产信息存储方法和系统
CN109376148B (zh) 缓慢变化维表的数据处理方法、装置、电子设备
CN110941658A (zh) 一种数据导出方法、装置、服务器及存储介质
CN112256978B (zh) 一种基于数据模型的数据处理方法、装置、介质
CN111427902B (zh) 基于轻量型数据库的元数据管理方法、装置、设备及介质
CN113157934A (zh) 知识图谱起源处理方法和系统、电子设备和存储介质
CN106681914B (zh) 电视机画面质量调试方法及装置
CN106168983B (zh) 一种混合资源处理方法及装置
CN110674220A (zh) 一种数据异构的方法、装置及设备
CN112051987B (zh) 业务数据处理方法、装置及设备、程序生成方法及装置
CN111930718B (zh) 配置管理数据库的节点调整方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant