CN113468158B - 数据修复方法、系统、电子设备及介质 - Google Patents
数据修复方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN113468158B CN113468158B CN202110790925.0A CN202110790925A CN113468158B CN 113468158 B CN113468158 B CN 113468158B CN 202110790925 A CN202110790925 A CN 202110790925A CN 113468158 B CN113468158 B CN 113468158B
- Authority
- CN
- China
- Prior art keywords
- data
- field
- repair
- repaired
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002159 abnormal effect Effects 0.000 claims abstract description 135
- 238000001514 detection method Methods 0.000 claims abstract description 80
- 230000008439 repair process Effects 0.000 claims description 100
- 238000004458 analytical method Methods 0.000 claims description 36
- 238000012552 review Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据修复方法、系统、电子设备及介质,具体涉及数据库技术领域,该方法包括对若干个数据库中的数据库表分别进行质量检测,根据一个数据库表的质量检测结果生成该数据库表对应的结果表,在若干个结果表中确定一个结果表作为目标结果表,并确定目标结果表所对应的待修复数据库表,根据目标结果表确定待修复数据库表中的异常数据,并进行数据修复,本发明可以实现对质量检测所确定的异常数据进行数据修复,可以较为方便的确定待修复数据库表及对应的异常数据,并进行数据修复,具有saas化通用性,可以适用于多个类型的数据库,系统成本低。
Description
技术领域
本发明涉及数据库技术领域,特别是涉及一种数据修复方法、系统、电子设备及介质。
背景技术
数据质量检测是一种对于数据库中数据库表中的数据进行检测的方式,可以围绕数据的完备性、真实性、一致性、及时性等指标监控分析数据质量,具体的,例如对某个字段进行空值检测、长度检测、唯一性检测等,通过自动化的质量检核方式可以极大的减少人力的投入和过程干预,有助于提升效率和减少误差。
但相关技术中,数据质量检测要么往往仅集中在如何检测异常数据,对于质量检测结果中的异常数据仅仅进行统计,但却不能进行数据修复,后续数据修复过程复杂,要么只能针对单一的数据库表既实现数据质量检测又提供数据修复界面,复用性差,没有通用性,系统成本高。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据修复方法、系统、电子设备及介质,用于解决现有技术中数据修复过程复杂、复用性差、没有通用性、系统成本高的问题。
为实现上述目的及其他相关目的,本发明提供一种数据修复方法,所述方法包括:
对若干个数据库中的数据库表分别进行质量检测;
根据每个所述数据库表的质量检测结果生成所述数据库表对应的结果表,形成结果表集所述质量检测结果包括所述数据库表中异常数据的异常信息,所述结果表包括所述数据库表的数据库表身份识别信息;
在所结果表集中选出目标结果表,并确定所述目标结果表所对应的待修复数据库表;
根据所述目标结果表确定所述待修复数据库表中的异常数据,并进行数据修复。
于本发明的一实施例中,所述异常信息包括所述异常数据所对应的主键信息、主键字段名称、检测类型、关联主键信息中至少之一,所述结果表的关键字段包括数据库表身份识别信息,以及主键信息、主键字段名称、检测类型、关联主键信息中至少之一。
于本发明的一实施例中,数据修复的方式包括:
获取所述异常数据的检测类型;
根据所述检测类型确定预设修复规则,并根据所述预设修复规则对所述异常数据进行修复。
于本发明的一实施例中,数据修复的方式包括:
对所述目标数据的数据库定义语言语句进行字段解析;
获取解析后的所述目标数据的解析类型,并将所述解析数据类型转换为显示类型进行显示;
从显示的所述目标数据中确定待修复字段,并对至少一个所述待修复字段进行数据修复;
其中,所述目标数据包括所述异常数据,或所述目标数据包括所述异常数据和关联数据。
于本发明的一实施例中,所述从显示的所述目标数据中确定待修复字段,并对至少一个所述待修复字段进行数据修复包括:
通过对所述目标数据的数据库定义语言语句进行字段解析,得到若干个解析字段;
获取所述解析字段的字段解析类型,根据预设显示规则确定所述解析字段的字段显示类型,并以所述字段显示类型对所述解析字段进行显示;
根据所述异常数据所对应的所述检测类型确定待修复字段;
获取修复指令,并从所述待修复字段中确定目标待修复字段,所述修复指令包括修复内容和目标待修复字段的标识信息;
根据所述修复内容对所述目标待修复字段进行数据修复。
于本发明的一实施例中,进行数据修复之后,所述方法还包括:
将所述异常数据标记为已执行修复;
获取执行数据修复方法主体的运行状态,所述运行状态包括空闲和忙碌;
若所述运行状态包括空闲,对标记为已执行修复的各所述异常数据进行修复状态确认,若修复成功,将所述异常数据标记为已修复。
于本发明的一实施例中,所述方法还包括:
记录所述异常数据和所述异常数据对应的回滚信息,所述回滚信息包括版本识别信息,以及数据库身份识别信息、数据库表身份识别信息、主键字段名称、主键信息、时间信息中至少之一;
获取数据回顾指令,所述回顾指令包括所述版本识别信息;
根据所述版本识别信息确定所述异常数据,并进行数据回滚。
本发明还提供一种数据修复系统,所述系统包括:
质量检测模块,用于对若干个数据库中的数据库表分别进行质量检测;
结果表生成模块,用于根据每个所述数据库表的质量检测结果生成所述数据库表对应的结果表,形成结果表集,所述质量检测结果包括所述数据库表中异常数据的异常信息,所述结果表包括所述数据库表的数据库表身份识别信息;
确定模块,用于在所述结果表集中选出目标结果表,并确定所述目标结果表所对应的待修复数据库表;
数据修复模块,用于根据所述目标结果表确定所述待修复数据库表中的异常数据,并进行数据修复。
本发明还提供一种数据修复设备,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现上述实施例中任一项所述的方法。
本发明还提供一种计算机可读存储介质,包括程序,当其在计算机上运行时,使得计算机执行如上述实施例中任一项所述的方法。
如上所述,本发明提供一种数据修复方法、系统、电子设备及介质,该方法包括对若干个数据库中的数据库表分别进行质量检测,根据一个数据库表的质量检测结果生成该数据库表对应的结果表,形成结果表集,在结果表集选出目标结果表,并确定目标结果表所对应的待修复数据库表,根据目标结果表确定待修复数据库表中的异常数据,并进行数据修复,本发明可以实现对质量检测所确定的异常数据进行数据修复,可以较为方便的确定待修复数据库表及对应的异常数据,并进行数据修复,具有saas(Software-as-a-Service,软件即服务)化通用性,可以适用于多个类型的数据库,系统成本低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明于一实施例中的数据修复方法的一种流程示意图;
图2为本发明于一实施例中的数据修复系统的一种结构示意图。
元件标号说明
200、数据修复系统;201、质量检测模块;202、结果表生成模块;203、确定模块;204、数据修复模块。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
相关技术中的数据质量检测系统,有些数据质量检测系统虽然可以切换多数据源,检测不同类型的数据源,不同表结构,不同业务类型的数据,检测类型比较全面,且支持各种自定义函数等。但仅是针对检测结果只做统计,不做数据质量修复。例如,针对A表中的身份证,学历字段做空值检测。该系统只会统计出总扫描数据量为1W条,身份证空值数据量条数1000条,学历字段空值数据为500条。有些数据质量检测系统针对某单一系统做定制化开发,对具体表具体字段做检测,并提供数据修复界面。虽然可以针对性本系统性的做到质检检测和数据修复业务,但该系统无法复用到其它库表中,没有通用性。
实施例一
针对上述技术问题,本发明实施例提供了一种数据修复方法,能够在检测、扫描出数据库表里面的异常数据的基础上,针对有异常数据进行修复。而且,该方法具有泛用性,例如我配置了A系统的数据源,检测A系统里面的表数据,也可以配置B系统的数据对B系统里面的数据做检测修复。简单说也就是该方法可以做到saas通用化。
请参阅图1,本发明提供一种数据修复方法,该方法包括:
S101:对若干个数据库中的数据库表分别进行质量检测;
S102:根据每个所述数据库表的质量检测结果生成所述数据库表对应的结果表,形成结果表集;
S103:在结果表集中选出目标结果表,并确定目标结果表所对应的待修复数据库表;
S104:根据目标结果表确定待修复数据库表中的异常数据,并进行数据修复。
需要说明的是,质量检测结果包括数据库表中异常数据的异常信息,结果表包括数据库表的数据库表身份识别信息。
在一些实施例中,质量检测的方式可以采用相关技术中的技术手段实现,在此不做限定各数据库表所采用的质量检测方法可以是相同的,也可以是不同的。一个数据库中可能包括一个或多个数据库表,可以对一个数据库中全部的数据库表都进行质量检测,也可以针对其中一部分数据库表进行质量检测。对于各个数据库的各个数据库表的质量检测可以是同时的也可以是先后进行质量检测,在此不做限定。
在一些实施例中,对于每一个数据库表均对应生成一个结果表,这样每一个结果表的单表数据量可以保持在一个较为合适的状态,避免因单表数据量过大导致如资源占用大、计算速度慢等风险。结果表根据其所对应的数据库表的质量检测结果生成,质量检测结果包括有该数据库表中异常数据的异常信息,异常信息包括但不限于异常数据的主键信息、主键字段名称、检测类型、关联主键信息等中至少之一。可选的,主键信息为数据库表中的唯一主键的值;主键字段名称为数据库表中的主键字段名称,通过该主键字段名称可以知晓数据库表中唯一的字段是哪一个,然后根据主键信息可以得到数据库表中具体的行;检测类型可以为该数据库表中各单元格中的格式要求,进而确定检测类型,检测类型包括但不限于空值类型,唯一性问题,值域问题,函数波动性问题等中至少之一;关联主键信息是一个选用信息,是主键信息所关联的其他主键,可以用于标识数据重复,例如,当key(键)为1001数据与key为2001数据姓名字段重复时,若主键信息为“1001”,则关联主键信息“2001”,以表示1001该行数据与2001所在行数据存在重复。
在一些实施例中,结果表的关键字段包括数据库表身份识别信息,以及主键信息、主键字段名称、检测类型、关联主键信息中至少之一。由于该结果表用于存储异常数据的异常信息,因此,结果表的关键字段可以根据异常信息的种类进行增减调整。
可以通过数据库表身份识别信息字段信息关联数据库库配置表,进而可以确定该结果表所对应的数据库及数据库表,通过在结果表中增加数据库表身份识别信息,可以实现通过结果表找到数据库表。
在一些实施例中,对异常数据进行数据修复包括:
获取异常数据的检测类型;
根据检测类型确定预设修复规则,并根据预设修复规则对异常数据进行修复。
对于不同的检测类型,所检测得到的异常数据的异常问题也并不相同,因此,对应需要设置有不同的预设修复规则,以便在检测到异常数据时对其进行修复。例如,检测类型为空值类型时,预设修复规则为自动填充一个固定值或者随机值。当接收到修复指令时,根据预设修复规则设置自动填充数据,进而可以修复该异常数据。预设修复规则可以由本领域技术人员根据需要进行设定。
可选的,当检测类型包括唯一性问题,预设修复规则包括对存在重复的异常数据进行筛除操作,仅保留一个异常数据。当检测类型包括值域问题时,预设修复规则包括对高于值域的异常数据修改为值域的最大值,对低于值域的异常数据修改为值域的最小值,比如,值域为【0,100】,异常数据分别为-1,800,106,则将-1修复为0,800和106修复为100。
可选的,可以根据该预设修复规则对异常数据进行自动修复,预设修复规则还包括预算值和/或预算算法等,等接收到自动修复指令时,按照预设修复规则对异常数据进行数据修复。
在一些实施例中,有时,异常数据的数据问题相对较为复杂,通过简单的预设修复规则较难实现对异常数据的修复,或者,异常数据的数据问题出现的概率很低,没有预先设置对于的预设修复规则,又或者用户希望通过人工修复的方式对异常数据进行修复,此时,对于人工修复,一个难点在于如何可视化的展示异常数据所在行数据给用户,并提供修改界面。
对此,本实施例提供了一种对于异常数据可以实现人工修复的方式,具体的,本实施例中一种对异常数据进行数据修复的方式包括:
对目标数据的数据库定义语言语句进行字段解析;
获取解析后的目标数据的解析类型,并将解析类型转换为显示类型进行显示;
从显示的目标数据中确定待修复字段,并对至少一个待修复字段进行数据修复。
其中,目标数据包括异常数据,或目标数据包括异常数据和关联数据。
可选的,关联数据可以是与异常数据在数据库表为同一行的其他数据,和/或与异常数据中主键信息存在关联的关联主键信息所对应的数据。例如,检测类型为唯一性问题,A行数据中姓名字段为张三,B行数据中姓名字段也为张三,则这两行数据存在重复,这两个数据作为异常数据,互为关联数据。在显示A行数据张三的同时,B行数据张三作为其关联数据也将被一并显示。
通过对异常数据和关联数据的ddl语句(Data Definition Language,数据库定义语言)进行字段级别的解析,这样可以将数据库表中的目标数据转化为能够在前台展示给用户,并且用户可以修改的形式,例如目标数据在数据库表中所解析出来的是varchar字段,则将其转化为text(文本)类型在前端页面进行展示并供用户修改,又例如目标数据在数据库表中所解析出来的是DateTime(日期时间)类型,则将其转化为时间组件类型在前端页面进行展示并供用户修改。对于不同类型的数据库,例如mysql与oracle数据库等,字段类型不一致,将做适配后进行显示。
在一些实施例中,一种从显示的目标数据中确定待修复字段,并对至少一个待修复字段进行数据修复示例性的方式为:
通过对目标数据的数据库定义语言语句进行字段解析,得到若干个解析字段;
获取解析字段的字段解析类型,根据预设显示规则确定解析字段的字段显示类型,并以字段显示类型对解析字段进行显示;
根据异常数据所对应的检测类型确定待修复字段;
获取修复指令,并从待修复字段中确定目标待修复字段,修复指令包括修复内容和目标待修复字段的标识信息;
根据修复内容对目标待修复字段进行数据修复。
其中,预设显示规则可以由本领域技术人员根据需要进行设定,在此不做限定。可选的对于同一个解析类型可以对应一种或多种显示类型,具体使用哪一种显示类型,可以由用户或者其他相关人士进行选定。这样给予了用户一定的灵活的选择权,使得方法更加人性化。
可选的,异常数据所对应的待修复字段的一种确定方式包括:
根据异常数据所对应的检测类型确定待修复字段。
例如,检测类型是唯一性问题,此时必然存在至少一个关联数据,则待修复字段包括该异常数据对应的解析字段的同时,还包括该异常数据所对应的关联数据的解析字段。又例如检测类型为值域问题,则此时异常数据所对应的解析字段即为待修复字段。
可选的,对于所显示的各解析字段,待修复字段的编辑状态为可编辑,其他解析字段的编辑状态为不可编辑,这样可以引导用户仅针对存在问题的异常数据进行修复,且不会再修复的过程中对其他的数据进行更改,以免带来新的异常数据。
可选的,若待修复字段包括至少两个字段,修复指令包括但不限于该修复指令所针对的待修复字段(目标待修复字段的标识信息)以及修复方式、修复内容。例如,待修复字段包括异常数据及其关联数据,异常数据的检测类型为唯一性类型,此时,可以针对异常数据所对应的待修复字段进行修改,也可以针对关联数据所针对的待修复字段进行修改,此时,接收到一个修复指令,该修复指令制定删除异常数据所对应的待修复字段,则具体的处理方式就是将异常数据所对应的待修复字段进行删除。
修复指令可以是通过用户点击选中某一个显示的待修复字段来发出。
可选的,若待修复字段包括一个字段,修复指令包括但不限于修复方式、修复内容。例如,将待修复字段的数值修改为0等。
下面通过一个具体的示例来对异常数据进行数据修复的方式进行示例性的说明。
当选择某条异常数据,点击修复,界面会弹出显示框展示出该异常数据所涉及的待修复字段。例如检测类型为对姓名字段进行唯一值检测。Key为1001行数据姓名字段为张三;同时key为2001行数据姓名字段也为张三。此时就会检测出这2行数据存在重复,这两行数据为异常数据,且互为关联数据,并将质量检测结果按上述结果表结构进行存储。通过对异常数据进行字段解析后,将这2条异常数据以列表的形式显示出来,同时姓名字段支持修改。此时可以修改1001所在行的姓名,也可以修改2001所在行的姓名。然后保存,即数据修复完成。对数据库进行更新。可选的,如果存在多行重复,那列表中将展示多行异常数据以及异常数据的关联数据。
可选的,针对各异常数据不同检测类型有不同的展示方式。例如空值,就为一行展示。
在一些实施例中,进行数据修复之后,该方法还包括:
保存修改后的数据库表。
在一些实施例中,进行修复之后,该方法还包括:
将异常数据标记为已执行修复;
获取执行数据修复方法主体的运行状态;
若所述运行状态包括空闲,对标记为已执行修复的各异常数据进行修复状态确认,若修复成功,将异常数据标记为已修复。
可选的,运行状态包括空闲和忙碌。获取执行数据修复方法主体的运行状态的具体方式可以由本领域技术人员根据需要设定,例如通过获取当前系统的执行线程数量,获取当前处理器的使用率,获取当前设备的耗电量等。至于运行状态的空闲还是忙碌,可以由本领域技术人员根据需要进行标定。
对于已经进行修复后的异常数据标记为已执行修复,这样可以实现在对其他异常数据进行修复时,能够区分哪些异常数据已经修复了,哪些异常数据尚未修复,不会造成重复修复造成资源浪费。
在完成数据修复以后,不立即检测该异常数据的修复是否成功,而是待闲暇时才对标记为已执行修复的各异常数据进行修复状态确定,若修复成功则将异常数据标记为已修复。这样可以减少系统运行负担。例如,对于由于数据重复所导致的异常数据及其关联数据,在进行数据修复后,不立即检测该异常数据与其它数据是否仍然存在重复值,而是先对其标记为已执行修复,待系统闲暇之时再检测确认,最后修改状态为已修复。
在一些实施例中,该方法还包括:
记录异常数据和异常数据对应的回滚信息,回滚信息除包括版本识别信息外,还包括数据库身份识别信息、数据库表身份识别信息、主键字段名称、主键信息、时间信息中至少之一;
获取数据回顾指令;
根据版本识别信息确定异常数据,并进行数据回滚。
可选的,回顾指令包括版本识别信息。其中,通过版本识别信息包括但不限于版本号等通过版本识别信息可以知道该异常数据为数据库哪一次修该所对应的,进而方便后续进行数据回滚。
时间信息包括但不限于时间戳,通过时间戳可以知道该版本的更新是在何时进行的修改。
通过数据回滚可以知晓在过去某一时间数据库表内的数据情况。
可选的,当数据修复保存时,将异常数据记录一条进入hbase(Hadoop Database)数据库中,并以数据库身份识别信息+数据库表身份识别信息+主键字段名称(row_name)+主键信息(row_bid)+版本识别信息(版本号)+时间信息(时间戳)的行键(rowkey)设计方式存储在hbase中。当以后要进行数据回顾,即可查询出该数据进行回滚。
本发明实施例提供了一种数据修复方法,通过对若干个数据库中的数据库表分别进行质量检测,根据一个数据库表的质量检测结果生成该数据库表对应的结果表,形成结果标集,在结果表集中确定一个结果表作为目标结果表,并确定目标结果表所对应的待修复数据库表根据目标结果表确定待修复数据库表中的异常数据,并进行数据修复,可以实现对质量检测所确定的异常数据进行数据修复,可以较为容易的确定待修复数据库表及对应的异常数据,并进行数据修复,具有saas化通用性,可以适用于多个类型的数据库,系统成本低。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
可选的,通过本发明实施例所提供的数据修复方法,可以实现根据预设修复规则对异常数据进行自动修复,和/或,通过对目标数据进行字段解析并显示,确定待修复字段,进而对待修复字段进行数据修复,实现可视化的手动数据修复。
可选的,对于修复过的原始的异常数据,进行了记录,并配置了回滚信息,该回滚信息包括有版本识别信息,可以实现数据回滚。
可选的,本发明实施例所提供的数据修复方法,可以实现对于不同数据类型、不同业务类型、不同数据问题所对应的检测类型进行数据修复,具有很好的通用性和可移植性。
实施例二
参见图2,本发明还提供了一种数据修复系统200,所述系统包括:
质量检测模块201,用于对若干个数据库中的数据库表分别进行质量检测;
结果表生成模块202,用于根据每个数据库表的质量检测结果生成数据库表对应的结果表,形成结果表集,质量检测结果包括数据库表中异常数据的异常信息,结果表包括数据库表的数据库表身份识别信息;
确定模块203,用于在结果表集中选出目标结果表,并确定目标结果表所对应的待修复数据库表;
数据修复模块204,用于根据目标结果表确定待修复数据库表中的异常数据,并进行数据修复。
在一些实施例中,该系统还包括:
标记模块,用于进行数据修复之后,将异常数据标记为已执行修复;
状态获取模块,用于获取执行数据修复方法主体的运行状态,其中,运行状态包括空闲和忙碌;
修复状态确认模块,用于若所述运行状态包括空闲,对标记为已执行修复的各异常数据进行修复状态确认,若修复成功,将异常数据标记为已修复。
在一些实施例中,该系统还包括:
记录模块,用于记录异常数据和异常数据对应的回滚信息,回滚信息包括版本识别信息以及数据库身份识别信息、数据库表身份识别信息、主键字段名称、主键信息、时间信息中至少之一;
回顾指令获取模块,用于获取数据回顾指令,回顾指令包括所述版本识别信息;
数据回滚模块,用于根据版本识别信息确定异常数据,并进行数据回滚。
在本实施例中,该系统执行上述任一实施例所述的方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
本发明实施例提供了一种数据修复系统,该系统通过对若干个数据库中的数据库表分别进行质量检测,根据一个数据库表的质量检测结果生成该数据库表对应的结果表,形成结果标集,在结果表集中确定一个结果表作为目标结果表,并确定目标结果表所对应的待修复数据库表,根据目标结果表确定待修复数据库表中的异常数据,并进行数据修复,可以实现对质量检测所确定的异常数据进行数据修复,可以较为容易的确定待修复数据库表及对应的异常数据,并进行数据修复,具有saas化通用性,可以适用于多个类型的数据库,系统成本低。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
本申请实施例还提供了一种数据修复设备,该设备包括处理器、处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现如上述任一实施例所述的方法。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。
本申请实施例还提供了一种计算机可读存储介质,包括程序,当其在计算机上运行时,使得计算机执行如上述任一项实施例所述的方法。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (9)
1.一种数据修复方法,其特征在于,所述方法包括:
对若干个数据库中的数据库表分别进行质量检测;
根据每个所述数据库表的质量检测结果生成所述数据库表对应的结果表,形成结果表集,所述质量检测结果包括所述数据库表中异常数据的异常信息,所述结果表包括所述数据库表的数据库表身份识别信息,所述结果表的关键字段根据异常信息的种类进行增减调整;
在所述结果表集中选出目标结果表,并确定所述目标结果表所对应的待修复数据库表;
根据所述目标结果表确定所述待修复数据库表中的异常数据,并进行数据修复,其中,所述数据修复的方式包括对目标数据的数据库定义语言语句进行字段解析;获取解析后的所述目标数据的解析类型,并将所述解析类型转换为显示类型进行显示;从显示的所述目标数据中确定待修复字段,并对至少一个所述待修复字段进行数据修复;其中,所述目标数据包括所述异常数据,或所述目标数据包括所述异常数据和关联数据,所述关联数据包括与异常数据在数据库表为同一行的其他数据、与异常数据中主键信息存在关联的关联主键信息所对应的数据中至少之一,所述待修复字段的编辑状态为可编辑,其他解析字段的编辑状态为不可编辑。
2.如权利要求1所述的数据修复方法,其特征在于,所述异常信息包括所述异常数据所对应的主键信息、主键字段名称、检测类型、关联主键信息中至少之一,所述结果表的关键字段包括数据库表身份识别信息,以及主键信息、主键字段名称、检测类型、关联主键信息中至少之一。
3.如权利要求1所述的数据修复方法,其特征在于,数据修复的方式包括:
获取异常数据的检测类型;
根据所述检测类型确定预设修复规则,并根据所述预设修复规则对所述异常数据进行修复。
4.如权利要求1所述的数据修复方法,其特征在于,所述从显示的所述目标数据中确定待修复字段,并对至少一个所述待修复字段进行数据修复包括:
通过对所述目标数据的数据库定义语言语句进行字段解析,得到若干个解析字段;
获取所述解析字段的字段解析类型,根据预设显示规则确定所述解析字段的字段显示类型,并以所述字段显示类型对所述解析字段进行显示;
根据所述异常数据所对应的检测类型确定待修复字段;
获取修复指令,并从所述待修复字段中确定目标待修复字段,所述修复指令包括修复内容和目标待修复字段的标识信息;
根据所述修复内容对所述目标待修复字段进行数据修复。
5.如权利要求1所述的数据修复方法,其特征在于,进行数据修复之后,所述方法还包括:
将所述异常数据标记为已执行修复;
获取执行数据修复方法主体的运行状态,所述运行状态包括空闲和忙碌;
若所述运行状态包括空闲,对标记为已执行修复的各所述异常数据进行修复状态确认,若修复成功,将所述异常数据标记为已修复。
6.如权利要求1所述的数据修复方法,其特征在于,所述方法还包括:
记录所述异常数据和所述异常数据对应的回滚信息,所述回滚信息包括版本识别信息,以及数据库身份识别信息、数据库表身份识别信息、主键字段名称、主键信息、时间信息中至少之一;
获取数据回顾指令,所述回顾指令包括所述版本识别信息;
根据所述版本识别信息确定所述异常数据,并进行数据回滚。
7.一种数据修复系统,其特征在于,所述系统包括:
质量检测模块,用于对若干个数据库中的数据库表分别进行质量检测;
结果表生成模块,用于根据每个所述数据库表的质量检测结果生成所述数据库表对应的结果表,形成结果表集,所述质量检测结果包括所述数据库表中异常数据的异常信息,所述结果表包括所述数据库表的数据库表身份识别信息,所述结果表的关键字段根据异常信息的种类进行增减调整;
确定模块,用于在所述结果表集中选出目标结果表,并确定所述目标结果表所对应的待修复数据库表;
数据修复模块,用于根据所述目标结果表确定所述待修复数据库表中的异常数据,并进行数据修复,其中,所述数据修复的方式包括对目标数据的数据库定义语言语句进行字段解析;获取解析后的所述目标数据的解析类型,并将所述解析类型转换为显示类型进行显示;从显示的所述目标数据中确定待修复字段,并对至少一个所述待修复字段进行数据修复;其中,所述目标数据包括所述异常数据,或所述目标数据包括所述异常数据和关联数据,所述关联数据包括与异常数据在数据库表为同一行的其他数据、与异常数据中主键信息存在关联的关联主键信息所对应的数据中至少之一,所述待修复字段的编辑状态为可编辑,其他解析字段的编辑状态为不可编辑。
8.一种数据修复设备,其特征在于,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,包括程序,当其在计算机上运行时,使得计算机执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110790925.0A CN113468158B (zh) | 2021-07-13 | 2021-07-13 | 数据修复方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110790925.0A CN113468158B (zh) | 2021-07-13 | 2021-07-13 | 数据修复方法、系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468158A CN113468158A (zh) | 2021-10-01 |
CN113468158B true CN113468158B (zh) | 2023-10-31 |
Family
ID=77880084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110790925.0A Active CN113468158B (zh) | 2021-07-13 | 2021-07-13 | 数据修复方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468158B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015036832A (ja) * | 2013-08-12 | 2015-02-23 | 株式会社日立ソリューションズ | データ補完装置、データ補完方法、およびデータ補完プログラム |
CA2867187A1 (en) * | 2013-10-24 | 2015-04-24 | Chaitanya Ashok Baone | Systems and methods for detecting, correcting, and validating bad data in data streams |
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
CN107168822A (zh) * | 2017-05-08 | 2017-09-15 | 山大地纬软件股份有限公司 | Oracle streams的异常修复系统及方法 |
CN108255925A (zh) * | 2017-11-10 | 2018-07-06 | 平安普惠企业管理有限公司 | 一种数据表结构变更情况的显示方法及其终端 |
CN108733820A (zh) * | 2018-05-22 | 2018-11-02 | 中国银行股份有限公司 | 数据调整方法及装置 |
CN109992576A (zh) * | 2019-03-01 | 2019-07-09 | 苏州龙石信息科技有限公司 | 一种基于大数据技术的政务数据质量评估和异常数据修复技术 |
CN110088744A (zh) * | 2017-09-06 | 2019-08-02 | 富璟科技(深圳)有限公司 | 一种数据库维护方法及其系统 |
CN110287054A (zh) * | 2019-06-28 | 2019-09-27 | 李璐昆 | It运维管理方法及it运维管理装置 |
CN111488335A (zh) * | 2020-03-17 | 2020-08-04 | 上海维信荟智金融科技有限公司 | 基于规则的数据自动修复方法及系统 |
CN112579330A (zh) * | 2019-09-30 | 2021-03-30 | 奇安信安全技术(珠海)有限公司 | 操作系统异常数据的处理方法、装置及设备 |
CN112612794A (zh) * | 2020-12-29 | 2021-04-06 | 北京锐安科技有限公司 | 一种关系型数据库的辅助生成方法、装置、计算机设备及存储介质 |
CN112988780A (zh) * | 2021-01-04 | 2021-06-18 | 珠海优特电力科技股份有限公司 | 数据校核方法和装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200380571A1 (en) * | 2019-05-30 | 2020-12-03 | Walmart Apollo, Llc | Methods and apparatus for anomaly detections |
-
2021
- 2021-07-13 CN CN202110790925.0A patent/CN113468158B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015036832A (ja) * | 2013-08-12 | 2015-02-23 | 株式会社日立ソリューションズ | データ補完装置、データ補完方法、およびデータ補完プログラム |
CA2867187A1 (en) * | 2013-10-24 | 2015-04-24 | Chaitanya Ashok Baone | Systems and methods for detecting, correcting, and validating bad data in data streams |
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
CN107168822A (zh) * | 2017-05-08 | 2017-09-15 | 山大地纬软件股份有限公司 | Oracle streams的异常修复系统及方法 |
CN110088744A (zh) * | 2017-09-06 | 2019-08-02 | 富璟科技(深圳)有限公司 | 一种数据库维护方法及其系统 |
CN108255925A (zh) * | 2017-11-10 | 2018-07-06 | 平安普惠企业管理有限公司 | 一种数据表结构变更情况的显示方法及其终端 |
CN108733820A (zh) * | 2018-05-22 | 2018-11-02 | 中国银行股份有限公司 | 数据调整方法及装置 |
CN109992576A (zh) * | 2019-03-01 | 2019-07-09 | 苏州龙石信息科技有限公司 | 一种基于大数据技术的政务数据质量评估和异常数据修复技术 |
CN110287054A (zh) * | 2019-06-28 | 2019-09-27 | 李璐昆 | It运维管理方法及it运维管理装置 |
CN112579330A (zh) * | 2019-09-30 | 2021-03-30 | 奇安信安全技术(珠海)有限公司 | 操作系统异常数据的处理方法、装置及设备 |
CN111488335A (zh) * | 2020-03-17 | 2020-08-04 | 上海维信荟智金融科技有限公司 | 基于规则的数据自动修复方法及系统 |
CN112612794A (zh) * | 2020-12-29 | 2021-04-06 | 北京锐安科技有限公司 | 一种关系型数据库的辅助生成方法、装置、计算机设备及存储介质 |
CN112988780A (zh) * | 2021-01-04 | 2021-06-18 | 珠海优特电力科技股份有限公司 | 数据校核方法和装置、存储介质及电子设备 |
Non-Patent Citations (4)
Title |
---|
An Effective Fuel-Level Data Cleaning and Repairing Method for Vehicle MonitorPlatform;Daxin Tian等;《IEEE Transactions on Industrial Informatics》;20181026;第15卷(第1期);第410-422页 * |
异常数据修复及其应用研究;张倩倩;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210215(第02期);I138-757 * |
海洋测绘信息数字平台数据迁移技术设计;范小军等;《第二十一届海洋测绘综合性学术研讨会论文集》;第366-369页 * |
范小军等.海洋测绘信息数字平台数据迁移技术设计.《 第二十一届海洋测绘综合性学术研讨会论文集》.2009,第366-369页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113468158A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102033971B1 (ko) | 데이터 품질 분석 | |
CN107665171B (zh) | 自动回归测试方法及装置 | |
CN107908550B (zh) | 一种软件缺陷统计处理方法及装置 | |
US20170097812A1 (en) | Automated and heuristically managed solution to quantify cpu and path length cost of instructions added, changed or removed by a service team | |
US11853794B2 (en) | Pipeline task verification for a data processing platform | |
CN110019116B (zh) | 数据追溯方法、装置、数据处理设备及计算机存储介质 | |
JP2013134521A (ja) | 解析結果評価システム、解析結果評価方法及び解析結果評価プログラム | |
CN113342692A (zh) | 测试用例自动生成方法、装置、电子设备及存储介质 | |
CN113762914A (zh) | 预警审计方法及相关设备 | |
CN113468158B (zh) | 数据修复方法、系统、电子设备及介质 | |
CN107273293B (zh) | 大数据系统性能测试方法、装置及电子设备 | |
CN114936111A (zh) | 前端变量异常检测及修复方法、装置、设备及存储介质 | |
US20170330305A1 (en) | System and method for generating interactive 2d projection of 3d model | |
Sneed et al. | Analyzing data on software evolution processes | |
US8595706B2 (en) | Control chart technique for analyzing software engineering activities affected by intrinsic process variation and statistical fluctuations | |
JP6984120B2 (ja) | ロードコンペア装置、ロードコンペアプログラムおよびロードコンペア方法 | |
CN111008150A (zh) | 一种测试报告生成方法、装置及设备 | |
JP7387406B2 (ja) | 情報提供装置、情報提供方法、及びプログラム | |
CN111309623B (zh) | 一种坐标类数据分类测试方法及装置 | |
CN112488482B (zh) | 基于指标体系的自动化作业方法及系统 | |
CN112346994B (zh) | 一种测试信息关联方法、装置、计算机设备及存储介质 | |
JP7446789B2 (ja) | 情報提供装置、情報提供方法、及びプログラム | |
JP2010061610A (ja) | 開発規模算出方法、情報処理装置、及びプログラム | |
JP2010002977A (ja) | 業務システムプログラムの作成システム | |
CN116594883A (zh) | 代码测试方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |