CN110968548A - 一种数据修正方法、装置、存储介质及处理器 - Google Patents

一种数据修正方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN110968548A
CN110968548A CN201811161393.9A CN201811161393A CN110968548A CN 110968548 A CN110968548 A CN 110968548A CN 201811161393 A CN201811161393 A CN 201811161393A CN 110968548 A CN110968548 A CN 110968548A
Authority
CN
China
Prior art keywords
data
target data
processing rule
file
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811161393.9A
Other languages
English (en)
Inventor
焦张波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811161393.9A priority Critical patent/CN110968548A/zh
Publication of CN110968548A publication Critical patent/CN110968548A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据修正方法和装置。所述方法包括:检测数据文件中不符合处理规则的目标数据,并确定目标数据的特征信息,根据目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略,对目标数据执行对应的修正策略,以使目标数据符合处理规则,使得可以对数据文件中不符合处理规则的目标数据进行自动识别,并确定对应的修正策略,自动修正数据,减少了人工操作,减低了修正数据的成本。

Description

一种数据修正方法、装置、存储介质及处理器
技术领域
本发明涉及数据修正技术领域,特别是涉及一种数据修正方法、一种数据修正装置、一种存储介质及一种处理器。
背景技术
随着计算机技术的发展,人们对于海量数据的挖掘与运用进入了快速发展的阶段。数据分析平台所分析的数据的来源变得越来越纷杂,例如,全媒体智能分析平台中,其基础数据可以来自网络媒体、电视媒体、媒体研究机构等多个来源,包括收视、收听和网络等多个方面的数据。
由于数据的来源多样,导致数据的格式千差万别,难以统一,尤其是一些数据还可能经过手动调整,同个来源的数据也会出现格式不统一的问题。为了避免数据在读取和处理过程中,由于格式千差万别导致各种问题,需要人工对数据的格式进行修正,这种修正方式成本很高。
发明内容
鉴于上述问题,提出了一种数据修正方法和装置,以解决需要人工对数据进行修正,修正成本很高的问题。
依据本发明的一个方面,提供了一种数据修正方法,包括:
检测数据文件中不符合处理规则的目标数据,并确定所述目标数据的特征信息;
根据所述目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略;
对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
可选地,所述检测数据文件中不符合处理规则的目标数据包括:
获取数据系统读取数据文件时产生的错误日志;
根据所述错误日志,确定发生读取错误的数据文件;
根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据。
可选地,所述根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据包括:
获取所述数据文件的属性信息;
根据所述属性信息,确定所述数据文件对应的处理规则;
根据所述数据文件对应的处理规则,检测发生读取错误的数据文件中的目标数据。
可选地,所述特征信息包括错误类型;所述确定所述目标数据的特征信息包括:
从所述目标数据不符合处理规则的检测结果中提取出所述目标数据的错误类型;
将所述目标数据的错误类型作为该目标数据的特征信息。
可选地,所述对所述目标数据执行对应的修正策略包括以下至少一种:
对为空值的目标数据进行删除;
对为空值的目标数据进行填充;
将目标数据的数据类型转换为符合处理规则的预设数据类型;
将目标数据修正到所述处理规则的预设取值范围内;
将目标数据的数据格式修正为所述处理规则的预设数据格式;
剔除无法修正的目标数据。
可选地,在所述对所述目标数据执行对应的修正策略之后,所述方法还包括:
测试修正后的数据文件是否存在未修正的情况;
若存在未修正的情况,则提示对所述修正策略进行更新。
依据本发明的另一个方面,提供了一种数据修正装置,包括:
数据检测模块,用于检测数据文件中不符合处理规则的目标数据,并确定所述目标数据的特征信息;
策略匹配模块,用于根据所述目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略;
修正模块,用于对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
可选地,所述数据检测模块包括:
日志获取子模块,用于获取数据系统读取数据文件时产生的错误日志;
文件确定子模块,用于根据所述错误日志,确定发生读取错误的数据文件;
数据检测子模块,用于根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据。
可选地,所述数据检测子模块包括:
信息获取单元,用于获取所述数据文件的属性信息;
规则确定单元,用于根据所述属性信息,确定所述数据文件对应的处理规则;
数据检测单元,用于根据所述数据文件对应的处理规则,检测发生读取错误的数据文件中的目标数据。
可选地,所述特征信息包括错误类型;所述数据检测模块包括:
类型提取子模块,用于从所述目标数据不符合处理规则的检测结果中提取出所述目标数据的错误类型;
信息确定子模块,用于将所述目标数据的错误类型作为该目标数据的特征信息。
可选地,所述修正模块包括以下至少一种子模块:
删除子模块,用于对为空值的目标数据进行删除;
填充子模块,用于对为空值的目标数据进行填充;
转换子模块,用于将目标数据的数据类型转换为符合处理规则的预设数据类型;
范围修正子模块,用于将目标数据修正到所述处理规则的预设取值范围内;
格式修正子模块,用于将目标数据的数据格式修正为所述处理规则的预设数据格式;
剔除子模块,用于剔除无法修正的目标数据。
可选地,所述装置还包括:
测试模块,用于在所述对所述目标数据执行对应的修正策略之后,测试修正后的数据文件是否存在未修正的情况;
提示模块,用于若存在未修正的情况,则提示对所述修正策略进行更新。
依据本发明的另一个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如上述一个或多个方法。
依据本发明的另一个方面,提供了一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如上述一个或多个方法。
综上所述,依据本发明实施例,通过检测数据文件中不符合处理规则的目标数据,并确定目标数据的特征信息,根据目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略,对目标数据执行对应的修正策略,以使目标数据符合处理规则,使得可以对数据文件中不符合处理规则的目标数据进行自动识别,并确定对应的修正策略,自动修正数据,减少了人工操作,减低了修正数据的成本。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一中的一种数据修正方法的流程图;
图2示出了本发明实施例二中的一种数据修正方法的流程图;
图3示出了本发明实施例三中的一种数据修正装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了本发明实施例一中的一种数据修正方法的流程图,具体可以包括:
步骤101,检测数据文件中不符合处理规则的目标数据,并确定所述目标数据的特征信息。
数据文件包括Excel文件、DAT文件、Access文件等,数据文件具体可以包括任意适用的形式,本发明实施例对此不做限制。例如,数据分析平台可以对记录收视率、节目单、栏目信息、电视剧信息等的多种Excel文件进行分析。
在本发明实施例中,为了能够在处理时不出现问题,数据文件应该符合处理规则,针对不同的数据文件,设置有相应的处理规则。处理规则包括数据文件中是否可以有空行、是否可以有空单元格、单元格类型、取值范围、数据格式等设置的规则,或者其他任意适用的规则,本发明实施例对此不做限制。
在本发明实施例中,检测数据文件中不符合处理规则的目标数据的实现方式可以包括:获取数据系统读取数据文件时产生的错误日志;根据错误日志,确定发生读取错误的数据文件;根据处理规则,检测数据文件中的目标数据。进一步,获取数据文件的属性信息;根据属性信息,确定所数据文件对应的处理规则;根据数据文件对应的处理规则,检测数据文件中的目标数据。具体可以包括任意适用的检测方式,本发明实施例对此不做限制。
在检测到目标数据时,确定目标数据的特征信息,特征信息包括目标数据的位置信息、数据类型、错误类型等,或者其他任意适用的信息,本发明实施例对此不做限制。有的特征信息可以根据目标数据不符合的处理规则确定,有的特征信息可以根据目标数据直接确定,确定特征信息的方式本发明实施例对此不做限制。不同的目标数据不符合的处理规则不同,对应的特征信息也不同。
例如,数据分析平台在读取多种Excel文件时,同时生成日志,日志中记录有读取的数据文件中的错误信息(单元格位置、单元格类型、错误类型等),由于数据分析平台读取Excel文件的程序由很多,错误信息的格式可能也不一致,错误信息也可能不完整,为了完善错误信息,还可以根据错误信息,确定发生错误的数据文件,再对数据文件是否符合处理规则进行完整的检测,并记录不符合处理规则的目标数据的特征信息。
步骤102,根据所述目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略。
在本发明实施例中,为了自动对不符合处理规则的目标数据进行修正,预先配置有各种不同的修正策略,并且预先构建了修正策略与特征信息的对应关系,以使得可以根据目标数据的特征信息,以及预先构建的特征信息与修正策略的对应关系,匹配出与目标数据的特征信息对应的修正策略。例如,数据分析平台可以建立一个错误信息知识库,其中包括有目标数据的特征信息,以及对应的修正策略。
其中,修正策略用于对目标数据进行操作,以使目标数据在修正后符合处理规则,包括对为空值的目标数据进行删除、对为空值的目标数据进行填充、将目标数据的数据类型转换为符合处理规则的预设数据类型、将目标数据修正到所述处理规则的预设取值范围内、将目标数据的数据格式修正为所述处理规则的预设数据格式、剔除无法修正的目标数据,或者其他任意适用的修正策略,本发明实施例对此不做限制。
步骤103,对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
在本发明实施例中,数据文件中可以检测出不同的目标数据,不同的目标数据对应不同的特征信息。针对不同的目标数据,执行对应的修正策略,以使得各个目标数据都可以符合处理规则。
例如,根据特征信息,在错误信息知识库中查找对应的修正策略,访问数据文件,对数据文件进行修正,将数据文件中各个目标数据修正为符合各自对应的处理规则。
综上所述,依据本发明实施例,通过检测数据文件中不符合处理规则的目标数据,并确定目标数据的特征信息,根据目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略,对目标数据执行对应的修正策略,以使目标数据符合处理规则,使得可以对数据文件中不符合处理规则的目标数据进行自动识别,并确定对应的修正策略,自动修正数据,减少了人工操作,减低了修正数据的成本。
实施例二
参照图2,示出了本发明实施例二中的一种数据修正方法的流程图,具体可以包括:
步骤201,获取数据系统读取数据文件时产生的错误日志。
在本发明实施例中,对数据文件进行处理的系统,记为数据系统,例如,数据分析平台,具体可以包括任意适用的数据系统,本发明实施例对此不做限制。数据系统读取数据文件时,会产生错误日志。错误日志记录有数据文件在被读取过程中出现的错误,例如,读取Excel文件时,错误日志记录有单元格位置、单元格类型、错误类型等。
步骤202,根据所述错误日志,确定发生读取错误的数据文件。
在本发明实施例中,由于数据系统读取数据文件的程序模块可能有很多,各个程序模块又是分开开发的,可能导致错误日志格式也不一致,读取的错误日志也无法完整反映数据文件中所有不符合处理规则的目标数据。因此本发明,根据错误日志,确定发生了读取错误的数据文件,重新访问数据文件,对数据文件进行进一步检测。
步骤203,根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据。
在本发明实施例中,对于发生读取错误的数据文件,根据处理规则,再次检测数据文件中的目标数据,以求将数据文件中所有不符合处理规则的目标数据都检测出来。
在本发明实施例中,可选地,根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据的一种实现方式可以包括:获取数据文件的属性信息,根据属性信息,确定数据文件对应的处理规则,根据数据文件对应的处理规则,检测发生读取错误的数据文件中的目标数据,具体还可以包括任意适用的检测方式,本发明实施例对此不做限制。
不同的数据文件,可能对应不同的处理规则,具体可以根据数据文件的属性信息确定,例如,不同业务的数据文件的命名、所在目录等都有约定的规则,而不同的业务往往对应有不同的处理规则,有的业务要求数据文件中不可以有空值的数据,有的业务要求数据文件中一些数据在预设的取值范围内。因此根据数据文件的属性信息,可以确定数据文件对应的处理规则,然后根据数据文件对应的处理规则,检测数据文件中不符合该处理规则的目标数据。
步骤204,从所述目标数据不符合的处理规则的检测结果中提取出所述目标数据的错误类型,并将所述目标数据的错误类型作为该目标数据的特征信息。
在本发明实施例中,特征信息包括错误类型,错误类型可以根据目标数据不符合的处理规则确定,包括:目标数据超出了处理规则规定的取值范围,则错误类型属于超过了预设取值范围,或者目标数据不符合处理规则规定的数据格式,则错误类型属于不符合预设数据格式,或者其他任意适用的错误类型。例如,Excel文件中某个单元格的数据超出了预设的取值范围(0-100),则记录错误类型为“超出0-100的范围”,作为特征信息。
具体而言,检测目标数据是否符合处理规则,从不符合的处理规则的检测结果中,可以提取出目标数据的错误类型,作为目标数据的特征信息。
步骤205,根据所述特征信息,确定对应的修正策略。
在本发明实施例中,根据特征信息,可以确定对应的修正策略,例如,目标数据的特征信息中的错误类型为“超出0-100的范围”,则对应的修正策略包括将目标数据修正为默认值,其中默认值在0-100的范围内,或者修正为空值、或者抛弃该目标数据。
值得说明的是,修正策略对应于自动执行的程序代码,对目标数据进行修正时,可以直接调用对应的程序代码,有时需要将目标数据的特征信息作为输入,然后执行程序代码,即可修正目标数据,例如,目标数据的特征信息中的错误类型为“数据类型不是预设数据类型”,特征信息还包括目标数据的当前数据类型,则根据错误类型“数据类型不是预设数据类型”以及当前数据类型,确定对应的将当前数据类型转换为预设数据类型的修正策略。
步骤206,对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
在本发明实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
在本发明实施例中,可选地,所述对所述目标数据执行对应的修正策略包括以下至少一种:
对为空值的目标数据进行删除;
对为空值的目标数据进行填充;
将目标数据的数据类型转换为符合处理规则的预设数据类型;
将目标数据修正到所述处理规则的预设取值范围内;
将目标数据的数据格式修正为所述处理规则的预设数据格式;
剔除无法修正的目标数据。
对于有的目标数据,若目标数据为空值,则进行删除,例如,Excel文件的处理规则包括不允许有为空值的行,则对应的修正策略为对为空值的行进行删除。对于有的目标数据,若目标数据为空值,则进行填充,例如,Excel文件的处理规则包括不允许有为空值的单元格,则对应的修正策略为将为空值的单元格进行填充,填充为默认值等。
数据类型包括文本、数值、符号、百分比、货币等,或者其他任意适用的类型,本发明实施例对此不做限制。修正策略包括将目标数据的当前数据类型转换为符合处理规则的预设数据类型。例如,Excel文件中某个单元格的预设数据类型为数值,但当前数据类型为文本,为了符合处理规则,执行修正策略,将单元格的数据类型修正为数值。
数据格式包括约定的格式,例如,日期的表示格式、电话号码的区号和号码之间要横线分隔等约定的格式,或者其他任意适用的数据格式,本发明实施例对此不做限制。修正策略包括将目标数据的当前数据格式修正为符合处理规则的预设数据格式。例如,Excel文件中预设数据格式要求电话号码的区号和号码之间要横线分隔,但某个单元格中电话号码的区号和号码之间没有横线,则执行修正策略,在区号和号码之间添加横线。
对于有的目标数据可能存在无法修正的情况,也没有必要修正,则可以设置将无法修正的目标数据直接删除的修正策略。
步骤207,测试修正后的数据文件是否存在未修正的情况。
在本发明实施例中,对于修正后的数据文件,可以执行模拟测试,例如,调用原本对数据文件进行处理的数据处理程序,进行模拟测试,若测试结果表明数据文件不存在未修正的情况,即数据文件完全符合处理规则,不再出现问题,则修正策略有效,修正成功,数据文件可以正常使用。但是若测试结果表明数据文件还存在未修正的情况,即处理数据文件时仍然出现问题,则执行步骤208。
步骤208,若存在未修正的情况,则提示对所述修正策略进行更新。
在本发明实施例中,如果存在未修正的情况,表明已存在的修正策略仍然有不足,无法对数据文件进行彻底的修正,则提示开发人员对修正策略进行更新,例如,增加新的修正策略,来支持新发现的问题。
综上所述,依据本发明实施例,通过获取数据系统读取数据文件时产生的错误日志,根据所述错误日志,确定发生读取错误的数据文件,根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据,从目标数据不符合的处理规则的检测结果中提取出目标数据的错误类型,并将目标数据的错误类型作为该目标数据的特征信息,根据特征信息,确定对应的修正策略,对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则,使得可以对数据文件中不符合处理规则的目标数据进行自动识别,并确定对应的修正策略,自动修正数据,减少了人工操作,减低了修正数据的成本。
进一步,通过测试修正后的数据文件是否存在未修正的情况,若存在未修正的情况,则提示对所述修正策略进行更新,使得修正策略可以不断更新完善,增加对于各种不符合处理规则的数据的修正。
实施例三
参照图3,示出了本发明实施例三中的一种数据修正装置的结构框图,具体可以包括:
数据检测模块301,用于检测数据文件中不符合处理规则的目标数据,并确定所述目标数据的特征信息;
策略匹配模块302,用于根据所述目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略;
修正模块303,用于对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
在本发明的一种可选实施例中,所述数据检测模块包括:
日志获取子模块,用于获取数据系统读取数据文件时产生的错误日志;
文件确定子模块,用于根据所述错误日志,确定发生读取错误的数据文件;
数据检测子模块,用于根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据。
在本发明的一种可选实施例中,所述数据检测子模块包括:
信息获取单元,用于获取所述数据文件的属性信息;
规则确定单元,用于根据所述属性信息,确定所述数据文件对应的处理规则;
数据检测单元,用于根据所述数据文件对应的处理规则,检测发生读取错误的数据文件中的目标数据。
在本发明的一种可选实施例中,所述特征信息包括错误类型;所述数据检测模块包括:
类型提取子模块,用于从所述目标数据不符合处理规则的检测结果中提取出所述目标数据的错误类型;
信息确定子模块,用于将所述目标数据的错误类型作为该目标数据的特征信息。
在本发明的一种可选实施例中,所述修正模块包括以下至少一种子模块:
删除子模块,用于对为空值的目标数据进行删除;
填充子模块,用于对为空值的目标数据进行填充;
转换子模块,用于将目标数据的数据类型转换为符合处理规则的预设数据类型;
范围修正子模块,用于将目标数据修正到所述处理规则的预设取值范围内;
格式修正子模块,用于将目标数据的数据格式修正为所述处理规则的预设数据格式;
剔除子模块,用于剔除无法修正的目标数据。
在本发明的一种可选实施例中,所述装置还包括:
测试模块,用于在所述对所述目标数据执行对应的修正策略之后,测试修正后的数据文件是否存在未修正的情况;
提示模块,用于若存在未修正的情况,则提示对所述修正策略进行更新。
综上所述,依据本发明实施例,通过检测数据文件中不符合处理规则的目标数据,并确定目标数据的特征信息,根据目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略,对目标数据执行对应的修正策略,以使目标数据符合处理规则,使得可以对数据文件中不符合处理规则的目标数据进行自动识别,并确定对应的修正策略,自动修正数据,减少了人工操作,减低了修正数据的成本。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
所述用户信息修改装置包括处理器和存储器,上述模块以及子模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过数据修正方法,解决需要人工对数据进行修正,修正成本很高的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述数据修正方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据修正方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
检测数据文件中不符合处理规则的目标数据,并确定所述目标数据的特征信息;
根据所述目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略;
对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
可选地,所述检测数据文件中不符合处理规则的目标数据包括:
获取数据系统读取数据文件时产生的错误日志;
根据所述错误日志,确定发生读取错误的数据文件;
根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据。
可选地,所述根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据包括:
获取所述数据文件的属性信息;
根据所述属性信息,确定所述数据文件对应的处理规则;
根据所述数据文件对应的处理规则,检测发生读取错误的数据文件中的目标数据。
可选地,所述特征信息包括错误类型;所述确定所述目标数据的特征信息包括:
从所述目标数据不符合处理规则的检测结果中提取出所述目标数据的错误类型;
将所述目标数据的错误类型作为该目标数据的特征信息。
可选地,所述对所述目标数据执行对应的修正策略包括以下至少一种:
对为空值的目标数据进行删除;
对为空值的目标数据进行填充;
将目标数据的数据类型转换为符合处理规则的预设数据类型;
将目标数据修正到所述处理规则的预设取值范围内;
将目标数据的数据格式修正为所述处理规则的预设数据格式;
剔除无法修正的目标数据。
可选地,在所述对所述目标数据执行对应的修正策略之后,所述方法还包括:
测试修正后的数据文件是否存在未修正的情况;
若存在未修正的情况,则提示对所述修正策略进行更新。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
检测数据文件中不符合处理规则的目标数据,并确定所述目标数据的特征信息;
根据所述目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略;
对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
可选地,所述检测数据文件中不符合处理规则的目标数据包括:
获取数据系统读取数据文件时产生的错误日志;
根据所述错误日志,确定发生读取错误的数据文件;
根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据。
可选地,所述根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据包括:
获取所述数据文件的属性信息;
根据所述属性信息,确定所述数据文件对应的处理规则;
根据所述数据文件对应的处理规则,检测发生读取错误的数据文件中的目标数据。
可选地,所述特征信息包括错误类型;所述确定所述目标数据的特征信息包括:
从所述目标数据不符合处理规则的检测结果中提取出所述目标数据的错误类型;
将所述目标数据的错误类型作为该目标数据的特征信息。
可选地,所述对所述目标数据执行对应的修正策略包括以下至少一种:
对为空值的目标数据进行删除;
对为空值的目标数据进行填充;
将目标数据的数据类型转换为符合处理规则的预设数据类型;
将目标数据修正到所述处理规则的预设取值范围内;
将目标数据的数据格式修正为所述处理规则的预设数据格式;
剔除无法修正的目标数据。
可选地,在所述对所述目标数据执行对应的修正策略之后,所述方法还包括:
测试修正后的数据文件是否存在未修正的情况;
若存在未修正的情况,则提示对所述修正策略进行更新。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据修正方法,其特征在于,包括:
检测数据文件中不符合处理规则的目标数据,并确定所述目标数据的特征信息;
根据所述目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略;
对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
2.根据权利要求1所述的方法,其特征在于,所述检测数据文件中不符合处理规则的目标数据包括:
获取数据系统读取数据文件时产生的错误日志;
根据所述错误日志,确定发生读取错误的数据文件;
根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据包括:
获取所述数据文件的属性信息;
根据所述属性信息,确定所述数据文件对应的处理规则;
根据所述数据文件对应的处理规则,检测发生读取错误的数据文件中的目标数据。
4.根据权利要求1所述的方法,其特征在于,所述特征信息包括错误类型;所述确定所述目标数据的特征信息包括:
从所述目标数据不符合处理规则的检测结果中提取出所述目标数据的错误类型;
将所述目标数据的错误类型作为该目标数据的特征信息。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标数据执行对应的修正策略包括以下至少一种:
对为空值的目标数据进行删除;
对为空值的目标数据进行填充;
将目标数据的数据类型转换为符合处理规则的预设数据类型;
将目标数据修正到所述处理规则的预设取值范围内;
将目标数据的数据格式修正为所述处理规则的预设数据格式;
剔除无法修正的目标数据。
6.根据权利要求1所述的方法,其特征在于,在所述对所述目标数据执行对应的修正策略之后,所述方法还包括:
测试修正后的数据文件是否存在未修正的情况;
若存在未修正的情况,则提示对所述修正策略进行更新。
7.一种数据修正装置,其特征在于,包括:
数据检测模块,用于检测数据文件中不符合处理规则的目标数据,并确定所述目标数据的特征信息;
策略匹配模块,用于根据所述目标数据的特征信息以及预先构建的特征信息与修正策略的对应关系,匹配出所述目标数据的特征信息对应的修正策略;
修正模块,用于对所述目标数据执行对应的修正策略,以使所述目标数据符合处理规则。
8.根据权利要求7所述的装置,其特征在于,所述数据检测模块包括:
日志获取子模块,用于获取数据系统读取数据文件时产生的错误日志;
文件确定子模块,用于根据所述错误日志,确定发生读取错误的数据文件;
数据检测子模块,用于根据所述处理规则,检测所述发生读取错误的数据文件中的目标数据。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至6所述的一个或多个方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1至6所述的一个或多个方法。
CN201811161393.9A 2018-09-30 2018-09-30 一种数据修正方法、装置、存储介质及处理器 Pending CN110968548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811161393.9A CN110968548A (zh) 2018-09-30 2018-09-30 一种数据修正方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811161393.9A CN110968548A (zh) 2018-09-30 2018-09-30 一种数据修正方法、装置、存储介质及处理器

Publications (1)

Publication Number Publication Date
CN110968548A true CN110968548A (zh) 2020-04-07

Family

ID=70029459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811161393.9A Pending CN110968548A (zh) 2018-09-30 2018-09-30 一种数据修正方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN110968548A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466199A (zh) * 2020-11-26 2021-03-09 联盛(厦门)彩印有限公司 一种电子标签吊牌自动排版方法、系统、设备和存储介质
CN112783581A (zh) * 2021-01-21 2021-05-11 上海哔哩哔哩科技有限公司 数据处理方法、装置
CN112948368A (zh) * 2021-04-01 2021-06-11 哈尔滨理工大学 一种基于数据关联性的深度异常检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060313A1 (en) * 2003-09-15 2005-03-17 Oracle International Corporation A California Corporation Data quality analyzer
CN104572999A (zh) * 2015-01-07 2015-04-29 北京数码大方科技股份有限公司 基于异构数据的错误数据的检测方法和装置
CN107436872A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 一种异构数据的处理方法及装置
CN107862049A (zh) * 2017-11-08 2018-03-30 中国银行股份有限公司 一种数据补录方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060313A1 (en) * 2003-09-15 2005-03-17 Oracle International Corporation A California Corporation Data quality analyzer
CN104572999A (zh) * 2015-01-07 2015-04-29 北京数码大方科技股份有限公司 基于异构数据的错误数据的检测方法和装置
CN107436872A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 一种异构数据的处理方法及装置
CN107862049A (zh) * 2017-11-08 2018-03-30 中国银行股份有限公司 一种数据补录方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466199A (zh) * 2020-11-26 2021-03-09 联盛(厦门)彩印有限公司 一种电子标签吊牌自动排版方法、系统、设备和存储介质
CN112783581A (zh) * 2021-01-21 2021-05-11 上海哔哩哔哩科技有限公司 数据处理方法、装置
CN112948368A (zh) * 2021-04-01 2021-06-11 哈尔滨理工大学 一种基于数据关联性的深度异常检测方法

Similar Documents

Publication Publication Date Title
CN110968548A (zh) 一种数据修正方法、装置、存储介质及处理器
CN106897342B (zh) 一种数据校验方法和设备
WO2017128952A1 (zh) 堆栈的保护方法及装置
CN109710286B (zh) 系统升级方法、装置、设备和存储介质
CN110888922B (zh) 一种数据同步时目标表的创建方法及装置
CN111124480A (zh) 应用程序包的生成方法、装置、电子设备及存储介质
CN111984666B (zh) 数据库访问方法、装置、计算机可读存储介质和计算机设备
CN108874379B (zh) 页面的处理方法及装置
CN113918658A (zh) 恢复数据的方法及装置
EP4047498A1 (en) File vulnerability detection system and detection method thereof
CN112579146A (zh) 接口变化的检测方法及装置
CN113989817A (zh) 一种自定义票据的识别方法、设备及介质
CN112181830B (zh) 内存泄露的检测方法、装置、终端及介质
CN112559313A (zh) 测试用例的设置方法及装置、存储介质、电子设备
CN110889065B (zh) 页面停留时长确定方法、装置与设备
CN111240794A (zh) 容器镜像提取方法、装置以及容器镜像测试方法、装置
CN108063957B (zh) 一种网络电视用户状态的统计方法、装置、存储介质及处理器
CN114138745A (zh) 数据的集成方法、装置、存储介质及处理器
CN113919683A (zh) 工艺工时的计算方法、装置、存储介质及处理器
CN114169176A (zh) 事件的失效风险的确定方法、装置、存储介质及电子装置
CN110968754A (zh) 一种爬虫翻页策略的检测方法及装置
CN110109938B (zh) 一种数据筛选方法及装置
CN111061721B (zh) 数据处理方法及装置
CN115758377A (zh) 容器漏洞处理方法、装置、存储介质与电子设备
CN110727888B (zh) 页面处理方法、装置、计算机存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200407

RJ01 Rejection of invention patent application after publication