CN116894032B - 一种基于数据探查分析结果自动生成数据清洗规则的方法 - Google Patents
一种基于数据探查分析结果自动生成数据清洗规则的方法 Download PDFInfo
- Publication number
- CN116894032B CN116894032B CN202311132993.3A CN202311132993A CN116894032B CN 116894032 B CN116894032 B CN 116894032B CN 202311132993 A CN202311132993 A CN 202311132993A CN 116894032 B CN116894032 B CN 116894032B
- Authority
- CN
- China
- Prior art keywords
- data
- type
- field
- statistical
- cleaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000007619 statistical method Methods 0.000 claims abstract description 5
- 238000000926 separation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据探查分析结果自动生成数据清洗规则的方法,包括以下步骤:预定义若干类型的数据,给每类型数据预定义数据值的若干统计指标;给每类数据定义若干清洗规则模板,关联不同的统计分析指标及触发条件,生成程序模板,修改程序模板的参数为表、字段;通过软件系统配置到数据库的连接,指定需要进行数据清洗的数据表;抽取采样数据到软件系统,进行分析,判断其数据类型;统计每种类型数据的特征;系统自动判断每个统计结果中是否反映存在数据质量问题;若存在数据质量问题,生成正式的加工逻辑;进行数据的清洗;将清洗之后的数据写入目录数据库中;本方案具有不受用户技术门槛限制、效果高、节省成本的特点。
Description
技术领域
本发明涉及数据加工处理领域,特别涉及一种基于数据探查分析结果自动生成数据清洗规则的方法。
背景技术
目前正处于大数据时代,各行各业都在进行数据的汇聚、加工处理、分析挖掘,最大程度的进行数据的开发利用。
举例来说,例如政府的大数据局,会从各个业务委办局进行数据的获取,统一归集到大数据局建设的大数据平台中,进行统一的加工处理,形成高价值数据,进一步给其他委办局进行访问和使用。
但是很多情况下,数据的质量不高,存在各种各样的质量问题,例如:
(1)联系电话字段,取值可能如下:(086)139****0021、121331、0571-****9923、135****0923;其中第1,4个取值是规范的,需要保留,并且要进行格式统一;而第2,3个取值则不规范,需要删除;
(2)姓名字段,取值可能如下:“张三”、“李四”、“[空格]王五”、“李六[空格]”、“刘七334”;这五个值都是规范的,其中第1,2两个取值无需清洗;第3,4两个值需要去除首尾的空格;第5个值则需要去掉数字;
(3)身份证号码字段,取值可能如下:33000920120417****、330009201****、33000920124417****、33000920120432****;其中第1,2两个取值是规范的,需要保留,但是第2个要转成18位的号码;第3个取值不规范,因为生日中的月份为44,明显错误;第4个值也不规范,英文生日中的日期为32,明显错误;
(4)应收账款字段,取值可能如下:12340元、13.12万元、20万元整、壹拾陆万元;此类则存在取值标准不统一的问题,需要转换为如下值:12340、131200、200000、160000;
(5)出生日期字段,取值可能如下:3月15日、2020年9月18日、2011-12-23、2019/12/12;上述第一个值不规范,需要赋予默认值2012年,且四个值取值标准不统一,需要转换为如下值:2012年3月15日、2020年9月18日、2011年12月23日、2019年12月12日。
以上存在质量问题的数据,往往会导致下游使用数据的业务出现错误,导致严重后果。所以需要进行数据清洗,将这些数据问题解决之后,再共享给下游业务使用。
目前现有的实现方式,大部分情形是人工方式,人工完成数据的处理加工一般包括以下步骤:使用开发工具,连接到原始数据库,通过写SQL程序代码,获取部分数据返回到客户端,用户在开发工具撰写SQL程序,提交到数据库执行,返回部分采样数据的结果供用户仔细查看;用户肉眼查看上述结果数据,仔细判断数据中可能存在的问题;用户根据自己的经验判断,数据可能存在的数据问题,定义数据清洗规则;用户根据上述梳理好的清洗逻辑,使用开发工具,开发SQL的清洗任务程序;将清洗任务程序提交到数据库执行,将数据进行清洗转换,从而提升数据的质量。上述人工进行数据处理加工包括开发SQL获取采样数据,定义数据清洗逻辑,开发SQL进行数据清洗等过程,对用户的技术能力门槛要求很高,并且效率低、成本高。因此,急需提供一种生成数据清洗规则的方法。
发明内容
为实现上述目的,发明人提供了一种基于数据探查分析结果自动生成数据清洗规则的方法,包括以下步骤:
S1,预定义若干类型的数据,给每类型数据预定义数据值的若干统计指标;
S2,给每类数据定义若干清洗规则模板,并且给清洗规则模板关联不同的统计分析指标及触发条件,以及给清洗规则生成程序模板,修改程序模板的参数为表、字段;
S3,通过软件系统配置到数据库的连接,指定需要进行数据清洗的数据表;
S4,抽取采样若干条数据到软件系统,对每条数据每个字段的数值进行分析,判断其数据类型;
S5,统计每种类型数据的特征,包括空值、不同值、频率分布指标;
S6,系统自动判断每个统计结果中是否反映存在数据质量问题;
S7,若存在数据质量问题,则根据数据类型、统计指标,找到规则模板及对应的程序模板,将表和字段作为程序模板的参数,生成正式的加工逻辑;
S8,将全量数据抽取到本地,按照加工逻辑逐条处理记录,进行数据的清洗;
S9,将清洗之后的数据写入目录数据库中。
作为本发明的一种优选方式,步骤S1中,预定义若干类型的数据包括字符串型、数值型、日期时间型、布尔型数据。
作为本发明的一种优选方式,步骤S3中,通过软件系统配置到数据库的连接包括:配置ip地址、名称、用户名、密码。
作为本发明的一种优选方式,步骤S4中,抽取采样若干条数据到软件系统,对每条数据每个字段的数值进行分析,判断其数据类型包括以下步骤:
S401,若该字段所有数据内容包含的字符只有数字,并且不存在位数大于等于2且以0开头的数字字符,则认为该字段为数值型;
S402,若该字段所有数据内容包含的字符有非数字字符,且这些非数字字符之间通过“/”、“-”、“:”符号分隔,分隔的每段对应数字的数值,分别为四位数,小于12、小于31、小于24、小60、小于60,则认为该字段为日期时间型;
S403,若该字段所有数据内容包含的字符值为T/F、True/false、0/1、是/否,则认为是布尔类型;
S404,若该字段所有数据内容包含的字符非上述任意一种,则认为是字符串型。
作为本发明的一种优选方式,步骤S5中,统计每种类型数据的特征,包括空值、不同值、频率分布指标,还包括以下步骤:
S501,遍历表的所有字段,对每个字段,获取其类型,计算对应的统计指标;
S502,若类型为“字符串型”,则计算字符串型对应的统计指标;
S503,若类型为“数值型”,则计算数值型对应的统计指标;
S504,若类型为“日期时间型”,则计算日期时间型对应的统计指标;
S505,若类型为“布尔型”,则计算布尔型对应的统计指标。
作为本发明的一种优选方式,步骤S6中,系统自动判断每个统计结果中是否反映存在数据质量问题包括以下步骤:遍历该字段的统计指标,若该统计指标的实际结果值,满足该统计指标的触发条件,则将该统计指标对应的规则模板纳入推荐清洗规则模板集合。
作为本发明的一种优选方式,步骤S7中,若存在数据质量问题,则根据数据类型、统计指标,找到规则模板及对应的程序模板,将表和字段作为程序模板的参数,生成正式的加工逻辑包括以下步骤:若规则模板集合不为空,则认为是存在数据质量问题,由软件系统将规则模板集合提示给用户进行选择。
区别于现有技术,上述技术方案所达到的有益效果有:本方法由软件系统自动探查数据,判断数据类型,统计数据指标,判断存在数据质量问题的可能性,从而用户无需通过肉眼查看数据的方式判断数据是否存在质量问题,在提高效率、降低成本的同时,还可以提高正确率,避免人为差错;此外,本方法由软件系统自动根据模板生成清洗加工程序,系统预先内置少量的模板规则即可,无需手工开发SQL处理程序进行数据清洗,可有效避免用户技术能力门槛的限制要求。
附图说明
图1为具体实施方式所述人工处理数据流程图;
图2为具体实施方式所述人工处理数据时返回的结果内容示例图;
图3为具体实施方式所述人工处理数据时定义好的数据清洗规则示例图;
图4为具体实施方式所述字符串型分析图;
图5为具体实施方式所述日期时间型分析图;
图6为具体实施方式所述数值型分析图;
图7为具体实施方式所述程序模板的参数示例图;
图8为具体实施方式所述数据库配置内容示例图;
图9为具体实施方式所述常住人口信息数据示例图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
实施例一:背景技术中所述人工处理数据的步骤。
(1)使用开发工具,连接到原始数据库,通过写SQL程序代码,获取部分数据返回到客户端;具体的,如图1所示,用户在开发工具撰写SQL程序,提交到数据库执行,返回部分采样数据的结果供用户仔细查看;返回的结果内容如图2所示。
(2)用户肉眼查看图2中的结果数据,仔细判断数据中可能存在的问题,存在的问题参见背景技术部分;
(3)用户根据自己的经验判断,数据可能存在的数据问题,定义数据清洗规则,定义好的规则,如图3所示;
(4)用户根据上述梳理好的清洗逻辑,使用开发工具,开发SQL的清洗任务程序;
(5)将清洗任务程序提交到数据库执行,将数据进行清洗转换,从而提升数据的质量。
在本实施例中,上述步骤全部都是人工进行,包括开发SQL获取采样数据,定义数据清洗逻辑,开发SQL进行数据清洗等过程,对用户的技术能力门槛要求很高,并且效率低成本高。
实施例二:本方法处理数据的步骤。
本实施例提供了一种基于数据探查分析结果自动生成数据清洗规则的方法,包括以下步骤:
S1,预定义若干类型的数据,给每类型数据预定义数据值的若干统计指标;
S2,给每类数据定义若干清洗规则模板,并且给清洗规则模板关联不同的统计分析指标及触发条件,以及给清洗规则生成程序模板,修改模板的参数为表、字段;
S3,通过软件系统配置到数据库的连接,指定需要进行数据清洗的数据表;
S4,抽取采样若干条数据到软件系统,对每条数据每个字段的数值进行分析,判断其数据类型;
S5,统计每种类型数据的特征,包括空值、不同值、频率分布指标;
S6,系统自动判断每个统计结果中是否反映存在数据质量问题;
S7,若存在数据质量问题,则根据数据类型、统计指标,找到规则模板及对应的程序模板,将表和字段作为程序模板的参数,生成正式的加工逻辑;
S8,将全量数据抽取到本地,按照加工逻辑逐条处理记录,进行数据的清洗;
S9,将清洗之后的数据写入目录数据库中。
在上述实施例的具体实施过程中,具体包括以下步骤:
步骤S1中,预定义若干类型的数据包括字符串型、数值型、日期时间型、布尔型数据,给每类型数据预定义数据值的若干统计指标,如图4、图5和图6所示。
步骤S2中,给每类数据定义若干清洗规则模板,并且给清洗规则模板关联不同的统计分析指标及触发条件,以及给清洗规则生成程序模板,改程序模板的参数为表、字段;如图7所示。
步骤S3中,在软件系统上面配置数据库的连接,指定需要进行数据清洗的数据表;如图8所示,其为数据连接的配置内容,包括ip地址、名称、用户名、密码等。图9为该数据库的“常住人口信息”数据表,包含图中所示字段。
步骤S4中,抽取采样若干条数据到软件系统,对每条数据每个字段的数值进行分析,判断其字段的数据类型,判断逻辑包括以下步骤:
S401,若该字段所有数据内容包含的字符只有数字,并且不存在位数大于等于2且以0开头的数字字符,则认为该字段为数值型;
S402,若该字段所有数据内容包含的字符有非数字字符,且这些非数字字符之间通过“/”、“-”、“:”等符号分隔,分隔的每段对应数字的数值,分别为四位数,小于12、小于31、小于24、小60、小于60,则认为该字段为日期时间型;
S403,若该字段所有数据内容包含的字符值为T/F、True/false、0/1、是/否,则认为是布尔类型;
S404,若该字段所有数据内容包含的字符非上述任意一种,则认为是字符串型。
步骤S5中,统计每种类型数据的特征,包括空值、不同值、频率分布等多种指标,还包括以下步骤:
S501,遍历表的所有字段,对每个字段,获取其字段类型,计算对应的统计指标;
S502,若类型为“字符串型”,则计算字符串型对应的统计指标;
S503,若类型为“数值型”,则计算数值型对应的统计指标;
S504,若类型为“日期时间型”,则计算日期时间型对应的统计指标;
S505,若类型为“布尔型”,则计算布尔型对应的统计指标。
步骤S6中,系统自动判断每个统计结果中是否反映存在数据质量问题包括以下步骤:遍历该字段的统计指标,若该统计指标的实际结果值,满足该统计指标的触发条件,则将该统计指标对应的规则模板纳入推荐清洗规则模板集合。
步骤S7中,若存在数据质量问题,则根据数据类型、统计指标,找到规则模板及对应的程序模板,将表和字段作为程序模板的参数,生成正式的加工逻辑包括以下步骤:若规则模板集合不为空,则认为是存在数据质量问题,由软件系统将规则模板集合提示给用户进行选择。例如:
(1)去除所有空格;
(2)去除数字;
(3)NULL替换为空字符串;
(4)截取后N位;不够末尾补充0;
如果用户选择上述(1)、(3),则系统根据(1)、(3)的规则模板对应的程序模板,将表和字段作为程序模板的参数,生成正式的加工逻辑。
S8,将全量数据抽取到本地,按照加工逻辑逐条处理记录,进行数据的清洗;
S9,将清洗之后的数据写入目录数据库中。
在上述实施例的实施过程中,本方法由软件系统自动探查数据,判断数据类型,统计数据指标,判断存在数据质量问题的可能性,从而用户无需通过肉眼查看数据的方式判断数据是否存在质量问题,在提高效率、降低成本的同时,还可以提高正确率,避免人为差错;此外,本方法由软件系统自动根据模板生成清洗加工程序,系统预先内置少量的模板规则即可,无需手工开发SQL处理程序进行数据清洗,可有效避免用户技术能力门槛的限制要求。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (7)
1.一种基于数据探查分析结果自动生成数据清洗规则的方法,其特征在于,包括以下步骤:
S1,预定义若干类型的数据,给每类型数据预定义数据值的若干统计指标;
S2,给每类数据定义若干清洗规则模板,并且给清洗规则模板关联不同的统计分析指标及触发条件,以及给清洗规则生成程序模板,修改程序模板的参数为表、字段;
S3,通过软件系统配置到数据库的连接,指定需要进行数据清洗的数据表;
S4,抽取采样若干条数据到软件系统,对每条数据每个字段的数值进行分析,判断其数据类型;
S5,统计每种类型数据的特征,包括空值、不同值、频率分布指标;
S6,系统自动判断每个统计结果中是否反映存在数据质量问题;
S7,若存在数据质量问题,则根据数据类型、统计指标,找到规则模板及对应的程序模板,将表和字段作为程序模板的参数,生成正式的加工逻辑;
S8,将全量数据抽取到本地,按照加工逻辑逐条处理记录,进行数据的清洗;
S9,将清洗之后的数据写入目录数据库中。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,预定义若干类型的数据包括字符串型、数值型、日期时间型、布尔型数据。
3.根据权利要求1所述的方法,其特征在于,步骤S3中,通过软件系统配置到数据库的连接包括:配置ip地址、名称、用户名、密码。
4.根据权利要求1所述的方法,其特征在于,步骤S4中,抽取采样若干条数据到软件系统,对每条数据每个字段的数值进行分析,判断其数据类型包括以下步骤:
S401,若该字段所有数据内容包含的字符只有数字,并且不存在位数大于等于2且以0开头的数字字符,则认为该字段为数值型;
S402,若该字段所有数据内容包含的字符有非数字字符,且这些非数字字符之间通过“/”、“-”、“:”符号分隔,分隔的每段对应数字的数值,分别为四位数,小于12、小于31、小于24、小60、小于60,则认为该字段为日期时间型;
若该字段所有数据内容包含的字符值为T/F、True/false、0/1、是/否,则认为是布尔类型;
若该字段所有数据内容包含的字符非上述任意一种,则认为是字符串型。
5.根据权利要求1所述的方法,其特征在于,步骤S5中,统计每种类型数据的特征,包括空值、不同值、频率分布指标,还包括以下步骤:
S501,遍历表的所有字段,对每个字段,获取其类型,计算对应的统计指标;
S502,若类型为“字符串型”,则计算字符串型对应的统计指标;
S503,若类型为“数值型”,则计算数值型对应的统计指标;
S504,若类型为“日期时间型”,则计算日期时间型对应的统计指标;
S505,若类型为“布尔型”,则计算布尔型对应的统计指标。
6.根据权利要求1所述的方法,其特征在于,步骤S6中,系统自动判断每个统计结果中是否反映存在数据质量问题包括以下步骤:遍历该字段的统计指标,若该统计指标的实际结果值,满足该统计指标的触发条件,则将该统计指标对应的规则模板纳入推荐清洗规则模板集合。
7.根据权利要求6所述的方法,其特征在于,步骤S7中,若存在数据质量问题,则根据数据类型、统计指标,找到规则模板及对应的程序模板,将表和字段作为程序模板的参数,生成正式的加工逻辑包括以下步骤:若规则模板集合不为空,则认为是存在数据质量问题,由软件系统将规则模板集合提示给用户进行选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132993.3A CN116894032B (zh) | 2023-09-05 | 2023-09-05 | 一种基于数据探查分析结果自动生成数据清洗规则的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132993.3A CN116894032B (zh) | 2023-09-05 | 2023-09-05 | 一种基于数据探查分析结果自动生成数据清洗规则的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116894032A CN116894032A (zh) | 2023-10-17 |
CN116894032B true CN116894032B (zh) | 2023-11-21 |
Family
ID=88315151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311132993.3A Active CN116894032B (zh) | 2023-09-05 | 2023-09-05 | 一种基于数据探查分析结果自动生成数据清洗规则的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894032B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017162083A1 (zh) * | 2016-03-25 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN110134576A (zh) * | 2019-04-30 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种批处理日志查询方法、终端及计算机可读存储介质 |
CN110618983A (zh) * | 2019-08-15 | 2019-12-27 | 复旦大学 | 基于json文档结构的工业大数据多维分析与可视化方法 |
CN111339071A (zh) * | 2020-02-21 | 2020-06-26 | 苏宁云计算有限公司 | 一种多源异构数据的处理方法及装置 |
CN113010506A (zh) * | 2021-03-11 | 2021-06-22 | 江苏省生态环境监控中心(江苏省环境信息中心) | 一种多源异构水环境大数据管理系统 |
CN114003586A (zh) * | 2021-11-19 | 2022-02-01 | 华讯高科股份有限公司 | 一种智慧教育大数据平台建设方法 |
CN114880315A (zh) * | 2022-05-27 | 2022-08-09 | 中国工商银行股份有限公司 | 业务信息清洗方法、装置、计算机设备和存储介质 |
WO2023000359A1 (zh) * | 2021-07-19 | 2023-01-26 | 长鑫存储技术有限公司 | 测试流程的配置方法、装置、存储介质及设备 |
WO2023130304A1 (zh) * | 2022-01-06 | 2023-07-13 | 京东方科技集团股份有限公司 | 数据处理方法、系统、计算机可读存储介质 |
CN116451023A (zh) * | 2023-04-12 | 2023-07-18 | 哈尔滨工业大学 | 多规则协同的数据清洗系统、存储介质及设备 |
CN116842255A (zh) * | 2023-06-28 | 2023-10-03 | 中钢集团武汉安全环保研究院有限公司 | 一种基于冶金行业的事故数据管理方法、可视化系统、展示方法 |
-
2023
- 2023-09-05 CN CN202311132993.3A patent/CN116894032B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017162083A1 (zh) * | 2016-03-25 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN110134576A (zh) * | 2019-04-30 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种批处理日志查询方法、终端及计算机可读存储介质 |
CN110618983A (zh) * | 2019-08-15 | 2019-12-27 | 复旦大学 | 基于json文档结构的工业大数据多维分析与可视化方法 |
CN111339071A (zh) * | 2020-02-21 | 2020-06-26 | 苏宁云计算有限公司 | 一种多源异构数据的处理方法及装置 |
CN113010506A (zh) * | 2021-03-11 | 2021-06-22 | 江苏省生态环境监控中心(江苏省环境信息中心) | 一种多源异构水环境大数据管理系统 |
WO2023000359A1 (zh) * | 2021-07-19 | 2023-01-26 | 长鑫存储技术有限公司 | 测试流程的配置方法、装置、存储介质及设备 |
CN114003586A (zh) * | 2021-11-19 | 2022-02-01 | 华讯高科股份有限公司 | 一种智慧教育大数据平台建设方法 |
WO2023130304A1 (zh) * | 2022-01-06 | 2023-07-13 | 京东方科技集团股份有限公司 | 数据处理方法、系统、计算机可读存储介质 |
CN114880315A (zh) * | 2022-05-27 | 2022-08-09 | 中国工商银行股份有限公司 | 业务信息清洗方法、装置、计算机设备和存储介质 |
CN116451023A (zh) * | 2023-04-12 | 2023-07-18 | 哈尔滨工业大学 | 多规则协同的数据清洗系统、存储介质及设备 |
CN116842255A (zh) * | 2023-06-28 | 2023-10-03 | 中钢集团武汉安全环保研究院有限公司 | 一种基于冶金行业的事故数据管理方法、可视化系统、展示方法 |
Non-Patent Citations (2)
Title |
---|
Discriminative Learning on Exemplary Patterns of Sequential Numerical Data;Shin Ando等;《2014 IEEE International Conference on Data Mining》;1-6 * |
基于Hadoop的大数据分析管理平台架构设计;张伟等;《信息技术与网络安全》(第11期);30-33,57 * |
Also Published As
Publication number | Publication date |
---|---|
CN116894032A (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7003725B2 (en) | Method and system for normalizing dirty text in a document | |
CN107085602B (zh) | 统计图的生成方法与计算机存储介质 | |
US20120303661A1 (en) | Systems and methods for information extraction using contextual pattern discovery | |
CN111639066A (zh) | 一种数据清洗的方法和装置 | |
CN114153962A (zh) | 一种数据匹配方法、装置及电子设备 | |
Deming et al. | Exploratory Data Analysis and Visualization for Business Analytics | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
CN116541752B (zh) | 元数据管理方法、装置、计算机设备及存储介质 | |
CN112256684B (zh) | 一种报表生成方法、终端设备及存储介质 | |
Georgescu et al. | Algorithmic identification of discrepancies between published ratios and their reported confidence intervals and P-values | |
CN116894032B (zh) | 一种基于数据探查分析结果自动生成数据清洗规则的方法 | |
CN112948429B (zh) | 一种数据报送方法、装置和设备 | |
CN116074183B (zh) | 一种基于规则引擎的c3超时分析方法、装置及设备 | |
CN110010231A (zh) | 一种数据处理系统及计算机可读存储介质 | |
CN115017256A (zh) | 电力数据处理方法、装置、电子设备及存储介质 | |
CN111401009B (zh) | 一种数字表情符识别转换方法、装置、服务器及存储介质 | |
CN112785335A (zh) | 一种面向电子政务绩效考核系统的数据处理方法和系统 | |
CN114090673A (zh) | 一种多数据源的数据处理方法、设备及存储介质 | |
CN112435151A (zh) | 一种基于关联分析的政务信息数据处理方法及系统 | |
CN117114142B (zh) | 基于ai的数据规则表达式生成方法、装置、设备及介质 | |
CN111143554A (zh) | 基于大数据平台的数据采样方法及装置 | |
CN116344011B (zh) | 一种病历建档管理方法及系统 | |
CN108983994B (zh) | 一种lims系统中海洋生物鉴定智能输入和标准化输出系统 | |
CN113469235B (zh) | 用水波动异常识别方法及装置、计算机装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |