CN111061733A - 数据处理方法、装置、电子设备和计算机可读存储介质 - Google Patents
数据处理方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111061733A CN111061733A CN201911260542.1A CN201911260542A CN111061733A CN 111061733 A CN111061733 A CN 111061733A CN 201911260542 A CN201911260542 A CN 201911260542A CN 111061733 A CN111061733 A CN 111061733A
- Authority
- CN
- China
- Prior art keywords
- data
- standard table
- processed
- information
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 75
- 238000013506 data mapping Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000003908 quality control method Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 14
- 238000012797 qualification Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 24
- 230000003993 interaction Effects 0.000 description 14
- 230000002452 interceptive effect Effects 0.000 description 9
- 238000013507 mapping Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008676 import Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据处理方法、装置、电子设备和计算机可读存储介质,涉及数据处理领域。该数据处理方法包括:依据数据元信息,获取将待处理数据输入后的标准表;标准表包括标签数据,标签数据为将待处理数据进行标识后获得的,数据元信息用于确定标签数据的字段结构信息;根据数据映射关系和至少一张标准表,获取符合数据处理需求的目标数据;数据映射关系为待处理数据和标签数据的对应关系。可以理解的,通过将待处理数据进行标准化处理,并使用至少一张标准表和数据映射关系,获取符合数据处理需求的目标数据,数据治理的过程由机器来实现,极大的减少了人工成本并解决了出错率高的问题。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及数据处理方法、装置、电子设备和计算机可读存储介质。
背景技术
21世纪是信息爆炸的时代,每天都有数以亿计的数据产生,企事业单位对数据的管理和运用越来越重视,“数据驱动未来”已经成为普遍认知。
要从几十亿,甚至万亿数据中挖掘有价值的信息,需要将多源异构数据源的数据经过处理、清洗后,加载到HBase等大数据存储中。经过数据建模,将数据库表结构经过聚合、拆分、筛选等重构处理,构建实体、关系、事件、将业务模型以知识的形式沉淀。这个过程在实际项目中需要对上百张表的每个字段名称、属性、类型、含义、真实数据逐一分析、逐一定制化操作后,才能抽取出符合异构大数据平台要求的数据。传统过程需要人工进行,然而人工进行数据对标的过程繁琐、复杂、费时且出错率高,如何实现数据的高效治理是目前亟待解决的问题。
发明内容
为了克服现有技术中的上述不足,本申请的目的之一在于提供一种数据处理方法、装置、电子设备和计算机可读存储介质。
第一方面,本申请提供一种数据处理方法,所述方法包括:依据数据元信息,获取将待处理数据输入后的标准表;所述标准表包括标签数据,所述标签数据为将所述待处理数据进行标识后获得的,所述数据元信息用于确定所述标签数据的字段结构信息。根据数据映射关系和至少一张所述标准表,获取符合数据处理需求的目标数据;所述数据映射关系为所述待处理数据和所述标签数据的对应关系。
在可选的实施方式中,所述依据数据元信息,获取将待处理数据输入后的标准表,包括:将所述待处理数据以及元数据存储至基本数据库;所述元数据用于确定所述待处理数据的数据源;读取所述基本数据库,标识所述待处理数据以获取所述标签数据;根据所述数据元信息,整理所述标签数据并生成所述标准表。
在可选的实施方式中,所述根据所述数据元信息,整理所述标签数据并生成所述标准表,包括:根据所述数据元信息,获取所述标准表的基本结构信息;所述基本结构信息用于确定所述标准表的数据架构。根据所述标签数据和所述基本结构信息,获取所述标准表。
在可选的实施方式中,所述根据所述数据元信息,整理所述标签数据并生成所述标准表,还包括:接收用户输入的特殊治理指令;使用与所述特殊治理指令匹配的所述标签数据生成与所述数据元信息对应的标准表。
在可选的实施方式中,所述数据元信息包括至少一个质量控制规则,所述方法还包括:获取所述标签数据的质量检测信息;所述质量检测信息表征所述标签数据与所有所述质量控制规则匹配的数据合格率。
第二方面,本申请提供一种数据处理装置,包括:标准表获取模块和处理模块。所述标准表获取模块用于依据数据元信息,获取将待处理数据输入后的标准表;所述标准表包括标签数据,所述标签数据为将所述待处理数据进行标识后获得的,所述数据元信息用于确定所述标签数据的字段结构信息。所述处理模块用于根据数据映射关系和至少一张所述标准表,获取符合数据处理需求的目标数据;所述数据映射关系为所述待处理数据和所述标签数据的对应关系。
在可选的实施方式中,所述处理模块还用于:将所述待处理数据以及元数据存储至基本数据库;所述元数据用于确定所述待处理数据的数据源;读取所述基本数据库,标识所述待处理数据以获取所述标签数据;根据所述数据元信息,整理所述标签数据并生成所述标准表。
在可选的实施方式中,所述处理模块还用于:根据所述数据元信息,获取所述标准表的基本结构信息;所述基本结构信息用于确定所述标准表的数据架构;根据所述标签数据和所述基本结构信息,获取所述标准表。
在可选的实施方式中,所述处理模块还用于:接收用户输入的特殊治理指令;使用与所述特殊治理指令匹配的所述标签数据生成与所述数据元信息对应的标准表。
在可选的实施方式中,所述数据元信息包括至少一个质量控制规则,所述数据处理装置还包括:质量控制模块。所述质量控制模块用于获取所述标签数据的质量检测信息;所述质量检测信息表征所述标签数据与所有所述质量控制规则匹配的数据合格率。
第三方面,本申请提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式任一项所述的数据处理方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的数据处理方法。
相对于现有技术而言,本申请提供一种数据处理方法、装置、电子设备和计算机可读存储介质,涉及数据处理领域。该数据处理方法包括:依据数据元信息,获取将待处理数据输入后的标准表;所述标准表包括标签数据,所述标签数据为将所述待处理数据进行标识后获得的,所述数据元信息用于确定所述标签数据的字段结构信息;根据数据映射关系和至少一张所述标准表,获取符合数据处理需求的目标数据;所述数据映射关系为所述待处理数据和所述标签数据的对应关系。可以理解的,通过将待处理数据进行标准化处理,并使用至少一张标准表和数据映射关系,获取符合数据处理需求的目标数据,数据治理的过程由机器来实现,极大的减少了人工成本并解决了出错率高的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据处理方法的流程示意图;
图2为本申请实施例提供的另一种数据处理方法的流程示意图;
图3为本申请实施例提供的另一种数据处理方法的流程示意图;
图4为本申请实施例提供的另一种数据处理方法的流程示意图;
图5为本申请实施例提供的另一种数据处理方法的流程示意图;
图6(a)为本申请实施例提供的一种数据表示意图;
图6(b)为本申请实施例提供的一种原始表的交互示意图;
图6(c)为本申请实施例提供的一种标准化的交互示意图;
图6(d)为本申请实施例提供的一种标准表的交互示意图;
图6(e)为本申请实施例提供的一种规则配置的交互示意图;
图6(f)为本申请实施例提供的一种目标表的交互示意图;
图6(g)为本申请实施例提供的一种任务调度的交互示意图;
图6(h)为本申请实施例提供的一种数据元的交互示意图;
图7为本申请实施例提供的一种数据处理装置的方框示意图;
图8为本申请实施例提供的另一种数据处理装置的方框示意图;
图9为本申请实施例提供的一种电子设备的方框示意图。
图标:40-数据处理装置,41-标准表获取模块,42-处理模块,43-质量控制模块,60-电子设备,61-存储器,62-处理器,63-通信接口。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
目前的技术方案中,为了对工作流进行管理,通常使用Kettle来实现纯Java编写,可以在Windows、Linux、Unix等多种平台上运行,并且Kettle允许管理来自不同数据库的数据,以提供一个图像化的用户环境;Kettle中有两种脚本文件:Transformation和Job,Transformation用于完成针对数据的基础转换,Job完成整个工作流程的控制。但是,Kettle的每张数据表的治理过程都是单独的作业,管理极不方便;而且Kettle需要手动完成大量的重复配置,且Kettle占用内存大、处理速度慢且运行时容易崩溃。
基于上述问题和背景技术中提出的不足,本申请实施例提供一种数据处理方法,请参见图1,图1为本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法包括:
S20、依据数据元信息,获取将待处理数据输入后的标准表。
该标准表包括标签数据,该标签数据为将待处理数据进行标识后获得的,数据元信息用于确定标签数据的字段结构信息。可以理解的,利用数据元信息来规范数据项,使待处理数据经过标准化后的标准表符合标准,数据项是统一的,不因个人习惯的不同而导致目标表数据项同意不同名、同名不同格式等情况的发生。
S21、根据数据映射关系和至少一张标准表,获取符合数据处理需求的目标数据。
该数据映射关系为待处理数据和标签数据的对应关系。例如,每个待处理原始数据与数据元信息对标后,可以通过数据元信息的编号查询相应的数据项;而由于标准表的数据项是规范的,创建好目标表后,只需把标准表中的标签数据添加到目标表映射目录中,数据元会根据数据元编号自动映射,则可获取到符合数据处理需求的目标数据。应理解,该数据处理需求可以是指定身份标识、时间序列或其它可能的处理需求。
可以理解的,通过将待处理数据进行标准化处理,并使用至少一张标准表和数据映射关系,获取符合数据处理需求的目标数据,数据治理的过程由机器来实现,极大的减少了人工成本并解决了出错率高的问题。相对于Kettle来说,本申请提供的数据处理方法不需要手动进行大量的配置,明显的减少了人工成本。
在可选的实施方式中,为了获取上述的标准表,将待处理数据标准化,在图1的基础上,给出一种可能的实现方式,请参见图2,图2为本申请实施例提供的另一种数据处理方法的流程示意图。上述的S20可以包括:
S201、将待处理数据以及元数据存储至基本数据库。
该元数据用于确定待处理数据的数据源。例如,元数据可以用以描述待处理数据的来源,还可以是描述待处理数据的其它固定不变的信息;可以理解的,该基本数据库可以是MySQL数据库,还可以是其它用以存储相应数据的数据库,其具体形式本申请不对其进行限定。
S202、读取基本数据库,标识待处理数据以获取标签数据。
可以理解的,对待处理数据进行标识后,获取对标后的标签数据,该标签数据可以是对其中的某部分字段进行标准项数据替换后的数据,也可以是在数据的某些位置添加标识,其具体实现方式可以根据实际的数据形式和数据治理需求进行确定。
S203、根据数据元信息,整理标签数据并生成标准表。
可以理解的,对于多个标签数据或含有较多内容的标签数据,可以按照数据元信息对标签数据进行整理,以便生成符合标准表格式的标准表。应理解,结合数据标准化与数据提取,可以实现一体化治理数据,不需要多个厂商分工处理治理,避免出现数据问题纠纷而导致项目进展延迟。
在可选的实施方式中,为了实现待处理数据的标准化,在图2的基础上,给出一种可能的实现方式,请参见图3,图3为本申请实施例提供的另一种数据处理方法的流程示意图。上述的S203可以包括:
S203a、根据数据元信息,获取标准表的基本结构信息。
该基本结构信息可以用于确定标准表的数据架构。例如,可以根据该数据元信息确定标准表的排布情况,如具有哪些类型的数据等。
S203b、根据标签数据和基本结构信息,获取标准表。
可以理解的,通过将标签数据放入具有基本结构的空白标准表中,生成最终的标准表。例如,上述的数据元信息可以是参见已有的数据标准表结构来进行确定的,还可以是人工根据实际的数据标准化需求进行添加或配置的。
在可选的实施方式中,为了获取多种不同的标准表,在图2的基础上,给出一种可能的实现方式,请参见图4,图4为本申请实施例提供的另一种数据处理方法的流程示意图。上述的S203还可以包括:
S203c、接收用户输入的特殊治理指令。
S203d、使用与特殊治理指令匹配的标签数据生成与数据元信息对应的标准表。
可以理解的,还可以对标准表添加其他规则,有时候除了数据元信息的规则,还有特殊的业务需求,需要开发人员开发新规则,该新规则可以是使用Java语言进行开发的,将其导入软件后验证通过即可应用。可以预见的,可以将特殊治理需求指令对应的规则添加到数据元信息中,以便对数据项进行不同规则的对标,将符合规则的待处理数据导入标准表中,过滤不符合规则的数据。应理解,每个数据元信息可以映射一个规则或多个规则,其可以根据实际的业务需求进行确定。
在可选的实施方式中,为了控制数据处理的质量,在图1的基础上,以数据元信息包括至少一个质量控制规则为例,请参见图5,图5为本申请实施例提供的另一种数据处理方法的流程示意图。在上述的S21之后,该数据处理方法还可以包括:
S22、获取标签数据的质量检测信息。
该质量检测信息表征标签数据与所有质量控制规则匹配的数据合格率。该质量控制规则可以是通过数据合格率,或是符合规则的百分比来实现的;例如,可以在标准表页面展示标准表引申情况,完成质量检测后,可以看到符合质量控制规则的百分比数值。
为了便于理解上述任一种数据处理方法,以待处理数据先存储到本地数据库,元数据存储到MySQL数据库中为例,本申请实施例提供另一种可能的数据处理方法,请参见图6(a),图6(a)为本申请实施例提供的一种数据表示意图。待处理数据存储在原始表之中,元数据用于确定待处理数据的表结构、更新字段、最大时间等信息;添加或导入数据元,对本地数据(待处理数据)进行标准化,生成对应的空白标准表,该空白标准表暂时不存储数据,只是一个表结构;标准表中有特殊治理需求的数据项可以添加额外规则,完成后进行初始化,对标后的数据项会应用对应的规则,把符合规则的数据导入标准表,过滤不符合规则的数据,后台运行并统计数据质量指标;手动或者编辑当前模板创建目标表,选择要映射到目标表的标准表,执行调度任务开始导入数据,完成数据治理流程。
对于图6(a)示出的原始表,给出一种可能的交互界面,请参见图6(b),图6(b)为本申请实施例提供的一种原始表的交互示意图:原始表采用树型结构展示,导入时需要填写更新字段、数据库、用户名,也可以在表格编辑好后导入,导入后软件会自动查询最大时间,不更新则不查询。
对于图6(a)示出的实现标准化的过程,给出一种可能的交互界面,请参见图6(c),图6(c)为本申请实施例提供的一种标准化的交互示意图:标准化就是将原始表数据项与数据元映射的过程,每次映射都会存储到后台数据库进行记忆,下次出现相同的数据项会自动进行映射;如果发现没有对应的数据元信息,可以在数据元界面进行添加,此操作需要管理员权限,映射完成后点击‘创建标准表’按钮即可创建对应的标准表,标准表名称和原始表名称一致,区别是数据表编号和前缀不一致。可以理解的,本申请提供的数据处理方法操作简洁,存储人工对标结果进行融合去重,下次自动映射,极大减少人工重复操作,提高了治理效率。
对于图6(a)示出的标准表,给出一种可能的交互界面,请参见图6(d),图6(d)为本申请实施例提供的一种标准表的交互示意图:标准表页面左侧可以展示和查询标准表,右侧展示对应的标准表映射情况,点击‘初始化’按钮会对每个对标后的数据项进行数据质量检测,后台运行,显示‘运行中’,完成后可以看到符合规则的百分比数值。
对于图6(a)示出的对数据元信息进行规则配置或设置的过程,给出一种可能的交互界面,请参见图6(e),图6(e)为本申请实施例提供的一种规则配置的交互示意图:规则配置页面可以对标准表添加其它规则,有时候除了数据元信息的规则,还有特殊的业务需求,需要开发人员开发新规则,新规则使用java语言开发打包添加,导入软件后验证通过即可应用,每个数据项可以映射多个规则。
对于图6(a)示出的目标表,给出一种可能的交互界面,请参见图6(f),图6(f)为本申请实施例提供的一种目标表的交互示意图:目标表页面可以添加目标表、新建模板、选择模板、导入模板,添加目标表需要手动输入数据项,新建模板可以手动创建目标表结构添加到选择模板列表中,选择模板可以选择模板中的结构进行编辑,导入模板可以导入外部表格文件,验证通过后加入选择模板列表;模板目标表的每个数据项都可以在数据元信息中选择,这样在任务调度阶段才能匹配数据元编号自动映射,减少人工操作;如果数据元中没有需要的数据项,可以在数据元页面进行申请并由管理员审批,审批通过后即可全局使用。
对于图6(a)示出的任务调度过程,给出一种可能的交互界面,请参见图6(g),图6(g)为本申请实施例提供的一种任务调度的交互示意图:任务调度界面左侧展示目标表,可以进行查询,选中目标表后,右侧显示已经添加的标准表信息,每张标准表后会有一个圆形单选项,白色圆点表示添加还没有执行,蓝色表示添加已执行。有两种调度方式,分别是全量执行和增量执行,全量执行表示执行所有白色圆点对应标准表,执行完成后白色圆点变成蓝色圆点,自动更新执行时间,增量执行表示执行所有蓝色圆点对应的标准表,执行后会更新执行时间,每个需要执行的标准表会生成Spark任务提交至大数据平台执行。
对于图6(a)示出的数据元交互过程,给出一种可能的交互界面,请参见图6(h),图6(h)为本申请实施例提供的一种数据元的交互示意图:据元界面展示当前数据元信息,可以进行查找和添加数据元,配置每个数据元的通用规则,每个数据元可以配置多个规则。可以理解的,对数据元添加规则,对标以后可以进行数据校验,查看数据质量。
为了实现上述任一种数据处理方法,本申请提供一种数据处理装置,请参见图7,图7为本申请实施例提供的一种数据处理装置的方框示意图。该数据处理装置40包括:标准表获取模块41和处理模块42。
标准表获取模块41用于依据数据元信息,获取将待处理数据输入后的标准表。标准表包括标签数据,标签数据为将待处理数据进行标识后获得的,数据元信息用于确定标签数据的字段结构信息。
处理模块42用于根据数据映射关系和至少一张标准表,获取符合数据处理需求的目标数据。数据映射关系为待处理数据和标签数据的对应关系。
应理解,标准表获取模块41可以实现上述的S20,处理模块42可以实现上述的S21。
在可选的实施方式中,处理模块42还用于将待处理数据以及元数据存储至基本数据库;元数据用于确定待处理数据的数据源。处理模块42还用于读取基本数据库,标识待处理数据以获取标签数据。处理模块42还用于根据数据元信息,整理标签数据并生成标准表。应理解,处理模块42还可以实现上述的S201~S203。
在可选的实施方式中,处理模块42还用于:根据数据元信息,获取标准表的基本结构信息;基本结构信息用于确定标准表的数据架构。处理模块42还用于根据标签数据和基本结构信息,获取标准表。应理解,处理模块42还可以实现上述的S203a~S203b。
在可选的实施方式中,处理模块42还用于:接收用户输入的特殊治理指令;处理模块42还用于使用与特殊治理指令匹配的标签数据生成与数据元信息对应的标准表。应理解,处理模块42还可以实现上述的S203c~S203d。
在可选的实施方式中,为了监控数据处理的质量,以数据元信息包括至少一个质量控制规则为例,请参见图8,图8为本申请实施例提供的另一种数据处理装置的方框示意图。数据处理装置40还包括:质量控制模块43。质量控制模块43用于获取标签数据的质量检测信息。质量检测信息表征标签数据与所有质量控制规则匹配的数据合格率。应理解,质量控制模块43可以实现上述的S22。
本申请实施例提供一种电子设备,如图9,图9为本申请实施例提供的一种电子设备的方框示意图。该电子设备60包括存储器61、处理器62和通信接口63。该存储器61、处理器62和通信接口63相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器61可用于存储软件程序及模块,如本申请实施例所提供的数据处理方法对应的程序指令/模块,处理器62通过执行存储在存储器61内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口63可用于与其他节点设备进行信令或数据的通信。在本申请中该电子设备60可以具有多个通信接口63。
其中,存储器61可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器62可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
电子设备60可以实现本申请提供的任一数据处理方法。该电子设备60可以是,但不限于,手机、平板电脑、笔记本电脑、服务器或其它具有处理能力的电子设备。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项的数据处理方法。该计算机可读存储介质可以是,但不限于,U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供一种数据处理方法、装置、电子设备和计算机可读存储介质,涉及数据处理领域。该数据处理方法包括:依据数据元信息,获取将待处理数据输入后的标准表;标准表包括标签数据,标签数据为将待处理数据进行标识后获得的,数据元信息用于确定标签数据的字段结构信息;根据数据映射关系和至少一张标准表,获取符合数据处理需求的目标数据;数据映射关系为待处理数据和标签数据的对应关系。可以理解的,通过将待处理数据进行标准化处理,并使用至少一张标准表和数据映射关系,获取符合数据处理需求的目标数据,数据治理的过程由机器来实现,极大的减少了人工成本并解决了出错率高的问题。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
依据数据元信息,获取将待处理数据输入后的标准表;所述标准表包括标签数据,所述标签数据为将所述待处理数据进行标识后获得的,所述数据元信息用于确定所述标签数据的字段结构信息;
根据数据映射关系和至少一张所述标准表,获取符合数据处理需求的目标数据;所述数据映射关系为所述待处理数据和所述标签数据的对应关系。
2.根据权利要求1所述的数据处理方法,其特征在于,所述依据数据元信息,获取将待处理数据输入后的标准表,包括:
将所述待处理数据以及元数据存储至基本数据库;所述元数据用于确定所述待处理数据的数据源;
读取所述基本数据库,标识所述待处理数据以获取所述标签数据;
根据所述数据元信息,整理所述标签数据并生成所述标准表。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述数据元信息,整理所述标签数据并生成所述标准表,包括:
根据所述数据元信息,获取所述标准表的基本结构信息;所述基本结构信息用于确定所述标准表的数据架构;
根据所述标签数据和所述基本结构信息,获取所述标准表。
4.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述数据元信息,整理所述标签数据并生成所述标准表,还包括:
接收用户输入的特殊治理指令;
使用与所述特殊治理指令匹配的所述标签数据生成与所述数据元信息对应的标准表。
5.根据权利要求1-4任一项所述的数据处理方法,其特征在于,所述数据元信息包括至少一个质量控制规则,所述方法还包括:
获取所述标签数据的质量检测信息;所述质量检测信息表征所述标签数据与所有所述质量控制规则匹配的数据合格率。
6.一种数据处理装置,其特征在于,包括:标准表获取模块和处理模块;
所述标准表获取模块,用于依据数据元信息,获取将待处理数据输入后的标准表;所述标准表包括标签数据,所述标签数据为将所述待处理数据进行标识后获得的,所述数据元信息用于确定所述标签数据的字段结构信息;
所述处理模块,用于根据数据映射关系和至少一张所述标准表,获取符合数据处理需求的目标数据;所述数据映射关系为所述待处理数据和所述标签数据的对应关系。
7.根据权利要求6所述的数据处理装置,其特征在于,所述处理模块还用于:
将所述待处理数据以及元数据存储至基本数据库;所述元数据用于确定所述待处理数据的数据源;
读取所述基本数据库,标识所述待处理数据以获取所述标签数据;
根据所述数据元信息,整理所述标签数据并生成所述标准表。
8.根据权利要求6或7所述的数据处理装置,其特征在于,所述数据元信息包括至少一个质量控制规则,所述数据处理装置还包括:质量控制模块;
所述质量控制模块,用于获取所述标签数据的质量检测信息;所述质量检测信息表征所述标签数据与所有所述质量控制规则匹配的数据合格率。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-5任一项所述的数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260542.1A CN111061733B (zh) | 2019-12-10 | 2019-12-10 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260542.1A CN111061733B (zh) | 2019-12-10 | 2019-12-10 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061733A true CN111061733A (zh) | 2020-04-24 |
CN111061733B CN111061733B (zh) | 2024-01-19 |
Family
ID=70300380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911260542.1A Active CN111061733B (zh) | 2019-12-10 | 2019-12-10 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061733B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650747A (zh) * | 2021-01-20 | 2021-04-13 | 天元大数据信用管理有限公司 | 一种金融风控业务场景下的大数据治理方法 |
CN113377804A (zh) * | 2021-06-30 | 2021-09-10 | 北京三快在线科技有限公司 | 一种数据处理方法、装置、存储介质及电子设备 |
CN113468037A (zh) * | 2021-07-26 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种数据质量评估方法、装置、介质和电子设备 |
CN113986208A (zh) * | 2021-09-27 | 2022-01-28 | 阿里云计算有限公司 | 数据的处理方法、计算设备及存储介质 |
CN114238304A (zh) * | 2021-12-24 | 2022-03-25 | 深圳市新国都数字科技有限公司 | 一种标签生成方法、装置、计算机设备及存储介质 |
CN118095214A (zh) * | 2024-03-13 | 2024-05-28 | 中国农业科学院农业信息研究所 | 一种基于产业数据的数据规范方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050193029A1 (en) * | 2004-02-27 | 2005-09-01 | Raul Rom | System and method for user creation and direction of a rich-content life-cycle |
US20130212116A1 (en) * | 2012-02-13 | 2013-08-15 | Post Pro Finance Co., Inc. | Metadata engine and repository |
CN104346377A (zh) * | 2013-07-31 | 2015-02-11 | 克拉玛依红有软件有限责任公司 | 一种基于唯一标识的数据集成和交换方法 |
CN108595563A (zh) * | 2018-04-13 | 2018-09-28 | 林秀丽 | 一种数据质量管理方法及装置 |
CN109189769A (zh) * | 2018-08-14 | 2019-01-11 | 平安医疗健康管理股份有限公司 | 数据标准化处理方法、装置、计算机设备和存储介质 |
CN109522746A (zh) * | 2018-11-07 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 一种数据处理方法、电子设备及计算机存储介质 |
-
2019
- 2019-12-10 CN CN201911260542.1A patent/CN111061733B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050193029A1 (en) * | 2004-02-27 | 2005-09-01 | Raul Rom | System and method for user creation and direction of a rich-content life-cycle |
US20130212116A1 (en) * | 2012-02-13 | 2013-08-15 | Post Pro Finance Co., Inc. | Metadata engine and repository |
CN104346377A (zh) * | 2013-07-31 | 2015-02-11 | 克拉玛依红有软件有限责任公司 | 一种基于唯一标识的数据集成和交换方法 |
CN108595563A (zh) * | 2018-04-13 | 2018-09-28 | 林秀丽 | 一种数据质量管理方法及装置 |
CN109189769A (zh) * | 2018-08-14 | 2019-01-11 | 平安医疗健康管理股份有限公司 | 数据标准化处理方法、装置、计算机设备和存储介质 |
CN109522746A (zh) * | 2018-11-07 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 一种数据处理方法、电子设备及计算机存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650747A (zh) * | 2021-01-20 | 2021-04-13 | 天元大数据信用管理有限公司 | 一种金融风控业务场景下的大数据治理方法 |
CN113377804A (zh) * | 2021-06-30 | 2021-09-10 | 北京三快在线科技有限公司 | 一种数据处理方法、装置、存储介质及电子设备 |
CN113468037A (zh) * | 2021-07-26 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种数据质量评估方法、装置、介质和电子设备 |
CN113986208A (zh) * | 2021-09-27 | 2022-01-28 | 阿里云计算有限公司 | 数据的处理方法、计算设备及存储介质 |
CN114238304A (zh) * | 2021-12-24 | 2022-03-25 | 深圳市新国都数字科技有限公司 | 一种标签生成方法、装置、计算机设备及存储介质 |
CN118095214A (zh) * | 2024-03-13 | 2024-05-28 | 中国农业科学院农业信息研究所 | 一种基于产业数据的数据规范方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111061733B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061733B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
US7917815B2 (en) | Multi-layer context parsing and incident model construction for software support | |
US20120054147A1 (en) | System and method for extract, transform, and load workflow generation | |
US20130166563A1 (en) | Integration of Text Analysis and Search Functionality | |
CN103020158A (zh) | 一种报表创建方法、装置和系统 | |
US11176184B2 (en) | Information retrieval | |
CN108345658B (zh) | 算法计算轨迹的分解处理方法、服务器及存储介质 | |
CN111984882A (zh) | 数据处理方法、系统及设备 | |
CN109308258A (zh) | 测试数据的构造方法、装置、计算机设备和存储介质 | |
CN109002470A (zh) | 知识图谱构建方法及装置、客户端 | |
CN113608955B (zh) | 一种日志记录方法、装置、设备及存储介质 | |
CN113157978B (zh) | 数据的标签建立方法和装置 | |
CN107766519B (zh) | 一种可视化配置数据结构的方法 | |
CN110704635B (zh) | 一种知识图谱中三元组数据的转换方法及装置 | |
CN109460318B (zh) | 一种可回滚档案采集数据的导入方法、计算机装置及计算机可读存储介质 | |
CN111143356A (zh) | 报表检索方法及装置 | |
US20230004477A1 (en) | Providing a pseudo language for manipulating complex variables of an orchestration flow | |
CN110618991A (zh) | 参数值自动录入方法、系统、设备及存储介质 | |
CN109446263A (zh) | 一种数据关系关联方法及装置 | |
CN114819631A (zh) | 一种多任务的可视化方法、装置、计算机设备及存储介质 | |
JP2010072876A (ja) | ルール作成プログラム、ルール作成方法及びルール作成装置 | |
CN112817931A (zh) | 一种增量版本文件的生成方法及装置 | |
US12099531B2 (en) | Information retrieval | |
CN115587087B (zh) | 一种基于数据抽取和系统建模的高效数据共享平台 | |
CN117909392B (zh) | 一种智能化数据资产盘点的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |