CN106934023A - 一种数据管理方法及装置 - Google Patents

一种数据管理方法及装置 Download PDF

Info

Publication number
CN106934023A
CN106934023A CN201710146594.0A CN201710146594A CN106934023A CN 106934023 A CN106934023 A CN 106934023A CN 201710146594 A CN201710146594 A CN 201710146594A CN 106934023 A CN106934023 A CN 106934023A
Authority
CN
China
Prior art keywords
data
dimension
cleaning
filtering
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710146594.0A
Other languages
English (en)
Inventor
张佩佩
崔乐乐
唐旋
谢传家
李仰允
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Cloud Service Information Technology Co Ltd
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201710146594.0A priority Critical patent/CN106934023A/zh
Publication of CN106934023A publication Critical patent/CN106934023A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据管理方法及装置,该数据管理方法包括:通过预先设定的数据清洗过滤规则对获取的待处理数据进行清洗过滤;为清洗过滤后的所述待处理数据标记至少一种维度;生成与清洗过滤后的所述待处理数据对应的资源数据表;生成与所述至少一种维度对应的至少一种维度数据管理表;将所述资源数据表分别与每一种所述维度数据管理表相关联;利用关联后的所述资源数据表与每一种所述维度数据管理表,对清洗过滤后的所述待处理数据进行管理。因此本方案可以提高数据管理的便利性。

Description

一种数据管理方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据管理方法及装置。
背景技术
随着互联网技术的普及以及大数据技术的发展,数据规模越来越大,数据量成几何级数增长,有效的管理这些数据成为首要问题。
目前,数据管理的过程通常为:在获取数据之后,直接将数据对应的信息记录到数据管理表中,并存储数据。对数据管理时,在数据管理表中查询数据的相关信息,根据相关信息对数据进行管理。
但是,在上述过程中,由于未对数据进行任何处理,就直接将数据对应的信息记录到数据管理表中,可能导致数据管理表中的信息存在错误或重复,且数据对应的所有信息均记录在数据管理表中,会导致数据管理表中的信息量巨大,因此现有的方式,对数据有效的管理的便利性较低。
发明内容
本发明提供了一种数据管理方法及装置,可以提高数据管理的便利性。
第一方面,本发明提供了一种数据管理方法,该方法包括:
获取待处理数据;
通过预先设定的数据清洗过滤规则对所述待处理数据进行清洗过滤;
为清洗过滤后的所述待处理数据标记至少一种维度;
生成与清洗过滤后的所述待处理数据对应的资源数据表;
生成与所述至少一种维度对应的至少一种维度数据管理表;
将所述资源数据表分别与每一种所述维度数据管理表相关联;
利用关联后的所述资源数据表与每一种所述维度数据管理表,对清洗过滤后的所述待处理数据进行管理。
优选地,
所述获取待处理数据之前,进一步包括:
预先设定数据格式;
所述获取待处理数据,包括:
通过数据仓库技术ETL中的水壶工具集kettle获取与所述数据格式一致的待处理数据。
优选地,
所述通过预先设定的数据清洗过滤规则对所述待处理数据进行清洗过滤,包括:
确定所述待管理数据对应的至少一个清洗过滤项目,以及确定至少一个清洗过滤条件参数;
在所述待管理数据中抽取每一个所述清洗过滤项目对应的目标数据;
针对于每一个所述清洗过滤项目均执行:比较当前所述清洗过滤项目对应的所述目标数据和所述清洗过滤条件参数,根据比较结果,得到清洗过滤后的所述待处理数据。
优选地,
所述清洗过滤项目包括:数据长度、数据行数、合法状态、格式状态、重复状态、完整性中的任意一种;
其中,所述数据长度对应的清洗过滤条件参数为长度阈值、所述数据行数对应的清洗过滤条件参数为行数阈值、所述合法状态对应的清洗过滤条件参数为非法字符串、所述格式状态对应的清洗过滤条件参数为预设格式、所述重复状态对应的清洗过滤条件参数为标题字符串、所述完整性对应的清洗过滤条件参数为尾标字符串。
优选地,
在所述将所述资源数据表分别与每一种所述维度数据管理表相关联之后,进一步包括:
利用关联后的所述资源数据表与每一种所述维度数据管理表,形成所述待管理数据的星型模型;
其中,所述星型模型,包括:
为每一种所述维度数据管理表中的维度分配对应的标识字符串;
利用所述资源数据表按照设定的排序规则记录每一种所述维度数据管理表中的维度对应的标识字符串,形成标识字段;
利用所述标识字段关联各个所述标识字符串。
优选地,
所述数据清洗过滤规则,包括:根据结构化查询语言SQL以及正则表达式制定的数据清洗过滤规则。
优选地,
所述至少一种维度,包括:标签维度、主题维度以及单位维度中的任一种或多种。
第二方面,本发明提供了一种数据管理装置,该装置包括:
获取单元,用于获取待处理数据;
清洗过滤单元,用于通过预先设定的数据清洗过滤规则对所述获取单元获取的所述待处理数据进行清洗过滤;
标记单元,用于为所述清洗过滤单元清洗过滤后的所述待处理数据标记至少一种维度;
生成单元,用于生成与所述清洗过滤单元清洗过滤后的所述待处理数据对应的资源数据表;生成与所述标记单元标记的所述至少一种维度对应的至少一种维度数据管理表;
关联单元,用于将所述生成单元生成的所述资源数据表分别与所述生成单元生成的每一种所述维度数据管理表相关联;
管理单元,用于利用所述关联单元关联后的所述资源数据表与每一种所述维度数据管理表,对清洗过滤后的所述待处理数据进行管理。
优选地,
进一步包括:设定单元;
所述设定单元,用于预先设定数据格式;
所述获取单元,用于通过数据仓库技术ETL中的水壶工具集kettle获取与所述设定单元设定的所述数据格式一致的待处理数据。
优选地,
所述清洗过滤单元,用于确定所述待管理数据对应的至少一个清洗过滤项目,以及确定至少一个清洗过滤条件参数;在所述待管理数据中抽取每一个所述清洗过滤项目对应的目标数据;针对于每一个所述清洗过滤项目均执行:比较当前所述清洗过滤项目对应的所述目标数据和所述清洗过滤条件参数,根据比较结果,得到清洗过滤后的所述待处理数据。
优选地,
进一步包括:形成单元;
所述形成单元,用于利用所述关联单元关联后的所述资源数据表与每一种所述维度数据管理表,形成所述待管理数据的星型模型;其中,所述星型模型,包括:为每一种所述维度数据管理表中的维度分配对应的标识字符串;利用所述资源数据表按照设定的排序规则记录每一种所述维度数据管理表中的维度对应的标识字符串,形成标识字段;利用所述标识字段关联各个所述标识字符串。
本发明实施例提供了一种数据管理方法及装置,通过预先设定的数据清洗过滤规则对获取的待处理数据进行清洗过滤,并为清洗过滤后的待处理数据标记对应的维度。然后生成与清洗过滤后的待处理数据对应的资源数据表,以及生成与标记的维度对应的维度数据管理表,之后将资源数据表分别与各个维度数据管理表相关联,并利用关联后的上述两类数据表对清洗过滤后的待处理数据进行管理。通过上述过程可知,本方案中对获取的待处理数据进行了清洗过滤,以剔除不符合要求的数据,且未将清洗过滤后的待处理数据记录均记录在一种管理表中,而是记录在资源数据表和维度数据管理表中,并利用关联后的资源数据表与维度数据管理表管理清洗过滤后的待处理数据,因此,本发明提供的方案可以提高数据管理的便利性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种数据管理方法的流程图;
图2是本发明一个实施例提供的一种星型模型结构示意图;
图3是本发明另一个实施例提供的一种数据管理方法的流程图;
图4是本发明一个实施例提供的数据管理装置所在设备的一种硬件结构图;
图5是本发明一个实施例提供的一种数据管理装置的结构示意图;
图6是本发明一个实施例提供的一种包括设定单元的数据管理装置的结构示意图;
图7是本发明一个实施例提供的一种包括形成单元的数据管理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据管理方法,该方法可以包括以下步骤:
步骤101:获取待处理数据;
步骤102:通过预先设定的数据清洗过滤规则对所述待处理数据进行清洗过滤;
步骤103:为清洗过滤后的所述待处理数据标记至少一种维度;
步骤104:生成与清洗过滤后的所述待处理数据对应的资源数据表;
步骤105:生成与所述至少一种维度对应的至少一种维度数据管理表;
步骤106:将所述资源数据表分别与每一种所述维度数据管理表相关联;
步骤107:利用关联后的所述资源数据表与每一种所述维度数据管理表,对清洗过滤后的所述待处理数据进行管理。
根据如图1所示的实施例,通过预先设定的数据清洗过滤规则对获取的待处理数据进行清洗过滤,并为清洗过滤后的待处理数据标记对应的维度。然后生成与清洗过滤后的待处理数据对应的资源数据表,以及生成与标记的维度对应的维度数据管理表,之后将资源数据表分别与各个维度数据管理表相关联,并利用关联后的上述两类数据表对清洗过滤后的待处理数据进行管理。通过上述过程可知,本方案中对获取的待处理数据进行了清洗过滤,以剔除不符合要求的数据,且未将清洗过滤后的待处理数据记录均记录在一种管理表中,而是记录在资源数据表和维度数据管理表中,并利用关联后的资源数据表与维度数据管理表管理清洗过滤后的待处理数据,因此,本发明提供的实施例可以提高数据管理的便利性。
在本发明一个实施例中,在上述图1所示流程中步骤101之前可以进一步包括:预先设定数据格式;则步骤101获取待处理数据可以包括:
通过数据仓库技术ETL中的水壶工具集kettle获取与所述数据格式一致的待处理数据。
在本实施例中,通过预先设定的数据格式对原始数据进行初步的筛选,只有符合设定数据格式的数据才作为待处理数据被获取。数据格式可以根据业务要求确定,比如需要获取待处理数据为电子邮箱地址,可以先设定电子邮箱的数据格式为XXX@XX.com。又如可以设定的数据格式为EXCEL数据格式。
在本实施例中,由于ETL中的kettle使用范围广泛,可以从不同种类的数据库和数据文件中获取文件,因此通过ETL中的kettle获取与预先设定的数据格式一致的待处理数据是获取待处理数据的一种优选方式,另外还可以根据业务要求选取其他的工具来获取与数据格式一致的待处理数据。
根据上述实施例,可以通过ETL中的kettle获取与预先设定的数据格式一致的待处理数据。由于待处理数据获取时预先对待处理数据的数据格式做了限定,因此获取的待处理数据存在异常的可能性较低。
在本发明一个实施例中,上述图1所示流程图中所涉及的数据清洗过滤规则,包括:根据SQL以及正则表达式制定的数据清洗过滤规则。
在本实施例中,由于正则表达式可以预先定义规则字符串,并利用规则字符串过滤掉不符合要求的数据。且SQL是实现存取数据以及查询数据、更新数据和管理数据时,应用最为广泛的语言,因此数据清洗过滤规则可以根据SQL以及正则表达式制定。
在本实施例中,根据SQL以及正则表达式制定数据清洗过滤规则只是一种优选方式,还可以根据其他的语言和程序制定数据清洗过滤规则。
根据上述实施例,可以根据SQL以及正则表达式制定数据清洗过滤规则,由于SQL以及正则表达式应用广泛,且可以根据各种业务要求预先定义符合业务要求的字符串对待处理数据进行清洗过滤,因此制定的数据清洗过滤规则适用性强。
在本发明一个实施例中,上述图1所示流程中的步骤102通过预先设定的数据清洗过滤规则对所述待处理数据进行清洗过滤可以包括:
确定所述待管理数据对应的至少一个清洗过滤项目,以及确定至少一个清洗过滤条件参数;
在所述待管理数据中抽取每一个所述清洗过滤项目对应的目标数据;
针对于每一个所述清洗过滤项目均执行:比较当前所述清洗过滤项目对应的所述目标数据和所述清洗过滤条件参数,根据比较结果,得到清洗过滤后的所述待处理数据。
在本实施例中,可以根据业务要求确定待管理数据对应的清洗过滤项目,以及确定清洗过滤项目对应的清洗过滤条件,另外待管理数据对应的清洗过滤项目的数量可以根据业务要求确定。比如确定了2个清洗过滤项目,分别为数据长度和数据行数,其中,数据长度对应的清洗过滤条件为长度阈值,数据行数对应的清洗过滤条件为行数阈值。
待确定了清洗过滤项目以及清洗过滤条件参数之后,在待处理数据中抽取与清洗过滤项目对应的目标数据,在将目标数据与对应的清洗过滤条件比较,根据比较结果,对待处理数据进行清洗过滤,得到清洗过滤后的待处理数据。其中,清洗过滤条件参数对应的内容可以根据业务要求确定。比如,设定数据长度对应的清洗过滤条件为长度阈值500,数据行数对应的清洗过滤条件为行数阈值100,在待处理数据中抽取与数据长度对应的目标数据为300、抽取数据行数对应的目标数据为150,则确定数据长度正常、数据行数过多需要对待处理数据的数据行进行拆分处理,以得到清洗过滤后的待处理数据。
根据上述实施例,可以根据确定的清洗过滤项目,在待管理数据中抽取各个目标数据,比较每一个清洗过滤项目对应的目标数据和确定的清洗过滤条件参数,根据比较结果,得到清洗过滤后的待处理数据。由于对待处理数据进行上述的清洗过滤处理,因此得到的待处理数据存在异常的可能性较低。
在本发明一个实施例中,上述图1所示流程中所涉及的清洗过滤项目可以包括:数据长度、数据行数、合法状态、格式状态、重复状态、完整性中的任意一种;
其中,所述数据长度对应的清洗过滤条件参数为长度阈值、所述数据行数对应的清洗过滤条件参数为行数阈值、所述合法状态对应的清洗过滤条件参数为非法字符串、所述格式状态对应的清洗过滤条件参数为预设格式、所述重复状态对应的清洗过滤条件参数为标题字符串、所述完整性对应的清洗过滤条件参数为尾标字符串。
在本实施例中,清洗过滤项目中的具体内容可以根据业务要求确定,其中清洗过滤项目可以包括数据长度、数据行数、合法状态、格式状态、重复状态、完整性中的任意一种,上述包括的内容只是一种优选方式,可以根据业务要求进行相应的增加和修改。另外需要注意的是当确定清洗过滤项目后,需要确定与其对应的清洗过滤条件参数,其中,清洗过滤条件参数中具体的内容可以根据业务要求确定。
在本实施例中,当清洗过滤项目包括数据长度时,确定的清洗过滤条件参数为长度阈值,比较当前清洗过滤项目对应的目标数据和清洗过滤条件参数,根据比较结果,得到目标待处理数据,包括:比较数据长度对应的长度阈值与目标数据,当目标数据大于长度阈值时,按照长度阈值拆分待处理数据,待拆分完成后得到目标待处理数据。
在本实施例中,当清洗过滤项目包括数据行数时,确定的清洗过滤条件参数为行数阈值,比较当前清洗过滤项目对应的目标数据和清洗过滤条件参数,根据比较结果,得到目标待处理数据,包括:比较数据行数对应的行数阈值与目标数据,当目标数据大于行数阈值时,按照行数阈值拆分待处理数据,待拆分完成后得到目标待处理数据。
在本实施例中,当清洗过滤项目包括合法情况时,确定的清洗过滤条件参数为非法字符串,比较当前清洗过滤项目对应的目标数据和清洗过滤条件参数,根据比较结果,得到目标待处理数据,包括:比较合法情况对应的非法字符串与目标数据,当目标数据中所述非法字符串时,将包括非法字符串的目标数据过滤掉,得到目标待处理数据。
在本实施例中,当清洗过滤项目包括格式状态时,确定的清洗过滤条件参数为预设格式,比较当前清洗过滤项目对应的目标数据和清洗过滤条件参数,根据比较结果,得到目标待处理数据,包括:比较格式状态对应的预设格式与目标数据,当目标数据与预设格式不一致时,将目标数据过滤掉,得到目标待处理数据。
在本实施例中,当清洗过滤项目包括重复状态时,确定的清洗过滤条件参数为标题字符串,比较当前清洗过滤项目对应的目标数据和清洗过滤条件参数,根据比较结果,得到目标待处理数据,包括:比较重复状态对应的标题字符串与目标数据,当目标数据与标题字符串一致时,将目标数据过滤掉,得到目标待处理数据。
在本实施例中,当清洗过滤项目包括完整性时,确定的清洗过滤条件参数为尾标字符串,比较当前清洗过滤项目对应的目标数据和清洗过滤条件参数,根据比较结果,得到目标待处理数据,包括:比较完整性对应的尾标字符串与目标数据,当目标数据不包括尾标字符串致时,将目标数据过滤掉,得到目标待处理数据。
根据上述实施例,可以根据业务要求确定清洗过滤项目,且清洗过滤项目可以选取数据长度、数据行数、合法状态、格式状态、重复状态、完整性中的任意一种,由于清洗过滤项目可以根据业务要求确定,因此适用性强。
在本发明一个实施例中,上述图1所示流程中所涉及的至少一种维度,包括:标签维度、主题维度以及单位维度中的任一种或多种。
在待处理数据清洗过滤完毕之后,可以为待处理数据标记至少一种维度,该维度可以是标签维度、主题维度以及单位维度中的任一种或多种。当然标签维度、主题维度以及单位维度只是一种优选方式,可以根据业务要求进行相应的增加和修改。
在本实施例中,标签维度可以包含财政、金融、旅游、服务、税收、证券、电力、农业等信息,主要是用来从行业性质来描述待处理数据。主题维度可以包含基础资源、社会保障、房产管理、环境资源、交通运输、城乡建设、民生服务等信息,主要是从社会建设管理和发展的基本领域来描述待处理数据。单位维度可以包含采集数据的各单位信息,从数据来源的角度来管理待处理数据。
根据上述实施例,可以为清洗过滤后的待处理数据标记标签维度、主题维度以及单位维度中的任一种或多种,可以通过多种维度来描述待处理数据,从而可以提高管理数据的便利性。
在本发明一个实施例中,在上述图1所示流程中步骤106将所述资源数据表分别与每一种所述维度数据管理表相关联之后可以进一步包括:
利用关联后的所述资源数据表与每一种所述维度数据管理表,形成所述待管理数据的星型模型;
其中,所述星型模型,包括:
为每一种所述维度数据管理表中的维度分配对应的标识字符串;
利用所述资源数据表按照设定的排序规则记录每一种所述维度数据管理表中的维度对应的标识字符串,形成标识字段;
利用所述标识字段关联各个所述标识字符串。
在本实施例中,根据预先设定的编码要求为每一种维度数据管理表中的维度分配对应的标识字符串,需要注意的是每一种维度数据管理表中的维度对应的标识字符串都是唯一的。然后利用资源数据表按照设定的排序规则记录每一种维度数据管理表中的维度对应的标识字符串,形成标识字段。其中排序规则可以根据业务要求确定。
待形成标识字段后,在资源数据表中执行:将标识字段作为主键,将各个维度数据管理表对应的标识字符串作为外键。在各个维度数据管理表中以自身对应的标识字符串作为主键。待资源数据表以及各个维度数据管理表的主键和外键设置完成后,利用资源数据表中的外键与各个维度数据管理表的主键进行关联。当需要对待处理数据进行管理时,利用资源数据表中的外键来匹配各个维度数据管理表,实现对待处理数据的查询,提取以及管理。
在本实施例中,如图2所示星型模型,比如待管理数据为社保数据,根据预先设定的编码要求为标签维度数据管理表中的维度分配对应的标签标识字符串111、主题维度数据管理表中的维度分配对应的主题标识字符串为222、单位维度数据管理表中的维度分配对应的单位标识字符串为333,则资源数据表按照设定的排序规则记录每一种维度数据管理表中的维度对应的标识字符串,形成标识字段111222333,利用标识字段关联各个维度标识字符串。当对数据进行管理时就可以通过资源数据表中的标识字段111222333在各个维度中找出与该资源数据表中数据对应的各个维度,比如确定资源数据表中支出及支入金额对应的为财政领域社会保障方面A单位的数据,通过上述过程可知,为待处理数据标记不同的维度,不仅可以减少资源数据表中的数据存储量,而且还可以根据标识字段快速的确定资源对应的各种属性信息。
根据上述实施例,利用关联后的资源数据表与每一种维度数据管理表,形成所述待管理数据的星型模型,该星型模型中资源数据表可以按照设定的排序规则记录每一种维度数据管理表中的维度对应的标识字符串,形成标识字段,并利用形成的标识字段关联各个标识字符串,以实现资源数据表与各个维度数据管理表的关联,从而利用星型模型对待管理数据进行有效管理。
下面以A单位的数据为待管理数据为例。展开说明数据管理方法,如图3所示,该数据管理方法可以包括如下步骤:
步骤301:预先设定的数据清洗过滤规则以及数据格式。
在本步骤中,预先设定的数据清洗过滤规则中包括的清洗过滤项目分别为数据长度、合法状态、重复状态、完整性。数据格式中要求包含8位的社会保障号。
步骤302:通过数据仓库技术ETL中的水壶工具集kettle获取与预先设定的数据格式一致的待处理数据。
在本步骤中,通过ETL中的kettle将原始数据中不包含8位社会保障号的数据剔除掉,获得待处理数据。
步骤303:通过预先设定的数据清洗过滤规则确定待管理数据对应的至少一个清洗过滤项目,以及确定至少一个清洗过滤条件参数。
在本步骤中,在步骤301清洗过滤项目分别为数据长度、合法状态、重复状态、完整性,则确定的清洗过滤条件参数分别为:数据长度对应的清洗过滤条件参数为长度阈值、合法状态对应的清洗过滤条件参数为非法字符串、重复状态对应的清洗过滤条件参数为标题字符串、完整性对应的清洗过滤条件参数为尾标字符串。
步骤304:在待管理数据中抽取每一个清洗过滤项目对应的目标数据。
在本步骤中,在步骤302获取的待管理数据中抽取数据长度对应的目标数据、合法状态对应的目标数据、重复状态对应的目标数据、完整性对应的目标数据。
步骤305:依次从每一个清洗过滤项目中,选择一个清洗过滤项目作为当前清洗过滤项目。
步骤306:比较当前清洗过滤项目对应的目标数据和清洗过滤条件参数,根据比较结果,得到清洗过滤后的待处理数据。
在本步骤中,当数据长度为当前清洗过滤项目时,比较数据长度对应的长度阈值比如100与目标数据80,可以看出目标数据小于长度阈值,则确定待处理数据的数据长度正常。
当合法情况为当前清洗过滤项目时,比较合法情况对应的非法字符串ERROR与目标数据,当目标数据中非法字符串ERROR时,将包括非法字符串的目标数据过滤掉。
当重复状态为当前清洗过滤项目时,比较重复状态对应的标题字符串与目标数据,当目标数据与标题字符串一致时,将目标数据过滤掉,得到目标待处理数据。
当完整性为当前清洗过滤项目时,比较完整性对应的尾标字符串与目标数据,当目标数据不包括尾标字符串致时,将目标数据过滤掉,得到目标待处理数据。
步骤307:判断选择的当前清洗过滤项目是否为最后一个清洗过滤项目,如果是,则执行步骤308;否则,执行步骤305。
步骤308:为清洗过滤后的待处理数据标记至少一种维度。
在本步骤中为清洗过滤后的待处理数据标记标签维度、主题维度以及单位维度。
步骤309:生成与清洗过滤后的待处理数据对应的资源数据表。
步骤310:生成与至少一种维度对应的至少一种维度数据管理表。
在本步骤中,生成与标记标签维度、主题维度以及单位维度对应的标签维度数据管理表、主题维度数据管理表、单位维度数据管理表。
步骤311:将资源数据表分别与每一种维度数据管理表相关联。
步骤312:利用关联后的资源数据表与每一种维度数据管理表,形成待管理数据的星型模型。
在本步骤中,如图2所示的星型模型,根据预先设定的编码要求为标签维度数据管理表中的维度分配对应的标签标识字符串111、主题维度数据管理表中的维度分配对应的标签标识字符串为222、单位维度数据管理表中的维度分配对应的标签标识字符串为333,则资源数据表按照设定的排序规则记录每一种维度数据管理表中的维度对应的标识字符串,形成标识字段111222333,利用标识字段关联各个维度标识字符串,从而完成资源数据表与各个维度数据管理表的关联。
步骤313:利用形成的待管理数据的星型模型,对清洗过滤后的数据进行管理。
在本步骤中,当对数据进行管理时就可以通过资源数据表中的标识字段111222333在各个维度中找出与该资源数据表中数据对应的各个维度。
在本步骤中,可以利用待管理数据的星型模型确定资源数据表中支出及支入金额对应的为财政领域社会保障方面A单位的数据,通过上述过程可知,为待处理数据标记不同的维度,不仅可以减少资源数据表中的数据存储量,而且还可以根据标识字段快速的确定资源对应的各种属性信息。
如图4、图5所示,本发明实施例提供了一种数据管理装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图4所示,为本发明实施例提供的数据管理装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图5所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的数据管理装置,包括:
获取单元501,用于获取待处理数据;
清洗过滤单元502,用于通过预先设定的数据清洗过滤规则对所述获取单元501获取的所述待处理数据进行清洗过滤;
标记单元503,用于为所述清洗过滤单元502清洗过滤后的所述待处理数据标记至少一种维度;
生成单元504,用于生成与所述清洗过滤单元502清洗过滤后的所述待处理数据对应的资源数据表;生成与所述标记单元503标记的所述至少一种维度对应的至少一种维度数据管理表;
关联单元505,用于将所述生成单元504生成的所述资源数据表分别与所述生成单元504生成的每一种所述维度数据管理表相关联;
管理单元506,用于利用所述关联单元505关联后的所述资源数据表与每一种所述维度数据管理表,对清洗过滤后的所述待处理数据进行管理。
根据如图5所示的实施例,清洗过滤单元通过预先设定的数据清洗过滤规则对所述获取单元获取的所述待处理数据进行清洗过滤,然后标记单元,用于为清洗过滤后的待处理数据标记对应的维度,之后生成单元生成与清洗过滤单元清洗过滤后的待处理数据对应的资源数据表,以及生成与标记单元标记的维度对应的维度数据管理表,利用关联单元将上述的两种表格相关联,管理单元利用关联后的两种数据表对清洗过滤后的待处理数据进行管理。通过上述过程可知,本方案中获取单元对获取的待处理数据进行了清洗过滤,以剔除不符合要求的数据,且未将清洗过滤后的待处理数据记录均记录在一种管理表中,而是记录在生成单元生成的资源数据表和维度数据管理表中,并利用关联后的资源数据表与维度数据管理表管理清洗过滤后的待处理数据,因此,本发明提供的实施例可以提高数据管理的便利性。
在本发明一个实施例中,如图6所示,所述数据管理装置可以进一步包括:设定单元601;
所述设定单元601,用于预先设定数据格式;
所述获取单元501,用于通过数据仓库技术ETL中的水壶工具集kettle获取与所述设定单元601设定的所述数据格式一致的待处理数据。
在本发明一个实施例中,所述清洗过滤单元502,用于确定所述待管理数据对应的至少一个清洗过滤项目,以及确定至少一个清洗过滤条件参数;在所述待管理数据中抽取每一个所述清洗过滤项目对应的目标数据;针对于每一个所述清洗过滤项目均执行:比较当前所述清洗过滤项目对应的所述目标数据和所述清洗过滤条件参数,根据比较结果,得到清洗过滤后的所述待处理数据。
在本发明一个实施例中,如图7所示,所述数据管理装置可以进一步包括:形成单元701;
所述形成单元701,用于利用所述关联单元505关联后的所述资源数据表与每一种所述维度数据管理表,形成所述待管理数据的星型模型;其中,所述星型模型,包括:为每一种所述维度数据管理表中的维度分配对应的标识字符串;利用所述资源数据表按照设定的排序规则记录每一种所述维度数据管理表中的维度对应的标识字符串,形成标识字段;利用所述标识字段关联各个所述标识字符串。
本发明一个实施例提供了一种可读介质,该可读介质包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一项所述的数据管理方法。
在本发明一个实施例提供了一种存储控制器,该存储控制器包括:处理器、存储其和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一所述的数据管理方法。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上所述,本发明各个实施例至少可以实现如下有益效果:
1、在本发明实施例中,通过预先设定的数据清洗过滤规则对获取的待处理数据进行清洗过滤,并为清洗过滤后的待处理数据标记对应的维度。然后生成与清洗过滤后的待处理数据对应的资源数据表,以及生成与标记的维度对应的维度数据管理表,之后将资源数据表分别与各个维度数据管理表相关联,并利用关联后的上述两类数据表对清洗过滤后的待处理数据进行管理。通过上述过程可知,本方案中对获取的待处理数据进行了清洗过滤,以剔除不符合要求的数据,且未将清洗过滤后的待处理数据记录均记录在一种管理表中,而是记录在资源数据表和维度数据管理表中,并利用关联后的资源数据表与维度数据管理表管理清洗过滤后的待处理数据,因此,本发明提供的实施例可以提高数据管理的便利性。
2、在本发明实施例中,可以通过ETL中的kettle获取与预先设定的数据格式一致的待处理数据。由于待处理数据获取时预先对待处理数据的数据格式做了限定,因此获取的待处理数据存在异常的可能性较低。
3、在本发明实施例中,可以根据SQL以及正则表达式制定数据清洗过滤规则,由于SQL以及正则表达式应用广泛,且可以根据各种业务要求预先定义符合业务要求的字符串对待处理数据进行清洗过滤,因此制定的数据清洗过滤规则适用性强。
4、在本发明实施例中,可以根据确定的清洗过滤项目,在待管理数据中抽取各个目标数据,比较每一个清洗过滤项目对应的目标数据和确定的清洗过滤条件参数,根据比较结果,得到清洗过滤后的待处理数据。由于对待处理数据进行上述的清洗过滤处理,因此得到的待处理数据存在异常的可能性较低。
5、在本发明实施例中,可以根据业务要求确定清洗过滤项目,且清洗过滤项目可以选取数据长度、数据行数、合法状态、格式状态、重复状态、完整性中的任意一种,由于清洗过滤项目可以根据业务要求确定,因此适用性强。
6、在本发明实施例中,可以为清洗过滤后的待处理数据标记标签维度、主题维度以及单位维度中的任一种或多种,可以通过多种维度来描述待处理数据,从而可以提高管理数据的便利性。
7、在本发明实施例中,利用关联后的资源数据表与每一种维度数据管理表,形成所述待管理数据的星型模型,该星型模型中资源数据表可以按照设定的排序规则记录每一种维度数据管理表中的维度对应的标识字符串,形成标识字段,并利用形成的标识字段关联各个标识字符串,以实现资源数据表与各个维度数据管理表的关联,从而利用星型模型对待管理数据进行有效管理。
8、在本发明实施例中,清洗过滤单元通过预先设定的数据清洗过滤规则对所述获取单元获取的所述待处理数据进行清洗过滤,然后标记单元,用于为清洗过滤后的待处理数据标记对应的维度,之后生成单元生成与清洗过滤单元清洗过滤后的待处理数据对应的资源数据表,以及生成与标记单元标记的维度对应的维度数据管理表,利用关联单元将上述的两种表格相关联,管理单元利用关联后的两种数据表对清洗过滤后的待处理数据进行管理。通过上述过程可知,本方案中获取单元对获取的待处理数据进行了清洗过滤,以剔除不符合要求的数据,且未将清洗过滤后的待处理数据记录均记录在一种管理表中,而是记录在生成单元生成的资源数据表和维度数据管理表中,并利用关联后的资源数据表与维度数据管理表管理清洗过滤后的待处理数据,因此,本发明提供的实施例可以提高数据管理的便利性。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数据管理方法,其特征在于,包括:
获取待处理数据;
通过预先设定的数据清洗过滤规则对所述待处理数据进行清洗过滤;
为清洗过滤后的所述待处理数据标记至少一种维度;
生成与清洗过滤后的所述待处理数据对应的资源数据表;
生成与所述至少一种维度对应的至少一种维度数据管理表;
将所述资源数据表分别与每一种所述维度数据管理表相关联;
利用关联后的所述资源数据表与每一种所述维度数据管理表,对清洗过滤后的所述待处理数据进行管理。
2.根据权利要求1所述的方法,其特征在于,
所述获取待处理数据之前,进一步包括:
预先设定数据格式;
所述获取待处理数据,包括:
通过数据仓库技术ETL中的水壶工具集kettle获取与所述数据格式一致的待处理数据。
3.根据权利要求1所述的方法,其特征在于,
所述通过预先设定的数据清洗过滤规则对所述待处理数据进行清洗过滤,包括:
确定所述待管理数据对应的至少一个清洗过滤项目,以及确定至少一个清洗过滤条件参数;
在所述待管理数据中抽取每一个所述清洗过滤项目对应的目标数据;
针对于每一个所述清洗过滤项目均执行:比较当前所述清洗过滤项目对应的所述目标数据和所述清洗过滤条件参数,根据比较结果,得到清洗过滤后的所述待处理数据。
4.根据权利要求3所述的方法,其特征在于,
所述清洗过滤项目包括:数据长度、数据行数、合法状态、格式状态、重复状态、完整性中的任意一种;
其中,所述数据长度对应的清洗过滤条件参数为长度阈值、所述数据行数对应的清洗过滤条件参数为行数阈值、所述合法状态对应的清洗过滤条件参数为非法字符串、所述格式状态对应的清洗过滤条件参数为预设格式、所述重复状态对应的清洗过滤条件参数为标题字符串、所述完整性对应的清洗过滤条件参数为尾标字符串。
5.根据权利要求1所述的方法,其特征在于,
在所述将所述资源数据表分别与每一种所述维度数据管理表相关联之后,进一步包括:
利用关联后的所述资源数据表与每一种所述维度数据管理表,形成所述待管理数据的星型模型;
其中,所述星型模型,包括:
为每一种所述维度数据管理表中的维度分配对应的标识字符串;
利用所述资源数据表按照设定的排序规则记录每一种所述维度数据管理表中的维度对应的标识字符串,形成标识字段;
利用所述标识字段关联各个所述标识字符串。
6.根据权利要求1至5任一所述的方法,其特征在于,
所述数据清洗过滤规则,包括:根据结构化查询语言SQL以及正则表达式制定的数据清洗过滤规则;
和/或,
所述至少一种维度,包括:标签维度、主题维度以及单位维度中的任一种或多种。
7.一种数据管理装置,其特征在于,包括:
获取单元,用于获取待处理数据;
清洗过滤单元,用于通过预先设定的数据清洗过滤规则对所述获取单元获取的所述待处理数据进行清洗过滤;
标记单元,用于为所述清洗过滤单元清洗过滤后的所述待处理数据标记至少一种维度;
生成单元,用于生成与所述清洗过滤单元清洗过滤后的所述待处理数据对应的资源数据表;生成与所述标记单元标记的所述至少一种维度对应的至少一种维度数据管理表;
关联单元,用于将所述生成单元生成的所述资源数据表分别与所述生成单元生成的每一种所述维度数据管理表相关联;
管理单元,用于利用所述关联单元关联后的所述资源数据表与每一种所述维度数据管理表,对清洗过滤后的所述待处理数据进行管理。
8.根据权利要求7所述的装置,其特征在于,
进一步包括:设定单元;
所述设定单元,用于预先设定数据格式;
所述获取单元,用于通过数据仓库技术ETL中的水壶工具集kettle获取与所述设定单元设定的所述数据格式一致的待处理数据。
9.根据权利要求7所述的装置,其特征在于,
所述清洗过滤单元,用于确定所述待管理数据对应的至少一个清洗过滤项目,以及确定至少一个清洗过滤条件参数;在所述待管理数据中抽取每一个所述清洗过滤项目对应的目标数据;针对于每一个所述清洗过滤项目均执行:比较当前所述清洗过滤项目对应的所述目标数据和所述清洗过滤条件参数,根据比较结果,得到清洗过滤后的所述待处理数据。
10.根据权利要求7所述的装置,其特征在于,
进一步包括:形成单元;
所述形成单元,用于利用所述关联单元关联后的所述资源数据表与每一种所述维度数据管理表,形成所述待管理数据的星型模型;其中,所述星型模型,包括:为每一种所述维度数据管理表中的维度分配对应的标识字符串;利用所述资源数据表按照设定的排序规则记录每一种所述维度数据管理表中的维度对应的标识字符串,形成标识字段;利用所述标识字段关联各个所述标识字符串。
CN201710146594.0A 2017-03-13 2017-03-13 一种数据管理方法及装置 Pending CN106934023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710146594.0A CN106934023A (zh) 2017-03-13 2017-03-13 一种数据管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710146594.0A CN106934023A (zh) 2017-03-13 2017-03-13 一种数据管理方法及装置

Publications (1)

Publication Number Publication Date
CN106934023A true CN106934023A (zh) 2017-07-07

Family

ID=59432236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710146594.0A Pending CN106934023A (zh) 2017-03-13 2017-03-13 一种数据管理方法及装置

Country Status (1)

Country Link
CN (1) CN106934023A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052550A (zh) * 2017-11-28 2018-05-18 平安养老保险股份有限公司 年金数据接收方法、装置、计算机设备和存储介质
CN108182595A (zh) * 2017-12-19 2018-06-19 山东浪潮云服务信息科技有限公司 一种制定运营策略方法及装置
CN109189790A (zh) * 2018-08-23 2019-01-11 平安科技(深圳)有限公司 数据管理方法、装置、计算机设备及存储介质
CN110909063A (zh) * 2019-11-28 2020-03-24 蜂助手股份有限公司 一种用户行为的分析方法、装置、应用服务器及存储介质
CN111444400A (zh) * 2020-04-07 2020-07-24 中国汽车工程研究院股份有限公司 力与流场数据管理方法
CN113764110A (zh) * 2021-01-29 2021-12-07 北京京东拓先科技有限公司 数据处理方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
CN101197876A (zh) * 2006-12-06 2008-06-11 中兴通讯股份有限公司 一种对消息类业务数据进行多维分析的方法和系统
US7856416B2 (en) * 2008-04-22 2010-12-21 International Business Machines Corporation Automated latent star schema discovery tool
CN103984755A (zh) * 2014-05-28 2014-08-13 中国地质大学(北京) 基于多维度模型的油气资源数据要览系统实现方法及系统
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN106021486A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种基于大数据的数据多维分析处理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
CN101197876A (zh) * 2006-12-06 2008-06-11 中兴通讯股份有限公司 一种对消息类业务数据进行多维分析的方法和系统
US7856416B2 (en) * 2008-04-22 2010-12-21 International Business Machines Corporation Automated latent star schema discovery tool
CN103984755A (zh) * 2014-05-28 2014-08-13 中国地质大学(北京) 基于多维度模型的油气资源数据要览系统实现方法及系统
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN106021486A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种基于大数据的数据多维分析处理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052550A (zh) * 2017-11-28 2018-05-18 平安养老保险股份有限公司 年金数据接收方法、装置、计算机设备和存储介质
CN108052550B (zh) * 2017-11-28 2020-07-07 平安养老保险股份有限公司 年金数据接收方法、装置、计算机设备和存储介质
CN108182595A (zh) * 2017-12-19 2018-06-19 山东浪潮云服务信息科技有限公司 一种制定运营策略方法及装置
CN109189790A (zh) * 2018-08-23 2019-01-11 平安科技(深圳)有限公司 数据管理方法、装置、计算机设备及存储介质
CN110909063A (zh) * 2019-11-28 2020-03-24 蜂助手股份有限公司 一种用户行为的分析方法、装置、应用服务器及存储介质
CN111444400A (zh) * 2020-04-07 2020-07-24 中国汽车工程研究院股份有限公司 力与流场数据管理方法
CN113764110A (zh) * 2021-01-29 2021-12-07 北京京东拓先科技有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106934023A (zh) 一种数据管理方法及装置
CN102857493B (zh) 内容过滤方法和装置
CN110162519A (zh) 数据清理方法
US11762920B2 (en) Composite index on hierarchical nodes in the hierarchical data model within a case model
CN106682096A (zh) 一种日志数据的管理方法和装置
CN103778239B (zh) 一种多数据库数据管理方法及系统
CN107729251A (zh) 测试用例管理方法及装置
CN109635276B (zh) 一种信息匹配方法及终端
CN104516921B (zh) 自动回复方法及装置
CN110990403A (zh) 业务数据的存储方法、系统、计算机设备及存储介质
CN107402821A (zh) 共享资源的访问控制方法、装置和设备
CN106682099A (zh) 一种数据的存储方法和装置
CN107909342A (zh) 一种工程项目管理与工程项目审计一体化系统
CN101221578A (zh) 数据筛选的方法、装置以及证券化贷款的筛选方法、装置
CN110245281B (zh) 互联网资产信息收集方法及终端设备
CN109636303B (zh) 一种半自动提取和结构化文档信息的存储方法及系统
CN108182595A (zh) 一种制定运营策略方法及装置
CN107403012A (zh) 一种数据交换方法及装置
CN109299081A (zh) 清洗房价数据的方法、装置、计算机设备和存储介质
CN106250456A (zh) 一种中标公告的抽取方法及装置
CN107194280B (zh) 模型建立方法及装置
CN107291922A (zh) 一种数据分配方法及装置
CN107679889A (zh) 一种潜在客户的识别方法及终端设备
CN107133205A (zh) 一种基于数据服务的云表单组件实现方法及装置
CN106845869A (zh) 基于大数据确定关联企业的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707