CN112699103A - 基于数据预分析的数据规则探查方法及装置 - Google Patents
基于数据预分析的数据规则探查方法及装置 Download PDFInfo
- Publication number
- CN112699103A CN112699103A CN202011402529.8A CN202011402529A CN112699103A CN 112699103 A CN112699103 A CN 112699103A CN 202011402529 A CN202011402529 A CN 202011402529A CN 112699103 A CN112699103 A CN 112699103A
- Authority
- CN
- China
- Prior art keywords
- analysis
- data
- counting
- field
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000002159 abnormal effect Effects 0.000 claims abstract description 6
- 238000007405 data analysis Methods 0.000 claims description 9
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 abstract description 14
- 238000013523 data management Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于数据预分析的数据规则探查方法及装置,属于计算机技术领域,该方法包括:定义字段分析需求;对于字段分析需求指示的不同类型的待分析字段,使用待分析字段对应的分析规则进行分析,得到分析结果;分析结果用于指示待分析字段是否存在分析规则对应的问题;可以解决直接使用预设的质检规则进行数据治理时,由于质检规则准确性较低,导致产生大量无效运算的问题;通过数据预分析发现数据中存在哪些问题,进而可以根据这些问题形成质检规则来检测异常数据,提高规则的准确性与宽泛性。
Description
技术领域
本申请涉及一种基于数据预分析的数据规则探查方法及装置,属于计算机技术领域。
背景技术
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。目前,各组织的数据治理通常基于已定义的质检规则,发现并整改问题数据。
其中,已定义的质检规则通常由数据提供方提供,或由专人对数据进行初步分析后产出。
然而,通过常数方式确定出的质检规则,无法确认海量数据中是否有数据符合可能存在的问题,质检规则缺失准确性,可能导致大量无效运算。
发明内容
本申请提供了一种基于数据预分析的数据规则探查方法及装置,可以解决直接使用预设的质检规则进行数据治理时,由于质检规则准确性较低,导致产生大量无效运算的问题。本申请提供如下技术方案:
第一方面,提供了一种基于数据预分析的数据规则探查方法,所述方法包括:
定义字段分析需求;
对于所述字段分析需求指示的不同类型的待分析字段,使用所述待分析字段对应的分析规则进行分析,得到分析结果;所述分析结果用于指示所述待分析字段是否存在所述分析规则对应的问题。
可选地,所述定义字段分析需求,包括:
显示字段选择页面,所述字段选择页面包括不同分类的字段的输入控件;
通过所述不同分类的字段的输入控件接收所述待分析字段,得到所述字段分析需求。
可选地,所述方法还包括:
通过数据分析页面显示所述分析结果。
可选地,所述数据分析页面包括数据预览子页面和统计分析子页面;
所述数据预览子页面用于预览所述待分析字段;
所述统计分析子页面用于显示所述分析结果。
可选地,所述通过数据分析页面显示所述分析结果,包括:
使用抽样及presto从所述分析结果中获取第一结果数据并显示;
和/或,
使用spark算子从所述分析结果中获取第二结果数据并显示。
可选地,所述待分析字段的类型包括字符串类型,所述字符串类型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计重复率占比、重复值示例枚举、确定是否存在空格、确定数据最大长度、确定是否符合规范、确定数据类型异常值和确定是否含特殊字符。
可选地,所述待分析字段的类型包括日期类型,所述日期类型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计值域占比和确定是否存在空格。
可选地,所述待分析字段的类型包括数字型,所述数字型为整型、浮点型和/或数值型;所述数字型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计零值率占比、统计重复率占比、重复值示例枚举、确定是否存在空格、统计值域、计算均值和确定是否符合规范。
可选地,所述待分析字段的类型包括布尔型,所述布尔型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比和确定是否存在空格。
第二方面,提供了一种基于数据预分析的数据规则探查装置,所述装置包括:
需求定义模块,用于定义字段分析需求;
字段分析模块,用于对于所述字段分析需求指示的不同类型的待分析字段,使用所述待分析字段对应的分析规则进行分析,得到分析结果;所述分析结果用于指示所述待分析字段是否存在所述分析规则对应的问题。
本申请的有益效果在于:通过定义字段分析需求;对于字段分析需求指示的不同类型的待分析字段,使用待分析字段对应的分析规则进行分析,得到分析结果;分析结果用于指示待分析字段是否存在分析规则对应的问题;可以解决直接使用预设的质检规则进行数据治理时,由于质检规则准确性较低,导致产生大量无效运算的问题;通过数据预分析发现数据中存在哪些问题,进而可以根据这些问题形成质检规则来检测异常数据,提高规则的准确性与宽泛性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请一个实施例提供的基于数据预分析的数据规则探查方法的流程图;
图2是本申请一个实施例提供的字段选择页面的示意图;
图3是本申请一个实施例提供的数据预览子页面的示意图;
图4是本申请一个实施例提供的统计分析子页面的示意图;
图5是本申请一个实施例提供的基于数据预分析的数据规则探查装置的框图;
图6是本申请一个实施例提供的基于数据预分析的数据规则探查装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
可选地,可选地,本申请以各个实施例的执行主体为具有显示功能和人机交互功能的计算机设备为例进行说明,该计算机设备可以为台式电脑、笔记本电脑、平板电脑、手机等,本实施例不对计算机设备的设备类型作限定。
图1是本申请一个实施例提供的基于数据预分析的数据规则探查方法的流程图。该方法至少包括以下几个步骤:
步骤101,定义字段分析需求。
定义字段分析需求,包括:显示字段选择页面,字段选择页面包括不同分类的字段的输入控件;通过不同分类的字段的输入控件接收待分析字段,得到字段分析需求。
参考图2所示的字段选择页面,该字段选择页面包括的多种分类的字段输入控件21。图2中以字段的分类包括名称、性别、营业期限、年龄等为例进行说明,在其它应用场景中,字段的分类也可以为其它分类,本实施例不对字段的分类方式作限定。
步骤102,对于字段分析需求指示的不同类型的待分析字段,使用待分析字段对应的分析规则进行分析,得到分析结果;该分析结果用于指示待分析字段是否存在分析规则对应的问题。
可选地,待分析字段的类型包括字符串类型,字符串类型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计重复率占比、重复值示例枚举、确定是否存在空格、确定数据最大长度、确定是否符合规范、确定数据类型异常值和确定是否含特殊字符。
可选地,待分析字段的类型包括日期类型,日期类型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计值域占比和确定是否存在空格。
可选地,待分析字段的类型包括数字型,数字型为整型、浮点型和/或数值型;数字型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计零值率占比、统计重复率占比、重复值示例枚举、确定是否存在空格、统计值域、计算均值和确定是否符合规范。
可选地,待分析字段的类型包括布尔型,布尔型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比和确定是否存在空格。
空值率占比是指不可用或者未分配的待分析字段的值与对应数据量的比值。
有效值占比是指有效的待分析字段的值与对应数据量的比值。
重复率占比是指重复的待分析字段的值与对应数据量的比值。
可选地,在得到分析结果之后,还可以通过数据分析页面显示分析结果。
在一个示例中,数据分析页面包括数据预览子页面和统计分析子页面;数据预览子页面用于预览待分析字段,参考图3所示;统计分析子页面用于显示分析结果,参考图4所示。
可选地,通过数据分析页面显示分析结果,包括:使用抽样及presto从分析结果中获取第一结果数据并显示;和/或,使用spark算子从分析结果中获取第二结果数据并显示。其中,第二结果数据的复杂度高于第一结果数据的复杂度。
其中,presto可以通过使用分布式查询,可以快速高效的完成海量数据的查询。spark是专为大规模数据处理而设计的快速通用的计算引擎,其包括多种算子,比如:value类型的Transformation算子、Key-Value数据类型的Transformation算子和Action算子,本实施例不对spark算子的类型作限定。
之后,计算机设备可以根据分析结果确定数据的质检规则,这样,可以通过该质检规则针对性地检测出存在问题的数据。
综上所述,本实施例提供的基于数据预分析的数据规则探查方法,通过定义字段分析需求;对于字段分析需求指示的不同类型的待分析字段,使用待分析字段对应的分析规则进行分析,得到分析结果;分析结果用于指示待分析字段是否存在分析规则对应的问题;可以解决直接使用预设的质检规则进行数据治理时,由于质检规则准确性较低,导致产生大量无效运算的问题;通过数据预分析发现数据中存在哪些问题,进而可以根据这些问题形成质检规则来检测异常数据,提高规则的准确性与宽泛性。
图5是本申请一个实施例提供的基于数据预分析的数据规则探查装置的框图。该装置至少包括以下几个模块:需求定义模块510和字段分析模块520。
需求定义模块510,用于定义字段分析需求;
字段分析模块520,用于对于所述字段分析需求指示的不同类型的待分析字段,使用所述待分析字段对应的分析规则进行分析,得到分析结果;所述分析结果用于指示所述待分析字段是否存在所述分析规则对应的问题。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的基于数据预分析的数据规则探查装置在进行基于数据预分析的数据规则探查时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将基于数据预分析的数据规则探查装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于数据预分析的数据规则探查装置与基于数据预分析的数据规则探查方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请一个实施例提供的基于数据预分析的数据规则探查装置的框图。该装置至少包括处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的基于数据预分析的数据规则探查方法。
在一些实施例中,基于数据预分析的数据规则探查装置还可选包括有:外围设备接口和至少一个外围设备。处理器601、存储器602和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地,外围设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
当然,基于数据预分析的数据规则探查装置还可以包括更少或更多的组件,本实施例对此不作限定。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的基于数据预分析的数据规则探查方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的基于数据预分析的数据规则探查方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于数据预分析的数据规则探查方法,其特征在于,所述方法包括:
定义字段分析需求;
对于所述字段分析需求指示的不同类型的待分析字段,使用所述待分析字段对应的分析规则进行分析,得到分析结果;所述分析结果用于指示所述待分析字段是否存在所述分析规则对应的问题。
2.根据权利要求1所述的方法,其特征在于,所述定义字段分析需求,包括:
显示字段选择页面,所述字段选择页面包括不同分类的字段的输入控件;
通过所述不同分类的字段的输入控件接收所述待分析字段,得到所述字段分析需求。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过数据分析页面显示所述分析结果。
4.根据权利要求3所述的方法,其特征在于,所述数据分析页面包括数据预览子页面和统计分析子页面;
所述数据预览子页面用于预览所述待分析字段;
所述统计分析子页面用于显示所述分析结果。
5.根据权利要求3所述的方法,其特征在于,所述通过数据分析页面显示所述分析结果,包括:
使用抽样及presto从所述分析结果中获取第一结果数据并显示;
和/或,
使用spark算子从所述分析结果中获取第二结果数据并显示。
6.根据权利要求1所述的方法,其特征在于,所述待分析字段的类型包括字符串类型,所述字符串类型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计重复率占比、重复值示例枚举、确定是否存在空格、确定数据最大长度、确定是否符合规范、确定数据类型异常值和确定是否含特殊字符。
7.根据权利要求1所述的方法,其特征在于,所述待分析字段的类型包括日期类型,所述日期类型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计值域占比和确定是否存在空格。
8.根据权利要求1所述的方法,其特征在于,所述待分析字段的类型包括数字型,所述数字型为整型、浮点型和/或数值型;所述数字型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比、统计零值率占比、统计重复率占比、重复值示例枚举、确定是否存在空格、统计值域、计算均值和确定是否符合规范。
9.根据权利要求1所述的方法,其特征在于,所述待分析字段的类型包括布尔型,所述布尔型对应的分析规则包括:统计数据量、统计空值率占比、统计有效值占比和确定是否存在空格。
10.一种基于数据预分析的数据规则探查装置,其特征在于,所述装置包括:
需求定义模块,用于定义字段分析需求;
字段分析模块,用于对于所述字段分析需求指示的不同类型的待分析字段,使用所述待分析字段对应的分析规则进行分析,得到分析结果;所述分析结果用于指示所述待分析字段是否存在所述分析规则对应的问题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011402529.8A CN112699103A (zh) | 2020-12-04 | 2020-12-04 | 基于数据预分析的数据规则探查方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011402529.8A CN112699103A (zh) | 2020-12-04 | 2020-12-04 | 基于数据预分析的数据规则探查方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112699103A true CN112699103A (zh) | 2021-04-23 |
Family
ID=75506722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011402529.8A Pending CN112699103A (zh) | 2020-12-04 | 2020-12-04 | 基于数据预分析的数据规则探查方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699103A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098740A (zh) * | 2022-07-25 | 2022-09-23 | 广州市海捷计算机科技有限公司 | 一种基于多源异构数据源的数据质量检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130031044A1 (en) * | 2011-07-29 | 2013-01-31 | Accenture Global Services Limited | Data quality management |
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
CN107368957A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测体系的构建方法 |
CN111209538A (zh) * | 2020-01-03 | 2020-05-29 | 北京明略软件系统有限公司 | 一种表数据质量探查方法及装置 |
-
2020
- 2020-12-04 CN CN202011402529.8A patent/CN112699103A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130031044A1 (en) * | 2011-07-29 | 2013-01-31 | Accenture Global Services Limited | Data quality management |
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
CN107368957A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测体系的构建方法 |
CN111209538A (zh) * | 2020-01-03 | 2020-05-29 | 北京明略软件系统有限公司 | 一种表数据质量探查方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098740A (zh) * | 2022-07-25 | 2022-09-23 | 广州市海捷计算机科技有限公司 | 一种基于多源异构数据源的数据质量检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102522274B1 (ko) | 사용자 그룹화 방법 및 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 | |
CN109697468B (zh) | 样本图像的标注方法、装置及存储介质 | |
WO2021217846A1 (zh) | 接口数据处理方法、装置、计算机设备和存储介质 | |
CN112052138A (zh) | 业务数据质量检测方法、装置、计算机设备及存储介质 | |
US11893508B1 (en) | Aids for porting predictive models across tenants and handling impact of source changes on predictive models | |
CN112597182A (zh) | 数据查询语句的优化方法、装置、终端及存储介质 | |
CN110928739A (zh) | 一种进程监控方法、装置以及计算设备 | |
CN111782824A (zh) | 信息查询方法、装置、系统和介质 | |
CN112114787A (zh) | 报表生成方法、装置及存储介质 | |
CN113763502A (zh) | 一种图表生成方法、装置、设备和存储介质 | |
CN114116441A (zh) | 一种ui界面测试方法、装置、电子设备及存储介质 | |
CN112699103A (zh) | 基于数据预分析的数据规则探查方法及装置 | |
CN110543426A (zh) | 一种软件性能风险检测方法及装置 | |
CN112487067A (zh) | 基于数据配置化进行页面展示的方法、装置及存储介质 | |
CN117332766A (zh) | 流程图生成方法、装置、计算机设备和存储介质 | |
CN111221690A (zh) | 针对集成电路设计的模型确定方法、装置及终端 | |
JP6252296B2 (ja) | データ識別方法、データ識別プログラム及びデータ識別装置 | |
CN113392010B (zh) | 公共组件测试方法、装置、电子设备及存储介质 | |
CN113553454B (zh) | 图元数据处理方法、装置及电子设备 | |
CN112597363B (zh) | 一种用户处理方法、装置、电子设备及存储介质 | |
CN112380237B (zh) | 数据库隐患sql的预测方法、装置、终端及存储介质 | |
CN112667682A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN110852077A (zh) | 动态调整Word2Vec模型词典的方法、装置、介质及电子设备 | |
CN111275135A (zh) | 一种故障诊断方法、装置、设备、介质 | |
CN116578583B (zh) | 异常语句识别方法、装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210423 |
|
RJ01 | Rejection of invention patent application after publication |