CN113626417A - 数据齐备度分析系统和数据齐备度分析方法 - Google Patents
数据齐备度分析系统和数据齐备度分析方法 Download PDFInfo
- Publication number
- CN113626417A CN113626417A CN202010381733.XA CN202010381733A CN113626417A CN 113626417 A CN113626417 A CN 113626417A CN 202010381733 A CN202010381733 A CN 202010381733A CN 113626417 A CN113626417 A CN 113626417A
- Authority
- CN
- China
- Prior art keywords
- data
- score
- index
- integrity
- native
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 159
- 238000007670 refining Methods 0.000 claims abstract description 12
- 238000007405 data analysis Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Quality & Reliability (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据齐备度分析系统和数据齐备度分析方法,该数据齐备度分析系统包括存储装置、栏位数据描述档产生模块和广义数据齐备度分析模块。存储装置用以存储多个原生数据。栏位数据描述档产生模块产生多个原生数据所对应的多个栏位数据描述档。广义数据齐备度分析模块根据产生的栏位数据描述档判断原生数据的一致性指标的分数。广义数据齐备度分析模块根据每一栏位数据描述档的分类标签,从原生数据中取得要进行分析的标签的数据,并取得要进行分析的标签的数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数。一种数据齐备度分析方法亦在此公开。
Description
技术领域
本发明的实施例主要涉及一种数据齐备度分析技术,特别涉及一种通过不同齐备度分析模块和指标来分析不同面向数据的数据齐备度的数据齐备度分析技术。
背景技术
随着数据数据搜集更加便利,可利用的数据数据量急速增加,且数据分析技术也跟着蓬勃发展。有效的大数据数据分析结果需仰赖良好的数据品质,因此数据品质是数据分析上重要的课题。现行的数据品质诊断做法可分为数据分析专家自行利用程序语言分析,或使用市面上分析套装软件。然而,目前针对数据品质(齐备度)的分析方法尚不够全面,诊断的流程尚未标准化,亦缺乏针对后续应用检视进而再优化的面向。
发明内容
有鉴于上述问题,本发明的实施例提供了一种数据齐备度分析系统和数据齐备度分析方法。
根据本发明的一实施例提供了一种数据齐备度分析系统,包括一存储装置、一栏位数据描述档产生模块和一齐备度分析模块。存储装置用以存储多个原生数据。栏位数据描述档产生模块耦接上述存储装置,且用以产生上述多个原生数据所对应的多个栏位数据描述档。广义数据齐备度分析模块耦接上述存储装置和上述栏位数据描述档产生模块,以取得上述多个原生数据和上述多个栏位数据描述档。广义数据齐备度分析模块可根据上述多个栏位数据描述档判断原生数据的一一致性指标的分数。广义数据齐备度分析模块可根据每一上述栏位数据描述档的分类标签,从上述多个原生数据中取得要进行分析的标签的数据,并取得要进行分析的标签的数据所对应的一完整性指标的分数、一正确性指标的分数、一有效性指标的分数和一精炼度指标的分数。广义数据齐备度分析模块可根据上述一致性指标的分数,以及要进行分析的标签的数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数,判断要进行分析的标签的数据所对应的数据齐备度。
在一些实施例中,数据齐备度分析系统还包括一原生数据齐备度分析模块。原生数据齐备度分析模块耦接上述存储装置和上述栏位数据描述档产生模块,以取得上述多个原生数据和上述多个栏位数据描述档。原生数据齐备度分析模块可根据上述多个原生数据和上述多个栏位数据描述档,取得每一上述原生数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数。原生数据齐备度分析模块可根据每一上述原生数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数,判断每一上述原生数据的数据齐备度。
在一些实施例中,数据齐备度分析系统还包括一特定数据齐备度分析模块。特定数据齐备度分析模块耦接上述存储装置和上述栏位数据描述档产生模块,以取得上述多个原生数据和上述多个栏位数据描述档。特定数据齐备度分析模块可根据一特定模板,从上述多个原生数据中取得特定数据,以及取得上述特定数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数、上述精炼度指标的分数、一配适度指标的分数和一数据量指标的分数。特定数据齐备度分析模块可根据上述特定数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数、上述精炼度指标的分数、上述配适度指标的分数和上述数据量指标的分数,判断上述特定数据的数据齐备度。
在本发明的实施例中,配适度指标用以判断上述特定数据所包含的内容,是否满足上述特定模板所需要的内容。
在本发明的实施例中,数据量指标用以根据一学习曲线判断上述特定数据所包含的内容的数据量是否足够。
在本发明的实施例中,完整性指标用以判断数据的栏位的数据是否有遗漏。
在本发明的实施例中,正确性指标用以判断数据是否有格式错误、数值错误以及关联错误。
在本发明的实施例中,有效性指标用以判断数据是否发生异常集群分布,以及数据的数值是否超过一临界值。
在本发明的实施例中,精炼度指标用以判断数据中是否出现重复的内容或分布。
一致性指标用以判断多个原生数据之间的栏位是否具有关联性以及其名称和记录方式是否一致。
根据本发明的一实施例提供了一种数据齐备度分析方法。上述数据齐备度分析方法的步骤包括,通过栏位数据描述档产生模块产生多个原生数据所对应的多个栏位数据描述档;通过一广义数据齐备度分析模块取得上述多个原生数据和上述多个栏位数据描述档;通过上述广义数据齐备度分析模块,根据上述多个栏位数据描述档判断原生数据的一一致性指标的分数;通过上述广义数据齐备度分析模块,根据每一上述栏位数据描述档的分类标签,从上述多个原生数据取得要进行分析的标签的数据,并取得要进行分析的标签的数据所对应的一完整性指标的分数、一正确性指标的分数、一有效性指标的分数和一精炼度指标的分数;以及通过上述广义数据齐备度分析模块根据上述一致性指标的分数,以及要进行分析的标签的数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数,判断要进行分析的标签的数据所对应的数据齐备度。
关于本发明其他附加的特征与优点,本领域技术人员,在不脱离本发明的精神和范围内,当可根据本公开实施方法中所公开的数据齐备度分析系统和方法,做些许的变动与润饰而得到。
附图说明
图1是显示根据本发明的一实施例所述的一数据齐备度分析系统100的方框图。
图2是根据本发明的一实施例所述的一数据齐备度分析方法的流程图。
图3是根据本发明的另一实施例所述的一数据齐备度分析方法的流程图。
图4是根据本发明的另一实施例所述的一数据齐备度分析方法的流程图。
附图标记说明:
100:数据齐备度分析系统
110:存储装置
120:栏位数据描述档产生模块
130:原生数据齐备度分析模块
140:广义数据齐备度分析模块
150:特定数据齐备度分析模块
S210~S250、S310~S330、S410~S430:步骤
具体实施方式
本章节所叙述的是实施本发明的优选方式,目的在于说明本发明的精神而非用以限定本发明的保护范围,本发明的保护范围当视权利要求所界定者为准。
图1是显示根据本发明的一实施例所述的一数据齐备度分析系统100的方框图。如图1所示,数据齐备度分析系统100可包括一存储装置110、一栏位数据描述档产生模块120、一原生数据齐备度分析模块130、一广义数据齐备度分析模块140,以及一特定数据齐备度分析模块150。注意地是,在图1中所示的方框图,仅为了方便说明本发明的实施例,但本发明并不以图1为限。数据齐备度分析系统100中亦可包含其他元件。
根据本发明的实施例,收集到的多个原生数据可被存储在存储装置110中。此外,根据本发明的实施例,收集到的多个原生数据可先被转换成表格的形式。特别说明地是,本发明所述的原生数据是表示已转换成表格形式的原生数据。也就是说,本发明的实施例中所述存储装置110所存储的原生数据是表示多个数据表。存储在存储装置110的原生数据,可提供给原生数据齐备度分析模块130、广义数据齐备度分析模块140以及特定数据齐备度分析模块150,以进行数据齐备度分析。
根据本发明的实施例,当要对收集到的原生数据进行数据齐备度的分析时,栏位数据描述档产生模块120可从存储装置110取得原生数据,并根据取得的原生数据(例如:多个数据表),产生对应每一原生数据(数据表)的栏位数据描述档。在每一栏位数据描述档中可记录每一原生数据(数据表)的栏位名称、每一原生数据(数据表)的栏位所对应的栏位数据形态(type)、每一原生数据(数据表)的栏位所对应的分类标签(category)、原生数据(数据表)间的栏位关联,但本发明不以此为限。
每一原生数据(数据表)的栏位名称可以是产品名称、产品序号、物质的名称、人员的名称或测量数值,但本发明不以此为限。每一原生数据(数据表)的栏位所对应的栏位数据形态可包括,整数(可标示为int)、字串(可标示为varchar)、布林值(可标示为bool)或日期(可标示为data),但本发明不以此为限。每一原生数据(数据表)的栏位所对应的分类标签可包括,人、机器、原料、方法、环境、地点或测量,但本发明不以此为限。每一原生数据(数据表)的栏位所对应的内容可以是表示栏位名称所对应的描述。底下以表1和表2为例来说明。
产品 | 记录项目 | 序号 | 数值 |
A | 温度 | 1 | 31.5 |
A | 速度 | 1 | 3648 |
A | 电压 | 1 | 0.89 |
A | 温度 | 2 | 31 |
A | 速度 | 2 | 3680 |
A | 电压 | 2 | 0.89 |
… | … | … | … |
表1
栏位名称 | 栏位所对应的内容 | 栏位的数据形态 | 分类标签 |
产品 | 产品的名称 | 字串 | 其他 |
记录项目 | 产品属性 | 字串 | 其他 |
序号 | 产品序号 | 布林值 | 其他 |
数值 | 产品属性的数值 | 整数 | 测量 |
表2
表1是根据本发明一实施例所述的一原生数据S的示意图。如表1所示,表1所示的原生数据S涉及产品A的数据表。特别说明地是,原生数据S仅显示产品A的数据,但本发明不以此为限。其他原生数据亦可包含其他产品的数据表。此外,在表1的原生数据S中是以产品A的信息为例,但本发明不以此为限。原生数据亦可以是其他对应不同分析主题的数据表,例如:环境测量、人物分析、事件分析等。表2是根据本发明一实施例所述的一栏位数据描述档的示意图。如表2所示,表2所示的栏位数据描述档中显示了表1的原生数据S的每一栏位所对应的栏位名称、数据形态、分类标签。特别说明地是,表2仅用来说明本发明的实施例,但本发明不以此为限。栏位数据描述档中亦可包含其他信息,例如在多个不同的原生数据表之间,可以依据不同栏位之间的数据相似度来建立栏位关联的信息。
根据本发明的实施例,当原生数据齐备度分析模块130要分析原生数据(例如:多个数据表)的数据齐备度时,可从存储装置110取得要进行分析的原生数据,以及从栏位数据描述档产生模块120取得要进行分析的原生数据所对应的栏位数据描述档。接着,原生数据齐备度分析模块130可根据取得的原生数据和栏位数据描述档,计算出每一原生数据所对应的完整性(completeness)指标的分数、正确性(accuracy)指标的分数、有效性(validity)指标的分数和精炼度(compaction)指标的分数。原生数据齐备度分析模块130可再根据每一原生数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数,产生对应原生数据的数据齐备度的一整体分数。
根据本发明的实施例,完整性指标用以判断数据的栏位的数据是否有遗漏或缺失。根据本发明的一实施例,原生数据齐备度分析模块130可计算出原生数据的每一栏位数据缺失的比率,并根据每一栏位数据缺失的比率计算出原生数据对应的完整性指标的分数。根据本发明的一实施例,若一栏位的数据缺失的比率大于一临界值,原生数据齐备度分析模块130可产生一提示信息,以告知使用者此栏位的数据齐备度可能不足。
根据本发明的实施例,正确性指标用以判断数据是否有格式错误、数值错误以及关联错误。根据本发明的一实施例,原生数据齐备度分析模块130可根据原生数据包含的数据发生错误(格式错误、数值错误以及关联错误)的百分比,计算出原生数据对应的正确性指标的分数。
根据本发明的一实施例,原生数据齐备度分析模块130可根据栏位数据描述档所记录的栏位所对应的栏位数据形态,判断原生数据的每一栏位所包含的数据是否发生格式错误。举例来说,若一栏位所对应的栏位数据形态是整数(int),但其包含的数据却出现字串(varchar),原生数据齐备度分析模块130就会判断该栏位发生格式错误。注意地是,上述例子仅用以说明本发明的实施例,但本发明不以此为限。
根据本发明的一实施例,原生数据齐备度分析模块130可判断原生数据的每一栏位所包含的数据是否大于或小于一上限值或一下限值,以判断是否发生数值错误。举例来说,若一栏位所记录的数据是身高,但却出现小于0的数值,原生数据齐备度分析模块130就会判断该栏位发生数值错误。根据本发明的另一实施例,原生数据齐备度分析模块130可判断原生数据的每一栏位所包含的数据是否出现不合理的数值,以判断是否发生数值错误。举例来说,若一栏位所记录的数据是性别,但却出现和性别无关的数据,原生数据齐备度分析模块130就会判断该栏位发生数值错误。注意地是,上述例子仅用以说明本发明的实施例,但本发明不以此为限。
根据本发明的一实施例,原生数据齐备度分析模块130可判断原生数据的栏位的数据的关联是否发生错误,以判断是否发生关联错误。举例来说,若原生数据的一栏位所记录的数据是华氏温度,另一栏位所记录的数据是摄氏温度,当华氏温度和其对应的摄氏温度的关联发生错误时,原生数据齐备度分析模块130就会判断原生数据发生关联错误。举另一例子来说,若原生数据的一栏位所记录的数据是起始时间,另一栏位所记录的数据是结束时间,当一起始时间晚于其对应的结束时间,原生数据齐备度分析模块130就会判断原生数据发生关联错误。注意地是,上述例子仅用以说明本发明的实施例,但本发明不以此为限。
根据本发明的实施例,有效性指标用以判断数据是否发生异常集群分布,以及数据的数值(例如:离群数(outlier))是否超过一临界值。根据本发明的一实施例,原生数据齐备度分析模块130可判断原生数据的每一栏位所对应的数据是否太过分散或太过集中,以判断原生数据是否发生异常集群分布。当栏位所对应的数据太过分散或太过集中,会使得原生数据因样本过于分散或集中,而降低了原生数据的分析价值。因此,当原生数据的每一栏位所对应的数据太过分散或太过集中时,原生数据齐备度分析模块130就会判断原生数据发生异常集群分布。举例来说,若原生数据的一栏位所记录的数据是设备型号,当该栏位所记录的设备型号太过分散(即所收集的样本分散于不同型号)时,原生数据齐备度分析模块130就会判断原生数据发生异常集群分布。若原生数据的一栏位所记录的数据是性别,当该栏位所记录的数据太过集中(即所收集的样本过于集中,例如:所记录的性别都是男生)时,原生数据齐备度分析模块130就会判断原生数据发生异常集群分布。此外,根据本发明的另一实施例,原生数据齐备度分析模块130可判断原生数据的每一栏位所对应的数值是否超过一临界值,以判断原生数据中所收集到的样本是否出现异常。当原生数据的一栏位所对应的数值超过一临界值时,原生数据齐备度分析模块130就会判断原生数据中所收集到的样本出现异常。原生数据齐备度分析模块130可根据判断原生数据是否发生异常集群分布,以及原生数据的数值是否超过一临界值的结果,计算出原生数据所对应的有效性指标的分数。注意地是,上述例子仅用以说明本发明的实施例,但本发明不以此为限。
根据本发明的实施例,精炼度指标用以判断数据中是否出现重复的内容或分布。根据本发明的一实施例,原生数据齐备度分析模块130可判断原生数据中是否出现重复的栏位或重复的数据,以计算出原生数据所对应的精炼度指标的分数。
根据本发明的实施例,当广义数据齐备度分析模块140要分析原生数据(例如:多个数据表)的每一分类标签的数据的数据齐备度时,广义数据齐备度分析模块140可先从存储装置110取得要进行分析的原生数据,以及从栏位数据描述档产生模块120取得要进行分析的原生数据所对应的栏位数据描述档。广义数据齐备度分析模块140会判断每一原生数据彼此的相关性,以取得一致性(consistency)指标的分数。此外,广义数据齐备度分析模块140会根据每一栏位数据描述档所记录的分类标签(即每一原生数据的栏位所对应的分类标签),从每一原生数据中取出要进行分析的标签所对应的栏位的数据,并计算出要进行分析的标签的数据所对应的完整性(completeness)指标的分数、正确性(accuracy)指标的分数、有效性(validity)指标的分数和精炼度(compaction)指标的分数。最后,广义数据齐备度分析模块140可根据一致性指标的分数,以及要进行分析的标签的数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数,产生要进行分析的标签的数据对应的数据齐备度的一整体分数。以表1和表2为例,若广义数据齐备度分析模块140要进行分析的分类标签是“测量”,广义数据齐备度分析模块140就会从原生数据中取出分类标签是“测量”的栏位的数据,来进行数据齐备度的分析。
根据本发明的实施例,一致性指标用以判断多个原生数据之间的栏位是否具有关联性以及其名称和记录方式是否一致。举例来说,若原生数据A1的栏位B1和原生数据A2的栏位B2对应相同的数据,但栏位B1和栏位B2的栏位名称不一致或栏位B1和栏位B2的栏位数据形态不一致时,广义数据齐备度分析模块140就会判断原生数据A1的栏位B1和原生数据A2的栏位B2不一致。当原生数据彼此对应的相同栏位的名称和记录方式不一致时,将容易造成分析上的混淆。广义数据齐备度分析模块140会根据原生数据彼此对应的覆盖的比例,计算出一致性指标的分数。注意地是,上述例子仅用以说明本发明的实施例,但本发明不以此为限。
根据本发明的实施例,广义数据齐备度分析模块140计算需要进行分析的标签的数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数的方式和原生数据齐备度分析模块130计算原生数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数的计算方式类似,因此在此就不再赘述。
根据本发明的实施例,当特定数据齐备度分析模块150要分析原生数据(例如:多个数据表)的中对应一特定模板所对应的特定数据的数据齐备度时,特定数据齐备度分析模块150可先从存储装置110取得要进行分析的原生数据,以及从栏位数据描述档产生模块120取得要进行分析的原生数据所对应的栏位数据描述档。本发明的实施例所述的特定模板可以是表示针对特定应用、特定的情境、特定的需求所需要的特定数据的设定。底下会以表3来做说明。
表3
表3是根据本发明一实施例所述的一特定数据的示意图。参考表1所示,若特定模板是针对产品A的数据齐备度的分析,特定数据齐备度分析模块150会根据特定模板的信息,从原生数据中取得关于产品A的特定数据(如表3所示)。特别说明地是,表3仅用来说明本发明的实施例,但本发明不以此为限。特定模板亦可以是不同应用的分析。
特定数据齐备度分析模块150可根据特定模板的信息,从原生数据中取得特定数据,并计算出特定数据所对应的完整性(completeness)指标的分数、正确性(accuracy)指标的分数、有效性(validity)指标的分数、精炼度(compaction)指标的分数、配适度(fitness)指标的分数和数据量(quantity)指标的分数。最后,特定数据齐备度分析模块150可根据特定数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数、精炼度指标的分数、配适度指标的分数和数据量指标的分数,产生特定数据对应的数据齐备度的一整体分数。
根据本发明的实施例,配适度指标用以判断特定数据所包含的内容,是否满足特定模板所需要的内容。特定数据齐备度分析模块150可判断特定数据所包含的栏位,是否满足特定模板所需要的栏位,以计算出特定数据对应的配适度指标的分数。根据本发明的一实施例,特定数据齐备度分析模块150可根据对应此特定模板的历史数据判断目前特定数据所包含的内容是否可满足特定模板所需要的内容,以计算出特定数据对应的配适度指标的分数。
根据本发明的实施例,数据量指标用以根据一学习曲线判断特定数据所包含的内容的数据量是否足够。学习曲线可以是利用一数据学习方法来产生。特定数据齐备度分析模块150可根据特定数据所包含的内容的数据量产生一学习曲线,并根据学习曲线的斜率去计算,以产生数据量指标的分数。当学习曲线的斜率越小,表示特定数据所包含的内容的数据量越足够。当学习曲线的斜率越大,则表示特定数据所包含的内容的数据量越不足。
根据本发明的实施例,特定数据齐备度分析模块150计算特定数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数的方式和原生数据齐备度分析模块130计算原生数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数的计算方式类似,因此,在此就不再赘述。
根据本发明的实施例所提出的原生数据齐备度分析模块130、广义数据齐备度分析模块140以及特定数据齐备度分析模块150,数据齐备度分析系统100可分别产生数据不同面向的数据齐备度的分析结果。在一些实施例中,可仅采用原生数据齐备度分析模块130、广义数据齐备度分析模块140以及特定数据齐备度分析模块150的一者所产生的分析结果来判定数据的数据齐备度。在一些实施例中,可采用原生数据齐备度分析模块130、广义数据齐备度分析模块140以及特定数据齐备度分析模块150的多者所产生的分析结果,进行综合性的评估来判定数据的数据齐备度。
图2是根据本发明的一实施例所述的一数据齐备度分析方法的流程图。此数据齐备度分析齐备度方法可适用数据齐备度分析系统100。如图2所示,在步骤S210,数据齐备度分析系统100的栏位数据描述档产生模块会产生多个原生数据所对应的多个栏位数据描述档。在步骤S220,数据齐备度分析系统100的一广义数据齐备度分析模块取得多个原生数据和多个栏位数据描述档。在步骤S230,数据齐备度分析系统100的广义数据齐备度分析模块根据多个栏位数据描述档判断原生数据的一一致性指标的分数。在步骤S240,数据齐备度分析系统100的广义数据齐备度分析模块根据每一栏位数据描述档的分类标签,从多个原生数据取得要进行分析的标签的数据,并取得要进行分析的标签的数据所对应的一完整性指标的分数、一正确性指标的分数、一有效性指标的分数和一精炼度指标的分数。在步骤S250,数据齐备度分析系统100的广义数据齐备度分析模块根据一致性指标的分数,以及要进行分析的标签的数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数,判断要进行分析的标签的数据所对应的数据齐备度。
图3是根据本发明的一实施例所述的一数据齐备度分析方法的流程图。此数据齐备度分析方法可适用数据齐备度分析系统100。如图3所示,在步骤S310,数据齐备度分析系统100会产生多个原生数据所对应的多个栏位数据描述档。在步骤S320,数据齐备度分析系统100的一原生数据齐备度分析模块取得多个原生数据和多个栏位数据描述档。在步骤S330,数据齐备度分析系统100的原生数据齐备度分析模块根据多个原生数据和多个栏位数据描述档,取得每一原生数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数。在步骤S340,数据齐备度分析系统100的原生数据齐备度分析模块根据每一原生数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数和精炼度指标的分数,判断每一原生数据的数据齐备度。
图4是根据本发明的一实施例所述的一数据齐备度分析方法的流程图。此数据齐备度分析方法可适用数据齐备度分析系统100。如图4所示,在步骤S410,数据齐备度分析系统100的栏位数据描述档产生模块会产生多个原生数据所对应的多个栏位数据描述档。在步骤S420,数据齐备度分析系统100的一特定数据齐备度分析模块取得多个原生数据和多个栏位数据描述档。在步骤S430,数据齐备度分析系统100的特定数据齐备度分析模块根据一特定模板,从多个原生数据取得特定数据,以及取得特定数据所对应的完整性指标的分数、正确性指标的分数、有效性指标的分数、精炼度指标的分数、配适度指标的分数和数据量指标的分数。在步骤S440,数据齐备度分析系统100的特定数据齐备度分析模块根据完整性指标的分数、正确性指标的分数、有效性指标的分数、精炼度指标的分数、配适度指标的分数和数据量指标的分数,判断特定数据的数据齐备度。
根据本发明提出的数据齐备度分析方法,可通过不同分析模块和指标来分析不同面向的数据齐备度。
本说明书中以及权利要求中的序号,例如“第一”、“第二”等等,仅为了方便说明,彼此之间并没有顺序上的先后关系。
本发明的说明书所公开的方法和演算法的步骤,可直接通过执行一处理器直接应用在硬件以及软件模块或两者的结合上。一软件模块(包括执行指令和相关数据)和其它数据可存储在数据存储器中,像是随机存取存储器(RAM)、快闪存储器(flash memory)、只读存储器(ROM)、可抹除可规化只读存储器(EPROM)、电子可抹除可规划只读存储器(EEPROM)、暂存器、硬盘、便携式硬盘、光盘只读存储器(CD-ROM)、DVD或在此领域常用的技术中任何其它电脑可读取的存储媒体格式。一存储媒体可耦接至一机器装置,举例来说,像是电脑/处理器(为了说明的方便,在本说明书以处理器来表示),上述处理器可通过来读取信息(像是程序码),以及写入信息至存储媒体。一存储媒体可整合一处理器。一特殊应用集成电路(ASIC)包括处理器和存储媒体。一用户设备则包括一特殊应用集成电路。换句话说,处理器和存储媒体以不直接连接用户设备的方式,包含于用户设备中。此外,在一些实施例中,任何适合电脑程序的产品包括可读取的存储媒体,其中可读取的存储媒体包括和一或多个所公开实施例相关的程序码。在一些实施例中,电脑程序的产品可包括封装材料。
以上段落使用多种层面描述。显然的,本文的启示可以多种方式实现,而在范例中公开的任何特定架构或功能仅为一代表性的状况。根据本文的启示,任何本领域技术人员应理解在本文公开的各层面可独立实作或两种以上的层面可以合并实作。
虽然本公开已以实施例公开如上,然其并非用以限定本公开,任何本领域技术人员,在不脱离本公开的精神和范围内,当可作些许的变动与润饰,因此发明的保护范围当视权利要求所界定者为准。
Claims (20)
1.一种数据齐备度分析系统,包括:
一存储装置,用以存储多个原生数据;
一栏位数据描述档产生模块,耦接上述存储装置,且该栏位数据描述档产生模块用以产生对应于上述多个原生数据的多个栏位数据描述档;以及
一广义数据齐备度分析模块,耦接上述存储装置和上述栏位数据描述档产生模块,以取得上述多个原生数据和上述多个栏位数据描述档;
其中上述广义数据齐备度分析模块根据上述多个栏位数据描述档判断上述多个原生数据的一一致性指标的分数;
其中上述广义数据齐备度分析模块根据每一上述栏位数据描述档的分类标签,从上述多个原生数据中取得要进行分析的标签的数据,并取得要进行分析的标签的数据所对应的一完整性指标的分数、一正确性指标的分数、一有效性指标的分数和一精炼度指标的分数;
其中上述广义数据齐备度分析模块根据上述一致性指标的分数,以及要进行分析的标签的数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数,判断要进行分析的标签的数据所对应的数据齐备度。
2.如权利要求1所述的数据齐备度分析系统,还包括:
一原生数据齐备度分析模块,耦接上述存储装置和上述栏位数据描述档产生模块,以取得上述多个原生数据和上述多个栏位数据描述档;
其中上述原生数据齐备度分析模块根据上述多个原生数据和上述多个栏位数据描述档,取得每一上述原生数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数;
其中上述原生数据齐备度分析模块根据每一上述原生数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数,判断每一上述原生数据的数据齐备度。
3.如权利要求2所述的数据齐备度分析系统,还包括:
一特定数据齐备度分析模块,耦接上述存储装置和上述栏位数据描述档产生模块,以取得上述多个原生数据和上述多个栏位数据描述档;
其中上述特定数据齐备度分析模块根据一特定模板,从上述多个原生数据中取得特定数据,以及取得上述特定数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数、上述精炼度指标的分数、一配适度指标的分数和一数据量指标的分数;
其中上述特定数据齐备度分析模块根据上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数、上述精炼度指标的分数、上述配适度指标的分数和上述数据量指标的分数,判断上述特定数据的数据齐备度。
4.如权利要求3所述的数据齐备度分析系统,其中上述配适度指标用以判断上述特定数据所包含的内容,是否满足上述特定模板所需要的内容。
5.如权利要求3所述的数据齐备度分析系统,其中上述数据量指标用以根据一学习曲线判断上述特定数据所包含的内容的数据量是否足够。
6.如权利要求3所述的数据齐备度分析系统,其中上述完整性指标用以判断数据的栏位的数据是否有遗漏。
7.如权利要求3所述的数据齐备度分析系统,其中上述正确性指标用以判断数据是否有格式错误、数值错误以及关联错误。
8.如权利要求3所述的数据齐备度分析系统,其中上述有效性指标用以判断数据是否发生异常集群分布,以及数据的数值是否超过一临界值。
9.如权利要求3所述的数据齐备度分析系统,其中上述精炼度指标用以判断数据中是否出现重复的内容或分布。
10.如权利要求1所述的数据齐备度分析系统,其中上述一致性指标用以判断上述多个原生数据之间的栏位是否具有关联性以及其名称和记录方式是否一致。
11.一种数据齐备度分析方法,包括:
产生多个原生数据所对应的多个栏位数据描述档;
通过一广义数据齐备度分析模块取得上述多个原生数据和上述多个栏位数据描述档;
通过上述广义齐备度数据分析模块,根据上述多个栏位数据描述档判断上述多个原生数据的一一致性指标的分数;
通过上述广义数据齐备度分析模块,根据每一上述栏位数据描述档的分类标签,从上述多个原生数据取得要进行分析的标签的数据,并取得要进行分析的标签的数据所对应的一完整性指标的分数、一正确性指标的分数、一有效性指标的分数和一精炼度指标的分数;以及
通过上述广义数据齐备度分析模块根据上述一致性指标的分数,以及要进行分析的标签的数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数,判断要进行分析的标签的数据所对应的数据齐备度。
12.如权利要求11所述的数据齐备度分析方法,还包括:
通过一原生数据齐备度分析模块,取得上述多个原生数据和上述多个栏位数据描述档;
通过上述原生数据齐备度分析模块根据上述多个原生数据和上述多个栏位数据描述档,取得每一上述原生数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数;以及
通过上述原生数据齐备度分析模块根据每一上述原生数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数和上述精炼度指标的分数,判断每一上述原生数据的数据齐备度。
13.如权利要求12所述的数据齐备度分析方法,还包括:
通过一特定数据齐备度分析模块取得上述多个原生数据和上述多个栏位数据描述档;
通过上述特定数据齐备度分析模块根据一特定模板,从上述多个原生数据取得特定数据,以及取得上述特定数据所对应的上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数、上述精炼度指标的分数、一配适度指标的分数和一数据量指标的分数;以及
通过上述特定数据齐备度分析模块根据上述完整性指标的分数、上述正确性指标的分数、上述有效性指标的分数、上述精炼度指标的分数、上述配适度指标的分数和上述数据量指标的分数,判断上述特定数据的数据齐备度。
14.如权利要求13所述的数据齐备度分析方法,其中上述配适度指标用以判断上述特定数据所包含的内容,是否满足上述特定模板所需要的内容。
15.如权利要求13所述的数据齐备度分析方法,其中上述数据量指标用以根据一学习曲线判断上述特定数据所包含的内容的数据量是否足够。
16.如权利要求13所述的数据齐备度分析方法,其中上述完整性指标用以判断数据的栏位的数据是否有遗漏。
17.如权利要求13所述的数据齐备度分析方法,其中上述正确性指标用以判断数据是否有格式错误、数值错误以及关联错误。
18.如权利要求13所述的数据齐备度分析方法,其中上述有效性指标用以判断数据是否发生异常集群分布,以及数据的数值是否超过一临界值。
19.如权利要求13所述的数据齐备度分析方法,其中上述精炼度指标用以判断数据中是否出现重复的内容或分布。
20.如权利要求11所述的数据齐备度分析方法,其中上述一致性指标用以判断上述多个原生数据之间的栏位是否具有关联性以及其名称和记录方式是否一致。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010381733.XA CN113626417A (zh) | 2020-05-08 | 2020-05-08 | 数据齐备度分析系统和数据齐备度分析方法 |
US16/942,460 US11714798B2 (en) | 2020-05-08 | 2020-07-29 | Data readiness analysis system and data readiness analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010381733.XA CN113626417A (zh) | 2020-05-08 | 2020-05-08 | 数据齐备度分析系统和数据齐备度分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113626417A true CN113626417A (zh) | 2021-11-09 |
Family
ID=78377201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010381733.XA Pending CN113626417A (zh) | 2020-05-08 | 2020-05-08 | 数据齐备度分析系统和数据齐备度分析方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11714798B2 (zh) |
CN (1) | CN113626417A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040047439A (ko) * | 2002-11-30 | 2004-06-05 | 이원재 | 데이터 무결성 관리장치와 관리방법 그리고 그 방법을컴퓨터 상에서 실행하는 프로그램을 기록한 기록매체 |
TW200530861A (en) * | 2004-03-05 | 2005-09-16 | Bridgewell Inc | Database and database management system |
US7027931B1 (en) * | 2000-02-24 | 2006-04-11 | Bionostics, Inc. | System for statistical analysis of quality control data |
KR101125417B1 (ko) * | 2010-09-15 | 2012-07-11 | 재단법인 한국데이터베이스진흥원 | 데이터 품질 진단 방법과 시스템 |
US20120290543A1 (en) * | 2010-06-18 | 2012-11-15 | HCL America Inc. | Accounting for process data quality in process analysis |
TW201612834A (en) * | 2014-09-26 | 2016-04-01 | China Steel Corp | Method for adjusting manufacturing parameter and controlling system using the same |
CN107491381A (zh) * | 2017-07-04 | 2017-12-19 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测系统 |
KR102096328B1 (ko) * | 2019-08-12 | 2020-04-02 | 최미숙 | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7349826B2 (en) * | 2006-05-23 | 2008-03-25 | International Business Machines Corporation | Causal ladder mechanism for proactive problem determination, avoidance and recovery |
CN104133829B (zh) | 2013-12-18 | 2016-02-17 | 腾讯科技(深圳)有限公司 | 监控业务运行数据入库的方法和相关设备及系统 |
US10303667B2 (en) * | 2015-01-26 | 2019-05-28 | Rubrik, Inc. | Infinite versioning by automatic coalescing |
US20210092160A1 (en) * | 2015-10-28 | 2021-03-25 | Qomplx, Inc. | Data set creation with crowd-based reinforcement |
US20200074310A1 (en) * | 2018-08-31 | 2020-03-05 | Accenture Global Solutions Limited | Report generation |
-
2020
- 2020-05-08 CN CN202010381733.XA patent/CN113626417A/zh active Pending
- 2020-07-29 US US16/942,460 patent/US11714798B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7027931B1 (en) * | 2000-02-24 | 2006-04-11 | Bionostics, Inc. | System for statistical analysis of quality control data |
KR20040047439A (ko) * | 2002-11-30 | 2004-06-05 | 이원재 | 데이터 무결성 관리장치와 관리방법 그리고 그 방법을컴퓨터 상에서 실행하는 프로그램을 기록한 기록매체 |
TW200530861A (en) * | 2004-03-05 | 2005-09-16 | Bridgewell Inc | Database and database management system |
US20120290543A1 (en) * | 2010-06-18 | 2012-11-15 | HCL America Inc. | Accounting for process data quality in process analysis |
KR101125417B1 (ko) * | 2010-09-15 | 2012-07-11 | 재단법인 한국데이터베이스진흥원 | 데이터 품질 진단 방법과 시스템 |
TW201612834A (en) * | 2014-09-26 | 2016-04-01 | China Steel Corp | Method for adjusting manufacturing parameter and controlling system using the same |
CN107491381A (zh) * | 2017-07-04 | 2017-12-19 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测系统 |
KR102096328B1 (ko) * | 2019-08-12 | 2020-04-02 | 최미숙 | 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
US11714798B2 (en) | 2023-08-01 |
US20210349880A1 (en) | 2021-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Images don’t lie: Duplicate crowdtesting reports detection with screenshot information | |
Langel et al. | Variance estimation of the Gini index: revisiting a result several times published | |
WO2016114790A1 (en) | Reading difficulty level based resource recommendation | |
KR101060973B1 (ko) | 에세이에서 과도하게 반복되는 단어 사용의 자동 평가 | |
Dasu | Data glitches: Monsters in your data | |
Carlson et al. | Bootstrapping information extraction from semi-structured web pages | |
US11049409B1 (en) | Systems and methods for treatment of aberrant responses | |
CN111160843B (zh) | 产品数据管理系统中图与文档自检方法 | |
Green et al. | Relative accuracy of two modified parallel analysis methods that use the proper reference distribution | |
CN113626417A (zh) | 数据齐备度分析系统和数据齐备度分析方法 | |
TWI781400B (zh) | 資料齊備度分析系統和資料齊備度分析方法 | |
US20220018823A1 (en) | Information processing apparatus, control method, and non-transitory storage medium | |
Theron | The use of data mining for predicting injuries in professional football players | |
US20220391203A1 (en) | Source Code Analysis Apparatus and Source Code Analysis Method | |
CN110827934A (zh) | 一种crf的监查方法及装置 | |
CN116168793A (zh) | 体检数据的处理分析方法及相关设备 | |
CN113679380B (zh) | 步态监测方法、装置、设备及存储介质 | |
CN115910367A (zh) | 近视防控分级预警的方法、装置、电子设备及存储介质 | |
JP5326387B2 (ja) | 経過情報出力方法および経過情報出力プログラム | |
CN115310772A (zh) | 一种药械质量监管结果数据监测方法、药械交易平台及系统 | |
Cheng et al. | An exploratory strategy to identify and define sources of differential item functioning | |
US20210318949A1 (en) | Method for checking file data, computer device and readable storage medium | |
Peng et al. | Bayesian approaches for critical velocity modelling of data from intermittent efforts | |
Haverkamp et al. | Differences of Type I error rates for ANOVA and Multilevel-Linear-Models using SAS and SPSS for repeated measures designs | |
Torkar et al. | Statistical and practical significance of empirical software engineering research: A maturity model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |