CN114185878A - 一种基于字段定义生成数据校验的方法及装置 - Google Patents
一种基于字段定义生成数据校验的方法及装置 Download PDFInfo
- Publication number
- CN114185878A CN114185878A CN202111350769.2A CN202111350769A CN114185878A CN 114185878 A CN114185878 A CN 114185878A CN 202111350769 A CN202111350769 A CN 202111350769A CN 114185878 A CN114185878 A CN 114185878A
- Authority
- CN
- China
- Prior art keywords
- standard
- verification
- generating
- field definition
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- General Factory Administration (AREA)
Abstract
本发明公开了一种基于字段定义生成数据校验的方法及装置,主要解决现有技术中存在的现有方法中人工输入标准制定慢,实施周期长;标准无版本管理修改后影响大及不利于质量报告形成的问题。该一种基于字段定义生成数据校验的方法首先根据待校验数据表字段结构形成初版标准;然后根据校验需求在初版标准上修改形成符合需求的终版标准;再然后依据相关联的终版标准生成多个表的校验流程;最后根据校验流程得到每日的质量报告。通过上述方案,本发明达到了标准生成快、能复用、修改影响小、有分类便于质量报告多维度展示、实施周期短、增强产品力的目的。
Description
技术领域
本发明涉及数据校验技术领域,具体地说,是涉及一种基于字段定义生成数据校验的方法及装置。
背景技术
现有基于字段定义生成数据校验的方法是先获取需要校验的数据字段,然后选择字段,手动制定标准,再然后依据标准和字段关系生成一个校验流程,最后依据校验结果生成质量报告。
上述现有方法存在的问题有:第一,人工输入标准制定慢,实施周期长;第二,标准无版本管理修改后影响大;第三,标准没有按维度分类,不利于质量报告形成。
发明内容
本发明的目的在于提供一种基于字段定义生成数据校验的方法及装置,以解决现有方法中人工输入标准制定慢,实施周期长;标准无版本管理修改后影响大及不利于质量报告形成的问题。
为了解决上述问题,本发明提供如下技术方案:
一种基于字段定义生成数据校验的方法包括以下步骤:
S1、根据待校验数据表字段结构形成初版标准;
S2、根据校验需求在步骤S1的初版标准上修改形成符合需求的终版标准;
S3、依据相关联的终版标准生成多个表的校验流程;
S4、根据步骤S3的校验流程生成校验结果;
S5、根据步骤S4的校验结果得到每日的质量报告。
进一步的,步骤S1的具体过程为:首先查询并记录待校验数据表字段结构,然后分析字段结构定义,形成初版标准。
进一步的,步骤S2终版标准形成后按需求分类,按版本记录。
进一步的,步骤S3中校验流程中包含的维度分类为规范性,准确性。
进一步的,步骤S4的具体过程为:校验流程受设定的周期管理,按设定周期运行,生成校验结果。
进一步的,步骤S5的具有过程为:将校验结果按天统计分析,得到每日的质量报告。
一种基于字段定义生成数据校验的装置包括存储器:用于存储可执行指令;处理器:用于执行所述存储器中存储的可执行指令,实现一种基于字段定义生成数据校验的方法。
与现有技术相比,本发明具有以下有益效果:
(1)本发明先制定初版标准,然后根据需求形成终版标准,再根据关联的终版标准生成校验流程,定期运行最终得到每日质量报告;避免了人工输入标准,提高了标准制定速度,缩短了标准制定周期。
(2)本发明的终版标准在初版标准上修改得来,终版标准按需求分类,按版本记录,对标准的版本进行了管理,初版标准不会变,终版标准按需求分类记录版本,标准的版本管理更加有序。
(3)本发明的校验流程包含各类需要的维度,使质量报告更加符合需求。
(4)本发明中通过修改初版标准得到终版标准,对终版标准进行管理,校验流程中增加了各类需要的维度,使本发明具有标准生成快、能复用、修改影响小、有分类便于质量报告多维度展示、实施周期短、增强产品力的特点。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1为实施例1的流程结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合图1对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
字段:数据库表字段,如果把一个人的简历做成数据库表,那么姓名、年龄、身高等就是字段,多个字段构成一张完整的表结构,不同人的简历字段信息构成这张表的数据。
字段定义:数据库的字段定义依据信息特征而存储为不同的数据结构,如“姓名”一般是20个以内的汉字或字母,定义为字符型20;如“年龄”一般是0-150,定义为数字型0-150;出身日期,定义为日期型,收入定义为浮点型。
标准:校验数据是否符合使用目的一种规则,如数字型0-150是一个包含类型和范围的标准,可以用在校验年龄是否在0-150岁、里程是否在0-150公里等所有满足需求的场景。
数据校验:基于某个指定标准(国家标准、行业标准、本地标准)判断数据的规范性,准确性,一致性,及时性等维度是否符合使用目的。
质量报告:对数据校验结果按业务部门、业务类别、其他业务需求等多维度加权计算一个得分(满分100为质量优异)以及各维度的详细得分、部门排名等。便于企业对当前数据质量有量化的认识,为领导提供决策参考。
实施例1
如图1所示,一种基于字段定义生成数据校验的方法自动提取字段定义形成标准,标准修改版本化管理,待校验数据选定多个标准自动生成校验结果和质量报告;其具体实现过程如下:
第一步:查询并记录待校验数据表字段结构。
第二步:分析字段结构定义,形成初版标准;这步就形成了所有待校验数据的初版标准,并依据字段关联上对应数据表,正式使用标准时只需微调或不调整标准的长度类型,即可满足校验需求。
初版标准形成过程:查询数据库表字段名,字段类型,字段长度,初版标准就是字段名作为标准名,字段类型作为标准指定的类型,长度作为标准允许存储的数据大小。
第三步:搜集数据校验需求,在初版标准基础上修改为符合需求的标准。
第四步:修改后的标准按需求分类,按版本记录;如V1版本标准对应A表校验,V2版本标准对应B表校验,同一标准修改互不干涉。
第五步:依据关联的标准生成多个表的校验流程,校验流程中包含规范性,准确性等维度分类。维度是人为定义的,如规范性可表示日期字段A符合yyyy-MM-dd的日期格式校验,如准确性可表示字段B中的数字大小等于100的校验。这里定义的维度可以把一张表上各个字段的校验方式分为多种类型,质量报告可按规范性这一维度来评定一张表的质量情况。
第六步:校验流程受周期管理,定期运行,生成校验结果。
第七步:校验结果按天统计分析,得到每日的质量报告;以校验结果为依据,按业务分类统计每日数据达标率,分析各地区部门生产质量,环比同比质量差异等。
实施例2
一种基于字段定义生成数据校验的装置包括存储器:用于存储可执行指令;处理器:用于执行所述存储器中存储的可执行指令,实现一种基于字段定义生成数据校验的方法。
本发明主要用于数据治理中的数据质量检验,对现有数据质量有个标准的评价,形成的质量报告为领导提供决策参考。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种基于字段定义生成数据校验的方法,其特征在于,包括以下步骤:
S1、根据待校验数据表字段结构形成初版标准;
S2、根据校验需求在步骤S1的初版标准上修改形成符合需求的终版标准;
S3、依据相关联的终版标准生成多个表的校验流程;
S4、根据步骤S3的校验流程生成校验结果;
S5、根据步骤S4的校验结果得到每日的质量报告。
2.根据权利要求1所述的一种基于字段定义生成数据校验的方法,其特征在于,步骤S1的具体过程为:首先查询并记录待校验数据表字段结构,然后分析字段结构定义,形成初版标准。
3.根据权利要求1所述的一种基于字段定义生成数据校验的方法,其特征在于,步骤S2终版标准形成后按需求分类,按版本记录。
4.根据权利要求1所述的一种基于字段定义生成数据校验的方法,其特征在于,步骤S3中校验流程中包含的维度分类为规范性,准确性。
5.根据权利要求1所述的一种基于字段定义生成数据校验的方法,其特征在于,步骤S4的具体过程为:校验流程受设定的周期管理,按设定周期运行,生成校验结果。
6.根据权利要求1所述的一种基于字段定义生成数据校验的方法,其特征在于,步骤S5的具有过程为:将校验结果按天统计分析,得到每日的质量报告。
7.一种基于字段定义生成数据校验的装置,其特征在于,包括
存储器:用于存储可执行指令;
处理器:用于执行所述存储器中存储的可执行指令,实现如权利要求1-6任一项所述的一种基于字段定义生成数据校验的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111350769.2A CN114185878A (zh) | 2021-11-15 | 2021-11-15 | 一种基于字段定义生成数据校验的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111350769.2A CN114185878A (zh) | 2021-11-15 | 2021-11-15 | 一种基于字段定义生成数据校验的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114185878A true CN114185878A (zh) | 2022-03-15 |
Family
ID=80540937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111350769.2A Pending CN114185878A (zh) | 2021-11-15 | 2021-11-15 | 一种基于字段定义生成数据校验的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114185878A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093144A (zh) * | 2023-07-31 | 2023-11-21 | 蒲惠智造科技股份有限公司 | 用于bom订单的灵活存储方法及系统 |
-
2021
- 2021-11-15 CN CN202111350769.2A patent/CN114185878A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093144A (zh) * | 2023-07-31 | 2023-11-21 | 蒲惠智造科技股份有限公司 | 用于bom订单的灵活存储方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Long | The surprising social mobility of Victorian Britain | |
Lenz et al. | Summarizability in OLAP and statistical data bases | |
US11113317B2 (en) | Generating parsing rules for log messages | |
CN111581393B (zh) | 一种基于电力行业客户服务数据的知识图谱的构建方法 | |
KR20120126093A (ko) | 네트워크에서 프렌드 피드를 관리하는 방법, 시스템 및 서버 | |
CN103605651A (zh) | 一种基于olap多维分析的数据处理展现方法 | |
CN110851667A (zh) | 一种多源头大量数据的整合分析方法及工具 | |
TW201915777A (zh) | 金融非結構化文本分析系統及其方法 | |
JP2008084151A (ja) | 情報表示装置および情報表示方法 | |
CN112817834B (zh) | 数据表评估方法及装置 | |
CN110955801B (zh) | 一种cognos报表指标的知识图谱分析方法及系统 | |
CN114077705A (zh) | 一种对社交平台上的媒体账号进行画像的方法和系统 | |
CN112860899B (zh) | 标签生成方法、装置、计算机设备和计算机可读存储介质 | |
CN111177139A (zh) | 基于数据质量体系的数据质量验证监控及预警方法和系统 | |
CN111311120A (zh) | 一种企业申报科技项目的自评价方法及系统 | |
US10146881B2 (en) | Scalable processing of heterogeneous user-generated content | |
CN112101807A (zh) | 一种电信行业集团客户价值综合评估的方法及相关装置 | |
WO2021103401A1 (zh) | 数据对象分类方法、装置、计算机设备和存储介质 | |
US8412671B2 (en) | System and method for developing a star schema | |
CN114185878A (zh) | 一种基于字段定义生成数据校验的方法及装置 | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
US20130198147A1 (en) | Detecting statistical variation from unclassified process log | |
Marks | The measurement of socioeconomic status and social class in the LSAY project | |
CN116701506A (zh) | 融合非结构化数据的需求计划合规性检验方法 | |
CN115796600A (zh) | 一种舆情风险预警方法、系统、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |