CN115344755A - 数据标准中数据约束条件推荐方法及系统 - Google Patents

数据标准中数据约束条件推荐方法及系统 Download PDF

Info

Publication number
CN115344755A
CN115344755A CN202210982090.3A CN202210982090A CN115344755A CN 115344755 A CN115344755 A CN 115344755A CN 202210982090 A CN202210982090 A CN 202210982090A CN 115344755 A CN115344755 A CN 115344755A
Authority
CN
China
Prior art keywords
data
attribute type
frequency distribution
similarity evaluation
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210982090.3A
Other languages
English (en)
Inventor
毛大群
罗中
孙松涛
左名才
金正平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Esensoft Software Co ltd
Original Assignee
Beijing Esensoft Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Esensoft Software Co ltd filed Critical Beijing Esensoft Software Co ltd
Priority to CN202210982090.3A priority Critical patent/CN115344755A/zh
Publication of CN115344755A publication Critical patent/CN115344755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据标准中数据约束条件推荐方法及系统,用以解决数据约束条件推荐处理效率较低的技术问题。其中,一种数据约束条件推荐方案,通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件,使得本申请提供的技术方案不再依赖于根据数据的元数据进行数据约束条件匹配,提高了数据约束的自动化水平和约束效率。

Description

数据标准中数据约束条件推荐方法及系统
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据标准中数据约束条件推荐方法及系统。
背景技术
随着越来越多的企业进行数字化转型之路,数字化企业在日常的信息化管理中引入了数据治理理念,利用数据对业务赋能,以提升管理效率。
数据治理过程中的一项重要工作是为每个数据指标生成对应的数据标准,然后利用数据标准来对数据指标进行约束和规范化。随着企业信息系统的数量增加以及数据量的持续增长,企业在数据治理过程中为数据指标梳理数据标准的工作负担越来越大。
在实现现有技术的过程中,发明人发现:
现有技术中为数据指标生成数据标准的流程是:建立统一的数据标准库,创建数据标准;为数据指标生成元数据;利用元数据属性和数据标准属性进行比对,将比对匹配度较高的数据标准作为对应的数据指标的候选数据标准,经过人工确认后得到数据指标的数据标准。
传统方法中的一个重要环节是为数据指标生成元数据属性,目前主要依赖人工设置数据指标的元数据属性。如果数据指标没有设置元数据,现有方法将无法正常工作。在数据指标数量巨大的情况下,这种元数据属性生成方法费时费力,在一定程度上限制了生成数据标准的工作效率。
因此,需要提供一种新的数据约束条件推荐方案,用以解决数据约束条件推荐效率较低的技术问题。
发明内容
本申请实施例提供一种新的数据约束条件推荐方案,用以解决数据约束条件推荐效率较低的技术问题。
具体的,一种数据标准中数据约束条件推荐方法,包括以下步骤:
在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;
在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;
当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;
根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
进一步的,当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
进一步的,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
进一步的,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;
采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;
确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。
进一步的,所述方法应用于推荐数据标准;
所述目标数据为数据指标。
本申请实施例还提供一种数据标准中数据约束条件推荐系统。
具体的,一种数据标准中数据约束条件推荐系统,包括:
获取模块,用于在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;还用于在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;
评估模块,用于当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;还用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
推荐模块,用于确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;还用于根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
进一步的,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体用于:
当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
进一步的,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体用于:
当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
进一步的,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体用于:
当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;
采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;
确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。
进一步的,所述系统应用于推荐数据标准;
所述目标数据为数据指标。
本申请实施例提供的技术方案,至少具有如下有益效果:
通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件,使得本申请提供的技术方案不再依赖于根据数据的元数据进行数据约束条件匹配,提高了数据约束的自动化水平和约束效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种数据标准中数据约束条件推荐方法的流程框图。
图2为本申请实施例提供的一种数据标准中数据约束条件推荐系统的结构示意图。
100 数据标准中数据约束条件推荐系统
11 获取模块
12 评估模块
13 推荐模块
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要再次强调的是,现有技术为数据指标生成数据标准的一个重要环节是为数据指标生成元数据属性,目前主要依赖人工设置数据指标的元数据属性。如果数据指标没有设置元数据,现有方法将无法正常工作。本领域的技术人员应该了解的是,所述描述数据的数据,必须由人工设置。因此在数据指标数量巨大的情况下,这种元数据属性生成方法费时费力,在一定程度上限制了生成数据标准的工作效率。
请参照图1,为解决数据约束条件推荐效率较低的技术问题,本申请提供一种数据标准中数据约束条件推荐方法,包括以下步骤:
在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;
在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;
当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;
根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
直观可见,本申请所提供的技术方案不再依赖于根据数据的元数据进行数据约束条件匹配,而是通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件。因此提高了数据约束的自动化水平和约束效率。
下面详细介绍本申请的具体实施过程:
S110:在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布。
可以理解的是,所述第一数据库用于存储待约束数据,可以将待约束数据视为目标数据。在具体的应用场景中,所述第一数据库表现为数据指标库,所述待约束数据表现为需要生成数据标准的数据指标。数据指标可以理解为表征企业的规模、程度、比例、结构等经营属性的数值。
进一步的,数据指标库由需要生成数据标准的数据指标组成,单个数据指标在数据指标库中采用一个字段进行表征。因此数据指标库可以看成是数据指标集合。可以通过自动化抽取其他数据库的字段,组成数据指标集合,数据指标集合构成数据指标库。
进一步的,从其他数据库中抽取字段建立数据指标集合时,还会抽取字段数据类型、数据记录抽样样本。此处的字段数据类型对应待约束数据的属性类型,数据记录抽样样本对应待约束数据的频数分布。因此,第一数据库存储待约束数据、待约束数据的属性类型、待约束数据的频数分布。
在本申请提供的应用场景中,字段数据类型有多种表现形式,例如分类数据类型、可枚举类型、不可枚举类型、非整数数值数据类型、整数数值数据类型。
在第一数据库存储待约束数据、待约束数据的属性类型、待约束数据的频数分布的基础上,可以在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布。
还需要指出的是,所述数据指标库中的数据指标和通常的元数据有本质区别,所述数据指标不包含有业务含义的元数据属性,可看成是原始数据字段的简化副本。随着企业信息系统的增长,数据指标库会随着增长,例如:企业系统中某个数据库中新增了一个字段,数据指标库会相应增加一个数据指标。
S120:在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布。
可以理解的是,所述第二数据库用于存储已约束数据、已约束数据的数据约束条件。在具体的应用场景中,所述第二数据库表现为数据标准库,所述数据约束条件表现为数据标准。数据标准可以理解为对数据的表达、格式及定义的一致约定,包括数据业务属性、技术属性和管理属性的统一定义,用于满足内部分析管理需要或外部监管要求。数据标准至少通过基础属性、业务属性、技术属性和管理属性中一种来描述指标数据规范化要求。例如,在基础属性中定义标准名称,明确指标分类;在业务属性中明确指标的业务含义、业务口径和指标维度等;在技术属性中明确指标取数范围、指标取数方式、指标条件、指标数据类型、长度和精度等。可见数据标准实质上是数据约束条件。
进一步的,数据标准库不仅保存有数据标准,还保存有已经确定了数据标准的指标数据,以及这些数据指标和对应数据标准的关联关系。此处的已经确定了数据标准的指标数据,可以视为已约束数据。同理,已约束数据的数据标准可以视为已约束数据的数据约束条件。
此外,数据标准库还保存有已约束数据的属性类型、已约束数据的频数分布。
在本申请提供的应用场景中,可以将已约束数据视为对比数据。因此,在第二数据库存储已约束数据、已约束数据的属性类型、已约束数据的频数分布、已约束数据的数据约束条件、已约束数据和对应数据约束条件的关联关系的基础上,可以在第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布。
还需要强调的是,本申请所述对比数据用于与目标数据进行比较,目的是为了找到与目标数据相似的对比数据,从而将对比数据的数据约束条件作为目标数据的推荐数据约束条件。
而本申请正是通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件。
这相当于将目标数据与众多数据约束条件的匹配度计算方案转化为目标数据与对比数据的相似度计算方案。并进一步将目标数据与对比数据的相似度计算方案转化为,同一属性类型的目标数据、对比数据的频数分布相似度计算方案。
之所以需要对上述技术方案进行转化,是发明人考虑到相同业务含义的数据具也可能存在不同的数据约束条件或表示为不同的数据字段,因此即使业务含义相同,待约束数据和已约束数据的相似度可能是较低的。而具有相同业务含义的数据,即使它们存放在不同的数据库中、数据表中或者表示为不同的数据字段,它们的数据记录抽样样本也将具有统计学上的相似性。因此,本申请通过计算同一属性类型的目标数据、对比数据的频数分布相似度,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件是更为准确、合理的。
而一旦目标数据、对比数据的属性类型不同,意味着二者的频数分布也没有对比意义。因此在本申请提供的技术方案中,不再进一步探讨属性类型不同的目标数据、对比数据的频数分布相似度。
S130:当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果。
S140:当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果。
需要指出的是,目标数据或对比数据具有多种属性类型,为使描述简洁,此处仅以目标数据或对比数据的第一属性类型、第二属性类型进行描述,并不能因此而理解为对发明专利范围的限制。
在本申请提供的具体实施方式中,数据标准中数据约束条件推荐方法应用于推荐数据标准,所述目标数据为数据指标。则目标数据的属性类型至少包括分类数据类型、可枚举类型、不可枚举类型、非整数数值数据类型、整数数值数据类型中一种。
以第一属性类型为分类数据类型为例,当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。所述采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验即为第一相似度评估策略。
通常第二属性类型不同于第一属性类型,因此在第一属性类型为分类数据类型的基础上,可枚举类型、不可枚举类型、非整数数值数据类型、整数数值数据类型中一种都可以是所述第二属性类型。
以第二属性类型为非整数数值数据类型为例,当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。所述采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验即为不同于第一相似度评估策略的第二相似度评估策略。
以第二属性类型为整数数值数据类型为例,当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;
采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;
确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。所述采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果即为不同于第一相似度评估策略的第二相似度评估策略。
当然,在具体的实施过程中,也可能存在目标数据的属性类型复杂的情况。在此情况下,本申请所提供的数据标准中数据约束条件推荐方法仍旧通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件。
例如,当目标数据的属性类型与对比数据的属性类型同为分类数据类型并且都是可枚举类型,则采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。所述分类数据类型且可枚举类型可以视为本申请所述第一属性类型,所述采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验即可视为第一相似度评估策略。
当目标数据的属性类型与对比数据的属性类型同为分类数据类型并且都是不可枚举类型,则先去除目标数据和对比数据中空格或标点符号等特殊符号后,生成新的目标数据和对比数据;再采用皮尔逊卡方检验算法,对新的目标数据的频数分布与新的对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。所述分类数据类型且不可枚举类型可以视为本申请所述不同于第一属性类型的第二属性类型,所述去除目标数据和对比数据中空格或标点符号等特殊符号后,生成新的目标数据和对比数据;再采用皮尔逊卡方检验算法,对新的目标数据的频数分布与新的对比数据的频数分布进行同分布检验即可视为第二相似度评估策略。
可以理解的是,所述可枚举类型的数据中不存在空格或标点符号等特殊符号,不可枚举类型的数据中存在空格或标点符号等特殊符号。
本申请还提供一种判定分类数据类型的数据是否为可枚举类型的判定方法,包括以下步骤:
针对属性类型为分类数据类型的数据,设数据的频数分布中有m个样本值、互不相同的样本值的个数为n,定义该数据的样本值重复度为R=m/n,定义R1(n)为第二判断阈值,第二判断阈值是n的函数。
根据可枚举类型的数据的R值和n值,建立函数R1(n)的预测模型。所述函数R1(n)的预测模型中,R1为因变量,n为自变量。
模型的训练数据为数据抽样样本数据中的互不相同的样本值个数n和样本值重复度R。
定义第三判断阈值R2=R1(n)-3*MSE,其中MSE为模型R1(n)的均方误差。
当R大于第三判断阈值R2时,判定该数据指标为可枚举类型;
当R小于或等于第三判断阈值R2时,判定该数据指标为不可枚举类型。
S150:确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据。
S160:根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
可以理解的是,所述第一预设阈值用于在对应相似度评估结果的若干对比数据中,筛选出可判定为与目标数据相似的对比数据。将判定为与目标数据相似的对比数据定义为相似对比数据,所述相似对比数据可以有若干个。
由于相似对比数据与目标数据相似,那么相似对比数据的约束条件自然也适合目标数据。根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为目标数据的推荐数据约束条件。
综上所述,本申请提供的数据标准中数据约束条件推荐方法,不再依赖于根据数据的元数据进行数据约束条件匹配,而是通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件,提高了数据约束的自动化水平和约束效率。
请参照图2,为支持本申请所提供的数据标准中数据约束条件推荐方法,本申请还提供一种数据标准中数据约束条件推荐系统100,包括:
获取模块11,用于在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;还用于在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;
评估模块12,用于当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;还用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
推荐模块13,用于确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;还用于根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
具体的,获取模块11在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布。
可以理解的是,所述第一数据库用于存储待约束数据,可以将待约束数据视为目标数据。在具体的应用场景中,所述第一数据库表现为数据指标库,所述待约束数据表现为需要生成数据标准的数据指标。数据指标可以理解为表征企业的规模、程度、比例、结构等经营属性的数值。
进一步的,数据指标库由需要生成数据标准的数据指标组成,单个数据指标在数据指标库中采用一个字段进行表征。因此数据指标库可以看成是数据指标集合。获取模块11可以通过自动化抽取其他数据库的字段,组成数据指标集合,数据指标集合构成数据指标库。
进一步的,获取模块11从其他数据库中抽取字段建立数据指标集合时,还会抽取字段数据类型、数据记录抽样样本。此处的字段数据类型对应待约束数据的属性类型,数据记录抽样样本对应待约束数据的频数分布。因此,第一数据库存储待约束数据、待约束数据的属性类型、待约束数据的频数分布。
在本申请提供的应用场景中,字段数据类型有多种表现形式,例如分类数据类型、可枚举类型、不可枚举类型、非整数数值数据类型、整数数值数据类型。
在第一数据库存储待约束数据、待约束数据的属性类型、待约束数据的频数分布的基础上,获取模块11可以在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布。
还需要指出的是,所述数据指标库中的数据指标和通常的元数据有本质区别,所述数据指标不包含有业务含义的元数据属性,可看成是原始数据字段的简化副本。随着企业信息系统的增长,数据指标库会随着增长,例如:企业系统中某个数据库中新增了一个字段,数据指标库会相应增加一个数据指标。
此外,获取模块11还在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布。
可以理解的是,所述第二数据库用于存储已约束数据、已约束数据的数据约束条件。在具体的应用场景中,所述第二数据库表现为数据标准库,所述数据约束条件表现为数据标准。数据标准可以理解为对数据的表达、格式及定义的一致约定,包括数据业务属性、技术属性和管理属性的统一定义,用于满足内部分析管理需要或外部监管要求。数据标准至少通过基础属性、业务属性、技术属性和管理属性中一种来描述指标数据规范化要求。例如,在基础属性中定义标准名称,明确指标分类;在业务属性中明确指标的业务含义、业务口径和指标维度等;在技术属性中明确指标取数范围、指标取数方式、指标条件、指标数据类型、长度和精度等。可见数据标准实质上是数据约束条件。
进一步的,数据标准库不仅保存有数据标准,还保存有已经确定了数据标准的指标数据,以及这些数据指标和对应数据标准的关联关系。此处的已经确定了数据标准的指标数据,可以视为已约束数据。同理,已约束数据的数据标准可以视为已约束数据的数据约束条件。
此外,数据标准库还保存有已约束数据的属性类型、已约束数据的频数分布。
在本申请提供的应用场景中,获取模块11可以将已约束数据作为对比数据。因此,在第二数据库存储已约束数据、已约束数据的属性类型、已约束数据的频数分布、已约束数据的数据约束条件、已约束数据和对应数据约束条件的关联关系的基础上,获取模块11可以在第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布。
还需要强调的是,本申请所述对比数据用于与目标数据进行比较,目的是为了找到与目标数据相似的对比数据,从而将对比数据的数据约束条件作为目标数据的推荐数据约束条件。
而评估模块12正是通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件。
这相当于将目标数据与众多数据约束条件的匹配度计算方案转化为目标数据与对比数据的相似度计算方案。并进一步将目标数据与对比数据的相似度计算方案转化为,同一属性类型的目标数据、对比数据的频数分布相似度计算方案。
之所以需要对上述技术方案进行转化,是发明人考虑到相同业务含义的数据具也可能存在不同的数据约束条件或表示为不同的数据字段,因此即使业务含义相同,待约束数据和已约束数据的相似度可能是较低的。而具有相同业务含义的数据,即使它们存放在不同的数据库中、数据表中或者表示为不同的数据字段,它们的数据记录抽样样本也将具有统计学上的相似性。因此,本申请通过计算同一属性类型的目标数据、对比数据的频数分布相似度,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件是更为准确、合理的。
而一旦目标数据、对比数据的属性类型不同,意味着二者的频数分布也没有对比意义。因此在本申请提供的技术方案中,不再进一步探讨属性类型不同的目标数据、对比数据的频数分布相似度。
具体的,当目标数据的属性类型与对比数据的属性类型同为第一属性类型,评估模块12根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果。
当目标数据的属性类型与对比数据的属性类型同为第二属性类型,评估模块12根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果。
需要指出的是,目标数据或对比数据具有多种属性类型,为使描述简洁,此处仅以目标数据或对比数据的第一属性类型、第二属性类型进行描述,并不能因此而理解为对发明专利范围的限制。
在本申请提供的具体实施方式中,数据标准中数据约束条件推荐系统100应用于推荐数据标准,所述目标数据为数据指标。则目标数据的属性类型至少包括分类数据类型、可枚举类型、不可枚举类型、非整数数值数据类型、整数数值数据类型中一种。
以第一属性类型为分类数据类型为例,当目标数据的属性类型与对比数据的属性类型同为分类数据类型,评估模块12采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。所述采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验即为第一相似度评估策略。
通常第二属性类型不同于第一属性类型,因此在第一属性类型为分类数据类型的基础上,可枚举类型、不可枚举类型、非整数数值数据类型、整数数值数据类型中一种都可以是所述第二属性类型。
以第二属性类型为非整数数值数据类型为例,当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,评估模块12采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。所述采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验即为不同于第一相似度评估策略的第二相似度评估策略。
以第二属性类型为整数数值数据类型为例,当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,评估模块12采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;
采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;
确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。所述采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果即为不同于第一相似度评估策略的第二相似度评估策略。
当然,在具体的实施过程中,也可能存在目标数据的属性类型复杂的情况。在此情况下,评估模块12仍旧通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件。
例如,当目标数据的属性类型与对比数据的属性类型同为分类数据类型并且都是可枚举类型,评估模块12则采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。所述分类数据类型且可枚举类型可以视为本申请所述第一属性类型,所述采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验即可视为第一相似度评估策略。
当目标数据的属性类型与对比数据的属性类型同为分类数据类型并且都是不可枚举类型,评估模块12则先去除目标数据和对比数据中空格或标点符号等特殊符号后,生成新的目标数据和对比数据;再采用皮尔逊卡方检验算法,对新的目标数据的频数分布与新的对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。所述分类数据类型且不可枚举类型可以视为本申请所述不同于第一属性类型的第二属性类型,所述去除目标数据和对比数据中空格或标点符号等特殊符号后,生成新的目标数据和对比数据;再采用皮尔逊卡方检验算法,对新的目标数据的频数分布与新的对比数据的频数分布进行同分布检验即可视为第二相似度评估策略。
可以理解的是,所述可枚举类型的数据中不存在空格或标点符号等特殊符号,不可枚举类型的数据中存在空格或标点符号等特殊符号。
评估模块12判定分类数据类型的数据是否为可枚举类型,具体包括:
针对属性类型为分类数据类型的数据,设数据的频数分布中有m个样本值、互不相同的样本值的个数为n,定义该数据的样本值重复度为R=m/n,定义R1(n)为第二判断阈值,第二判断阈值是n的函数。
根据可枚举类型的数据的R值和n值,建立函数R1(n)的预测模型。所述函数R1(n)的预测模型中,R1为因变量,n为自变量。
模型的训练数据为数据抽样样本数据中的互不相同的样本值个数n和样本值重复度R。
定义第三判断阈值R2=R1(n)-3*MSE,其中MSE为模型R1(n)的均方误差。
当R大于第三判断阈值R2时,判定该数据指标为可枚举类型;
当R小于或等于第三判断阈值R2时,判定该数据指标为不可枚举类型。
推荐模块13确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据。
推荐模块13根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
可以理解的是,所述第一预设阈值用于在对应相似度评估结果的若干对比数据中,筛选出可判定为与目标数据相似的对比数据。推荐模块13将判定为与目标数据相似的对比数据定义为相似对比数据,所述相似对比数据可以有若干个。
由于相似对比数据与目标数据相似,那么相似对比数据的约束条件自然也适合目标数据。推荐模块13根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为目标数据的推荐数据约束条件。
综上所述,本申请提供的数据标准中数据约束条件推荐系统100,不再依赖于根据数据的元数据进行数据约束条件匹配,而是通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件,提高了数据约束的自动化水平和约束效率。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据标准中数据约束条件推荐方法,其特征在于,包括以下步骤:
在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;
在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;
当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;
根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
2.如权利要求1所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
3.如权利要求2所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
4.如权利要求2所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;
采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;
确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。
5.如权利要求1所述的方法,其特征在于,所述方法应用于推荐数据标准;
所述目标数据为数据指标。
6.一种数据标准中数据约束条件推荐系统,其特征在于,包括:
获取模块,用于在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;还用于在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;
评估模块,用于当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;还用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
推荐模块,用于确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;还用于根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
7.如权利要求6所述的系统,其特征在于,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体用于:
当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
8.如权利要求7所述的系统,其特征在于,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体用于:
当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
9.如权利要求7所述的系统,其特征在于,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体用于:
当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,采用柯尔莫哥洛夫-斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;
采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;
确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。
10.如权利要求6所述的系统,其特征在于,所述系统应用于推荐数据标准;
所述目标数据为数据指标。
CN202210982090.3A 2022-08-16 2022-08-16 数据标准中数据约束条件推荐方法及系统 Pending CN115344755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210982090.3A CN115344755A (zh) 2022-08-16 2022-08-16 数据标准中数据约束条件推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210982090.3A CN115344755A (zh) 2022-08-16 2022-08-16 数据标准中数据约束条件推荐方法及系统

Publications (1)

Publication Number Publication Date
CN115344755A true CN115344755A (zh) 2022-11-15

Family

ID=83951227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210982090.3A Pending CN115344755A (zh) 2022-08-16 2022-08-16 数据标准中数据约束条件推荐方法及系统

Country Status (1)

Country Link
CN (1) CN115344755A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955736A (zh) * 2023-09-15 2023-10-27 北京南天智联信息科技股份有限公司 数据标准中数据约束条件推荐方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955736A (zh) * 2023-09-15 2023-10-27 北京南天智联信息科技股份有限公司 数据标准中数据约束条件推荐方法及系统
CN116955736B (zh) * 2023-09-15 2023-12-01 北京南天智联信息科技股份有限公司 数据标准中数据约束条件推荐方法及系统

Similar Documents

Publication Publication Date Title
US11977541B2 (en) Systems and methods for rapid data analysis
US7353227B2 (en) Conflict resolution engine
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN109582906B (zh) 数据可靠度的确定方法、装置、设备和存储介质
CN112084448B (zh) 相似信息处理方法以及装置
CN112860769A (zh) 一种能源规划数据管理系统
CN115344755A (zh) 数据标准中数据约束条件推荐方法及系统
Ehrlinger et al. A novel data quality metric for minimality
US8650180B2 (en) Efficient optimization over uncertain data
CN102402684A (zh) 确定证书类型的方法和装置以及翻译证书的方法和装置
JP2007188343A (ja) スキーマ統合支援装置、スキーマ統合支援方法およびスキーマ統合支援プログラム
CN111538495B (zh) 识别项目中引用Python开源组件的方法及系统、设备
CN111680083B (zh) 智能化多级政府财政数据采集系统及数据采集方法
US20120271789A1 (en) Apparatus and method for prediction development speed of technology
CN106844218B (zh) 一种基于演化切片的演化影响集预测方法
CN109918367B (zh) 一种结构化数据的清洗方法、装置、电子设备及存储介质
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
US6968339B1 (en) System and method for selecting data to be corrected
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
CN112214983A (zh) 一种数据记录查重方法及系统
CN113901332B (zh) 任职历程信息挖掘方法和装置、以及存储介质和电子设备
CN113377926B (zh) 一种质量信息本体演化的注册元模型的构建方法
CN111984776B (zh) 一种基于词向量模型的机构名称规范方法
CN117539920B (zh) 基于房产交易多维度数据的数据查询方法及系统
WO2008099143A2 (en) Method, computer apparatus and computer program for identifying unusual combinations of values in data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination