CN102650996B - 确定数据库表之间的数据映射关系的方法和装置 - Google Patents

确定数据库表之间的数据映射关系的方法和装置 Download PDF

Info

Publication number
CN102650996B
CN102650996B CN201110047151.9A CN201110047151A CN102650996B CN 102650996 B CN102650996 B CN 102650996B CN 201110047151 A CN201110047151 A CN 201110047151A CN 102650996 B CN102650996 B CN 102650996B
Authority
CN
China
Prior art keywords
database table
attribute
property value
data
target database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110047151.9A
Other languages
English (en)
Other versions
CN102650996A (zh
Inventor
谈华芳
朱俊
高雪峰
鞠琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201110047151.9A priority Critical patent/CN102650996B/zh
Priority to US13/402,378 priority patent/US20120221509A1/en
Publication of CN102650996A publication Critical patent/CN102650996A/zh
Application granted granted Critical
Publication of CN102650996B publication Critical patent/CN102650996B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于确定源数据库表和目标数据库表之间的数据映射关系的方法和装置,该方法包括:从源数据库表的多行数据获取主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取相应主键之外的特定属性的属性值及其对应的主键值集合;判断源数据库表的至少一个其他属性与目标数据库表的特定属性之间是否存在潜在的数据映射关系;如果判断为是,确定源数据库表的至少一个其他属性与目标数据库表的特定属性之间的数据映射关系。一种用于验证数据的方法和装置,该方法包括上述方法的各步骤,和根据数据映射关系验证源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值的附加步骤。

Description

确定数据库表之间的数据映射关系的方法和装置
技术领域
本发明涉及数据处理技术,具体涉及一种用于确定源数据库表和目标数据库表之间的数据映射关系的方法和装置,以及一种用于验证数据的方法和装置。
背景技术
多年以来,商业智能(Business Intelligence,简称BI)一直是一个技术热点,越来越多的企业采用了商业智能技术,以提供决策支持。商业智能是指用于发现、收集、分析企业的诸如销售、成本、收入等商业数据的基于计算机的技术。商业智能技术通常通过ETL(Extract-Transform-Load,即数据抽取、转换、装载)过程,从企业自身的诸如ERP(Enterprise Resource Planning,即企业资源计划)、CRM(Customer Relationship Management,即客户关系管理)等业务系统及企业所处的外部环境等数据源中提取数据,并将所述数据进行适当转换后,注入到数据仓库中;然后,通过OLAP(On-Line Analytical Processing,即联机分析处理)等技术生成可用于决策支持的数据报告。图1示出了商业智能技术的示意图。如图所示,来自于ERP、CRM、其他业务系统数据库等数据源的数据通过ETL过程被注入到数据仓库中,而通过OLAP过程可以根据数据仓库中的数据生成各种用于决策支持的数据报告。
数据仓库中数据的准确性对于提供正确的决策支持是至关重要的。在目前的BI解决方案中,经常会发生如下三种类型的数据错误:一是在数据仓库中出现脏数据(dirty data),这种脏数据并不是由数据源中的数据经适当转换而产生的,而是在ETL过程中错误地产生的;二是对数据源中的数据应用了错误的过滤器逻辑,过滤掉了不该过滤的数据,使得数据仓库中无法出现本该出现的数据;三是ETL开发不符合设计规范,在ETL过程中应用了错误的数据转换,使得数据仓库中的数据与数据源中的数据之间的映射关系错误。
为了发现并改正BI解决方案中的数据错误,需要对BI解决方案中的数据进行验证。图2示出了一种现有的基于样本的验证方法。如图所示,该方法需要测试者首先从目标数据库(即数据仓库)中获得随机样本目标数据,理解所述目标数据的业务含义,根据所述业务含义生成针对源数据库(即作为数据源的业务系统数据库等)的查询,通过针对源数据库执行所述查询而获取源数据,并将源数据与目标数据进行比较,以便发现数据错误。
这种数据验证方法具有如下缺点:
高度依赖于测试者理解目标数据和源数据的业务含义,这种要求对很多测试者来说是很难达到的;
该数据验证方法是人工进行的,而不是自动化的,因而费时费力,效率很低;
由于目标数据库和源数据库中的数据通常非常庞大,因此通常不可能验证所有的数据;
由于只能对目标数据库和源数据库中的部分数据进行验证,因此可能无法发现BI解决方案中存在的某些错误。
发明内容
为了克服现有的数据验证方法的缺点,提出了本发明的用于验证数据的方法和装置。
根据本发明的一个方面,提出了一种用于确定源数据库表和目标数据库表之间的数据映射关系的方法,包括:从至少一个源数据库表中的多行数据获取所述主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取相应主键之外的特定属性的属性值及其对应的相应主键值集合;判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系;如果判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。
根据本发明的另一个方面,提出了一种用于验证数据的方法,包括:上述用于确定源数据库表和目标数据库表之间的数据映射关系的方法中的各步骤;以及根据所确定的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证。
根据本发明的再一个方面,提出了一种用于确定源数据库表和目标数据库表之间的数据映射关系的装置,包括:属性值剖析模块,用于从至少一个源数据库表中的多行数据获取主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取相应主键之外的特定属性的属性值及其对应的相应主键值集合;潜在数据映射关系判断模块,用于判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系;数据映射关系确定模块,用于如果判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。
根据本发明的又一个方面,提出了一种用于验证数据的装置,包括:上述用于确定源数据库表和目标数据库表之间的数据映射关系的装置中的各模块;以及验证模块,用于根据所述确定的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证。
本发明的技术方案的优点包括以下各项中的至少一项:
本发明的技术方案从源数据和目标数据本身中自动导出源数据和目标数据之间的数据映射关系,而不需要测试者从设计规范中人工获得源数据和目标数据之间的数据映射关系,因而适应于设计规范不易获得的情况,并节省了测试者阅读和理解复杂的设计规范的时间和成本,也不需要测试者理解目标数据和源数据的业务含义;
由于本发明的技术方案自动获取源数据库和目标数据库中的数据,从中导出源数据和目标数据之间的数据映射关系,并根据导出的数据映射关系对源数据和目标数据进行验证,因此,本发明的技术方案能够容易地实现对目标数据库和源数据库中的全部数据进行验证,从而实现全面的测试覆盖,能够发现目标数据库和源数据库中存在的诸如脏数据、错误的过滤器逻辑、错误的数据转换等各种数据错误。
附图说明
所附权利要求中阐述了被认为是本发明的特点的创造性特征。但是,通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点,在附图中:
图1示出了商业智能技术的示意图;
图2示出了一种现有的基于样本的验证方法;
图3示出了根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的方法;以及
图4示出了根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的装置。
具体实施方式
下面参照附图来说明本发明的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本发明。但是,对于本技术领域内的技术人员明显的是,本发明的实现可不具有这些具体细节中的一些。此外,应当理解的是,本发明并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本发明,而无论它们是否涉及不同的实施例。因此,下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定,除非权利要求中明确提出。
现参照附图3,其示出了根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的方法。如图所示,该方法包括以下步骤:
在步骤301,根据至少一个源数据库表中的多行数据剖析(profile)至少一个源数据库表的主键之外的至少一个其他属性的属值,并根据目标数据库表中的多行数据剖析目标数据库表的相应主键之外的特定属性的属性值,也就是说,从至少一个源数据库表中的多行数据获取所述主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取所述相应主键之外的特定属性的属性值及其对应的相应主键值集合。具体地,在该步骤中,针对所述至少一个源数据库表的主键之外的至少一个其他属性中的每一个其他属性,从至少一个源数据库表中的多行数据获得该其他属性的所有不同的属性值,并且获得该其他属性的每一个不同的属性值所对应的所述主键的主键值集合;类似地,针对所述目标数据库表的相应主键之外的特定属性,从目标数据库表中的多行数据获得该特定属性的所有不同的属性值,并且获得该特定属性的每一个不同的属性值所对应的所述相应主键的主键值集合。
根据本发明的实施例,所述目标数据库表为商业智能解决方案中的数据仓库中的数据库表,所述至少一个源数据库表是作为数据仓库的数据源的业务系统数据库中的数据库表。当然,这并非是对本发明的限制。事实上,本发明的方法适用于在任何应用中存在着数据来源或数据转换关系的任何源数据库表和目标数据库表。
如本领域的技术人员所知的,主键是指数据库表中可以唯一地确定数据库表的一行的属性(即列)集合,也就是说,在该数据库表中,不存在这样的两行或更多行,其中,构成主键的一个或多个属性的值是相同的。所述至少一个源数据库表的主键与所述目标数据库表的相应主键之间具有相对应的关系,两者可以是相同的,也可以是不同的。当所述至少一个源数据库表的主键与所述目标数据库表的主键不同时,由于可以获得两者的主键值之间的对应关系,因此,可以将两者的主键值转换为相同的主键值,例如通过将源数据库表的主键值转换为目标数据库表的相应主键值,或者通过将目标数据库表的相应主键值转换为源数据库表的主键值,或者将源数据库表的主键值与目标数据库表的相应主键值转换为共同的主键值,这样,可以便利于后续的比较操作。
所述至少一个源数据库表的主键之外的至少其他属性可以是所述至少一个源数据库表的主键之外的由用户选定的任何一个或多个其他属性,也可以是所述至少一个源数据库表的主键之外的全部其他属性;所述目标数据库表的相应主键之外的特定属性可以是所述目标数据库表的相应主键之外的由用户选定的任何一个其他属性。
例如,从源数据库表的多行数据中获得的属性“价格”的所有不同的属性值及其对应的主键值集合可以如下表所示:
表1源属性“价格”
  属性值   主键值集合
  1   001,004
  2   002
  3   003
从源数据库表的多行数据中获得的属性“数量”的所有不同的属性值及其对应的主键值集合可以如下表所示:
表2源属性“数量”
  属性值   主键值集合
  1   001
  2   003
  3   002,004
从目标数据库表的多行数据中获得的属性“成本”的所有不同的属性值及其对应的主键值集合可以如下表所示:
表3目标属性“成本”
  属性值   主键值集合
  1   001
  3   004
  6   002,003
根据本发明的实施例,该步骤301可以由本发明的装置自动执行。
根据本发明的实施例,该方法还包括在步骤301之前的一可选步骤,在该可选步骤中,确定至少一个源数据库表的主键以及目标数据库表的相应主键。优选地,可由用户确定至少一个源数据库表的主键以及目标数据库表的相应主键。用户可以通过阅读BI设计规范文档等来确定至少一个源数据库表的主键以及目标数据库表的相应主键。当然,也可以设想以自动化的方式由BI设计规范文档等确定至少一个源数据库的主键以及目标数据库表的相应主键。所述目标数据库表的相应主键是指经由ETL等数据转换过程由至少一个源数据库表的主键转换而来的目标数据库表的主键。
根据本发明的实施例,该方法还包括在步骤301之前的另一可选步骤,在该另一可选步骤中,获取至少一个源数据库表中的多行数据以及目标数据库表中的多行数据。如本领域的技术人员所知的,可以通过对至少一个源数据库表以及目标数据库表执行相应的查询语句来获取至少一个源数据库表中的多行数据以及目标数据库表中的多行数据。在本发明的一个实施例中,可以获取至少一个源数据库表中的所有行的数据以及目标数据库表中的所有行的数据。当然,也可以考虑获取至少一个源数据表中的满足指定条件(例如,指定时间范围内)的部分行的数据以及目标数据库表中的满足指定条件的部分行的数据。根据本发明的实施例,该另一可选步骤可以由本发明的装置自动执行。
在步骤302,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系。
根据本发明的实施例,所述判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系是通过比较所述至少一个源数据库表的至少一个其他属性的属性值所对应的主键值集合与所述目标数据库表的特定属性的属性值所对应的相应主键值集合进行的。
根据本发明的进一步的一个实施例,该步骤302包括以下子步骤:
子步骤302-1,判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的一个其他属性的各属性值所对应的主键值集合相对应。当源数据库表的主键值与目标数据库表的相应主键值相同时,可以直接判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合与所述源数据库表的一个其他属性的各属性值所对应的主键值集合是否相等。
子步骤302-2,响应于所述判定为是,判断所述源数据库表的所述一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系。
也就是说,对于目标数据库表的特定属性的每一个属性值所对应的相应主键值集合,判定是否存在源数据库表的某一个其他属性的某一个属性值所对应的主键值集合与该相应主键值集合相对应或相等;而对于源数据库表的某一个其他属性的每一个属性值所对应的主键值集合,判定是否存在目标数据库表的特定属性的某一个属性值所对应的相应主键值集合与所述主键值集合相对应或相等。如果上述判定为是,则可判断目标数据库表的该特定属性与源数据库表的该其他属性之间存在潜在的数据映射关系。
例如,假设从目标数据库表的多行数据中获得的属性“价格”的所有不同的属性值及其对应的主键值集合如下表所示:
表4目标属性“价格”
  属性值   主键值集合
  10   001,004
  20   002
  30   003
通过对比表1和表4可知,源属性“价格”的各属性值所对应的主键值集合{001,004}、{002}、{003}分别与目标属性“价格”的各属性值所对应的主键值集合{001,004}、{002}、{003}}相等,因此,可判断源属性“价格”与目标属性“价格”之间存在潜在的数据映射关系。
根据本发明的进一步的另一个实施例,该步骤302包括以下子步骤:
子步骤302-3,判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相对应。当源数据库表的主键值与目标数据库表的相应主键值相同时,可以直接判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相等。
子步骤302-4,响应于所述判定为是,判断所述源数据库表的所述多个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系。
也就是说,对于目标数据库表的特定属性的每一个属性值所对应的相应主键值集合,判定是否存在源数据库表的某两个或更多个其他属性的各自的属性值所对应的主键值集合的交集与该相应主键值集合相对应或相等。如果上述判定为是,则可判断目标数据库表的该特定属性与源数据库表的该两个或更多个其他属性之间存在潜在的数据映射关系。
例如,根据上述表1、表2和表3可知,目标属性“成本”的各属性值所对应的相应主键值集合与源属性“价格”和源属性“数量”的各属性值所对应的主键值集合之间存在着以下关系:
{001,004}∩{001}={001}
{001,004}∩{002,004}={004}
({002}∪{003})∩({002,004}∪{003})={002,003}
也就是说,目标属性“成本”的每个属性值所对应的相应主键值集合都与源属性的“价格”的某一个属性值所对应的主键值集合(或多个属性值所分别对应的主键值集合的并集)与源属性“数量”的某一个属性值所对应的主键值集合(或多个属性值所分别对应的主键值集合的并集)的交集相等。这样,就可以判定目标属性“成本”与源属性“价格”和“数量”之间存在潜在的数据映射关系。
从以上示例还可以得知,当目标属性的某个属性值所对应的相应主键值集合只包括一个主键值时,可以直接从多个源属性中的每个源属性的各个属性值所对应的主键值集合中寻找包含该主键值(或对应的主键值)的主键值集合,并判断目标属性的该相应主键值集合是否与所寻找到的各个源属性的主键值集合的交集相等或相对应。而当目标属性的某个属性值所对应的相应主键值集合包括两个以上的主键值时,既可以针对其中的每个主键值,从多个源属性中的每个源属性的各个属性值所对应的主键值集合中寻找包含该主键值(或对应的主键值)的主键值集合,并判断目标属性的该主键值是否与所寻找到的各个源属性的主键值集合的交集相等或相对应;也可以首先从多个源属性中的每个源属性的各个属性值所对应的主键值集合中获得每个源属性的包含目标属性的各主键值(或各相应主键值)的主键值集合的并集,并判断各个源属性的所述获得的并集的交集是否与所述目标属性的该属性值所对应的相应主键值集合相等或相对应。
例如,在以上示例中,对于目标属性“成本”的属性值“1”所对应的相应主键值集合{001},可以寻找到包含属性值“001”的、源属性“价格”的属性值“1”所对应的主键值集合{001,004}以及源属性“数量”的属性值“1”所对应的主键值集合{001},并可判断目标属性的相应主键值集合{001}与源属性的主键值集合{001,004}和{001}的交集相等。
对于目标属性“成本”的属性值“3”所对应的相应主键值集合{004},可以寻找到包含属性值“004”的主键值集合{001,004},该主键值集合{001,004}是源属性“价格”的属性值“1”所对应的,以及主键值集合{002,004},该主键值集合{002,004}是源属性“数量”的属性值“3”所对应的,并可判断目标属性的相应主键值集合{004}与源属性的主键值集合{001,004}和{002,004}的交集相等。
而对于目标属性“成本”的属性值“6”所对应的相应主键值集合{002,003},可以寻找到包含其中的属性值“002”的、源属性“价格”的属性值“2”所对应的主键值集合{002}以及源属性“数量”的属性值“3”所对应的主键值集合{002,004},并可判断目标属性的相应主键值“002”(或仅包含该主键值的集合{002})与源属性的主键值集合{002}和{002,004}的交集相等,还可以寻找到包含其中的属性值“003”的、源属性“价格”的属性值“3”所对应的主键值集合{003}以及源属性“数量”的属性值“2”所对应的主键值集合{003},并可判断目标属性的相应主键值“003”(或仅包含该主键值的集合{003})与源属性的主键值集合{003}和{003}的交集相等。
作为另一种选择,对于目标属性“成本”的属性值“6”所对应的相应主键值集合{002,003},可以获得包含其中的属性值“002”或“003”的、源属性“价格”的属性值“2”所对应的主键值集合{002}以及属性值“3”所对应的主键值集合{003}的并集{002,003},以及源属性“数量”的属性值“2”所对应的主键值集合{003}与属性值“3”所对应的主键值集合{002,004}的并集{003,002,004},并可判断目标属性的相应主键值集合{002,003}与所获得的源属性的主键值集合的并集{002,003}和{003,002,004}的交集相等。
根据本发明的再一个实施例,该步骤302同时包括上述子步骤302-1、302-2、302-3和302-4。
根据本发明的一些实施例,上述子步骤302-1中的判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的一个其他属性的各属性值所对应的主键值集合相等或相对应是基于所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的属性值所对应的相应主键值集合以及所述源数据库表的一个其他属性的全部属性值中超过指定阈值百分比的属性值所对应的主键值集合进行的;上述子步骤302-3中的判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相等或相对应是基于所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的属性值所对应的相应主键值集合以及所述源数据库表的多个其他属性的全部属性值中超过指定阈值百分比的属性值所对应的主键值集合进行的。也就是说,并不需要判定所述目标数据库表的特定属性的每一个属性值所对应的相应主键值集合都与所述源数据库表的至少一个其他属性的每一个相应属性值所对应的主键值集合相等或相对应,而只需要判定所述目标数据库表的特定属性的超过指定阈值百分比(例如98%)的属性值所对应的相应主键值集合与所述源数据库表的至少一个其他属性的超过指定阈值百分比(例如98%)的属性值所对应的主键值集合相等或相对应,就可以判断所述源数据库表的所述至少一个其他属性与所述目标数据库表的所述特定属性之间存在潜在的数据映射关系。
根据本发明的另一些实施例,所述判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合与所述源数据库表的至少一个其他属性的各属性值所对应的主键值集合是否相等或相对应是基于所述目标数据库表的特定属性的全部属性值中的每一个属性值所对应的相应主键值集合以及所述源数据库表的至少一个其他属性的全部属性值中每一个相应属性值所对应的主键值集合进行的。
根据本发明的实施例,该步骤302可以由本发明的装置自动执行。
在步骤303,如果判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。当在步骤302中判断所述源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间不存在潜在的数据映射关系时,可以针对所述目标数据库表中的其他特定属性重新执行上述步骤301和302。
根据本发明的实施例,该步骤303包括以下子步骤:
子步骤303-1,根据所述源数据库表的所述一个其他属性或所述多个其他属性的各属性值所对应的主键值集合与所述目标数据库表的特定属性的各属性值所对应的相应主键值集合之间的对应关系,建立所述源数据库表的所述一个其他属性或所述多个其他属性的各属性值与所述目标数据库表的特定属性的各属性值之间的对应关系。
具体地,对于在步骤302中通过判定目标数据库表的特定属性的各属性值所对应的相应主键值集合与所述源数据库表的一个其他属性的某个属性值所对应的主键值集合相等或相对应,而判断在源数据库表的该其他属性与目标数据库表的该特定属性之间存在潜在的数据映射关系的情况,可以根据目标数据库表的特定属性的每个属性值所对应的相应主键值集合与源数据库表的该其他属性的某个属性值所对应的主键值集合的相等或相对应的关系,建立目标数据库表的特定属性的每个属性值与源数据库表的该其他属性的某个属性值之间的对应关系。
例如,可以根据上述表4所示出的目标数据库表的属性“价格”的各属性值所对应的主键值集合与上述表1所示出的源数据库表的属性“价格”的各属性值所对应的主键值集合之间的相等关系,建立源数据库表的属性“价格”的各属性值与目标数据库表的属性“价格”的各属性值之间的对应关系,该对应关系可以如下表所示:
表5源属性“价格”的属性值与目标属性“价格”的属性值之间的对应关系
  源属性“价格”的属性值   目标属性“价格”的属性值
  1   10
  2   20
  3   30
而对于在步骤302中通过判定目标数据库表的特定属性的各属性值所对应的相应主键值集合与所述源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相等或相对应,而判断在源数据库表的该多个其他属性与目标数据库表的该特定属性之间存在潜在的数据映射关系的情况,可以根据目标数据库表的特定属性的每个属性值所对应的相应主键值集合与源数据库表的该多个其他属性各自的属性值所对应的主键值集合的交集的相等或相对应的关系,建立源数据库表的该多个其他属性各自的属性值与目标数据库表的特定属性的每个属性值之间的对应关系。
例如,可以根据上述表1所示出的源数据库表的属性“价格”的各属性值所对应的主键值集合与上述2所示出的源数据库表的属性“数量”的各属性值所对应的主键值集合的交集与表3所示出的目标数据库表的属性“成本”的各属性值所对应的主键值集合之间的相等关系,建立源数据库表的属性“价格”和“数量”的各属性值与目标数据库表的属性“成本”的各属性值之间的对应关系,该对应关系可以如下表所示:
表6源属性“价格”和“数量”的属性值与目标属性“成本”的属性值之间的对应关系
子步骤303-2,根据所建立的源数据库表的所述一个其他属性或所述多个其他属性的各属性值与所述目标数据库表的特定属性的各属性值之间的对应关系,确定所述源数据库表的所述一个其他属性或所述多个其他属性与所述目标数据库表的特定属性之间的数据映射关系,即确定源数据库表的所述至少一个其他属性与目标数据库表的特定属性之间具体的数据映射关系。
根据本发明的一个实施例,该子步骤395-2可通过以下方式执行:由本发明的装置将在上述子步骤303-1中建立的源数据库表的至少一个其他属性的各属性值与目标数据库表的特定属性的各属性值之间的对应关系呈现给用户,而由用户人工确定源数据库表的所述至少一个其他属性与目标数据库表的特定属性之间具体的数据映射关系。例如,根据表5所示的源属性“价格”的属性值与目标属性“价格”的属性值之间的对应关系,用户可容易地确定源属性“价格”与目标属性“价格”之间具有如下具体的数据映射关系:
源属性“价格”*10=目标属性“价格”;
再例如,根据表6所示的源属性“价格”和“数量”的属性值与目标属性“成本”的属性值之间的对应关系,用户可容易地确定源属性“价格”和“数量”与目标属性“成本”之间具有如下具体的数据映射关系:
源属性“价格”*源属性“数量”=目标属性“成本”。
根据本发明的另一个实施例,该子步骤303-2可由本发明的装置自动执行。本发明的装置可以针对源数据库表的所述至少一个其他属性的每个属性值执行常用的一元或多元数学运算和数据转换操作集中的每一个操作,并判断操作结果是否与目标数据库表的特定属性的对应的属性值一致;当判断针对源数据库表的所述至少一个其他属性的每一个属性值执行特定的数学运算或数据转换操作的结果都与目标数据表的特定属性的对应的属性值一致时,就可以确定源数据库表的所述至少一个其他属性与目标数据库表的所述特定属性之间存在所述特定的数学运算或数据转换关系。所述常用的数学运算和数据转换操作集例如可包括固定系数、加、减、乘、除等操作。
根据本发明的一些实施例,上述子步骤303-2中的确定所述源数据库表的所述一个其他属性或所述多个其他属性与所述目标数据库表的特定属性之间的数据映射关系是基于所建立的源数据库表的所述一个其他属性或所述多个其他属性的全部属性值中超过指定阈值百分比的属性值与所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的对应属性值之间的对应关系进行的。也就是说,并不需要所述源数据库表的所述一个其他属性或所述多个其他属性的每一个属性值与所述目标数据库表的特定属性的每一个对应的属性值之间都存在要确定的具体数据映射关系,而只需要所述源数据库表的所述一个其他属性或所述多个其他属性的超过指定阈值百分比(例如98%)的属性值与所述目标数据库表的所述特定属性的超过指定阈值百分比(例如98)的对应属性值之间存在要确定的具体数据映射关系。
根据本发明的另一些实施例,上述子步骤303-2中的确定所述源数据库表的所述一个其他属性或所述多个其他属性与所述目标数据库表的特定属性之间的数据映射关系是基于所建立的源数据库表的所述一个其他属性或所述多个其他属性的每一个属性值与所述目标数据库表的特定属性的每一个对应属性值之间的对应关系进行的。
在以上描述的实施例中,步骤302中的判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系是通过比较所述至少一个源数据库表的至少一个其他属性的各属性值所对应的主键值集合与所述目标数据库表的特定属性的各属性值所对应的相应主键值集合来进行的,步骤303中的确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系是根据所述至少一个源数据库表的与主键值集合对应的至少一个其他属性的各属性值以及所述目标数据库表的与相应主键值集合对应的特定属性的各属性值来进行的,但这并非是对本发明的限制。在本发明的其他一些实施例中,如果已知包含了源数据库表与目标数据库表之间的数据转换关系的设计规范,则可以直接根据该设计规范判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系,并确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。
以上参照附图描述了根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的方法。应指出的是,以上描述仅为示例,而不是对本发明的限制。在本发明的其他实施例中,该方法可具有更多、更少或不同的步骤,且各步骤之间的顺序和包含等关系可以与所描述和图示的不同。
在本发明的另一个方面,还提供了一种用于验证数据的方法。根据本发明的实施例,该用于验证数据的方法包括上述根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的方法中的各步骤,并包括如下附加步骤:
附加步骤,根据所述确定的数据映射关系对所述源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证。
根据本发明的实施例,该附加步骤包括以下附加子步骤中的任何一个或多个:
附加子步骤1,通过将所述确定的数据映射关系与包含源数据库表与目标数据库表之间的数据转换关系的设计规范进行比较来判断所述确定的数据映射关系是否符合设计规范。如果所述确定的数据映射关系符合设计规范,则可判断所述确定的数据映射关系正确;如果所述确定的数据映射关系不符合设计规范,则可判断所述确定的数据映射关系错误,且验证失败。所述设计规范是指诸如BI解决方案的设计规范,其中包括有关如何将诸如业务系统数据库等源数据库中的数据转换为诸如数据仓库等目标数据库中的数据的规定。
根据本发明的实施例,可以由本发明的装置将所确定的数据映射关系呈现给用户,由用户人工判断所确定的数据映射关系是否符合设计规范。当然,也可以考虑由本发明的装置自动判断所确定的数据映射关系是否符合设计规范。
附加子步骤2,判断所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值之间是否符合所述确定的数据映射关系。如果所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值之间符合所述确定的数据映射关系,则可判断所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值的数据正确;如果所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值之间不符合所述确定的数据映射关系,则可判断所述至少一个源数据库表的至少一个其他属性的特定属性值和/或所述目标数据库表的特定属性的对应属性值存在数据错误。
对于上述子步骤302-1和302-3中的所述判定是基于所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的属性值所对应的相应主键值集合以及所述源数据库表的一个其他属性或多个其他属性的全部属性值中超过指定阈值百分比的属性值所对应的主键值集合进行的情况,以及/或者上述子步骤303-2中的所述确定是基于所建立的源数据库表的所述至少一个其他属性的全部属性值中超过指定阈值百分比的属性值与所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的对应属性值之间的对应关系进行的情况,在该子步骤304-2中,可以针对子步骤302-1和302-3中的所述判定以及子步骤303-2中的所述确定所基于的所述源数据库表的至少一个其他属性的属性值之外的其余属性值以及子步骤302-1和302-3中的所述判定以及子步骤303-2中的所述确定所基于的所述目标数据库表的特定属性的属性值之外的其余属性值,来判断所述其余属性值是否符合所述确定的数据映射关系。例如,如果子步骤302-1和302-3中的所述判定以及子步骤303-2中的所述确定是基于所述源数据库表的至少一个其他属性的全部属性值中99%的属性值以及所述目标数据库表的特定属性的全部属性值中99%的属性值进行的,则在子步骤304-2中,可以针对所述源数据库表中的所述至少一个其他属性的其余1%的属性值以及所述目标数据库表中的所述特定属性的其余1%的属性值,来判断其是否符合所述确定的数据映射关系。当然,也可以从所述源数据库表中重新获取所述至少一个其他属性的新的属性值,从所述目标数据库表中重新获取所述特定属性的新的对应属性值,并在子步骤304-2中,针对所述重新获取的新的属性值和对应属性值,来判断其是否符合所述确定的数据映射关系。
而对于上述子步骤302-1和302-3中的所述判定是基于所述目标数据库表的特定属性的每一个属性值所对应的相应主键值集合以及所述源数据库表的一个其他属性或多个其他属性的每一个对应属性值所对应的主键值集合进行的情况,以及/或者上述子步骤303-2中的所述确定是基于所建立的源数据库表的所述至少一个其他属性的每一个属性值与所述目标数据库表的特定属性的每一个对应属性值之间的对应关系进行的情况,只能从所述源数据库表中重新获取所述至少一个其他属性的新的属性值,从所述目标数据库表中重新获取所述特定属性的新的对应属性值,并在子步骤304-2中,针对所述重新获取的新的属性值和对应属性值,来判断其是否符合所述确定的数据映射关系。
根据本发明的实施例,可以由本发明的装置自动判断所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值之间是否符合所述确定的数据映射关系,并在判断所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值之间不符合所述确定的数据映射关系时,将所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值呈现给用户,以便由用户进一步判断和处理,或者向用户呈现错误提示。
附加子步骤3,判断所述至少一个源数据库表的所述至少一个其他属性的特定属性值是否具有所述目标数据库表的所述特定属性的对应属性值。如果所述至少一个源数据库表的所述至少一个其他属性的特定属性值具有所述目标数据库的所述特定属性的对应属性值,则表明所述至少一个源数据库表的所述至少一个其他属性的特定属性值不是孤值。如果所述至少一个源数据库表的所述至少一个其他属性的特定属性值不具有所述目标数据库的所述特定属性的对应属性值,则表明所述至少一个源数据库表的所述至少一个其他属性的特定属性值是孤值。此时,可由用户进一步根据设计规范判断这是否是由于应用了设计规范中过滤器逻辑而造成的;如果判断这不是由于应用了设计规范中的过滤器逻辑而造成的,则可判断存在着数据错误。
对于上述子步骤302-1和302-3中的所述判定是基于所述源数据库表的一个其他属性或多个其他属性的全部属性值中超过指定阈值百分比的属性值所对应的主键值集合进行的情况,在该子步骤304-3中,可以针对子步骤302-1和302-3中的所述判定所基于的所述源数据库表的至少一个其他属性的属性值之外的其余属性值,来判断所述其余属性值是否具有所述目标数据库表的所述特定属性的对应属性值。在这种情况下,该子步骤304-3可以在执行子步骤302-1或子步骤302-3的同时执行。也就是说,在判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的至少一个其他属性的各属性值所对应的主键值集合相对应的同时,就可以判断所述至少一个源数据库表的所述至少一个其他属性的特定属性值是否具有所述目标数据库表的所述特定属性的对应属性值,即判断是否所述至少一个源数据库表的所述至少一个其他属性的特定属性值是否是孤值,以及如果是孤值的话,进一步判断该孤值是否是由于应用于符合设计规范的过滤器逻辑而造成的。
根据本发明的实施例,可以由本发明的装置自动判断所述至少一个源数据库表的所述至少一个其他属性的特定属性值是否具有所述目标数据库表的所述特定属性的对应属性值,并在判断所述至少一个源数据库表的所述至少一个其他属性的特定属性值不具有所述目标数据库表的所述特定属性的对应属性值时,将所述至少一个源数据库表的至少一个其他属性的特定属性值呈现给用户,以便由用户进一步根据设计规范判断这是否是由于应用了设计规范中过滤器逻辑而造成的。
附加子步骤4,判断所述目标数据库表的特定属性的特定属性值是否具有所述至少一个源数据库表的至少一个其他属性的对应属性值。如果所述目标数据库的所述特定属性的特定属性值具有所述至少一个源数据库表的所述至少一个其他属性的对应属性值,则表明所述目标数据库的所述特定属性的特定属性值不是孤值。如果所述目标数据库的所述特定属性的特定属性值不具有所述至少一个源数据库表的所述至少一个其他属性的对应属性值,则表明所述目标数据库的所述特定属性的特定属性值是孤值;此时,通常可判断目标数据库中的所述孤值是在ETL过程中产生的脏数据,因而是一种数据错误。
对于上述子步骤302-1和302-3中的所述判定是基于所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的属性值所对应的相应主键值集合进行的情况,在该子步骤304-4中,可以针对子步骤302-1和302-3中的所述判定所基于的所述目标数据库表的特定属性的属性值之外的其余属性值,来判断所述其余属性值是否具有所述至少一个源数据库表的至少一个其他属性的对应属性值。在这种情况下,该子步骤304-4可以在执行子步骤302-1或子步骤302-3的同时执行。也就是说,在判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的至少一个其他属性的各属性值所对应的主键值集合相对应的同时,就可以判断所述目标数据库表的特定属性的特定属性值是否具有所述至少一个源数据库表的所述至少一个其他属性的对应属性值,即判断所述目标数据库表的特定属性的所述特定属性值是否是孤值或脏数据,从而是一种数据错误。
根据本发明的实施例,可以由本发明的装置自动判断所述目标数据库表的特定属性的特定属性值是否具有所述至少一个源数据库表的至少一个其他属性的对应属性值,并在判断所述目标数据库表的特定属性的特定属性值不具有所述至少一个源数据库表的至少一个其他属性的对应属性值时,将所述目标数据库表的特定属性的特定属性值呈现给用户,以便由用户进一步处理,或者向用户呈现错误提示。
尽管在以上描述中以一个目标数据库中的一个特定属性为例描述了本发明的用于验证数据的方法,但对本领域的技术人员来说显然易见的是,本发明的用于验证数据方法可被逐一地应用于多个目标数据库中的每一个属性。
此外,如本领域的技术人员可理解的,以上描述中的术语“数据库表”应被广义地理解为以行与列的形式组织数据且具有主键的任何数据结构。
以上描述了根据本发明的实施例的用于验证数据的方法,应指出的是,以上描述仅为示例,而不是对本发明的限制。在本发明的其他实施例中,该方法可具有更多、更少或不同的步骤,且各步骤之间的顺序和包含等关系可以与所描述的不同。
现参照附图4,其示出了根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的装置。该装置可用来执行以上描述的根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的方法,也就是说,该装置的各部件所执行的操作对应于该方法的各步骤。为简明起见,在以下描述中省略了与以上描述重复的部分细节,因此,可参照以上描述获得对根据本发明的实施例的用于验证数据的装置更详细的了解。
如图4所示,根据本发明的实施例的用于验证数据的装置,包括:属性值剖析模块401,用于从至少一个源数据库表中的多行数据获取主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取相应主键之外的特定属性的属性值及其对应的相应主键值集合;潜在数据映射关系判断模块402,用于判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系;数据映射关系确定模块403,用于如果判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。
根据本发明的实施例,所述潜在数据映射关系判断模块402判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系是通过比较所述至少一个源数据库表的至少一个其他属性的属性值所对应的主键值集合与所述目标数据库表的特定属性的属性值所对应的相应主键值集合来进行的。
根据本发明的进一步的一个实施例,所述潜在数据映射关系判断模块402包括:用于判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述至少一个源数据库表的一个其他属性的各属性值所对应的主键值集合相对应的装置;以及用于响应于所述判定为是,判断所述至少一个源数据库表的所述一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系的装置。
根据本发明的另一个实施例,所述潜在数据映射关系判断模块402包括:用于判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述至少一个源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相对应的装置;以及用于响应于所述判定为是,判断所述至少一个源数据库表的所述多个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系的装置。
根据本发明的实施例,所述用于判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述至少一个源数据库表的一个其他属性的各属性值所对应的主键值集合相对应的装置以及所述用于判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述至少一个源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相对应的装置是基于所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的属性值所对应的相应主键值集合以及所述源数据库表的一个其他属性或多个其他属性的全部属性值中超过指定阈值百分比的属性值所对应的主键值集合进行判定的。
根据本发明的实施例,所述数据映射关系确定模块403包括:用于根据所述至少一个源数据库表的所述一个其他属性或所述多个其他属性的各属性值所对应的主键值集合与所述目标数据库表的特定属性的各属性值所对应的相应主键值集合之间的对应关系,建立所述至少一个源数据库表的所述一个其他属性或所述多个其他属性的各属性值与所述目标数据库表的特定属性的各属性值之间的对应关系的装置;以及用于根据所建立的所述至少一个源数据库表的所述一个其他属性或所述多个其他属性的各属性值与所述目标数据库表的特定属性的各属性值之间的对应关系,确定所述至少一个源数据库表的所述一个其他属性或所述多个其他属性与所述目标数据库表的特定属性之间的数据映射关系的装置。
根据本发明的实施例,所述用于确定所述源数据库表的所述一个其他属性或所述多个其他属性与所述目标数据库表的特定属性之间的数据映射关系的装置是基于所建立的源数据库表的所述一个其他属性或所述多个其他属性的全部属性值中超过指定阈值百分比的属性值与所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的对应属性值之间的对应关系进行确定的。
根据本发明的实施例,所述潜在数据映射关系判断模块402判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系以及所述数据映射关系确定模块403确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系是基于包含源数据库表与目标数据库表之间的数据转换关系的设计规范进行的。
以上参照附图描述了根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的装置,应指出的是,以上描述仅为示例,而不是对本发明的限制。在本发明的其他实施例中,所述装置可具有更多、更少或不同的部件,且各部件之间的连接、包含、功能等关系可以与所描述和图示的不同。
在本发明的另一个方面,还提供了一种用于验证数据的装置。根据本发明的实施例,该用于验证数据的装置包括上述根据本发明的实施例的用于确定源数据库表和目标数据库表之间的数据映射关系的装置中的各模块,并包括如下附加模块:验证模块,用于根据所述确定的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证。
根据本发明的实施例,所述验证模块包括以下各项中的任何一个或多个:用于通过将所述确定的数据映射关系与设计规范进行比较来判断所述确定的数据映射关系是否符合设计规范的装置;用于判断所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值是否符合所述确定的数据映射关系的装置;用于判断所述至少一个源数据库表的至少一个其他属性的特定属性值是否具有所述目标数据库表的特定属性的对应属性值的装置;用于判断所述目标数据库表的特定属性的特定属性值是否具有所述至少一个源数据库表的至少一个其他属性的对应属性值的装置。
根据本发明的实施例,所述目标数据库表为商业智能解决方案中的数据仓库中的数据库表,所述至少一个源数据库表是作为数据仓库的数据源的业务系统数据库中的数据库表。
以上描述了根据本发明的实施例的用于验证数据的装置,应指出的是,以上描述仅为示例,而不是对本发明的限制。在本发明的其他实施例中,所述装置可具有更多、更少或不同的部件,且各部件之间的连接、包含、功能等关系可以与所描述的不同。
本发明可以硬件、软件、或硬件与软件的结合的方式实现。本发明可以集中的方式在一个计算机系统中实现,或以分布方式实现,在这种分布方式中,不同的部件分布在若干互连的计算机系统中。适于执行本文中描述的方法的任何计算机系统或其它装置都是合适的。一种典型的硬件和软件的组合可以是带有计算机程序的通用计算机系统,当该计算机程序被加载和执行时,控制该计算机系统而使其执行本发明的方法,并构成本发明的装置。
本发明也可体现在计算机程序产品中,该程序产品包含使能实现本文中描述的方法的所有特征,并且当其被加载到计算机系统中时,能够执行所述方法。
尽管已参照优选实施例具体示出和说明了本发明,但是本领域内的那些技术人员应理解,可在形式和细节上对其进行各种改变而不会背离本发明的精神和范围。

Claims (20)

1.一种用于确定源数据库表和目标数据库表之间的数据映射关系的方法,包括:从至少一个源数据库表中的多行数据获取主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取相应主键之外的特定属性的属性值及其对应的主键值集合;
所述方法特征在于还包括:
判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系,包括判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的一个其他属性的各属性值所对应的主键值集合相等或相对应,其中所述相等或相对应的判断是基于所述目标数据库表的特定属性的全部属性值中的每一个属性值所对应的相应主键值集合以及所述源数据库表的至少一个其他属性的全部属性值中每一个相应属性值所对应的主键值集合进行的;
如果判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。
2.根据权利要求1的方法,其中,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系是通过比较所述至少一个源数据库表的至少一个其他属性的属性值所对应的主键值集合与所述目标数据库表的特定属性的属性值所对应的主键值集合进行的。
3.根据权利要求2的方法,其中,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系包括:
判定所述目标数据库表的特定属性的属性值所对应的相应主键值集合是否与所述至少一个源数据库表的一个其他属性的属性值所对应的主键值集合相对应;以及
响应于所述判定为是,判断所述至少一个源数据库表的所述一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系。
4.根据权利要求2的方法,其中,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系包括:
判定所述目标数据库表的特定属性的属性值所对应的相应主键值集合是否与所述至少一个源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相对应;以及
响应于所述判定为是,判断所述至少一个源数据库表的所述多个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系。
5.根据权利要求1方法,其中,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系包括:
根据所述至少一个源数据库表的至少一个其他属性的属性值所对应的主键值集合与所述目标数据库表的特定属性的属性值所对应的相应主键值集合之间的对应关系,建立所述至少一个源数据库表的至少一个其他属性的属性值与所述目标数据库表的特定属性的属性值之间的对应关系;以及
根据所建立的所述至少一个源数据库表的至少一个其他属性的属性值与所述目标数据库表的特定属性的属性值之间的对应关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。
6.根据权利要求5的方法,其中,所述判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系是基于所建立的源数据库表的至少一个其他属性的全部属性值中超过指定阈值百分比的属性值与所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的对应属性值之间的对应关系进行的。
7.根据权利要求1的方法,其中,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系以及确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系是基于包含源数据库表与目标数据库表之间的数据转换关系的设计规范进行的。
8.根据权利要求1的方法,其中,所述目标数据库表为商业智能解决方案中的数据仓库中的数据库表,所述至少一个源数据库表是作为数据仓库的数据源的业务系统数据库中的数据库表。
9.一种用于验证数据的方法,包括:
根据权利要求1-8中任何一项中的各步骤;以及
根据所确定的所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证。
10.根据权利要求9的方法,其中,根据所述确定的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证包括以下各项中的任何一个或多个:
通过将所述确定的数据映射关系与包含源数据库表与目标数据库表之间的数据转换关系的设计规范进行比较来判断所述确定的数据映射关系是否符合该设计规范;
判断所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值之间是否符合所述确定的数据映射关系;
判断所述至少一个源数据库表的至少一个其他属性的特定属性值是否具有所述目标数据库表的特定属性的对应属性值;
判断所述目标数据库表的特定属性的特定属性值是否具有所述至少一个源数据库表的至少一个其他属性的对应属性值。
11.一种用于确定源数据库表和目标数据库表之间的数据映射关系的装置,包括:属性值剖析模块,用于从至少一个源数据库表中的多行数据获取主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取相应主键之外的特定属性的属性值及其对应的相应主键值集合;
所述装置特征在于还包括:
潜在数据映射关系判断模块,用于判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系,包括判定所述目标数据库表的特定属性的各属性值所对应的相应主键值集合是否与所述源数据库表的一个其他属性的各属性值所对应的主键值集合相等或相对应,其中所述相等或相对应的判断是基于所述目标数据库表的特定属性的全部属性值中的每一个属性值所对应的相应主键值集合以及所述源数据库表的至少一个其他属性的全部属性值中每一个相应属性值所对应的主键值集合进行的;
数据映射关系确定模块,用于如果判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。
12.根据权利要求11的装置,其中,所述潜在数据映射关系判断模块判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系是通过比较所述至少一个源数据库表的至少一个其他属性的属性值所对应的主键值集合与所述目标数据库表的特定属性的属性值所对应的相应主键值集合来进行的。
13.根据权利要求12的装置,其中,所述潜在数据映射关系判断模块包括:
用于判定所述目标数据库表的特定属性的属性值所对应的相应主键值集合是否与所述至少一个源数据库表的一个其他属性的属性值所对应的主键值集合相对应的装置;以及
用于响应于所述判定为是,判断所述至少一个源数据库表的所述一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系的装置。
14.根据权利要求12的装置,其中,所述潜在数据映射关系判断模块包括:
用于判定所述目标数据库表的特定属性的属性值所对应的相应主键值集合是否与所述至少一个源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相对应的装置;以及
用于响应于所述判定为是,判断所述至少一个源数据库表的所述多个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系的装置。
15.根据权利要求11的装置,其中,所述数据映射关系确定模块包括:
用于根据所述至少一个源数据库表的至少一个其他属性的属性值所对应的主键值集合与所述目标数据库表的特定属性的属性值所对应的相应主键值集合之间的对应关系,建立所述至少一个源数据库表的所述一个其他属性或多个其他属性的属性值与所述目标数据库表的特定属性的属性值之间的对应关系的装置;以及
用于根据所建立的所述至少一个源数据库表的所述一个其他属性或所述多个其他属性的属性值与所述目标数据库表的特定属性的属性值之间的对应关系,确定所述至少一个源数据库表的所述一个其他属性或所述多个其他属性与所述目标数据库表的特定属性之间的数据映射关系的装置。
16.根据权利要求15的装置,其中,所述用于确定所述源数据库表的所述至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系的装置是基于所建立的源数据库表的所述一个其他属性或所述多个其他属性的全部属性值中超过指定阈值百分比的属性值与所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的对应属性值之间的对应关系进行确定的。
17.根据权利要求11的装置,其中,所述潜在数据映射关系判断模块判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系以及所述数据映射关系确定模块确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系是基于包含源数据库表与目标数据库表之间的数据转换关系的设计规范进行的。
18.根据权利要求11的装置,其中,所述目标数据库表为商业智能解决方案中的数据仓库中的数据库表,所述至少一个源数据库表是作为数据仓库的数据源的业务系统数据库中的数据库表。
19.一种用于验证数据的装置,包括:
根据权利要求11-18中任何一项中的各模块;以及
验证模块,用于根据所述确定的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证。
20.根据权利要求19的装置,其中,所述验证模块包括以下各项中的任何一个或多个:
用于通过将所述确定的数据映射关系与包含源数据库表与目标数据库表之间的数据转换关系的设计规范进行比较来判断所述确定的数据映射关系是否符合该设计规范的装置;
用于判断所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值之间是否符合所述确定的数据映射关系的装置;
用于判断所述至少一个源数据库表的至少一个其他属性的特定属性值是否具有所述目标数据库表的特定属性的对应属性值的装置;
用于判断所述目标数据库表的特定属性的特定属性值是否具有所述至少一个源数据库表的至少一个其他属性的对应属性值的装置。
CN201110047151.9A 2011-02-28 2011-02-28 确定数据库表之间的数据映射关系的方法和装置 Expired - Fee Related CN102650996B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110047151.9A CN102650996B (zh) 2011-02-28 2011-02-28 确定数据库表之间的数据映射关系的方法和装置
US13/402,378 US20120221509A1 (en) 2011-02-28 2012-02-22 Determining a data mapping relationship between database tables

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110047151.9A CN102650996B (zh) 2011-02-28 2011-02-28 确定数据库表之间的数据映射关系的方法和装置

Publications (2)

Publication Number Publication Date
CN102650996A CN102650996A (zh) 2012-08-29
CN102650996B true CN102650996B (zh) 2015-02-11

Family

ID=46693004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110047151.9A Expired - Fee Related CN102650996B (zh) 2011-02-28 2011-02-28 确定数据库表之间的数据映射关系的方法和装置

Country Status (2)

Country Link
US (1) US20120221509A1 (zh)
CN (1) CN102650996B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6110139B2 (ja) * 2012-12-28 2017-04-05 富士通株式会社 ファイル管理プログラム、ファイル管理装置およびファイル管理方法
JP6222923B2 (ja) * 2012-12-28 2017-11-01 富士通株式会社 ファイル管理プログラム、ファイル管理装置およびファイル管理方法
US9619538B2 (en) 2013-03-15 2017-04-11 Teradata Us, Inc. Techniques for data integration
CN103235822B (zh) * 2013-05-03 2016-05-25 富景天策(北京)气象科技有限公司 数据库的生成及查询方法
CN103425490B (zh) * 2013-07-19 2016-04-20 福建富士通信息软件有限公司 基于crm系统中运行对象数据的管理方法
US20150242409A1 (en) * 2014-02-22 2015-08-27 SourceThought, Inc. Automated Data Shaping
KR20150130039A (ko) * 2014-05-13 2015-11-23 한다시스템 주식회사 Crm 기반 데이터 마이그레이션 시스템 및 방법
CN105589874B (zh) * 2014-10-22 2019-03-15 阿里巴巴集团控股有限公司 Etl任务依赖关系的检测方法、装置及etl工具
CN104361047B (zh) * 2014-10-29 2019-12-24 中国建设银行股份有限公司 一种客户端中的数据展示方法及装置
CN106708897B (zh) * 2015-11-17 2020-03-27 阿里巴巴集团控股有限公司 一种数据仓库质量保障方法、装置和系统
CN106933894A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 多维度数据的查询方法及装置
CN106933930A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 筛选会话的方法和装置
CN106933920A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 会话的筛选方法和装置
CN106874181B (zh) * 2016-06-28 2020-09-29 阿里巴巴集团控股有限公司 一种接口转换的验证方法和装置
CN108268496A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 数据的校验方法及装置
CN107809345B (zh) * 2017-09-04 2020-03-06 珠海格力电器股份有限公司 网关数据核查工具、核查网关数据的方法和装置
CN107943926A (zh) * 2017-11-21 2018-04-20 郑州云海信息技术有限公司 一种数据表的属性增加方法、装置及介质
US10796045B2 (en) * 2018-06-06 2020-10-06 Mentor Graphics Corporation Efficient bi-directional property-based path tracing
EP3605353B1 (en) 2018-08-03 2021-09-29 Sap Se Method and system for data transfer between databases
CN110222060A (zh) * 2019-06-12 2019-09-10 山东浪潮通软信息科技有限公司 一种动态匹配多属性数据的方法
WO2021012211A1 (zh) * 2019-07-24 2021-01-28 华为技术有限公司 一种为数据建立索引的方法以及装置
EP3989080A1 (en) * 2020-10-20 2022-04-27 ING Bank N.V. Sucursal en España Data transformation and verification method
CN114528309B (zh) * 2022-01-07 2024-07-12 南方电网数字平台科技(广东)有限公司 基于数据库精细比对的数据核查方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187922A (zh) * 2006-11-17 2008-05-28 徐赞国 精确机器翻译的方法及其装置
CN101697166A (zh) * 2009-10-28 2010-04-21 浪潮电子信息产业股份有限公司 一种加速异构平台数据整合的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9720971B2 (en) * 2008-06-30 2017-08-01 International Business Machines Corporation Discovering transformations applied to a source table to generate a target table
CA2845793C (en) * 2011-08-30 2021-06-15 Seminis Vegetable Seeds, Inc. Methods and compositions for producing capsicum plants with powdery mildew resistance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187922A (zh) * 2006-11-17 2008-05-28 徐赞国 精确机器翻译的方法及其装置
CN101697166A (zh) * 2009-10-28 2010-04-21 浪潮电子信息产业股份有限公司 一种加速异构平台数据整合的方法

Also Published As

Publication number Publication date
CN102650996A (zh) 2012-08-29
US20120221509A1 (en) 2012-08-30

Similar Documents

Publication Publication Date Title
CN102650996B (zh) 确定数据库表之间的数据映射关系的方法和装置
Gao et al. A new methodology for building energy performance benchmarking: An approach based on intelligent clustering algorithm
US11055307B2 (en) Automatic modeling method and classifier for OLAP data model
Nambiar et al. The Making of TPC-DS.
Song et al. Repairing vertex labels under neighborhood constraints
CN103377250B (zh) 基于邻域的top‑k推荐方法
US8682875B2 (en) Database statistics for optimization of database queries containing user-defined functions
US10013336B2 (en) Information technology testing and testing data management
US20140351285A1 (en) Platform and method for analyzing electric power system data
WO2019024496A1 (zh) 企业推荐方法及应用服务器
CN103793422A (zh) 基于增强星型模型的立方体元数据及查询语句生成
CN102880780A (zh) 产生用于分析数据的直观背景的系统和方法
CN105574089A (zh) 知识图谱的生成方法及装置、对象对比方法及装置
Wang et al. Synthesizing mapping relationships using table corpus
US10439876B2 (en) System and method for determining information technology component dependencies in enterprise applications by analyzing configuration data
Khalilnejad et al. Automated pipeline framework for processing of large-scale building energy time series data
US20090112792A1 (en) Generating Statistics for Optimizing Database Queries Containing User-Defined Functions
US20140280274A1 (en) Probabilistic record linking
CN105389714B (zh) 一种从行为数据识别用户特性的方法
CN102364475A (zh) 基于身份识别对检索结果排序的系统及方法
US20150363711A1 (en) Device for rapid operational visibility and analytics automation
CN104794234A (zh) 用于同业对标的数据处理方法和装置
Shi et al. [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering
US20180260470A1 (en) Data Analysis Support System and Data Analysis Support Method
TW201801031A (zh) 不動產資訊系統及其運作方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150211

Termination date: 20210228

CF01 Termination of patent right due to non-payment of annual fee