CN115292274B

CN115292274B - 一种数据仓库主题模型构建方法和系统

Info

Publication number: CN115292274B
Application number: CN202210751626.0A
Authority: CN
Inventors: 杨立才; 邵宏力; 李云; 邓知知; 胡超; 刘磊
Original assignee: Jiangsu Kunshan Rural Commercial Bank Co ltd
Current assignee: Jiangsu Kunshan Rural Commercial Bank Co ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2023-12-26
Anticipated expiration: 2042-06-29
Also published as: CN115292274A

Abstract

本发明涉及一种数据仓库主题模型构建方法和系统。将被外键引用且其自身不引用任何主键的所有字段作为初步主节点，一个初步主节点对应一个初步主题；对于某一初步主节点A，如果初步主节点A不是其他任何初步主节点的属性字段，或者是其他两个或两个以上初步主节点的属性字段，则将初步主节点A作为最优主节点，该最优主节点作为主题模型构建中的一个正式主题；如果初步主节点A是其他某一个初步主节点B的属性字段，则将初步主节点A对应的初步主题合并至初步主节点B对应的正式主题中。本发明把字段自动划分到不同的主题，提高了主题建模准确度和效率。

Description

一种数据仓库主题模型构建方法和系统

技术领域

本发明属于商业智能技术领域，具体涉及一种数据仓库主题模型构建方法和系统。

背景技术

多年来，数据仓库为商业银行的业务发展起到了重要的推动作用。在现有技术中，数据仓库建设主要步骤包括：数据提取、数据清洗、数据建模、应用层开发、数据接口等。其中，数据建模是数据仓库整体建设中的一个重要环节。数据模型是抽象地描述现实世界的一种工具和方法，而主题建模是数据建模中的一种。主题建模在较高层次上将企业业务信息系统中的数据进行综合、归类和分析利用的方法，每一个主题基本对应一个宏观的分析领域，目的是便于数据的管理、应用与业务层次划分，数据仓库的建设基于主题建模也是最常见手段之一。

主题建模是数据仓库整体建设中的一个环节。对于表结构数据仓库来说，每一个主题的底层是由一张事实表和多张维度表组成。事实表中，除了和维度表进行关联的字段外，其余字段为原子指标。事实表使用维度表的属性进行聚合后，产生结果聚合表。结果聚合表中，除了聚合的维度外，其余字段为衍生指标，即通过原子指标计算而来的指标，故一个主题对应一个分析对象，分析对象就是在决策、分析时重点关注的事物，其具有非常主观的思维，在不同的企业，或者企业的不同发展时期，所关注的点会不一样，从而影响有些主题可能存在或者不存在，且主题建模是对数据的分类，这需要对某个领域甚至某个公司内数据特征有深刻理解。主题建模最大的壁垒也在于此，清晰的主题规划往往是数据仓库设计成败的关键。

在商业银行业现有的技术与设计中，主要是基于主题建模的思想来构建数据仓库，而主题建模都必须使用到大量人力去做分析、统计数据，进而设计、开发主题模型，其中更是涵盖非常多专业性强、业务知识丰富、对企业内场景熟悉的专家预设的主题模型来建立。简言之，目前对于商业银行业来说，构建数据仓库中使用的主题建模对来自于业务专家的人工构建。由此，存在以下缺陷：

(1)依赖于大量的、具有丰富业务知识的人才的人力劳动。主题模型应当涵盖统一归纳思想，如客户维度、协议维度、财务维度等都需要业务定义，目前需要依赖非常丰富业务知识性的人员才能设计出符合企业自身业务发展的主题模型；

(2)当业务定义归纳后，获取对应的技术口径更是在商业银行建模中的一大难点，如客户维度的属性客户号、客户名称、客户等级、客户类型等，其来源于某个业务系统、某个表甚至某个字段，这些都需要具备科技属性的专家来人工获取。

(3)而当业务定义与技术口径设计完成以后，并不代表数据开发人员基于此去实施时候就能万无一失，对其又需具备一定的技术要求。

发明内容

本发明提出一种数据仓库主题模型构建方法和系统。

为了解决现有技术中的技术问题，本发明提出一种数据仓库主题模型构建方法，包括各表内函数依赖关系、各表主键、外键以及外键关系；

将被外键引用且其自身不引用任何主键的所有字段作为初步主节点，一个初步主节点对应一个初步主题；

确定各初步主节点的闭包，初步主节点的闭包包括以下字段：

通过初步主节点及其表内函数依赖关系推导出的所有字段；

初步主节点作为主键被引用的所有外键字段；以及

通过所述外键字段及其表内函数依赖关系推导出的所有字段；

其中，将所述通过初步主节点及其表内函数依赖关系推导出的所有字段和所述通过外键字段及其表内函数依赖关系推导出的所有字段作为初步主节点的属性字段；

对于某一初步主节点A，

如果初步主节点A不是其他任何初步主节点的属性字段，或者是其他两个或两个以上初步主节点的属性字段，则将初步主节点A作为最优主节点，该最优主节点作为主题模型构建中的一个正式主题；

如果初步主节点A是其他某一个初步主节点B的属性字段，则将初步主节点A对应的初步主题合并至初步主节点B对应的正式主题中。

作为一种优选的实施方式，当两个最优主节点的字段同属于一张表时，将两个最优主节点对应的主题合并为一个主题。

作为一种优选的实施方式，获取表内函数依赖关系的过程为：获取数据库中各表的表名，以及各表中的字段名；针对各表，根据表中字段的值，分析各字段的特征；以及针对各表，根据表名、字段名以及字段的值，计算获得表内各字段之间的函数依赖关系作为表内函数依赖关系；所述字段的特征包括定性特征和定量特征；所述定性特征包括字段的数据类型，所述定量特征包括字段的长度。

作为一种优选的实施方式，针对各表，根据表内函数依赖关系识别出各表的主键，并根据所述主键的特征在其他表中寻找并确定与之对应的外键，在主键和外键之间形成外键关系。寻找并确定外键时，将其他表中与主键数据类型和字段长度相匹配的字段作为外键，所述与主键数据类型和字段长度相匹配的字段是指，该字段的数据类型与主键数据类型相同，该字段的最小长度大于或等于主键的最小长度、最大长度小于或等于主键的最大长度。

本发明另一方面还提出一种数据仓库主题模型构建系统，包括：处理器；数据库；以及存储器，其中存储有程序，其中在所述处理器执行所述程序时，进行以下操作：

获取数据库中的表数据；计算获得各表内函数依赖关系、各表主键、外键以及外键关系；

通过初步主节点及其表内函数依赖关系推导出的所有字段；

初步主节点作为主键被引用的所有外键字段；以及

对于某一初步主节点A，

本发明与现有技术相比，其显著优点在于：

(1)本发明通过外键关系、函数依赖关系分析确定主节点及其对应的主题，降低了数据开发人员面临业务场景不明、业务知识不全所带来的开发门槛。

(2)通过对全系统表数据分析所推荐的主题模型，必然是涵盖了全部系统间所有的关联关系，更是涵盖了跨系统间对于字段、指标的使用，大大提升了主题含义的广度、深度，解决了数据仓库建模时跨系统间数据的粘连度不高问题。

(3)本发明通过自动生产的关联分析算法所得到的关联关系数据，该数据分析在定期作挖掘与更新，也满足了在此后所进行的系统开发与数据开发建表、指标、数据库所面临茫然的问题，减少数据开发人员与业务人员之间存在的业务理解鸿沟问题。

(4)本发明生成的主题模型，不仅为建设数据仓库提供了可行的主题建模方法，更为数据治理的落地带来了可行的思路，将主题与指标落地于数据标准中更是实际解决了数据治理最大的数据标准制定问题.

(5)本发明仅需要通过对数据表中数据进行分析得到外键关系和函数依关系，即可切分推荐出相应的主题，从而把字段划分到不同的主题，提高了主题建模准确度和效率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明一个实施例的流程示意图。

图2是图1中步骤200的具体流程示意图。

图3是图3中步骤230的具体流程示意图。

具体实施方式

容易理解，依据本发明的技术方案，在不变更本发明的实质精神的情况下，本领域的一般技术人员可以想象出本发明的多种实施方式。因此，以下具体实施方式和附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。相反，提供这些实施例的目的是为了使本领域的技术人员更透彻地理解本发明。下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的创新构思。

本发明所述的数据仓库主题模型建模所要实现的目的是，将各数据表中的字段按照一定的方法分类，并将有特定关联性的字段划分之同一主题只之下，从而实现主题模型构建。本发明仅需要通过对表中数据进行分析，得到外键关系和函数依关系，即可切分推荐出相应的主题，从而把字段划分到不同的主题。例如把个人信息分为一个主题，把单位信息分为另一个主题。

具体地，本发明所述数据仓库主题模型构建方法，包括各表内函数依赖关系、各表主键、外键以及外键关系；

通过初步主节点及其表内函数依赖关系推导出的所有字段；

初步主节点作为主键被引用的所有外键字段；以及通过所述外键字段及其表内函数依赖关系推导出的所有字段；其中，将所述通过初步主节点及其表内函数依赖关系推导出的所有字段和所述通过外键字段及其表内函数依赖关系推导出的所有字段作为初步主节点的属性字段；

对于某一初步主节点A，如果初步主节点A不是其他任何初步主节点的属性字段，或者是其他两个或两个以上初步主节点的属性字段，则将初步主节点A作为最优主节点，该最优主节点作为主题模型构建中的一个正式主题；如果初步主节点A是其他某一个初步主节点B的属性字段，则将初步主节点A对应的初步主题合并至初步主节点B对应的正式主题中。

作为一种优选的方式，当两个最优主节点的字段同属于一张表时，将两个最优主节点对应的主题合并为一个主题。

作为一种优选的方式，获取表内函数依赖关系的方法为：获取数据库中各表的表名，以及各表中的字段名；针对各表，根据表中字段的值，分析各字段的特征；以及针对各表，根据表名、字段名以及字段的值，计算获得表内各字段之间的函数依赖关系作为表内函数依赖关系；所述特征包括定性特征和定量特征；所述定性特征包括字段的数据类型，所述定量特征包括字段的长度。

作为一种优选的方式，获取外键的方法为：将其他表中与主键数据类型和字段长度相匹配的字段作为外键，所述与主键数据类型和字段长度相匹配的字段是指，该字段的数据类型与主键数据类型相同，该字段的最小长度大于或等于主键的最小长度、最大长度小于或等于主键的最大长度。

作为一种优选的方式，获取外键关系的方法为：针对各表，根据表内函数依赖关系识别出各表的主键，并根据所述主键的特征在其他表中寻找并确定与之对应的外键，在主键和外键之间形成外键关系。

本发明的另一个方面还提出一种数据仓库主题模型构建系统，包括：处理器；数据库；以及存储器，其中存储有程序，其中在所述处理器执行所述程序时，进行以下操作：

确定各初步主节点的闭包，初步主节点的闭包包括以下字段：通过初步主节点及其表内函数依赖关系推导出的所有字段；初步主节点作为主键被引用的所有外键字段；以及通过所述外键字段及其表内函数依赖关系推导出的所有字段；其中，将所述通过初步主节点及其表内函数依赖关系推导出的所有字段和所述通过外键字段及其表内函数依赖关系推导出的所有字段作为初步主节点的属性字段；

下面将结合一个具体的实施例来详细地说明书本法发明所述数据仓库主题模型构建方法。在实际操作中，为了便于保存各步骤获得计算结果，会在计算系统中建立一系列表格以存储各步骤的结果数据。当然，在实际操作中也可以使用文本文档等多种工具来保存各步骤的计算结果，不一定存储于本实施例所示的各种表格中。

如图1所示，本实施例所示的数据仓库主题模型构建方法包括以下步骤：

S100，获取用于构建数据仓库的各数据表的表名，以及各表中的字段名，将表名和字段名存储到表清单配置表ANALYSIS_CONF_TAB中。

由表数据读取装置从数据库读取全部数据表的清单，将格数据表的表名和字段名字存入到预置在存储装置的表模板中，形成如表1所述的全数据库表清单及其配置表ANALYSIS_CONF_TAB。

表1展示了从数据库读取的全部表的清单及其配置。

表1表清单及其配置表ANALYSIS_CONF_TAB

SYS_CODE	ORI_TABLE_CODE	DIM_FLAG	COMMENT
				S03	ods.ods_s03_acc_accp	1	银承台帐
S03	ods.ods_s03_ctr_loan_cont	1	合同主表
				S03	ods.ods_s03_prd_bank_info	1	银行信息
S55	ods.ods_s55_bt_discount_batch	1	贴现买入批次
				S58	ods.ods_s58_m_ci_customer	1	客户基本信息表
S58	ods.ods_s58_m_ci_person	1	个人客户信息主表
				S57	ods.ods_s57_tb_fss_transbook	1	转账信息流水表

表1中各项目的含义如下：

SYS_CODE为业务系统编号，业务系统为某一单位使用的各个工作系统，例如某银行同时有贷款系统、代发工资系统等，这些业务系统中的数据以表形式存储在数据仓库中。

ORI_TABLE_CODE为表在数据仓库中的英文名称，即英文表名。

表1还包括以下项目，以下项目为配置信息：

DIM_FLAG为维度划分标志，用于控制该表是否执行维度划分分析，通常用0或1来表示，0表示不需要分析，1表示需要分析。维度划分标志通常由人工设置，一般默认为1，当不需要执行时，人工修改为0。在表清单配置表中，维度划分标志为可选项，即在表清单配置表中，可以设置维度划分标志，也可以不设置维度划分标志。

COMMENT为各表的中文名称。COMMENT一列所示的中文名称仅是为了更加方便的举例说明，在实际实施过程中，不一定需要包含中文名称这一列数据信息。

在一些实施例中，作为一种优选的方案，可以根据DIM_FLAG筛选出维度划分标志为1的表，从而控制需要分析的表的范围。

S200，计算获得表内函数依赖关系，根据表内函数依赖关系识别出主键，根据主键获取外键，并在主键和外键之间形成外键关系。

如图2所示，本步骤具体可以包括以下步骤：

S210，针对各表，根据表名、字段名以及字段的值，计算获得同一表内各字段之间的函数依赖关系，本发明称之为表内函数依赖关系。在本实施例中，获取表清单配置表ANALYSIS_CONF_TAB中维度划分标志DIM_FLAG为1的表，然后对需要函数依赖分析的表进行函数依赖分析，获得表内函数依赖关系。表内函数依赖关系存储于表2所示的函数依赖记录表FUNCTION_DEPENDENCY_TAB。当然，作为另一种实施方式，不考虑或不设置维度划分标志DIM_FLAG，而是对全部表进行函数依赖分析。现有技术中有多种算法可以计算获得函数依赖关系。

表2函数依赖记录表FUNCTION_DEPENDENCY_TAB(部分实例)

表2仅仅是本实施例中部分表的表内函数依赖关系示例。

S220，针对各表，根据表内函数依赖关系识别出各表的主键。本实施例中，主键为候选码集合，其可能为一个或多个候选码，本发明统称为主键。在函数依赖关系计算完成后，本发明会选取表6中函数依赖推导层级FD_LEVEL小于等于3的行所在关系集合，并采用快速求候选码的方法进行候选码求解。这样可以限定一定的范围，减轻计算压力。

S230，根据所述主键的特征在其他表中寻找并确定与之对应的外键，在主键和外键之间形成外键关系。如图3所示，步骤S230通过以下方式实施：

S231，由系统中的表间关系分析和生成装置将步骤S220获得的主键依次遍历，对每个主键的值通过Hash方法生成对应的布隆过滤器。特别地，对于联合主键，将数据(每个主键的值)联合后构建对应的布隆过滤器。

S232，对于任意两张表，例如表A和表B，根据表A中主键的定性特征和定量特征选取出表B中可能作为外键的字段。例如，根据定性特征中的数据类型COL_TYPE和定量特征中的字段长度(MAX_LEN为字段的最大长度、MIN_LEN为字段的最小长度)筛选出可能作为外键的字段。当表B中某一个字段的数据类型为表A中主键的字段数据类型的子集且字段的长度范围在主键字段的长度范围内，即可将其选取为可能作为外键的字段。例如，如果表A中主键的值是长度为14-18位的数值型数据，则表B中可能作为外键的字段的特征需符合最小长度大于等于14，最大长度小于等于18，且数据类型为数值的字段。

S233，将可能作为外键字段的数据与S231获得的布隆过滤器进行比较，获得主外键数据重合率，如果重合率为100％，则作为最终确定的外键。作为一种实施方式，也可以在主外键数据重合率大于阈值的情况下，将其作为最终确定的外键。例如，考虑到数据质量问题，必要时对主外键重合率考虑一定的容错，当对比字段存在于布隆过滤器中的主外键重合率大于98％以上时，即可认定为外键。确定外键后，就在主键和外键之间形成主外键关系，并将主外键关系信息存储到预置在存储装置的表中，从而形成外键记录表。外键记录表FK_INFO_TAB如表3所示。本实施例由于未包含联合主键，表3无联合外键展示。

表3外键记录表FK_INFO_TAB

表3所示外键记录表FK_INFO_TAB中各项目的含义如下：

FK_SYS_CODE为主业务系统的编号。

FK_NAME为外键名称，具有唯一性。

FK_TABLE_OWNER为外键关系中父表所在业务系统编号。

FK_TABLE_CODE为外键关系中父表名称。

FK_COL_CODE为外键关系中父表主键字段名称。

SYS_CODE为外键关系中子表所在业务系统编号。

TABLE_CODE为外键关系中子表名称。

COL_CODE为外键关系中外键字段名称。

DATA_RATE为外键重合率。

S300，合并互为外键关系的字段。

当存在主键字段A被字段B引用，且主键字段B被字段A引用时，则字段A与字段B完全相等，从而将字段A和字段B合并，视为一个字段。

S400，找出主题模型的初步主节点。

从外键关系中找到仅被外键引用且自身不引用任何主键的所有字段作为为初步主节点，一个初步主节点对应一个初步主题。

例如：根据跨业务系统间主外键关系，发现为主键且自身不引用任何主键的字段包括：

s03|ods.ods_s03_ctr_loan_cont|cont_no(S03信贷系统中合同主表中合同编号为主键)；

s03|ods.ods_s03_prd_bank_info|bank_no(S03信贷系统中银行信息表中银行行号为主键)；

s55|ods.ods_s55_bt_discount_batch|disc_batch_id(S55商业汇票系统中贴现买入批次表中买入批次号为主键)；

s58|ods.ods_s58_m_ci_customer|cust_no(S58ECIF系统客户基本信息表中客户号为主键)；

s58|ods.ods_s58_m_ci_person|cust_no(S58 ECIF系统个人客户信息主表中对私客户号为主键)。

而ods.ods_s03_acc_accp信贷系统银承台账信息中借据编号是作为该表的主键，但是其本身引用了ods.ods_s53_vab_lm_accp_xd作为外键，故其不作为维度主节点，同理ods.ods_s57_tb_fss_transbook亦如此。

从以上举例可以看出，被外键引用且自身不引用任何主键的字段是作为最大值域存在的，即只能通过该字段本身推导出其他字段，但不能通过其他字段推导出该字段，从而将其定义为维度主节点。

S500，找出每个初步主节点的闭包。

初步主节点的闭包包括通过以下三种方式找到的字段：

(1)当字段A作为初步主节点时，在表内函数依赖关系中所有依赖于字段A的其他字段B均为可以通过该初步主节点推导出的字段，全部依赖于字段A的字段B为初步主节点闭包中的字段；

(2)字段A作为主键被引用的所有外键字段C，由于外键字段C的数据是字段A的数据的子集，故将所有外键字段C作为字段A的闭包中的字段；需要说明的是，外键字段C不是字段A的子集，但外键字段C的数据是字段A的数据的子集；

(3)外键字段C通过其表内函数依赖关系在所述表中推出的其他字段D，即字段D依赖于外键字段C。

上述找到的字段B、C、D与字段A共同划分至以字段A为初步主节点的主题中，形成一个主题。需要说明的而是，前述字段B、C、D通常不止一个，通常是一个集合。本处仅仅以一个字段B、C、D作为示例。

在上述三种方式找到的字段中，第(1)种方式将通过初步主节点及其表内函数依赖关系推导出的所有字段和第(3)种方式通过外键字段及其表内函数依赖关系推导出的所有字段，虽然使用的不是同一各函数依赖关系，但都是通过函数依赖关系找到的字段。本发明为了表述方便，将通过第(1)种方式找到的字段B和第(3)种方式找到的字段D作为初步主节点的属性字段。

本实施例中，寻找每个初步主节点闭包的过程如下：

(1)将客户基本信息表中客户号ods.ods_s58_m_ci_customer|cust_no作为初步主节点A；找出所有依赖于字段A的字段B，所有依赖于字段A的字段均为可以通过函数依赖关系从初步主节点A推导出的字段。进一步，将计算结果存储在表4所示的表字段函数依赖关系结果表中。需要说明的是，将计算结果存储于表4仅仅是为了便于说明，实际执行中可以不以表4所示的方式存储计算结果。

表4所示的表字段函数依赖关系结果表

SYS_CODE	TABLE_CODE	left_COLUMNS	right_COLUMNS
				s58	ods.ods_s58_m_ci_customer	cust_no	cust_type
s58	ods.ods_s58_m_ci_customer	cust_no	cust_status
				s58	ods.ods_s58_m_ci_customer	cust_no	folct_flag
s58	ods.ods_s58_m_ci_customer	cust_no	vill_bank_flag
				s58	ods.ods_s58_m_ci_customer	cust_no	nati
s58	ods.ods_s58_m_ci_customer	cust_no	resd_flag
				s58	ods.ods_s58_m_ci_customer	cust_no	dome_abroad_flag
s58	ods.ods_s58_m_ci_customer	cust_no	cust_lvl
				s58	ods.ods_s58_m_ci_customer	cust_no	cust_risk_rank
s58	ods.ods_s58_m_ci_customer	cust_no	core_openacc_flag
				s58	ods.ods_s58_m_ci_customer	cust_no	cust_openacc_date
s58	ods.ods_s58_m_ci_customer	cust_no	openacc_brc_no
				s58	ods.ods_s58_m_ci_customer	cust_no	openacc_teller_no
s58	ods.ods_s58_m_ci_customer	cust_no	consol_target_cust_no
				s58	ods.ods_s58_m_ci_customer	cust_no	asso_ptr_type
s58	ods.ods_s58_m_ci_customer	cust_no	source_system_no
				s58	ods.ods_s58_m_ci_customer	cust_no	tran_seq_no
s58	ods.ods_s58_m_ci_customer	cust_no	data_date
				s58	ods.ods_s58_m_ci_customer	cust_no	remark
s58	ods.ods_s58_m_ci_customer	cust_no	last_update_brc_no
				s58	ods.ods_s58_m_ci_customer	cust_no	last_update_user_no
s58	ods.ods_s58_m_ci_customer	cust_no	last_update_date_time
				s58	ods.ods_s58_m_ci_customer	cust_no	last_update_system_no

表4中：

SYS_CODE为业务系统编号；

TABLE_CODE为表在数据仓库中的英文名称；

LEFT_COLUMNS为函数依赖的左节点，在本实施例中为初步主节点A；

RIGHT_COLUMNS为函数依赖的右节点，即左节点能推导出右节点，或者说右节点依赖于左节点。在本实施例中为通过初步主节点A及其表内函数依赖关系推导出的所有字段B。

(2)找出字段A作为主键被引用的所有外键C。进一步，将计算结果存储至表5所示的表字段主外键关系结果表中。需要说明的是，将计算结果存储于表5仅仅是为了便于说明，实际执行中可以不以表5所示的方式存储计算结果。

表5表字段主外键关系结果表

表5中，

FK_TABLE_CODE为主键所属的表在数据仓库中的英文名称；

FK_COL_CODE为主键所属字段在数据仓库中的英文名称，即为字段A，其被包含于FK_TABLE_COD的表中；

TABLE_CODE为引用FK_COL_CODE的表名，即外键字段所属的表名；

COL_CODE为字段在数据仓库中的英文名称，其被含于TABLE_CODE表中；

DATA_RATE为字段重复率，即外键字段在主键字段中的存在比例。比如该值为0.99时，说明外键字段中的99％的数据在存在于主键中。当存在外键约束时该值应该为1，但实际应用中有时为保证系统性能，不建立外键约束，可能出现脏数据。该值起到对现实脏数据进行一定容忍的功能。

(3)通过所述外键字段C及其表内函数依赖关系推导出的所有字段D，即字段D依赖于外键字段C。进一步，将计算结果存储在表6所示表字段主外键及其依赖关系结果表中。需要说明的是，将计算结果存储于表6仅仅是为了便于说明，实际执行中可以不以表6所示的方式存储计算结果。

表6表字段主外键关系结果表

表6中，

FK_TABLE_CODE为主键所属的表在数据仓库中的英文名称。

FK_COL_CODE为主键所属字段在数据仓库中的英文名称；即为字段C。

TABLE_CODE为引用FK_COL_CODE的表名，即外键字段所属的表名；

LEFT_COLUMNS为函数依赖的左节点，即为引用FK_COL_CODE外键的字段名。对于函数依赖X→Y,通常称X为其左部(LeftHandSide)，相应的Y为其右部(rightHandSide)。该字段即函数依赖的左部，为零(零说明在一张表内，任何X都可以推到出Y)到多个字段的组合，当多个字段时，中间使用英文逗号间隔。

RIGHT_COLUMNS为函数依赖的右节点，即为字段D，为函数依赖的右部。比如存在函数依赖C1,C2→C2,C3时，其可以展开为C1,C2→C2和C1,C2→C3。本表内右部均已展开形式存储，即右侧字段固定为一个字段。

S600，确定最优主节点。

在本实施例中，对于上述步骤找到的主节点的闭包中的字段，找出每个主题的属性字段和子集字段。属性字段为通过函数依赖关系找出的字段集合，即前述步骤S500中通过第(1)和第(3)种方式找到的字段。子集字段通过外键关系找出的字段集合，即前述步骤S500中通过第(2)种方式找到的字段。

之后检查每个初步主节点，对于某个初步主节点A；

如果，该初步主节点不是任何其他初步主节点的属性节点，说明该初步主节点A比较独立，与其他主题不交叉，故单独作为主题，将该初步主节点作为主题建模种最优的主节点；

或者，该初步主节点是两个以上其他初步主节点的属性字段，则将该初步主节点认与多个主题关系密切，划到其他主题均不合适，适合单独作为主题，故也将该初步主节点作为主题建模种最优的主节点。

S700，对于步骤S600中没有被确定为最优主节点的初步主节点A，由于该初步主节点A为其他某一个初步主节点B的属性字段，故将该初步主节点A及其闭包种的字段全部合并到主节点B的主题中。

优选地，对当主节点中字段同属于一张表时合并两个主题为一个主题。例如，在标准币种表中，国标规定了数字编码和字母简写编码两种编码，其均被视为主键，故两种编码分别作为主题主节点时，两个主题应该合并。

S800，在上述步骤完成后，将划分得到的每个主题维度存储于预置于表7所示的字段主题分类结果表中。表7展示了将字段划分至不同的主题的结果，即主题模型构建结果。进一步，将计算结果存储在表7所示的主题分类结果表中。需要说明的是，将计算结果存储于表7仅仅是为了便于说明，实际执行中可以不以表7所示的方式存储计算结果。

表7字段主题分类结果表FIELD_CATE_RESULT

表7字中，

SYS_CODE为业务系统编号，

TABLE_CODE为表在数据仓库中的英文名称，

COL_CODE为字段名称，

DIM_NODE为主题分类编码。DIM_NODE中的内容有具体含义，其中的字段为该主题分类的主节点，当DIM_NODE相同时，该行的字段是同一主题分类。

本发明是基于商业银行建模领域长期的实践与探索后，深刻理解业务痛点问题，结合了多方面的技术包括数据挖掘、数据分析、数据开发、主题建模等，提升了主题建模的效率与实用性，降低了开发门槛。具体包括以下优点：

(1)实现智能化主数据识别与推荐：传统的主数据识别是通过人工的方式，对全行的数据进行分析探索，然后确定其主数据相关属性和描述信息。但是主数据具有时间属性，会随着时间的变化而变化。也会随着系统架构的调整而改变其数据来源。所以为持续保证主数据信息的完备性、时效性，在识别和维护上都需要投入经验丰富的高级数据专家持续进行治理。本发明具备自动化主数据推荐、智能化主数据监控与识别的能力，能够在降低人力成本的同时，及时地维护主数据的完备性，提高数据的可用性，从而提升数据对业务的支撑能力。

(2)智能化模型主题推荐：主要通过主外键关系、函数依赖关系进行分析，确立维度节点进而确立主题模型，实现主题模型的智能化推荐，降低数据建模的门槛。

(3)自动化主题模型构建：通过对全系统的数据分析所推荐的主题模型，必然是涵盖了本系统间所有的关联关系，更是涵盖了跨系统间对于字段、指标的使用，大大提升了主题含义的广度、深度，解决了数据建模时跨系统间数据的粘连度不高问题，提高数据模型的质量。

(4)持续的主题模型优化与完善：本发明通过自动生产的关联分析算法所得到的关联关系数据，并通过增量的自动化更新，持续保证模型的完整性与完备性，为系统开发与数据开发提供指导依据，打通数据开发人员与业务人员之间鸿沟，提升了主题建模的效率与实用性，降低了开发门槛。

(5)本发明生成的主题模型，不仅为建设数据仓库提供了可行的主题建模方法，更为数据治理的落地带来了可行的思路，将主题与指标落地于数据标准中更是实际解决了数据治理最大的数据标准制定问题。

上述实施例中各表的结构仅为示例，在实际运行中，其个列数据项并非必然仅有上述实施例各表所示的各项，有可能还具有其他项目数据。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，

任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

应当理解，为了精简本发明并帮助本领域的技术人员理解本发明的各个方面，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时在单个实施例中进行描述，或者参照单个图进行描述。但是，不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

应当理解，可以对本发明的一个实施例的系统中包括的装置、模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备或系统中。可以把实施例的系统包括的不同装置、模块、单元或组件组合成一个装置、模块、单元或组件，也可以把它们分成多个子装置、子模块、子单元或子组件。

本发明的实施例中的装置、模块、单元或组件可以以硬件方式实现，也可以以一个或者多个处理器上运行的软件方式实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的计算机程序产品或计算机可读介质上。

Claims

1.一种数据仓库主题模型构建方法，其特征在于，包括各表内函数依赖关系、各表主键、外键以及外键关系；

通过初步主节点及其表内函数依赖关系推导出的所有字段；

初步主节点作为主键被引用的所有外键字段；以及

对于某一初步主节点A，

2.如权利要求1所述的数据仓库主题模型构建方法，其特征在于，当两个最优主节点的字段同属于一张表时，将两个最优主节点对应的主题合并为一个主题。

3.如权利要求1或2所述的数据仓库主题模型构建方法，其特征在于，计算获得表内函数依赖关系的过程为：

获取数据库中各表的表名，以及各表中的字段名；

针对各表，根据表中字段的值，分析各字段的特征；以及针对各表，根据表名、字段名以及字段的值，计算获得表内各字段之间的函数依赖关系作为表内函数依赖关系；

所述字段的特征包括定性特征和定量特征；所述定性特征包括字段的数据类型，所述定量特征包括字段的长度。

4.如权利要求3所述的数据仓库主题模型构建方法，其特征在于，形成外键关系的过程为：

针对各表，根据表内函数依赖关系识别出各表的主键，并根据所述主键的特征在其他表中寻找并确定与之对应的外键，在主键和外键之间形成外键关系。

5.如权利要求4所述的数据仓库主题模型构建方法，其特征在于，

寻找并确定外键时，将其他表中与主键数据类型和字段长度相匹配的字段作为外键，所述与主键数据类型和字段长度相匹配的字段是指，该字段的数据类型与主键数据类型相同，该字段的最小长度大于或等于主键的最小长度、最大长度小于或等于主键的最大长度。

6.如权利要求1、2、4或5任一权项所述的数据仓库主题模型构建方法，其特征在于，各步骤的计算结果以表格形式存储。

7.一种数据仓库主题模型构建系统，其特征在于，包括：

处理器；数据库；以及存储器，其中存储有程序，

其中在所述处理器执行所述程序时，进行以下操作：

通过初步主节点及其表内函数依赖关系推导出的所有字段；

初步主节点作为主键被引用的所有外键字段；以及

对于某一初步主节点A，

8.如权利要求7所述的数据仓库主题模型构建系统，其特征在于，当两个最优主节点的字段同属于一张表时，将两个最优主节点对应的主题合并为一个主题。

9.如权利要求7或8所述的数据仓库主题模型构建系统，其特征在于，计算获得表内函数依赖关系的过程为：

获取数据库中各表的表名，以及各表中的字段名；

10.如权利要求9所述的数据仓库主题模型构建系统，其特征在于，针对各表，根据表内函数依赖关系识别出各表的主键，并根据所述主键的特征在其他表中寻找并确定与之对应的外键，在主键和外键之间形成外键关系；