CN115599840A

CN115599840A - 一种复杂业务数据治理方法和系统

Info

Publication number: CN115599840A
Application number: CN202211265574.2A
Authority: CN
Inventors: 刘福强; 李丁丁; 陈艺曦; 杨迪丹
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-01-13

Abstract

本发明涉及数据治理技术领域，具体涉及一种复杂业务数据治理方法和系统，本发明中接收复杂业务的数据信息，根据数据信息以资源配置的方式实现对数据的治理，本发明的技术方案中，以资源配置的方式自动实现对数据治理服务的标准化、自动化，其中，资源配置的结构是固定的，适合多种场景数据表的融合，适用范围广，且是自动化操作，执行效率高。

Description

一种复杂业务数据治理方法和系统

技术领域

本发明涉及数据治理技术领域，具体涉及一种复杂业务数据治理方法和系统。

背景技术

随着大数据时代的飞速发展，数据信息呈现爆炸式增长。目前，数据具有体量大、类型多、增长速度快、价值密度低、准确真实性，这些数据蕴含着丰富的信息资源，为了分析、利用这些数据资源，“数据治理”应运而生。

《DAMA数据管理知识体系指南》中数据治理的定义为对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。从数据架构上来说，数据治理以数据资源为基础，包含了数据模型以及数据的流转关系。

数据治理主要包含“采”“存”“理”“管”“用”五个步骤，即原始数据采集清洗、数据资源的存储、业务和数据资源梳理、数据资源管理、数据应用。数据治理的目的是将原始数据通过技术治理和整合，从而形成根据不同业务对象划分的主题数据库。其中，面对复杂业务数据，如何实现数据治理服务的标准化、自动化，并保证数据逻辑的正确性，是数据治理中的一大难点问题。

发明内容

有鉴于此，本发明的目的在于提供一种复杂业务数据治理方法和系统，以解决现有技术中无法实现数据治理服务标准化、自动化、且不能保证数据逻辑正确性的技术问题。

根据本发明实施例的第一方面，提供一种复杂业务数据治理方法，包括：

接收复杂业务的数据信息；

根据所述数据信息以资源配置的方式实现对数据的治理。

优选地，所述方法，还包括：根据目标表、来源表和字段来源信息完成数据迁移和数据融合。

优选地，所述根据所述数据信息以资源配置的方式实现对数据的治理，包括：

根据配置表中定义的配置功能，对所述数据信息进行治理；其中，所述配置表至少包括：数据表配置表、数据表来源配置表、数据表字段配置表、数据表字段来源配置表；所述配置功能至少包括：字段名、字段类型及长度、说明、配置项。

优选地，所述根据配置表中定义的配置功能，对所述数据信息进行治理，包括：

对所述数据信息进行清洗、规范、转换，以获得标准区数据表；

对所述标准区数据表进行抽取、汇聚和转换，以获得主题区数据表；

对所述主题区数据表进行抽取、转换、计算，以获取专题区数据表。

优选地，所述根据目标表、来源表和字段来源信息完成数据迁移和数据融合，包括：

构建标准区数据来源表之间的父子关系；

确定主题区主键字段；

建立父子关系表之间的主键和外键；

合并目标表。

优选地，所述构建标准区数据来源表之间的父子关系，包括：

将子表表名输入到标准区表名配置表中的子表列；

将所述子表的父表表名输入到标准区表名配置表中的父表列。

优选地，所述确定主题区主键字段，包括：

在主题区字段配置表中的字段描述列，填入主键标识。

优选地，所述建立父子关系表之间的主键和外键，具体为：在主题区字段配置表中的字段描述列，填入主键字段标识，若所述主键字段标识为父表的外键，则填入外键标识，并将与所述外键关联的父表中对应的字段标识出来。

根据本发明实施例的第二方面，提供一种复杂业务数据治理系统，包括：

接收模块，用于接收复杂业务的数据信息；

治理模块，用于根据所述数据信息以资源配置的方式实现对数据的治理。

优选地，所述系统，还包括：

融合模块，用于根据目标表、来源表和字段来源信息完成数据迁移和数据融合。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明中接收复杂业务的数据信息，根据数据信息以资源配置的方式实现对数据的治理，本发明的技术方案中，以资源配置的方式自动实现对数据治理服务的标准化、自动化，其中，资源配置的结构是固定的，适合多种场景数据表的融合，适用范围广，且是自动化操作，执行效率高。

应当理解的是，以上的一般描述和后文的细节描述仅是例如性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一例如性实施例示出的一种复杂业务数据治理方法流程图；

图2是根据一例如性实施例示出的一种复杂业务数据治理系统的框图示意图。

具体实施方式

这里将详细地对例如性实施例进行说明，其例如表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下例如性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例一

在一个实施例中，请参阅图1，图1是根据一例如性实施例示出的复杂业务数据治理方法流程图，如图1所示，该方法包括：

步骤S01、接收复杂业务的数据信息；

步骤S02、根据所述数据信息以资源配置的方式实现对数据的治理。

需要说明的是，本实施例提供的技术方案适用的应用场景为复杂业务的数据处理，如：学校、银行、保险公司等需要实现数据治理服务标准化，自动化使用场合。

需要说明的是，本实施例的技术方案中，本发明中接收复杂业务的数据信息，根据数据信息以资源配置的方式实现对数据的治理，本发明的技术方案中，以资源配置的方式自动实现对数据治理服务的标准化、自动化，其中，资源配置的结构是固定的，适合多种场景数据表的融合，适用范围广，且是自动化操作，执行效率高。

在具体实践中，所述根据所述数据信息以资源配置的方式实现对数据的治理，包括：

在具体实践中，所述根据配置表中定义的配置功能，对所述数据信息进行治理，包括：

需要说明的是，资源配置的方式是指：安排资源的方式方法，即如何安排资源才更加合理，更加优化达到更好的效果。

需要说明的是，本实施例的技术方案是以资源配置的方式实现数据从原始区到标准区，再到主题区、专题区的治理功能。整体流程即完成数据入湖、数据治理和数据服务。

需要说明的是，本实施例的技术方案是根据目标字段和来源字段的单位、时间格式、字典类型等配置资源，自动完成单位、时间格式、字典数据的转换。

需要说明的是，原始区、标准区、主题区、专题区都有固定的定义及命名规范：

(1)原始区：

定义：数据入湖后，所有的结构化数据表汇聚为原始区，保持原有表结构和数据不变。

原始区数据表命名规范：库名_数据来源_业务类别_系统名称_表单名称；

例如：某大型超市线上渠道的食品销售订单信息表，可命名为sdi_online_food_app_salesorder。

(2)标准区：

定义：对原始区进行一系列标准化、规范化治理后的数据表结果，与原始区的数据表为一一映射的关系。

标准区数据表命名规范：库名_数据来源_业务类别_系统名称_表单名称；

例如：某大型超市线上渠道的食品销售订单信息表，可命名std_online_food_app_salesorder。

(3)主题区：

定义：实现对不同业务类别和不同业务主题对象构建维度宽表。

主题区数据表命名规范：库名_业务类别_主题类别_表单名称；

例如：某大型超市食品区中关于蔬菜的销售信息表，可命名为dwi_food_vegetables_salesinfo。

(4)专题区：

定义：实现用以支撑上层业务的应用系统数据需求，包含对主题区的抽取、转换、简单计算、复杂逻辑计算等。

专题区数据表命名规范：库名_应用系统_业务类别_表单名称

例如：某大型超市销售统计系统中近7日内蔬菜销售榜单信息表，可命名为dm_salestatistics system_toplist_vegetables7d。

需要说明的是，配置表可以有多种，但主要包括：数据表配置表、数据表字段配置表、数据表来源配置表、数据表字段来源配置表等。

(1)数据表配置表：定义表及表间关系，具体请参见表1-1。

表1-1数据表配置表

字段名	字段类型及长度	说明
			table_name	varchar(128)	表名称
table_comment	varchar(128)	表注释
			parent_table_name	varchar(128)	父表的表名称

(2)数据表来源配置表：定义目标表有哪些来源表及过滤条件，具体请参见表1-2。

表1-2数据表来源配置表

字段名	类型及长度	说明
			dest_table_name	varchar(128)	目标表名
src_table_name	varchar(128)	来源表名
			filter_condition	varchar(512)	过滤条件

(3)数据表字段配置表：定义字段含义、类型、格式、长度、单位、小数位数及字典转换等字段配置项，具体请参见表1-3和1-4。

表1-3数据表字段配置表

字段名	类型及长度	说明
			table_name	varchar(128)	表名称
column_name	varchar(128)	字段名称
			data_type	varchar(128)	数据类型
data_length	int	数据长度
			numberic_scale	int	小数位数
column_config	text	字段配置项，多个用分号隔开，配置项见表1-4

表1-4数据表字段配置表例如

注：可根据具体的数据治理场景和数据个性化增删配置项

(4)数据表字段来源配置表：定义字段来源、优先级、统计函数、统计条件等，具体请参见表1-5。

表1-5数据表字段来源配置表

需要说明的是，在本实施例中，数据治理包括：标准区治理模块、主题区治理模块和专题区治理模块。

其中，标准区治理模块：在Spark Python平台根据配置表开发对应的功能模块：std_process，

根据配置表中的定义的配置功能，将原始区数据表通过清洗、规范、转换后形成标准区数据表。

例如：原始区数据表sdi_online_food_app_salesorder。

表1-6原始区数据表

其中，标准区治理模块治理的步骤为：

1、格式规范：订单时间转换为标准格式yyyy-mm-dd HH:MM:SS；

2、字典编码转换：下单渠道、配送方式、订单省份、订单市州、订单区县；

3、字段清洗：详细地址、备注等。

治理后的标准区数据表，例如：std_online_food_app_salesorder。

表1-7标准区数据表

其中，主题区治理模块：在Spark Python平台根据配置表开发对应的功能模块：dwi_process；

根据配置表中的定义的配置功能，将标准区数据表通过抽取、汇聚、转换后形成主题区数据表。

将某大型超市所有关于主题对象蔬菜的销售信息进行汇聚为一张宽表，治理后的主题区数据表，例如：dwi_food_vegetables_salesinfo。

表1-8主题区数据表

其中，专题区治理模块：在Spark Python平台根据配置表开发对应的功能模块：dm_process

根据配置表中的配置项定义功能，将主题区数据表通过抽取、转换、计算后形成专题区数据表。

治理后的专题区数据表，例如：

dm_salestatistics system_toplist_vegetables7d。

表1-9专题区数据表

需要说明的是，本实施例的技术方案只进行一部分实施例的介绍，对于应用本方法的其他实施例均在本申请的保护范围内，再此不在赘述。

在具体实践中，还包括：根据目标表、来源表和字段来源信息完成数据迁移和数据融合。

在具体实践中，所述根据目标表、来源表和字段来源信息完成数据迁移和数据融合，包括：

构建标准区数据来源表之间的父子关系；

确定主题区主键字段；

建立父子关系表之间的主键和外键；

合并目标表。

在具体实践中，所述构建标准区数据来源表之间的父子关系，包括：

将子表表名输入到标准区表名配置表中的子表列；

在具体实践中，所述确定主题区主键字段，包括：

在主题区字段配置表中的字段描述列，填入主键标识。

在具体实践中，所述建立父子关系表之间的主键和外键，具体为：在主题区字段配置表中的字段描述列，填入主键字段标识，若所述主键字段标识为父表的外键，则填入外键标识，并将与所述外键关联的父表中对应的字段标识出来。

需要说明的是，在数据处理过程中，配置表是辅助程序从原始区、标准区、主题区、专题区对数据进行数据清洗、字段规范、质量检查、表合并或拆分、主题分类等。其中，原始区到标准区主要是实现数据的规范化管理，标准区到主题区主要对规范化管理的数据进行拆分、合并以达到按主题分类的效果，从题区到专题区主要将分类后的数据转换为对接应用系统的数据，实现数据的服务。

需要说明的是，从业务系统或关系数据库中批量迁移到数据湖中的数据表，在经过原始区与标准区后，实现了数据的规范化管理，但不同数据表之间、不同字段之间存在一定自然属性上的联系，因此，还需要在主题区进行分类处理。例如：一张标准区数据表的主键为申请ID(该表后文称为申请表)，另一张标准区数据表的主键为批次ID(该表后文称为批次表)，同一个批次下可能会有多个申请ID，两张表都包含同一主题区的信息，例如：某企业的企业信息。为了让所有关于企业信息放到一张数据表中，需要对批次表与申请表进行合并。其中，自然属性包括：品代码、企业所在地区，ID这个字段在数据表里的作用只有对每条数据进行编码，确定每条数据的唯一性。而企业信用代码、产品代码、企业所在地区这三个字段却都是在描述企业或产品的。这些描述企业或产品字段的作用是为了描述企业或产品的自然属性，这些字段就被称为“具有自然属性的字段”。而ID的作用仅用于确定每条数据的唯一性，与企业本身是什么样无关，即使是换一批次的ID，只要ID两两之间各不相同，也是能起到“标识唯一性”的作用，所以这里的ID不具备自然属性。这里强调自然属性的原因是什么呢？从标准区到主题区时，没有实际含义的字段是会被过滤掉，例如：ID；被保留的只有具有自然属性的字段。可是，一张表里没有了ID，又用什么去标识唯一性呢？于是就要判断哪些自然属性的组合可以构建出这张表的唯一性。例如表中，这是一张描述各企业各产品的表，每条数据的“企业信用代码+产品代码”组合字段都两两之间各不相同，那么就可以将“企业信用代码+产品代码”作为这张表具备自然属性的组合，即作为主键。

需要说明的是填写配置参数具体为：

1、构建标准区数据来源表之间的父子关系：由于目标表是主题区的表，那么来源表就是标准区的表。在《标准区表名配置表》中，在子表列中填入子表表名，父表列中填入该子表的父表表名。

2、确定主题区主键字段：对确定好的主键字段，在《主题区字段配置表》中主键字段的“字段描述”一列中填入表示“主键”的标识。

3、建立父子关系表之间的主键和外键：在《主题区字段配置表》中主键字段的“字段描述”一列中填入表示“主键”的标识，如果该字段是其父表的外键，则填入表示“外键”的标识，并将外键所关联的父表中的对应字段标识出来。

4、合并目标表：在《主题区来源表》中主键字段的“来源表名”一列填入不同来源的表名，在“来源字段”一列中填入各来源表中包含的字段。

需要说明的是，本实施例中，主键：关系型数据库中的一条记录中有若干个属性，若其中某一个属性组能唯一标识一条记录，该属性组就可以成为一个主键。例如：学生表(学号，姓名，性别，班级)，其中每个学生的学号是唯一的，学号就是一个主键。2.课程表(课程编号，课程名，学分)其中课程编号是唯一的，课程编号就是一个主键。3.成绩表(学号，课程号，成绩)成绩表中单一一个属性无法唯一标识一条记录，但是，学号和课程号的组合可以唯一标识一条记录，所以学号和课程号的属性组是一个主键。成绩表中的学号不是成绩表的主键，但它和学生表中的学号相对应，并且学生表中的学号是学生表的主键，则称成绩表中的学号是学生表的外键。同理成绩表中的课程号是课程表的外键。

需要说明的是，现有技术中，一般在主题区中只配置步骤4，原因是数据表本身已经在描述同一个主题，就没有对表进行拆分合并的需求。而新的业务需求是多张表之间有自然属性关联的字段合并到一张新表中，如果仅仅通过配置步骤4，表与表之间的关系无法找到，程序很可能会报错。因此，本实施例的技术方案，可以保证多数据表间的关系很明晰、一目了然。

需要说明的是，本实施例的技术方案，将父子表关系与数据表巧妙组合在一起，实现了多数据表之间的关系清晰明了。

实施例二

在一个实施例中，请参阅图2，图2是根据一示例性实施例示出的一种复杂业务数据治理系统200的框图示意图，如图2所示，该系统包括：

接收模块，用于接收复杂业务的数据信息；

优选地，还包括：

需要说明的是，本实施例的技术方案中，接收模块201，用于接收复杂业务的数据信息，治理模块202，用于根据数据信息以资源配置的方式实现对数据的治理，本发明的技术方案中，以资源配置的方式自动实现对数据治理服务的标准化、自动化，其中，资源配置的结构是固定的，适合多种场景数据表的融合，适用范围广，且是自动化操作，执行效率高。

需要说明的是，融合模块203的实施例参阅上面的实施例，在本实施例不在赘述。

本实施例公开的计算机可读存储介质包括但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个治理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“例如”、“具体例如”、或“一些例如”等的描述意指结合该实施例或例如描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或例如中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或例如。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或例如中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是例如性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种复杂业务数据治理方法，其特征在于，包括：

接收复杂业务的数据信息；

根据所述数据信息以资源配置的方式实现对数据的治理。

2.根据权利要求1所述的方法，其特征在于，还包括：根据目标表、来源表和字段来源信息完成数据迁移和数据融合。

3.根据权利要求1所述的方法，其特征在于，所述根据所述数据信息以资源配置的方式实现对数据的治理，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据配置表中定义的配置功能，对所述数据信息进行治理，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据目标表、来源表和字段来源信息完成数据迁移和数据融合，包括：

构建标准区数据来源表之间的父子关系；

确定主题区主键字段；

建立父子关系表之间的主键和外键；

合并目标表。

6.根据权利要求5所述的方法，其特征在于，所述构建标准区数据来源表之间的父子关系，包括：

将子表表名输入到标准区表名配置表中的子表列；

7.根据权利要求5所述的方法，其特征在于，所述确定主题区主键字段，包括：

在主题区字段配置表中的字段描述列，填入主键标识。

8.根据权利要求5所述的方法，其特征在于，所述建立父子关系表之间的主键和外键，具体为：在主题区字段配置表中的字段描述列，填入主键字段标识，若所述主键字段标识为父表的外键，则填入外键标识，并将与所述外键关联的父表中对应的字段标识出来。

9.一种复杂业务数据治理系统，其特征在于，包括：

接收模块，用于接收复杂业务的数据信息；

10.根据权利要求9所述的系统，其特征在于，还包括：