CN117573653A - 数据字典的生成方法、装置、设备及存储介质 - Google Patents
数据字典的生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117573653A CN117573653A CN202311617166.3A CN202311617166A CN117573653A CN 117573653 A CN117573653 A CN 117573653A CN 202311617166 A CN202311617166 A CN 202311617166A CN 117573653 A CN117573653 A CN 117573653A
- Authority
- CN
- China
- Prior art keywords
- data item
- data
- attribute information
- information
- item attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000013507 mapping Methods 0.000 claims abstract description 24
- 238000004519 manufacturing process Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012423 maintenance Methods 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 16
- 238000007726 management method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种数据字典的生成方法、装置、设备及存储介质,可以应用于计算机技术领域或金融科技领域。该方法包括:从数据库中调用数据库表信息文件,其中,数据库表信息文件中包括数据项标识字段;为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;对数据项属性信息子文件进行融合,得到数据项属性信息文件,其中,数据项属性信息文件中包括数据项标识字段;通过数据项标识字段,将数据库表信息文件与数据项属性信息文件进行映射关联,生成数据字典。
Description
技术领域
本公开涉及计算机技术领域或金融科技领域,尤其涉及一种数据字典的生成方法、装置、设备、存储介质和程序产品。
背景技术
在企业中,一般利用数据字典对各软件系统的属性数据进行定义,目的在于对各软件系统的属性数据做出详细的说明。
在实现本公开发明构思的过程中,发明人发现相关技术中一般会存在以下问题:由于现有数据字典中的描述维度较少,而且描述维度粗糙,这就使得相关人员或设备在使用现有的数据字典对软件系统的属性数据进行定义时,只能通过一些粗粒度的描述维度进行定义,进而难以实现对属性数据的准确定义,以及难以对定义后的属性数据进行区分,降低了数据处理的准确率和效率。因此,提供一种细粒度的数据字典对提高数据处理的准确率和效率至关重要。
发明内容
鉴于上述问题,本公开提供了一种数据字典的生成方法、装置、设备、存储介质和程序产品。
本公开的一个方面提供了一种数据字典的生成方法,包括:从数据库中调用数据库表信息文件,其中,上述数据库表信息文件中包括数据项标识字段;为上述数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;对上述数据项属性信息子文件进行融合,得到数据项属性信息文件,其中,上述数据项属性信息文件中包括上述数据项标识字段;通过上述数据项标识字段,将上述数据库表信息文件与上述数据项属性信息文件进行映射关联,生成数据字典。
根据本公开的实施例,上述数据项属性信息包括数据项的类型信息以及数据项的取值信息,上述数据项属性信息子文件包括第一类数据项属性信息子文件和第二类数据项属性信息子文件;上述为上述数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件,包括:为上述数据项配置上述数据项的类型信息,得到第一类数据项属性信息子文件;以及为上述数据项配置上述数据项的取值信息,得到第二类数据项属性信息子文件。
根据本公开的实施例,上述为上述数据项配置上述数据项的类型信息,得到第一类数据项属性信息子文件,包括:为上述数据项配置数据项分类信息,得到数据项分类表;为上述数据项配置数据项业务信息,得到数据项业务说明表,其中,上述数据项业务信息包括以下至少之一:业务目的、业务含义以及业务策略;根据上述数据项分类表以及上述数据项业务说明子表,得到上述第一类数据项属性信息子文件。
根据本公开的实施例,上述数据项分类信息是通过如下方式得到的:根据上述数据项的来源渠道,将上述数据项划分为内部数据和外部数据;根据上述数据项的业务属性信息,将上述内部数据划分为业务数据和运维数据;根据上述业务数据、上述运维数据以及上述外部数据,生成上述数据项的分类信息。
根据本公开的实施例,上述为上述数据项配置上述数据项的取值信息,得到第二类数据项属性信息子文件,包括:为上述数据项配置数据项取值类型信息,得到数据项取值类型表,其中,上述数据项取值类型信息包括以下至少之一:编码类、代码类、指示器类、文本类、金额类、数值类、百分比类、日期类、时间类、日期时间类以及非结构化类;基于正则表达式,为上述数据项的数据项取值类型信息配置上述值域范围,得到值域范围表;根据上述数据项取值类型表和上述值域范围表,得到上述第二类数据项属性信息子文件。
根据本公开的实施例,上述对上述数据项属性信息子文件进行融合,得到数据项属性信息文件,包括:获取预先构建的数据项属性信息模板,其中,上述数据项属性信息模板上配置有属性区域,上述属性区域配置有区域标识;根据上述区域标识,将上述第一类数据项属性信息子文件以及上述第二类数据项属性信息子文件拼接到上述数据项属性信息模板中,得到上述数据项属性信息文件。
根据本公开的实施例,上述方法还包括:从生产数据库中获取初始生产数据文件;将上述初始生产数据文件进行数据筛选,得到目标生产数据文件;基于上述数据字典,对上述目标生产数据文件中携带的信息进行检核,得到与上述目标生产数据文件的准确性情况相关联的检核结果。
本公开的另一方面还提供了一种数据字典的生成装置,包括:调用模块,用于从数据库中调用数据库表信息文件,其中,上述数据库表信息文件中包括数据项标识字段;配置模块,用于为上述数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;融合模块,用于对上述数据项属性信息子文件进行融合,得到数据项属性信息文件,其中,上述数据项属性信息文件中包括上述数据项标识字段;第一生成模块,用于通过上述数据项标识字段,将上述数据库表信息文件与上述数据项属性信息文件进行映射关联,生成数据字典。
本公开的另一方面还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述数据字典的生成方法。
本公开的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述数据字典的生成方法。
本公开的另一方面还提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现上述数据字典的生成方法。
根据本公开实施例提供的数据字典生成方法、装置、设备和存储介质,通过从数据库中调用数据库表信息文件;为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;对所述数据项属性信息子文件进行融合,得到数据项属性文件;通过数据项标识字段将数据库表信息文件与数据项属性文件进行映射关联,生成数据字典。由于在生成数据字典的过程中,为数据库表信息文件中的数据项增加配置了数据项属性信息,并通过数据项标识字段与数据库表信息文件建立了映射关联,从而使得生成的数据字典具有更细粒度的描述维度,能够使得相关人员或设备在使用数据字典时能够对根据数据字典中的数据项属性信息对需要定义的数据进行更细粒度的定义与区分,至少部分的克服了相关技术中由于描述维度较粗糙导致难以对需要定义的数据进行准确定义和区分的问题,进而达到了提高数据处理的准确率和效率的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据字典的生成方法、装置、设备、存储介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的数据字典的生成方法的流程图;
图3示意性示出了根据本公开实施例的对数据字典进行维护的流程图;
图4示意性示出了根据本公开实施例的数据字典的生成装置的结构框图;以及
图5示意性示出了根据本公开实施例的适于实现数据字典的生成方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本发明的技术方案中,所涉及的用户信息(包括但不限于用户个人信息、用户图像信息、用户设备信息,例如位置信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均遵守相关国家和地区的相关法律法规和标准,采取了必要保密措施,不违背公序良俗,并提供有相应的操作入口,供用户选择授权或者拒绝。
在企业级软件系统的开发过程中,对软件系统中所涉及到的属性数据进行的数据说明一般会由不同的人员或设备完成,因此这些数据说明会存在数据标准不统一、数据链接困难等问题。通过构建统一的企业级数据字典,能够至少部分的克服据标准不统一、数据链接困难等问题。但现有的数据字典中的描述维度较少,所能描述的实体属性信息较为局限,描述精度较为局限。例如,对于属性数据中数据项这一描述维度,只有关于数据项的中文名称、英文名称、字段类型以及字段长度的描述,缺乏对数据项的类型信息以及取值信息的定义说明,导致相关人员或设备难以根据现有的数据字典对属性数据做出准确的说明。此外,相关人员在使用数据字典时,一般会在字段名称方面区分属性数据的含义,但是由于很多数据项的命名类似,导致难以准确区分属性数据。而且为实现数据项见名知义的目标,相关人员会命名较冗长的字段,导致了现有的数据字典难于阅读和使用的问题。
有鉴于此,本公开提供了一种数据字典的生成方法、装置、设备和存储介质,用于生成具有更细粒度的数据字典,便于相关人员或设备在使用数据字典时能够对数据进行更细粒度的定义与区分,以提高数据处理的准确率和效率。具体地,该方法包括:从数据库中调用数据库表信息文件,其中,数据库表信息文件中包括数据项标识字段;为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;对数据项属性信息子文件进行融合,得到数据项属性信息文件,其中,数据项属性信息文件中包括数据项标识字段;通过数据项标识字段,将数据库表信息文件与数据项属性信息文件进行映射关联,生成数据字典。
需要说明的是,本公开实施例确定的数据字典的生成方法和装置可用于计算机技术领域或金融科技领域,也可用于除计算机技术领域或金融科技领域之外的任意领域,本公开实施例对确定的数据字典的生成方法和装置的应用领域不做限定。
图1示意性示出了根据本公开实施例的数据字典的生成方法、装置、设备、存储介质和程序产品的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104、服务器105和数据库106。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间,服务器105和数据库106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等,例如接收并展示服务器105生成的数据字典。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如与应用数据字典相关的应用、金融类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
数据库106中可以存储有数据库表信息文件,该数据库表信息文件可以是通过归纳现有数据字典的数据库表管控属性得到的。
服务器105可以是提供各种服务的服务器,例如是对数据字典的生成提供支持的后台管理服务器(仅为示例)。后台管理服务器可以从数据库中调用数据库表信息文件;为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;对数据项属性信息子文件进行融合,得到数据项属性信息文件;通过数据项标识字段,将数据库表信息文件与数据项属性信息文件进行映射关联,生成数据字典。还可以将数据字典、以及生成数据字典的过程中所产生的网页、信息、数据等反馈给终端设备。
需要说明的是,本公开实施例所提供的数据字典的生成方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据字典的生成装置一般可以设置于服务器105中。本公开实施例所提供的数据字典的生成方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103、数据库106和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据字典的生成装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103、数据库106和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络、服务器和数据库的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器和数据库。
以下将基于图1描述的场景,通过图2对公开实施例的数据字典的生成方法进行详细描述。
图2示意性示出了根据本公开实施例的数据字典的生成方法的流程图。
如图2所示,该实施例的数据字典的生成方法包括操作S210~操作S240。
在操作S210,从数据库中调用数据库表信息文件,其中,数据库表信息文件中包括数据项标识字段。
在操作S220,为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件。
在操作S230,对数据项属性信息子文件进行融合,得到数据项属性信息文件,其中,数据项属性信息文件中包括数据项标识字段。
在操作S240,通过数据项标识字段,将数据库表信息文件与数据项属性信息文件进行映射关联,生成数据字典。
根据本公开的实施例,数据库表信息文件可以是通过归纳现有数据字典的数据库表管控属性,明确数据库表属性信息得到的。数据库表信息文件中的内容可以是现有数据字典中所涉及到的描述维度。本公开实施例的数据字典的生成方法可以是在现有数据字典的基础上,对数据字典中的数据项这一描述维度进行扩充,以细化数据项这一描述维度,进而细化数据字典的描述维度,从而实现对待定义数据的精准定义与区分。
示例性的,数据库表信息文件可以如表1所示。
表1
根据本公开的实施例,数据项标识字段可以是表1中的“数据项编号”。源信息可以是指没有被加工处理过程的信息,可以是原始获取到的信息。属性信息可以是指被加工处理过的信息,非原始获取到的信息。本公开实施例是在表1的基础上增加数据项信息,细化数据字典的粒度。具体地,可以为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件。其中,数据项属性信息可以包括数据项的类型信息(例如数据项的分类信息、业务信息等)以及数据项的取值信息(例如为数据项的取值类型、取值的值域范围等)。每增加的一种关于数据项属性的信息,可以得到一个数据项属性信息子文件,该文字文件可以是表格的形式。该文件中可以记录有属性信息以及对属性信息的标准说明。
根据本公开的实施例,通过将多个数据项属性信息子文件进行融合,例如依次拼接这多个数据项属性信息子文件,可以得到数据项属性信息文件,该文件也可以是表格的形式。可以理解的是,数据项属性信息文件中可以设置有数据项标识字段(例如数据项编号),通过该数据项标识字段,可以在数据项属性信息文件与数据库表信息文件之间进行映射关联,从而便于相关人员或设备在进行数据定义与区分数据时,能够先通过数据库表信息文件对数据进行初步定义与区分,并通过数据项标识字段调用数据项属性信息文件,并利用该数据项属性信息文件进行更细粒度的定义与区分。可选的,数据项属性信息文件中也可以设置与表1中的“字段英文名”和/或“字段中文名”相关联的标识,并通过该标识构建数据项属性信息文件与数据库表信息文件之间的映射关系。
根据本公开实施例提供的数据字典生成方法、装置、设备和存储介质,通过从数据库中调用数据库表信息文件;为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;对所述数据项属性信息子文件进行融合,得到数据项属性文件;通过数据项标识字段将数据库表信息文件与数据项属性文件进行映射关联,生成数据字典。由于在生成数据字典的过程中,为数据库表信息文件中的数据项增加配置了数据项属性信息,并通过数据项标识字段与数据库表信息文件建立了映射关联,从而使得生成的数据字典具有更细粒度的描述维度,能够使得相关人员或设备在使用数据字典时能够对根据数据字典中的数据项属性信息对需要定义的数据进行更细粒度的定义与区分,至少部分的克服了相关技术中由于描述维度较粗糙导致难以对需要定义的数据进行准确定义和区分的问题,进而达到了提高数据处理的准确率和效率的技术效果。
根据本公开的实施例,数据项属性信息子文件可以包括第一类数据项属性信息子文件和第二类数据项属性信息子文件。操作S220可以包括如下操作:为数据项配置数据项的类型信息,得到第一类数据项属性信息子文件;以及为数据项配置数据项的取值信息,得到第二类数据项属性信息子文件。
根据本公开的实施例,为数据项配置数据项的类型信息,得到第一类数据项属性信息子文件可以包括如下操作:为数据项配置数据项分类信息,得到数据项分类表;为数据项配置数据项业务信息,得到数据项业务说明表,其中,数据项业务信息包括以下至少之一:业务目的、业务含义以及业务策略;根据数据项分类表以及数据项业务说明子表,可以得到第一类数据项属性信息子文件。
根据本公开的实施例,为数据项配置数据项分类信息,可以得到数据项分类表,而数据项分类信息可以是通过如下方式获得的:根据数据项的来源渠道,将数据项划分为内部数据和外部数据;根据数据项的业务属性信息,将内部数据划分为业务数据和运维数据;根据业务数据、运维数据以及外部数据,生成数据项的分类信息。
根据本公开的实施例,数据项的来源渠道可以包括企业内部渠道和企业外部渠道。具体地,通过渠道标识可以确定渠道来源,例如从企业内部渠道来源的信息可以带有企业内部的标识(例如xx企业字段),从企业外部渠道来源的信息可以不带有企业内部的标识。内部数据可以是从企业内部渠道来源的数据;外部数据可以是从企业外部来源的数据。
根据本公开的实施例,业务属性信息可以包括业务含义以及业务可见性。具体地,对于内部数据,业务可见性为不可见的数据可以作为运维数据,例如技术数据。业务可见性为可见的数据可以作为业务数据。业务数据还可以是具有业务含义的数据,运维数据也可以是没有业务含义的数据。
具体地,业务数据可以细分为基础数据、派生数据和衍生数据。基础数据是描述业务对象的基本和较重要的数据,它可以独立地反映业务对象的客观存在,不依赖于其它数据。例如:用户编号、业务人员编号、银行内部机构层级、国家和地区代码、组织机构代码、用户证件类型和证件号码等。派生数据可以是通过对一个或者多个基础数据进行转换得到,例如:业务复核人员编号,用户创建人员编号(1:n派生于业务人员编号和关系类型=‘用户创建人’),产品的生命周期状态代码(n:1,派生于生命周期状态代码)。衍生数据可以是按照确定的计算策略,对多个基础数据进行数学运算产生的、具有业务含义的、需要进行捕捉且保存的数值型数据,例如报表,指标类数据。
运维数据(例如技术数据),可以指的是由相关运维人员定义的数据,是业务不可见的数据。运维数据(例如技术数据)是较偏重于数据处理细节和数据结构的技术化描述的数据项,技术数据一般不包括衍生数据、业务录入的数据、业务表单数据等。
外部数据,可以是从企业外采集而来的具有业务含义的数据,该类数据来源于企业外部系统,一般不允许在外部数据的基础上进行派生。外部数据的数据格式和内容一般完全由外部相关用户配置。
根据本公开的实施例,为数据项配置数据项分类信息,得到的数据项分类表,可以如表2所示。
表2
根据本公开的实施例,通过细化数据项的分类信息,将数据项分类为业务数据、技术数据、外部数据;同时进一步对业务数据、技术数据、外部数据进行细化分类,将业务数据分类为基础数据、衍生数据、派生数据;将技术数据分类为系统参数数据、操作痕迹数据、业务过程数据、辅助数据;将外部数据按数据来源组织分类等,不仅完善了对数据项类型的标准化描述维度,还可以为数据项类型实现标准化描述提供支撑。
根据本公开的实施例,为数据项配置数据项业务信息,可以得到数据项业务说明表,数据项业务说明表可以如表3所示。具体地,对于业务数据和外部数据,可以细化数据项的管理属性,将数据的业务目的、业务含义以及业务策略作为描述属性纳入到数据字典的描述维度中。从而既可以保持数据项命名的简练统一,又可以兼顾实现数据项含义的描述和记录。通过对业务数据和外部数据提供更加精细化的管理,还能够达到缩减基于数据字典对数据进行数据治理的范围、节约数据治理成本的效果。
具体地,业务目的可以是基于数据项的使用场景和用途进行的详细描述,通过概括表达数据项的具体用途得到。业务含义可以是基于创建数据项的业务流程对数据的业务含义和相关业务场景进行的详细描述。业务含义应精准、细致,便于数据标准使用人员理解。业务含义可以来源于相关国家标准和行业标准、外部监管机构规定、企业内部业务制度、信息系统业务需求,以及行业经验的总结性归纳等。业务策略可以是企业业务对数据项的约束条件的具体描述,例如数据项的计算策略、数据项的编码策略等内容。业务策略可以来源于外部监管机构规定、企业业务制度、信息系统业务需求等,包括但不限于如下内容:数据项取值需满足的业务条件;数据项更新的频率;若数据项由处理其它数据得到,可以列出处理过程;若数据项可同时具有多种取值,可以在业务策略中予以说明;编码类数据项,可以描述编码的策略,可以包括编码的长度、编码的构成、各组成部分的业务含义等;代码类数据项,可以描述代码的编码策略等。
表3
根据本公开的实施例,第一类数据项属性信息子文件可以通过对表2所示的数据项分类表和表3所示的数据项业务说明表进行拼接得到。
根据本公开的实施例,为了进一步细化对数据项的描述维度,还可以通过为数据项配置数据项取值信息得到。具体地,为数据项配置数据项的取值信息,得到第二类数据项属性信息子文件,可以包括如下操作:为数据项配置数据项取值类型信息,得到数据项取值类型表,其中,数据项取值类型信息包括以下至少之一:编码类、代码类、指示器类、文本类、金额类、数值类、百分比类、日期类、时间类、日期时间类以及非结构化类;基于正则表达式,为数据项的数据项取值类型信息配置值域范围,得到值域范围表;根据数据项取值类型表和值域范围表,得到第二类数据项属性信息子文件。
根据本公开的实施例,数据项取值类型表可以如表4所示。
表4
根据本公开的实施例,通过完善数据项取值类型的描述维度,将取值类型分为编码类、代码类、指示器类、文本类、金额类、数值类、百分比类、日期类、时间类、日期时间类、非结构化类,可以对于数据项取值实现标准化描述提供支撑。
根据本公开的实施例,对于数据项的取值类型,可以进一步基于正则表达式配置取值的范围,即值域范围。例如对字符类型的取值可以配置是数字、字母以及汉字的至少一种,对于长度类型的取值可以配置是固定长度或是最值长度(最多、最少等)等,此外,还可以配置小数位数形式的长度以及时间格式等。示例性的,值域范围表可以如表5所示。
表5
根据本公开的实施例,第二类数据项属性信息子文件可以通过对表4所示的数据项取值类型表和表5所示的值域范围表进行拼接得到。
根据本公开的实施例,得到多个数据项属性信息子文件后,可以汇总这多个数据项属性信息子文件,得到数据项属性信息文件。具体地,操作S230可以包括如下操作:获取预先构建的数据项属性信息模板,其中,数据项属性信息模板上配置有属性区域,属性区域配置有区域标识;根据区域标识,将第一类数据项属性信息子文件以及第二类数据项属性信息子文件拼接到数据项属性信息模板中,得到数据项属性信息文件。
根据本公开的实施例,数据项属性信息模板可以如表6所示。
表6
序号 | 属性名称 | 属性描述说明 |
1 | 数据项编号 | |
2 | 数据项分类 | |
3 | 信息大类 | |
4 | 英文简称 | |
5 | 中文名称 | |
6 | 英文名称 | |
7 | 业务目的 | |
8 | 业务含义 | |
9 | 业务策略 | |
10 | 数据属性 | |
11 | 引用数据项 | |
12 | 数据格式 | |
13 | 域中文名称 | |
14 | 取值类型 | |
15 | 域数据格式 | |
16 | 取值范围 | |
17 | 代码取值 |
根据本公开的实施例,表6中属性名称一列中的内容可以作为区域标识。示例性的,数据项分类字典可以作为区域标识,与数据项分类关联的属性描述说明区域可以作为属性区域。
在一实施例中,“数据项分类”字段可以用于标识该属性区域内拼接表2所示的数据项分类表。“业务目的”、“业务定义”、以及“业务策略”字段可以用于标识该属性区域内拼接表3所示的数据项业务说明表。“取值类型”可以用于标识该属性区域内拼接表4所示数据项取值类型表。“取值范围”可以用于标识该属性区域内拼接表5所示值域范围表。
可选的,为了使得数据项属性信息文件的格式更为简洁,在拼接时,可以只拼接部分内容,其余内容作为超链接的形式弹出。例如,对于“数据项分类”可以只拼接表2中的第一列,将表2第一列的内容添加到与“数据项分类”对应的属性描述中,同时与业务数据、运维数据以及外部数据各自对应的数据项分类标准说明,可以通过超链接的形式链接到“业务数据”、“运维数据”以及“外部数据”字段。对于“取值类型”可以只拼接表4中的第二列,将表4第二列的内容添加到与“取值类型”对应的属性描述中,同时与编码类、代码类、指示器类、文本类、金额类、数值类、百分比类、日期类、时间类、日期时间类以及非结构化类各自对应的数据项分类标准说明,可以通过超链接的形式链接到“编码类”、“代码类”、“指示器类”、“文本类”、“金额类”、“数值类”、“百分比类”、“日期类”、“时间类”、“日期时间类”以及“非结构化类”字段。对于“取值范围”可以只拼接表5中的第三列,并将值域范围以及值域范围说明以超链接的形式链接到各自对应的值域类型中。
根据本公开的实施例,在表6中,通过“代码取值”这一区域,可以补充配置代码类的具体代码编码值,以及代码编码值与代码所表示的含义之间的码值映射表。
根据本公开的实施例,通过将第一类数据项属性信息子文件以及第二类数据项属性信息子文件拼接到数据项属性信息模板,得到的数据项属性信息文件可以如表7所示。
表7
根据本公开的实施例,表7中存在“数据项编号”字段,通过该字段可以实现表7的数据项属性信息文件与表1的数据库表信息文件之间的外键关联。可选地,表7中存在“字段英文名”和“字段中文名”,通过其中至少一种字段,也可以建立起表7的数据项属性信息文件与表1的数据库表信息文件之间的外键关联。备选地,表1的数据库表信息文件中的每个字段均可以与表7的数据项属性信息文件中的相关字段建立关联。通过建立起数据库表信息文件与数据项属性信息表之间的关联映射关系,可以为提升数据的一致性、准确性和可追溯性提供基础,为及时识别和发现数据字典变更的关联影响分析,提供了数据支撑。
基于表7所示的数据项属性信息文件,通过增加域中文名称、取值类型、域数据格式、取值范围、代码取值的规范性描述维度,不仅完善了对数据项取值的标准化描述维度,还可以为数据项取值实现标准化描述提供支撑。
本公开实施例提供的数据字典的生成方法,通过在现有的数据字段描述维度的基础上,扩展和明确了数据项的描述维度,明确了数据字典应具备数据项编号、数据项分类、信息大类、英文简称、字段中文名、字段英文名、业务目的、业务含义、业务策略、数据属性、引用数据项、数据类别、数据格式、域编号域中文名称、取值类型、域数据格式、取值范围、代码取值”等描述维度,以细化数据项这一描述维度,进而细化数据字典的描述维度,从而实现对待定义数据进行精准定义与区分,从而提高数据处理准确率和效率。
根据本公开的实施例,为了提高建立映射关系的效率和准确度,可以采用如下几种方式。
利用元数据管理工具记录数据字典中的属性描述说明,包括数据项的业务属性说明、技术属性说明等信息,以便提高数据字典的规范性,其中,元数据管理工具可以采用相关技术中的元数据管理工具,可以根据实际需要进行适应性调整。
可选的,可以将元数据管理工具与数据建模进行关联。具体地,在数据建模构建数据库表信息文件时,基于查询元数据管理工具后返回显示的数据项属性信息文件,选择数据库表信息文件中的数据项标识字段构建数据项属性信息文件与数据库表信息文件之间的映射关系。
可选地,本公开实施例的数据字段的生成方法可以通过自动化的脚本和模板实现,这有助于减少人为错误,同时提高数据字典的一致性和规范性。
可选地,增加生成的数据字典进行验证和审查的过程,以确保数据库表信息文件与数据项属性信息文件通过一致性检查,及时发现并修复偏差。
可选地,还可以融合人工智能技术实现数据字典的生成。具体地,可以使用NLP(Natural Language Processing,自然语言处理)技术分析数据字典中的数据库表信息文件和数据项属性信息文件中的特征数据,基于历史的数据库表信息文件与数据项属性信息文件之间的映射关系训练机器学习模型,建立智能推荐系统。以实现自动生成数据库表信息文件与数据字典中数据项属性信息文件之间的推荐映射关系,从而实现自动化映射,减少人工操作。
根据本公开的实施例,在上述方法的基础上,还可以包括如下操作:从生产数据库中获取初始生产数据文件;将初始生产数据文件进行数据筛选,得到目标生产数据文件;基于数据字典,对目标生产数据文件中携带的信息进行检核,得到与目标生产数据文件的准确性情况相关联的检核结果。
根据本公开的实施例,上述过程可以是对生产环境数据与数据字典之间进行关联检核的过程。具体地,检核过程可以包括元数据合规检核和值域合规性检核。
元数据合规检核可以包括,从生产环境中获取初始生产数据文件,并在筛选得到目标生产数据文件后,与数据字典中的数据库表属性信息文件中的数据项类型信息等进行比对,检核该目标生产数据文件的实际数据项类型信息的分类合规情况(例如实际生产的数据项分类是否符合数据字典中的属性描述说明)。
对初始生产数据文件进行筛选得到目标生产数据文件的过程,可以包括剔除初始生产数据文件中的非检核对象。非检核对象可以包括临时表、备份表、中间过程表等,非检核对象的相应的使用场景和命名标准可参照表8。
表8
为了提高初始生产数据文件的简洁性、文件的资源利用率,以及对初始生产数据文件进行筛选的效率,一般会对非检核对象的名称进行缩写。而对非检核对象的名称进行缩减的过程并非是随意的。例如对于临时表、备份表、中间过程表的名称,若存在名称超过预过长度阈值的情况下,可以对名称的前缀进行删减或缩写,对后缀,由于后缀是作为标识所用,不建议删减,这样不仅可以保障了表名称的唯一性,还可以提高初始生产数据文件的简洁性、文件的资源利用率,以及对初始生产数据文件进行筛选的效率。
值域合规性检核可以包括,将目标生产数据文件的取值情况与数据字典中的数据库表属性信息文件中的取值信息等进行比对,检核该目标生产数据文件中,实际生产取值的合规情况(例如实际生产数据的取值类型以及范围是否符合数据字典中的相关规定)。该对比过程可以通过供数接口关联数据项属性信息文件与目标生产数据文件,并将二者进行比对得到。元数据合规检核和值域合规性检核可以保障数据在存储和使用过程中遵循数据字典中规定的属性描述说明,从而保障了生产数据的一致性、准确性和可追溯性。
图3示意性示出了根据本公开实施例的对数据字典进行维护的流程图。
如图3所示,对数据字典进行维护的流程可以包括操作S301~操作S310。
在操作S301,判断对数据字典的维护类型是新增数据项还是修改数据项。在判断结果是新增数据项的情况下,从操作S302开始执行;在判断结果是修改数据项的情况下,从操作S308开始执行。
在操作S302,创建数据项信息。
在操作S303,判断对数据库表信息文件的维护类型是新增数据项还是修改数据项。在判断结果是新增数据项的情况下,从操作S304开始执行;在判断结果是修改数据项的情况下,从操作S306开始执行。
在操作S304,进行新增维护。
具体地,对数据库表信息文件进行新增维护,并将基于新增数据项得到的数据项属性信息文件与新增的数据库表信息文件进行映射关联。
在操作S305,生成创建语句。用于完成对数据字典的新增维护。
在操作S306,对数据库表信息文件进行修改维护。同时将修改的字段与原有的数据项属性信息文件进行映射关联。
在操作S307,生成修改语句。用于完成对数据字典的修改维护。
在操作S308,开启对待修改的数据项信息进行变更的流程。
在操作S309,对待修改的数据项进行分析,确定被影响方。被影响方可以是指数据库表信息文件被影响,还是数据项属性信息文件被影响。
在操作S310,判断被影响方的反馈意见是否通过。在被影响方的反馈意见通过的情况下,从操作S306开始执行;在被影响方的反馈意见不通过的情况下,从操作S302开始执行。被影响方的反馈意见例如是待修改的数据项是否存在于数据项属性信息文件中。例如,待修改的数据项不存在于数据项属性信息文件中,则对应的被影响方的反馈意见是不通过;待修改的数据项存在于数据项属性信息文件中,则对应的被影响方的反馈意见是通过。
根据本公开的实施例,通过提供一种对数据字典进行维护的方法,可以更加规范的生成并维护数据字典。
本公开实施例提供的数据字段的生成方法,利用数据项属性信息文件扩展了数据字典的描述维度,将数据项分类、业务目的、业务含义、业务策略、数据项取值纳入到描述维度中,能够对待定义的数据提供更加精细化描述与区分。同时,通过在数据库表信息文件与数据项属性信息文件之间建立映射关系,将数据库表信息文件中的字段均可以与数据项属性信息文件中的字段进行关联,进而保障数据在存储和使用过程中遵循规定的标准。
需要说明的是,本公开实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序,或者不同操作在技术实现上存在执行的先后顺序,否则,多个操作之间的执行顺序可以不分先后,多个操作也可以同时执行。
基于上述数据字典的生成方法,本公开还提供了一种数据字典的生成装置。以下将结合图4对该装置进行详细描述。
图4示意性示出了根据本公开实施例的数据字典的生成装置的结构框图。
如图4所示,该实施例的数据字典的生成装置400包括调用模块410、配置模块420、融合模块430和第一生成模块440。
调用模块410,用于从数据库中调用数据库表信息文件,其中,数据库表信息文件中包括数据项标识字段。
配置模块420,用于为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件。
融合模块430,用于对数据项属性信息子文件进行融合,得到数据项属性信息文件,其中,数据项属性信息文件中包括数据项标识字段。
第一生成模块440,用于通过数据项标识字段,将数据库表信息文件与数据项属性信息文件进行映射关联,生成数据字典。
根据本公开实施例提供的数据字典生成方法、装置、设备和存储介质,通过从数据库中调用数据库表信息文件;为数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;对所述数据项属性信息子文件进行融合,得到数据项属性文件;通过数据项标识字段将数据库表信息文件与数据项属性文件进行映射关联,生成数据字典。由于在生成数据字典的过程中,为数据库表信息文件中的数据项增加配置了数据项属性信息,并通过数据项标识字段与数据库表信息文件建立了映射关联,从而使得生成的数据字典具有更细粒度的描述维度,能够使得相关人员或设备在使用数据字典时能够对根据数据字典中的数据项属性信息对需要定义的数据进行更细粒度的定义与区分,至少部分的克服了相关技术中由于描述维度较粗糙导致难以对需要定义的数据进行准确定义和区分的问题,进而达到了提高数据处理的准确率和效率的技术效果。
根据本公开的实施例,配置模块可以包括第一配置子模块和第二配置子模块。
第一配置子模块,用于为数据项配置数据项的类型信息,得到第一类数据项属性信息子文件。
第二配置子模块,用于为数据项配置数据项的取值信息,得到第二类数据项属性信息子文件。
根据本公开的实施例,第一配置子模块可以包括第一配置单元、第二配置单元和第一结果单元。
第一配置单元,用于为数据项配置数据项分类信息,得到数据项分类表。
第二配置单元,用于为数据项配置数据项业务信息,得到数据项业务说明表,其中,数据项业务信息包括以下至少之一:业务目的、业务含义以及业务策略。
第一结果单元,用于根据数据项分类表以及数据项业务说明子表,得到第一类数据项属性信息子文件。
根据本公开的实施例,数据字典的生成装置还可以包括第一划分模块、第二划分模块和第二生成模块。
第一划分模块,用于根据数据项的来源渠道,将数据项划分为内部数据和外部数据。
第二划分模块,用于根据数据项的业务属性信息,将内部数据划分为业务数据和运维数据。
第二生成模块,用于根据业务数据、运维数据以及外部数据,生成数据项的分类信息。
根据本公开的实施例,第二配置子模块可以包括第三配置单元、第四配置单元和第二结果单元。
第三配置单元,用于为数据项配置数据项取值类型信息,得到数据项取值类型表,其中,数据项取值类型信息包括以下至少之一:编码类、代码类、指示器类、文本类、金额类、数值类、百分比类、日期类、时间类、日期时间类以及非结构化类。
第四配置单元,用于基于正则表达式,为数据项的数据项取值类型信息配置值域范围,得到值域范围表。
第二结果单元,用于根据数据项取值类型表和值域范围表,得到第二类数据项属性信息子文件。
根据本公开的实施例,融合模块可以包括获取子模块和拼接子模块。
获取子模块,用于获取预先构建的数据项属性信息模板,其中,数据项属性信息模板上配置有属性区域,属性区域配置有区域标识。
拼接子模块,用于根据区域标识,将第一类数据项属性信息子文件以及第二类数据项属性信息子文件拼接到数据项属性信息模板中,得到数据项属性信息文件。
根据本公开的实施例,数据字典的生成装置还可以包括获取模块、筛选模块和检核模块。
获取模块,用于从生产数据库中获取初始生产数据文件。
筛选模块,用于将初始生产数据文件进行数据筛选,得到目标生产数据文件。
检核模块,用于基于数据字典,对目标生产数据文件中携带的信息进行检核,得到与目标生产数据文件的准确性情况相关联的检核结果。
根据本公开的实施例,调用模块410、配置模块420、融合模块430和第一生成模块440中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,调用模块410、配置模块420、融合模块430和第一生成模块440中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,调用模块410、配置模块420、融合模块430和第一生成模块440中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中数据字典的生成装置部分与本公开的实施例中数据字典的生成方法部分是相对应的,数据字典的生成装置部分的描述具体参考数据字典的生成方法部分,在此不再赘述。
图5示意性示出了根据本公开实施例的适于实现数据字典的生成方法的电子设备的方框图。
如图5所示,根据本公开实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至输入/输出(I/O)接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至输入/输出(I/O)接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的数据字典的生成方法。
在该计算机程序被处理器501执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (11)
1.一种数据字典的生成方法,包括:
从数据库中调用数据库表信息文件,其中,所述数据库表信息文件中包括数据项标识字段;
为所述数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;
对所述数据项属性信息子文件进行融合,得到数据项属性信息文件,其中,所述数据项属性信息文件中包括所述数据项标识字段;
通过所述数据项标识字段,将所述数据库表信息文件与所述数据项属性信息文件进行映射关联,生成数据字典。
2.根据权利要求1所述的方法,其中,所述数据项属性信息包括数据项的类型信息以及数据项的取值信息,所述数据项属性信息子文件包括第一类数据项属性信息子文件和第二类数据项属性信息子文件;
所述为所述数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件,包括:
为所述数据项配置所述数据项的类型信息,得到第一类数据项属性信息子文件;以及
为所述数据项配置所述数据项的取值信息,得到第二类数据项属性信息子文件。
3.根据权利要求2所述的方法,其中,所述为所述数据项配置所述数据项的类型信息,得到第一类数据项属性信息子文件,包括:
为所述数据项配置数据项分类信息,得到数据项分类表;
为所述数据项配置数据项业务信息,得到数据项业务说明表,其中,所述数据项业务信息包括以下至少之一:业务目的、业务含义以及业务策略;
根据所述数据项分类表以及所述数据项业务说明子表,得到所述第一类数据项属性信息子文件。
4.根据权利要求3所述的方法,其中,所述数据项分类信息是通过如下方式得到的:
根据所述数据项的来源渠道,将所述数据项划分为内部数据和外部数据;
根据所述数据项的业务属性信息,将所述内部数据划分为业务数据和运维数据;
根据所述业务数据、所述运维数据以及所述外部数据,生成所述数据项的分类信息。
5.根据权利要求2所述的方法,其中,所述为所述数据项配置所述数据项的取值信息,得到第二类数据项属性信息子文件,包括:
为所述数据项配置数据项取值类型信息,得到数据项取值类型表,其中,所述数据项取值类型信息包括以下至少之一:编码类、代码类、指示器类、文本类、金额类、数值类、百分比类、日期类、时间类、日期时间类以及非结构化类;
基于正则表达式,为所述数据项的数据项取值类型信息配置值域范围,得到值域范围表;
根据所述数据项取值类型表和所述值域范围表,得到所述第二类数据项属性信息子文件。
6.根据权利要求2所述的方法,其中,所述对所述数据项属性信息子文件进行融合,得到数据项属性信息文件,包括:
获取预先构建的数据项属性信息模板,其中,所述数据项属性信息模板上配置有属性区域,所述属性区域配置有区域标识;
根据所述区域标识,将所述第一类数据项属性信息子文件以及所述第二类数据项属性信息子文件拼接到所述数据项属性信息模板中,得到所述数据项属性信息文件。
7.根据权利要求1所述的方法,还包括:
从生产数据库中获取初始生产数据文件;
将所述初始生产数据文件进行数据筛选,得到目标生产数据文件;
基于所述数据字典,对所述目标生产数据文件中携带的信息进行检核,得到与所述目标生产数据文件的准确性情况相关联的检核结果。
8.一种数据字典的生成装置,包括:
调用模块,用于从数据库中调用数据库表信息文件,其中,所述数据库表信息文件中包括数据项标识字段;
配置模块,用于为所述数据项标识字段所表征的数据项,配置数据项属性信息,得到数据项属性信息子文件;
融合模块,用于对所述数据项属性信息子文件进行融合,得到数据项属性信息文件,其中,所述数据项属性信息文件中包括所述数据项标识字段;
第一生成模块,用于通过所述数据项标识字段,将所述数据库表信息文件与所述数据项属性信息文件进行映射关联,生成数据字典。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311617166.3A CN117573653A (zh) | 2023-11-29 | 2023-11-29 | 数据字典的生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311617166.3A CN117573653A (zh) | 2023-11-29 | 2023-11-29 | 数据字典的生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117573653A true CN117573653A (zh) | 2024-02-20 |
Family
ID=89886117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311617166.3A Pending CN117573653A (zh) | 2023-11-29 | 2023-11-29 | 数据字典的生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117573653A (zh) |
-
2023
- 2023-11-29 CN CN202311617166.3A patent/CN117573653A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11321304B2 (en) | Domain aware explainable anomaly and drift detection for multi-variate raw data using a constraint repository | |
CN110352425B (zh) | 区块链交易的认知监管合规性自动化 | |
CN111061833B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
US20190272329A1 (en) | Statistical process control and analytics for translation supply chain operational management | |
CN111177231A (zh) | 报表生成方法和报表生成装置 | |
CN107479882B (zh) | 投保页面的生成方法、生成装置、介质及电子设备 | |
CN109359277B (zh) | 数据监控方法、设备及计算机存储介质 | |
US20200110902A1 (en) | Adaptive redaction and data releasability systems using dynamic parameters and user defined rule sets | |
WO2016141491A1 (en) | Systems and methods for managing data | |
US11681817B2 (en) | System and method for implementing attribute classification for PII data | |
US10437840B1 (en) | Focused probabilistic entity resolution from multiple data sources | |
CN111858615A (zh) | 数据库表生成方法、系统、计算机系统和可读存储介质 | |
CN113626223A (zh) | 一种接口调用方法和装置 | |
CN110955801B (zh) | 一种cognos报表指标的知识图谱分析方法及系统 | |
US11321531B2 (en) | Systems and methods of updating computer modeled processes based on real time external data | |
US20210256094A1 (en) | Systems and methods for document management classification, capture and search | |
US20140095527A1 (en) | Expanding high level queries | |
US20240127379A1 (en) | Generating actionable information from documents | |
US20200387802A1 (en) | Dynamically adaptable rules and communication system for managing process controls | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
US11354502B2 (en) | Automated constraint extraction and testing | |
CN117573653A (zh) | 数据字典的生成方法、装置、设备及存储介质 | |
CN115374063A (zh) | 文件处理方法、装置、设备及存储介质 | |
US20140180678A1 (en) | Enterprise concept definition management | |
CN115033574A (zh) | 信息生成方法、信息生成装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |