CN113971210B

CN113971210B - 一种数据字典生成方法、装置、电子设备及存储介质

Info

Publication number: CN113971210B
Application number: CN202111607156.2A
Authority: CN
Inventors: 高源�; 艾润; 贾峻; 谭武艳; 盖肖宇
Original assignee: Yudongyuan Beijing Information Technology Co ltd
Current assignee: Yudongyuan Beijing Information Technology Co ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-08
Anticipated expiration: 2041-12-27
Also published as: CN113971210A

Abstract

本申请提供了一种数据字典生成方法、装置、电子设备及存储介质，该方法包括：根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库；在接收到目标组织待存储的目标文本数据后，将所述目标文本数据和预先构建所述数据字典库进行匹配，得到匹配结果；根据所述目标文本数据和预先构建已有文本数据的数据字典库的匹配结果，从所述数据字典库中获取所述待存储的目标文本数据对应的原始数据字典；根据所述原始数据字典，生成所述待存储的目标文本数据的目标数据字典；本申请中仅通过目标数据本身生成数据字典的方法，处理的数据更加广泛，得到数据字典的准确度更高。

Description

一种数据字典生成方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种数据字典生成方法、装置、电子设备及存储介质。

背景技术

数据字典指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述，其目的是对数据流程图中的各个元素做出详细的说明，使用数据字典为简单的建模项目。简而言之，数据字典是描述数据的信息集合，是对系统中使用的所有数据元素的定义的集合。

在政府、企业等大型组织中数据来源普遍采用上传、拉取、收集等方式，采集/同步过来的数据结构复杂，虽然数据本身可以通过分布式存储系统、数据湖等存储方式来落地数据的存储。但是对于数据字典的整理、企业的主/元数据的构建显得尤为复杂。市面上常见的数据字典生成方法都是需要一定的人为介入来定义。对于一个城市的大数据中心，或者一个大型业务综合性强的企业，所收集的数据都是相对原始的，无规则的并且无具体含义的。这样就需要一种根据数据本身生成数据字典的方法。

发明内容

有鉴于此，本申请的目的在于提供一种数据字典生成方法、装置、电子设备及存储介质，以克服上述的技术问题。

第一方面，本申请实施例提供了一种数据字典生成方法，所述方法包括：根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库；

在接收到目标组织待存储的目标文本数据后，将所述目标文本数据和预先构建所述数据字典库进行匹配，得到匹配结果；

根据所述目标文本数据和预先构建已有文本数据的数据字典库的匹配结果，从所述数据字典库中获取所述待存储的目标文本数据对应的原始数据字典；

根据所述原始数据字典，生成所述待存储的目标文本数据的目标数据字典。

在本申请一些技术方案中，上述根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库，包括：

根据不同数据源系统的已有文本数据的关键词和与该关键词对应的原始数据字典、或者已有文本数据的元数据和与该元数据对应的原始数据字典，预先构建已有文本数据的数据字典库；其中，若所述不同数据源系统中的已有文本数据不是第一预设格式的文本数据，将该已有文本数据转化为第一预设格式的文本数据；通过文本抽取插件抽取所述已有文本数据中的关键词或者所有已有文本数据中的元数据；

所述在接收到目标组织待存储的目标文本数据后，将所述目标文本数据和预先构建已有文本数据的数据字典库进行匹配，得到匹配结果，包括：

在接收到目标组织待存储的目标文本数据后，提取所述目标文本数据中的关键词或者所述目标文本数据中的元数据；

通过所述目标文本数据中的关键词与所述已有文本数据的关键词进行匹配，或者通过所述目标文本数据中的元数据与所述已有文本数据的元数据进行匹配，得到第一匹配项或者第一不和项。

根据不同数据源系统的已有文本数据与已有文本数据对应的待匹配文字，构建已有文本数据的数据字典库；所述待匹配文字包括英文翻译类索引文字和拼音索引文字；

在接收到目标组织待存储的目标文本数据后，对所述目标文本数据进行正则化处理，得到正则化处理后的所述目标文本数据；

针对正则化处理后的所述目标文本数据进行逆向分词切分，得到所述目标文本数据对应的至少一个分词；

使用所述至少一个分词分别与所述已有文本数据进行匹配，得到第二匹配项或者第二不和项。

根据不同领域的数据源系统的已有文本数据对应的第一文本特征和该第一文本特征对应自然语言推理的词汇，预先构建已有文本数据的数据字典库；

在接收到目标组织待存储的目标文本数据后，将所述目标文本数据和预先构建所述数据字典库进行匹配，得到匹配结果，包括：

在接收到目标组织待存储的目标文本数据后，提取所述目标文本数据对应的第二文本特征；

通过所述目标文本数据中的第二文本特征与所述已有文本数据的第一文本特征进行匹配，得到第三匹配项。

根据不同领域的数据源系统的已有文本数据对应的第三文本特征和该第三文本特征对应自然语言推理的词汇，预先构建已有文本数据在不同领域的数据字典库；

根据所述目标文本数据对应的第二文本特征，确定所述目标文本数据所属的目标数据领域；

通过所述目标文本数据中的第二文本特征与处于所述目标数据领域的所述已有文本数据的第三文本特征进行匹配，得到第四匹配项。

根据不同数据源系统的已有文本数据的关键词和与该关键词对应的原始数据字典、或者已有文本数据的元数据和与该元数据对应的原始数据字典，预先构建已有文本数据的数据字典库；

和以下至少之一：

根据不同领域的数据源系统的已有文本数据对应的第三文本特征和该第三文本特征对应自然语言推理的词汇，预先构建已有文本数据在不同领域的数据字典库。

在本申请一些技术方案中，上述在接收到目标组织待存储的目标文本数据后，将所述目标文本数据和预先构建已有文本数据的数据字典库进行匹配，得到匹配结果，包括：

通过所述目标文本数据中的关键词与所述已有文本数据的关键词进行匹配，或者通过所述目标文本数据中的元数据与所述已有文本数据的元数据进行匹配，得到第一匹配项或者第一不和项；

若通过所述目标文本数据中的关键词与所述已有文本数据的关键词进行匹配，或者通过所述目标文本数据中的元数据与所述已有文本数据的元数据进行匹配，得到第一匹配项；将与所述第一匹配项对应的原始数据字典作为所述目标文本数据的原始数据字典；并将所述原始数据字典作为所述目标文本数据的目标数据字典；

若通过所述目标文本数据中的关键词与所述已有文本数据的关键词进行匹配，或者通过所述目标文本数据中的元数据与所述已有文本数据的元数据进行匹配，得到第一不和项；

对所述目标文本数据进行正则化处理，得到正则化处理后的所述目标文本数据；

使用所述至少一个分词分别与所述已有文本数据进行匹配，得到第二匹配项或者第二不和项；

若使用所述至少一个分词分别与所述已有文本数据进行匹配，得到第二匹配项，将与所述第二匹配项对应的待匹配文字作为所述目标文本数据的原始数据字典；并将所述原始数据字典作为所述目标文本数据的目标数据字典；

若使用所述至少一个分词分别与所述已有文本数据进行匹配，得到第二不和项；

提取所述目标文本数据对应的第二文本特征；

通过所述目标文本数据中的第二文本特征与处于所述目标数据领域的所述已有文本数据的第三文本特征进行匹配，得到第四匹配项；将所述第四匹配项对应的自然语言推理的词汇作为所述目标文本数据的原始数据字典；根据所述第四匹配项对应的自然语言推理的词汇，生成所述待存储的目标文本数据的目标数据字典。

第二方面，本申请实施例提供了一种数据字典生成装置，所述装置包括：

构建模块，用于根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库；

匹配模块，用于在接收到目标组织待存储的目标文本数据后，将所述目标文本数据和预先构建所述数据字典库进行匹配，得到匹配结果；

获取模块，用于根据所述目标文本数据和预先构建已有文本数据的数据字典库的匹配结果，从所述数据字典库中获取所述待存储的目标文本数据对应的原始数据字典；

生成模块，用于根据所述原始数据字典，生成所述待存储的目标文本数据的目标数据字典。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的数据字典生成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的数据字典生成方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：本申请根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库；然后，在接收到目标组织待存储的目标文本数据后，将所述目标文本数据和预先构建所述数据字典库进行匹配，得到匹配结果；之后，根据所述目标文本数据和预先构建已有文本数据的数据字典库的匹配结果，从所述数据字典库中获取所述待存储的目标文本数据对应的原始数据字典；最后，根据所述原始数据字典，生成所述待存储的目标文本数据的目标数据字典；本申请中仅通过目标数据本身生成数据字典的方法，处理的数据更加广泛，得到数据字典的准确度更高。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种数据字典生成方法的流程示意图；

图2示出了本申请实施例所提供的一种识别一级域过程示意图；

图3示出了本申请实施例所提供的一种识别二级域过程示意图；

图4示出了本申请实施例所提供的一种数据字典生成装置示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

在政府、企业等大型组织中数据来源普遍采用上传、拉取、收集等方式，采集/同步过来的数据结构复杂，虽然数据本身可以通过分布式存储系统，数据湖存储方式来落地数据的存储。但是对于数据字典的整理、企业主/元数据的构建显得尤为复杂。市面上常见的数据字典生成装置都是需要一定的人为介入来定义。对于一个城市的大数据中心，或者一个大型业务综合性强的企业，所收集的数据都是相对原始的，无规则的并且无具体含义的。在这一过程中，数据本身的字典除了数据本身原始结构外，无任何额外的注释。数据本身只注重于数据的存储，而不太过关心于数据的定义。导致通常拉取来的数据也只有数据的内容，无数据的字典。

现有的方法通过利用数据库规范化的数据结构的特点来生成数据字典，就必须找出或定义出数据本身的本体，通过本体来构建或描述实体，从而根据多个实体对象的属性信息以及多个实体对象之间的关系，来生成对应数据字典。用户要想规范的生成数据字典，就必须在关系型并且有强二维结构化的数据库管理系统中去操作。随着数据量过大，数据结构的复杂度增高，关系型数据库往往无法满足复杂的数据格式。而存在于数据湖中逐渐沼泽化的数据就往往没有强二维结构，更无对应的数据库管理系统，用户是直接面向文件来对数据的内容读取在做实体关系的建立。由此可知，这种方式来作为生成数据字典存在三大缺陷：1、需要对该数据所有域的各环节人员的支撑。2、数据存储方式必须是关系型数据库管理系统。3、对于跨域的数据字典会产生或多的歧义，主数据性不强。

近年来随着人工智能和深度学习的流行和普及，数据挖掘流程和推演预测系统的核心部分逐渐被人工智能和深度学习技术所替代，但是对于企业用数据湖/数据仓库中数据的数据字典，还是由领域专家，数据开发工程师来进行直观定义和根据上下文进行推测。还没有一种可以直接根据数据本身或根据元数据序列利用推测的方式生成数据字典。

本申请实施例提供了一种数据字典生成方法、装置、电子设备及存储介质，下面通过实施例进行描述。

图1示出了本申请实施例所提供的一种数据字典生成方法的流程示意图，其中，该方法包括步骤S101-S104；具体的：

S101、根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库；

S102、在接收到目标组织待存储的目标文本数据后，将目标文本数据和预先构建数据字典库进行匹配，得到匹配结果；

S103、根据目标文本数据和预先构建已有文本数据的数据字典库的匹配结果，从数据字典库中获取待存储的目标文本数据对应的原始数据字典；

S104、根据原始数据字典，生成待存储的目标文本数据的目标数据字典。

本申请中仅通过目标数据本身生成数据字典的方法，处理的数据更加广泛，得到数据字典的准确度更高。

下面对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请中的文本数据（已有文本数据和目标文本数据）包括字符串数据，这里的字符串包括字母、数字、运算符号、标点符号和其他符号。

S101、根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库。

本申请实施例中，从不同领域的数据源系统中获取已有文本数据，这里的已有文本数据包括结构化数据、半结构化数据和非结构化数据。针对已有文本数据，本申请建立了数据字典库。

在根据已有文本数据建立数据字典库的时候，本申请提供以下不同的建立方式：

第一种是根据不同数据源系统的已有文本数据的关键词和与该关键词对应的原始数据字典、或者已有文本数据的元数据和与该元数据对应的原始数据字典，预先构建已有文本数据的数据字典库；

第二种根据不同数据源系统的已有文本数据与已有文本数据对应的待匹配文字，构建已有文本数据的数据字典库；所述待匹配文字包括英文翻译类索引文字和拼音索引文字；

第三种是根据不同领域的数据源系统的已有文本数据对应的第一文本特征和该第一文本特征对应自然语言推理的词汇，预先构建已有文本数据的数据字典库；

为了提高第三种构建方式的匹配准确度，第四种是通过根据不同领域的数据源系统的已有文本数据对应的第三文本特征和该第三文本特征对应自然语言推理的词汇，预先构建已有文本数据在不同领域的数据字典库。

这里的自然语言推理的词汇是短文本序列生成模型基于对已有文本数据推测生成的。

S102、在接收到目标组织待存储的目标文本数据后，将目标文本数据和预先构建数据字典库进行匹配，得到匹配结果。

这里的目标组织包括公司、城市等。目标文本数据包括结构化数据、半结构化数据和非结构化数据。目标文本数据的类型与构建数据字典库时使用的已有文本数据类型对应。

在接收到目标文本数据之后，通过目标文本数据与数据字典库进行匹配，得到匹配结果，根据匹配结果确定目标文本数据对应的目标数据字典。

由于本申请实施例中提供了不同方式了数据字典库的构建方式，所以不同构建方式的数据字典库的匹配方式也存在差异。

针对使用第一种构建方式的数据字典库，在接收到目标组织待存储的目标文本数据后，将目标文本数据和预先构建数据字典库进行匹配时，首先需要提取目标文本数据中的关键词或者目标文本数据中的元数据；然后，通过目标文本数据中的关键词与已有文本数据的关键词进行匹配，或者通过目标文本数据中的元数据与已有文本数据的元数据进行匹配，得到第一匹配项或者第一不和项。

针对使用第二种构建方式的数据字典库，在接收到目标组织待存储的目标文本数据后，对所述目标文本数据进行正则化处理，得到正则化处理后的所述目标文本数据；

针对使用第三种构建方式的数据字典库，在接收到目标组织待存储的目标文本数据后，将目标文本数据和预先构建数据字典库进行匹配时，首先，提取目标文本数据对应的第二文本特征；然后，通过目标文本数据中的第二文本特征与已有文本数据的第一文本特征进行匹配，得到第三匹配项。

针对使用第四种构建方式的数据字典库，在接收到目标组织待存储的目标文本数据后，首先，提取目标文本数据对应的第二文本特征；然后，根据目标文本数据对应的第二文本特征，确定目标文本数据所属的目标数据领域；最后，通过目标文本数据中的第二文本特征与处于目标数据领域的已有文本数据的第三文本特征进行匹配，得到第四匹配项。

为了提高匹配效率，针对第三种和第四种构建方法，在接收到目标文本数据之后，可以对目标文本数据进行筛选。具体筛选过程如下：

使用目标文本数据与预先训练的过滤库进行匹配，若得到第五匹配项，则目标数据文本符合输入要求，然后将目标文本数据与通过第三种方式构建的数据字典库进行匹配或者将目标文本数据与通过第四种方式构建的数据字典库进行匹配，得到匹配结果。

本申请实施例中，作为一可选实施例，本申请实施例中的不同方式的构建数据字典库的方式不仅可以单独使用，还可以进行组合使用。

和以下至少之一：

S103、根据目标文本数据和预先构建已有文本数据的数据字典库的匹配结果，从数据字典库中获取待存储的目标文本数据对应的原始数据字典。

若通过任一一种匹配方式得到的匹配结果是满足条件的，此时将与目标文本数据匹配的已有文本数据在数据字典库中相对应的内容作为目标文本数据的原始数据字典。

若通过任一一种匹配方式得到的匹配结果是不满足条件的，可以通过其他的匹配方式进行匹配，然后根据该种匹配方式的匹配结果从数据字典库中获取待存储的目标文本数据对应的原始数据字典。

若原始数据字典中包含有多种对于数据模型中的数据对象或者项目的描述，这里的根据原始数据字典，生成待存储的目标文本数据的目标数据字典，可以根据需要对原始数据字典中的内容进行增加、删除或者进行调整。这里的调整包括对多种对于数据模型中的数据对象或者项目的描述设置不同的权重。

本申请实施例中，作为一可选实施例，本实施例中的数据字典库是结合了第一种构建方式、第二种构建方式和第四种构建方式建立的。

提取所述目标文本数据对应的第二文本特征；

具体实施时，在以第一种构建方式构建数据字典库时，对不同领域的数据源系统的原始数据字典存储在系统中，使用ElasticSearch来作为全文搜索引擎（即通过ElasticSearch搜索引擎完成匹配过程）。

在构建数据字典库时，将不同类型的数据进行预处理转换成json格式存储在ElasticSearch中，对于不同格式的文档在入库前进行base64转码。先读入文件（字节形式），将对应文档内容转换成base64形式编码的对象，使用ElasticSearch的API（Application Programming Interface，应用程序接口）进行上传，把base64形式编码的对象转成json格式。

定义一个pipline数据抽取管道，利用Ingest Attachment Processor Plugin文本抽取插件，使用关键的预处理器attachment，在attachment中指定要过滤的字段为content（定义为数据源系统的数据字典检索结构），入库时关键文档内容放在content字段。

建立文档数据结构映射，不同域之间的不同检索查找匹配方式，需要建立文档结构映射来定义。PUT定义文档结构映射的时候就会自动创建索引，增加了attachment字段，这个字段是attachment命名pipeline抽取数据源系统中数据字典后自动附加的字段。这是一个嵌套字段，其包含多个子字段，包括抽取文本content 和一些文档信息元数据。

有益效果，包括对ElasticSearch来进行查询，查询过程在更快的内存中执行，查询结果按照json的方式返回。整体过程不脱离分布式架构。

在以第二种构建方式构建数据字典库时，建立本地翻译库，英中翻译通过正则化先对字符串进行处理，然后进行翻译拼接。

建立本地拼音库（不带声调），使用逆向最大匹配将已有的字符串与本地拼音库进行匹配。

匹配到添加到list列表中，一直匹配结束，把列表反转，即可得到拼音拆分。

使用Pinyin2Hanzi拼音转换汉字的库，调用dag()方法，传入默认配置参数，拼音拆分后的列表并匹配精确度最高的前16个（四字组合的字典命名方式来确定），将结果列表返回。

有益效果：建立本地拼音库对运行过程的准确性和可靠性以及整体识别内容的可塑性有很大的提高和增强。

在以第四种构建方式构建数据字典库时，全局数据域分类模型部分：

使用SparkML作为主要计算引擎，解决全局数据域数据量大的问题。构建Spark ML的pipline流程模型。

将输入的数据，预处理数据类型为DataFrame形式，打散数据。

将标签转化为索引层，并利用Word2Vec将输入的词语映射成向量的形式。

创建模型（多层感知器）对向量进行特征提取。将索引转换为原有标签。

构建pipline模型训练数据，使用pipline模型测试数据，评估模型。

有益效果：使用SparkML解决了读取全局数据时的大数据量问题，利用Pipeline将一个机器学习应用的多个处理过程组织起来，通过在代码实现的级别管理好每一个处理步骤之间的先后运行关系，降低了整体的流程的复杂度和难度。

基于BERT改进的短文本序列生成模型部分：

将bert-base-model作为预训练模型基础导入。

重新训练模型的embedding层，制作自定义Tonkenizer，缩小输出序列长度的规模，训练分词器准备vocab。创建一个分词器，把预处理数据输入进行分词器的训练，保存训练的vocab.txt词表，之后再使用tokenizer分词器加载预训练词表。之后把自定义模型部分配置的embedding参数载入到基础模型中。

其次我们在bert预训练模型之后的下游任务中，进行fine-tuning，针对我们的数据集添加网络层进行特征提取，以获得更好的结果。

有益效果：冻结了部分embedding层的参数，使原本的生成序列的BERT结构的模型更适合在短文本的生成中，比大多数处理场景优化其处理过程，让处于输出的一步骤的生成模型更加准确符合上下文需要逻辑。

在接收到目标组织待存储的目标文本数据后，将目标文本数据编码，并以一种序列的方式进行输入。

根据PUT定义文档结构映射的时候的自动创建索引，查找attachment字段，并得出一个嵌套字段，递归这个嵌套字段并取出其内部的多个子字段，包括抽取文本 content 和一些文档信息元数据。如查找到完全匹配的值则直接进行输出，如查找到相似的值将顺延以下步骤。

将目标文本数据输入到翻译转化中的transform()方法进行与本地拼音库匹配，获得匹配列表，反转列表得到拼音拆分。调用Pinyin2Hanzi拼音转换汉字的库，调用dag()方法，传入默认配置参数、拼音拆分后的列表、得出匹配精确度最高的前16个，遍历结果并返回。

若上述两种方式都未能得到目标数据字典，则进行以下步骤：

如图2所示，此步骤主要对两个域的过程进行一个主要的识别，数据字典域其对应的业务域一般分为两层以上的结构，在本实例中，政府的元数据与其对应的数据字典系统，根据国标的业务域把一级或比较大的区域包括在了人口、法人、地理信息、其他等二级业务域中，全局数据域分类模型基于SparkML来实现，其读取的数据一般处理为结构化弹性分布式数据集（DataFrame），通过StringIndex算子方法将标签转化为索引层，利用Word2Vec将输入的短文本序列转化为向量的形式，创建模型（多层感知器MultilayerPerceptronClassifier、逻辑回归LogisticRegression、支持向量机LinearSVC）进行对向量本身的域（label）进行提取和分类。提取出的结果作为二级域的延伸。

如图3所示，获取二级域的层级顺序后进行二级域的识别。在二级域中，根据国标会有更为详细的业务域分类，本实例中人口域具体细化为基础信息、户籍人口、社会保障和其他几个大类，拿户籍人口类举例，输入的表/字段或者其他标记信息在二级域内进行第一种方式的匹配和第二种方式的匹配，如未输出将进行数据域分类模型的步骤，此时的数据域分类模型与上个步骤中的数据域分类模型与算法实现一致，但是其数据内容和训练数据集分别为一级业务域和二级业务域，两段模型使用SparkML的pipline进行串联运行。

经过上一步骤，标签化处理过的数据通过pipeline的两端业务域分类模型，预测得到了该段标签处理后的数据所应该属于的哪个业务类别，并得出不同级不同段的具体业务类别列表，以此作为某一固定含义的特征，输入到训练好的基于BERT改进的短文本序列生成模型中，该基于BERT改进的短文本序列生成模型中包括huggingface提供的transformer开源框架，在进行对应的强化学习和冻结对应层之前先导入bert-base-model的模型到整体流程的Pipline中，再对模型进行修改，模型修改的过程单独作为一个训练的Pipeline来作为构建预训练BERT模型的基础程序。其中，对于本例中的一级人口域中二级人口基础信息域的数据字典，其语料较小，所以为了获得更好的训练结构，需要对embedding层做重新训练和权重生成处理，使用自定义Tonkenizer，定义和描述好其结构与上下文规则后即可缩小对应数据字典表的规模。在实施例中训练分词器的作用不是太大，因为此案例不是面向长数据字典序列的生成，关键在于保存对应vocab即可，创建一个分词器，使用保存训练以后的vocab.txt词表，之后加载tokenizer分词器只需要加载刚训练的词表即可。之后把配置embedding参数载入到模型中。至此完成了训练pipline和基于BERT改进的短文本序列生成模型的持久化及流程定义。

使用在基于BERT改进的短文本序列生成模型之后的下游任务中，进行fine-tuning方法，针对上述步骤使用或生成的数据集添加网络层进行特征提取，以获得更好的结果。对每一个label，根据输入数据预测得到对应的中文解释，整合最终预测返回的结果集，生成有序概率列表返回给用户页面进行人工交互取用选择的加入知识库中并更新其检索文档的content重要权重，其余数据当作参考观测数据加入到其他顺序集中。

本申请通过利用分布式检索技术、翻译转化过程、挖掘分类模型与序列生成模型的优点和可靠性，对已有的数据内容特点和元数据域、元数据系统构建的知识库等多部分内容综合生成推测参考数据字典，避免了完全依赖实体对象的关联关系生成数据字典，而且也减小了生成数据字典的业务领域专业性难度，把生成数据字典的方式从已有的固定关系型到非关系型非结构化以及半结构化的演变，从而使数据字典的生成具有可操作性、灵活性、智能性。

图4示出了本申请实施例所提供的一种数据字典生成装置的结构示意图，装置包括：

匹配模块，用于在接收到目标组织待存储的目标文本数据后，将目标文本数据和预先构建数据字典库进行匹配，得到匹配结果；

获取模块，用于根据目标文本数据和预先构建已有文本数据的数据字典库的匹配结果，从数据字典库中获取待存储的目标文本数据对应的原始数据字典；

生成模块，用于根据原始数据字典，生成待存储的目标文本数据的目标数据字典。

构建模块，还用于根据不同数据源系统的已有文本数据的关键词和与该关键词对应的原始数据字典、或者已有文本数据的元数据和与该元数据对应的原始数据字典，预先构建已有文本数据的数据字典库；其中，若不同数据源系统中的已有文本数据不是第一预设格式的文本数据，将该已有文本数据转化为第一预设格式的文本数据；通过文本抽取插件抽取已有文本数据中的关键词或者所有已有文本数据中的元数据；

匹配模块，还用于在接收到目标组织待存储的目标文本数据后，提取目标文本数据中的关键词或者目标文本数据中的元数据；

通过目标文本数据中的关键词与已有文本数据的关键词进行匹配，或者通过目标文本数据中的元数据与已有文本数据的元数据进行匹配，得到第一匹配项或者第一不和项。

在接收到目标组织待存储的目标文本数据后，提取目标文本数据对应的第二文本特征；

通过目标文本数据中的第二文本特征与已有文本数据的第一文本特征进行匹配，得到第三匹配项。

根据目标文本数据对应的第二文本特征，确定目标文本数据所属的目标数据领域；

通过目标文本数据中的第二文本特征与处于目标数据领域的已有文本数据的第三文本特征进行匹配，得到第四匹配项。

如图5所示，本申请实施例提供了一种电子设备，用于执行本申请中的数据字典生成方法，该设备包括存储器、处理器、总线及存储在该存储器上并可在该处理器上运行的计算机程序，其中，上述处理器执行上述计算机程序时实现上述的数据字典生成方法的步骤。

具体地，上述存储器和处理器可以为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机程序时，能够执行上述的数据字典生成方法。

对应于本申请中的数据字典生成方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的数据字典生成方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述的数据字典生成方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据字典生成方法，其特征在于，所述方法包括：

根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库；

2.根据权利要求1所述的数据字典生成方法，其特征在于，所述根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库，包括：

3.根据权利要求1所述的数据字典生成方法，其特征在于，所述根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库，包括：

4.根据权利要求1所述的数据字典生成方法，其特征在于，所述根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库，包括：

5.根据权利要求1所述的数据字典生成方法，其特征在于，所述根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库，包括：

6.根据权利要求1所述的数据字典生成方法，其特征在于，所述根据不同领域的数据源系统的已有文本数据，预先构建已有文本数据的数据字典库，包括：

和以下至少之一：

7.根据权利要求6所述的数据字典生成方法，其特征在于，

提取所述目标文本数据对应的第二文本特征；

8.一种数据字典生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的数据字典生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的数据字典生成方法的步骤。