CN112380348A

CN112380348A - 元数据处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112380348A
Application number: CN202011339546.1A
Authority: CN
Inventors: 吴雨霏
Original assignee: CITIC Aibank Corp Ltd
Current assignee: CITIC Aibank Corp Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-19
Anticipated expiration: 2040-11-25
Also published as: CN112380348B

Abstract

本申请提供了一种元数据管理方法，所述方法通过自然语言处理的降维模式来对数据进行聚类和分类。具体而言，所述方法包括：将数据库表字段处理为句子；将所述句子降维处理为表向量，表中文向量，字段向量，字段中文向量；对以上向量进行自动聚类，并且将得到的族类处理成字典；为聚类得到的字典分配标签；以及基于所述标签，对新输入的数据库表字段利用分类器分类归于对应的标签。本发明通过自然语言处理的降维模式解决或者在一定程度上缓解了现有技术中数据治理的人工成本高效率低的问题。

Description

元数据处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及数据的处理方法领域，具体而言，本申请涉及一种元数据处理方法、装置、电子设备及计算机可读存储介质。

背景技术

在现有技术中，对元数据的梳理手段主要还是依靠传统的建模，通过人工梳理关联关系，梳理字段信息建立标准。这需要耗费大量的人工成本和时间成本。而在当前的数据生产和迭代非常迅速的大数据时代，人工梳理元数据的方法成本较高，同时也无法满足数据应用开发迭代的需求。

发明内容

本申请提供了一种基于自然语言来对元数据进行处理的数据处理方法，其提高了数据处理的效率，节省了在数据处理过程中的人工成本和时间成本，本申请采用的技术方案如下：

第一方面，提供了一种元数据处理方法，该方法包括，

将数据库表字段处理为句子；

将所述句子降维处理为表向量，表中文向量，字段向量，字段中文向量；

对以上向量进行自动聚类，并且将得到的族类处理成字典；

为聚类得到的字典分配标签；以及

基于所述标签，对新输入的数据库表字段利用分类器分类归于对应的标签。

具体地，在对句子进行降维处理时，利用sentence2vec的方法对句子进行降维处理。

具体地，同时在处理数据库表中的字段时，利用word2vec的方法来对表字段进行降维。

具体地，在自动聚类步骤之前，判断所述表向量的质量，在所述表中文向量和所述字段中文向量的分布稀疏的情况下，更新所述表向量和所述字段向量的向量权重，从而将所述表中文向量和所述字段中文向量的向量权重降低。

具体地，所述方法还包括：在得到所述字典后，将所述字典与已有的数据标准进行关联性检索，在所述字典不在所述已有的数据标准里的情况下，利用所述字典更新所述已有的数据标准。

具体地，在对新输入的数据库表字段利用分类器进行分类的过程中，利用高斯过程进行分类。

第二方面，提供了一种元数据处理装置，包括：

处理模块，用于将数据库表字段处理为句子；

降维模块，用于将所述句子降维处理为表向量，表中文向量，字段向量，字段中文向量；

聚类模块，用于对以上向量进行自动聚类，并且将得到的族类处理成字典；

标记模块，用于为聚类得到的字典分配标签；以及

识别模块，基于所述标记模块所得到的所述标签，对新输入的数据库表字段利用分类器分类归于对应的标签。

具体地，所述降维模块还包括权重调整单元，其中，所述权重调整单元构造用于判断所述表向量的质量，并且在所述表中文向量和所述字段中文向量的分布稀疏的情况下，更新所述表向量和所述字段向量的向量权重，从而将所述表中文向量和所述字段中文向量的向量权重降低。

第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于：执行根据本申请任一实施方案所述的元数据处理方法。

第四方面，提供一种计算机可读存储介质，其中，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行根据本申请任一实施方案所述的元数据处理方法。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种元数据处理方法的流程示意图；

图2为本申请实施例的一种元数据处理装置的结构示意图；

图3为本申请实施例的另一种元数据处理装置的结构示意图；以及

图4为本申请实施例的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种元数据处理方法，如图1所示，该方法可以包括以下步骤：

步骤S101，将数据库表字段处理为句子；

具体地，数据库表来自于系统，而系统功能来自于不同的场景。因此，数据库表的字段可以看成是描述需求的功能和/或业务场景。基于数据的这种特性，将一张数据库表中的字段处理成一个句子，而将一个系统一个场景中所有的表字段联合起来处理成一篇文章。以此为基础，将一张数据库表作为一个会话(session)，进行降维处理。类似地，数据库表中的列中文也可以以同样的手法进行处理。此外，能够考虑，数据库表的表名的处理成按照一个系统一个场景组成一个句子。

步骤S102，将所述句子降维处理为表向量，表中文向量，字段向量，字段中文向量；

具体地，在上一个步骤中得到句子之后，可以考虑，将该处理后的数据利用中英文分词以及tfidf，svd语言进行句向量处理并且降维成四组向量，即表向量，表中文向量，字段向量，字段中文向量。具体地，能够考虑，利用sentence2vec的方式来进行降维。具体地，此外在处理表中的字段时，利用用word2vec的方式进行降维。

步骤S103，对以上向量进行自动聚类，并且将得到的族类处理成字典；

具体地，在自动聚类步骤之前，判断所述表向量的质量，在所述表中文向量和所述字段中文向量的分布稀疏的情况下，更新所述表向量和所述字段向量的向量权重，从而将所述表中文向量和所述字段中文向量的向量权重降低。此外，也能够考虑，根据业务场景的不同而新增其他的特征向量。

步骤S104，为聚类得到的字典分配标签；

具体地，还可以考虑，在得到所述字典后，将所述字典与已有的数据标准进行关联性检索，在所述字典不在所述已有的数据标准里的情况下，利用所述字典更新所述已有的数据标准。

步骤S105，基于所述标签，对新输入的数据库表字段利用分类器分类归于对应的标签；

具体地，能够考虑，在对新输入的数据库表字段利用分类器进行分类的过程中，利用高斯过程进行分类。当然，其他的分类方式也可以用于对本申请所涉及的数据库表字段进行分类，只要其能够实现本申请的目的。

本申请实施例基于自然语言对元数据进行降维、聚类和分类的处理方式，比现有技术中数据的人工处理提高了效率同时也降低了人力成本。而随着当前大数据时代的来临，本申请所提供的的这种数据处理方式也能够更好地适应当前的数据处理和数据开发要求。

图2为本申请实施例提供的一种元数据处理装置，该装置20包括：处理模块201、降维模块202、聚类模块203、标记模块204以及识别模块205，其中，

处理模块201，用于将数据库表字段处理为句子；

降维模块202，用于将所述句子降维处理为表向量，表中文向量，字段向量，字段中文向量；

聚类模块203，用于对以上向量进行自动聚类，并且将得到的族类处理成字典；

标记模块204，用于为聚类得到的字典分配标签；以及

识别模块205，基于所述标记模块所得到的所述标签，对新输入的数据库表字段利用分类器分类归于对应的标签。

本实施例的元数据处理装置可执行本申请上述实施例中提供的一种元数据处理方法，其实现原理相类似，此处不再赘述。

如图3所示，本申请实施例提供了另一种元数据处理装置，该装置30包括：处理模块301、降维模块302、聚类模块303、标记模块304以及识别模块305，其中，

处理模块301，用于将数据库表字段处理为句子；

其中，图3中的处理模块301与图2中的处理模块201的功能相同或者相似。

降维模块302，用于将所述句子降维处理为表向量，表中文向量，字段向量，字段中文向量；

其中，图3中的降维模块302与图2中的降维模块202的功能相同或者相似。

聚类模块303，用于对以上向量进行自动聚类，并且将得到的族类处理成字典；

其中，图3中的聚类模块303与图2中的聚类模块203的功能相同或者相似。

标记模块304，用于为聚类得到的字典分配标签；

其中，图3中的标记模块304与图2中的标记模块204的功能相同或者相似。

以及

识别模块305，基于所述标记模块所得到的所述标签，对新输入的数据库表字段利用分类器分类归于对应的标签，

其中，图3中的识别模块305与图2中的识别模块205的功能相同或者相似。

本申请实施例提供了一种可能的实现方式，具体地，所述降维模块302还包括权重调整单元3021，其中，所述权重调整单元3021构造用于判断所述表向量的质量，并且在所述表中文向量和所述字段中文向量的分布稀疏的情况下，更新所述表向量和所述字段向量的向量权重，从而将所述表中文向量和所述字段中文向量的向量权重降低。

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备40包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。进一步地，电子设备40还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备40的结构并不构成对本申请实施例的限定。其中，处理器401应用于本申请实施例中，用于实现图2或图3所示的处理模块、降维模块、聚类模块、标记模块以及识别模块的功能。收发器404包括接收机和/或发射机。

处理器401可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现图2或图3所示实施例提供的元数据处理装置的功能。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中所示的方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种元数据处理方法，其特征在于，包括：

将数据库表字段处理为句子；

对以上向量进行自动聚类，并且将得到的族类处理成字典；

为聚类得到的字典分配标签；以及

2.根据权利要求1所述的元数据处理方法，其特征在于，利用sentence2vec的方法对句子进行降维处理。

3.根据权利要求2所述的元数据处理方法，其特征在于，利用word2vec的方法来对表字段进行降维。

4.根据权利要求3所述的元数据处理方法，其特征在于，在自动聚类步骤之前，判断所述表向量的质量，在所述表中文向量和所述字段中文向量的分布稀疏的情况下，更新所述表向量和所述字段向量的向量权重，从而将所述表中文向量和所述字段中文向量的向量权重降低。

5.根据权利要求4所述的的元数据处理方法，其特征在于，所述方法还包括：

在得到所述字典后，将所述字典与已有的数据标准进行关联性检索，在所述字典不在所述已有的数据标准里的情况下，利用所述字典更新所述已有的数据标准。

6.根据权利要求1-5任一项所述的方法，其特征在于，在对新输入的数据库表字段利用分类器进行分类的过程中，利用高斯过程进行分类。

7.一种元数据处理装置，其特征在于包括：

处理模块，用于将数据库表字段处理为句子；

标记模块，用于为聚类得到的字典分配标签；以及

8.根据权利要求7所述的元数据处理装置，其特征在于，所述降维模块还包括权重调整单元，其中，所述权重调整单元构造用于判断所述表向量的质量，并且在所述表中文向量和所述字段中文向量的分布稀疏的情况下，更新所述表向量和所述字段向量的向量权重，从而将所述表中文向量和所述字段中文向量的向量权重降低。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于：执行根据权利要求1至6任一项所述的元数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1至6中任一项所述的元数据处理方法。