CN117670554A

CN117670554A - 确定数据资产标签的方法、装置、电子设备及存储介质

Info

Publication number: CN117670554A
Application number: CN202311684100.6A
Authority: CN
Inventors: 陈尊
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-08

Abstract

本发明公开了一种确定数据资产标签的方法、装置、电子设备及存储介质，该方法包括：对于目标链路图中所包括的各待分类数据资产，确定当前待分类数据资产对应的分类特征信息；基于目标资产分类模型对各分类特征信息进行处理，确定与各待分类数据资产对应的至少一个第一目标标签，并基于各待分类数据资产对应的至少一个第一目标标签确定与目标链路图对应的第一目标标签集合；基于目标链路图和第一目标标签集合，确定与各待分类数据资产对应的至少一个第二目标标签；基于各待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签，对相应待分类数据资产进行打标处理。本技术方案，提高了资产分类的准确率和效率。

Description

确定数据资产标签的方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种确定数据资产标签的方法、装置、电子设备及存储介质。

背景技术

在实际的数据资产管理过程中，对数据资产进行分门别类管理是一项非常基础的功能，是企业掌握数据资产的数量、使用现状、资源占用的基础。

相关技术中，数据资产的打标依赖于人工打标方式。这样方式的缺点在于：打标分类效率低，无法应对海量数据资产快速打标分类，并且，无法充分挖掘数据资产之间的关联关系，导致打标分类准确率低。

发明内容

本发明提供了一种确定数据资产标签的方法、装置、电子设备及存储介质，以实现资产分类的智能化和自动化，提高了资产分类的分类效率，并且，将数据资产之间的关联关系作为分类依据，提高了资产分类的准确率。

根据本发明的一方面，提供了一种确定数据资产标签的方法，该方法包括：

对于目标链路图中所包括的各待分类数据资产，确定当前待分类数据资产对应的分类特征信息，其中，所述分类特征信息包括资产名称和至少一个关联度特征；

基于目标资产分类模型对各所述分类特征信息进行处理，确定与各所述待分类数据资产对应的至少一个第一目标标签，并基于各所述待分类数据资产对应的至少一个第一目标标签确定与所述目标链路图对应的第一目标标签集合，其中，所述目标资产分类模型是基于样本数据资产对应的分类特征信息以及与所述样本数据资产对应的至少一个期望标签对神经网络模型训练得到；

基于所述目标链路图和所述第一目标标签集合，确定与各所述待分类数据资产对应的至少一个第二目标标签；

基于各所述待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签，对相应待分类数据资产进行打标处理。

根据本发明的另一方面，提供了一种确定数据资产标签的装置，该装置包括：

特征信息确定模块，用于对于目标链路图中所包括的各待分类数据资产，确定当前待分类数据资产对应的分类特征信息，其中，所述分类特征信息包括资产名称和至少一个关联度特征；

第一目标标签确定模块，用于基于目标资产分类模型对各所述分类特征信息进行处理，确定与各所述待分类数据资产对应的至少一个第一目标标签，并基于各所述待分类数据资产对应的至少一个第一目标标签确定与所述目标链路图对应的第一目标标签集合，其中，所述目标资产分类模型是基于样本数据资产对应的分类特征信息以及与所述样本数据资产对应的至少一个期望标签对神经网络模型训练得到；

第二目标标签确定模块，用于基于所述目标链路图和所述第一目标标签集合，确定与各所述分类数据资产对应的至少一个第二目标标签；

数据资产打标模块，用于基于各所述待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签，对相应待分类数据资产进行打标处理。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的确定数据资产标签的方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的确定数据资产标签的方法。

本发明实施例的技术方案，通过对于目标链路图中所包括的各待分类数据资产，确定当前待分类数据资产对应的分类特征信息，之后，基于目标资产分类模型对各分类特征信息进行处理，确定与各待分类数据资产对应的至少一个第一目标标签，并基于各待分类数据资产对应的至少一个第一目标标签确定与目标链路图对应的第一目标标签集合，进一步的，基于目标链路图和第一目标标签集合，确定与各待分类数据资产对应的至少一个第二目标标签，最后，基于各待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签，对相应待分类数据资产进行打标处理，解决了相关技术中打标分类效率低，无法应对海量数据资产快速打标分类，并且，无法充分挖掘数据资产之间的关联关系，导致打标分类准确率低的问题，实现了资产分类的智能化和自动化，提高了资产分类的分类效率，并且，将数据资产之间的关联关系作为分类依据，提高了资产分类的准确率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种确定数据资产标签的方法的流程图；

图2是根据本发明实施例二提供的一种确定数据资产标签的方法的流程图；

图3是根据本发明实施例二提供的一种确定数据资产标签的方法的流程图；

图4是根据本发明实施例三提供的一种确定数据资产标签的装置的结构示意图；

图5是实现本发明实施例的确定数据资产标签的方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一提供的一种确定数据资产标签的方法的流程图，本实施例可适用于对系统中所存储的数据资产进行分类打标的情况，该方法可以由确定数据资产标签的装置来执行，该确定数据资产标签的装置可以采用硬件和/或软件的形式实现，该确定数据资产标签的装置可配置于终端和/或服务器中。如图1所示，该方法包括：

S110、对于目标链路图中所包括的各待分类数据资产，确定当前待分类数据资产对应的分类特征信息。

在本实施例中，目标链路图可以是表征各待分类数据资产之间上下游关系的数据链条图。目标链路图可以是由多个数据实体节点以及各数据实体节点之间的链路组成的。其中，数据实体节点即可对应于待分类数据资产，各数据实体节点之间的链路即可对应于各待分类数据资产之间的上下游关系。示例性的，目标链路图可以是由各待分类数据资产组成的数据血缘链路图。待分类数据资产可以理解为待进行分类的数据资产。本领域技术人员可以理解，在业务系统、大数据平台、人工智能平台等会根据各自的业务范围生成成千上万的数据内容，这些数据内容经过有序盘点管理即可成为数据资产。一般情况下，在对数据资产进行分类之后，为了便于对数据资产进行管理，可以为分类后的数据资产设置资产标签。相应的，待分类数据资产也可以理解为待进行设置资产标签的数据资产。分类特征信息可以理解为对数据资产进行分类时所依据的特征信息。分类特征信息中可以包括多种形式的特征信息，可选的，可以包括资产名称和至少一个关联度特征。资产名称可以是待分类数据资产对应的数据资产名称。关联度特征可以是用于指示待分类数据资产之间关联关系的特征。

在实际应用中，为了可以确定目标链路图中各待分类数据资产进行资产分类，并确定各待分类数据资产对应的数据资产标签，对于目标链路图中的各待分类数据资产，可以获取当前待分类数据资产对应的资产名称。之后，可以获取能够表征当前待分类数据资产与其他待分类数据资产之间的关联程度的关联度信息，并基于关联度信息确定当前待分类数据资产对应的至少一个关联度特征。进而，可以基于资产名称和至少一个关联度特征确定与当前待分类数据资产对应的分类特征信息。

S120、基于目标资产分类模型对各分类特征信息进行处理，确定与各待分类数据资产对应的至少一个第一目标标签，并基于各待分类数据资产对应的至少一个第一目标标签确定与目标链路图对应的第一目标标签集合。

在本实施例中，目标资产分类模型可以理解为将数据资产的分类特征信息作为输入对象，以基于分类特征信息对数据资产进行分类的神经网络模型。目标资产分类模型可以是任意形式的神经网络模型。可选的，目标资产分类模型可以是一种梯度提升(XGBoost)模型。XG Boost模型是一种经典的集成式提升算法框架，具有训练效率高、预测效果好、可控参数多、使用方便等特性。在实际业务中，XG Boost经常被运用于用户行为预判、用户标签预测或用户信用评分等项目中。第一目标标签可以理解为表征相应数据资产的类别属性的标签。第一目标标签集合可以理解为包括各待分类数据资产对应的至少一个第一目标标签的集合。

其中，目标资产分类模型是基于样本数据资产对应的分类特征信息以及与样本数据资产对应的至少一个期望标签对神经网络模型训练得到。需要说明的是，在应用本发明实施例所提供的目标资产分类模型之前，可以先对预先建立的神经网络模型进行训练，进而，可以将训练完成的神经网络模型作为目标资产分类模型。在对模型进行训练之前，可以先构建多个训练样本，以基于训练样本来训练模型。为了提高目标资产分类模型的分类准确性，可以尽可能多而丰富的构建训练样本。可选的，目标资产分类模型的训练过程可以为：获取多个训练样本，其中，训练样本中可以包括样本数据资产对应的分类特征信息以及与样本数据资产对应的至少一个期望标签；对于每个训练样本，将训练样本中的与样本数据资产对应的分类特征信息输入至待训练的神经网络模型中，得到至少一个实际输出标签；基于各实际输出标签与训练样本中的各期望标签，确定损失值；基于损失值对神经网络模型中的模型参数进行修正，并将神经网络模型中的损失函数收敛作为训练目标，将训练完成的神经网络模型作为目标资产分类模型。

在实际应用中，在确定各待分类数据资产对应的分类特征信息之后，即可将各分类特征信息输入至目标资产分类模型中，以基于目标资产分类模型对各分类特征信息进行处理，输出与各待分类数据资产对应的资产标签。进一步的，针对各待分类数据资产，可以从与当前待分类数据资产对应的资产标签选取至少一个资产标签，并将所选取的资产标签作为当前待分类数据资产对应的至少一个第一目标标签。

可选的，基于目标资产分类模型对各分类特征信息进行处理，确定与各待分类数据资产对应的至少一个第一目标标签，包括：基于目标资产分类模型对各分类特征信息进行处理，得到与各待分类数据资产对应的至少一个资产标签；对于各待分类数据资产，确定与当前待分类数据资产对应的各资产标签的置信度得分，并基于各置信度得分确定与当前待分类数据资产对应的至少一个第一目标标签。

在本实施例中，置信度得分可以是表征资产标签分类准确度的得分。

在实际应用中，可以将各分类特征信息输入至目标资产分类模型中，以基于目标资产分类模型对各分类特征信息进行处理。进而，可以输出与各待分类数据资产对应的至少一个资产标签。进一步的，针对各待分类数据资产，可以确定当前待分类数据资产对应的各资产标签的置信度得分。进而，可以依据从大到小的顺序对各置信度得分进行排序，并确定出置信度得分排在前几位的资产标签，可以将确定出的资产标签作为当前待分类数据资产对应的第一目标标签。

进一步的，在确定各待分类数据资产对应的至少一个第一目标标签之后，可以将各待分类数据资产对应的第一目标标签集合在一起。进而，可以得到包括各待分类数据资产对应的第一目标标签的集合，可以将该集合作为与目标链路图对应的第一目标标签集合。

S130、基于目标链路图和第一目标标签集合，确定与各待分类数据资产对应的至少一个第二目标标签。

在本实施例中，可以根据各待分类数据资产所在目标链路图中的链路特征，对各待分类数据资产进行进一步增强分类，以确定与各待分类数据资产对应的资产标签。

其中，第二目标标签可以理解为表征相应数据资产的类别属性的标签。

在实际应用中，针对各待分类数据资产，可以根据目标链路图确定与当前待分类数据资产相关联的上级资产实体和下级资产实体。之后，可以根据第一目标标签集合中所包括的各待分类数据资产对应的第一目标标签和目标链路图，确定与上级资产实体对应的第一目标标签和与下级资产实体对应的第一目标标签，可以将这些第一目标标签作为当前待分类数据资产对应的资产标签。之后，可以基于预设标签得分确定方式确定各资产标签对应的资产得分，并根据各资产得分，从各资产标签中确定出与当前待分类数据资产对应的至少一个第二目标标签。

可选的，基于目标链路图和第一目标标签集合，确定与各待分类数据资产对应的至少一个第二目标标签，包括：对于目标链路图中所包括的各待分类数据资产，基于目标链路图确定与当前待分类数据资产相关联的至少一个第一级父实体节点和至少一个第一级子实体节点，并基于第一目标标签集合获取各第一级父实体节点对应的第一目标标签和各第一级子实体节点对应的第一目标标签；基于目标链路图确定与当前待分类数据资产相关联的至少一个第二级父实体节点和至少一个第二级子实体节点，并基于第一目标标签集合获取各第二级父实体节点对应的第一目标标签和各第二级子实体节点对应的第一目标标签，重复执行确定父实体节点和子实体节点和获取各实体节点对应的第一目标标签的步骤，直至得到各最后一级父实体节点对应的第一目标标签和各最后一级子实体节点对应的第一目标标签；基于各父实体节点对应的第一目标标签，生成上游标签列表，并确定上游标签列表中各第一目标标签对应的第一得分；基于各子实体节点对应的第一目标标签，生成下游标签列表，并确定下游标签列表中各第一目标标签对应的第二得分；对于各第一目标标签，基于当前第一目标标签对应的第一得分和第二得分，确定与当前第一目标标签对应的目标得分；基于各第一目标标签对应的目标得分，确定与当前待分类数据资产对应的至少一个第二目标标签。

其中，父实体节点为背离目标链路图对应的链路方向的实体节点，子实体节点为链路方向指向的实体节点，实体节点对应于待分类数据资产。

在本实施例中，目标链路图对应的链路方向可以用于表征数据在系统内、系统间、业务线之间的流动和转换过程。对应目标链路图中所包括的各待分类数据资产，与当前待分类数据资产对应的父实体节点可以是位于当前待分类数据资产上游的待分类数据资产对应的实体节点。与当前待分类数据资产对应的子实体节点可以是位于当前待分类数据资产下游的待分类数据资产对应的实体节点。

在实际应用中，对于目标链路图中所包括的各待分类数据资产，可以基于目标链路图确定与当前待分类数据资产相关联的至少一个第一级父实体节点和至少一个第一级子实体节点。之后，可以根据第一目标标签集合获取各第一级父实体节点对应的第一目标标签和各第一级子实体节点对应的第一目标标签。进一步的，可以基于目标链路图确定与当前待分类数据资产相关联的至少一个第二级父实体节点和至少一个第二级子实体节点。之后，可以根据第一目标标签集合获取各第二级父实体节点对应的第一目标标签和各第二级子实体节点对应的第一目标标签。进一步的，重复执行确定父实体节点和子实体节点和获取各实体节点对应的第一目标标签的步骤，直至确定与当前待分类数据资产对应的至少一个最后一级父实体节点和至少一个最后一级子实体节点，并获取各最后一级父实体节点对应的第一目标标签和各最后一级子实体节点对应的第一目标标签。

进一步的，可以将各父实体节点对应的第一目标标签集合在一起，即可得到包括各父实体节点对应的第一目标标签的上游标签列表。进而，可以确定上游标签列表中各第一目标标签对应的第一得分。

可选的，确定上游标签列表中各第一目标标签对应的第一得分，包括：对于上游标签列表中的各第一目标标签，确定当前第一目标标签在上游标签列表中各个层级对应的数量，以及各当前第一目标标签对应的层级编号；基于第一目标函数、预设衰减系数、与当前第一目标标签对应的预设初始分数、当前第一目标标签在所述上游标签列表中各个层级对应的数量和各当前第一目标标签对应的层级编号，确定与当前第一目标标签对应的第一得分。

在本实施例中，第一目标标签在上游标签列表中各个层级对应的数量，可以理解为任意层级中所包括的第一目标标签的数量。示例性的，若在与当前待分类数据资产相关联的各第二级父实体节点对应的第一目标标签中包括3个当前第一目标标签，则当前第一目标标签在上游标签列表中第二层级的数量为3。在本实施例中，层级编号可以是第一目标标签对应的父实体节点所处层级的编号。示例性的，若当前第一目标标签对应的父实体节点为与当前待分类数据资产相关联的第一级父实体节点，则当前第一目标标签对应的层级编号为1。若当前第一目标标签对应的父实体节点为与当前待分类数据资产相关联的第二级父实体节点，则当前第一目标标签对应的级编号为2。预设衰减系数可以是预先确定的衰减系数。预设衰减系数可以是任意值，可选的，可以是0-1中的任意数值。预设初始分数可以是预先设置的资产标签的初始得分。预设初始分数可以是任意数值。

在实际应用中，对于上游标签列表中的各第一目标标签，可以确定当前第一目标标签在上游标签列表中各个层级对应的数量，以及各当前第一目标标签对应的层级编号。进一步的，可以获取当前第一目标标签对应的预设初始分数，并基于第一目标函数对预设初始分数、预设衰减系数、当前第一目标标签在上游标签列表中各个层级对应的数量和各当前第一目标标签对应的层级编号进行处理，进而，可以得到当前第一目标标签对应的第一得分。

示例性的，上游标签列表中各第一目标标签对应的第一得分可以基于如下公式确定：

其中，S_上可以表示第一目标标签对应的第一得分；A可以表示第一目标标签对应的预设初始分数；i可以表示第一目标标签对应的层级编号；j可以表示第一目标标签在上游标签列表中各个层级下对应的数量；sp可以表示预设衰减系数。

示例性的，若第一目标标签A对应的层级编号包括1和2，且在第一层级下对应的数量为2个，在第二层级下对应的数量为3个。则基于上述公式可以确定第一目标标签A对应的第一得分为：

S_上＝(A+A)+(A*sp¹+A*sp¹+A*sp¹)

其中，A可以表示第一目标标签A对应的预设初始分数。

进一步的，可以将各子实体节点对应的第一目标标签集合在一起，即可得到包括各子实体节点对应的第一目标标签的下游标签列表。进而，可以确定下游标签列表中各第一目标标签对应的第二得分。

需要说明的是，下游标签列表中各第一目标标签对应的第二得分的确定过程与第一得分的确定过程相类似，本实施例在此不再具体赘述。还需说明的是，下游标签列表中各第一目标标签对应的预设初始分数与上游标签列表中各第一目标标签对应的预设初始分数可以是相同的，也可以是不相同的，本实施例对此不作具体限定。第一得分确定过程中所采用的预设衰减系数与第二得分确定过程中所采用的预设衰减系数可以是相同的，也可以是不相同的，本实施例对比不作具体限定。

示例性的，下游标签列表中各第一目标标签对应的第二得分可以基于如下公式确定：

其中，S_下可以表示第一目标标签对应的第二得分；B可以表示第一目标标签对应的预设初始分数；i可以表示第一目标标签对应的层级编号；j可以表示第一目标标签在上游标签列表中各个层级下对应的数量；sc可以表示预设衰减系数。

进一步的，在得到上游标签列表中各第一目标标签对应的第一得分和下游标签列表中各第一目标标签对应的第二得分之后，对于各第一目标标签，可以将当前第一目标标签对应的第一得分和当前第一目标标签对应的第二得分相加，可以将相加后得分的数值作为当前第一目标标签对应的目标得分。

示例性的，当前第一目标标签对应的目标得分可以基于如下公式确定：

其中，S可以表示当前第一目标标签对应的目标得分。

进一步的，在得到各第一目标标签对应的目标得分之后，即可基于各目标得分，从各第一目标标签中确定出至少一个标签，可以将确定出来的标签作为与当前待分类数据资产对应的第二目标标签。

可选的，基于各第一目标标签对应的目标得分，确定与当前待分类数据资产对应的至少一个第二目标标签，包括：基于各目标得分，按照预设排列顺序对各第一目标标签进行排序；按照预设方向从已排序的第一目标标签中选取预设数量的第一目标标签，并将已选取的第一目标标签作为第二目标标签。其中，预设排列顺序与预设方向相匹配。

S140、基于各待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签，对相应待分类数据资产进行打标处理。

在实际应用中，在得到各待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签之后，针对各待分类数据资产，即可将与当前待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签添加至当前待分类数据资产上，以完成对当前待分类数据资产的打标分类。

实施例二

图2是本发明实施例二提供的一种确定数据资产标签的方法的流程图，在前述实施例的基础上，可以确定待分类数据资产对应的资产名称和生成逻辑语句，进而，可以基于资产名称和生成逻辑语句确定与待分类数据资产对应的分类特征信息。其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相似的技术术语在此不再赘述。

如图2所示，该方法包括：

S210、对于目标链路图中所包括的各待分类数据资产，基于目标链路图确定与当前待分类数据资产对应的资产名称。

在本实施例中，资产名称可以理解为对数据资产所进行的命名和编码。资产名称可以用于表征数据资产的种类和/或所属范围的信息。

在实际应用中，对于目标链路图中所包括的各待分类数据资产，可以依据目标链路图确定当前待分类数据资产对应的资产名称。

S220、获取当前待分类数据资产对应的生成逻辑语句。

在本实施例中，生成逻辑语句可以理解为一段预先编写的程序代码，该程序代码用于指示数据资产的生成过程和/或迁移过程。示例性的，生成逻辑语句可以是底层模型对应的SQL语句，其中，底层模型可以理解为数据资产的生成模型。

一般情况下，在得到数据资产的同时，还可以确定与该数据资产对应的生成逻辑语句，并且，还可以将生成逻辑语句与数据资产对应的标识关联存储在数据库中。

在实际应用中，对于目标链路图中所包括的各待分类数据资产，可以获取当前待分类数据资产对应的资产标识。进而，可以基于资产标识从数据库中调取预先存储的与当前待分类数据资产对应的生成逻辑语句。进而，可以对生成逻辑语句进行分析，以确定与当前待分类数据资产对应的关联度特征。

S230、基于目标链路图确定与当前待分类数据资产对应的数据链路关系信息。

在本实施例中，数据链路关系信息可以用于指示数据资产全链路的数据血缘关系。对于数据资产，其对应的数据链路关系信息可以是表征该数据资产从产生、处理、加工、融合、流转到最终消亡的信息。

在实际应用中，对于目标链路图中所包括的各待分类数据资产，可以基于目标链路图对当前待分类数据资产的链路关系进行分析，并确定与当前待分类数据资产对应的链路关系。进而，可以基于该链路关系确定与当亲待分类数据资产对应的数据链路关系信息。

S240、基于生成逻辑语句和数据链路关系信息确定与当前待分类数据资产对应的至少一个关联度特征，并基于至少一个关联度特征和资产名称确定分类特征信息。

在本实施例中，在得到当前待分类数据资产对应的生成逻辑语句和数据链路关系信息之后，即可基于生成逻辑语句和数据链路关系信息确定与当前待分类数据资产对应的至少一个关联度特征。

在实际应用中，在得到当前待分类数据资产对应的生成逻辑语句和数据链路关系信息之后，可以对生成逻辑语句和数据链路关系信息进行关键词提取处理，以得到与当前待分类数据资产对应的关键词组。进而，可以基于已得到的关键词组确定与当前待分类数据资产对应的至少一个关联度特征。

可选的，基于生成逻辑语句和数据链路关系信息确定与当前待分类数据资产对应的至少一个关联度特征，包括：基于预设语言处理方式对生成逻辑语句和数据链路关系信息进行处理，得到至少一个关键信息；确定各关键信息与当前待分类数据资产之间的关联度得分；基于各关联度得分，从各关键信息中确定出至少一个目标关键信息，并将各目标关键信息作为关联度特征。

在本实施例中，预设语言处理方式可以是任意语言处理方式，可选的，可以是自然语言处理(Natural Language Processing，NLP)方式。关键信息可以理解为表征当前待分类数据资产的链路关系特征的信息。

在实际应用中，可以基于预设语言处理方式对生成逻辑语句和数据链路关系信息进行处理，以提取生成逻辑语句和数据链路关系信息中的关键信息。进而，可以得到至少一个关键信息。进一步的，可以基于关联度确定算法分别对各关键信息与当前待分类数据资产进行处理，以确定各关键信息和当前待分类数据资产之间的关联度得分。之后，可以依据从大到小的顺序对各关联度得分进行排序，并选取排列在首位的至少一个关联度得分。进而，可以确定与已选取的各关联度得分对应的关键信息，并将这些关键信息作为目标关键信息。进而，可以将各目标关键信息作为关联度特征。

进一步的，可以将与当前待分类数据资产对应的至少一个关联度特征和资产名称作为与当前待分类数据资产对应的分类特征信息。

S250、基于目标资产分类模型对各分类特征信息进行处理，确定与各待分类数据资产对应的至少一个第一目标标签，并基于各待分类数据资产对应的至少一个第一目标标签确定与目标链路图对应的第一目标标签集合。

S260、基于目标链路图和第一目标标签集合，确定与各待分类数据资产对应的至少一个第二目标标签。

S270、基于各待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签，对相应待分类数据资产进行打标处理。

示例性的，图3是本发明实施例的一个可选实施例的流程示意图。如图3所示，本技术方案可以包括如下步骤：

1、确定当前待分类数据资产；

2、获取与当前待分类数据资产对应的SQL模型；

3、获取与当前待分类数据资产对应的数据链路关系信息；

4、基于NLP技术对SQL模型和数据链路关系信息进行关键词提取处理，得到至少一个关键信息；

5、从至少一个关键信息中选取特征，以得到与当前待分类数据资产对应的关联度特征；

6、将各待分类数据资产对应的关联度特征和资产名称作为分类特征信息输入至目标资产分类模型中，输出与各待分类数据资产对应的资产标签；

7、从资产标签中选取两个资产标签作为与各待分类数据资产对应的第一目标标签；

8、基于目标链路图和各待分类数据资产对应的第一目标标签，确定资产标签列表；

9、根据公式计算资产标签列表中各个第一目标标签对应的目标得分；

10、对资产标签列表中各第一目标标签进行排序；

11、获取目标得分最高的两个标签，以作为第二目标标签；

12、基于两个第一目标标签和两个第二目标标签对相应待分类数据资产进行打标。

实施例三

图4是本发明实施例三提供的一种确定数据资产标签的装置的结构示意图。如图4所示，该装置包括：特征信息确定模块310、第一目标标签确定模块320、第二目标标签确定模块330和数据资产打标模块340。

其中，特征信息确定模块310，用于对于目标链路图中所包括的各待分类数据资产，确定当前待分类数据资产对应的分类特征信息，其中，所述分类特征信息包括资产名称和至少一个关联度特征；第一目标标签确定模块320，用于基于目标资产分类模型对各所述分类特征信息进行处理，确定与各所述待分类数据资产对应的至少一个第一目标标签，并基于各所述待分类数据资产对应的至少一个第一目标标签确定与所述目标链路图对应的第一目标标签集合，其中，所述目标资产分类模型是基于样本数据资产对应的分类特征信息以及与所述样本数据资产对应的至少一个期望标签对神经网络模型训练得到；第二目标标签确定模块330，用于基于所述目标链路图和所述第一目标标签集合，确定与各所述分类数据资产对应的至少一个第二目标标签；数据资产打标模块340，用于基于各所述待分类数据资产对应的至少一个第一目标标签和至少一个第二目标标签，对相应待分类数据资产进行打标处理。

可选的，特征信息确定模块310包括：资产名称确定单元、生成逻辑语句获取单元、链路关系信息确定单元和特征信息确定单元。

资产名称确定单元，用于基于所述目标链路图确定与当前待分类数据资产对应的资产名称；

生成逻辑语句获取单元，用于获取所述当前待分类数据资产对应的生成逻辑语句；

链路关系信息确定单元，用于基于所述目标链路图确定与所述当前待分类数据资产对应的数据链路关系信息；

特征信息确定单元，用于基于所述生成逻辑语句和所述数据链路关系信息确定与所述当前待分类数据资产对应的至少一个关联度特征，并基于所述至少一个关联度特征和所述资产名称确定分类特征信息。

可选的，特征信息确定单元包括：关键信息确定子单元、关联度得分确定子单元和特征信息确定子单元。

关键信息确定子单元，用于基于预设语言处理方式对所述生成逻辑语句和所述数据链路关系信息进行处理，得到至少一个关键信息；

关联度得分确定子单元，用于确定各所述关键信息与所述当前待分类数据资产之间的关联度得分；

特征信息确定子单元，用于基于各所述关联度得分，从各所述关键信息中确定出至少一个目标关键信息，并将各所述目标关键信息作为关联度特征。

可选的，第二目标标签确定模块330包括：第一级实体节点确定单元、最后一级实体节点确定单元、第一得分确定单元、第二得分确定单元、目标得分确定单元和第二目标标签确定单元。

第一级实体节点确定单元，用于对于所述目标链路图中所包括的各待分类数据资产，基于所述目标链路图确定与当前待分类数据资产相关联的至少一个第一级父实体节点和至少一个第一级子实体节点，并基于所述第一目标标签集合获取各所述第一级父实体节点对应的第一目标标签和各所述第一级子实体节点对应的第一目标标签；其中，所述父实体节点为背离所述目标链路图对应的链路方向的实体节点，所述子实体节点为所述链路方向指向的实体节点，所述实体节点对应于所述待分类数据资产；

最后一级实体节点确定单元，用于基于所述目标链路图确定与所述当前待分类数据资产相关联的至少一个第二级父实体节点和至少一个第二级子实体节点，并基于所述第一目标标签集合获取各所述第二级父实体节点对应的第一目标标签和各所述第二级子实体节点对应的第一目标标签，重复执行确定父实体节点和子实体节点和获取各实体节点对应的第一目标标签的步骤，直至得到各最后一级父实体节点对应的第一目标标签和各最后一级子实体节点对应的第一目标标签；

第一得分确定单元，用于基于各父实体节点对应的第一目标标签，生成上游标签列表，并确定所述上游标签列表中各第一目标标签对应的第一得分；

第二得分确定单元，用于基于各子实体节点对应的第一目标标签，生成下游标签列表，并确定所述下游标签列表中各第一目标标签对应的第二得分；

目标得分确定单元，用于对于各第一目标标签，基于当前第一目标标签对应的第一得分和第二得分，确定与所述当前第一目标标签对应的目标得分；

第二目标标签确定单元，用于基于各第一目标标签对应的目标得分，确定与所述当前待分类数据资产对应的至少一个第二目标标签。

可选的，第一得分确定单元包括：层级编号确定子单元和第一得分确定子单元。

层级编号确定子单元，用于对于所述上游标签列表中的各第一目标标签，确定当前第一目标标签在所述上游标签列表中各个层级下对应的数量，以及各所述当前第一目标标签对应的层级编号；

第一得分确定子单元，用于基于第一目标函数、预设衰减系数、与所述当前第一目标标签对应的预设初始分数、所述当前第一目标标签在所述上游标签列表中各个层级对应的数量和各所述当前第一目标标签对应的层级编号，确定与当前第一目标标签对应的第一得分。

可选的，第二目标标签确定单元包括：标签排序子单元和第二目标标签确定子单元。

标签排序子单元，用于基于各所述目标得分，按照预设排列顺序对各第一目标标签进行排序；

第二目标标签确定子单元，用于按照预设方向从已排序的第一目标标签中选取预设数量的第一目标标签，并将已选取的第一目标标签作为第二目标标签；其中，所述预设排列顺序与所述预设方向相匹配。

可选的，第一目标标签确定模块320包括：资产标签确定单元和第一目标标签确定单元。

资产标签确定单元，用于基于目标资产分类模型对各所述分类特征信息进行处理，得到与各所述待分类数据资产对应的至少一个资产标签；

第一目标标签确定单元，用于对于各所述待分类数据资产，确定与当前待分类数据资产对应的各资产标签的置信度得分，并基于各所述置信度得分确定与所述当前待分类数据资产对应的至少一个第一目标标签。

本发明实施例所提供的确定数据资产标签的装置可执行本发明任意实施例所提供的确定数据资产标签的方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如确定数据资产标签的方法。

在一些实施例中，确定数据资产标签的方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的确定数据资产标签的方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定数据资产标签的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种确定数据资产标签的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定当前待分类数据资产对应的分类特征信息，包括：

基于所述目标链路图确定与当前待分类数据资产对应的资产名称；

获取所述当前待分类数据资产对应的生成逻辑语句；

基于所述目标链路图确定与所述当前待分类数据资产对应的数据链路关系信息；

基于所述生成逻辑语句和所述数据链路关系信息确定与所述当前待分类数据资产对应的至少一个关联度特征，并基于所述至少一个关联度特征和所述资产名称确定分类特征信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述生成逻辑语句和所述数据链路关系信息确定与所述当前待分类数据资产对应的至少一个关联度特征，包括：

基于预设语言处理方式对所述生成逻辑语句和所述数据链路关系信息进行处理，得到至少一个关键信息；

确定各所述关键信息与所述当前待分类数据资产之间的关联度得分；

基于各所述关联度得分，从各所述关键信息中确定出至少一个目标关键信息，并将各所述目标关键信息作为关联度特征。

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标链路图和所述第一目标标签集合，确定与各所述分类数据资产对应的至少一个第二目标标签，包括：

对于所述目标链路图中所包括的各待分类数据资产，基于所述目标链路图确定与当前待分类数据资产相关联的至少一个第一级父实体节点和至少一个第一级子实体节点，并基于所述第一目标标签集合获取各所述第一级父实体节点对应的第一目标标签和各所述第一级子实体节点对应的第一目标标签；其中，所述父实体节点为背离所述目标链路图对应的链路方向的实体节点，所述子实体节点为所述链路方向指向的实体节点，所述实体节点对应于所述待分类数据资产；

基于所述目标链路图确定与所述当前待分类数据资产相关联的至少一个第二级父实体节点和至少一个第二级子实体节点，并基于所述第一目标标签集合获取各所述第二级父实体节点对应的第一目标标签和各所述第二级子实体节点对应的第一目标标签，重复执行确定父实体节点和子实体节点和获取各实体节点对应的第一目标标签的步骤，直至得到各最后一级父实体节点对应的第一目标标签和各最后一级子实体节点对应的第一目标标签；

基于各父实体节点对应的第一目标标签，生成上游标签列表，并确定所述上游标签列表中各第一目标标签对应的第一得分；

基于各子实体节点对应的第一目标标签，生成下游标签列表，并确定所述下游标签列表中各第一目标标签对应的第二得分；

对于各第一目标标签，基于当前第一目标标签对应的第一得分和第二得分，确定与所述当前第一目标标签对应的目标得分；

基于各第一目标标签对应的目标得分，确定与所述当前待分类数据资产对应的至少一个第二目标标签。

5.根据权利要求4所述的方法，其特征在于，所述确定所述上游标签列表中各第一目标标签对应的第一得分，包括：

对于所述上游标签列表中的各第一目标标签，确定当前第一目标标签在所述上游标签列表中各个层级下对应的数量，以及各所述当前第一目标标签对应的层级编号；

基于第一目标函数、预设衰减系数、与所述当前第一目标标签对应的预设初始分数、所述当前第一目标标签在所述上游标签列表中各个层级对应的数量和各所述当前第一目标标签对应的层级编号，确定与当前第一目标标签对应的第一得分。

6.根据权利要求4所述的方法，其特征在于，所述基于各第一目标标签对应的目标得分，确定与所述当前待分类数据资产对应的至少一个第二目标标签，包括：

基于各所述目标得分，按照预设排列顺序对各第一目标标签进行排序；

按照预设方向从已排序的第一目标标签中选取预设数量的第一目标标签，并将已选取的第一目标标签作为第二目标标签；

其中，所述预设排列顺序与所述预设方向相匹配。

7.根据权利要求1所述的方法，其特征在于，所述基于目标资产分类模型对各所述分类特征信息进行处理，确定与各所述待分类数据资产对应的至少一个第一目标标签，包括：

基于目标资产分类模型对各所述分类特征信息进行处理，得到与各所述待分类数据资产对应的至少一个资产标签；

对于各所述待分类数据资产，确定与当前待分类数据资产对应的各资产标签的置信度得分，并基于各所述置信度得分确定与所述当前待分类数据资产对应的至少一个第一目标标签。

8.一种确定数据资产标签的装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的确定数据资产标签的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的确定数据资产标签的方法。