CN116975400B

CN116975400B - 一种数据分类分级方法、装置、电子设备及存储介质

Info

Publication number: CN116975400B
Application number: CN202310973963.9A
Authority: CN
Inventors: 武文超; 王健
Original assignee: Transwarp Technology Shanghai Co Ltd
Current assignee: Transwarp Technology Shanghai Co Ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2024-05-24
Anticipated expiration: 2043-08-03
Also published as: CN116975400A

Abstract

本发明公开了一种数据分类分级方法、装置、电子设备及存储介质；该方法包括：获取待分类字段数据，以及待分类字段数据对应的关联数据，关联数据至少包括如下一种：数据表名和数据系统名称；对待分类字段数据和关联数据进行向量化，得到数据向量，数据向量为多层次向量化后得到的拼接向量；将数据向量输入到预确定的数据分类模型中，数据分类模型根据样本的语义信息进行训练；根据数据分类模型的输出结果确定待分类字段数据所对应的预设数量的层级分类，各层级分类具有层级对应关系，解决了数据分类过程中耗时长以及准确率低的问题，从多个层级准确对字段数据进行分类，根据样本的语义信息训练数据分类模型，分类准确度更高。

Description

一种数据分类分级方法、装置、电子设备及存储介质

技术领域

本发明涉及数据管理技术领域，尤其涉及一种数据分类分级方法、装置、电子设备及存储介质。

背景技术

实行数据分类分级是保障数据安全的前提，也是数据安全治理过程中极为重要的一环。传统的做法是综合国家、行业标准以及企业自身情况指定分类分级标准后，由具有业务经验的专员开展分类分级打标工作，这种模式投入大，耗时久。或者通过机器学习手段学习打标规律的方案，但是受限于短文本分类难等问题，训练出的模型不够稳定，准确率较低，无法准确对数据进行分类。

发明内容

本发明提供了一种数据分类分级方法、装置、电子设备及存储介质，以解决数据分类耗时长、准确度较低的问题。

根据本发明的一方面，提供了一种数据分类分级方法，包括：

获取待分类字段数据，以及待分类字段数据对应的关联数据，所述关联数据至少包括如下一种：数据表名和数据系统名称；

对所述待分类字段数据和关联数据进行向量化，得到数据向量，所述数据向量为多层次向量化后得到的拼接向量；

将所述数据向量输入到预确定的数据分类模型中，所述数据分类模型根据样本的语义信息进行训练；

根据所述数据分类模型的输出结果确定所述待分类字段数据所对应的预设数量的层级分类，各所述层级分类具有层级对应关系。

根据本发明的另一方面，提供了一种数据分类分级装置，包括：

数据获取模块，用于获取待分类字段数据，以及待分类字段数据对应的关联数据，所述关联数据至少包括如下一种：数据表名和数据系统名称；

向量化模块，用于对所述待分类字段数据和关联数据进行向量化，得到数据向量，所述数据向量为多层次向量化后得到的拼接向量；

数据输入模块，用于将所述数据向量输入到预确定的数据分类模型中，所述数据分类模型根据样本的语义信息进行训练；

分类模块，用于根据所述数据分类模型的输出结果确定所述待分类字段数据所对应的预设数量的层级分类，各所述层级分类具有层级对应关系。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的数据分类分级方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据分类分级方法。

本发明实施例的技术方案，通过获取待分类字段数据，以及待分类字段数据对应的关联数据，所述关联数据至少包括如下一种：数据表名和数据系统名称；对所述待分类字段数据和关联数据进行向量化，得到数据向量，所述数据向量为多层次向量化后得到的拼接向量；将所述数据向量输入到预确定的数据分类模型中，所述数据分类模型根据样本的语义信息进行训练；根据所述数据分类模型的输出结果确定所述待分类字段数据所对应的预设数量的层级分类，各所述层级分类具有层级对应关系，解决了数据分类过程中耗时长以及准确率低的问题，将待分类字段数据及其对应的关联数据在多个层次上进行向量化，得到多层次向量化后的拼接向量，对数据的描述更加准确，将数据向量输入到数据分类模型中进行分类预测，进而根据数据分类模型的输出结果确定待分类字段数据的层级分类，层级分类的数量为预设数量，各层级分类之间具有层级对应关系，本申请实施例提供的数据分类分级方法可以实现对字段数据的多层级分类，从多个层级准确对字段数据进行分类，根据样本的语义信息训练数据分类模型，得到的数据分类模型可以结合数据的语义信息进行分类，因此分类准确度更高；自动对数据进行分类，无需人工参与，分类速度较快，且极大地节省了人力资源。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种数据分类分级方法的流程图；

图2是根据本发明实施例二提供的一种数据分类分级方法的流程图；

图3是根据本发明实施例二提供的一种数据分类的实现示例图；

图4是根据本发明实施例三提供的一种数据分类分级装置的结构示意图；

图5是实现本发明实施例的数据分类分级方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种数据分类分级方法的流程图，本实施例可适用于对字段数据进行分类分级的情况，该方法可以由数据分类分级装置来执行，该数据分类分级装置可以采用硬件和/或软件的形式实现，该数据分类分级装置可配置于电子设备中。如图1所示，该方法包括：

S101、获取待分类字段数据，以及待分类字段数据对应的关联数据，关联数据至少包括如下一种：数据表名和数据系统名称。

在本实施例中，待分类字段数据具体可以理解为具有分类需求的字段，字段可以是单位/机构的名称、位置、成立时间、产品名称、缩写等等。本申请实施例中，待分类字段数据可以是数据系统的数据表中的字段，数据系统可以是产品信息管理系统，合作方信息管理系统等等。关联数据具体可以理解为待分类字段数据在存储时所关联的数据，例如，待分类字段数据所在的数据表的名称，即数据表名；存储待分类字段数据的数据系统的名称，即数据系统名称，等。

待分类字段数据可以由用户手动输入，即本执行设备接收用户输入的待分类字段数据，在需要对多个字段数据进行分类分级时，依次输入所有待分类字段数据；或者，预设将所有需要进行分类分级的字段数据存放在一张数据表或者文档中，本执行设备通过读取数据表或文档获取到待分类字段数据，当数据表或文档中包含多个字段数据时，依次读取每个字段数据，分别作为待分类字段数据，进行后续的分类分级处理。在获取到待分类字段数据后，获取其所对应的关联数据，关联数据同样可以是由用户输入，或者与待分类字段数据对应存储在同一个数据表中或文档中；或者，预先形成一个数据表，存储不同的字段数据及其对应的关联数据，在确定待分类字段数据后，通过查询预先形成的数据表，确定待分类字段数据对应的关联数据。

S102、对待分类字段数据和关联数据进行向量化，得到数据向量，数据向量为多层次向量化后得到的拼接向量。

在本实施例中，数据向量具体可以理解为数据进行向量化后所得到的向量，数据向量为从多个层次对数据进行向量化之后进行拼接得到的拼接向量。

预先确定多层次向量化的规则，本申请在进行多层次处理时，可以先进行多层次处理，然后进行向量化，也可以先进行向量化，在对得到的向量进行多层次处理。例如，对待分类字段数据和关联数据进行多层次处理，将每个层次得到的数据分别进行向量化得到向量，将得到的向量进行拼接得到数据向量；或者，对待分类字段数据和关联数据分别进行向量化，将得到的向量进行多层次拼接处理，得到数据向量，此时由于进行了多层次的向量化，所以数量向量中包含了语义信息。

S103、将数据向量输入到预确定的数据分类模型中，数据分类模型根据样本的语义信息进行训练。

在本实施例中，数据分类模型具体可以理解为对数据的类型进行预测、实现数据分类的神经网络模型；数据分类模型可以采用注意力机制，由分类器+注意力机制组成，注意力机制可以使模型能够在处理数据时有选择性地关注和处理不同部分的信息，提高模型的表达能力和性能。

预先标注大量的训练样本，在对训练样本进行标注时，可以标注训练样本的分类结果；训练样本中包括语义信息，根据携带了语义信息的样本对模型进行训练得到数据分类模型。在完成对数据分类模型的训练后，将数据向量直接输入到数据分类模型中，数据分类模型根据训练过程中确定的模型参数对数据向量进行分析，确定其对应的分类结果并输出。

S104、根据数据分类模型的输出结果确定待分类字段数据所对应的预设数量的层级分类，各层级分类具有层级对应关系。

在本实施例中，预设数量的大小可以根据数据分类时层级的总数量确定，例如，在对数据进行分类时，将数据从3个层次依次进行分类，此时的预设数量为3。层级分类具体可以理解为从不同层级上进行分类所得到的分类结果，各层级分类在层级上具有上下对应关系，第一级的层级分类下可以有一种或者多种第二级的层级分类，第二级的层级分类下可以有一种或者多种第三级的层级分类，以此类推，各层级之间的关系为层层递进，逐步对数据进行细化分类。例如，第一级的层级分类为机构，第二级的层级分类为机构信息，第三级的层级分类为基本信息(为机构的公开信息)，即待分类字段数据首先属于机构，进一步属于机构信息，最后细化为属于机构的基本信息。

确定数据分类模型的输出结果，数据分类模型所输出的结果包括从多个层级上预测的分类结果，可以直接将得到的多个分类结果确定待分类字段数据对应的层级分类；也可以对得到的分类结果进行判断，确定得到的结果是否准确，若准确，可以直接作为最终的层级分类，若不准确，可以对得到的分类结果进行再次处理，得到最终的层级分类，或者重新对待分类字段数据进行层级分类，得到最终的层级分类。

本发明实施例提供了一种数据分类分级方法，解决了数据分类过程中耗时长以及准确率低的问题，将待分类字段数据及其对应的关联数据在多个层次上进行向量化，得到多层次向量化后的拼接向量，对数据的描述更加准确，将数据向量输入到数据分类模型中进行分类预测，进而根据数据分类模型的输出结果确定待分类字段数据的层级分类，层级分类的数量为预设数量，各层级分类之间具有层级对应关系，本申请实施例提供的数据分类分级方法可以实现对字段数据的多层级分类，从多个层级准确对字段数据进行分类，根据样本的语义信息训练数据分类模型，得到的数据分类模型可以结合数据的语义信息进行分类，因此分类准确度更高；自动对数据进行分类，无需人工参与，分类速度较快，且极大地节省了人力资源。

实施例二

图2为本发明实施例二提供的一种数据分类分级方法的流程图，本实施例在上述实施例的基础上进行细化。如图2所示，该方法包括：

S201、获取待分类字段数据，以及待分类字段数据对应的关联数据，关联数据至少包括如下一种：数据表名和数据系统名称。

S202、将待分类字段数据输入到预训练的文本向量化模型中进行向量化，得到字段向量。

在本实施例中，字段向量具体可以理解为对字段数据进行向量化后得到的向量。文本向量化模型具体可以理解为对文本数据进行向量化的模型，可以将文本数据转换为向量数据，方便计算机识别并处理。

预先训练文本向量化模型，将待分类字段数据输入到预先训练好的文本向量化模型中，文本向量化模型根据模型参数对待分类字段数据进行向量化，将待分类字段数据，得到字段向量。

可选的，文本向量化模型基于行业词表和基准模型训练得到。

行业词表中包括行业的专有词汇，基准模型可以理解为预先训练的模型，此模型可用于迁移学习，示例性的，基准模型可以是BERT模型。通过行业词表对基准模型再次进行训练，得到可以识别行业的专有词汇的文本向量化模型。

本申请实施例，基于行业词表对基准模型进行训练，可以学习行业的新词和领域知识，进而在向量化时有效识别行业专有词汇，相比于直接使用基准模型，准确度更高。

作为本实施例的一个可选实施例，本可选实施例进一步对行业词表的形成步骤进行优化，包括：获取数据系统中的至少一个数据表的元数据；基于各元数据提取行业专有名词和行业专有动词，形成行业词表。

在本实施例中，数据系统可以理解为存储数据的系统，数据系统可以是任意行业中进行数据管理的系统，例如产品信息管理系统，合作方信息管理系统，等。行业专有名词可以是金融行业、房地产行业、物流行业、建筑行业等，以金融行业为例，行业专有名词可以是金融行业中的一些简称、缩写、机构名、产品名等，行业专有动词可以是带看，等。

获取数据系统中的一个或者多个数据表对应的元数据，对得到的元数据进行名词和动词提取，提取行业专有名词和行业专有动词；本申请实施例在进行词汇提取时，可以由计算机自动进行提取，例如，根据现有的词汇表进行提取，由于需提取行业专有名词和行业专有动词，因此自动提取的词汇可能会出现错误的情况，可以人工对提取到的词汇进行复核，确定是否正确，并对错误的词汇进行纠正；或者，也可以直接人工进行行业专有名词和行业专有动词进行提取；基于提取到的行业专有名词和行业专有动词形成行业词表。

S203、将待分类字段数据和关联数据输入到文本向量化模型中进行向量化，得到关联向量。

在本实施例中，关联向量具体可以理解为基于关联数据进行向量化后得到的向量。将待分类字段数据和关联数据进行拼接，将拼接后的数据输入到文本向量化模型中，文本向量化模型基于模型参数对拼接后的数据进行向量化，得到关联向量。

由于关联数据在一定程度上可以反映待分类字段数据的相关信息，因此将待分类字段数据和关联数据进行拼接然后进行向量化，可以在一定程度上增加数据的语义信息，由于待分类字段数据对于分类结果的影响更大，本申请实施例提供的向量化方法，对待分类字段数据进行多次向量化，可以有效提高分类结果的准确性。

作为本实施例的一个可选实施例，本可选实施例进一步对将待分类字段数据和关联数据输入到文本向量化模型中进行向量化，得到关联向量，优化为：

A1、当关联数据为数据表名时，将待分类字段数据和数据表名进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，将得到的向量作为关联向量。

当关联数据中只有数据表名时，将待分类字段数据和数据表名进行拼接，拼接方式可以直接将两个数据通过符号或者直接以前后顺序进行拼接，例如，拼接后的数据为：待分类字段数据-数据表名，将拼接后的数据输入到文本向量化模型中，文本向量化模型根据模型参数对拼接后的数据进行向量化，得到的向量即为关联向量。

A2、当关联数据为数据系统名称时，将待分类字段数据和数据系统名称进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，将得到的向量作为关联向量。

当关联数据中只有数据系统名称时，将待分类字段数据和数据系统名称进行拼接，拼接方式可以与上述的拼接方式相同，示例性的，拼接后的数据为：待分类字段数据-数据系统名称。将拼接后的数据输入到文本向量化模型中，文本向量化模型根据模型参数对拼接后的数据进行向量化，得到的向量即为关联向量。

A3、当关联数据包括数据表名和数据系统名称时，将待分类字段数据和数据表名进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，得到第一向量；将待分类字段数据、数据表名和数据系统名称进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，得到第二向量，将第一向量和第二向量拼接得到关联向量。

在本实施例中，第一向量具体可以理解为数据在进行向量化后的向量，第一向量根据待分类字段数据和数据表名向量化得到；第二向量具体可以理解为数据在进行向量化后的向量，第二向量根据待分类字段数据、数据表名和数据系统名称向量化得到。

将待分类字段数据和数据表名进行拼接，拼接方式可以与上述的拼接方式相同，将拼接后的数据输入到文本向量化模型中，文本向量化模型根据模型参数对拼接后的数据进行向量化，得到第一向量。将待分类字段数据、数据表名和数据系统名称进行拼接，拼接方式可以与上述的拼接方式相同，示例性的，拼接后的数据为：待分类字段数据-数据表名-数据系统名称。将拼接后的数据输入到文本向量化模型中，文本向量化模型根据模型参数对拼接后的数据进行向量化，得到第二向量。将第一向量和第二向量进行拼接，得到的向量即为关联向量。

在本实施例中，在关联数据中包括数据表名和数据系统名称时，由于数据表名与待分类字段数据的关系更紧密，对分类结果的影响更大，因此，在向量化时对数据表名进行两次向量化。

S204、将字段向量和关联向量进行拼接，得到数据向量。

将字段向量和关联向量进行拼接的方式可以是按照先后顺序进行拼接。

本申请实施例提供的向量化方法可以针对字段数据进行特殊的向量化，当关联数据中包括数据表名和数据系统名称时，可以看出一共进行了三次向量化，分别是：对待分类字段数据进行向量化、对待分类字段数据和数据表名进行拼接然后向量化、对待分类字段数据、数据表名和数据系统名称进行拼接，然后向量化。对分类结果影响越大，向量化次数越多，待分类字段数据向量化三次，数据表名向量化两次，数据系统名称向量化一次，向量化过程层层递进，可以得到更准确的语义信息，以便后续进行分类。

S205、将数据向量输入到预确定的数据分类模型中，数据分类模型根据样本的语义信息进行训练。

作为本实施例的一个可选实施例，本可选实施例进一步对数据分类模型的确定步骤进行优化，包括：

B1、获取包含至少一个训练样本的训练样本集，训练样本包括待训练向量数据以及待训练向量数据对应的文本数据及至少预设数量的标准分类结果，各标准分类结果具有层级对应关系，待训练向量数据包括语义信息。

在本实施例中，训练样本集具体可以理解为存储训练样本的数据集；待训练向量数据具体可以理解为用于对模型进行训练的向量数据；文本数据具体可以理解为通过文本对向量数据进行描述的数据；标准分类结果具体可以理解为待训练向量数据的真实分类结果，需预先进行标注。待训练向量数据为多层次拼接后得到的包括语义信息的向量数据。

预先对数据进行标注，形成训练样本，将大量的训练样本保存到数据集中，形成训练样本集。训练样本集可以先保存在相应的存储空间中，在进行模型训练时，根据存储地址从相应的存储空间中读取训练样本集。

B2、基于训练样本集对待训练分类模型进行训练，得到数据分类模型。

在本实施例中，待训练分类模型具体可以理解为未进行训练的、初始的网络模型。基于训练样本集中的各训练样本对待训练分类模型进行训练，得到满足要求的数据分类模型。示例性的，待训练分类模型依次对训练样本中的待训练向量数据进行分类预测，确定其对应的分类结果，然后结合标准分类结果计算损失函数，并进行反向传播，直到满足收敛要求得到数据分类模型。还可以设置验证样本集，通过验证样本集对得到的数据分类模型进行准确度验证，在准确度符合要求时结束模型的训练；若准确度不符合要求，可以增加训练样本继续训练，直到得到准确度满足要求的数据分类模型。

作为本实施例的一个可选实施例，本可选实施例进一步训练样本集的形成步骤进行优化，包括：

C1、获取至少一个训练样本。

C2、根据各训练样本的分类结果统计各分类结果对应的类型数量。

本申请实施例中，类型数量具体可以理解为每种分类类型的总数量，每种类型的训练样本的数量可以是相同的，也可以是不同的。在完成对训练样本的标注后，获取所有训练样本，根据每个训练样本的分类结果进行统计，确定每种分类结果的训练样本的总数量，即类型数量。

C3、若各类型数量的差值大于预设阈值，则确定待扩充样本。

在本实施例中，预设阈值可以预先根据需求进行设置；待扩充样本具体可以理解为需要进行扩充的训练样本。

计算每种分类类型的类型数量的差值，比较各类型数量的差值是否大于预设阈值，若是，则可以确定样本数量不平衡，将类型数量较小的分类类型对应的训练样本作为待扩充样本。否则，可以确定样本数量平衡，无需进行样本扩充，可以直接基于各训练样本形成训练样本集。由于本申请实施例实在计算各类型数量的差值时，采用不同的类型数量可以计算不同的差值，本实施例可以计算所有类型数量之间的差值，对于所有差值大于预设阈值的分类结果均进行扩充，扩充后的样本数量可以根据样本数量较多的分类结果确定。在本申请实施例中，可以先确定每种分类结果对应的扩充后的样本数量，再进行扩充，保证所有类型的训练样本的数量均衡。

C4、对待扩充样本进行同义词替换处理和/或无意义噪声词注入处理，基于处理后得到的训练样本形成训练样本集。

对于每个待扩充样本可以进行同义词替换处理、无意义噪声词注入处理，或者同时进行同义词替换处理和无意义噪声词注入处理。其中，同义词替换可以是从待扩充样本中选择一个词进行同义词替换，可以使用自然语言处理工具来检测并替换其中的词语，用其同义词创建新的训练样本，例如“公司地址”替换成“公司经纬度”，“e-mail”替换成“电子邮箱”。无意义噪声词注入处理可以是在待扩充样本首尾插入不影响上下文的无意义噪声词，形成新的训练样本，例如，假设有一个字段叫做“用户年龄”，可以在其首尾插入一些不影响理解的噪声词，生成新的字段名称，如“目标用户年龄”，“用户年龄信息”，“记录的用户年龄”等；又或者，对于“购买记录”这个字段，可以生成“客户购买记录”，“详细购买记录”，“购买记录数据”等。对于同一个待扩充样本，可以基于此待扩充样本进行扩充，得到一个或者多个扩充后的训练样本，对于同一种分类结果，可以选择一个或者多个训练样本作为待扩充样本，可以根据需要扩充的样本数量确定。

需要知道的是，本申请实施例为了解决样本不平衡的问题，还可以选择样本进行欠采样处理，在各类型数量的差值大于预设阈值时，确定需要进行欠采样处理的分类类型，将此分类类型对应的训练样本进行欠采样处理，基于处理后的训练样本形成训练样本集。

S206、根据数据分类模型的输出结果确定待分类字段数据对应的预设数量的预测分类和置信度。

在本申请实施例中，预测分类具体可以理解为由数据分类模型对字段数据的分类进行预测，得到的分类结果。数据分类模型在对待分类字段数据进行分类时，同时计算分类的置信度。将待分类字段数据输入到数据分类模型中，数据分类模型对待分类字段数据进行分类预测，同时计算置信度，得到预测分类和置信度作为模型的输出结果进行输出，即可得到待分类字段数据对应的预设数量的预测分类，以及置信度。

S207、判断置信度是否大于置信度阈值，若是，执行S208；否则，执行S209。

在本实施例中，置信度阈值具体可以理解为用于判断置信度是否满足要求的阈值，置信度阈值的大小可以根据对分类结果的准确度的要求设置，对准确度的要求越高，置信度阈值设置的越大，反之，设置的越小。比较置信度和置信度阈值的大小关系，若置信度大于置信度阈值，执行S208；若置信度不大于置信度阈值，则执行S209。

S208、将预测分类确定为待分类字段数据的层级分类。

当置信度大于置信度阈值时，此时模型所预测的分类结果可信，直接将各不同层级的预测分类作为待分类字段数据的层级分类。

S209、基于零样本分类模型对待分类字段数据进行分类，确定待分类字段数据所对应的预设数量的层级分类。

当置信度不大于置信度阈值时，此时模型所预测的分类结果不可信，此次基于预先训练好的零样本分类模型对待分类字段数据进行分类，将待分类字段数据输入到零样本分类模型中，同时还可以输入分类的类型标签，或者在零样本分类模型中保存类型标签，通过零样本分类模型确定待分类字段数据所对应的类型标签，得到的类型标签即为待分类字段数据的层级分类，依次确定不同层级的类型标签，即可以得到预设数量的层级分类。在置信度不大于置信度阈值时，基于零样本分类模型重新进行分类可以提高分类准确性，可应用于个别类的训练样本极少的情况，有助于提升模型泛化能力。

作为本实施例的一个可选实施例，本可选实施例进一步将基于零样本分类模型对待分类字段数据进行分类，确定待分类字段数据所对应的预设数量的层级分类，优化为：

D1、确定分类标签集合，分类标签集合中包括不同级别的分类标签，每个级别的分类标签的数量为至少一个。

在本实施例中，分类标签集合具体可以理解为保存不同的分类标签的数据集，分类标签具体可以理解为不同的分类类型的标签，例如，机构、机构信息等。分类标签集合中的分类标签包括不同级别的分类标签，例如，第一级、第二级…，每个级别可以有一种或者多种分类标签，通常情况下每个级别有多种分类标签。对于每个级别来说，此级别至少有上一级别和下一级别中的一种，即，一个级别可以仅有上一级别(即此级别为最细化的级别)，可以仅有下一级别(即此级别为第一个级别)，也可以既有上一级别又有下一级别。

D2、从分类标签集合中选择第一级别的各分类标签作为当前分类标签，并将第一级别作为当前级别。

在本实施例中，当前分类标签具体可以理解为当前用于对待分类字段数据进行分类的分类标签；当前级别具体可以理解为当前进行分类的级别。

预先对分类标签进行级别划分，确定每个分类标签所属的级别，以及不同级别分类标签之间的关系，例如，第一级别的分类标签包括n1、n2、n3…，分类标签n1所对应的第二级别的分类标签包括n11，n12…，分类标签n2所对应的第二级别的分类标签包括n21，n22…，第二级别的分类标签n11对应的分类标签包括n111，n112，n113…，等等。从分类标签集合中筛选出第一级别的各分类标签，将此部分分类标签作为当前分类标签，并将第一级别作为当前级别。

D3、将各当前分类标签和待分类字段数据输入至零样本分类模型，得到当前级别的层级分类。

将各当前分类标签和待分类字段数据输入至零样本分类模型，零样本分类模型通过计算各当前分类标签与待分类字段数据的相似度，选择相似度最高的当前分类标签作为层级分类输出，得到当前级别的层级分类。

D4、从分类标签集合中选择当前级别的层级分类所对应的下一个级别的各分类标签作为新的当前分类标签，将当前级别的下一个级别作为新的当前级别，返回执行D3的步骤，直到当前级别不存在下一个级别。

确定当前级别的下一个级别，从分类标签集合中筛选出当前级别的层级分类所对应的下一个级别的各分类标签，将此部分分类标签作为新的当前分类标签。示例性的，当前级别为第一级别时，下一个级别即为第二级别，当前级别的层级分类为n2，其对应的下一级别的各分类标签为n21，n22…。重复执行D3步骤，即将各新的当前分类标签和待分类字段数据输入至零样本分类模型，得到当前级别的层级分类，完成待分类字段数据在另一个级别的分类，直到当前级别不存在下一个级别，此时可以确定已经从所有级别上均对待分类字段数据进行了分类，执行D5步骤。

D5、将得到的各级别的层级分类作为待分类字段数据所对应的层级分类。

经过上述步骤可以得到各不同级别的层级分类，将各级别的层级分类直接作为待分类字段数据所对应的层级分类，得到待分类字段数据在不同层级上的层级分类。

示例性的，图3提供了一种数据分类的实现示例图，将待分类字段数据31输入到文本向量化模型32中，文本向量化模型32为Fine-tunning BERT。将文本向量化模型32向量化后得到的数据向量输入到数据分类模型33中，数据分类模型33为通过训练样本进行模型训练得到的模型，数据分类模型33包括注意力机制+文本分类模型。通过数据分类模型33对数据向量进行分类预测，得到预测分类34和置信度35，若置信度35大于置信度阈值，则预测分类34直接作为层级分类36；若置信度35不大于置信度阈值，通过零样本分类模型37对待分类字段数据和分类标签集合38中的分类标签进行相似度计算，实现对对待分类字段数据31的分类，得到层级分类36。

本发明实施例提供了一种数据分类分级方法，解决了数据分类过程中耗时长以及准确率低的问题，为适配元数据分类场景，根据字段数据的特性，针对性设计了数据向量的构造方式，将待分类字段数据在多个层次上进行向量化，得到数据向量，文本向量化模型可以自动学习适合分类的特征向量，减轻了特征选择的负担，提高后分类性能；预先根据语义信息训练数据分类模型，提高分类预测的准确性和泛化能力，并在数据分类模型训练过程中，在各类型的样本数据数量差值较大时，确定待扩充样本，对待扩充样本进行同义词替换处理和/或无意义噪声词注入处理，实现样本扩充，解决训练过程中样本不平衡的问题，提高模型在少数类别上的表现；将数据向量输入到数据分类模型中得到待分类字段数据的层级分类和置信度，在置信度低于置信度阈值时，基于零样本分类模型对不确定的待分类字段数据重新进行分类，通过不同级别的分类标签进行逐层的语义相似度匹配确定层级分类，提高分类准确性。本申请实施例提供的数据分类分级方法可以实现对字段数据的多层级分类，从多个层级准确对字段数据进行分类。

实施例三

图4为本发明实施例三提供的一种数据分类分级装置的结构示意图。如图4所示，该装置包括：数据获取模块41、向量化模块42、数据输入模块43和分类模块44。

其中，数据获取模块41，用于获取待分类字段数据，以及待分类字段数据对应的关联数据，所述关联数据至少包括如下一种：数据表名和数据系统名称；

向量化模块42，用于对所述待分类字段数据和关联数据进行向量化，得到数据向量，所述数据向量为多层次向量化后得到的拼接向量；

数据输入模块43，用于将所述数据向量输入到预确定的数据分类模型中，所述数据分类模型根据样本的语义信息进行训练；

分类模块44，用于根据所述数据分类模型的输出结果确定所述待分类字段数据所对应的预设数量的层级分类，各所述层级分类具有层级对应关系。

本发明实施例提供了一种数据分类分级装置，解决了数据分类过程中耗时长以及准确率低的问题，将待分类字段数据及其对应的关联数据在多个层次上进行向量化，得到多层次向量化后的拼接向量，对数据的描述更加准确，将数据向量输入到数据分类模型中进行分类预测，进而根据数据分类模型的输出结果确定待分类字段数据的层级分类，层级分类的数量为预设数量，各层级分类之间具有层级对应关系，本申请实施例提供的数据分类分级方法可以实现对字段数据的多层级分类，从多个层级准确对字段数据进行分类，根据样本的语义信息训练数据分类模型，得到的数据分类模型可以结合数据的语义信息进行分类，因此分类准确度更高；自动对数据进行分类，无需人工参与，分类速度较快，且极大地节省了人力资源。

可选的，向量化模块42包括：

字段向量确定单元，用于将所述待分类字段数据输入到预训练的文本向量化模型中进行向量化，得到字段向量；

关联向量确定单元，用于将所述待分类字段数据和关联数据输入到所述文本向量化模型中进行向量化，得到关联向量；

数据向量确定单元，用于将所述字段向量和关联向量进行拼接，得到数据向量；

其中，所述文本向量化模型基于行业词表和基准模型训练得到。

可选的，关联向量确定单元，包括：

第一关联向量确定子单元，用于当所述关联数据为数据表名时，将所述待分类字段数据和数据表名进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，将得到的向量作为关联向量；

第二关联向量确定子单元，用于当所述关联数据为数据系统名称时，将所述待分类字段数据和数据系统名称进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，将得到的向量作为关联向量；

第三关联向量确定子单元，用于当所述关联数据包括数据表名和数据系统名称时，将所述待分类字段数据和数据表名进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，得到第一向量；将所述待分类字段数据、数据表名和数据系统名称进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，得到第二向量，将所述第一向量和第二向量拼接得到关联向量。

可选的，该装置还包括：

元数据获取模块，用于获取数据系统中的至少一个数据表的元数据；

行业词表形成模块，用于基于各所述元数据提取行业专有名词和行业专有动词，形成行业词表。

可选的，该装置还包括：

训练样本集获取模块，用于获取包含至少一个训练样本的训练样本集，所述训练样本包括待训练向量数据以及所述待训练向量数据对应的文本数据及至少预设数量的标准分类结果，各所述标准分类结果具有层级对应关系，所述待训练向量数据包括语义信息；

模型训练模块，用于基于所述训练样本集对待训练分类模型进行训练，得到数据分类模型。

可选的，该装置还包括：

样本获取模块，用于获取至少一个训练样本；

数量统计模块，用于根据各所述训练样本的分类结果统计各分类结果对应的类型数量；

待扩充样本确定模块，用于若各所述类型数量的差值大于预设阈值，则确定待扩充样本；

样本集形成模块，用于对所述待扩充样本进行同义词替换处理和/或无意义噪声词注入处理，基于处理后得到的训练样本形成训练样本集。

可选的，分类模块44，包括：

置信度确定单元，用于根据所述数据分类模型的输出结果确定待分类字段数据对应的预设数量的预测分类和置信度；

分类单元，用于判断所述置信度是否大于置信度阈值，若是，则将所述预测分类确定为所述待分类字段数据的层级分类；否则，基于零样本分类模型对所述待分类字段数据进行分类，确定所述待分类字段数据所对应的预设数量的层级分类。

可选的，分类单元，具体用于：确定分类标签集合，所述分类标签集合中包括不同级别的分类标签，每个级别的分类标签的数量为至少一个；从所述分类标签集合中选择第一级别的各分类标签作为当前分类标签，并将所述第一级别作为当前级别；将各所述当前分类标签和所述待分类字段数据输入至零样本分类模型，得到当前级别的层级分类；从所述分类标签集合中选择当前级别的层级分类所对应的下一个级别的各分类标签作为新的当前分类标签，将当前级别的下一个级别作为新的当前级别，返回执行将各所述当前分类标签和所述待分类字段数据输入至零样本分类模型，得到当前级别的层级分类的步骤，直到当前级别不存在下一个级别；将得到的各级别的层级分类作为所述待分类字段数据所对应的层级分类。

本发明实施例所提供的数据分类分级装置可执行本发明任意实施例所提供的数据分类分级方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5示出了可以用来实施本发明的实施例的电子设备50的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备50包括至少一个处理器51，以及与至少一个处理器51通信连接的存储器，如只读存储器(ROM)52、随机访问存储器(RAM)53等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序，来执行各种适当的动作和处理。在RAM 53中，还可存储电子设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。

电子设备50中的多个部件连接至I/O接口55，包括：输入单元56，例如键盘、鼠标等；输出单元57，例如各种类型的显示器、扬声器等；存储单元58，例如磁盘、光盘等；以及通信单元59，例如网卡、调制解调器、无线通信收发机等。通信单元59允许电子设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理，例如数据分类分级方法。

在一些实施例中，数据分类分级方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元58。在一些实施例中，计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到电子设备50上。当计算机程序加载到RAM 53并由处理器51执行时，可以执行上文描述的数据分类分级方法的一个或多个步骤。备选地，在其他实施例中，处理器51可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据分类分级方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据分类分级方法，其特征在于，包括：

根据所述数据分类模型的输出结果确定所述待分类字段数据所对应的预设数量的层级分类，各所述层级分类具有层级对应关系，各所述层级分类为从不同层级上进行分类所得到的分类结果，各所述层级分类在层级上具有上下对应关系；

所述对所述待分类字段数据和关联数据进行向量化，得到数据向量，包括：

将所述待分类字段数据输入到预训练的文本向量化模型中进行向量化，得到字段向量；

将所述待分类字段数据和关联数据输入到所述文本向量化模型中进行向量化，得到关联向量；

将所述字段向量和关联向量进行拼接，得到数据向量；

所述将所述待分类字段数据和关联数据输入到文本向量化模型中进行向量化，得到关联向量，包括：

当所述关联数据为数据表名时，将所述待分类字段数据和数据表名进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，将得到的向量作为关联向量；

当所述关联数据为数据系统名称时，将所述待分类字段数据和数据系统名称进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，将得到的向量作为关联向量；

当所述关联数据包括数据表名和数据系统名称时，将所述待分类字段数据和数据表名进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，得到第一向量；将所述待分类字段数据、数据表名和数据系统名称进行拼接，并将拼接后的数据输入到文本向量化模型中进行向量化，得到第二向量，将所述第一向量和第二向量拼接得到关联向量。

2.根据权利要求1所述的方法，其特征在于，

所述文本向量化模型基于行业词表和基准模型训练得到。

3.根据权利要求2所述的方法，其特征在于，所述行业词表的形成步骤包括：

获取数据系统中的至少一个数据表的元数据；

基于各所述元数据提取行业专有名词和行业专有动词，形成行业词表。

4.根据权利要求1所述的方法，其特征在于，所述数据分类模型的确定步骤，包括：

获取包含至少一个训练样本的训练样本集，所述训练样本包括待训练向量数据以及所述待训练向量数据对应的文本数据及至少预设数量的标准分类结果，各所述标准分类结果具有层级对应关系，所述待训练向量数据包括语义信息；

基于所述训练样本集对待训练分类模型进行训练，得到数据分类模型。

5.根据权利要求4所述的方法，其特征在于，所述训练样本集的形成步骤包括：

获取至少一个训练样本；

根据各所述训练样本的分类结果统计各分类结果对应的类型数量；

若各所述类型数量的差值大于预设阈值，则确定待扩充样本；

对所述待扩充样本进行同义词替换处理和/或无意义噪声词注入处理，基于处理后得到的训练样本形成训练样本集。

6.根据权利要求1所述的方法，其特征在于，所述根据所述数据分类模型的输出结果确定所述待分类字段数据所对应的预设数量的层级分类，包括：

根据所述数据分类模型的输出结果确定待分类字段数据对应的预设数量的预测分类和置信度；

判断所述置信度是否大于置信度阈值，若是，则将所述预测分类确定为所述待分类字段数据的层级分类；

否则，基于零样本分类模型对所述待分类字段数据进行分类，确定所述待分类字段数据所对应的预设数量的层级分类。

7.根据权利要求6所述的方法，其特征在于，所述基于零样本分类模型对所述待分类字段数据进行分类，确定所述待分类字段数据所对应的预设数量的层级分类，包括：

确定分类标签集合，所述分类标签集合中包括不同级别的分类标签，每个级别的分类标签的数量为至少一个；

从所述分类标签集合中选择第一级别的各分类标签作为当前分类标签，并将所述第一级别作为当前级别；

将各所述当前分类标签和所述待分类字段数据输入至零样本分类模型，得到当前级别的层级分类；

从所述分类标签集合中选择当前级别的层级分类所对应的下一个级别的各分类标签作为新的当前分类标签，将当前级别的下一个级别作为新的当前级别，返回执行将各所述当前分类标签和所述待分类字段数据输入至零样本分类模型，得到当前级别的层级分类的步骤，直到当前级别不存在下一个级别；

将得到的各级别的层级分类作为所述待分类字段数据所对应的层级分类。

8.一种数据分类分级装置，其特征在于，包括：

分类模块，用于根据所述数据分类模型的输出结果确定所述待分类字段数据所对应的预设数量的层级分类，各所述层级分类具有层级对应关系，其中，各所述层级分类为从不同层级上进行分类所得到的分类结果，各所述层级分类在层级上具有上下对应关系；

所述向量化模块包括：

所述关联向量确定单元，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据分类分级方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据分类分级方法。