CN116894112A

CN116894112A - 数据分类方法、装置、计算机设备及其存储介质

Info

Publication number: CN116894112A
Application number: CN202310835779.8A
Authority: CN
Inventors: 田毓嘉; 王铮; 汪少敏; 杨迪; 马兆铭
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-17

Abstract

本申请涉及一种数据分类方法、装置、计算机设备及其存储介质，涉及人工智能技术领域，所述方法包括：获取待识别数据，待识别数据中包含至少一个子数据；通过数据分类模型，确定待识别数据中各子数据对应的预测结构名；基于各子数据对应的预测结构名，确定待识别数据的分类结果。本申请避免当同类数据用不同的结构名进行表示时，对待识别数据的分类结果造成影响，提高了对待识别数据进行分类识别过程的抗干扰能力，保证了确定待识别数据的分类结果的准确性。

Description

数据分类方法、装置、计算机设备及其存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数据分类方法、装置、计算机设备及其存储介质。

背景技术

随着社会经济的不断发展，很多企业的规模与产量均大幅度增加，相应的，企业生产与经营过程中产生的数据也越来越多；通常情况下，数据会以表格的形式进行储存，并且，工作人员可通过对表格数据进行字段识别，从而确定表格数据所属的类别。

但是，当同类数据用不同的结构名进行表示时(例如“id_number”、“身份证号”、“身份证”)，可能会导致无法准确识别表格数据所属类别的情况发生。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确识别表格数据所属类别的数据分类方法、装置、计算机设备及其存储介质。

第一方面，本申请提供了一种数据分类方法。该方法包括：

获取待识别数据，待识别数据中包含至少一个子数据；

通过数据分类模型，确定待识别数据中各子数据对应的预测结构名；

基于各子数据对应的预测结构名，确定待识别数据的分类结果。

在其中一个实施例中，通过数据分类模型，确定待识别数据中各子数据对应的预测结构名，包括：

基于数据分类模型中的文本特征编码器，对待识别数据中各子数据进行特征编码，确定各子数据的数据特征；

基于数据分类模型中的结构预测网络，根据各子数据的数据特征，对待识别数据中各子数据进行结构名预测，得到待识别数据中各子数据对应的预测结构名。

在其中一个实施例中，基于数据分类模型中的结构预测网络，根据各子数据的数据特征，对待识别数据中各子数据进行结构名预测，得到待识别数据中各子数据对应的预测结构名，包括：

基于数据分类模型中的结构预测网络，确定各子数据的数据特征与至少两个支撑数据的数据特征之间的特征相似度，并基于特征相似度和各支撑数据的目标结构名，确定待识别数据中各子数据对应的预测结构名。

在其中一个实施例中，

数据分类模型的训练过程，包括：

获取待识别数据所属业务领域的至少两个支撑数据；

基于初始分类模型中的文本特征编码器，对各支撑数据进行特征编码得到各支撑数据的数据特征；

通过初始分类模型中的结构预测网络，计算两两支撑数据的数据特征之间的特征相似度；

根据两两支撑数据的数据特征之间的特征相似度、各支撑数据的目标结构名，对初始分类模型进行训练，得到数据分类模型。

在其中一个实施例中，根据两两支撑数据的数据特征之间的特征相似度、各支撑数据的目标结构名，对初始分类模型进行训练，得到数据分类模型，包括：

根据两两支撑数据的数据特征之间的特征相似度，确定各支撑数据属于各候选结构名的概率；

根据各支撑数据属于各候选结构名的概率，以及各支撑数据的目标结构名，各支撑数据的总数量，确定监督损失；

基于监督损失，对初始分类模型进行训练，得到数据分类模型。

在其中一个实施例中，基于各子数据对应的预测结构名，确定待识别数据的分类结果，包括：

基于各子数据对应的预测结构名，以及结构名与分类结果之间的对应关系，对待识别数据进行类别匹配，确定待识别数据的分类结果。

在其中一个实施例中，当待识别数据为表格数据时，子数据为表格数据中的一行数据或一列数据。

第二方面，本申请还提供了一种数据分类装置。该装置包括：

获取待识别数据，待识别数据中包含至少一个子数据；

第三方面，本申请还提供了一种计算机设备。计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取待识别数据，待识别数据中包含至少一个子数据；

第四方面，本申请还提供了一种计算机可读存储介质。计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别数据，待识别数据中包含至少一个子数据；

第五方面，本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待识别数据，待识别数据中包含至少一个子数据；

上述数据分类方法、装置、计算机设备及其存储介质，通过数据分类模型，确定待识别数据中各子数据对应的预测结构名，进而，根据待识别数据中各子数据对应的预测结构名，确定待识别数据的分类结果。由于上述过程中的待识别数据的分类结果是根据数据分类模型对待识别数据中的每个子数据预测的预测结构名确定的，因此，通过在确定待识别数据的分类结果之前，先对待识别数据中各子数据进行结构名预测，使得后续能够根据待识别数据中各子数据的预测结构名，将同类数据的结构名进行统一处理，防止出现同类数据用不同结构名表示的情况，进而，避免了当同类数据用不同的结构名表示时，对待识别数据的分类结果造成影响，提高了对待识别数据进行分类识别过程的抗干扰能力，保证了确定待识别数据的分类结果的准确性。

附图说明

图1为本申请实施例提供的一种数据分类方法的应用环境图；

图2为本申请实施例提供的一种数据分类方法的流程图；

图3为本申请实施例提供的一种确定各子数据对应的预测结构名的步骤流程图；

图4为本申请实施例提供的一种确定子数据对应的预测结构名的示意图；

图5为本申请实施例提供的一种对数据分类模型进行训练的步骤流程图；

图6为本申请实施例提供的另一种数据分类方法的流程图；

图7为本申请实施例提供的另一种确定子数据对应的预测结构名的示意图；

图8为本申请实施例提供的又一种确定子数据对应的预测结构名的示意图；

图9为本申请实施例提供的另一种对数据分类模型进行训练的步骤流程图；

图10为本申请实施例提供的第一种数据分类装置的结构框图；

图11为本申请实施例提供的第二种数据分类装置的结构框图；

图12为本申请实施例提供的第三种数据分类装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。在本申请的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

基于上述情况，本申请实施例提供的数据分类方法，可以应用于如图1所示的应用环境中。在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据分类方法的获取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分类方法。

本申请公开了一种数据分类方法、装置、计算机设备及其存储介质，计算机设备根据数据分类模型，确定待识别数据中各子数据对应的预测结构名，进而，根据待识别数据中各子数据对应的预测结构名，确定待识别数据的分类结果。

在一个实施例中，如图2所示，图2为本申请实施例提供的一种数据分类方法的流程图，提供了一种数据分类方法，图1中的计算机设备执行的数据分类方法可以包括以下步骤：

步骤201，获取待识别数据，待识别数据中包含至少一个子数据。

需要说明的是，当执行数据分类方法的计算机设备接收到数据分类指令时，可基于接收到的数据分类指令，获取待识别数据。

在本申请的一种实施例中，若数据分类指令中包括待识别数据；当执行数据分类方法的计算机设备接收到数据分类指令时，可从数据分类指令中获取需要进行数据分类的待识别数据。

在本申请的另一种实施例中，若数据分类指令中包含待识别数据的数据标识；当执行数据分类方法的计算机设备接收到数据分类指令后，基于数据分类指令中的数据标识进行数据查找，所查找到的数据标识对应的数据即为待识别数据。

在本申请的另一种实施例中，若数据分类指令中包含待识别数据的数据存储路径；当执行数据分类方法的计算机设备接收到数据分类指令后，基于数据分类指令中的数据存储路径定位到需要进行数据分类的待识别数据。

进一步说明，若数据分类指令中包含的内容为加密内容，因此，当执行数据分类方法的计算机设备接收到数据分类指令时，则基于与发送数据分类指令的客户端约定的解密方法，对加密的数据分类指令进行解密处理，若完成解密，则根据数据分类指令的内容，获取待识别数据；若无法完成解密，则向发送数据分类指令的客户端发送反馈信息，以使发送数据分类指令的客户端根据反馈信息再次向执行数据分类方法的计算机设备发送数据分类指令。

步骤202，通过数据分类模型，确定待识别数据中各子数据对应的预测结构名。

需要说明的是，数据分类模型可基于待识别数据中各子数据与至少两个支撑数据的相似度，以及各支撑数据的目标结构名，确定待识别数据中各子数据对应的预测结构名。

其中，支撑数据指的是与待分类数据属于相同业务领域，并且已知目标结构名的数据。

在本申请的一种实施例中，当需要确定待识别数据中各子数据对应的预测结构名时，可将待识别数据中各子数据与不同的支撑数据输入至数据分类模型，以使数据分类模型将待识别数据中各子数据与不同的支撑数据进行数据比较，并获取数据分类模型的输出结果，该输出结果即为待识别数据中每一子数据与各支撑数据的相似程度，其中，与某一子数据相似程度最大的支撑数据的目标结构名即为该子数据对应的预测结果名。

进一步说明，为保证数据分类模型确定待识别数据中各子数据对应的预测结构名的准确性，可预先对各子数据以及各支撑数据进行特征编码，确定各子数据的数据特征与各支撑数据的数据特征，数据分类模型可基于每一子数据的数据特征与各支撑数据的数据特征的相似度，以及各支撑数据的目标结构名，确定待识别数据中每一子数据对应的预测结构名。

在本申请的一种实施例中，当需要确定待识别数据中各子数据对应的预测结构名时，可预先对各子数据以及各支撑数据进行特征编码，确定每一子数据的数据特征与各支撑数据的数据特征，进而，将每一子数据的数据特征分别与各支撑数据的数据特征输入至数据分类模型，以使数据分类模型将每一子数据的数据特征分别与各支撑数据的数据特征进行数据比较，并获取数据分类模型的输出结果，该输出结果即为每一子数据的数据特征与各支撑数据的数据特征的相似程度，进而，确定与子数据的数据特征相似程度最大的支撑数据的数据特征，该支撑数据的目标结构名即为该子数据对应的预测结果名。

步骤203，基于各子数据对应的预测结构名，确定待识别数据的分类结果。

需要说明的是，不同类别的待识别数据，对应包含的子数据的结构名也不相同，因此，可根据数据分类模型预测的待识别数据中各子数据的预测结构名，确定待识别数据的分类结果。

进一步说明，待识别数据的分类结果可以包括但不限于：类别分类结果和重要性分类结果；其中，类别分类结果用于表示待识别数据中内容的类别，例如，类别分类结果可以包括但不限于：用户话单数据、用户访问数据、用户浏览偏好数据等等。重要性分类结果用于表示该待识别数据的重要程度，例如，重要性分类结果可以包括但不限于：该待识别数据为重要数据、该待识别数据为普通数据等。

在本申请的一种实施例中，可预先规定结构名与分类结果之间的对应关系，进而，基于各子数据对应的预测结构名，以及结构名与分类结果之间的对应关系，对待识别数据进行类别匹配，确定待识别数据的分类结果。

其中，结构名与分类结果之间的对应关系中记录有不同的结构名分别对应的分类结果。并且，不同业务领域的结构名与分类结果之间的对应关系各不相同。

其中，结构名与分类结果之间的对应关系可基于工作人员的历史经验进行设定，在此不对结构名与分类结果之间的对应关系的内容进行限定。

上述数据分类方法，通过数据分类模型，确定待识别数据中各子数据对应的预测结构名，进而，根据待识别数据中各子数据对应的预测结构名，确定待识别数据的分类结果。由于上述过程中的待识别数据的分类结果是根据数据分类模型对待识别数据中的每个子数据预测的预测结构名确定的，因此，通过在确定待识别数据的分类结果之前，先对待识别数据中各子数据进行结构名预测，使得后续能够根据待识别数据中各子数据的预测结构名，将同类数据的结构名进行统一处理，防止出现同类数据用不同结构名表示的情况，进而，避免了当同类数据用不同的结构名进行表示时，对待识别数据的分类结果造成影响，提高了对待识别数据进行分类识别过程的抗干扰能力，保证了确定待识别数据的分类结果的准确性。

随着企业生产与经营过程中产生的数据也越来越多，为保证对数据进行有效的管理，需要对各数据进行字段识别，从而确定数据所属的类别，但是当同类数据用不同的结构名进行表示时，可能会导致无法准确识别数据所属类别的情况发生。因此，为了防止因上述问题导致无法准确识别数据所属类别情况的发生，本实施例的计算机设备可以通过如图3所示的方式，通过数据分类模型，确定待识别数据中各子数据对应的预测结构名，具体包括如下步骤：

步骤301，基于数据分类模型中的文本特征编码器，对待识别数据中各子数据进行特征编码，确定各子数据的数据特征。

需要说明的是，为保证后续对待识别数据中各子数据进行结构名预测的准确性，需要通过文本特征编码器对待识别数据中各子数据进行特征编码，具体的，可将待识别数据中各子数据分别输入至数据分类模型中的文本特征编码器中，并获取文本特征编码器的输出结果，该输出结果即为各子数据的数据特征。

在本申请的一种实施例中，当待识别数据为表格数据时，子数据为表格数据中的一行数据或一列数据。因此，当需要确定各子数据的数据特征时，可将表格数据中的每一行数据或每一列数据分别输入至数据分类模型中的文本特征编码器中，并获取文本特征编码器的输出结果，该输出结果即为每一行数据或每一列数据的数据特征。

在本申请的另一种实施例中，当待识别数据为文本数据时，子数据为文本数据中的一章节数据。因此，当需要确定各子数据的数据特征时，可将文本数据中的每一章节数据分别输入至数据分类模型中的文本特征编码器中，并获取文本特征编码器的输出结果，该输出结果即为每一章节数据的数据特征。

步骤302，基于数据分类模型中的结构预测网络，根据各子数据的数据特征，对待识别数据中各子数据进行结构名预测，得到待识别数据中各子数据对应的预测结构名。

需要说明的是，当需要预测待识别数据中各子数据对应的预测结构名时，具体可包括以下内容：基于数据分类模型中的结构预测网络，确定各子数据的数据特征与至少两个支撑数据的数据特征之间的特征相似度，并基于特征相似度和各支撑数据的目标结构名，确定待识别数据中各子数据对应的预测结构名。

在本申请的一种实施例中，当需要确定待识别数据中各子数据对应的预测结构名时，可根据结构预测网络，确定各子数据的数据特征与至少两个支撑数据的数据特征之间的特征相似度，并将各支撑数据的数据特征中与子数据的数据特征相似度最大的支撑数据作为与子数据具有相同结构名的支撑数据，进而，将该支撑数据的目标结构名，作为该子数据的预测结构名。

举例说明，若共包含三个支撑数据，三个支撑数据分别为支撑数据A，支撑数据B和支撑数据C，当需要确定子数据对应的预测结构名时，基于根据结构预测网络，确定子数据的数据特征与至少两个支撑数据的数据特征之间的特征相似度，其中，子数据与支撑数据A的特征相似度为百分之五十，子数据与支撑数据B的相似度为百分之七十，子数据与支撑数据C的相似度为百分之九十，因此，将与子数据的数据特征相似度最大的支撑数据C作为与子数据具有相同结构名的支撑数据，进而，将支撑数据C的目标结构名，作为该子数据的预测结构名。

在本申请的一种实施例中，如图4所示，当需要确定通过数据分类模型确定某一子数据对应的预测结构名时，可基于该子数据的数据特征和各支撑数据的数据特征构建图结构，其中，子数据的数据特征用M表示，支撑数据的数据特征用N表示，并将该子数据的数据特征和各支撑数据的数据特征作为图结构中的特征节点，其中，图结构中的每两个特征节点均相互连接，进而根据数据分类模型，确定子数据的预测结构名。具体的，若支撑数据的目标结构名分为两种，一种为结构名A，另一种为结构名B，根据数据分类模型，确定子数据的数据特征与结构名A的支撑数据的数据特征相似度较高，因此，该子数据对应的预测结构名即为结构名A。

上述数据分类方法，通过数据分类模型中的文本特征编码器，确定子数据的数据特征，并且，通过数据分类模型中的结构预测网络，实现基于子数据的数据特征确定子数据对应的预测结构名，使得预测结构名的确定能够结合子数据的数据特征，提高了子数据的结构名预测的准确性，为后续确定待识别数据的分类结果的准确性提供了保障。

在一个实施例中，可通过待识别数据所属业务领域的至少两个支撑数据，对数据分类模型进行训练，具体的如图5所示，该方法包括：

步骤501，获取待识别数据所属业务领域的至少两个支撑数据。

需要说明的是，当需要确定至少两个支撑数据时，可先确定待识别数据对应的业务领域，进而，对待识别数据对应的业务领域进行数据筛选，将筛选得到的数据作为至少两个支撑数据。

在本申请的一种实施例中，当确定待识别数据对应的业务领域后，判断用于储存数据的数据库中个是否包含该业务领域的标注有分类结果的相关数据，若存在，则将数据库中该业务领域的相关数据作为待识别数据所属业务领域的至少两个支撑数据。

在本申请的另一种实施例中，当确定待识别数据对应的业务领域后，判断执行数据分类方法的计算机设备的历史数据分类记录中，是否存在该业务领域的标注有分类结果的历史待识别数据，若存在，则将该历史待识别数据作为待识别数据所属业务领域的至少两个支撑数据。

进一步说明，若既无法根据数据库确定至少两个支撑数据，又无法根据历史数据分类记录确定至少两个支撑数据，则向工作人员的终端设备发送支撑数据获取申请，支撑数据获取申请中包含待识别数据对应的业务领域，以使工作人员基于待识别数据对应的业务领域，编辑与构建出待识别数据所属业务领域的至少两个支撑数据。

步骤502，基于初始分类模型中的文本特征编码器，对各支撑数据进行特征编码得到各支撑数据的数据特征。

需要说明的是，当需要确定各支撑数据的数据特征时，可将各支撑数据输入至文本特征编码器，并获取文本特征编码器的输出结果，该输出结果即为各支撑数据的数据特征。

步骤503，通过初始分类模型中的结构预测网络，计算两两支撑数据的数据特征之间的特征相似度。

其中，结构预测网络可计算两个支撑数据的数据特征的特征相似度。

需要说明的是，当需要确定两两支撑数据的数据特征之间的特征相似度时，可将每个支撑数据进行两两配对，保证配对后的各支撑数据中不存在未配对的支撑数据，将配对后的两个支撑数据的数据特征输入至结构预测网络，并获取结构预测网络的输出结果，该输出结果即为两个支撑数据的数据特征之间的特征相似度。

步骤504，根据两两支撑数据的数据特征之间的特征相似度、各支撑数据的目标结构名，对初始分类模型进行训练，得到数据分类模型。

需要说明的是，当需要对初始分类模型进行训练得到数据分类模型时，具体可包括以下内容：根据两两支撑数据的数据特征之间的特征相似度，确定各支撑数据属于各候选结构名的概率；根据各支撑数据属于各候选结构名的概率，以及各支撑数据的目标结构名，各支撑数据的总数量，确定监督损失；基于监督损失，对初始分类模型进行训练，得到数据分类模型。

在本申请的一种实施例中，可将支撑数据可包括查询样本和支撑样本，进一步的，支撑样本可表示为：

S＝{(x₁，l₁)，...，(x_i，l_i)，(x_N*K，l_N*K)} (1)

其中，x_i指的是支撑样本，l_i指的是支撑样本的目标结构名，N指的是支撑数据中共包含的结构名种类总数，K指的是每一种结构名中包含的样本数量。

查询样本可表示为：

其中，指的是支撑样本，/>指的是支撑样本的目标结构名，M指的是查询样本的样本数量。

通过文本特征编码器确定查询样本的数据特征与支撑样本的数据特征，其中，文本特征编码器确定查询样本的数据特征与支撑样本的数据特征的过程，可用f(·)表示，其中，f(·)可以由词向量Word2vector和多层感知机MLP串联组成，支撑样本的数据特征x_i用公式表示为：x_i＝f(x_i；θ)，其中θ表示f(·)的可训练参数。

确定两两支撑数据的数据特征之间的邻接矩阵A，其中，邻接矩阵A由标量值a_i,j构成，具体的，a_i,j可表示为：

其中，a_i,j为邻接矩阵A中第i行第j列的标量值，abs(·)为绝对值运算，为MLP中的可训练参数，i为邻接矩阵A中第i行，j为邻接矩阵A中第j列。

因此，邻接矩阵A的标签信息传播方式可表示为：

P＝softmax(A)L＝A′L (4)

其中，为邻接矩阵A的标签信息传播方式；/>为邻接矩阵A的行向量进行softmax计算结果；/>为图结构的节点标签矩阵，L中的每个行向量对应一个标签向量，若标签来自支撑样本，则标签向量为l_i对应的one-hot向量，若标签来自查询样本，则标签向量为l_i为一个全零向量。

进一步说明，用a′_i,j表示A′中第i行第j列的值，并且，a′_i,j可表示为：

需要说明的是，邻接矩阵A的标签信息传播方式P的行向量p_i即为各支撑数据属于各候选结构名的概率，因此，预测结构名可表示为

因此，根据各支撑数据属于各候选结构名的概率，以及各支撑数据的目标结构名，各支撑数据的总数量，确定监督损失，进而基于监督损失，对初始分类模型进行训练，得到数据分类模型。

需要说明是，该监督损失可表示为：

其中，V为各支撑数据的总数量，x_i指的是支撑样本，l_i指的是支撑样本的目标结构名，行向量p_i为各支撑数据属于各候选结构名的概率。

进一步说明，支撑数据可分为训练数据和测试数据，其中，训练数据中包括训练查询样本与训练支撑样本，测试数据中包含测试查询样本和测试支撑样本；其中，首先根据数据分类模型，对训练查询样本与训练支撑样本进行结构名预测，确定训练查询样本与训练支撑样本的结构名预测结果，并根据训练查询样本与训练支撑样本分别对应的目标结构名称，构建监督损失，并基于监督损失对初始分类模型进行训练，得到数据分类模型。随后，根据数据分类模型，对测试查询样本和测试支撑样本进行结构名预测，确定测试查询样本和测试支撑样本的结构名预测结果，并基于测试查询样本和测试支撑样本的结构名预测结果，确定测试查询样本的预测结构名，进而，根据测试查询样本的预测结构名，测试数据分类模型确定预测结构名的准确性。

上述数据分类方法，通过待识别数据所属业务领域的至少两个支撑数据对数据分类模型进行模型训练，保证后续可以通过数据分类模型，确定各子数据对应的预测结构名，为后续确定待识别数据的分类结果提供数据基础。

在一个实施例中，当需要确定待识别数据的分类结果时，如图6所示，该方法包括如下步骤：

步骤601，获取待识别数据，待识别数据中包含至少一个子数据。

步骤602，基于数据分类模型中的文本特征编码器，对待识别数据中各子数据进行特征编码，确定各子数据的数据特征。

步骤603，基于数据分类模型中的结构预测网络，确定各子数据的数据特征与至少两个支撑数据的数据特征之间的特征相似度，并基于特征相似度和各支撑数据的目标结构名，确定待识别数据中各子数据对应的预测结构名。

步骤604，基于各子数据对应的预测结构名，以及结构名与分类结果之间的对应关系，对待识别数据进行类别匹配，确定待识别数据的分类结果。

在本申请的一种实施例中，如图7所示，如共存在四个支撑数据，此时需要确定子数据的预测结构名时，将四个支撑数据和子数据输入至文本特征编码器，得到子数据的数据特征与四个支撑数据的数据特征，其中，子数据的数据特征为四个支撑数据的数据特征分别为x₁，x₂，x₃，x₄。将子数据的数据特征与四个支撑数据的数据特征构建图结构，并基于数据特征之间的特征相似度，构建邻接矩阵A，进而确定子数据的预测结构名。

其中，图7中共包含两种结构名，分别为结构名y₁和结构名y₂。

作为一种示例，当支撑数据如下表格1所示，待识别数据如下表格2所示，此时，确定待识别数据的分类结果的过程如图8所示，具体的：将待识别数据输入至数据分类模型，基于数据分类模型中的文本特征编码器，确定各子数据的数据特征；并基于数据分类模型中的结构预测网络，根据各子数据的数据特征，对待识别数据中各子数据进行结构名预测，得到待识别数据中各子数据对应的预测结构名，其中，预测结构名包括：“发生时间”、“通信地点”、“通信方式”、“通信时长”、“通信类型”、“套餐信息”和“实收通信费用”，因此，基于各子数据对应的预测结构名，以及结构名与分类结果之间的对应关系，对待识别数据进行类别匹配，确定待识别数据的分类结果。

表格1：支撑数据表

表格2：待识别数据表

2020/10/21

大连

呼入

被叫

长途

套餐B

1.2

2019/10/20

南京

呼入

主叫

长途

套餐B

1.2

2019/10/21

南京

呼出

主叫

漫游

套餐A

1.3

在一个实施例中，当需要对数据分类模型进行训练时，如图9所示，该方法包括如下步骤：

步骤901，获取待识别数据所属业务领域的至少两个支撑数据。

步骤902，基于初始分类模型中的文本特征编码器，对各支撑数据进行特征编码得到各支撑数据的数据特征。

步骤903，通过初始分类模型中的结构预测网络，计算两两支撑数据的数据特征之间的特征相似度。

步骤904，根据两两支撑数据的数据特征之间的特征相似度，确定各支撑数据属于各候选结构名的概率。

步骤905，根据各支撑数据属于各候选结构名的概率，以及各支撑数据的目标结构名，各支撑数据的总数量，确定监督损失。

步骤906，基于监督损失，对初始分类模型进行训练，得到数据分类模型。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据分类方法的数据分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据分类装置实施例中的具体限定可以参见上文中对于数据分类方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种数据分类装置，包括：第一获取模块10、第一确定模块20和第二确定模块30，其中：

第一获取模块10，用于获取待识别数据，待识别数据中包含至少一个子数据。

第一确定模块20，用于通过数据分类模型，确定待识别数据中各子数据对应的预测结构名。

第二确定模块30，用于基于各子数据对应的预测结构名，确定待识别数据的分类结果。

第二确定模块具体用于：基于各子数据对应的预测结构名，以及结构名与分类结果之间的对应关系，对待识别数据进行类别匹配，确定待识别数据的分类结果。

上述数据分类方法，通过数据分类模型，确定待识别数据中各子数据对应的预测结构名，进而，根据待识别数据中各子数据对应的预测结构名，确定待识别数据的分类结果。由于上述过程中的待识别数据的分类结果是根据数据分类模型预测的预测结构名确定的，因此，通过在确定待识别数据的分类结果之前，先对待识别数据中各子数据进行结构名预测，使得后续能够根据待识别数据中各子数据的预测结构名，避免当同类数据用不同的结构名进行表示时，对待识别数据的分类结果造成影响，提高了对待识别数据进行分类识别过程的抗干扰能力，保证了确定待识别数据的分类结果的准确性。

在一个实施例中，如图11所示，提供了一种数据分类装置，该数据分类装置中第一确定模块20包括：编码单元21和预测单元22，其中：

编码单元21，用于基于数据分类模型中的文本特征编码器，对待识别数据中各子数据进行特征编码，确定各子数据的数据特征。

预测单元22，用于基于数据分类模型中的结构预测网络，根据各子数据的数据特征，对待识别数据中各子数据进行结构名预测，得到待识别数据中各子数据对应的预测结构名。

预测单元具体用于：基于数据分类模型中的结构预测网络，确定各子数据的数据特征与至少两个支撑数据的数据特征之间的特征相似度，并基于特征相似度和各支撑数据的目标结构名，确定待识别数据中各子数据对应的预测结构名。

在一个实施例中，如图12所示，提供了一种数据分类装置，该数据分类装置中还包括：第二获取模块40、编码模块50、计算模块60和训练模块70，其中：

第二获取模块40，用于获取待识别数据所属业务领域的至少两个支撑数据。

编码模块50，用于基于初始分类模型中的文本特征编码器，对各支撑数据进行特征编码得到各支撑数据的数据特征。

计算模块60，用于通过初始分类模型中的结构预测网络，计算两两支撑数据的数据特征之间的特征相似度。

训练模块70，用于根据两两支撑数据的数据特征之间的特征相似度、各支撑数据的目标结构名，对初始分类模型进行训练，得到数据分类模型。

上述数据分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据分类方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别数据，待识别数据中包含至少一个子数据；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取待识别数据所属业务领域的至少两个支撑数据；

当待识别数据为表格数据时，子数据为表格数据中的一行数据或一列数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别数据，待识别数据中包含至少一个子数据；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取待识别数据所属业务领域的至少两个支撑数据；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待识别数据，待识别数据中包含至少一个子数据；

获取待识别数据所属业务领域的至少两个支撑数据；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据分类方法，其特征在于，所述方法包括：

获取待识别数据，所述待识别数据中包含至少一个子数据；

通过数据分类模型，确定所述待识别数据中各子数据对应的预测结构名；

基于各子数据对应的预测结构名，确定所述待识别数据的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述通过数据分类模型，确定所述待识别数据中各子数据对应的预测结构名，包括：

基于数据分类模型中的文本特征编码器，对所述待识别数据中各子数据进行特征编码，确定各子数据的数据特征；

基于数据分类模型中的结构预测网络，根据各子数据的数据特征，对所述待识别数据中各子数据进行结构名预测，得到所述待识别数据中各子数据对应的预测结构名。

3.根据权利要求2所述的方法，其特征在于，所述基于数据分类模型中的结构预测网络，根据各子数据的数据特征，对所述待识别数据中各子数据进行结构名预测，得到所述待识别数据中各子数据对应的预测结构名，包括：

基于数据分类模型中的结构预测网络，确定各子数据的数据特征与至少两个支撑数据的数据特征之间的特征相似度，并基于所述特征相似度和各支撑数据的目标结构名，确定所述待识别数据中各子数据对应的预测结构名。

4.根据权利要求3所述的方法，其特征在于，数据分类模型的训练过程，包括：

获取待识别数据所属业务领域的至少两个支撑数据；

根据所述两两支撑数据的数据特征之间的特征相似度、各支撑数据的目标结构名，对初始分类模型进行训练，得到数据分类模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述两两支撑数据的数据特征之间的特征相似度、各支撑数据的目标结构名，对初始分类模型进行训练，得到数据分类模型，包括：

根据所述两两支撑数据的数据特征之间的特征相似度，确定各支撑数据属于各候选结构名的概率；

基于所述监督损失，对初始分类模型进行训练，得到数据分类模型。

6.根据权利要求1所述的方法，其特征在于，所述基于各子数据对应的预测结构名，确定所述待识别数据的分类结果，包括：

基于各子数据对应的预测结构名，以及结构名与分类结果之间的对应关系，对所述待识别数据进行类别匹配，确定所述待识别数据的分类结果。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，当所述待识别数据为表格数据时，所述子数据为所述表格数据中的一行数据或一列数据。

8.一种数据分类装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别数据，所述待识别数据中包含至少一个子数据；

第一确定模块，用于通过数据分类模型，确定所述待识别数据中各子数据对应的预测结构名；

第二确定模块，用于基于各子数据对应的预测结构名，确定所述待识别数据的分类结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。