CN111783861A

CN111783861A - 数据分类方法、模型训练方法、装置和电子设备

Info

Publication number: CN111783861A
Application number: CN202010573247.8A
Authority: CN
Inventors: 李昱昕; 刘欢; 刘昊; 陈坤斌; 刘准; 何伯磊; 和为
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-16

Abstract

本申请公开了一种数据分类方法、模型训练方法、装置和电子设备，涉及数据处理领域中的数据分类领域，可用于云计算或云平台。具体实现方案为：一种数据分类方法，包括：获取待分类数据；通过第一模型在第一集合中查找第一标签，所述第一集合包括至少一个一级标签；在查找到所述第一标签的情况下，通过第二模型并以所述第一标签和所述待分类数据作为查询条件，在第二集合中查找第二标签；在查找到所述第二标签的情况下，基于所述第二标签对所述待分类数据进行分类。本申请提供的一种数据分类方法、模型训练方法、装置和电子设备，可以解决现有技术中对知识文本进行分类的准确性较低的问题。

Description

数据分类方法、模型训练方法、装置和电子设备

技术领域

本申请涉及数据处理领域中的数据分类领域，具体涉及一种数据分类方法、模型训练方法、装置和电子设备。

背景技术

目前，互联网企业在对自身的知识库进行管理过程中，通常需要对海量的知识文本(例如，技术文档、新闻资讯和内部信息等)进行分类管理。现有技术中，在对知识文本进行分类时，通常是通过对知识文本的标题进行识别，并基于识别结果对知识文本进行简单的分类。

发明内容

本申请提供一种数据分类方法、模型训练方法、装置和电子设备，以解决现有技术中对知识文本进行分类的准确性较低的问题。

第一方面，本申请提供一种数据分类方法，包括：

获取待分类数据；

通过第一模型在第一集合中查找第一标签，所述第一集合包括至少一个一级标签，所述第一标签为所述至少一个一级标签中用于标识所述待分类数据的一级标签；

在查找到所述第一标签的情况下，通过第二模型并以所述第一标签和所述待分类数据作为查询条件，在第二集合中查找第二标签，所述第二集合为所述至少一个一级标签的子标签形成的二级标签集合，所述第二标签为所述第二集合中用于标识所述待分类数据的二级标签；

在查找到所述第二标签的情况下，基于所述第二标签对所述待分类数据进行分类。

该实施方式中，在查找到待分类数据的一级标签之后，通过将所查找到的一级标签作为查询二级标签的查询条件之一，这样，通过逐级查询，并以上一级的查询结果作为查询条件，可以提高所查找到的二级标签与待分类数据之间的匹配程度，进而提高对待分类数据进行分类的准确性。

可选地，所述基于所述第二标签对所述待分类数据进行分类包括：

通过第三模型在所述第二标签的子标签中查找第一目标标签，所述第一目标标签为所述第二标签的子标签中用于标识所述待分类数据的三级标签；

在查找到所述第一目标标签的情况下，基于所述第一目标标签对所述待分类数据进行分类。

该实施方式中，通过基于第三模型从所述第二标签的子标签中进行查询，以确定用户标识所述待分类数据的三级标签，从而实现对所述待分类数据的更细粒度的划分。

在未查找到所述第一目标标签的情况下，通过所述第三模型在第三集合中查找第二目标标签，其中，所述第三集合包括所述第二集合中所有二级标签的子标签，所述第二目标标签为所述第三集合中用于标识所述待分类数据的三级标签；

在查找到所述第二目标标签的情况下，基于所述第二目标标签对所述待分类数据进行分类。

该实施方式中，通过在未查找到所述第一目标标签的情况下，扩大第三模型的查找范围，以提高查找到用于标识所述待分类数据的三级标签的可能性。

可选地，所述通过第一模型在第一集合中查找第一标签之后，所述方法还包括：

在未查找到所述第一标签的情况下，通过所述第二模型以所述待分类数据为查询条件，在所述第二集合中查找所述第二标签。

该实施方式中，在未查找到第一标签的情况下，通过第二模型在第二集合中查询第二标签，以便于查找过程的顺利进行。

可选地，所述通过所述第二模型以所述待分类数据为查询条件，在所述第二集合中查找所述第二标签之后，所述方法还包括：

在未查找到所述第二标签的情况下，通过第三模型在第三集合中查找第三目标标签，其中，所述第三集合包括所述第二集合中所有二级标签的子标签，所述第三目标标签为所述第三集合中用于标识所述待分类数据的三级标签；

在查找到所述第三目标标签的情况下，基于所述第三目标标签对所述待分类数据进行分类。

该实施方式中，在未查找到第二标签的情况下，通过第三模型在第三集合中查询第三目标标签，以便于查找过程的顺利进行。

第二方面，本申请提供一种模型训练方法，包括：

构建一级模型和二级模型；

获取第一样本集和第二样本集，其中，所述第一样本集包括多个一级样本，所述一级样本包括第一分类特征和用于标识所述第一分类特征的一级标签，所述第二样本集包括多个二级样本，所述二级样本包括第二分类特征和用于标识所述第二分类特征的二级标签，所述一级标签为第一集合中的一级标签，所述二级标签为第二集合中的标签；

分别对所述一级模型和所述二级模型进行训练，得到第一模型和第二模型，其中，所述第一模型为将所述多个一级样本输入所述一级模型进行训练得到的模型，所述第二模型为将所述多个二级样本输入所述二级模型进行训练得到的模型。

该实施方式中，通过对一级模型和二级模型进行训练，得到第一模型和第二模型，使得第一模型和第二模型可以基于分类特征，分别预测该分类特征所对应的一级标签和二级标签。

可选地，所述获取第一样本集和第二样本集包括：

获取所述第一集合和所述第二集合；

接收样本数据，所述样本数据包含多个分类特征；

基于所述第一集合中的一级标签在所述多个分类特征抽取与所述一级标签相对应的第一分类特征，以及基于所述第二集合中的二级标签在所述多个分类特征抽取与所述二级标签相对应的第二分类特征；

基于所抽取的第一分类特征生成所述第一集合，以及基于所抽取的第二分类特征生成所述第二集合。

该实施方式中，通过以基于标签进行搜索的方式，可以实现样本数据的自动生成，相对于现有技术中采样人工的方式标注训练样本而言，可以节省人力成本，同时，可以扩大所抽取出的样本的范围。

第三方面，本申请提供一种数据分类装置，包括：

获取模型，用于获取待分类数据；

第一查找模块，用于通过第一模型在第一集合中查找第一标签，所述第一集合包括至少一个一级标签，所述第一标签为所述至少一个一级标签中用于标识所述待分类数据的一级标签；

第二查找模块，用于在查找到所述第一标签的情况下，通过第二模型并以所述第一标签和所述待分类数据作为查询条件，在第二集合中查找第二标签，所述第二集合为所述至少一个一级标签的子标签形成的二级标签集合，所述第二标签为所述第二集合中用于标识所述待分类数据的二级标签；

分类模块，用于在查找到所述第二标签的情况下，基于所述第二标签对所述待分类数据进行分类。

可选地，所述分类模块包括：

第一查找子模块，用于通过第三模型在所述第二标签的子标签中查找第一目标标签，所述第一目标标签为所述第二标签的子标签中用于标识所述待分类数据的三级标签；

分类子模块，用于在查找到所述第一目标标签的情况下，基于所述第一目标标签对所述待分类数据进行分类。

可选地，所述分类模块还包括：

所述第一查找子模块，还用于在未查找到所述第一目标标签的情况下，通过所述第三模型在第三集合中查找第二目标标签，其中，所述第三集合包括所述第二集合中所有二级标签的子标签，所述第二目标标签为所述第三集合中用于标识所述待分类数据的三级标签；

所述分类子模块，还用于在查找到所述第二目标标签的情况下，基于所述第二目标标签对所述待分类数据进行分类。

可选地，所述第二查找模块，还用于在未查找到所述第一标签的情况下，通过所述第二模型以所述待分类数据为查询条件，在所述第二集合中查找所述第二标签。

可选地，所述分类模块还包括：

第二查找子模块，用于在未查找到所述第二标签的情况下，通过第三模型在第三集合中查找第三目标标签，其中，所述第三集合包括所述第二集合中所有二级标签的子标签，所述第三目标标签为所述第三集合中用于标识所述待分类数据的三级标签；

所述分类模块，还用于在查找到所述第三目标标签的情况下，基于所述第三目标标签对所述待分类数据进行分类。

第四方面，本申请提供一种模型训练装置，包括：

构建模块，用于构建一级模型和二级模型；

获取模块，用于获取第一样本集和第二样本集，其中，所述第一样本集包括多个一级样本，所述一级样本包括第一分类特征和用于标识所述第一分类特征的一级标签，所述第二样本集包括多个二级样本，所述二级样本包括第二分类特征和用于标识所述第二分类特征的二级标签，所述一级标签为第一集合中的一级标签，所述二级标签为第二集合中的标签；

训练模块，用于分别对所述一级模型和所述二级模型进行训练，得到第一模型和第二模型，其中，所述第一模型为将所述多个一级样本输入所述一级模型进行训练得到的模型，所述第二模型为将所述多个二级样本输入所述二级模型进行训练得到的模型。

可选地，所述获取模块包括：

获取子模块，用于获取所述第一集合和所述第二集合；

接收子模块，用于接收样本数据，所述样本数据包含多个分类特征；

抽取子模块，用于基于所述第一集合中的一级标签在所述多个分类特征抽取与所述一级标签相对应的第一分类特征，以及基于所述第二集合中的二级标签在所述多个分类特征抽取与所述二级标签相对应的第二分类特征；

生成子模块，用于基于所抽取的第一分类特征生成所述第一集合，以及基于所抽取的第二分类特征生成所述第二集合。

第五方面，本申请提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请提供的数据分类方法步骤，或者执行本申请提供的模型训练方法步骤。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请提供的数据分类方法步骤，或者执行本申请提供的模型训练方法步骤。

上述申请中的一个实施例具有如下优点或有益效果：在查找到待分类数据的一级标签之后，通过将所查找到的一级标签作为查询二级标签的查询条件之一，这样，通过逐级查询，并以上一级的查询结果作为查询条件，可以提高所查找到的二级标签与待分类数据之间的匹配程度，进而提高对待分类数据进行分类的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例中所提供的数据分类方法的流程图之一；

图2是本申请实施例中所提供的流程图之一；

图3是本申请实施例中所提供的数据分类方法的流程图之二；

图4是本申请实施例中所提供的数据分类方法的流程图之三；

图5是本申请实施例中所提供的流程图之二；

图6是本申请实施例中所提供的数据分类方法的流程图之四；

图7是本申请实施例中所提供的数据分类装置的结构示意图；

图8是本申请实施例中所提供的装置的结构示意图；

图9是用来实现本申请实施例的数据分类方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

请参见图1，图1是本申请实施例提供的一种数据分类方法，包括：

步骤S101、获取待分类数据。

其中，所述待分类数据可以是各类机构内部的电子数据，例如，可以是互联网企业内部的技术文档、新闻资讯等。

具体地，可以是在用户请求将所述待分类数据存入机构内部的数据库时，获取所述待分类数据，以便于确定待分类数据所属类别，进而便于向待分类数据进行分类存储。或者，也可以是用户请求推送所述待分类数据时，获取所述待分类数据，以便于确定待分类数据所属类别，进而向对应用户推送所述待分类数据，实现有针对性的进行数据推送，以提高数据推送的效果。

步骤S102、通过第一模型在第一集合中查找第一标签，所述第一集合包括至少一个一级标签，所述第一标签为所述至少一个一级标签标识中用于标识所述待分类数据的一级标签；

其中，可以将所述待分类数据输入所述第一模型，由所述第一模型对所述待分类数据进行识别，以确定所述待分类数据与第一集合中的各一级标签的匹配程度。此外，也可以先对所述待分类数据进行特征抽取，然后将所抽取出的特征输入所述第一模型，由所述第一模型对所述特征进行识别，以确定所输入的特征与第一集合中的各一级标签的匹配程度，进而判断所述第一集合中是否存在用于标识所述待分类数据的一级标签。

具体地，第一模型在接收到所述待分类数据时，可以分别识别所述待分类数据中与第一集合中的各一级标签相对应的第一分类特征的数量，并为每个一级标签进行评分，其中，待分类数据中包含的与某个一级标签相对应的第一分类特征的数量越多，可以为该一级标签设置越高的评分，这样，可以将评分最高的一级标签作为所述待分类数据的第一标签，或者，将评分超过第一预设值的一级标签作为所述待分类数据的第一标签。

上述与一级标签相对应的第一分类特征可以是指，该第一分类特征中包含所述一级标签，或者，包含所述一级标签的子标签等。所述第一分类特征可以是对待分类数据进行切词后的特征，例如，当所述待分类数据为一篇技术文档时，可以按句将所述待分类数据进行划分，并将每个句子作为一个分类特征。

步骤S103、在查找到所述第一标签的情况下，通过第二模型并以所述第一标签和所述待分类数据作为查询条件，在第二集合中查找第二标签，所述第二集合为所述至少一个一级标签的子标签形成的二级标签集合，所述第二标签为所述第二集合中用于标识所述待分类数据的二级标签。

其中，上述第一集合和第二集合可以是预先构建好的标签集合，由于上述一级标签和二级标签均是用户对企业中的知识文档进行分类标注的，因此，在构建第一集合和第二集合时，可以基于企业的性质进行构建，例如，当企业为科技企业时，所述第一集合可以包括：人工智能、算法、程序设计理论、系统、软件工程等一级标签，所述第二集合可以包括：机器学习、自然语言处理、智能机器人、自动程序设计、神经网络算法和机器学习算法等二级标签。在实际操作过程中，可以构建分类树，其中，该分类树的第一层标签包括所有一级标签，然后，然后确定每个一级标签的子标签作为二级标签，再确定每个二级标签的子标签作为三级标签，依次类推，从而完成分类树的构建。然后将分类树的第一层中的所有标签存入第一集合，将分类树的第二层中的所有标签存入第二集合。

具体地，第二分类模型与第一分类模型的查询过程类似，在第二分类模型接收到第一标签和待分类数据时，可以在所述待分类数据中查询与第二集合中的各二级标签相对应的第二分类特征的数量，并为第二集合中的每个二级标签进行评分。在对二级标签进行评分时，可以基于各第二标签对应的第二分类特征的数量为每个第二标签确定一个基础评分。由于第一模型识别结果指示所述待分类数据可以通过第一标签进行标识，因此，可以将第二集合中的目标二级标签的评分值在所确定的基础评分的基础上乘以一个加权值，其中，所述加权值可以是一个大于1的值，例如，介于1至2中的数值。所述目标二级标签为所述第一标签的子标签。这样，即可得到第二集合中各二级标签的最终评分，然后，可以将第二集合中评分最高的二级标签作为所述待分类数据的第二标签，或者，将评分超过第二预设值的二级标签作为所述待分类数据的第二标签。

应当理解的，第一模型查询得到的第一标签的数量可以是一个，也可以大于一个，在将第一标签和待分类数据输入第二模型时，应当是将所述待分类数据和第一模型所查询到的所有第一标签一并输入所述第二模型。

步骤S104、在查找到所述第二标签的情况下，基于所述第二标签对所述待分类数据进行分类。

具体地，在查找到第二标签的情况下，可以直接将所述第二标签作为所述待分类数据的分类标签，例如，可以将所有具有相同的第二标签的待分类数据划分至同一类，从而完成对待分类数据的分类。此外，也可以通过获取第二标签的子标签，并基于第二标签的子标签对待分类数据的类别进行进一步细分。

可选地，所述步骤S104、基于所述第二标签对所述待分类数据进行分类包括：

具体地，在构建上述分类树时，可以确定各所述二级标签的子标签。为了实现对所述待分类数据的更细粒度的划分，在确定第二标签之后，可以基于第三模型从所述第二标签的子标签中进行查询，以确定用户标识所述待分类数据的三级标签。例如，当所述二级标签为机器学习时，该二级标签的子标签可以包括：基于人脑的机器学习和直接采用数学方法的机器学习。

上述第三模型在第三集合中查找第一目标标签的具体过程与上述第一模型在第一集合中查找第一标签的过程类似，为避免重复，在此不再予以赘述。

此外，在确定所述第一目标标签之后，可以进一步在第一目标标签的子标签中查询用于标识所述待分类数据的四级标签，以便于进一步实现对待分类数据的更细粒度的划分，提高分类结果的准确性。

可选地，基于所述第二标签对所述待分类数据进行分类包括：

具体地，由于第三模型的查找第一目标标签的查找范围仅包括第二标签的子标签，查找范围相对较小，因此，可以提高查找的效率。但也可能因为查找范围过小而无法查找到与待分类数据匹配的三级标签。因此，当第三模型在第二标签的子标签中未查找到第一目标标签的情况下，可以扩大第三模型的查找范围，即对所有三级标签进行全量查找，以提高查找到用于标识所述待分类数据的第二目标标签。

上述无法查找到与待分类数据匹配的三级标签可以是指第三模型在对所有第二标签的子标签进行评分之后，所有子标签的评分值均低于预设值，在此情况下，确定无法查询到所述第一目标标签。

可选地，所述步骤S102、通过第一模型在第一集合中查找第一标签之后，所述方法还包括：

在未查找到所述第一标签的情况下，通过第二模型以所述待分类数据为查询条件，在第二集合中查找所述第二标签。

具体地，由于上述第一集合可以是人为构建的，且一级标签也是人为设定的，因此，第一集合中很难涵盖所有一级标签。这样，可能导致在第一模型在第一集合中查询第一标签时，出现查询不到第一标签的情况，此时，可以直接通过第二模型在第二集合中查询第二标签。

上述无法查找到与待分类数据匹配的第一标签可以是指第一模型在对第一集合中的所有一级标签进行评分之后，所有一级标签的评分值均低于预设值，在此情况下，确定无法查询到所述第一标签。

可选地，所述通过第二模型以所述待分类数据为查询条件，在第二集合中查找所述第二标签之后，所述方法还包括：

同理，在对上述第二标签进行查询时，同样可能出现无法查询到第二标签的情况，此时，由于无法确定准确的二级标签，因此，可以直接对全量的三级标签进行查询，以确定用于标注所述待分类数据的三级标签。

应当说明的是，在确定用于标签所述待分类数据的三级标签之后，可以在所确定的三级标签的子标签中查询用于标注所述待分类数据的四级标签，当无法查询到所述四级标签时，可以在全量的四级标签中进行查询，以确定用于标注所述待分类数据的四级标签。

本申请实施例所提供的数据分类方法可用于云计算或云平台中。例如，云平台中的服务器可以通过上述数据分类方法对其在业务处理过程中的数据进行分类，以便于对数据进行分类管理或者有针对性的为用户提供数据推荐服务。

请参见图2，本申请实施例还提供了一种模型训练方法，包括：

步骤S201、构建一级模型和二级模型；

步骤S202、获取第一样本集和第二样本集，其中，所述第一样本集包括多个一级样本，所述一级样本包括第一分类特征和用于标识所述第一分类特征的一级标签，所述第二样本集包括多个二级样本，所述二级样本包括第二分类特征和用于标识所述第二分类特征的二级标签，所述一级标签为第一集合中的一级标签，所述二级标签为第二集合中的标签；

步骤S203、分别对所述一级模型和所述二级模型进行训练，得到第一模型和第二模型，其中，所述第一模型为将所述多个一级样本输入所述一级模型进行训练得到的模型，所述第二模型为将所述多个二级样本输入所述二级模型进行训练得到的模型。

上述一级模型和二级模型可以是基于TextCNN构建的深度神经网络模型，其结构可以相似，其不同之处在于输出层的维度可以有所区别，因为，第一集合中的一级标签的数量通常少于第二集合中的二级标签的数量，而一级模型的输出结果为第一集合中所有一级标签的评分值，二级模型的输出结果为第二集合中所有二级标签的评分值。因此，二级模型的输出维度可以大于一级模型的输出维度，例如，一级模型最终输出14个维度的一级分类分值结果，第二分类模型最终输出40个维度的二级分类分值结果。

上述每个一级标签可以对应多个第一分类特征，其中，每个与一级标签相对应的第一分类特征可以与该一级标签形成一个一级样本。这样，通过将所有一级样本输入第一模型，由第一模型学习各一级标签与第一分类特征之间的相关关系，在训练完成之后，将分类特征输入第一模型时，第一模型可以预测该分类特征所对应的一级标签。例如，可以将上述待分类数据划分为若干个分类特征，形成特征序列，然后将特征序列输入第一模型，由第一模型依次识别各分类特征所属的一级标签，从而确定每个一级标签所对应的分类特征数量，进而为每个一级标签进行评分，并选取评分超过预设值的一级标签作为所述待分类数据的第一标签。

同理，上述每个二级标签可以对应多个第二分类特征，其中，每个与二级标签相对应的二级分类特征可以与该二级标签形成一个二级样本。这样，通过将所有二级样本输入第二模型，由第二模型学习各二级标签与第二分类特征之间的相关关系，在训练完成之后，将分类特征输入第二模型时，第二模型可以预测该分类特征所对应的二级标签。例如，可以将上述待分类数据划分为若干个分类特征，形成特征序列，然后将特征序列输入第二模型，由第二模型依次识别各分类特征所属的二级标签，从而确定每个二级标签所对应的分类特征数量，进而为每个二级标签进行评分，并选取评分超过预设值的二级标签作为所述待分类数据的第二标签。

可选地，所述步骤S202、获取第一样本集和第二样本集包括：

获取所述第一集合和所述第二集合；

接收样本数据，所述样本数据包含多个分类特征；

具体地，上述第一集合和第二集合可以是预先构建好的标签集合，由于上述一级标签和二级标签均是用户对企业中的知识文档进行分类标注的，因此，在构建第一集合和第二集合时，可以基于企业的性质进行构建。

上述样本数据可以是目标企业的知识文本，例如，技术文档、新闻资讯等，上述目标企业是指后续需要基于所训练的模型对企业内部电子数据进行分类的企业。上述样本数据的数量可以为多个，以便于增加训练样本的数量。此外，上述样本数据也可以是对企业的知识文本进行切词处理后的特征序列，其中，所述特征序列包括若干个独立的分类特征，且每个分类特征均可被检索到。可以将切词后的分类特征输入Elasticsearch搜索服务器，以便于提高后续查询的效率。

上述对企业的知识文本进行切词处理可以包括以下方式：(1)、利用切词技术，对文章标题与内容分别进行切词，得到切词特征；(2)、标签实体识别特征：针对主题标签标准词与拓展词做为标签实体，分别对文章与内容进行相应的标签实体识别。(3)、行业专名词典特征：对行业内的专有名词进行识别，例如：“计算机网络”，“redis数据库”等，这些公司行业相关的词本身具有较强的表意能力，可以作为特征单独识别。(4)、标签层级特征：针对二级分类的模型，把标签第一分类模型识别结果的类别作为特征传入，相当于在一级分类的基础上进行识别，保证准确率更高。(5)、其他信息：包括标题与内容的切词长度、实体词长度、行业专名词长度、层级数量等其他辅助特征。

具体地，在完成切词处理之后，并将切词后的分类特征输入上述Elasticsearch搜索服务器之后，可以以每个一级标签作为查询条件，查询各分类特征中包含一级标签的分类特征，并将所查询到的分类特征作为与该一级标签相对应的第一分类特征，再将该一级标签与每个第一分类特征进行组合，形成一个作为一级样本的数据对。从而完成第一集合的生成过程。同理，第二集合的生成过程与第一集合的生成过程类似，为避免重复，在此不再予以赘述。

其中，在生成所述一级样本和二级样本之后，可以通过采样的方式抽取自动的生成的一级样本或者二级样本，并审核所生成的一级样本或者二级样本的质量是否合格，以便于在质量不合格的情况下，及时调整参数。

可选地，上述样本数据可以包括标题内容和正文内容。为了进一步提高所抽取的一级样本和二级样本的准确性。可以对自动抽取出的第一分类特征和第二分类特征进行进一步筛选，例如，当基于某个一级标签查询到若干个第一分类特征时，可以将所述若干个第一分类特征中，位于标题内容中的第一分类特征和位于正文内容中且出现次数超过预设值的第一分类特征作为目标第一分类特征，将每个目标第一分类特征与所述一级标签进行组合，生成一个一级样本。这样，可以避免部分出现频率极低的分类特征造成对训练样本的干扰，以便于提高后续模型训练的准确性。

可选地，在基于标签(包括一级标签、二级标签、三级标签等)抽取分类数据之前，可以对每个标签进行近义词扩充，以便于提高第一集合中标签的数量，例如，可以将产品策略扩充至产品组合策略等，其中，将目标标签的扩充词与目标标签视为同一标签，这样，可以提高所抽取到的样本的数量，进而提高模型训练的效果。

可选地，还可以构建三级模型和四级模型等更细粒度的分类模型，并获取第三样本集和第四样本集等。其中，所述第三样本集包括多个三级样本，所述三级样本包括第三分类特征和用于标识所述第三分类特征的三级标签，所述三级标签为上述第三集合中的标签。同理，在构建上述分类树时，可以确定各三级标签的子标签作为四级标签，并基于所有四级标签生成第四集合，以便于对第四模型进行训练。

通过上述获取第一样本集的方法可以获取到第三样本集和第四样本集，并基于所述第三样本集和第四样本集分别对所述三级模型和四级模型进行训练得到第三模型和第四模型。

应当理解的，上述所有预设值可以是人为设定的值，例如，可以是1-10中的任意一个数值。

请参见图3，图3可以表示第一模型或者第二模型基于所述待分类数据的分类特征对对应的标签进行评分的过程，通过将对待分类数据进行切分后得到的分类特征1-分类特征N，然后将N个分类特征分别输入模型的嵌入层(Embedding Layer)，然后依次经过CNN层、合并层(Concat)、FNN层和激活函数层(Softmax)进行处理之后，得到对应标签的评分值。

请参见图4，图4可以表示第三模型基于所述第二标签的子标签中查找第一目标标签的过程，通过将所述待分类数据的标题内容、正文内容以及所述第二标签的子标签分别输入所述第三模型的嵌入层(Embedding Layer)，然后依次经过CNN层、合并层(Concat)、FNN层和激活函数层(Sigmoid)进行处理之后，得到对应标签的评分值。

请参见图5，图5为上述对第一模型、第二模型和第三模型等进行训练过程的流程示意图。如图5所示，对模型的训练过程包括：获取训练数据，对训练数据进行预处理，切词、存入Elasticsearch搜索服务器。然后，构建第一集合、第二集合、第三集合，并设定查询分类特征的查询规则，进行自动抽取样本的过程，在自动抽取样本之后，通过采样的方式对所抽取的样本进行审核，确定最终的样本，然后进行最终的样本分别对＝一级模型、二级模型、三级模型等进行训练，以便于得到第一模型、第二模型和第三模型等分类模型。

请参见图6，为本申请一个实施例对上述待分类数据进行分类的流程示意图，其具体包括：获取待分类数据，对所述待分类数据进行预处理，例如进行切词处理，然后，将所述待分类数据分别输入第一模型和第二模型，判断是否确定了所述第二标签，在确定了所述第二标签的情况下，由第三模型在第二标签的子标签中抽取目标标签，在未确定出所述第二标签的情况下，由第三模型在全量的三级标签中进行查找，以确定目标标签。

请参见图7，图7是本申请实施例提供的一种数据分类装置700，包括：

获取模型701，用于获取待分类数据；

第一查找模块702，用于通过第一模型在第一集合中查找第一标签，所述第一集合包括至少一个一级标签，所述第一标签为所述至少一个一级标签中用于标识所述待分类数据的一级标签；

第二查找模块703，用于在查找到所述第一标签的情况下，通过第二模型并以所述第一标签和所述待分类数据作为查询条件，在第二集合中查找第二标签，所述第二集合为所述至少一个一级标签的子标签形成的二级标签集合，所述第二标签为所述第二集合中用于标识所述待分类数据的二级标签；

分类模块704，用于在查找到所述第二标签的情况下，基于所述第二标签对所述待分类数据进行分类。

可选地，所述分类模块704包括：

可选地，所述分类模块704还包括：

可选地，所述第二查找模块703，还用于在未查找到所述第一标签的情况下，通过所述第二模型以所述待分类数据为查询条件，在所述第二集合中查找所述第二标签。

可选地，所述分类模块704还包括：

本实施例提供的数据分类装置700能够实现图1-6所示的方法实施例中的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

请参见图8，图8是本申请实施例提供的一种模型训练装置800，包括：

构建模块801，用于构建一级模型和二级模型；

获取模块802，用于获取第一样本集和第二样本集，其中，所述第一样本集包括多个一级样本，所述一级样本包括第一分类特征和用于标识所述第一分类特征的一级标签，所述第二样本集包括多个二级样本，所述二级样本包括第二分类特征和用于标识所述第二分类特征的二级标签，所述一级标签为第一集合中的一级标签，所述二级标签为第二集合中的标签；

训练模块803，用于分别对所述一级模型和所述二级模型进行训练，得到第一模型和第二模型，其中，所述第一模型为将所述多个一级样本输入所述一级模型进行训练得到的模型，所述第二模型为将所述多个二级样本输入所述二级模型进行训练得到的模型。

可选地，所述获取模块802包括：

获取子模块，用于获取所述第一集合和所述第二集合；

本实施例提供的模型训练装置800能够实现图1-6所示的方法实施例中的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的数据分类方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的数据分类方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据分类方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据分类方法对应的程序指令/模块(例如，附图7所示的获取模型701、第一查找模块702、第二查找模块703和分类模块704)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据分类方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据分类方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至数据分类方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据分类方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与数据分类方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，在查找到待分类数据的一级标签之后，通过将所查找到的一级标签作为查询二级标签的查询条件之一，这样，通过逐级查询，并以上一级的查询结果作为查询条件，可以提高所查找到的二级标签与待分类数据之间的匹配程度，进而提高对待分类数据进行分类的准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据分类方法，包括：

获取待分类数据；

2.根据权利要求1所述的方法，其中，所述基于所述第二标签对所述待分类数据进行分类包括：

3.根据权利要求2所述的方法，其中，所述基于所述第二标签对所述待分类数据进行分类包括：

4.根据权利要求1所述的方法，其中，所述通过第一模型在第一集合中查找第一标签之后，所述方法还包括：

5.根据权利要求4所述的方法，其中，所述通过所述第二模型以所述待分类数据为查询条件，在所述第二集合中查找所述第二标签之后，所述方法还包括：

6.一种模型训练方法，其中，包括：

构建一级模型和二级模型；

7.根据权利要求6所述的方法，其中，所述获取第一样本集和第二样本集包括：

获取所述第一集合和所述第二集合；

接收样本数据，所述样本数据包含多个分类特征；

8.一种数据分类装置，包括：

获取模型，用于获取待分类数据；

9.根据权利要求8所述的装置，其中，所述分类模块包括：

10.根据权利要求9所述的装置，其中，所述分类模块还包括：

11.根据权利要求8所述的装置，其中，所述第二查找模块，还用于在未查找到所述第一标签的情况下，通过所述第二模型以所述待分类数据为查询条件，在所述第二集合中查找所述第二标签。

12.根据权利要求11所述的装置，其中，所述分类模块还包括：

13.一种模型训练装置，包括：

构建模块，用于构建一级模型和二级模型；

14.根据权利要求13所述的装置，其中，所述获取模块包括：

获取子模块，用于获取所述第一集合和所述第二集合；

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。