CN109992667B

CN109992667B - 一种文本分类方法以及装置

Info

Publication number: CN109992667B
Application number: CN201910234804.0A
Authority: CN
Inventors: 王李鹏
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-06-08
Anticipated expiration: 2039-03-26
Also published as: CN109992667A

Abstract

本申请提供了一种文本分类方法以及装置，其中，该方法包括：获取待分类文本，确定样本词汇集中每个样本词汇出现在待分类文本中的次数；根据多个文本分类子模型分别使用的样本词汇，将样本词汇分成多个分组；其中，每个分组对应一个文本分类子模型，不同分组中的样本词汇不完全相同；将每个分组中的样本词汇在待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到各个分组对应的子分类结果；基于各个分组对应的子分类结果，确定待分类文本的分类结果。本申请实施例在对文本进行分类时，具有更高的分类精度，满足较高精度的分类需求，进而基于该分类结果进行后续处理时，效率更高。

Description

一种文本分类方法以及装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种文本分类方法以及装置。

背景技术

文本分类在很多领域有着重要应用。例如对新闻文本进行分类，能够将不同类型新闻对应的新闻文本区分开，有利于关注新闻文本的提取、新闻文本的快速编排等；对软件产品测试过程中生成的问题工单文本进行分类，能够快速识别问题工单对应的问题，并及时作出响应。

当前的文本分类方法主要有两种：频次法以及词频-逆文本频率指数(TermFrequency–Inverse Document Frequency，DF-IDF)法。频次法和DF-IDF算法都属于特征提取法。

其中，频次法的分类结果容易受到词汇出现频率的影响。DF-IDF法虽然弱化了词汇出现频次对分类结果造成的影响，但分类精度低，无法满足较高精度的分类需求，从而不利于文本的进一步处理。

发明内容

有鉴于此，本申请实施例的目的在于提供一种文本分类方法以及装置，具有更高的分类精度，满足较高精度的分类需求，进而基于该分类结果进行后续处理时，效率更高。

第一方面，本申请实施例提供了一种文本分类方法，包括：

获取待分类文本，确定样本词汇集中每个样本词汇出现在所述待分类文本中的次数；所述样本词汇集中的样本词汇为基于文本分类子模型进行文本分类所使用的样本词汇；

根据多个文本分类子模型分别使用的样本词汇，将所述样本词汇分成多个分组；其中，每个分组对应一个文本分类子模型，不同分组中的样本词汇不完全相同；

将每个分组中的样本词汇在所述待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到各个分组对应的子分类结果；

基于各个分组对应的子分类结果，确定所述待分类文本的分类结果。

第二方面，本申请实施例提供一种文本分类装置，该装置包括：

获取模块，用于获取待分类文本，确定样本词汇集中每个样本词汇出现在所述待分类文本中的次数；所述样本词汇集中的词汇为基于文本分类子模型进行文本分类所使用的样本词汇；

分组模块，用于根据多个文本分类子模型分别使用的样本词汇，将所述样本词汇分成多个分组；其中，每个分组对应一个文本分类子模型，不同分组中的样本词汇不完全相同；

分类模块，用于将每个分组中的样本词汇在所述待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到各个分组对应的子分类结果；基于各个分组对应的子分类结果，确定所述待分类文本的分类结果。

本申请实施例通过获取待分类文本中各个样本词汇在待分类文本中出现的次数，并根据多个文本分类子模型分别使用的样本词汇，将样本词汇分成多个分组，然后将每个分组中的样本词汇在待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到与每个分组对应的自分类结果，并基于各个分组对应的自分类结果，确定待分类文本的分类结果，具有更高的分类精度，满足较高精度的文本分类需求，进而基于该分类结果进行后续处理时，效率更高。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例一所提供的一种文本分类方法的流程图；

图2示出了本申请实施例所提供的文本分类方法中，构建样本词汇集具体方法的流程图；

图3示出了本申请实施例所提供的文本分类方法中，获取各个样本文本中出现的样本词汇的具体方法的流程图；

图4示出了本申请实施例所提供的文本分类方法中，将样本词汇集中的各个样本词汇按照各个样本词汇在不同样本文本中出现的次数分成多个分组的具体方法的流程图；

图5示出了本申请实施例所提供的文本分类方法中，基于各个样本词汇对应的重要性得分，将所有样本词汇分成多个分组的具体方法的流程图；

图6示出了本申请实施例所提供的文本分类方法中，确定每个样本词汇的重要性得分的具体方法的流程图；

图7示出了本申请实施例所提供的文本分类方法中，训练得到各个文本分类子模型的具体方法的流程图；

图8示出了本申请实施例三所提供的一种文本分类装置的示意图；

图9示出了本申请实施例四所提供的一种计算机设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

经研究发现，软件的研发人员在对软件产品进行测试或者运维的过程中，如果发现了软件存在某些问题，会基于软件存在的问题提交问题工单；在问题工单中包括有多种信息，例如问题单号、问题的简要描述、详细描述、提交人等。问题工单提交之后，其他处理问题工单的研发人员会对问题工单进行处理，并将对应问题的原因分析、解决方案等内容记录在问题工单中，并进入下一流程。在问题工单的生成和处理过程中，可以得到一个完整的问题描述信息，这些信息将为软件的性能分析、质量分析等提供有效、可靠的数据支撑。

为了实现基于问题描述信息的后续应用，在很多情况下，需要从各个问题工单中识别出具有某种属性的问题工单。当前的识别方式有两种，一种是基于人工筛选的方式从问题工单中筛选获得；这种方式会耗费巨大的人力和时间；另外一种是基于频次法和DF-IDF算法。频次法和DF-IDF算法虽然解决了人工筛选存在的人力和时间耗费巨大的问题，但是频次法的分类结果容易受到词汇出现频率的影响；DF-IDF法虽然弱化了词汇出现频次对分类结果造成的影响，但存在分类精度低，无法满足较高精度的分类需求的问题。

基于此，本申请提供的一种文本分类方法及装置，通过获取待分类文本中各个样本词汇在待分类文本中出现的次数，并根据多个文本分类子模型分别使用的样本词汇，将所述样本词汇分成多个分组，然后将每个分组中的样本词汇在待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到与每个分组对应的自分类结果，并基于各个分组对应的自分类结果，确定待分类文本的分类结果，具有更高的分类精度，满足较高精度的文本分类需求，进而基于该分类结果进行后续处理时，效率更高。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种文本分类方法进行详细介绍，本申请实施例提供的文本分类方法，除了能够用于在对软件产品进行测试或者运维的过程中生成的问题工单进行分类外，还可以用于对其他类型的文本进行分类，例如新闻文本、论文文本、专利申请文本等。

本申请实施例所提供的文本分类方法的执行主体一般为具有运算能力的计算机设备，下面以对问题工单进行分类为例，对本申请实施例所提供的文本分类方法方法进行详细描述。

实施例一

参见图1所示，为本申请实施例一提供的文本分类方法的流程图，该方法包括步骤S101～S104，其中：

S101：获取待分类文本，确定样本词汇集中每个样本词汇出现在待分类文本中的次数；样本词汇集中的样本词汇为基于文本分类子模型进行文本分类所使用的样本词汇。

S102：根据多个文本分类子模型分别使用的样本词汇，将样本词汇分成多个分组；其中，每个分组对应一个文本分类子模型，不同分组中的样本词汇不完全相同。

S103：将每个分组中的样本词汇在待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到各个分组对应的子分类结果。

S104：基于各个分组对应的子分类结果，确定待分类文本的分类结果。

另外，在本申请另一实施例中，在获取待分类文本之后，由于在对各个文本分类子模型进行训练之前，在根据样本文本构建样本词汇集时，已经将各个样本词汇进行了分类，得到用于训练各个文本分类子模型的样本词汇子集，因此在使用各个文本分类子模型得到待分类文本的分类结果时，不需要再次执行一遍样本词汇分类的过程，只需要执行如下过程：

获取待分类文本，确定各样本词汇子集中每个样本词汇出现在待分类文本中的次数，样本词汇集包括多个样本词汇子集；

将各个文本分类子模型所使用的样本词汇子集中各样本词汇在待分类文本中出现的次数，输入至对应的各个文本分类子模型中，得到各个文本分类子模型分别输出的子分类结果。

基于各个文本分类子模型分别输出的子分类结果，确定待分类文本的分类结果。

以下为对图1所示的S101～S104的详细说明：

I：上述S101中，样本词汇集是基于多个样本文本确定的样本词汇的集合。任一样本词汇在至少一个样本文本中出现过。

具体地，参见图2所示，本申请实施例提供一种构建样本词汇集的具体方式，包括：

S201：获取样本文本。

此处，针对不同的应用，所获取的样本文本有所区别；例如要针对问题工单进行分类，所获取的样本文本即为问题工单。若要针对新闻文本进行分类，所获取的样本文本即为新闻文本。

S202：根据在各个样本文本中出现的词汇，构建样本词汇集。

此处，并非是在样本文本中出现的词汇就一定属于样本词汇。样本词汇通常是指具有实际意义的词，如名词、动词、形容词、数词、量词等；而没有实际意义的词，如副词、介词、连词等，对于样本分类并不能作出贡献，或者作出的贡献较小，因此一般不会作为样本词汇。样本词汇集中的样本词汇为在至少一个样本文本中出现的词汇。

具体地，参见图3所示，本申请实施例还提供一种获取各个样本文本中出现的样本词汇的具体方法，包括：

S301：对各个样本文本进行分词处理，获取每个样本文本中出现的词汇。

示例性的，部分样本文本中会出现图像，因此要将图像去除，只获取样本文本中的文本内容，并基于获取的文本内容构成由文本内容组成的字符串进行分词处理。

在一些实施例中，在对字符串进行分词处理之前，还要执行去除字符串中的标点符号，以及将字符串中的英文大写更改为小写等操作。

S302：去除每个样本文本中出现的词汇中的停用词。

此处，停用词包括以下中一种或者多种：在大的语言环境下已经被停用的词汇、针对样本文本所属领域已经被停用的词汇、针对样本文本所属领域无意义的词汇、在大的语言环境下无意义的词汇。

在去除停用词时，一般是基于预设的停用词表实现。在停用词表中包括了需要去除的各个停用词；然后依次将在各个样本文本中出现的词汇和停用词表中包括的停用词进行匹配，若匹配成功，则将对应匹配成功的词汇去除。

另外，由于针对某些领域，针对同一目标的词汇有所区别，例如中央处理器又可被称为微处理器、CPU(Central Processing Unit)，因此在另外一些实施例中，为了避免有些指代同一目标的词汇产生两个或者两个以上的样本词汇，还要每个样本文本中出现的词汇中指代同一目标的不同词汇更改为相同的词汇。

S303：针对每个样本文本，从该样本文本对应的去除了停用词的词汇中，确定该样本文本对应的样本词汇。

此处，若在S302去除词汇中的停用词时，去除了样本文本中无意义的词汇，这里将去除了停用词的词汇确定为样本词汇。

若在S302去除词汇中的停用词时，并未去除样本文本中无意义的词汇，这里需要将去除了停用词的词汇中无意义词汇去除，剩余的词汇作为该样本文本对应的样本词汇。

此时，在去除每个样本文本中出现的词汇中无意义词汇时，可以基于无意义词汇表，也可以通过对每个样本文本中出现的词汇的分类属性进行判断，将其中的虚词，如副词、助词等都去除，将剩余分类属性为名词、动词的词汇确定为样本词汇。

需要注意的是，任一样本词汇在一个样本文本中出现的次数，可以是0次，可以是1次，也可以是多次。

S304：将各个样本文本对应的样本词汇，确定为样本词汇集中的样本词汇。

例如，对样本文本M1中出现的词汇进行上述处理后，所得到的样本词汇包括：a1、a2、a5、a7、a10；

对样本文本M2中出现的词汇进行上述处理后，所得到的样本词汇包括：a1、a3、a4、a5、a8；

对样本文本M3中出现的词汇进行上述处理后，所得到的样本词汇包括：a3、a4、a6、a7、a9；

则通过样本文本M1、M2和M3得到的样本词汇的包括：a1～a10；所构成的样本词汇集为：{a₁,a₂,…,a₁₀}。

每个样本文本，都能够通过各个样本词汇在该样本文本中出现的次数来进行表征。

例如在上述示例中，若样本文本M1中，样本词汇a1在M1中出现的次数为5，样本词汇a2在M1中出现的次数为3，样本词汇a5在M1中出现的次数为1，样本词汇a7在M1中出现的次数为3，样本词汇a10在M1中出现的次数为3，其他的样本词汇在M1中出现的次数均为0，则得到该样本文本M1能够被表示为：{5,3,0,0,1,0，3,0,0,3}。

在确定样本词汇集中每个样本词汇出现在待分类文本中的次数时，可以通过对待分类文本进行分词处理而获得；此处，对待分类文本进行分词处理的方式，可以采用如图3对应的实施例中对样本文本进行分词处理相同的方式获得。另外，也可以直接根据样本词汇集中的每个样本词汇，从待分类文本中匹配得到。

Ⅱ：上述S102中，在一种实施例中，可以随机确定各个文本分类子模型分别对应的样本词汇，例如将样本词汇集中的各个样本词汇随机分组，形成多个与各个文本分类子模型分别对应的分组，每个分组中的样本词汇即为各个文本分类子模型分别使用的样本词汇。

每个分组对应上述实施例中的一个样本词汇子集。

在另一实施例中，也可以将样本词汇集中的各个样本词汇按照各个样本词汇在不同样本文本中出现的次数分成多个分组；将每个分组中的样本词汇确定为各个文本分类子模型分别使用的样本词汇。

参见图4所示，本申请实施例提供一种将样本词汇集中的各个样本词汇按照各个样本词汇在不同样本文本中出现的次数分成多个分组的具体方式，包括：

S401：基于每个样本词汇在各个样本文本中出现的次数，确定每个样本词汇对应的重要性得分。

S402：基于各个样本词汇对应的重要性得分，将所有样本词汇分成多个分组。

在具体实施中，基于重要性得分将各个样本词汇分成多个分组时，例如，样本词汇包括a1～a40，其中a1～a20的重要性得分相近；a21～a40的重要性得分相近。

在第一种分组方式中，可以是将重要性得分较为接近的样本词汇分到一个分组。如在对各个样本词汇进行分组时，得到2个分组T1～T2依次为：

T1：a1～a20；

T2：a21～a40。

在第二种分组方式中，还可以按照各个样本词汇分别对应的重要性得分，将样本词汇接近的样本词汇均匀分到多个分组中。

例如在上述示例中，将a1～a40分到T1～T2共2个分组中，依次为：

T1：a1～a10、a21～a30；

T2：a11～a20、a31～a40。

另外，在第三种分组方式中，参见图5所示，将所有样本词汇分成多个分组的具体方法，包括：

S501：基于各个样本词汇对应的重要性得分以及预设的聚类算法，将样本词汇分成多个分类；

此处，预设的聚类算法例如包括：K-means聚类算法、二分(bisecting)k-means聚类算法、基于密度的空间聚类算法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)、基于网格的空间聚类算法STING等中任意一种。

S502：针对每个分类，将该分类中包括的多个样本词汇随机分成多个子类；

S503：从每个分类中分别选择一个子类，并将选择的所有子类中包括的样本词汇，确定为一个分组。

通过上述步骤将样本词汇分成多个分类。

例如在上述示例中，首先根据各个样本词汇a1～a40的重要性得分，对a1～a40进行聚类，将a1～a40划分到2个分类中，依次为：

M1：a1～a20；

M2：a21～a40。

然后再将M1、M2再各分成两个子类：

M11：a1～a10；M12：a11～a20；

M21：a21～a30；M22：a31～a40；

然后从每个分类中确定一个子类，得到的分组分别为：

T1：a1～a10、a21～a30；

T2：a1～a10、a31～a40；

T3：a11～a20、a21～a30；

T4：a11～a20、a31～a40。

需要注意的是，在该示例中，还可以有其他的分组方式，只要保证任意两个分组中，相同样本词汇的数量少于该任意两个分组中每个分组中样本词汇的数量即可。

参见图6所示，本申请实施例还提供一种确定每个样本词汇的重要性得分的具体方法，包括：

S601：基于每个样本词汇在各个样本文本中出现的次数，构建随机森林模型；随机森林模型中包括多棵决策树；不同决策树所使用的样本词汇不同。

此处，可以采用下述方式一棵决策树：

随机从各个样本词汇中，选择预设数量个目标样本词汇，并基于目标样本词汇在各个样本文本中出现的次数，构建一棵决策树。

重复执行上述决策树的构建过程，直至构建满足数量要求的决策树为止，将构建的多棵决策树作为随机森林模型。

或者，重复执行上述决策树的构建过程；在每构建一棵决策树后，使用验证文本对已经构建的多棵决策树进行验证时，得到的损失小于预设的损失阈值，停止构建决策树，将构建的多棵决策树作为随机森林模型。

此处的损失是指随机森林模型对验证样本进行验证时，所得到损失。

承接上述S601，本申请实施例提供的确定每个样本词汇的重要性得分的具体方法中，还包括：

S602：基于各个样本词汇在各个测试文本在中出现的次数，计算与各棵决策树对应的第一测试数据误差。

此处，测试文本与上述S601中的验证文本可以相同，也可以不同。

示例性的，在计算各棵决策树对应的第一测试数据误差时，可以采用下述方式：

针对每棵决策树，将目标样本词汇分别在m个测试文本中出现的次数，输入至该决策树中，得到该决策树对各个测试文本进行分类的分类结果。根据各个测试文本对应的分类结果，以及各个测试文本对应的分类标签，确定分类错误的测试文本的数量n；将分类错误的测试文本的数量n与测试文本的总数量m的比值，作为该决策树的第一测试数据误差。

S603：针对每个样本词汇，对该样本词汇在各个测试文本中出现的次数加入随机噪声干扰，得到该样本词汇在各个测试文本中出现的干扰次数。

此处，在针对样本词汇在各个测试文本中出现的次数加入随机噪声干扰时，每次只针对一个样本词汇加入随机噪声干扰。例如，所得到的样本词汇为：a₁,a₂,…,a_j，针对任意一个测试文本i，各个样本词汇在该测试文本i中出现的次数可以表示为：{w₁ ⁱ,w₂ ⁱ,…,w_j ⁱ}。

针对其中的第一个样本词汇a₁，对该样本词汇a₁在测试文本i中出现的次数加入随机噪声干扰的干扰值为r₁ ⁱ，得到样本词汇a₁在测试文本i中出现的次数可以表示为：w₁ ⁱ+r₁ ⁱ。则在对该样本词汇a₁在样本文本i中出现的干扰次数加入随机干扰后，各个样本词汇在该测试文本i中出现的次数可以表示为：{w₁ ⁱ+r₁ ⁱ,w₂ ⁱ,…,w_j ⁱ}。

同理，针对其中的第二个样本词汇a₂，对该样本词汇a₂在测试文本i中出现的次数加入随机噪声干扰的干扰值为r₂ ⁱ，得到样本词汇a₂在测试文本i中出现的干扰次数可以表示为：w₂ ⁱ+r₂ ⁱ。则在对该样本词汇a₂在样本文本i中出现的次数加入随机干扰后，各个样本词汇a₂在该测试文本i中出现的次数可以表示为：{w₁ ⁱ,w₂ ⁱ+r₂ ⁱ,…,w_j ⁱ}。

……

针对其中的第j个样本词汇a_j，对该样本词汇a_j在测试文本i中出现的次数加入随机噪声干扰的干扰值为r_j ⁱ，得到样本词汇a_j在测试文本i中出现的干扰次数可以表示为：w_j ⁱ+r_j ⁱ。则在对该样本词汇a_j在样本文本i中出现的次数加入随机干扰后，各个样本词汇a_j在该测试文本i中出现的次数可以表示为：{w₁ ⁱ,w₂ ⁱ,…,w_j ⁱ+r_j ⁱ}。

需要注意的是，上述S602和S603并无执行的先后顺序。

承接上述S603，本申请实施例提供的确定每个样本词汇的重要性得分的具体方法中，还包括：

S604：基于该样本词汇在各个测试文本中出现的干扰次数，以及除该样本词汇外的其他样本词汇在各个测试文本中出现的次数，计算与各棵决策树对应的第二测试数据误差。

此处，获取每棵决策树对应的第二测试数据误差的过程，与得到第一测试数据误差的过程类似，在此不再赘述。

承接上述S602和S604，本申请实施例提供的确定每个样本词汇的重要性得分的具体方法中，还包括：

S605：基于第一测试数据误差以及第二测试数据误差，计算该样本词汇的重要性得分。

示例性的，样本词汇X的重要性得分满足：

其中，N表示决策树的数量；e_k ²表示第k棵决策树对应的第二测试数据误差；e_k ¹表示第k棵决策树对应的第一测试数据误差。

进而得到每个样本词汇的重要性得分。

在得到各个样本词汇对应的重要性得分后，基于各个样本词汇对应的重要性得分，将所有样本词汇分成多个分组。

Ⅲ：上述S103中，参见图7所示，本申请实施例还提供一种训练得到各个文本分类子模型的具体方式，包括：

S701：获取与每个样本文本对应的实际分类结果，并确定样本词汇集中每个样本词汇在各个样本文本中出现的次数。

此处，所有的样本文本对应的实际分类结果的种类，与各个文本分类子模型所能够识别的分类数量一致。

在本申请实施例中，要针对问题工单进行分类时，样本文本可以从问题工单的历史数据库中获取，这些样本文本可以是已完成分类的样本文本，每一个样本文本都对应有实际的分类结果；还可以是未完成分类的样本文本，可以通过人工标注或者其他方式确定每个样本文本对应的实际分类结果。

确定样本词汇集中每个样本词汇在各个样本文本中出现的次数的方式，与确定样本词汇集中每个样本词汇在待分类文本中出现的次数的方式类似，在此不再赘述。

S702：根据多个文本分类子模型分别使用的样本词汇，将样本词汇分成多个分组。

此处，将样本词汇进行分组的过程与上述图4的将样本词汇进行分组的过程类似，在此不再赘述。

S703：根据各个分组中的样本词汇在各个样本文本中出现的次数，以及与每个样本文本对应的实际分类结果，训练得到与各个分组分别对应的文本分类子模型。

在具体实施中，每个分组对应一个文本分类子模型。

可以采用下述方式得到与各个分组对应的文本分类子模型：

确定与各个分组分别对应的基础分类模型；

将各个分组中的样本词汇在各个样本文本中出现的次数，作为对应的基础分类模型的自变量的值，并将各个样本文本对应的实际分类结果作为因变量的值，训练基础分类模型，得到与各个分组分别对应的文本分类子模型。

此处，基础分类模型包括：随机森林模型、逻辑回归模型、深度学习模型、决策树模型、梯度下降树模型、梯度提升树模型中一种或者多种。

不同的分组对应的基础分类模型可以相同，也可以不同。针对不同的基础分类模型，具有不同的训练方式。

若基础分类模型为随机森林模型，可以采取与上述图6对应的实施例中类似的随机森林模型构建方法，在此不再赘述。

若基础分类模型为逻辑回归模型，首先要为分组中的每个样本词汇添加第一参数，并为基础识别模型添加第二参数；然后基于分组中各个样本词汇在各个样本文本中出现的次数，构建自变量矩阵，并基于各个样本文本对应的实际分类结果构建因变量矩阵，并对由第一参数和第二参数构成的参数矩阵进行求解，得到对应的文本分类子模型。

若基础分类模型为深度学习模型，根据分组中的各个样本词汇在各个样本文本中出现的次数，构建用于表征各个样本文本的特征向量，并将各个样本文本对应的特征向量输入至深度学习模型中，得到与每个样本文本对应的模型预估分类结果；然后基于各个样本文本对应的模型预估分类结果和实际分类结果确定深度学习模型的损失，并基于确定的损失调整深度学习模型的参数。然后再次返回将各个样本文本对应的特征向量输入至深度学习模型中，得到与每个样本文本对应的模型预估分类结果的步骤。直至深度学习模型的损失满足预设的损失要求，或者直至深度学习模型对各个样本文本的分类结果不再发生变化，得到对应的本分类子模型。

基础分类模型为决策树模型、梯度下降树模型、梯度提升树模型中任意一种时，方式与生成一棵决策树的方式类似，在此不再赘述。

Ⅳ：上述S104中，示例性的，可以将各个文本分类子模型对应的子分类结果进行加权求和的方式，得到待分类文本的分类结果。

或者计算各个文本分类子模型中，子分类结果相同的数量是否达到预设数量；若达到，则将该达到预设数量的子分类结果确定为待分类文本的分类结果。此处，预设数量可以设置为大于文本分类子模型数量的一半。

或者计算各个文本分类子模型中，统计各种子分类结果的数量，并将数量最多的子分类结果确定为待分类文本的分类结果。

在本申请另一实施例中，确定待分类文本的分类结果之后，还包括：

根据分类结果，对待分类文本执行与该分类结果对应的处理操作。

实施例二

本申请实施例提供一种问题工单处理的方法，包括：

(1)采集2017年产生的人工标注了实际分类结果的问题工单，共4100个。问题工单对应的文本内容包括：标题、简要描述、解决方案等。

其中对应的实际分类结果共有42中，其中包括：“资源管理”、“双机热备”、“操作系统及数据库”、“安装部署升级”、“DBMAN”、“告警管理”、“拓扑管理”等。

(2)将各个问题工单中的文本内容合并成一个字符串，并针对合成的字符串进行分词处理，得到的样本词汇共有4601种，分别为：a₁,a₂,…,a₄₆₀₁

(3)计算各个样本词汇的重要性得分：构建随机森林模型。

在随机森林模型中某个样本词汇的重要性得分计算过程如下：

①、对于随机森林中的每一棵决策树，使用相应的测试文本来计算第一测试数据误差，记为e_k ¹；此处，测试文本为测试问题工单。

②、随机地对各个样本词汇在各个测试文本中出现的次数加入噪声干扰，再次对随机森林中的每一棵树计算第二测试数据误差，记为e_k ²。

③、假设随机森林有N棵树，那么样本词汇的重要性得分满足：

其中N表示决策树的数量；e_k ²表示第k棵决策树对应的第二测试数据误差；e_k ¹表示第k棵决策树对应的第一测试数据误差。

(4)根据各个样本词汇的重要性得分，对各个样本词汇进行聚类，得到4个分类。分别为Q、W、D、S。

(5)将每个分类中所包括的样本词汇随机分成两个子类，分别为q1、q2、w1、w2、d1、d2、s1、s2；

然后从每个分类中选择一个子类，并将选择的子类中包括的样本词汇确定为一个分组。最终得到的分组的可能有16种，也即得到16种样本词汇的分组。

(7)针对每个分组，基于该分组中包括的样本词汇在各个问题工单中出现的次数，以及各个问题工单对应的实际分类结果，生成与该分组对应的梯度下降树模型，也即文本分类子模型。

其中，16个分组对应16个梯度下降树模型。

(8)基于16个梯度下降树模型对待分类问题工单进行分类，得到与每个梯度下降树模型对应的子分类结果，并基于各个梯度下降树模型对应的子分类结果，采用投票的方式得到待分类问题工单的最终分类结果。

基于同一发明构思，本申请实施例中还提供了与文本分类方法对应的文本分类装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本分类方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

实施例三

参照图8所示，为本申请实施例三提供的一种文本分类装置的示意图，所述装置包括：获取模块81、分组模块82、分类模块83；其中：

获取模块81，用于获取待分类文本，确定样本词汇集中每个样本词汇出现在所述待分类文本中的次数；所述样本词汇集中的词汇为基于文本分类子模型进行文本分类所使用的样本词汇；

分组模块82，用于根据多个文本分类子模型分别使用的样本词汇，将所述样本词汇分成多个分组；其中，每个分组对应一个文本分类子模型，不同分组中的样本词汇不完全相同；

分类模块83，用于将每个分组中的样本词汇在所述待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到各个分组对应的子分类结果；基于各个分组对应的子分类结果，确定所述待分类文本的分类结果。

本申请实施例通过获取待分类文本中各个样本词汇在待分类文本中出现的次数，并根据多个文本分类子模型分别使用的样本词汇，将所述样本词汇分成多个分组，然后将每个分组中的样本词汇在待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到与每个分组对应的自分类结果，并基于各个分组对应的自分类结果，确定待分类文本的分类结果，具有更高的分类精度，满足较高精度的文本分类需求，进而基于该分类结果进行后续处理时，效率更高。

一种可能的实施方式中，还包括：构建模块84，用于采用下述方式构建所述样本词汇集：

获取样本文本；

根据在各个所述样本文本中出现的词汇，构建所述样本词汇集；所述样本词汇集中的样本词汇为在至少一个所述样本文本中出现的词汇。

一种可能的实施方式中，所述构建模块84，用于采用下述方式根据在各个所述样本文本中出现的词汇，构建所述样本词汇集：

对各个所述样本文本进行分词处理，获取每个所述样本文本中出现的词汇；

去除每个样本文本中出现的词汇中的停用词；

针对每个所述样本文本，从该样本文本对应的去除了停用词的词汇中，确定该样本文本对应的样本词汇；

将各个所述样本文本对应的样本词汇，确定为所述样本词汇集中的样本词汇。

一种可能的实施方式中，所述构建模块84，用于采用下述方式采用下述方法确定各个所述文本分类子模型分别使用的样本词汇：

将所述样本词汇集中的各个样本词汇按照各个样本词汇在不同样本文本中出现的次数分成多个分组；

将每个分组中的样本词汇确定为各个所述文本分类子模型分别使用的样本词汇。

一种可能的实施方式中，所述分组模块82，用于采用下述方式将所述样本词汇集中的各个样本词汇按照各个样本词汇在不同样本文本中出现的次数分成多个分组：

基于每个样本词汇在各个所述样本文本中出现的次数，确定每个所述样本词汇对应的重要性得分；

基于各个所述样本词汇对应的重要性得分，将所有所述样本词汇分成多个分组。

一种可能的实施方式中，所述分组模块82，用于采用下述方式基于每个样本词汇在各个所述样本文本中出现的次数，确定每个所述样本词汇对应的重要性得分：

基于每个所述样本词汇在各个所述样本文本中出现的次数，构建随机森林模型；所述随机森林模型中包括多棵决策树；不同决策树所使用的样本词汇不同；

基于各个所述样本词汇在各个测试文本在中出现的次数，计算与各棵决策树对应的第一测试数据误差；

针对每个样本词汇，对该样本词汇在各个所述测试文本中出现的次数加入随机噪声干扰，得到该样本词汇在各个所述测试文本中出现的干扰次数；

基于该样本词汇在各个所述测试文本中出现的干扰次数，以及除该样本词汇外的其他样本词汇在各个所述测试文本中出现的次数，计算与各棵决策树对应的第二测试数据误差；

基于所述第一测试数据误差以及所述第二测试数据误差，计算该样本词汇的重要性得分。

一种可能的实施方式中，所述分组模块82，用于采用下述方式所述基于各个所述样本词汇对应的重要性得分，将所有所述样本词汇分成多个分组：

基于各个所述样本词汇对应的重要性得分以及预设的聚类算法，将所述样本词汇分成多个分类；

针对每个分类，将该分类中包括的多个样本词汇随机分成多个子类；

从每个分类中分别选择一个子类，并将选择的所有子类中包括的样本词汇，确定为一个分组。

一种可能的实施方式中，还包括：模型训练模块85，用于采用下述方式训练得到各个所述文本分类子模型：

获取与每个所述样本文本对应的实际分类结果，并确定所述样本词汇集中每个样本词汇在各个所述样本文本中出现的次数；

根据多个文本分类子模型分别使用的样本词汇，将所述样本词汇分成多个分组；

根据各个分组中的样本词汇在各个所述样本文本中出现的次数，以及与每个所述样本文本对应的实际分类结果，训练得到与各个分组分别对应的文本分类子模型。

一种可能的实施方式中，模型训练模块85，用于采用下述方式根据各个分组中的样本词汇在各个所述样本文本中出现的次数，以及与每个所述样本文本对应的实际分类结果，训练得到与各个分组分别对应的文本分类子模型：

确定与各个分组分别对应的基础分类模型；

将各个分组中的样本词汇在各个所述样本文本中出现的次数，作为对应的基础分类模型的自变量的值，并将各个所述样本文本对应的实际分类结果作为因变量的值，训练所述基础分类模型，得到与各个所述分组分别对应的文本分类子模型。

中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

实施例四

参见图9所示，本申请实施例四还提供了一种计算机设备900，包括：

处理器91、存储器92和总线93，所述存储器92存储执行指令，当所述装置运行时，所述处理器91与所述存储器92之间通过总线93通信，所述处理器91执行所述执行指令使得所述装置执行如本申请各实施例提供的文本分类方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器91运行时执行上述文本分类方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述文本分类方法，从而解决现有技术中存在的分类精度低的问题，进而达到提高待分类文本的分类精度的效果。

本申请实施例所提供的文本分类方法以及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本分类方法，其特征在于，包括：

基于各个分组对应的子分类结果，确定所述待分类文本的分类结果；

各个所述文本分类子模型分别使用的样本词汇是通过以下步骤确定的：

获取样本文本；

从每个分类中分别选择一个子类，并将选择的所有子类中包括的样本词汇，确定为一个分组；

2.根据权利要求1所述的文本分类方法，其特征在于，采用下述方式构建所述样本词汇集：

3.根据权利要求2所述的文本分类方法，其特征在于，所述根据在各个所述样本文本中出现的词汇，构建所述样本词汇集，包括：

去除每个样本文本中出现的词汇中的停用词；

4.根据权利要求1所述的文本分类方法，其特征在于，基于每个样本词汇在各个所述样本文本中出现的次数，确定每个所述样本词汇对应的重要性得分，包括：

基于各个所述样本词汇在各个测试文本中出现的次数，计算与各棵决策树对应的第一测试数据误差；

5.根据权利要求2所述的文本分类方法，其特征在于，采用下述方式训练得到各个所述文本分类子模型：

6.根据权利要求5所述的文本分类方法，其特征在于，所述根据各个分组中的样本词汇在各个所述样本文本中出现的次数，以及与每个所述样本文本对应的实际分类结果，训练得到与各个分组分别对应的文本分类子模型，包括：

确定与各个分组分别对应的基础分类模型；

7.一种文本分类装置，其特征在于，该装置包括：

分类模块，用于将每个分组中的样本词汇在所述待分类文本中出现的次数，输入至与各个分组分别对应的文本分类子模型中，得到各个分组对应的子分类结果；基于各个分组对应的子分类结果，确定所述待分类文本的分类结果；

还包括构建模块，所述构建模块，用于采用下述方法确定各个所述文本分类子模型分别使用的样本词汇：

获取样本文本；