CN116244434A

CN116244434A - 文本分类方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN116244434A
Application number: CN202310041538.6A
Authority: CN
Inventors: 李长林; 夏粉; 肖冰; 曹磊; 罗奇帅
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2023-01-11
Filing date: 2023-01-11
Publication date: 2023-06-09

Abstract

本申请提供了一种文本分类方法、装置、电子设备和计算机可读存储介质，该方法包括：针对文本数据集合中的多个文本数据，按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别；其中，每个文本数据在一个类别数下对应有一个归属的类别；基于每个文本数据在不同的类别数下归属的类别，将多个文本数据划分为多组文本数据，同一组文本数据分别在每个类别数下归属于同一类别；根据每组文本数据在不同的类别数下归属的类别，确定每组文本数据的类别划分结果。根据本申请的实施例能够提高文本分类结果的准确性。

Description

文本分类方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉及文本分类技术领域，特别涉及一种文本分类方法、装置、电子设备和计算机可读存储介质。

背景技术

聚类是按照某种特定的规则，将数据集划分成不同的簇(组)的过程，通过聚类可以使得相同簇中的数据相似性尽可能大，不同簇之间相似性尽可能小。聚类的结果可以用于进行相应领域的数据分析和数据挖掘。聚类可被应用于多种技术领域。例如在商务领域，聚类可以帮助市场分析人员从客户基本资料库中发现不同的客户群；在生物学领域，通过聚类可以用于推导植物和动物的分类，对基因进行分类，获得对种群固有结构的认识；在地理信息领域，通过聚类可以在地球观测数据库中相似区域的确定；随着聚类应用领域的扩展，聚类也被用于对文本进行分类，因此，需要提高文本分类结果的准确性。

发明内容

本申请提供一种文本分类方法、装置、电子设备和计算机可读存储介质，可以提高文本分类结果的准确性。

第一方面，本申请提供了一种文本分类方法，该文本分类方法包括：针对文本数据集合中的多个文本数据，按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别；其中，所述每个文本数据在一个类别数下对应有一个归属的类别；基于所述每个文本数据在不同的类别数下归属的类别，将所述多个文本数据划分为多组文本数据，同一组文本数据分别在所述每个类别数下归属于同一类别；根据所述每组文本数据在不同的类别数下归属的类别，确定所述每组文本数据的类别划分结果。

第二方面，本申请提供了一种文本分类装置，该文本分类装置包括：聚类模块，用于针对文本数据集合中的多个文本数据，按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别；其中，所述每个文本数据在一个类别数下对应有一个归属的类别；划分模块，用于基于所述每个文本数据在不同的类别数下归属的类别，将所述多个文本数据划分为多组文本数据，同一组文本数据分别在所述每个类别数下归属于同一类别；确定模块，用于根据所述每组文本数据在不同的类别数下归属的类别，确定所述每组文本数据的类别划分结果。

第三方面，本申请提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的文本分类方法。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器/处理核执行时实现上述的文本分类方法。

本申请所提供的实施例，在对文本数据集合中的多个文本数据进行分类时，可以先按照预先设置的多个聚类数量进行多次聚类操作，得到多个聚类结果；然后根据多个聚类结果确定至少一组关联文本数据，每组关联文本数据中的多个文本数据分别在每个聚类结果包含的类别中属于同一类别；从而可以根据每组关联文本数据在每个聚类结果中所属的类别，对每组关联文本数据进行分类。

在本申请实施例的方法中，按照预先设置的多个类别数中的每个类别数，对文本数据集合中的多个文本数据进行聚类，得到每个文本数据在不同的类别数下归属的类别，每个文本数据在一个类别数下对应有一个归属的类别，然后根据每个文本数据在不同的类别数下归属的类别进行文本数据分组，同一组文本数据分别在每个类别数下归属于同一类别，根据该文本分类方法，先通过不同的类别数进行多个文本数据的分类(用于表示分成多少类的类别数有多个)，后续筛选出的每组文本数据是无论根据哪个类别数进行聚类，均归属于相应类别数下的同一类别，这样得到的类别划分结果，可以保证文本数据集合中的多组文本数据，根据多个类别数无论分成多少类，同一文本数据分组中的文本数据都是同类文本数据，从而可以提高文本分类得到的类别划分结果的可信程度，提高文本分类结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用来提供对本申请的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请，并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本申请实施例提供的一种文本分类方法的流程图；

图2为本申请示例性实施例提供的一种文本分类方法的流程图

图3为本申请实施例提供的一种文本分类装置的框图；

图4为本申请实施例提供的一种电子设备的框图。

具体实施方式

为使本领域的技术人员更好地理解本申请的技术方案，以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下，本申请各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本申请。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

聚类(Clustering)是一种寻找数据之间内在结构的技术，聚类把数据集中的样本数据组织成一些相似组，而这些相似组被称作簇，同一簇中的数据有很大的相似性，而不同的簇间的数据则具有很大的相异性。在数据中的表现是，具有相似特征值的个体聚在一起的可能性大，反之可能性小。

聚类可被应用于多种技术领域。举例来说：在商务领域，通过聚类可以帮助市场分析人员从客户基本资料库中发现不同的客户群，从而为不同的客户群定制不同的购买模式；在生物学领域，通过聚类可以用于推导植物和动物的分类，对基因进行分类，获得对种群固有结构的认识；在地理信息领域，通过聚类可以在地球观测数据库中确定相似的区域；在房地产领域，通过聚类可以在根据房子的类型、价值和地理位置对一个城市中房屋的分组上可以发挥作用；在文档管理领域，通过聚类可以用于对文档进行分类，是对文本信息进行挖掘的重要手段，对简化文本数据、加速文本检索等方面具有重要意义。

K-means聚类，是较为经典的基于划分的聚类方法。K-means聚类的执行过程可以包括如下步骤：S01，从数据集中随机取k个元素，作为k个簇各自的初始化的聚类中心(也称为：簇中心或质心)；S02，分别计算数据集中该k个元素之外的其他元素到k个聚类中心的距离，以距离为依据来度量k个元素之外的其他元素到k个聚类中心的相似度，将这些元素分别聚类(划分)到相似度最高的簇(距离越小则越相似)；S03，根据这些元素的聚类结果，重新计算k个簇各自的聚类中心，计算方法例如可以是对每个簇，计算簇中所有元素的均值作为新的聚类中心；S04，将数据集中全部元素按照新的聚类中心重新进行聚类；S05，对步骤S03和S04进行迭代，直到执行过程收敛，执行过程收敛的含义是：通过有限次的迭代可以达到聚类结果的输出条件(例如聚类结果不再变化)；S06，将聚类结果输出。

通过K-means聚类的执行过程可以看出，聚类处理首先需要完成的就是初始化k个聚类中心，然后需要根据每次聚类结果确定新的聚类中心，使得相同簇中的数据相似性尽可能大，不同簇之间相似性尽可能小。

但K-means聚类存在如下问题：K-means聚类需要预先给定K值，而在对数据不了解的情况下，很难给出合理的k值；K-Means聚类对初始选取的聚类中心是敏感的，对于同一数据集，不同的随机聚类中心得到的聚类结果完全不同，对结果影响很大；K-means聚类对噪声敏感，含少量噪声数据就能对平均值造成极大的影响；以及，采用迭代方法，可能只能得到局部的最优解，而无法得到全局的最优解。可见，K-means聚类的执行过程收敛情况很大程度上依赖于聚类中心的初始化，当若初始化的聚类中心选取不得当，聚类结果可能会出现错误，极大的影响了聚类结果的准确性。

相关技术中，通过K-means++在初始化聚类中心的方式上做了改进。k-means++是一种为k-means聚类算法选择初始化的聚类中心的算法。k-means++的执行过程可以包括如下步骤：第一步，从数据集中随机(均匀分布)选取一个样本点(样本数据)作为第一个初始聚类中心；第二步，接着计算每个样本与当前已有聚类中心之间的最短距离，然后计算每个样本点被选为下一个聚类中心的概率，最后选择最大概率值所对应的样本点作为下一个簇中心。可见，距离现有簇中心越远的样本点，越可能被选为下一个簇中心；第三步，重复第二步，直到选择出k个聚类中心；第四步，计算并比较剩余样本点到k个聚类中心距离的大小，并据此划分到不同的聚类中心，完成聚类。该方法在数据不均衡的情况下，聚类效果不佳；且由于聚类中心选择过程中的内在有序性，第k个聚类中心点的选择依赖前k-1个聚类中心点的取值，计算过程的时间复杂度和空间复杂度相对较高。

根据本申请实施例的文本分类方法可以由终端设备或服务器等电子设备执行，终端设备可以为车载设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，该文本分类方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。服务器可以包括独立的物理服务器、有多个服务器组成的服务器集群或者能够进行云计算的云服务器。

图1为本申请实施例提供的一种文本分类方法的流程图。参照图1，该文本分类方法可以包括以下步骤。

S110，针对文本数据集合中的多个文本数据，按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别；其中，每个文本数据在一个类别数下对应有一个归属的类别。

在一些实施例中，文本数据集合可以是不同应用场景中的文本数据的集合。示例性地，文本数据可以包括：文本摘要(例如新闻文本摘要、法律文本摘要等)、历史通话数据中的对话文本、古诗和现代诗等；文本数据集合例如还可以是大规模的纯文本数据集(例如百科、新闻、知道问答等文本数据)。应理解，本申请实施例对文本数据集合的应用场景和具体内容不做具体限定。

在步骤S110，类别数用于表征对文本数据集合中的多个文本数据进行聚类时的聚类中心的数量，每个类别数对应于一次聚类操作。举例来说，将类别数(也可以称为聚类数量、聚类中心数)表示为k值，多个k值例如可以为：20，25和30；k＝20时，k值为20，表示将文本数据集合中的多个文本数据在20个聚类中心下进行分类，每个文本数据归属于20个类别中的一个类别；k＝25时，k值为25，表示将文本数据集合中的多个文本数据在25个聚类中心下进行分类，每个文本数据归属于25个类别中的一个类别；k＝30时，k值为30，表示将文本数据集合中的多个文本数据在30个聚类中心下进行分类，每个文本数据归属于30个类别中的一个类别。

S120，基于每个文本数据在不同的类别数下归属的类别，将多个文本数据划分为多组文本数据，同一组文本数据分别在每个类别数下归属于同一类别。

作为示例，假设文本数据集合中的多个文本数据包括：Test1、Test2、……、TestM，经过上述步骤的处理，得到每个文本数据在不同类别数下的归属的类别，并根据该每个文本数据在不同类别数下的归属的类别，对Test1、Test2、……、TestM进行分组，得到多组文本数据，在多组文本数据中，同一组文本数据分别在每个类别数下归属于同一类别。

例如，若一组文本数据中包括如下3个文本：Test1、Test2和Test3，假设多个k值为：20，25和30；k值为20时，在20这个类别数下([A1,A2,...,A20])，Test1、Test2和Test3例如均属于A1类；k值为25时，在25这个类别数下([B1,B2,...,B25])，Test1、Test2和Test3例如均属于B5类；k值为30时，在30这个类别数下([C1,C2,...,C30])，Test1、Test2和Test3例如均属于C6类。通过该步骤，可以从文本数据集合的多个文本数据中，获得多个文本数据分组，多个文本数据无论分成多少个类别，同一组文本数据分别在每个类别数下归属于同一类别。

S130，根据每组文本数据在不同的类别数下归属的类别，确定每组文本数据的类别划分结果。

作为示例，对于Test1、Test2和Test3这一组文本数据而言，这组文本数据在20这个类别数下归属于同一类别(A1类)，在25这个类别数下归属于同一类别(B5类)，以及在30这个类别数下归属于同一类别(C6类)，确定该组文本数据的类别划分结果为该组文本数据为同一类别下的数据。也就是说，Test1、Test2和Test3这一组文本数据可以被划分到由A1类、B5类和C6类确定的一个类别名称对应的类别下。

根据本申请实施例的文本分类方法，按照预先设置的多个类别数中的每个类别数，对文本数据集合中的多个文本数据进行聚类，得到每个文本数据在不同的类别数下归属的类别，每个文本数据在一个类别数下对应有一个归属的类别，然后根据每个文本数据在不同的类别数下归属的类别进行文本数据分组，同一组文本数据分别在每个类别数下归属于同一类别，根据该文本分类方法，先通过不同的类别数进行多个文本数据的分类(用于表示分成多少类的类别数有多个)，后续筛选出的每组文本数据是无论根据哪个类别数进行聚类，均归属于相应类别数下的同一类别，这样得到的类别划分结果，可以保证文本数据集合中的多组文本数据，根据多个类别数无论分成多少类，同一文本数据分组中的文本数据都是同类文本数据，从而可以提高文本分类得到的类别划分结果的可信程度，提高文本分类结果的准确性。

在一些实施例中，在步骤S110中的按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别之前，文本分类方法还可以包括：S11，设置多个类别数量的类别基值；S12，根据类别基值以预定步长进行预定数量次递增和/或预定数量次递减，得到多个不同的类别数；S13，将类别基值和多个不同的类别数，作为预先设置的多个类别数。

在步骤S11中，类别基值为设置的类别数的基础参考值，基于类别基值进行类别数的扩展，得到围绕类别基值展开的多个类别数。举例来说，类别基值可以是多个类别数的平均值。

在一些实施例中，则多个类别数可以表示为下面的公式(1)：

k∈∑_i＝0n±d*i (1)

在上述公式(1)中，k表示类别数，n为类别数量的类别基值，d表示不同k值间的步长，示例性地，d的取值区间为[2,5]；i表示以d为步长进行递增和/或递减的预定数量，例如i可以是最大k值和最小k值距离k的类别基值相差步长的个数，示例性地，i的取值区间为[3,5]。假设n＝40，d＝5，i＝4，则k的取值为[20,25,30,35,40,45,50,55,60]。其中，类别基值为40，k取值中的45，50，55和60是根据类别基值40以5为步长进行4次递增时，每次递增获得的类别增设值；k取值中的35，30，25，20是根据类别基值40以5为步长进行4次递减，每次递减获得的类别增设值。

在该实施例中，以类别基值为基础，以预定步长进行递增/或递减，即可获得大量可用的类别数，有利于解决传统方法中k值确定困难的问题，为按照每个类别数进行聚类提供了数据准备。

在一些实施例中，类别基值，是根据业务场景中文本数据集合的预定基础类别数量确定的经验数值；或者，类别基值是对文本数据集合进行随机无放回的数据抽取后，对抽取的文本数据进行人工分类得到的类别数量。

在该实施例中，可以依据数据的先验知识确定聚类数量的基值，如数据来源的业务场景为话术挖掘，假设该场景中的基础话术的分类有n个，则设置k的基值为n；在其他场景中，假设文本数据集合中的文本总数量为T，T为大于或等于1的整数；若T小于预设第一数值(文本总数量较少)，则可以设置k的基值为

的计算结果向上取整或向下取整，也可以设置k的基值为log(T)的计算结果向上取整或向下取整；若文本数据集合中的文本数据条数T大于或等于该第一数值(文本总数量较多)，则可以设置k的基值为/>

其中，第一数值可以是用户设定的任何数值，此处不作任何限定。

可选的，还可以对数据集的多个文本数据进行随机无放回的数据抽取，并对抽取的数据人工进行分类，得到的类别数即可设置为类别基值。在本申请实施例中，类别基值的选择并非由用户随机指定，而是依据先验知识或人工分类的结果，为多个类别数的设置提供了可信依据。

在一些实施例中，步骤S110具体可以包括：S21，对文本数据集合中的每条文本数据进行特征映射；S22，根据特征映射得到的每条文本数据的特征向量，得到文本特征向量集合；S23，按照每个类别数，对文本特征向量集合中的每个文本特征向量进行分类，得到每个文本特征向量在不同类别数下归属的类别；S24，将每个文本特征向量在不同类别数下归属的类别，作为每个文本数据在不同类别数下归属的类别。

在步骤S21，可以通过文本特征算法对文本数据进行特征映射，特征映射也称文本表征或编码表示，特征映射可以通过如下方法中的任一种来实现，例如文本深度表示(Wordto Vector，word2vec)模型、通用语义表示模型(Bidirectional EncoderRepresentations from Transformers，Bert)、句子嵌入的简单对比学习(SimpleContrastive Learning of Sentence Embeddings，Simcse)技术等。其中，Bert模型是一种双向Transformer的编码器，输入自然语言语句，经过训练可得到语句中各个组成单元的编码表示；word2vec模型是通过将语料中的所有词映射到高维空间，并得到每个词所对应的高维空间量；Simcse是采用对比学习框架进行句子嵌入的方法，使用SimCSE算法对语言模型进行无监督训练，从而增强模型语义表征能力和泛化能力。

在步骤S23，可以使用K-means或K-means++算法，按照多个聚类数量对文本特征向量集合中的多个文本特征向量进行多次分类，得到多个分类结果。

在该实施例中，可以按文本数据的内在相似性将文本数据集中的多个文本数据进行分类，而文本数据的特征向量用于表征文本数据的内在特征，因此，可以根据特征映射得到的每条文本数据的特征向量，并按照多个类别数中的每个类别数，对文本特征向量集合中的多个文本特征向量进行分类，将每个文本特征向量在不同类别数下归属的类别，作为对应文本数据在不同类别数下归属的类别，为后续基于每个文本数据在不同的类别数下归属的类别对文本数据集合中的多个文本数据进行分组提供数据基础。

在一些实施例中，步骤S120具体可以包括：

S31，从文本数据集合中获取第一文本数据作为当前文本数据，将当前文本数据分别在每个类别数下归属的类别作为当前各个类别，第一文本数据为文本数据集合中的任一文本数据。

作为示例，假设从文本数据集合中获取的文本数据为Text1，即当前文本数据为Text1，当前各个类别为Text1在不同类别数下归属的类别。

S32，在当前各个类别包括的多个文本数据中，获取各个类别共同包含的文本数据作为第一组文本数据。

作为示例，对于当前文本数据Text1，类别数为20时，在20个类中[A1,A2,...,A20]，有且只有一个A1类包含Text1，获取A1类包括的多个文本数据；类别数为25时，在25个类中[B1,B2,...,B25]，有且只有一个B5类包含Text1，获取B5类包括的多个文本数据；……；以此类推，可以获取到Text1所归属的当前各个类别包括的多个文本数据；通过对当前各个类别包括的多个文本数据取交集，将交集中的文本数据作为各个类别共同包含的文本数据，即第一组文本数据。

S33，从文本数据集合中获取第二文本数据作为新的当前文本数据，第二文本数据为文本数据集合去除已分组的第一组文本数据后的任一文本数据。

S34，将所述新的当前文本数据分别在每个类别数下归属的类别作为新的当前各个类别。

S35，在新的当前各个类别包括的多个文本数据中，获取各个类别共同包含的文本数据作为第二组文本数据，直到文本数据集合中的每个文本数据均被分组，得到划分的多组文本数据。

在本申请实施例中，对文本数据集中的多条文本数据依次进行遍历，找到不同类别数下，无论根据哪个类别数进行分类，均属于在相应类别数下同一类别的文本数据，这样得到的类别划分结果，可以保证文本数据集合中的多组文本数据，无论根据哪个类别数进行聚类，同一文本数据分组中的文本数据都是同类文本数据，从而可以提高类别划分结果的可信程度，提高文本分类的类别划分结果的准确性。

在一些实施例中，步骤S130具体可以包括：S41，将第i组文本数据在不同的类别数下归属的类别，作为第i组文本数据的各个类别，其中，i依次为1到n的整数，n为多个文本数据被划分的总组数；S42，设置与第i组文本数据的各个类别对应的一个类别名称；S43，统计第i组文本数据中的文本个数；S44，在文本个数大于预定数量阈值的情况下，将第i组文本数据划分到类别名称对应的文本类别，作为第i组文本数据的类别划分结果。

在步骤S43之后，还包括：S45，在文本个数小于或等于预定数量阈值的情况下，将第i组文本数据作为噪音文本数据。

在步骤S44和S45中，预定数量阈值，是计算文本数据集合中的文本数据总个数与预先设置的类别数量的类别基值的比值得到的数值。例如，文本数据集合中的文本总数量为T，预先设置的类别基值为t，则预定数量阈值为T与t的比值，即T/t，可选的，预定数量阈值也可以是用户设定的任何数值，此处不作任何限定。

在本申请实施例中，进行聚类的文本数据集合中的多条文本数据是无序的或者说是无标签的，文本分类的目的是找出同类别的数据且保证准确率尽量高，所以不需要每一条文本数据都要保留，通过判断每组文本数据中文本数据的个数是否大于预定数量阈值，对多组文本数据进行筛选，而T/t为文本数量平均值，表示在类别基值下的每个类别平均含有多少条文本数据。在本申请实施例中，保留下来的每个文本数据分组对应一个类别名称，每个类别名称对应类别划分结果中的一个类别，删除文本数据过少(小于或等于T/t)的文本数据分组，只保留文本数据满足要求(大于T/t)的文本数据分组，即文本数据集合中的多个文本数据最后得到的文本分类结果，为多组文本数据，每组文本数据中包括个数大于预设数量阈值的多个文本数据，该多组文本数据可能包括了文本数据集合中的每个文本数据，或者部分文本数据。可见，本示例中可以在兼顾类别数目保持一定数量的同时，剔除噪音文本数据(即文本数据集合中，和其他文本数据相似度较低的文本数据)，从而，提升类别划分结果的可靠性和准确性，减少后期对文本数据进行使用时的数据处理量，提高数据处理效率。

根据本申请的实施例，通过不同的类别数进行多个文本数据的分类(用于表示分成多少类的类别数有多个)，后续筛选出的每组文本数据是无论根据哪个类别数进行聚类，均归属于相应类别数下的同一类别，这样得到的类别划分结果，可以保证文本数据集合中的多组文本数据，根据多个类别数无论分成多少类，同一文本数据分组中的文本数据都是同类文本数据，从而可以提高文本分类得到的类别划分结果的可信程度，提高文本分类结果的准确性；任何指定类别基值的文本分类，均适用本申请实施例的文本分类方法，因此本申请实施例的方法具备良好的通用性和迁移性。

图2为本申请示例性实施例的文本分类方法的流程图。在话术挖掘的业务场景中，利用挖掘到的坐席话术文本建立坐席话术知识库，智能陪练机器人可以根据坐席话术知识库中的坐席话术文本对新人坐席进行话术陪练，便于新人坐席快速熟悉业务并掌握良好的沟通技巧。在坐席话术知识库的建立阶段，通常需要人工去大量历史通话文本数据中提炼话术文本并进行分类，这需要耗费大量的人力。通过本申请的文本分类方法，可以对历史通话数据进行处理，可得到分类后的坐席话术文本。

在一些实施例中，如图2所示，该文本分类方法包括如下步骤。

S201，输入多条文本数据。

在该步骤中，待聚类数据包括多条文本数据，具体地，待聚类数据为多条历史通话文本数据。

S202，根据多个类别数中的每个类别数对多条文本数据进行聚类，得到每个文本数据在不同的类别数下归属的类别。

在该步骤中，可以依据先验知识设置类别基值；示例性地，若坐席话术知识库中预设基础话术的分类为30个，则设置k的基值为30；若坐席话术知识库中预设基础话术的分类为40个，则设置k的基值为40；若坐席话术知识库中预设基础话术的分类为其他数值，则设置k的基值为与该其他数值相同的数值。

可选地，可以从多条历史通话文本数据中随机无放回的抽取部分数据并进行人工分类，得到类别数即可设置为类别基值，并依据类别基值以及上述公式(1)，得到多个类别数。

S203，从多条文本数据中取出一条文本数据，获取该条文本数据在不同类别数下归属的各个类别。

在该步骤中，从多条历史通话文本数据中取出一条历史通话文本数据，并获取该条历史通话文本数据在不同类别数下归属的各个类别。

S204，对该条文本数据在不同类别数下归属的各个类别中的文本数据取交集。

在该步骤中，可以对该条历史通话文本数据在不同类别数下归属的各个类别中的文本数据取交集，将交集中的历史通话文本数据作为一个文本数据分组，即第一组文本数据。

S205，遍历多条文本数据中的后续每条文本数据并执行循环处理。

在该步骤中，后续每条被遍历的文本数据，为多条历史通话文本数据中去除已分组的第一组文本数据后的任一历史通话文本数据，循环处理包括步骤S203中的获取该条文本数据在不同类别数下归属的各个类别以及步骤S204，得到多个文本数据分组。

S206，统计每个文本数据分组中的文本数据数量，剔除噪音数据。

在该步骤中，每个文本数据分组对应一个类别名称，一个类别名称代表该文本数据分组在类别划分结果中的一个类别，多个类别例如可以包括：类别γ_1,类别γ_2,类别γ_3，……，γ_s等多个类别，s为大于或等于1的整数。统计γ_1，类别γ_2，类别γ_3，……，γ_s中每个类别中包含的文本数据的数量，即每个类别中包含的历史通话文本数据的数量。

在该步骤中，若一个文本数据分组中的文本数据数量大于预定数量阈值，则保留该文本数据分组，否则，将该文本数据分组作为噪音数据并剔除噪音数据。

S207，输出类别划分结果。

在该步骤中，将文本数据数量大于预定数量阈值的文本数据分组，划分到类别名称对应的文本类别，对于每个类别名称对应的文本类别，将该文本类型对应的文本数据分组中的历史通话文本数据，作为挖掘到的一个文本类型的坐席话术文本。

在本申请实施例中，通过不同的类别数进行多个文本数据的分类(用于表示分成多少类的类别数有多个)，后续筛选出的每组文本数据是无论根据哪个类别数进行聚类，均归属于相应类别数下的同一类别，这样得到的类别划分结果，可以保证文本数据集合中的多组文本数据，根据多个类别数无论分成多少类，同一文本数据分组中的文本数据都是同类文本数据，从而可以提高文本分类得到的类别划分结果的可信程度，提高文本分类结果的准确性。

可以理解，本申请提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本申请不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本申请还提供了文本分类装置、电子设备、计算机可读存储介质，上述均可用来实现本申请提供的任一种文本分类方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图3为本申请实施例提供的一种文本分类装置的框图。参照图3，本申请实施例提供了一种文本分类装置300，该文本分类装置300可以包括如下模块。

聚类模块310，用于针对文本数据集合中的多个文本数据，按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别；其中，每个文本数据在一个类别数下对应有一个归属的类别；

划分模块320，用于基于每个文本数据在不同的类别数下归属的类别，将多个文本数据划分为多组文本数据，同一组文本数据分别在每个类别数下归属于同一类别；

确定模块330，用于根据每组文本数据在不同的类别数下归属的类别，确定每组文本数据的类别划分结果。

在一些实施例中，文本分类装置300还包括类别数生成模块，用于在按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别之前，设置多个类别数的类别基值；根据类别基值以预定步长进行预定数量次递增和/或预定数量次递减，得到多个不同的类别数；将类别基值和多个不同的类别数，作为预先设置的多个类别数。

在一些实施例中，聚类模块310，具体用于：对文本数据集合中的每条文本数据进行特征映射；根据特征映射得到的每条文本数据的特征向量，得到文本特征向量集合；按照每个类别数，对文本特征向量集合中的每个文本特征向量进行分类，得到每个文本特征向量在不同类别数下归属的类别；将每个文本特征向量在不同类别数下归属的类别，作为每个文本数据在不同类别数下归属的类别。

在一些实施例中，划分模块320，具体用于从文本数据集合中获取第一文本数据作为当前文本数据，将当前文本数据分别在每个类别数下归属的类别作为当前各个类别，第一文本数据为文本数据集合中的任一文本数据；在当前各个类别包括的多个文本数据中，获取各个类别共同包含的文本数据作为第一组文本数据；从文本数据集合中获取第二文本数据作为当前文本数据，第二文本数据为文本数据集合去除已分组的第一组文本数据后的任一文本数据；将当前文本数据分别在每个类别数下归属的类别作为当前各个类别；在当前各个类别包括的多个文本数据中，获取各个类别共同包含的文本数据作为第二组文本数据，直到文本数据集合中的每个文本数据均被分组，得到划分的多组文本数据。

在一些实施例中，确定模块330，具体用于：将第i组文本数据在不同的类别数下归属的类别，作为第i组文本数据的各个类别，其中，i依次为1到n的整数，n为多个文本数据被划分的总组数；设置与第i组文本数据的各个类别对应的一个类别名称；统计第i组文本数据中的文本个数；在文本个数大于预定数量阈值的情况下，将第i组文本数据划分到类别名称对应的文本类别，作为第i组文本数据的类别划分结果。

在一些实施例中，确定模块330，在具体用于统计第i组文本数据中的文本个数之后，还具体用于：在文本个数小于或等于预定数量阈值的情况下，将第i组文本数据作为噪音文本数据。

在一些实施例中，预定数量阈值，是计算文本数据集合中的文本数据总个数与预先设置的类别数量的类别基值的比值得到的数值。

根据本申请实施例的文本分类装置，按照预先设置的多个类别数中的每个类别数，对文本数据集合中的多个文本数据进行聚类，得到每个文本数据在不同的类别数下归属的类别，每个文本数据在一个类别数下对应有一个归属的类别，然后根据每个文本数据在不同的类别数下归属的类别进行文本数据分组，同一组文本数据分别在每个类别数下归属于同一类别，根据该文本分类方法，先通过不同的类别数进行多个文本数据的分类(用于表示分成多少类的类别数有多个)，后续筛选出的每组文本数据是无论根据哪个类别数进行聚类，均归属于相应类别数下的同一类别，这样得到的类别划分结果，可以保证文本数据集合中的多组文本数据，根据多个类别数无论分成多少类，同一文本数据分组中的文本数据都是同类文本数据，从而可以提高文本分类得到的类别划分结果的可信程度，提高文本分类结果的准确性。

需要明确的是，本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图4为本申请实施例提供的一种电子设备的框图。

参照图4，本申请实施例提供了一种电子设备，该电子设备包括：至少一个处理器401；至少一个存储器402，以及一个或多个I/O接口403，连接在处理器401与存储器402之间；其中，存储器402存储有可被至少一个处理器401执行的一个或多个计算机程序，一个或多个计算机程序被至少一个处理器401执行，以使至少一个处理器401能够执行上述的文本分类方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，计算机程序在被处理器/处理核执行时实现上述的文本分类方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本申请实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当计算机可读代码在电子设备的处理器中运行时，电子设备中的处理器执行上述文本分类方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。

如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本申请的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种文本分类方法，其特征在于，包括：

针对文本数据集合中的多个文本数据，按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别；其中，所述每个文本数据在一个类别数下对应有一个归属的类别；

基于所述每个文本数据在不同的类别数下归属的类别，将所述多个文本数据划分为多组文本数据，同一组文本数据分别在所述每个类别数下归属于同一类别；

根据每组文本数据在不同的类别数下归属的类别，确定所述每组文本数据的类别划分结果。

2.根据权利要求1所述的方法，其特征在于，在所述按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别之前，所述方法还包括：

设置所述多个类别数的类别基值；

根据所述类别基值以预定步长进行预定数量次递增和/或预定数量次递减，得到多个不同的类别数；

将所述类别基值和所述多个不同的类别数，作为所述预先设置的多个类别数。

3.根据权利要求2所述的方法，其特征在于，所述类别基值，是根据业务场景中文本数据集合的预定基础类别数量确定的经验数值；

或者，所述类别基值是对文本数据集合进行随机无放回的数据抽取后，对抽取的文本数据进行人工分类得到的类别数量。

4.根据权利要求1所述的方法，其特征在于，所述针对文本数据集合中的多个文本数据，按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别，包括：

对所述文本数据集合中的每条文本数据进行特征映射；

根据特征映射得到的每条文本数据的特征向量，得到文本特征向量集合；

按照所述每个类别数，对所述文本特征向量集合中的每个文本特征向量进行分类，得到所述每个文本特征向量在不同类别数下归属的类别；

将每个文本特征向量在不同类别数下归属的类别，作为所述每个文本数据在不同类别数下归属的类别。

5.根据权利要求1所述的方法，其特征在于，所述基于所述每个文本数据在不同的类别数下归属的类别，将所述多个文本数据划分为多组文本数据，包括：

从所述文本数据集合中获取第一文本数据作为当前文本数据，将所述当前文本数据分别在每个类别数下归属的类别作为当前各个类别，所述第一文本数据为所述文本数据集合中的任一文本数据；

在所述当前各个类别包括的多个文本数据中，获取所述各个类别共同包含的文本数据作为第一组文本数据；

从所述文本数据集合中获取第二文本数据作为新的当前文本数据，所述第二文本数据为所述文本数据集合去除已分组的所述第一组文本数据后的任一文本数据；

将所述新的当前文本数据分别在每个类别数下归属的类别作为新的当前各个类别；

在所述新的当前各个类别包括的多个文本数据中，获取所述各个类别共同包含的文本数据作为第二组文本数据，直到所述文本数据集合中的每个文本数据均被分组，得到划分的多组文本数据。

6.根据权利要求1所述的方法，其特征在于，所述根据每组文本数据在不同的类别数下归属的类别，确定所述每组文本数据的类别划分结果，包括：

将第i组文本数据在不同的类别数下归属的类别，作为所述第i组文本数据的各个类别，其中，i依次为1到n的整数，n为所述多个文本数据被划分的总组数；

设置与所述第i组文本数据的各个类别对应的一个类别名称；

统计所述第i组文本数据中的文本个数；

在所述文本个数大于预定数量阈值的情况下，将所述第i组文本数据划分到所述类别名称对应的文本类别，作为所述第i组文本数据的类别划分结果。

7.根据权利要求6所述的方法，其特征在于，在所述统计所述第i组文本数据中的文本个数之后，所述方法还包括：

在所述文本个数小于或等于所述预定数量阈值的情况下，将所述第i组文本数据作为噪音文本数据。

8.一种文本分类装置，其特征在于，包括：

聚类模块，用于针对文本数据集合中的多个文本数据，按照预先设置的多个类别数中的每个类别数进行聚类，得到每个文本数据在不同的类别数下归属的类别；其中，所述每个文本数据在一个类别数下对应有一个归属的类别；

划分模块，用于基于所述每个文本数据在不同的类别数下归属的类别，将所述多个文本数据划分为多组文本数据，同一组文本数据分别在所述每个类别数下归属于同一类别；

确定模块，用于根据每组文本数据在不同的类别数下归属的类别，确定所述每组文本数据的类别划分结果。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的文本分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的文本分类方法。