CN110717039A

CN110717039A - 文本分类方法和装置、电子设备、计算机可读存储介质

Info

Publication number: CN110717039A
Application number: CN201910877110.9A
Authority: CN
Inventors: 郑立颖; 徐亮; 阮晓雯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2020-01-21
Anticipated expiration: 2039-09-17
Also published as: CN110717039B; WO2021051560A1

Abstract

本申请揭示了一种文本分类方法及装置，涉及人工智能技术领域。该方法包括：通过对待分类文本进行分词处理，获得所述待分类文本对应的分词集合；根据预设的词向量词典对所述分词集合进行向量化处理，获得所述待分类文本对应的词向量集合，所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量；通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测，所述标签预测模型是共同根据所述训练集和测试集进行训练得到的，所述测试集用于修正所述训练集中的错误数据；获取所述标签预测模型所输出的预测结果，所述预测结果对应于所述待分类文本所对应的文本类别。本申请能够极大提升文本分类的准确性。

Description

文本分类方法和装置、电子设备、计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种文本分类方法及装置、电子设备、计算机可读存储介质。

背景技术

随着网络技术的快速发展，对于电子文本信息进行有效组织和管理，并且快速且全面地从中获取相关信息的要求越来越高。文本分类作为信息处理的重要研究方向，是解决文本信息发现的常用方法。

文本分类是将自然语句按照一定的分类体系或标准进行自动分类且标记相应类别的技术，文本分类的处理大致分为文本预处理、文本特征提取和分类模型构建等阶段。由于文本分类的处理过程繁杂，容易因为一些常见错误导致无法对自然语句进行准确分类。因此，如何提高文本分类的准确度，是相关领域的技术人员不断研究的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

基于上述技术问题，本申请提供了一种文本分类方法及装置、电子设备、计算机可读存储介质。

本申请所揭示的技术方案包括：

一种文本分类方法，包括：通过对待分类文本进行分词处理，获得所述待分类文本对应的分词集合；根据预设的词向量词典对所述分词集合进行向量化处理，获得所述待分类文本对应的词向量集合，所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量；通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测，所述标签预测模型是共同根据所述训练集和测试集进行训练得到的，所述测试集用于修正所述训练集中的错误数据；获取所述标签预测模型所输出的预测结果，所述预测结果对应于所述待分类文本所对应的文本类别。

在一个示例性实施例中，在所述通过对待分类文本进行分词处理，获得所述待分类文本的分词集合之前，所述方法还包括：获取待进行词向量训练的语料分词词库；对所述语料分词词库中的各分词，分别通过快速文本模型的连续跳跃元语法模式和词嵌入模型进行词向量训练，获得所述分词对应的快速文本向量和词嵌入向量；通过计算分词所对应快速文本向量和词嵌入向量的平均向量，获取所述平均向量为所述分词对应的向量表达；获取所述语料分词词库中每一分词所对应向量表达形成所述词向量词典。

在一个示例性实施例中，所述连续跳跃元语法模式下的子字长度参数用于指示将所述分词拆解为1个字或者2个字进行所述词向量训练。。

在一个示例性实施例中，在所述通过对待分类文本进行分词处理，获得所述待分类文本的分词集合之前，所述方法还包括：按照设定比例，将待进行标签预测模型训练的标注语料划分为训练集和测试集，所述标注语料含有标注的类别标签；根据所述训练集对待训练的标签预测模型进行初始训练；对初始训练所得标签预测模型，分别通过所述训练集和测试集进行组合训练，根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正；根据修正得到的类别标签对所述训练集更新，且通过所述测试集和更新所得训练集迭代执行所述标签预测模型的训练过程，直至所述标签预测模型收敛。

在一个示例性实施例中，所述根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正，包括：根据所述标签预测模型所输出结果，分别计算所述标签预测模型为所述训练集和测试集进行标签预测的准确率；在所述训练集和测试集对应的准确率均低于设定的准确率阈值时，筛选所述训练集中预测标签结果与所标注类别标签不一致的训练样本集合；通过计算所述训练样本集合中预测结果正确且类别标签标注错误的概率，获得所述训练样本集合对应的预测概率值；在所述预测概率值低于设定的概率阈值时，获取人工输入的类别标签对所述训练样本集合中训练样本所标注类别标签进行修正。

一种文本分类装置，包括：分词处理模块，用于通过对待分类文本进行分词处理，获得所述待分类文本对应的分词集合；向量化处理模块，用于根据预设的词向量词典对所述分词集合进行向量化处理，获得所述待分类文本对应的词向量集合，所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量；标签预测模块，用于通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测，所述标签预测模型是共同根据所述训练集和测试集进行训练得到的，所述测试集用于修正所述训练集中的错误数据；类别获取模块，用于获取所述标签预测模型所输出的预测结果，所述预测结果对应于所述待分类文本所对应的文本类别。

一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前任一项所述的文本分类方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前任一项所述的文本分类方法。

本申请实施例提供的技术方案可以包括以下有益效果：

在上述技术方案中，对待分类文本进行分词处理获得分词集合后，先根据词向量词典对分词集合进行向量化处理得到待分类文本对应词向量集合，然后通过标签预测模型对词向量集合进行类别标签预测，由于词向量词典中融合有分词对应的快速文本向量和词嵌入向量，能够对待分类文本中的未登录词和错别字具有容错性，使得待分类文本进行分词向量化的过程更加准确，此外，由于标签预测模型是共同根据训练集和测试集进行训练得到的，相比传统标签预测模型仅根据训练集进行训练得到，本申请在标签预测模型的训练中能够根据测试集对训练集中的错误数据自动修正，从而优化所训练标签预测模型的准确度。因此，基于更加准确的分词向量和标签预测模型，能够极大程度地提高文本分类的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的本申请所涉及实施环境的示意图；

图2是根据一示例性实施例示出的一种服务器的硬件框图；

图3是根据一示例性实施例示出的一种文本分类方法的流程图；

图4是根据另一示例性实施例示出的一种文本分类方法的流程图；

图5是根据另一示例性实施例示出的一种文本分类方法的流程图；

图6是图5所示步骤550在一个实施例的流程图；

图7是根据一示例性实施例所示出的一种文本分类装置的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种本申请所涉及实施环境的示意图。如图1所示，该实施环境包括文本获取客户端100和文本处理服务端200。

其中，文本获取客户端100与文本服务端200之间预先建立有线或者无线网络连接，以实现文本获取客户端100与文本服务端200之间的交互。

文本获取客户端100用于获取文本信息，并将获取的文本信息传输至文本服务端200进行相应处理。例如，在智能面试的应用场景中，文本获取客户端100为智能面试终端，不仅用于向面试者展示面试题目，同时还获取面试者输入的文本信息，并且在面试者输入为语音时，通过对输入语音进行智能识别，以将输入语音转换为输入文本。

示例性的，文本获取客户端100可以是智能手机、平板电脑、笔记本电脑、计算机等电子设备，其数量不作限制(图1仅示出2个)。

文本服务端200用于对文本获取客户端100所传输的文本信息进行相应处理，以实现文本获取客户端100所对应的功能。例如，在上述智能面试场景中，文本服务端200用于根据文本获取客户端100传输的文本信息，对面试者的面试表现进行评分，实现面试成绩的智能评估。

文本服务端200在进行文本信息处理时，不可避免地需要对所接收的文本信息进行分类处理，由此，在本实施环境中，由文本服务端200执行待分类文本的分类处理。

示例性的，文本服务端200可以是一台服务器，也可以是由若干服务器构成的服务器集群，本处不进行限制。

图2是根据一示例性实施例所示出的一种服务器的框图。该服务器可以被具体实现为图1所示实施环境中的文本服务端200。

需要说明的是，该服务器只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图2中示出的示例性的服务器中的一个或者多个组件。

该服务器的硬件结构可因配置或者性能的不同而产生较大的差异，如图7所示，服务器包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU，CentralProcessing Units)270。

其中，电源210用于为服务器上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，用于与外部设备通信。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253或者数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制服务器上的各硬件设备以及应用程序253，以实现中央处理器270对海量数据255的计算与处理，其可以是Windows ServerTM、Mac OSXTM、UnixTM、LinuxTM等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对服务器的一系列计算机可读指令。数据255可以是存储于磁盘中的接口元数据等。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过总线与存储器250通信，用于运算与处理存储器250中的海量数据255。

如上面所详细描述的，适用本申请的服务器将通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成以下实施例所述的文本分类方法。

此外，通过硬件电路或者硬件电路结合软件指令也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

图3是根据一例性实施例示出的一种文本方法的流程图，该方法适用于图1所示实施环境中的文本服务端200，以实现对输入文本的分类处理。

如图3所示，该文本分类方法至少包括以下步骤：

步骤310，通过对待分类文本进行分词处理，获得待分类文本对应的分词集合。

如前所述，文本分类是对待分类文本按照一定分类体系进行自动分类标记的过程，整个文本分类过程均由计算机设备自动执行。在对待分类文本的自动分类执行中，计算机设备无法处理一些常见错误，例如，待分类文本中存在未登录词或者错别字，导致计算机设备无法准确获知待分类文本的含义，从而导致计算机设备对待分类文本的分类准确度不高。

为了解决该问题，本实施例提供了一种文本分类方法，能够对待分类文本中存在的未登录词和错别字具有很高的容错性，从而提升对待分类文本执行文本分类的准确性。

应当理解，未登录词是指待分类文本中，无法在训练好的词向量词典中直接找到的词。例如“知识库”是在计算机技术的不断发展中形成的新词，在普通的词向量词典中不能直接找到。

对待分类文本进行分词处理，是由中文分词算法实现的，以将待分类文本划分为若干分词，从而得到待分类文本所对应的分词集合。

示例性的，中文分词算法可以选用基于词表的分词算法，例如正向最大匹配算法(FMM)、逆向最大匹配算法(BMM)或者双向最大匹配算法(BM)，或者选用基于统计模型的分词算法，例如基于N-gram语言模型的分词算法，还可以选用基于序列标注的分词算法，例如基于隐马尔可夫模型(HMM)、条件随机场(CRF)、深度学习的端到端的分词算法，本处并不对该中文分词算法的具体类型进行限定。

需要说明的是，通过对待分类文本进行分词处理，并不能消除待分类文本中含有未登录词和错别字，因此在待分类文本自身含有未登录词或者错别字的情况下，待分类文本所对应的分词集合中也应当含有未登录词或者错别字。

步骤330，根据预设的词向量词典对分词集合进行向量化处理，获得待分类文本对应的词向量集合，该词向量词典中融合有分词对应的快速文本向量和词嵌入向量。

其中，本实施例中所采用的词向量词典是预先经由特殊训练得到的，使得根据该词向量词典对待分类文本所对应分词集合进行向量化处理时，能够对分词集合中的未登录词和错别字具备容错性。

根据词向量词典对分词集合进行向量化是指，对分词集合中的每一分词都从词向量词典中查询该分词对应的词向量，由查询得到的词向量形成待分类文本对应的词向量集合。

词向量词典所融合的快速文本向量是指，通过快速文本模型(即FastText模型)的连续跳跃元语法模式(即skip-gram模式)对分词进行向量化训练得到的向量。需要说明的是，在本实施例中，需要将连续跳跃元语法模式下的子字长度参数(即subword)设为1-2，使得快速文本模型在执行分词的向量化时，将分词拆分为1个字或者2个字进行词向量训练。

对于未登陆词来说，在通过快速文本模型进行词向量训练中，由于是将未登录词拆分为1-2个字进行词向量训练的，通过拼接所拆分字对应向量，即可准确得到未登录词对应的词向量。例如在对“知识库”进行词向量训练时，将拆解为“知识”和“库”进行相应训练，拼接对二者训练所得词向量即可准确得到“知识库”所对应词向量。因此在训练得到的词向量词典中，能够准确查到未登录词对应的词向量，从而体现了对未登录词的容错性。

对于错别字来说，由于分词经由拆解后，得到的子字中会存在重复的情况，对于正确子字以及错误子字(即错别字)会赋予类似的向量表达，因此在训练得到的词向量词典中，能够对错别字起到修正作用。

相应的，词嵌入向量是通过词嵌入模型(即word2vec模型)对分词进行向量化训练得到的向量。

由于词嵌入模型所对应的网络结构中含有隐藏层，对于所在文本结构复杂的分词来说，在执行向量化训练时需要充分考虑分词之间的词序信息才能够得到准确的词向量，因此，采用词嵌入模型能够准确得到一些复杂句子中分词对应的词向量。

因此，本实施例通过采用快速文本模型和词嵌入模型来训练得到词向量词典对待分类文本对应的分词集合进行向量化，充分保证了所获得待分类文本所对应词向量集合的准确性。

步骤350，通过预设的标签预测模型对待分类文本对应的词向量集合进行类别标签预测，该标签预测模型是共同根据训练集和测试集进行训练得到的。

其中，对待分类文本对应的词向量集合进行类别标签预测的标签预测模型也是通过特殊训练方式所得到的，使得该预测模型能够所输入待分类文本对应的词向量集合准确进行标签预测。

在普通的标签预测模型训练中，训练集是含有大量训练样本的数据集合，这些训练样本用于进行标签模型的训练，以得到符合条件的标签预测模型。而测试集是含有大量测试样本的数据集合，这些测试样本用于对训练好的标签预测模型进行测试，并不参与模型训练的过程。

而在本实施例，训练集和测试集都共同用于进行标签预测模型的训练，具体的，在标签预测模型的训练中，由于训练集中的错误数据会影响所训练标签预测模型的准确度，因此在标签预测模型的训练中，通过测试集对训练集中的错误数据进行自动修正，再将修正得到的训练集用于执行标签预测模型的训练，由此极大地优化了标签预测模型的训练过程，以此训练得到更加准确的标签预测模型。示例性，训练集中所存在的错误数据包括训练标本所标注的类别标签错误。

需要说明的是，在本实施例中不对标签预测模型的具体类型进行限制，在进行标签预测模型的训练中，可以根据具体应用场景适应性选择初始的标签预测模型。示例性的，在待训练数据的数据量低于设定阈值时，可选用传统机器学习模型作为初始的标签预测模型进行训练，例如SVM(Support Vector Machine，支持向量机)模型；如果待训练数据的数据量超过设定阈值，则可以选用深度学习模型作为待进行训练的初始标签预测模型，例如CNN(Convolutional neural network，卷积神经网络)模型或者LSTM(Long Short-TermMemory，长短期记忆网络)模型。

步骤370，获取标签预测模型所输出的预测结果，该预测结果对应于待分类文本所对应的文本类别。

其中，标签预测模型所输出的预测结果包括待分类文本可能对应的若干文本类别，以及每种文本类别所对应的概率值，该概率值用于表示待分类对应该种文本类别的可能性。

由此，通过本实施例所提供的方法，能够充分应对待分类文本中含有未登录词以及错误字的问题，以及训练集中存在错误数据导致所训练标签预测模型不准确的问题，因此能够对待分类文本对应的文本类别进行准确预测。

图4是根据另一示例性实施例所示出的一种文本分类方法的流程图。如图4所示，在步骤310之前，该文本分类方法还包括以下步骤：

步骤410，获取待进行词向量训练的语料分词词库。

其中，语料分词词库中是预先准确好的大量分词集合，通过对预料分词词库所包含的每一分词进行词向量训练，获得分词对应的词向量，由这些分词以及分词对应的词向量形成词向量词典。

需要说明的是，针对不同的应用场景，获取预料分词词库的来源对应不同。示例性的，在前述智能面试的应用场景中，预料分词词库可以是对互联网上的一些面试攻略、面试题进行分词处理所得到的，还可以是对面试业务方所直接提供的语料数据进行分词处理所得。

步骤430，对预料分词词库中的各分词，分别通过快速文本模型的连续跳跃元语法模式和词嵌入模型进行词向量训练，获得分词对应的快速文本向量和词嵌入向量。

如前所述，在通过快速文本模型的连续跳跃元语法模式对预料分词词库中的各分词进行词向量训练时，需要将连续跳跃元语法模式下的子字长度参数(即subword)由默认值3-6修改为1-2，使得通过本实施例所训练得到的词向量词典能够对待分类文本中的未登录词以及错别字具备容错性。

需要说明的是，对语料分词词库中的分词，如果按照所设置子字长度参数1-2进行词向量训练得到多个词向量，则按照分词被拆解为子字的顺序，将各子字对应的词向量进行拼接即可得到分词对应的词向量。

而通过词嵌入模型对预料分词词库中的各分词进行词向量训练，则能够考虑分词之间的词序信息，得到准确的词向量。

也即是说，按照本实施例所提供方法对语料分词词库中的每一分词进行词向量训练，都能够得到对应的一个快速文本向量和一个词嵌入向量。

步骤450，通过计算分词所对应快速文本向量和词嵌入向量的平均向量，获取该平均向量为分词对应的向量表达。

其中，为了使得词向量词典中每一分词所对应的词向量能够对相应分词进行准确表达，有必要将该词向量融合通过步骤430所得到的快速文本向量和词嵌入向量。

在本实施例中，将快速文本向量和词嵌入向量融合至分词所对应词向量中是指，通过将分词所对应快速文本向量和词嵌入向量相加，然后对相加所得向量和进行平均值计算即可，所得计算结果则为分词对应的向量表达，该向量表达为词向量词典中与分词对应的词向量。

步骤470，获取语料分词词库中每一分词所对应向量表达形成词向量词典。

其中，通过步骤430和步骤450所描述过程，能够获得语料分词词库中每一分词所对应向量表达，因此由语料分词词库中每一分词以及每一分词对应的向量表达形成词向量词典。

如前所述，在对待分类文本所对应分词集合进行向量化处理时，根据本实施例所训练得到的词向量词典，能够准确查询到分词集合中各分词对应的词向量，准确获得待分类文本所对应的词向量集合。

图5是根据另一示例性实施例所示出的一种文本分类方法的流程图。如图5所示，在步骤310之前，该文本分类方法还包括以下步骤：

步骤510，按照设定比例，将待进行标签预测模型训练的标注语料划分为训练集和测试集，该标注语料含有标注的类别标签。

其中，标注预料是指标注有类别标签的文本集合，也将此标注有类别标签的文本称为一个样本。

标注预料还对应于步骤410中获取的语料分词词库，示例性的，在步骤410所描述的应用场景中，标注预料不仅包括互联网上的一些面试攻略和面试题，还包括面试业务方所直接提供的语料数据，通过对标注语料进行分词处理，即可得到相应的语料分词词库。

将标注语料划分为训练集和测试集的比例是预先设定的，例如，所划分为训练集和测试集的比例可以是7：3，本处并不进行对该比例值进行限定。但需要说明的是，在一般情况下，训练集所占比重应当大于测试集所占比重，数据量较大的训练集更有助于得到准确的标签预测模型。

步骤530，根据训练集对待训练的标签预测模型进行初始训练。

如前所述，在不同的应用场景中，可以具体选择进行初始训练的标签预测模型。例如，在训练集的数据量低于设定阈值时，可选用SVM模型进行初始训练；如果训练集的数据量超过设定阈值，则可以选用CNN模型或者LSTM模型进行初始训练。

需要说明的是，根据训练集对待训练的标签预测模型进行初始训练，其目的在于获取的一个初始的标签预测模型，但由于训练集中训练样本所标注的类别标签可能存在错误，经由该训练集进行初始训练得到的标签预测模型所进行的类别标签预测会存在预测偏差。

因此，有必要对训练集中标注错误的类别标签进行自动修正，再根据修正得到的训练集迭代进行标签预测模型的训练，以此训练得到准确度较高的标签预测模型。

步骤550，对初始训练所得标签预测模型，分别通过训练集和测试集进行组合训练，根据标签预测模型所输出预测结果对训练集中标注错误的类别标签进行修正。

其中，通过初始训练得到初始的标签预测模型后，通过该初始的标签预测模型训练集和测试集进行组合训练。需要理解的是，该组合训练的过程是指，将训练集和测试集依次输入初始的标签预测模型中，得到标签预测模型分别对训练集中各训练样本进行标签预测所输出预测结果，以及对测试集中各测试样本进行标签预测所输出预测结果。

由于训练集和测试集是从标注预料中划分得到的，每一训练样本和测试样本均事先标注有样本对应的类别标签，根据标签预测模型所输出预测结果与样本事先标注的类别标签进行对比，能够分别获得标签预测模型分别对训练集和测试集进行标签预测的准确率。

应当理解，训练集对应的准确率是指，标签预测模型所输出预测结果与事先标注类别标签相同的训练样本数占训练样本总数的比例。测试集对应的准确率同理，本处不进行赘述。

根据训练集和测试集分别对应的准确率，能够获知初始训练所得标签预测模型的预测效果。示例性，如果训练集对应的准确率高于90％，测试集对应的准确率高于85％则说明初始训练得到的标签预测模型预测效果较好，否则表示当前标签预测模型无法达到较好的预测效果。

如前所述，导致初始训练所得标签预测模型效果不佳的原因可能是训练集中存在训练样本事先标注的类别标签错误，因此需要对训练集中标注错误的类别标签进行修正，以获取正确的训练集。

步骤570，根据修正得到的类别标签对训练集更新，且通过测试集和更新所得到的训练集迭代执行标签预测模型的训练过程，直至标签预测模型收敛。

其中，通过测试集和更新所得到的训练集迭代执行标签预测模型的训练过程是指，在得到更新的训练集之后，重复执行步骤530和步骤550所描述内容，也即，先根据更新得到的训练集对初始训练得到的标签预测模型再次训练，然后根据测试集和更新得到的训练集对训练所得标签预测模型进行组合训练，并判断当前标签预测模型的预测效果，如果效果不佳，继续执行训练集中错误类别标签的修正以及标签预测模型的再次训练，直至标签预测模型收敛。

应当理解，标签预测模型收敛是指，标签预测模型所进行的类别预测中能够达到设定的预测精度。

由此，根据本实施例所提供的方法，能够训练得到预测精度较高的标签预测模型，在实际的应用场景中，标签预测模型对待分类文本所对应词向量集合进行预测，能够获得准确的预测结果。

图6是图5所示步骤550在一个示例性实施例中的流程图。如图5所示，根据标签预测模型所输出预测结果对训练集中标注错误的类别标签进行修正的过程具体包括以下步骤：

步骤551，根据标签预测模型所输出结果，分别计算标签预测模型为训练集和测试集进行标签预测的准确率。

如前所述，标签预测模型为训练集进行标签预测的准确率是指，标签预测模型所输出预测结果与事先标注的类别标签相同的训练样本数占训练样本总数的比例。由此，通过获取标签预测模型所输出预测结果与事先标注的类别标签相同的训练样本数，然后计算该训练样本数与训练样本集合所包含训练样本总数的比例，即可获得相应的准确率。

标签预测模型为测试集进行标签预测的准确率同理，本处不作赘述。

步骤553，在训练集和测试集对应的准确率均低于设定的准确率阈值时，筛选训练集中预测结果与所标注类别标签不一致的训练样本集合。

其中，为训练集和测试集所对应准确率设定的准确率阈值可以相同，也可以不相同。一般来说，由于当前标签预测模型是经由训练集进行初始训练得到的，标签预测模型为训练集预测得到准确率更高，因此对应的准确率阈值也应更大。

所设定的准确率阈值可以结合标注有类别标签的样本进行确定。示例性的，针对当前标签预测模型为训练集输出的预测结果，通过汇总所有预测正确的类别标签对应的概率值(该概率值是标签预测模型所直接输出的)，获得概率值集合，并对概率值集合进行统计分析。在一个实施例中，对概率值集合进行统计分析的过程为，找出概率值集合中的50％分位值对应的概率值，将此概率值获取为准确率阈值。

步骤555，通过计算训练样本集合中预测结果正确且类别标签标注错误的概率，获得训练样本集合对应的预测概率值。

其中，训练样本集合对应的预测概率值，表示对应训练样本可能发生类别标签标注错误的概率，当预测概率值高于设定的概率阈值时，表示训练样本发生类别标签标注错误的概率很大，跳转执行步骤557。

而当预测概率值低于设定的概率阈值时，表示训练样本发生类别标签标注错误的概率较小，跳转执行步骤559。

步骤557，将训练样本集合中训练样本的类别标签修正为与标签预测模型输出的预测结果相对应。

步骤559，获取人工输入的类别标签对训练样本集合中训练样本的类别标签进行修正。

其中，当训练样本发生类别标签标注错误的概率较小时，需要结合人工经验判断训练样本集合中训练样本的类别标签是否正确，并对类别标签标注错误的训练样本进行修正。通过获取人工输入的正确的类别标签，将该正确的类别标签对训练样本标注错误的类别标签进行更换，即可实现对训练样本集合中训练样本的类别标签额的修正。

通过本实施例所提供方法，实现了对训练样本中标注错误的类别标签的自动修正，由此获得准确的标签预测模型。

图7是根据一示例性实施例示出的一种文本分类装置的框图。如图7所示，该装置包括分词处理模块610、向量化处理模块630、标签预测模块650和类别获取模块670。

分词处理模块610用于通过对待分类文本进行分词处理，获得待分类文本对应的分词集合。

向量化处理模块630用于根据预设的词向量词典对分词集合进行向量化处理，获得待分类文本对应的词向量集合，该词向量词典融合有分词所对应的快速文本向量和词嵌入向量。

标签预测模块650用于通过预设的标签预测模型对待分类文本对应的词向量集合进行类别标签预测，该标签预测模型是共同根据训练集和测试集进行训练得到的，该测试集用于修正所述训练集中的错误数据。

类别获取模块670用于获取标签预测模型所输出的预测结果，该预测结果对应于待分类文本所对应的文本类别。

在一示例性的实施例中，文本分类装置还包括语料分词词库获取模块、词向量训练模块、向量表达融合模块和词向量词典获取模块(图7中未示出)。

语料分词词库获取模块用于获取待进行词向量训练的语料分词词库。

词向量训练模块用于对语料分词词库中的各分词，分别通过快速文本模型的连续跳跃元语法模式和词嵌入模型进行词向量训练，获得分词对应的快速文本向量和词嵌入向量。

向量表达融合模块用于通过计算分词所对应快速文本向量和词嵌入向量的平均向量，获取平均向量为分词对应的向量表达。

词向量词典获取模块用于获取语料分词词库中每一分词所对应向量表达形成词向量词典。

在一示例性实施例中，文本分类装置还包括标注语料分配模块、模型初始训练模块、类别标签修正模块和模型迭代训练模块。

标注语料分配模块用于按照设定比例，将待进行标签预测模型训练的标注语料划分为训练集和测试集，该标注语料含有标注的类别标签。

模型初始训练模块用于根据所述训练集对待训练的标签预测模型进行初始训练。

类别标签修正模块用于对初始训练所得标签预测模型，分别通过训练集和测试集进行组合训练，根据标签预测模型所输出预测结果对训练集中标注错误的类别标签进行修正。

模型迭代训练模块用于根据修正得到的类别标签对训练集更新，且通过测试集和更新所得训练集迭代执行标签预测模型的训练过程，直至标签预测模型收敛。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

在一示例性的实施例中，本申请还提供一种电子设备，该电子设备包括：

处理器；

存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所述的文本分类方法。

在一示例性的实施例中，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所述的文本分类方法。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种文本分类方法，其特征在于，包括：

通过对待分类文本进行分词处理，获得所述待分类文本对应的分词集合；

根据预设的词向量词典对所述分词集合进行向量化处理，获得所述待分类文本对应的词向量集合，所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量；

通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测，所述标签预测模型是共同根据所述训练集和测试集进行训练得到的，所述测试集用于修正所述训练集中的错误数据；

获取所述标签预测模型所输出的预测结果，所述预测结果对应于所述待分类文本所对应的文本类别。

2.根据权利要求1所述的方法，其特征在于，在所述通过对待分类文本进行分词处理，获得所述待分类文本的分词集合之前，所述方法还包括：

获取待进行词向量训练的语料分词词库；

对所述语料分词词库中的各分词，分别通过快速文本模型的连续跳跃元语法模式和词嵌入模型进行词向量训练，获得所述分词对应的快速文本向量和词嵌入向量；

通过计算分词所对应快速文本向量和词嵌入向量的平均向量，获取所述平均向量为所述分词对应的向量表达；

获取所述语料分词词库中每一分词所对应向量表达形成所述词向量词典。

3.根据权利要求2所述的方法，其特征在于，所述连续跳跃元语法模式下的子字长度参数用于指示将所述分词拆解为1个字或者2个字进行所述词向量训练。

4.根据权利要求1所述的方法，其特征在于，在所述通过对待分类文本进行分词处理，获得所述待分类文本的分词集合之前，所述方法还包括：

按照设定比例，将待进行标签预测模型训练的标注语料划分为训练集和测试集，所述标注语料含有标注的类别标签；

根据所述训练集对待训练的标签预测模型进行初始训练；

对初始训练所得标签预测模型，分别通过所述训练集和测试集进行组合训练，根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正；

根据修正得到的类别标签对所述训练集更新，且通过所述测试集和更新所得训练集迭代执行所述标签预测模型的训练过程，直至所述标签预测模型收敛。

5.根据权利要求4所述的方法，其特征在于，所述根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正，包括：

根据所述标签预测模型所输出结果，分别计算所述标签预测模型为所述训练集和测试集进行标签预测的准确率；

在所述训练集和测试集对应的准确率均低于设定的准确率阈值时，筛选所述训练集中预测标签结果与所标注类别标签不一致的训练样本集合；

通过计算所述训练样本集合中预测结果正确且类别标签标注错误的概率，获得所述训练样本集合对应的预测概率值；

在所述预测概率值低于设定的概率阈值时，获取人工输入的类别标签对所述训练样本集合中训练样本所标注类别标签进行修正。

6.一种文本分类装置，其特征在于，包括：

分词处理模块，用于通过对待分类文本进行分词处理，获得所述待分类文本对应的分词集合；

向量化处理模块，用于根据预设的词向量词典对所述分词集合进行向量化处理，获得所述待分类文本对应的词向量集合，所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量；

标签预测模块，用于通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测，所述标签预测模型是共同根据所述训练集和测试集进行训练得到的，所述测试集用于修正所述训练集中的错误数据；

类别获取模块，用于获取所述标签预测模型所输出的预测结果，所述预测结果对应于所述待分类文本所对应的文本类别。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

语料分词词库获取模块，用于获取待进行词向量训练的语料分词词库；

词向量训练模块，用于对所述语料分词词库中的各分词，分别通过快速文本模型的连续跳跃元语法模式和词嵌入模型进行词向量训练，获得所述分词对应的快速文本向量和词嵌入向量；

向量表达融合模块，用于通过计算分词所对应快速文本向量和词嵌入向量的平均向量，获取所述平均向量为所述分词对应的向量表达；

词向量词典获取模块，用于获取所述语料分词词库中每一分词所对应向量表达形成所述词向量词典。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

标注语料分配模块，用于按照设定比例，将待进行标签预测模型训练的标注语料划分为训练集和测试集，所述标注语料含有标注的类别标签；

模型初始训练模块，用于根据所述训练集对待训练的标签预测模型进行初始训练；

类别标签修正模块，用于对初始训练所得标签预测模型，分别通过所述训练集和测试集进行组合训练，根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正；

模型迭代训练模块，用于根据修正得到的类别标签对所述训练集更新，且通过所述测试集和更新所得训练集迭代执行所述标签预测模型的训练过程，直至所述标签预测模型收敛。

9.一种电子设备，其特征在于，所述设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至5任一项所述的文本分类方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至5任一项所述的文本分类方法。