CN112528029A

CN112528029A - 文本分类模型处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112528029A
Application number: CN202011594374.2A
Authority: CN
Inventors: 许天歌
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-19

Abstract

本申请实施例属于人工智能领域，涉及一种文本分类模型处理方法、装置、计算机设备及存储介质，方法包括：获取有标签文本、无标签文本以及各初始分类器，各初始分类器来自预设的若干类文本分类器；根据有标签文本训练各初始分类器，得到各初始文本分类器；对于每个初始文本分类器，通过其他初始文本分类器对无标签文本进行标注，得到文本标签；根据文本标签对无标签文本进行筛选，得到初始文本分类器的补充训练集；基于预设的迭代算法，通过补充训练集对初始文本分类器进行训练，得到文本分类器；根据得到的各文本分类器构建文本分类模型。此外，本申请还涉及区块链技术，有标签文本和无标签文本可存储于区块链中。本申请提高了文本分类的准确性。

Description

文本分类模型处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本分类模型处理方法、装置、计算机设备及存储介质。

背景技术

在文本分类场景中，可以通过文本分类模型对文本进行处理，并根据处理结果对文本进行分类。在使用文本分类模型之前，需要先通过模型训练得到可用的文本分类模型。文本分类模型的训练是将有标签文本输入初始文本分类模型，使初始文本分类模型根据有标签文本进行有监督学习，从而得到文本分类模型。

传统的文本分类模型处理技术中，虽然可以轻易获取到大量的文本，但是却需要人工逐个对文本进行标注。由于人工标注效率有限，很多情况下只能获取到有限的有标签文本。半监督学习可以给无标签文本添加伪标签，从而将无标签文本加入模型训练，帮助提升文本分类的效果。然而，伪标签可能具有较高的错误率，使得伪标签文本会给训练带来较多的噪音，导致训练得到的文本分类模型的分类准确性较低。

发明内容

本申请实施例的目的在于提出一种文本分类模型处理方法、装置、计算机设备及存储介质，以解决文本分类模型分类准确率较低的问题。

为了解决上述技术问题，本申请实施例提供一种文本分类模型处理方法，采用了如下所述的技术方案：

获取有标签文本、无标签文本以及各初始分类器，所述各初始分类器分别来自预设的若干类文本分类器；

根据所述有标签文本对各初始分类器进行训练，得到各初始文本分类器；

对于每个初始文本分类器，通过其他初始文本分类器对所述无标签文本进行标注，得到文本标签；

根据得到的文本标签对所述无标签文本进行筛选，得到所述初始文本分类器的补充训练集；

基于预设的迭代算法，通过所述补充训练集对所述初始文本分类器进行训练，得到文本分类器；

根据得到的各文本分类器构建文本分类模型。

为了解决上述技术问题，本申请实施例还提供一种文本分类模型处理装置，采用了如下所述的技术方案：

获取模块，用于获取有标签文本、无标签文本以及各初始分类器，所述各初始分类器分别来自预设的若干类文本分类器；

初始训练模块，用于根据所述有标签文本对各初始分类器进行训练，得到各初始文本分类器；

文本标注模块，用于对于每个初始文本分类器，通过其他初始文本分类器对所述无标签文本进行标注，得到文本标签；

文本筛选模块，用于根据得到的文本标签对所述无标签文本进行筛选，得到所述初始文本分类器的补充训练集；

补充训练模块，用于基于预设的迭代算法，通过所述补充训练集对所述初始文本分类器进行训练，得到文本分类器；

模型构建模块，用于根据得到的各文本分类器构建文本分类模型。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

根据得到的各文本分类器构建文本分类模型。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

根据得到的各文本分类器构建文本分类模型。

与现有技术相比，本申请实施例主要有以下有益效果：预设了若干类不同的文本分类器，从其中选取的初始分类器具有较大的差异；初始分类器的差异越大，初始分类器训练得到的初始文本分类器对无标签文本标注一致时，标注越准确；根据全量有标签样本训练初始分类器，充分利用了样本信息；对无标签文本进行标注后，根据文本标签对无标签文本进行筛选，选取置信度较高的无标签文本进入补充训练集，减少了引入补充训练集的噪音；通过迭代算法控制补充训练集对初始文本分类器的训练，确保引入的无标签样本的正面影响超过噪音带来的负面影响，提高了最后得到的文本分类模型的准确性，从而提高了文本分类模型文本分类的准确性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的文本分类模型处理方法的一个实施例的流程图；

图3是根据本申请的文本分类模型处理装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的文本分类模型处理方法一般由服务器执行，相应地，文本分类模型处理装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的文本分类模型处理方法的一个实施例的流程图。所述的文本分类模型处理方法，包括以下步骤：

步骤S201，获取有标签文本、无标签文本以及各初始分类器，各初始分类器分别来自预设的若干类文本分类器。

在本实施例中，文本分类模型处理方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体地，服务器获取有标签文本、无标签文本。本申请应用于文本分类，服务器中预设了若干类文本分类器，每类文本分类器可以对文本进行不同的处理，基于不同的原理提取文本特征。预设的每类文本分类器之间的差异越大越好。

服务器从预设的每一类文本分类器中，分别获取初始分类器，每类文本分类器中可以选择一个初始分类器。获取到的初始分类器可以基于不同的机制对文本进行处理，保证了各初始分类器之间的差异。

需要强调的是，为进一步保证上述有标签文本和无标签文本的私密和安全性，上述有标签文本和无标签文本还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

进一步的，上述步骤S201可以包括：从文本库中获取有标签文本以及无标签文本；从预设的若干类文本分类器中分别抽取初始分类器，其中，若干类文本分类器包括基于局部特征的文本分类器、基于上下文信息的文本分类器以及基于注意力的文本分类器。

具体地，有标签文本和无标签文本可以从预设的文本库中获取。获取初始分类器时，每一类文本分类器均要提供初始分类器。

本申请基于文本分类的应用场景，提供基于文本局部特征提取、基于上下文信息、基于注意力机制的三类文本分类器，以便最大化不同类文本分类器之间的差异。其中：

第一类文本分类器：基于卷积神经网络的模型如TextCNN，可以捕捉文本局部特征。

第二类文本分类器：基于上下文信息的模型如TextRNN和LSTM，可以捕捉长距离的依赖和带时间序列的信息。

第三类文本分类器：基于注意力机制的模型如BERT、AlBERT和Transformer，可以捕捉上下文中指定位置的特定信息。

为了提高无标签文本标记的准确性，在保证初始分类器训练后分类准确率的前提下，初始分类器之间的差异性越大越好。

在一个实施例中，三类文本分类器各自提供一个初始分类器即可，第一类文本分类器选择TextCNN，第二类文本分类器选择TextRNN或LSTM的其中一种，第三类文本分类器选择BERT、AlBERT或Transformer的其中一种。例如，选择基于卷积神经网络提取特征的模型TextCNN、基于上下文信息的模型LSTM和基于注意力机制的模型BERT进行训练。

本实施例中，预设的文本分类器分别基于文本局部特征提取、基于上下文信息、基于注意力机制，以便最大化不同类文本分类器之间的差异，保证了对无标签文本标记的准确性。

步骤S202，根据有标签文本对各初始分类器进行训练，得到各初始文本分类器。

具体地，先根据有标签文本对各初始分类器进行训练，将全量有标签的文本作为输入，以避免信息损失，根据文本标签训练各初始分类器，得到各初始文本分类器。如果从基于文本局部特征提取、基于上下文信息和基于注意力机制的文本分类器中分别提取一个初始分类器，在有监督训练结束后，得到三个初始文本分类器C1、C2、C3。

步骤S203，对于每个初始文本分类器，通过其他初始文本分类器对无标签文本进行标注，得到文本标签。

具体地，大量的无标签文本需要加入模型训练，而在将无标签文本加入训练之前，需要先给无标签文本添加文本标签，这里给无标签文本添加的文本标签为伪标签。

假设存在N(N为正整数)个初始文本分类器，对于其中的一个初始文本分类器，通过其他N-1个初始文本分类器对无标签文本进行标注，即通过其他N-1个无标签文本进行文本分类预测，则每一个无标签文本都得到了N-1个文本标签。

步骤S204，根据得到的文本标签对无标签文本进行筛选，得到初始文本分类器的补充训练集。

具体地，对于N个初始文本分类器中的某一个初始文本分类器，服务器根据其他N-1个初始文本分类器对无标签文本添加的文本标签，对无标签文本进行筛选，选取置信度较高的无标签文本，并将其添加到初始文本分类器的补充训练集中。

可以理解，最后得到N个补充训练集，每个初始文本分类器均对应一个补充训练集。

进一步的，上述步骤S204可以包括：对于每一个无标签文本，比较无标签文本的各文本标签；当各文本标签一致时，将无标签文本标记为候选样本；将得到的候选样本添加到初始文本分类器的补充训练集。

具体地，对于每一个无标签文本，获取它的N-1个文本标签，并比对N-1个文本标签。当N-1个文本标签一致，即N-1个文本标签全部相同时，表明该无标签文本的置信度较高，将其标注为候选样本，并将候选样本添加到初始文本分类器的补充训练集中。补充训练集中的候选样本具有文本标签，文本标签即为其他初始文本分类器标注的文本标签。

本实施例中，比对无标签文本得到的各文本标签，当文本标签一致时，将无标签文本作为置信度较高的文本，并加入补充训练集，保证了补充训练集的准确性。

步骤S205，基于预设的迭代算法，通过补充训练集对初始文本分类器进行训练，得到文本分类器。

具体地，服务器根据预设的迭代算法从补充训练集中抽取候选样本，并根据候选样本对初始文本分类器进行训练，在迭代结束后得到文本分类器。

在一个实施例中，为了进一步提高无标签文本标注的准确性，以及保证无标签文本加入训练后对训练效果的提升，在得到第一个初始文本分类器的补充训练集后，即刻通过补充训练集对第一个初始文本分类器进行训练。这样，在对第二个初始文本分类器构建补充训练集时，其他N-1个初始文本分类器中已经有了一个补充训练完毕的文本分类器，标注准确度更高。

举例说明，现有三个初始文本分类器C1、C2、C3，先通过C1和C2对无标签文本进行标注，构建C3的补充训练集E3，然后根据补充训练集E3对C3进行训练，得到文本分类器C3'；然后通过C1和C3'对无标签文本进行标注，构建C2的补充训练集E2，然后根据补充训练集E2对C2进行训练，得到文本分类器C2'；最后通过C2'和C3'对无标签文本进行标注，构建C1的补充训练集E1，根据补充训练集E1对C1进行训练，得到文本分类器C1'。

步骤S206，根据得到的各文本分类器构建文本分类模型。

具体地，根据补充训练集对初始文本分类器进行训练后得到文本分类器，多个文本分类器可以进行集成，得到文本分类模型。

本实施例中，预设了若干类不同的文本分类器，从其中选取的初始分类器具有较大的差异；初始分类器的差异越大，初始分类器训练得到的初始文本分类器对无标签文本标注一致时，标注越准确；根据全量有标签样本训练初始分类器，充分利用了样本信息；对无标签文本进行标注后，根据文本标签对无标签文本进行筛选，选取置信度较高的无标签文本进入补充训练集，减少了引入补充训练集的噪音；通过迭代算法控制补充训练集对初始文本分类器的训练，确保引入的无标签样本的正面影响超过噪音带来的负面影响，提高了最后得到的文本分类模型的准确性，从而提高了文本分类模型文本分类的准确性。

进一步的，上述步骤S202可以包括：将有标签文本转化为词向量矩阵；将词向量矩阵分别输入对应的初始分类器；根据词向量矩阵以及有标签文本的文本标签对各初始分类器进行训练，得到各初始文本分类器。

具体地，根据有标签文本训练初始分类器时，需要将有标签文本转化为词向量矩阵。有标签文本需要对每一个初始分类器都进行训练，所以可以根据初始分类器的数量对有标签文本进行复制，以使每个初始分类器都对应一份相同的有标签文本。然后将每一份有标签文本转化为词向量矩阵，将词向量矩阵分别输入对应的初始分类器。

初始分类器对输入的词向量进行卷积、池化，得到有标签文本的特征向量；根据特征向量预测文本类别，然后根据预测的文本类别和文本标签计算分类器损失；服务器以减小分类器损失为目标，调整初始分类器的分类器参数，在训练结束后得到初始文本分类器。

本实施例中，将有标签文本转化为词向量矩阵，使得初始分类器能够对有标签文本进行处理，根据词向量矩阵和文本标签对初始分类器完成训练后得到初始文本分类器，确保了对无标签文本进行标注的顺利实现。

进一步的，上述将词向量矩阵分别输入对应的初始分类器的步骤可以包括：复制有标签文本，并将复制后的有标签文本分别与各初始分类器相关联；根据初始分类器的分类器类型，确定初始分类器所关联的有标签文本的词向量转化方式；根据词向量转换方式将有标签文本转化为词向量矩阵。

具体地，服务器对有标签文本进行复制，初始分类器数量有多少，有标签文本就复制为多少份，以便每个初始分类器的训练样本都是相同的。然后将有标签文本和初始分类器相关联，每份有标签文本对应于一个初始分类器。

在文本分类任务中，通常的处理方法是先对文本分词，然后将每个词转化为对应的词向量，也叫做词嵌入。不同类别的初始分类器可以采用不同的词向量转化方式，以便进一步扩大初始分类器之间的差异，这样初始分类器训练后得到的初始文本分类器对无标签文本的标注结果一致时，可信度更高。

本申请中可以使用三类文本分类器，词向量转化方式有：

第一类文本分类器：基于卷积神经网络的模型如TextCNN，词向量转化方式有如下三种：①随机初始化词向量；②使用静态的词向量例如word2vec或glove等，静态的词向量在训练过程中不会被调整；③使用动态的词向量，即先使用预训练的词向量，在后续的训练迭代过程中即时对词向量进行调整。可以随机选择一种词向量转化方式使用，如果选取的第一类文本分类器数量多于一个，也可以选择静态和动态两种通道的词向量。

第二类文本分类器：基于上下文信息的模型如TextRNN和LSTM，词向量转化方式有word2vec、glove等。

第三类文本分类器：基于注意力机制的模型如BERT、AlBERT和Transformer，词向量是模型中token embedding、segment embeddind和position embedding三个向量之和。

确定初始分类器的词向量转化方式后，根据确定的词向量对初始分类器对应的有标签文本进行转化，得到词向量矩阵。

本实施例中，不同初始分类器的有标签文本可能对应不同的词向量转化方式，根据初始分类器对应的词向量转化方式对有标签文本进行转化，提高了初始分类器处理的词向量矩阵之间的差异，进一步提高了初始分类器之间的差异，从而提高了对无标签文本进行标注的可信度。

进一步的，上述步骤S205可以包括：从补充训练集中抽取第一数量的候选样本，并根据候选样本对初始文本分类器进行第一迭代训练；判断第一迭代训练后的初始文本分类器的迭代状态；从剩余的补充训练集中抽取第二数量的候选样本，第二数量与迭代状态相匹配，并根据抽取到的候选样本对初始文本分类器进行第二迭代训练，得到文本分类器。

具体地，根据补充训练集训练初始分类器可以分轮次进行，训练过程受到迭代算法的控制，以便实现自适应的迭代。

得到初始文本分类器的补充训练集后，先从补充训练集中随机抽取第一数量的候选样本，其中，第一数量可以根据预设计算方式进行计算，也可以直接取预设数量。服务器根据候选样本对初始文本分类器进行训练，将候选样本作为输入，结合文本标签进行迭代训练，此即第一迭代训练。完成第一迭代训练后，需要判断初始文本分类器的迭代状态，迭代状态包括充分迭代状态、部分迭代状态和迭代终止状态。

具体地，服务器先判断初始文本分类器是否满足公式(1)：

e|L_u|<e'|L'_u| (1)

如果满足公式(1)，则迭代状态为充分迭代状态，从剩余的补充训练集中抽取第二数量的候选样本加入训练集，此时第二数量为补充训练集中剩余的候选样本的数量，即，将补充训练集中剩余的全部候选样本抽取出来加入训练集，根据训练集进行第二迭代训练。

若不满足公式(1)，判断是否满足公式(2)：

若满足公式(2)，则处于部分迭代状态，补充训练集中随机抽取第二数量的候选样本加入训练集，并根据训练集进行第二迭代训练，此时，第二数量的计算公式如下：

对于公式(1)、(2)和(3)，L_u为本轮标记并添加到训练集的候选样本，L_u'为上一轮标记并添加到训练集的候选样本，e代表标记错误率，e'代表上一轮标记错误率。在判断是否满足公式(1)时，可以将补充训练集中剩余的全部无标签文本的数量作为L_u进行计算。本申请选用了三类文本分类器，每种文本分类器提供一个分类器时，另有标记错误率的计算公式：

其中C_i和C_j表示三个分类器中的任意两个分类器，x表示无标签文本，y表示给无标签文本标注的文本标签，count表示数量统计。

若公式(1)和公式(2)都不满足，则处于迭代终止状态，第二数量为0，第二迭代训练的轮数为0，实际即，不再从剩余的补充训练集中抽取候选样本，并停止迭代，得到文本分类器。

综上所述，基于迭代算法可以自适应地确定每一轮迭代时加入训练的候选样本的数量，实时确定模型是否终止迭代，在训练样本的扩充会带来的正面影响和噪音的引入带来的负面影响中取得平衡，确保训练样本的扩充对模型带来的正面影响超过噪音的引入对模型带来的负面影响，实现了利用无标签的文本提高文本分类预测效果。

本实施例中，根据预设的迭代算法，在进行第一轮迭代训练后确定初始文本分类器的迭代状态，根据迭代状态抽取第二数量的候选样本进行第二迭代训练，确保训练样本的扩充带来的正面影响超过噪音带来的负面影响，从而提升了训练得到的文本分类器进行分类预测的准确性。

进一步的，上述步骤S206之后，还可以包括：获取待分类文本；将待分类文本输入文本分类模型中的各文本分类器，得到文本分类子结果；根据文本分类子结果确定待分类文本的文本分类结果。

具体地，在进行文本分类模型的应用时，先获取待分类文本，将待分类文本输入文本分类模型中的每一个文本分类器，由文本分类器对待分类文本进行分类预测，输出文本分类子结果。文本分类子结果可以包括待分类文本所属的文本类别及其对应的概率。服务器根据文本分类子结果进行加权平均，得到待分类文本的文本分类结果。

在一个实施例中，服务器可以对文本分类子结果进行softvoting融合，得到文本分类结果。文本分类子结果可以包括多个文本类别及其对应的概率。在进行softvoting融合时，计算每种文本类别概率的加权平均值，将具有最高平均概率的文本类别，作为待分类文本的文本分类结果。举例说明，假设文本类别有两种，每个文本分类器输出2个文本类别及其对应的概率：

文本分类器1：类别A-概率99％；类别B-概率1％；

文本分类器2：类别A-概率49％；类别B-概率51％；

文本分类器3：类别A-概率40％；类别B-概率60％；

当各文本分类器权重相同时，则有：

“类别A”概率的加权平均值：(99％+49％+40％)÷3＝62.7％；

“类别B”概率的加权平均值：(1％+51％+60％)/3＝37.3％；

“类别A”概率的加权平均值大于“类别B”概率的加权平均值，则将“类别A”作为文本分类结果。

本实施例中，在进行文本分类预测时，根据每个文本分类器的文本分类子结果确定待分类文本的文本分类结果，确保了文本分类结果的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种文本分类模型处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的文本分类模型处理装置300包括：获取模块301、初始训练模块302、文本标注模块303、文本筛选模块304、补充训练模块305以及模型构建模块306，其中：

获取模块301，用于获取有标签文本、无标签文本以及各初始分类器，各初始分类器分别来自预设的若干类文本分类器。

初始训练模块302，用于根据有标签文本对各初始分类器进行训练，得到各初始文本分类器。

文本标注模块303，用于对于每个初始文本分类器，通过其他初始文本分类器对无标签文本进行标注，得到文本标签。

文本筛选模块304，用于根据得到的文本标签对无标签文本进行筛选，得到初始文本分类器的补充训练集。

补充训练模块305，用于基于预设的迭代算法，通过补充训练集对初始文本分类器进行训练，得到文本分类器。

模型构建模块306，用于根据得到的各文本分类器构建文本分类模型。

在本实施例的一些可选的实现方式中，获取模块301包括：文本获取子模块以及分类器抽取子模块，其中：

文本获取子模块，用于从文本库中获取有标签文本以及无标签文本。

分类器抽取子模块，用于从预设的若干类文本分类器中分别抽取初始分类器，其中，若干类文本分类器包括基于局部特征的文本分类器、基于上下文信息的文本分类器以及基于注意力的文本分类器。

在本实施例的一些可选的实现方式中，初始训练模块302包括：文本转化子模块、矩阵输入子模块以及初始训练子模块，其中：

文本转化子模块，用于将有标签文本转化为词向量矩阵。

矩阵输入子模块，用于将词向量矩阵分别输入对应的初始分类器。

初始训练子模块，用于根据词向量矩阵以及有标签文本的文本标签对各初始分类器进行训练，得到各初始文本分类器。

在本实施例的一些可选的实现方式中，文本转化子模块包括：文本复制单元、方式确定单元以及文本转化单元，其中：

文本复制单元，用于复制有标签文本，并将复制后的有标签文本分别与各初始分类器相关联。

方式确定单元，用于根据初始分类器的分类器类型，确定初始分类器所关联的有标签文本的词向量转化方式。

文本转化单元，用于根据词向量转换方式将有标签文本转化为词向量矩阵。

在本实施例的一些可选的实现方式中，文本筛选模块304包括：标签比较子模块、文本标记子模块以及样本添加子模块，其中：

标签比较子模块，用于对于每一个无标签文本，比较无标签文本的各文本标签。

文本标记子模块，用于当各文本标签一致时，将无标签文本标记为候选样本。

样本添加子模块，用于将得到的候选样本添加到初始文本分类器的补充训练集。

在本实施例的一些可选的实现方式中，补充训练模块305包括：第一抽取子模块、状态判断子模块以及第二抽取子模块，其中：

第一抽取子模块，用于从补充训练集中抽取第一数量的候选样本，并根据候选样本对初始文本分类器进行第一迭代训练。

状态判断子模块，用于判断第一迭代训练后的初始文本分类器的迭代状态。

第二抽取子模块，用于从剩余的补充训练集中抽取第二数量的候选样本，第二数量与迭代状态相匹配，并根据抽取到的候选样本对初始文本分类器进行第二迭代训练，得到文本分类器。

在本实施例的一些可选的实现方式中，文本分类模型处理装置300还包括：文本获取模块、文本输入模块以及结果确定模块，其中：

文本获取模块，用于获取待分类文本。

文本输入模块，用于将待分类文本输入文本分类模型中的各文本分类器，得到文本分类子结果。

结果确定模块，用于根据文本分类子结果确定待分类文本的文本分类结果。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如文本分类模型处理方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述文本分类模型处理方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的文本分类模型处理方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种文本分类模型处理方法，其特征在于，包括下述步骤：

根据得到的各文本分类器构建文本分类模型。

2.根据权利要求1所述的文本分类模型处理方法，其特征在于，所述获取有标签文本、无标签文本以及各初始分类器，所述各初始分类器分别来自预设的若干类文本分类器的步骤包括：

从文本库中获取有标签文本以及无标签文本；

从预设的若干类文本分类器中分别抽取初始分类器，其中，所述若干类文本分类器包括基于局部特征的文本分类器、基于上下文信息的文本分类器以及基于注意力的文本分类器。

3.根据权利要求1所述的文本分类模型处理方法，其特征在于，所述根据所述有标签文本对各初始分类器进行训练，得到各初始文本分类器的步骤包括：

将所述有标签文本转化为词向量矩阵；

将所述词向量矩阵分别输入对应的初始分类器；

根据所述词向量矩阵以及所述有标签文本的文本标签对所述各初始分类器进行训练，得到各初始文本分类器。

4.根据权利要求3所述的文本分类模型处理方法，其特征在于，所述将所述有标签文本转化为词向量矩阵的步骤包括：

复制所述有标签文本，并将复制后的所述有标签文本分别与所述各初始分类器相关联；

根据初始分类器的分类器类型，确定所述初始分类器所关联的有标签文本的词向量转化方式；

根据所述词向量转换方式将所述有标签文本转化为词向量矩阵。

5.根据权利要求1所述的文本分类模型处理方法，其特征在于，所述根据得到的文本标签对所述无标签文本进行筛选，得到所述初始文本分类器的补充训练集的步骤包括：

对于每一个无标签文本，比较无标签文本的各文本标签；

当所述各文本标签一致时，将所述无标签文本标记为候选样本；

将得到的候选样本添加到所述初始文本分类器的补充训练集。

6.根据权利要求1所述的文本分类模型处理方法，其特征在于，所述基于预设的迭代算法，通过所述补充训练集对所述初始文本分类器进行训练，得到文本分类器的步骤包括：

从所述补充训练集中抽取第一数量的候选样本，并根据所述候选样本对所述初始文本分类器进行第一迭代训练；

判断第一迭代训练后的所述初始文本分类器的迭代状态；

从剩余的补充训练集中抽取第二数量的候选样本，所述第二数量与所述迭代状态相匹配，并根据抽取到的候选样本对所述初始文本分类器进行第二迭代训练，得到文本分类器。

7.根据权利要求1所述的文本分类模型处理方法，其特征在于，在所述根据得到的各文本分类器构建文本分类模型的步骤之后，还包括：

获取待分类文本；

将所述待分类文本输入所述文本分类模型中的各文本分类器，得到文本分类子结果；

根据所述文本分类子结果确定所述待分类文本的文本分类结果。

8.一种文本分类模型处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的文本分类模型处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的文本分类模型处理方法的步骤。