CN110245227B

CN110245227B - 文本分类的融合分类器的训练方法及设备

Info

Publication number: CN110245227B
Application number: CN201910337468.2A
Authority: CN
Inventors: 周凯敏; 舒畅; 李竹桥; 陆晨昱; 郑思璇; 朱婷婷; 李先云; 刘尧
Original assignee: Semantic Intelligent Technology Guangzhou Co ltd
Current assignee: Semantic Intelligent Technology Guangzhou Co ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2021-12-28
Anticipated expiration: 2039-04-25
Also published as: CN110245227A

Abstract

本发明的目的是提供一种文本分类的融合分类器的训练方法及设备，本发明采用大量的普通自然语言文本数据和未标注的分类文本领域数据，结合半监督学习的方式扩充标注数据，最后以深度学习的模型将多个文本分类器融合，从而使得分类能在实际应用中取得更高的准确率。

Description

文本分类的融合分类器的训练方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种文本分类的融合分类器的训练方法及设备。

背景技术

文本分类是对文本集按照一定的分类体系或标准进行自动分类标记。文本分类有着广泛的应用领域，比如新闻筛选、文档归类、意见挖掘和邮件分类等。文本分类的研究有着很长的历史，早期的方法有基于规则的方法、决策树的方法、贝叶斯分类器和支持向量机分类器等。近些年深度学习的模型被广泛使用与文本分类中，包括基于循环神经网络的文本分类模型和基于卷积神经网络的文本分类模型等。为了提高文本分类的准确率，模型融合的方法也常常被使用。模型融合思路方面有采用均值的，有使用投票机制的，有从纠正错误分类样本角度考虑的(boosting)等。

目前有众多文本分类的模型取得了较好的文本分类效果，但是在实际应用中还有欠缺。主要由于不同分类任务仍旧需要不同对应的语料进行训练，然而进行语料标注的代价是很高的。所以，通常实际应用中适应不同任务的能力差，分类的准确率也不高。

现有的文本分类方法需要大量高质量的标注数据，才能够在实际应用中取得高的准确率。然而由于人力和时间的限制，往往不能有充足的标注数据对模型参数进行调优以达到最好的效果。

现有的方案中，采用聚类的方法扩充数据量，扩充标记样本标签置信度不高所以扩充数据质量较差，致使学习后的分类效果改善不显著。

发明内容

本发明的一个目的是提供一种文本分类的融合分类器的训练方法及设备。

根据本发明的一个方面，提供了一种文本分类的融合分类器的训练方法，该方法包括：

步骤S1,获取一个大规模的文本语料库A，包括：一个已标记的文本分类训练集a1，一个已标记的文本分类验证集a2和一个未标记的文本分类数据集a3；

步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块；

步骤S3,设置一系列待训练的文本分类器，将所述已标记的文本分类训练集a1经过所述自然语言表示模块，得到对应的文本的数值矩阵表示L1，将所述文本的数值矩阵表示L1输入各个待训练的文本分类器，以得到各个训练后的文本分类器，其中，每个训练后的文本分类器由所述文本的数值矩阵表示L1的输入，得到对应的各个文本分类器的分类结果R1；

步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率，根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器，其中，M为正整数；

步骤S5,将所述已标记的文本分类验证集a2经过所述自然语言表示模块，得到对应的文本的数值矩阵表示L2，将所述文本的数值矩阵表示L2输入这M个文本分类器，得到对应的各个文本分类器的分类结果R2，将所述分类结果R2输入一个融合深度神经网络，并以所述分类结果R2为标注调整该融合深度神经网络，从而完成文本分类器的融合，得到融合后的文本分类器；

步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值，

若是，步骤S7，将当前得到的融合后的文本分类器作为最终的融合分类器。

进一步的，上述方法中，步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值之后，还包括：

若否，步骤S8，将所述未标记的文本分类数据集a3输入当前融合后的文本分类器进行分类预测，以得到新的标记数据，将新的标记数据加入到已标记的文本分类训练集a1中后，重新从步骤S3依次开始执行，以重新训练各个文本分类器，得到最终的融合分类器。

进一步的，上述方法中，步骤S7，将当前得到的融合后的文本分类器作为最终的融合分类器之后，还包括：

步骤S9，获取待预测数据，将所述待预测数据经过所述自然语言表示模块，得到对应的文本的数值矩阵表示L3；

步骤S10，将所述文本的数值矩阵表示L3输入这M个文本分类器，得到对应的各个文本分类器的分类结果R3；

步骤S11，将所述分类结果R3输入所述最终的融合分类器，以得到最终分类结果。

进一步的，上述方法中，步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块，包括：

预处理所述未标记的文本分类数据集a3得到一组词，得到一组词中每个词表示为w_i，采用Word2vec将得每个词w_i表示为对应到向量e_i；

将向量e_i输入一个语言模型，以使所述语言模型预测得出词w_i的下一个词和前一个词，其中，所述语言模型采用双向的循环神经网络，所述双向的循环神经网络中的正向循环神经网络以之前的词预测之后的词，所述双向的循环神经网络中的反向循环神经网络以之后的词预测之前的词w_i,以所述未标记的文本分类数据集a3作为训练数据，调整所述双向的循环神经网络的参数，以得到训练后的自然语言表示模块。

进一步的，上述方法中，步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块中，自然语言表示模块主要负责将自然语言转换为便于计算机处理的数值，该模块包括预处理子模块、词向量转换子模块和语言模型转换子模块，其中，

预处理子模块，用于将文本数据中的噪声去除(噪声包括乱码、符号、网络链接等)，同时将文本切分为一个个的词；

词向量转换子模块，用于应用Word2vec将切分出的词表示为固定维数的词向量；

语言模型转换子模块，用于采用通过用所述未标记的文本分类数据集a3的学习而得的循环神经网络语言模型，对所述词向量进行再次编码，使得每个词向量表示都具备上下文信息。

进一步的，上述方法中，步骤S3,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器，以得到各个训练后的文本分类器，包括：

使各个待训练的文本分类器以所述文本的数值矩阵表示L1作为输入，以标记的分类结果作为标准，采用梯度下降法调整各个待训练的文本分类器中的参数，以得到各个训练后的文本分类器。

进一步的，上述方法中，步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率，根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器，包括：

以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率，以所述准确率和SD值作为标准选择分类器，其中：

准确率＝分类正确的文本数量/总文本数量

SD_ij＝(R_i-R_j)²，R_i、R_j表示第i个分类器和第j个分类器的结果。

进一步的，上述方法中，所述准确率和SD值作为标准选择分类器，包括：

以准确率排序，从训练后的文本分类器选取前N个文本分类器，再两两计算前N个文本分类器中每两个文本分类器的SD值，依次取SD值大的两个文本分类器，直至选择的模型数不大于M，其中，N为正整数，N>M。

根据本发明的另一面，还提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上述任一项所述的方法。

根据本发明的另一面，还提供一种用于在网络设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行上述任一项所述的方法。

与现有技术相比，本发明采用大量的普通自然语言文本数据和未标注的分类文本领域数据，结合半监督学习的方式扩充标注数据，最后以深度学习的模型将多个文本分类器融合，从而使得分类能在实际应用中取得更高的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出本发明一实施例的文本分类的融合分类器的训练方法的流程图；

图2示出本发明一实施例的文本分类的融合分类器的训练方法的原理图；

图3示出本发明一实施例的文本分类的融合分类器的结构图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1～3所示，本发明提供一种文本分类的融合分类器的训练方法，所述方法包括：

步骤S1,获取一个大规模的文本语料库A(可以采集自互联网的任意自然语言文本)，包括：一个已标记的文本分类训练集a1，一个已标记的文本分类验证集a2和一个未标记的文本分类数据集a3；

在此，如图2所示，可以有一分类模块主要负责文本的分类任务，该模块包括模型训练子模块和分类预测子模块，其中，模型训练子模块，用于以所述已标记的文本分类训练集a1不断调文本分类器中的参数，使得文本分类器预测更加准确；分类预测子模块，用于使用训练好的文本分类器对未标记的文本分类数据集a3进行类别预测；

训练各个分类器中，可以设置一系列待训练的文本分类器，文本分类器可以是任意深度神经网络文本分类模型，不同文本分类器可以采用不同模型，也可以采用相同模型不同参数设置；

在此，如图2所示，可以有一模型融合模块主要负责将分类效果好的文本分类器融合，从而获得一个更好的文本分类器，模型融合模块包括分类器评估子模块和分类器融合子模块，其中，分类器评估子模块，用于以文本分类验证集a2评估每个文本分类器的优劣，用特定算法挑选出最适合融合的一组文本分类器；

在此，如图2所示，可以有分类器融合子模块，采用一个深度学习网络，将挑选出来的文本分类器预测的结果进行融合得到融合后到文本分类器；

在此，本发明采用大量的普通自然语言文本数据和未标注的分类文本领域数据，结合半监督学习的方式扩充标注数据，最后以深度学习的模型将多个文本分类器融合，从而使得分类能在实际应用中取得更高的准确率。

本发明的文本分类的融合分类器的训练方法一实施例中，步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值之后，还包括：

在此，可以从步骤S3开始重复以上步骤，直至得到的融合后的分类器准确率达到一定阈值。

如图2所示，可以有一标记数据生成模块主要负责对未标记文本进行分类预测，可以包括标记数据生成子模块和预测分类子模块，其中，标记数据生成子模块用于将未标记数据进行类别标记，而生成新的训练数据。

本发明的文本分类的融合分类器的训练方法一实施例中，步骤S7，将当前得到的融合后的文本分类器作为最终的融合分类器之后，还包括：

在此，如图2所示，可以由一预测分类子模块，对待预测数据进行分类预测并输出结果。

本发明的文本分类的融合分类器的训练方法一实施例中，步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块，包括：

将向量e_i输入一个语言模型，以使所述语言模型预测得出词w_i的下一个词和前一个词，其中，所述语言模型采用双向的循环神经网络(RNN)，所述双向的循环神经网络中的正向循环神经网络以之前的词预测之后的词，所述双向的循环神经网络中的反向循环神经网络以之后的词预测之前的词w_i,以所述未标记的文本分类数据集a3作为训练数据，调整所述双向的循环神经网络的参数，以得到训练后的自然语言表示模块，使双向的循环神经网络能够准确预测前后的词。

所述双向的循环神经网络训练达到预设准确率后，后续可利用自然语言表示模块对文本分类数据进行编码。经过这一上下循环神经网络的编码后，每一个被编码的词l_i则同时基本了前后文信息，这更利于后续文本分类。同一文本分类数据的所有被编码的词l_i汇总得到该文本分类数据的数值矩阵表示L。

如图2所示，本发明的文本分类的融合分类器的训练方法一实施例中，步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块中，自然语言表示模块主要负责将自然语言转换为便于计算机处理的数值，该模块包括预处理子模块、词向量转换子模块和语言模型转换子模块，其中，预处理子模块，用于将文本数据中的噪声去除(噪声包括乱码、符号、网络链接等)，同时将文本切分为一个个的词；

本发明的文本分类的融合分类器的训练方法一实施例中，步骤S3,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器，以得到各个训练后的文本分类器，包括：

本发明的文本分类的融合分类器的训练方法一实施例中，步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率，根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器，包括：

准确率＝分类正确的文本数量/总文本数量

SD_ij＝(R_i-R_j)²，R_i、R_j表示第i个分类器和第j个分类器的结果；

以所述准确率和SD值作为标准选择分类器，包括：

以准确率排序，从训练后的文本分类器选取前N个文本分类器，再两两计算前N个文本分类器中每两个文本分类器的SD值，依次取SD值大的两个文本分类器，直至选择的模型数不大于M(模型重复选取算一个，至于模型数量上限M，有两个模型需要取舍时选准确率高的)，其中，N、M为正整数，N>M。

在此，后续可以将这M个分类器以所述已标记的文本分类验证集a2作为输入得到的输出结果，输入一个融合深度神经网络，并以所述输出结果为标注调整该融合深度神经网络，从而完成分类器的融合，得到融合后的分类器。

本发明的各设备和存储介质实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种文本分类的融合分类器的训练方法，其中，该方法包括：

若是，步骤S7，将当前得到的融合后的文本分类器作为最终的融合分类器；

步骤S7，将当前得到的融合后的文本分类器作为最终的融合分类器之后，还包括：

2.根据权利要求1所述的文本分类的融合分类器的训练方法，其中，步骤S6,判断所述融合后的文本分类器的准确率是否达到预设阈值之后，还包括：

3.根据权利要求1所述的文本分类的融合分类器的训练方法，其中，步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块，包括：

4.根据权利要求1所述的文本分类的融合分类器的训练方法，其中，步骤S2,用所述未标记的文本分类数据集a3训练自然语言表示模块中，自然语言表示模块负责将自然语言转换为便于计算机处理的数值，该模块包括预处理子模块、词向量转换子模块和语言模型转换子模块，其中，

预处理子模块，用于将文本数据中的噪声去除，同时将文本切分为一个个的词；

5.根据权利要求1所述的文本分类的融合分类器的训练方法，其中，步骤S3,将所述文本的数值矩阵表示L1输入各个待训练的文本分类器，以得到各个训练后的文本分类器，包括：

6.根据权利要求1所述的文本分类的融合分类器的训练方法，其中，步骤S4,以所述已标记的文本分类验证集a2评估各个训练后的文本分类器的准确率，根据所述准确率的评估结果从各个训练后的文本分类器中筛选出M个文本分类器，包括：

准确率＝分类正确的文本数量/总文本数量

7.根据权利要求6所述的文本分类的融合分类器的训练方法，其中，所述准确率和SD值作为标准选择分类器，包括：

8.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至7中任一项所述的方法。

9.一种用于在网络设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行权利要求1至7中任一项所述的方法。