CN112214597B

CN112214597B - 基于多粒度建模的半监督文本分类方法和系统

Info

Publication number: CN112214597B
Application number: CN202011004053.2A
Authority: CN
Inventors: 余本功; 汲浩敏; 朱梦迪; 王胡燕; 王惠灵; 张子薇; 朱晓洁
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-09-06
Anticipated expiration: 2040-09-22
Also published as: CN112214597A

Abstract

本发明提供一种基于多粒度建模的半监督文本分类方法和系统，涉及数据处理技术和机器学习技术领域。本发明使用多粒度的文本建模方式形成三通道的文本向量模型层，分别从字符级、词语级、句子级三个级别对同一文本进行文本建模，再将三个级别的建模分别作为三个通道，并将三个通道的输出输入给三个基分类器组，在不损失样本或者特征的情况下获得样本之间的分歧，取代了传统的重采样与随机子空间方法；同时，九个基分类器集成为三个基分类器组的设计，集成了不同基分类器的优点，使用不同的基分类器获取相同样本的不同特征，获得基分类器之间的分歧，从而有效提高了半监督文本分类方法的分类结果准确度。

Description

基于多粒度建模的半监督文本分类方法和系统

技术领域

本发明涉及数据处理技术和机器学习技术领域，具体涉及一种基于多粒度建模的半监督文本分类方法和系统。

背景技术

互联网技术的迅猛发展，使得信息传递越来越迅速、便捷，在信息源源不断地产生以及交互过程中，又衍生出更多新的信息，这些信息一直是在呈指数式增长的，而在这些海量信息中往往包含了许多有价值的东西，它们不仅从侧面反应了用户的大量潜在需求，还反馈出存在于企业服务中的诸多问题。如果对这些海量用户信息进行快速挖掘和有效提取，便可以轻松掌握用户需求，同时改进企业服务中存在的大量问题，为用户提供更优质的服务，抢占更广大市场。所以，如何对文本信息进行快速挖掘以及正确分类，逐渐成为了企业研究的热点，数据、文本分类相关技术也在不断发展和改进中。在使用传统的文本分类方法进行分类时，需要大量的有标注样本进行训练，然而，各种不同领域的文本具有专业性强、种类繁多、数量庞大等特点，对这些文本进行人工标注耗时费力，时间成本和经济成本都很高，而半监督学习正好可以解决这一问题。

半监督学习介于有监督学习(需要大量有标注的训练样本)和无监督学习(准确率相对较低)两者之间，只需要少量的有标注训练样本，就可以获得较高的准确性，降低了人工标注所带来的各种成本。目前，基于半监督学习的文本分类方法是使用诸如SVM等这些单一的分类器，然后使用重采样和随机子空间的方法获取样本分歧，再用这些样本集训练SVM模型获得多个不同的SVM分类器，最后通过对训练完的所有SVM分类器的预测结果相对多数投票策略得到最终的分类结果。

但是，这种传统的半监督文本分类的做法，使用单一种类的分类器，以及运用重采样和随机子空间的方法获取样本分歧时，存在样本或特征丢失的问题，对半监督分类的效果有较大的影响；另外，传统的半监督文本分类模型主要使用单一粒度的语言模型，会存在语义不完整、无法解决一词多义等问题，也会导致半监督文本分类效果不理想。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于多粒度建模的半监督文本分类方法和系统，解决了传统半监督分类方法中存在样本或特征丢失，以及存在语义不完整、无法解决一词多义的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供一种基于多粒度建模的半监督文本分类方法，所述方法由计算机执行，包括以下步骤：

获取有标记的文本样本集L、未标记的文本样本集U、待分类文本T；

构建MG-SSC模型；其中，所述MG-SSC模型包括三通道的文本向量模型层、基分类器层和集成结果层；所述三通道的文本向量模型层包括第一通道、第二通道以及第三通道，所述基分类器层包括第一基分类器组A、第二基分类器组B以及第三基分类器组C；

基于所述第一通道分别对L、U和T进行编码得到L₁、U₁和T₁，基于所述第二通道分别对L、U和T进行编码得到L₂、U₂和T₂，基于所述第三通道分别对L、U和T进行编码得到L₃、U₃和T₃；

基于L₁训练第一基分类器组A得到训练后的第一基分类器组A₁，基于L₂训练第二基分类器组B得到训练后的第二基分类器组B₁，基于L₃训练第三基分类器组C得到训练后的第三基分类器组C₁；

基于第一基分类器组A₁获取U₁的分类预测结果，基于第二基分类器组B₁获取U₂的分类预测结果，基于第三基分类器组C₁获取U₃的分类预测结果；

基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本，将处理后的文本样本基于所述第一通道进行编码后加入到L₁中得到L₁’，将处理后的文本样本基于所述第二通道进行编码后加入到L₂中得到L₂’，将处理后的文本样本基于所述第三通道进行编码后加入到L₃中得到L₃’；

基于L₁’训练第一基分类器组A₁得到训练后的第一基分类器组A₂，基于L₂’训练第二基分类器组B₁得到训练后的第二基分类器组B₂，基于L₃’训练第三基分类器组C₁得到训练后的第三基分类器组C₂；

基于第一基分类器组A₂获取T₁的分类预测结果，基于第二基分类器组B₂获取T₂的分类预测结果，基于第三基分类器组C₂获取T₃的分类预测结果；

基于所述集成结果层处理待分类文本T的多个分类预测结果，得到待分类文本T的最终分类结果。

优选的，所述第一通道包括BERT模型，所述第二通道包括Skip-gram模型，所述第三通道包括DBOW模型。

优选的，所述第一基分类器组A和所述第二基分类器组B以及第三基分类器组C相同，均包括：SVM基分类器、随机森林基分类器和KNN基分类器，其中，每个基分类器组组内使用Stacking方式对三个不同的基分类器进行集成；在基分类器组组间使用Bagging方式进行集成。

优选的，所述基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本，具体包括：

按照训练集补入规则中的类别均衡规则对U中的文本样本的多个分类预测结果进行均衡处理，将预测结果样本中规模最小的那个类别的样本数作为样本抽取的阈值m，对其他类别按共识的排序从高到低抽取m个样本，并将其他未被抽取的样本舍弃，然后得到处理后的文本样本。

优选的，所述基于集成结果层处理待分类文本T的多个分类预测结果，得到待分类文本T的最终分类结果，具体包括：

基于所述集成结果层分析所有基分类器对待分类文本T的分类预测结果，采用相对多数投票的原则，得到待分类文本T的最终分类结果。

优选的，所述BERT模型用于对输入第一通道的样本进行字符级编码，所述Skip-gram模型用于对输入第二通道的样本进行词语级编码，所述DBOW模型用于对输入第三通道的样本进行句子级编码。

第二方面，本发明还提供了一种基于多粒度建模的半监督文本分类系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

(三)有益效果

本发明提供了一种基于多粒度建模的半监督文本分类方法和系统。与现有技术相比，具备以下有益效果：

1、本申请的MG-SSC模型使用多粒度的文本建模方式，分别运用BERT模型、Skip-gram模型、DBOW模型从字符级、词语级、句子级三个粒度对同一文本进行文本建模，形成三通道的文本向量模型层，获取同一文本在字、词、句三个粒度的信息，这样可以让模型学习到文本在三个不同级别上的特征，有效解决了使用单一粒度的语言模型造成语义不完整、无法解决一词多义等问题；

2、本申请的MG-SSC模型使用Bagging、Stacking两种方式对选取的SVM、随机森林、KNN三种共九个基分类器进行集成，整合三种基分类器的优点，形成三个基分类器组，然后将对同一文本进行三个粒度文本建模后形成的三通道的输出，再输入到这三个基分类器组，同时让每个通道之间学习到同一文本不同的信息并将其合理的表示出来，使通道与通道之间产生分歧，扩大输入样本之间的分歧，有效解决了使用重采样、随机子空间等方式造成样本损失或特征损失的问题；

3、本申请的MG-SSC模型将多粒度的文本建模方式和集成基分类器组的方式进行组合，获得最终的半监督文本分类模型，不仅解决了由于使用单一粒度的语言模型造成的语义不完整、无法解决一词多义等问题，还解决了由于使用重采样、随机子空间等方式造成样本损失或特征损失的问题，最终提升了半监督文本分类的分类效果，可以在只使用少量有标注样本时获得较好的分类效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于多粒度建模的半监督文本分类方法的流程图；

图2为本发明实施例中基于MG-SSC模型分类的流程图；

图3为本发明实施例中MG-SSC模型结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于多粒度建模的半监督文本分类方法和系统，解决了传统半监督分类方法由于样本或特征丢失以及使用单一粒度的语言模型而造成半监督文本分类效果不理想的问题，实现了在只使用少量有标注样本时就能获得较好的分类效果的目标。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明使用多粒度的文本建模方式形成三通道的文本向量模型层，分别从字符级、词语级、句子级三个级别对同一文本进行文本建模，再将三个级别的建模分别作为三个通道，并将三个通道的输出输入给三个基分类器组，在不损失样本或者特征的情况下获得样本之间的分歧，取代了传统的重采样与随机子空间方法。同时，九个基分类器集成为三个基分类器组的设计，集成了不同基分类器的优点，使用不同的基分类器获取相同样本的不同特征，获得基分类器之间的分歧，从而有效提高了半监督文本分类方法的分类结果准确度。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施首先提出了一种基于多粒度建模的半监督文本分类方法，该方法由计算机执行，如图1和图2和所示，包括步骤S1～S9：

S1、获取有标记的文本样本集L、未标记的文本样本集U、待分类文本T；

S2、构建MG-SSC模型；其中，所述MG-SSC模型包括三通道的文本向量模型层、基分类器层和集成结果层；所述三通道的文本向量模型层包括第一通道、第二通道以及第三通道，所述基分类器层包括第一基分类器组A、第二基分类器组B以及第三基分类器组C；

S3、基于所述第一通道分别对L、U和T进行编码得到L₁、U₁和T₁，基于所述第二通道分别对L、U和T进行编码得到L₂、U₂和T₂，基于所述第三通道分别对L、U和T进行编码得到L₃、U₃和T₃；

S4、基于L₁训练第一基分类器组A得到训练后的第一基分类器组A₁，基于L₂训练第二基分类器组B得到训练后的第二基分类器组B₁，基于L₃训练第三基分类器组C得到训练后的第三基分类器组C₁；

S5、基于第一基分类器组A₁获取U₁的分类预测结果，基于第二基分类器组B₁获取U₂的分类预测结果，基于第三基分类器组C₁获取U₃的分类预测结果；

S6、基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本，将处理后的文本样本基于所述第一通道进行编码后加入到L₁中得到L₁’，将处理后的文本样本基于所述第二通道进行编码后加入到L₂中得到L₂’，将处理后的文本样本基于所述第三通道进行编码后加入到L₃中得到L₃’；

S7、基于L₁’训练第一基分类器组A₁得到训练后的第一基分类器组A₂，基于L₂’训练第二基分类器组B₁得到训练后的第二基分类器组B₂，基于L₃’训练第三基分类器组C₁得到训练后的第三基分类器组C₂；

S8、基于第一基分类器组A₂获取T₁的分类预测结果，基于第二基分类器组B₂获取T₂的分类预测结果，基于第三基分类器组C₂获取T₃的分类预测结果；

S9、基于所述集成结果层处理待分类文本T的多个分类预测结果，得到待分类文本T的最终分类结果。

可见，本发明实施例提出的一种基于多粒度建模的半监督文本分类方法，构建的MG-SSC模型使用多粒度的文本建模方式，分别使用BERT模型、Skip-gram模型、DBOW模型从字符级、词语级、句子级三个粒度对同一文本进行文本建模，形成三通道的文本向量模型层，获取同一文本在字、词、句三个粒度的信息，这样可以让模型学习到文本在三个不同级别上的特征，有效解决了使用单一粒度的语言模型造成语义不完整、无法解决一词多义等问题；另外，MG-SSC模型使用Bagging、Stacking两种方式对选取的SVM、随机森林、KNN三种共九个基分类器进行集成，整合三种基分类器的优点，形成三个基分类器组，然后将对同一文本进行三个粒度文本建模后形成的三通道的输出再输入到这三个基分类器组，同时让每个通道之间学习到同一文本不同的信息并将其合理的表示出来，使通道与通道之间产生分歧，扩大输入样本之间的分歧，有效解决了使用重采样、随机子空间等方式造成样本损失或特征损失的问题。综合看来，本申请的MG-SSC模型将多粒度的文本建模方式和集成基分类器组的方式进行组合，获得最终的半监督文本分类模型，不仅解决了由于使用单一粒度的语言模型造成的语义不完整、无法解决一词多义等问题，还解决了由于使用重采样、随机子空间等方式造成样本损失或特征损失的问题，最终提升了半监督文本分类的分类效果，可以在只使用少量有标注样本时获得较好的分类效果。

在本发明实施例的上述方法中，基于集成结果层对未标记样本集U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本时，一种较佳的处理方式是，按照训练集补入规则中的类别平衡规则进行类别均衡，按照训练集补入规则中的类别均衡规则对U中的文本样本的多个分类预测结果进行均衡处理，将预测结果样本中规模最小的那个类别的样本数作为样本抽取的阈值m，对其他类别按共识的排序从高到低抽取m个样本，并将其他未被抽取的样本舍弃，然后得到处理后的文本样本。这样做的目的，一方面，保证选取的不同类别的样本的数量保持一致，即做到了类别均衡；另一方面，舍弃了部分共识度低的样本，提升了补入样本的质量。

另外，为了得到分类文本T的最终分类结果，在本发明的一个实施例中，在基于集成结果层处理待分类文本T的多个分类预测结果得到待分类文本T的最终分类结果时，采用相对多数投票的原则，得到待分类文本T的最终分类结果。

在实际操作中，为了得到同一文本的多个粒度的信息，本申请构建多级别的文本建模方式，分别从字符级、词语级、句子级三个级别对同一文本进行文本建模，再将三个级别的建模分别作为三个通道，此时，在本发明的一个实施例中，选用模型对样本进行编码时，选择BERT模型用于对输入第一通道的样本进行字符级编码；考虑到本实验使用的数据集样本数量较小，选择Word2vec模型中的Skip-gram模型用于对输入第二通道的样本进行词语级编码；与选择Skip-gram模型相对应，选择DBOW模型用于对输入第三通道的样本进行句子级编码。

下面结合对S1-S9的步骤的详细阐述，来说明本发明一个实施例具体的实现过程。

在步骤S1中，获取有标记的文本样本集L、未标记的文本样本集U、待分类文本T。在本发明实施例中，获取有标注的文本样本集L的文本样本数量较少，未标注文本样本集U中的文本样本数量较多。获取这些样本时，可通过人工输入、网络爬虫等方式得到数据，然后将得到的数据分为有标注的文本样本集L、未标注文本样本集U和待分类文本T。

在步骤S2中，构建MG-SSC(Multi Granularity Semi-SupervisedClassification model，MG-SSC)模型，即多粒度建模的半监督文本分类方法模型。如图3所示，具体的，MG-SSC模型包括三通道的文本向量模型层、基分类器层和集成结果层；上述三通道的文本向量模型层包括第一通道、第二通道以及第三通道，上述基分类器层包括第一基分类器组A、第二基分类器组B以及第三基分类器组C。

在本发明的实施例中，第一通道使用BERT模型对输入第一通道的样本进行字符级编码。在进行字符级文本建模时，将文本输入训练后的BERT模型，通过BERT模型获取整个文本中每个字的信息，再通过学习将每个字的信息融入到提前在文本前加上的“CLS”标签中，学习结束后将融合了文本字符级信息的“CLS”标签向量输出，作为MG-SSC模型的字符级文本向量；第二通道使用Skip-gram模型对输入第二通道的样本进行词语级编码。在进行词语级文本建模时，首先训练skip-gram模型获得词向量表，再对文本进行分词，在词向量表中查询每个词的词向量，最后将每个词的词向量按位累加求均值，得到最终包含词语级信息的文本向量，作为MG-SSC模型的词语级文本向量；对应于第二通道使用Skip-gram模型，第三通道使用DBOW模型对输入第三通道的样本进行句子级编码。在进行句子级文本建模时，首先训练DBOW模型，得到训练后的参数矩阵，再将文本输入训练好的DBOW模型，就可以直接根据已有的参数矩阵快速的输出包含句子级信息的文本向量，作为MG-SSC模型的句子级文本向量。采用这三个向量模型进行三通道的文本向量建模，这样的建模方式，让模型学习到文本在三个不同级别上的特征，将同一文本上的特征映射到字符级、词语级、句子级三个完全不同的实数空间，让文本样本集在不损失样本的情况下形成分歧。

另外，第一基分类器组A、第二基分类器组B以及第三基分类器组C都相同，A、B、C三个基分类器组均包括SVM基分类器、随机森林基分类器和KNN基分类器。在将三种基分类器集成为基分类器组时，每个基分类器组内使用Stacking的方式对三个不同的基分类器进行集成，整合三个基分类器的优点，每个学习机均使用同一训练集进行训练，用三个基分类器分别学习同一样本不同的特征产生分歧；在基分类器组间，使用Bagging方式进行集成，将同一样本在三个粒度上的特征输出分别输入同一种分类器，让分类器有效的学习同一样本在不同特征空间的信息形成样本之间的分歧。

在步骤S3中，基于第一通道分别对L、U和T进行编码得到L₁、U₁和T₁，基于第二通道分别对L、U和T进行编码得到L₂、U₂和T₂，基于第三通道分别对L、U和T进行编码得到L₃、U₃和T₃。在第一通道、第二通道、第三通道分别对有标记的样本集L、未标记样本集U、待分类文本T使用BERT、Skip-gram、DBOW三种编码方式进行编码，字符级的BERT模式编码得到L₁、U₁和T₁，词语级的Skip-gram模式编码得到L₂、U₂和T₂，句子级的DBOW模式编码得到L₃、U₃和T₃。例如，对U基于第一、二、三通道进行多粒度文本建模时，具体的过程为：选取任一样本u(u∈U)，基于第一通道字符级的BERT模式编码得到u₁(u₁∈U₁)，基于第二通道的词语级的Skip-gram模式编码得到u₂(u₂∈U₂)，基于句子级的DBOW模式编码得到u₃(u₃∈U₃)。

在步骤S4中，基于L₁训练第一基分类器组A得到训练后的第一基分类器组A₁，基于L₂训练第二基分类器组B得到训练后的第二基分类器组B₁，基于L₃训练第三基分类器组C得到训练后的第三基分类器组C₁。具体过程为：

通过L₁训练第一基分类器组A中的SVM基分类器、随机森林基分类器和KNN基分类器，得到此次训练后的第一基分类器组A，记作第一基分类器组A₁，通过L₂训练第二基分类器组B中的SVM基分类器、随机森林基分类器和KNN基分类器，得到此次训练后的第二基分类器组B，记作第二基分类器组B₁，通过L₃训练第三基分类器组C中的SVM基分类器、随机森林基分类器和KNN基分类器，得到此次训练后的第三基分类器组C，记作第三基分类器组C₁。

在步骤S5中，基于第一基分类器组A₁获取U₁的分类预测结果，基于第二基分类器组B₁获取U₂的分类预测结果，基于第三基分类器组C₁获取U₃的分类预测结果。具体过程为：

通过第一基分类器组A₁中的三个基分类器处理U₁中经过字符级编码的文本样本u₁，得到文本样本u₁的三个分类预测结果记为H₁(u₁)、H₂(u₁)和H₃(u₁)；通过第二基分类器组B₁中的三个基分类器处理U₂中经过词语级编码的文本样本u₂，得到文本样本u₂的三个分类预测结果记为H₄(u₂)、H₅(u₂)和H₆(u₂)；通过第三基分类器组C₁中的三个基分类器处理U₂中经过句子级编码的文本样本u，得到文本样本u的三个分类预测结果记为H₇(u₃)、H₈(u₃)和H₉(u₃)。至此得到对同一样本u(u∈U)的九个预测结果，即H₁(u₁)、H₂(u₁)、H₃(u₁)、H₄(u₂)、H₅(u₂)、H₆(u₂)、H₇(u₃)、H₈(u₃)和H₉(u₃)。

S6、基于上述集成结果层对U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本，将处理后的文本样本基于上述第一通道进行编码后加入到L₁中得到L₁’，将处理后的文本样本基于上述第二通道进行编码后加入到L₂中得到L₂’，将处理后的文本样本基于上述第三通道进行编码后加入到L₃中得到L₃’。具体过程为：

对九个基分类器的分类预测结果进行比对，根据相对多数投票的结果得到预测标签。将u标记为g(u),同时记录下获得共识的投票数，与样本u一起加入S＝{S₁∪S₁∪...∪S_i}。按照训练集补入规则中的类别平衡规则进行类别均衡，首先将每个类别的样本按投票数进行降序排列，再将规模最小类别样本数量作为阈值m，每个类别按共识的排序从高到低抽取m个样本，共同组成补入样本集加入训练集V＝S′₁(m)∪S′₂(m)∪...∪S′_i(m)。对V中的样本重新进行多粒度的文本建模V′₁，V′₂，V′₃＝f(V)，最后将V′₁加入L₁中得到L′₁＝L₁∪V′₁,将V′₂加入L₂中得到L′₂＝L₂∪V′₂，将V′₃加入L₃中得到L′₃＝L₃∪V′₃。其中，f(v)表示多粒度文本建模的函数。

在步骤S7中，基于L₁’训练第一基分类器组A₁得到训练后的第一基分类器组A₂，基于L₂’训练第二基分类器组B₁得到训练后的第二基分类器组B₂，基于L₃’训练第三基分类器组C₁得到训练后的第三基分类器组C₂，具体过程为：

通过L₁’训练第一基分类器组A₁中的SVM基分类器、随机森林基分类器和KNN基分类器，得到此次训练后的第一基分类器组A₁，记作第一基分类器组A₂，通过L₂’训练第二基分类器组B₁中的SVM基分类器、随机森林基分类器和KNN基分类器，得到此次训练后的第二基分类器组B₁，记作第二基分类器组B₂，通过L₃’训练第三基分类器组C₁中的SVM基分类器、随机森林基分类器和KNN基分类器，得到此次训练后的第三基分类器组C₁，记作第三基分类器组C₂。

在步骤S8中，基于第一基分类器组A₂获取T₁的分类预测结果，基于第二基分类器组B₂获取T₂的分类预测结果，基于第三基分类器组C₂获取T₃的分类预测结果。具体过程为：

通过第一基分类器组A₂中的SVM基分类器、随机森林基分类器和KNN基分类器得到T₁的三个分类预测结果，通过第二基分类器组B₂中的SVM基分类器、随机森林基分类器和KNN基分类器得到T₂的三个分类预测结果，通过第三基分类器组C₂中的SVM基分类器、随机森林基分类器和KNN基分类器得到T₃的三个分类预测结果，即得到待分类文本T的九个分类预测结果。

在步骤S9中，基于集成结果层处理待分类文本T的多个分类预测结果，得到待分类文本T的最终分类结果。具体的，根据集成结果层对待分类文本T的九个分类预测结果，采用相对多数投票的原则，得到待分类文本T的最终分类结果。

至此，完成了本发明一种基于多粒度建模的半监督文本分类方法的全部过程。

为了验证本发明实施例的有效性，一方面，测试有标注的文本样本集占训练样本多少比重时，本发明实施例中的MG-SSC模型的各项指标趋于稳定。在本发明实施例验证过程中，采用网络爬虫的京东水果评论数据集(数据一)和部分搜狗新闻数据集(数据二)作为测试数据，具体如表1所示：

表1

分别将数据集的5％、10％、20％、30％、40％作为五次实验的五组有标签数据集，再将数据集的20％作为测试集,剩余部分隐去标签作为无标签样本集，分别得到五组实验数据。本文的半监督分类模型分别使用五组数据进行半监督分类测试，每组数据进行五次实验，最终的结果为五次实验的平均值，再将五组实验的结果进行对比。由表1可知，有标签样本在总样本中的占比对半监督分类的效果有重要影响。随着有标签在总样本中的占比不断提高，半监督分类的各项指标均不断提高。当有标签样本占比从5％提升到10％，10％提升到20％时，在两个数据集下MG-SSC模型的半监督分类效果提升较快均超过1.5％，而占比继续提升半监督分类的精度继续提升，但提升速度较慢均低于1.5％，这是由于模型可以学习的信息逐渐饱和，所以继续提升有标签样本的数量，精度提升较低。且由于对数据进行标注的成本很高，不断提升有标签样本占比会使整个分类任务的时间成本和经济成本成倍增加，在综合考虑精度和成本的情况下，将有标签样本的占比定位20％较为合适。数据一在有标签样本占比为5％，即每类样本250条时可以达到90.58％的精度，半监督分类效果已经超过90％，精度较高，说明MG-SSC模型在有标签样本集很小的时可以取得较好的效果。而数据二在有标签样本占比为5％，即每类样本50条时达到84.87％，有标签样本数量远小于数据一在5％占比下的250条，在五分类任务下，半监督分类模型精度依然较高，充分说明了MG-SSC模型在有标签样本极小时的有效性。

另一方面，为了验证本发明实施例中提出的MG-SSC模型的有效性，将本发明实施例中的模型与传统的协同训练模型及其他学者提出的改进的协同训练模型进行比较。为了避免由于不同实验选择数据集的区别会对模型效果的比较产生影响，本验证过程中引用精度差值(Precision Difference，PD)对半监督分类模型的有效性进行评价。PD是半监督分类模型的分类精度与对应的有监督分类模型分类精度的差值的绝对值，PD值越小，说明半监督分类模型的最优效果越无限逼近与之对应的有监督分类模型的分类结果，说明半监督分类模型的精度越高。PD计算公式如下：

PD＝|accuracy(SSC)-accuracy(SC)|

1、其中，accuracy(SSC)表示半监督分类模型的精度，accuracy(SC)表示有监督分类(Supervised classification，SC)模型的精度。

2、进行模型效果比较时，可以在相同有标签样本集占比的条件下，不考虑实验使用的数据集，比较模型的PD，来比较模型与该模型最优效果的差距，进而对模型进行比较。本实验在有标签数据集占比为20％的条件下进行，进行比较的基于分歧的半监督文本分类方法有Co-training[27]、Tri-training[10]、改进Tri-training[28]、DW-TCI。其中Co-training、Tri-training对应的有监督分类模型为SVM，改进Tri-training对应的有监督分类模型为SVM、随机森林、KNN的三集成模型，DW-TCI对应的有监督分类模型为两组SVM、随机森林、KNN的六集成模型，而MG-SSC模型为三组SVM、随机森林、KNN的九集成模型。结果如下表2所示：

表2

由表2可知，在有标签样本占比为20％时，MG-SSC模型的半监督分类精度高于其他半监督分类模型。从PD值指标看，MG-SSC模型更加接近半监督分类理论最优效果。在二分类任务的数据一上，MG-SSC模型与理论最优的效果之间的差距仅为1.16％，低于其他的半监督分类模型。而在五分类任务的数据二上，MG-SSC模型与理论最优的效果之间的差距为2.61％，而其他的半监督分类模型均超过4％，最差的PD值超过9％。有效证明了MG-SSC模型在数据一、数据二的实验下可以比本文进行对比的其他半监督分类模型获得更好的效果。

再一方面，为了验证补入样本类别是否均衡对半监督分类效果的影响，设计一组对比模型，将MG-SSC模型的训练集补入规则进行修改，不再对补入标签进行类别均衡，直接将相对多数投票的结果补入训练集。对比模型分别使用两个数据集在有标签数据集占比20％的条件下进行，分别进行五次实验，最终的结果为五次实验的平均值。具体如表三所示：

表3

由表3可知，在数据一的对比实验中，进行类别均衡后MG-SSC模型精度提升了1.71％，f1值提升了1.82％，其他两个指标的提升也超过1％。在数据二的对比实验中，进行类别均衡后MG-SSC模型精度提升了1.16％，f1值提升了1.18％，其他两个指标也有一定幅度的提升，有效证明了在MG-SSC模型进行训练集补入的时候，进行类别均衡有利于提升半监督分类的效果。

另外，本发明实施例还提出了一种基于多粒度建模的半监督文本分类系统，该系统包括计算机，该计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由至少一个处理单元加载并执行以实现以下步骤：

可理解的是，本发明实施例提供的上述基于多粒度建模的半监督文本分类系统与上述基于多粒度建模的半监督文本分类方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于多粒度建模的半监督文本分类方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本申请的MG-SSC模型使用多粒度的文本建模方式，分别使用BERT模型、Skip-gram模型、DBOW模型从字符级、词语级、句子级三个粒度对同一文本进行文本建模，形成三通道的文本向量模型层，获取同一文本在字、词、句三个粒度的信息，这样可以让模型学习到文本在三个不同级别上的特征，有效解决了使用单一粒度的语言模型造成语义不完整、无法解决一词多义等问题；

2、本申请的MG-SSC模型使用Bagging、Stacking两种方式对选取的SVM、随机森林、KNN三种共九个基分类器进行集成，整合三种基分类器的优点，形成三个基分类器组，然后将对同一文本进行三个粒度文本建模后形成的三通道的输出再输入到这三个基分类器组，同时让每个通道之间学习到同一文本不同的信息并将其合理的表示出来，使通道与通道之间产生分歧，扩大输入样本之间的分歧，有效解决了使用重采样、随机子空间等方式造成样本损失或特征损失的问题；

4、本申请按照训练集补入规则中的类别均衡规则对未标记文本样本U中的文本样本的多个分类预测结果进行均衡处理，将预测结果样本中规模最小的那个类别的样本数作为样本抽取的阈值m，对其他类别按共识的排序从高到低抽取m个样本，并将其他未被抽取的样本舍弃。这一操作，不仅保证选取的不同类别的样本的数量保持一致，即做到了类别均衡，还舍弃了部分共识度低的样本，提升了补入样本的质量，进而提升了本申请MG-SSC模型的分类效果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多粒度建模的半监督文本分类方法，其特征在于，所述方法由计算机执行，包括以下步骤：

基于所述集成结果层处理待分类文本T的多个分类预测结果，得到待分类文本T的最终分类结果；

所述第一通道包括BERT模型，所述第二通道包括Skip-gram模型，所述第三通道包括DBOW模型；

所述第一基分类器组A和所述第二基分类器组B以及第三基分类器组C相同，均包括：SVM基分类器、随机森林基分类器和KNN基分类器，其中，每个基分类器组组内使用Stacking方式对三个不同的基分类器进行集成；在基分类器组组间使用Bagging方式进行集成；

所述BERT模型用于对输入第一通道的样本进行字符级编码，所述Skip-gram模型用于对输入第二通道的样本进行词语级编码，所述DBOW模型用于对输入第三通道的样本进行句子级编码。

2.如权利要求1所述的方法，其特征在于，所述基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本，具体包括：

3.如权利要求1所述的方法，其特征在于，所述基于所述集成结果层处理待分类文本T的多个分类预测结果，得到待分类文本T的最终分类结果，具体包括：

4.一种基于多粒度建模的半监督文本分类系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

5.如权利要求4所述的系统，其特征在于，所述基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本，具体包括：