CN109960800A

CN109960800A - 基于主动学习的弱监督文本分类方法及装置

Info

Publication number: CN109960800A
Application number: CN201910188975.4A
Authority: CN
Inventors: 李健铨; 陈玮; 陈夏飞
Original assignee: Anhui Tai Yue Xiang Sheng Software Co Ltd
Current assignee: Anhui Tai Yue Xiang Sheng Software Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-07-02
Anticipated expiration: 2039-03-13
Also published as: CN109960800B

Abstract

本申请公开一种基于主动学习的弱监督文本分类方法及装置，首先从未标注的样本集中抽取作为样本簇的簇心的第一样本，基于该第一样本构成初始训练集，并使用初始训练集训练基准模型，得到初始的分类模型，采用第一样本构成初始训练集，不仅降低训练样本数量，而且能够保证初始阶段分类模型的准确性；然后重复利用分类模型获取样本集中剩余样本的初定类别及置信度，从而无需人工标注；再根据置信度从剩余样本中抽取第二样本，并对第二样本进行数据增强处理以更新训练集，从而提高模型的泛化能力和鲁棒性；最后使用更新得到的目标训练集对分类模型进行训练，直到其满足预设条件，从而实现分类模型的多轮主动训练。

Description

基于主动学习的弱监督文本分类方法及装置

技术领域

本申请涉及文本分类技术领域，尤其涉及一种基于主动学习的弱监督文本分类方法及装置。

背景技术

在自然语言处理技术领域，文本分类是一类重要的文本数据处理任务，它是指在给定的分类体系下，根据文本内容自动确定文本类别的过程。

一种基于机器学习的文本分类方法中，首先要获取训练语料，并对语料进行标注，然后使用标注语料训练文本分类器，使文本分类器具有对未知文本信息的分类能力。而文本分类器的分类准确率，则取决于标注语料的质量。现有的语料标注任务一般由“人工”标注者完成，通常要求标注者具有一定层次的语言文学背景，甚至要求具有专业技术背景。例如，对于MNIST手写数据集的标注任务，仅有高中生就能完成；而对于如金融、医疗、通信等领域的文本数据，则需要具有相应的专业技术背景的标注者才能完成。

可见，现有的文本分类方法，其语料标注过程不仅耗时、耗力进而成本巨大，而且难以保证标注质量，这在一定程度上掣肘了分类效率及准确率的提高。

发明内容

本申请提供一种基于主动学习的弱监督文本分类方法及装置，以解决现有的语料标注过程效率低且难以保证标注质量，因此掣肘了文本分类的效率和准确率的问题。

第一方面，本申请提供了一种基于主动学习的弱监督文本分类方法，该方法包括：

从样本集中抽取作为样本簇的簇心的第一样本；所述样本集包含若干未标注样本；

基于第一样本构成初始训练集，并使用初始训练集对基准模型进行训练，得到分类模型；

重复利用所述分类模型获取样本集中剩余样本的初定类别及所述初定类别的置信度，根据所述置信度从剩余样本中抽取第二样本；对每次抽取的第二样本进行数据增强处理以更新训练集；使用每次更新得到的目标训练集对所述分类模型进行训练，以实现对所述分类模型的多轮循环主动训练，直至所述分类模型满足预设条件；

利用满足预设条件的分类模型对待分类文本进行分类。

第二方面，本申请提供了一种基于主动学习的弱监督文本分类装置，该装置包括：

第一抽样模块，用于从样本集中抽取作为样本簇的簇心的第一样本；

初始训练模块，用于基于第一样本构成初始训练集，并使用初始训练集对基准模型进行训练，得到分类模型；

主动训练模块，用于重复利用所述分类模型获取样本集中剩余样本的初定类别及所述初定类别的置信度，根据所述置信度从剩余样本中抽取第二样本；对每次抽取的第二样本进行数据增强处理以更新训练集；使用每次更新得到的目标训练集对所述分类模型进行训练，以实现对所述分类模型的多轮循环主动训练，直至所述分类模型满足预设条件；

分类模块，用于利用满足预设条件的所述分类模型对待分类文本进行分类。

由以上技术方案可知，本申请提供的基于主动学习的弱监督文本分类方法及装置，首先，从未标注的样本集中抽取作为样本簇的簇心的第一样本，基于该第一样本构成初始训练集，并使用初始训练集训练基准模型，得到一初始阶段的分类模型，采用第一样本构成初始训练集，不仅降低训练样本数量，而且能够保证初始阶段分类模型的准确性；然后，重复利用所述分类模型获取样本集中剩余样本的初定类别及所述初定类别的置信度，从而无需人工标注；再根据所述置信度从剩余样本中抽取第二样本，并对每次抽取的第二样本进行数据增强处理以更新训练集，从而扩展样本规模的同时丰富样本语义表示，提高模型的泛化能力和鲁棒性；最后使用每次更新得到的目标训练集对所述分类模型进行训练，以实现对所述分类模型的多轮主动训练，直至所述分类模型满足预设条件。

本申请文本分类方法及装置，使用少量的未标注样本即可训练得到一初始阶段的分类模型，并通过预设条件触发当前分类模型进行多轮地边标注边训练，在提高文本分类的效率的同时保证分类准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请基于主动学习的弱监督文本分类方法的一个实施例流程图；

图2为本申请图1实施例中步骤110的细化步骤流程图；

图3为本申请图1实施例中步骤120的细化步骤流程图；

图4为本申请基于主动学习的弱监督文本分类装置的一个实施例框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

由于现有的语料标注过程效率低且难以保证标注质量，因此掣肘了文本分类的效率和准确率。为了解决这一问题，本申请提供一种基于主动学习的弱监督文本分类方法及装置，所述方法主要包括阶段，第一阶段是采用少量的具有代表性的未标注样本训练基准分类模型，得到初始的分类模型；第二阶段是对初始的分类模型进行多轮循环进行的主动训练，每轮主动训练包括样本抽取和模型训练两个环节，即，首先由分类模型对未标注样本进行类别标注，根据置信度从中抽取出边界样本；再利用边界样本对分类模型自身进行训练，得到优化后的分类模型；在上述两个阶段中，均可通过数据增强处理扩充样本规模。

图1为本申请基于主动学习的弱监督文本分类方法的一个实施例流程图。参阅图1，在本申请方法的第一阶段，可以包括步骤110和步骤120。

在步骤110中，从样本集中抽取作为样本簇的簇心的第一样本；所述样本集包含若干未标注样本。

样本集即为若干样本的集合，用于为本申请方法提供或长或短的未标注语料，如豆瓣影评数据集，或者通过在互联网中爬取某一网站的新闻版块而获得新闻报道文本集。对于豆瓣影评数据集，每一条影评文本即为一个样本，一般包括一个或多个句子，也可能包括一个或多个段落。例如：

示例1：希望你一直保存着这本书，哪怕你在一年年地长大，哪怕它在书架上放了很久，落满灰尘。只要你再次打开，你一定会庆幸，你并没有把它丢失。

在自然语言处理领域，语料标注是为文本语料附加解释性及标志性的标注信息，如类别标注、词性标注、实体关系标注、词义消歧等等。一般地，标注语料携带有标注信息，如类别标签、词性标签等，而未标注语料则不含有这些信息。本申请所述样本集中的样本为未标注样本。

需要说明的是，本申请实施例以类别标注为例对本申请技术方案的思想及实现方式作以说明，而类别标注并不构成对本申请保护范围的限定。

虽然样本集中每个样本的类别并未明确，但是可以假设这些样本分属于至少N个类别，每个类别下的数个样本具有一定的相似性，同一类别下的数个样本可以构成一个样本簇，每个样本簇中最具代表性的样本即可以作为该样本簇的簇心。

而为了采用较少量的未标注样本就可以完成初始阶段对分类模型的训练，步骤110的目的是从样本集中抽取出最具代表性的一部分样本，一方面可以降低标注的难度，另一方面，使用类别确定性较高的训练数据，也可以提高初始的分类模型的准确性。

如果通过wordvec等自然语言处理手段将各个样本映射到一个多维的数据空间中，则任一个样本将与数据空间中的某一个数据点对应，样本集则对应于数据空间中的一个数据点集；那么同一类别下的数个样本对应的数个数据点则构成一个聚类簇。

基于此，步骤110可以包括图2所示的细化步骤：

步骤111，获取样本集对应的数据点集中每个数据点的局部密度和互斥距离。

本实施例涉及的数据点之间的距离，具体指两个数据点对应的两个样本的相似度，可以通过计算数据点对应样本的雅卡尔指数(Jaccard index，又称：交并比、杰卡德系数)和/或词频-逆向文件频率(term frequency–inverse document frequency，TF-IDF)的方法得到。有关使用Jaccard index和/或TF-IDF计算文本相似度的方法属于现有技术，本申请实施例中不再赘述。当然，本领域技术人员在本申请实施例的技术构思下也可以使用其他方法计算得到数据点之间的距离，能够在此处应用的设计均未超出本申请的保护范围。

对于任意一个数据点x_i(i为大于或者等于1的正整数)，它的局部密度p_i指的是数据空间S中与数据点x_i之间的距离小于预设截断距离d_c的数据点的数量(该数量不包括数据点x_i本身)。参见以下公式(1)和公式(2)：

其中，IS表示数据集S中的数据点的集合；j∈IS\{i}表示x_j是数据集S中的数据点，并且与x_i不是同一个数据点；d_ij表示数据点x_i与数据点x_j之间的距离。

其中，截断距离d_c通过以下方式确定：假设数据集S中共包含N个数据点(N为大于或者等于1的正整数)。那么，对于每一个数据点x_i(1≤i≤N)，它与其他N-1个数据点都存在一个距离，因此，N个数据点总共会存在N×(N-1)个距离。由于，数据点x_i到数据点x_j的距离与数据点x_j到数据点x_i的距离是相同的，因此，在N×(N-1)个距离中有一半是重复的，那么，N个数据点存在不相同的距离的数量为M＝1/2×N×(N-1)个。进一步地，如果将M个距离按照从小到大排序，即{d₁，d₂，…，d_M-1，d_M}，并将截断距离d_c取值为d_k，k∈{1，2，…，M-1，M}，那么，在N×(N-1)个距离中，小于截断距离d_c的距离的数量约占距离总数的k/M，即约为k/M×N×(N-1)个，平均下来，每个数据点的小于截断距离d_c的距离约为k/M N×(N-1)个，近似等于k/M×N个。进一步地，如果定义t＝k/M，则每个数据点x_i的局部密度p_i可由t计算出的d_c来定义，所以，根据t＝k/M，一旦t的数值确定，k的值也随之确定，从而，d_c(c＝k)的值也随之确定。

可选地，本申请中截断距离d_c的取值能够使得数据点x_i的局部密度p_i的平均值等于数据集S的数据点总数的1％～2％，因此，在本申请中，t的取值可以为1％～2％。

需要补充说明的是，本申请实施例给出的t的取值范围是一个经验值，在该取值范围下有利于提高数据聚类效果。但由于实施本申请技术方案的硬件环境、软件环境、应用领域和样本语料的不同，有利于提高数据聚类效果的t值可能不同，因此，本领域技术人员可以在本申请实施例公开的技术思路下，通过多次的验证对比选择出合适的t值。本申请实施例中对t的取值不做具体限定。

另外，对于任意一个数据点x_i(i为大于或者等于1的正整数)，它的互斥距离δ是指：如果该数据点x_i在数据集S中具有最大局部密度，则将该数据点x_i与数据集S的其他数据点存在的最远距离作为该数据点x_i的互斥距离δ；如果该数据点x_i在数据集S中不具有最大局部密度，则从数据集S中选取局部密度大于x_i的所有数据点，并且与数据点x_i距离最近的一个数据点作为互斥数据点，并将数据点x_i与互斥数据点的距离作为互斥距离δ。

步骤112，根据所述局部密度和互斥距离确定作为各个聚类簇的簇心的第一目标数据点。

在步骤112中，可以预设一个评价标准去判定各个聚类簇的簇心。例如，p_i的值反映了某一数据点x_i周围的稠密度，而δ_i反映了x_i距离其他高密度区域的远近。因此，可以定义γ_i＝p_i×δ_i，γ_i的值则同时反映了数据点x_i的局部是否够密集及其距离其他密集区域的数据点是否足够远，具体的，γ_i值越大的数据点越具有代表性，即可作为一个聚类簇的簇心。

此外，为了扩充样本规模，针对一个聚类簇可以确定多个簇心，例如，对区域内的每个数据点的γ_i值进行倒排序，选择排在前M个数据点作为簇心。

步骤113，从所述样本集中抽取所述第一目标数据点对应的样本为第一样本。

从上述步骤111-112可知，样本集中包含多个样本簇，一个样本簇可以选取多个簇心。假设样本集中包含的样本簇数量为Y，针对一个样本簇选取出M个簇心，则可以确定Y×M个第一目标数据点，也即可以抽取出Y×M个第一样本。

本实施例中，任意一个样本簇代表一个类别，同一样本簇内的多个样本之间具有较高的相似度，而由于第一样本均是可以作为某一样本簇的簇心的样本，因此通过本申请方法抽取出的第一样本是样本集中最具代表性的样本，而且其覆盖的类别全面。本申请基于密度聚类的思想，从未标注的样本集中抽取出最具代表性的第一样本，意在将第一样本构成初始训练集，可以提高训练模型的准确性和泛化性。

步骤120，基于第一样本构成初始训练集，并使用初始训练集对基准模型进行训练，得到分类模型。

基准模型可以选择传统分类模型，如逻辑回归模型、SVM(Support VectorMachine，支持向量机)模型等。

需要补充说明的是，为了使尽可能多的样本参与训练，以利用不同的子模型学习到不同数据子空间的语义信息，提高分类模型的准确性。基准模型可以包括一个或多个子模型，例如，基准模型可以为一个单独的SVM模型，也可以同时包括逻辑回归、SVM两个子模型。另外，多个子模型可以为相同结构的模型，也可以具有不同的结构。当基准模型包括多个子模型时，分类模型的输出结果为多个子模型输出结果的集成。

作为一种可能的实现方式，如图3所示，步骤120可以包括以下细化步骤：

步骤121，获取第一样本的标注数据。

由于第一样本的数量并非现有技术训练深度学习模型的规模之大，而是数量较少的具有代表性的样本数据，因此可以采用人工标注的方式，为第一样本添加标注，当然，也可以采用预训练好的机器模型进行标注。

步骤122，对携带有标注数据的第一样本进行数据增强处理，将处理后的样本构成初始训练集。

其中，数据增强处理的作用是扩充样本规模，并丰富样本的语义表示。

本实施例主要提供两种数据增强处理方法，第一种方法中，首先将第一样本由原始语言翻译成至少四种不同的目标语言，如英语、西班牙语、德语和法语；然后再将至少四种目标语言的样本翻译回原始语言。由于经过两次翻译得到的样本可能出现重复，例如，将原始语言样本“我爱你”翻译成目标语言得到“I love you”，再将“I love you”翻译成原始语言后仍为“我爱你”，因此需要对经两次翻译得到的样本进行去重处理，去重处理后的样本构成初始训练集。其中，初始训练集中的每一个训练样本均携带有与其对应的第一样本相同的标注数据。可见，通过该种方法得到的数据增强样本的数量必然大于第一样本的数量。

在第二种数据增强处理方法中，随机抽取一定比例的第一样本(或长或短)，例如第一样本总数的20％，然后将这些文本分句，将得到的各个句子作为新的样本加入到初始训练集中。该方法不仅能扩充样本规模，而且还能提高模型识别不同粒度的文本的准确率。例如，对前述示例1进行分句，得到：

示例1-1：希望你一直保存着这本书，哪怕你在一年年地长大，哪怕它在书架上放了很久，落满灰尘。

示例1-2：只要你再次打开，你一定会庆幸，你并没有把它丢失。

则示例1-1和示例1-2将作为两个新的样本，用于构成初始训练集。与示例1相比，示例1-1和示例1-2的长度较小，因此丰富了训练集的文本粒度。

步骤123，基于TF-IDF算法，获取初始训练集中每个样本的特征词向量。

基于TF-IDF算法计算样本中每个词汇相对于所属样本的类别区分度，以从样本包含的全部词汇中选取出至少一个特征词汇，再利用预训练的词向量模型获取特征词汇的向量表示，即特征词向量，这是本领域技术人员所熟知的现有技术，本实施例将不赘述。

步骤124，使用所述特征词向量对所述基准模型进行训练，得到分类模型。

如果基准模型包括多个子模型，那么对基准模型的训练实质上是分别对每个子模型进行训练，训练后的子模型共同构成本申请第一阶段初始的分类模型。

在本申请方法的第二阶段，可以包括下述步骤130，即重复利用所述分类模型获取样本集中剩余样本的初定类别及所述初定类别的置信度，根据所述置信度从剩余样本中抽取第二样本；对每次抽取的第二样本进行数据增强处理以更新训练集；使用每次更新得到的目标训练集对所述分类模型进行训练，以实现对所述分类模型的多轮循环主动训练，直至所述分类模型满足预设条件。

为了帮助本领域技术人员充分理解本申请的技术方案和思想，下面结合具体示例，对步骤S130的实现方式作出具体说明。

在步骤131中，利用当前分类模型获取样本集中剩余样本的初定类别及所述初定类别的置信度，并根据所述置信度从剩余样本中抽取第二样本。

为了区别每一轮主动训练后得到的分类模型，以便于清楚地说明本申请技术方案，本实施例将上一轮主动训练完成后得到的分类模型统称为当前分类模型。需要说明的是，对于还未启动的第一轮的主动训练，当前分类模型即是指代步骤120得到的初始的分类模型。

样本集中剩余样本即除第一样本之外的样本。利用当前分类模型对剩余未标注样本的类别进行预测，以获取剩余样本的初定类别及所述初定类别的置信度。

步骤131的目的是从剩余样本中抽取出当前分类模型无法准确确定其类别的样本，为第二样本，再对第二样本的初定类别进行校正以获取其命中类别，然后再利用第二样本更新训练集，用于训练当前分类模型本身。

步骤131以信息熵可以作为衡量样本所含信息量大小的度量，从几何角度看，这种方法优先选择靠近分类边界的样例。基于熵的方法考虑了未标注样本的每种类别，以此来衡量样例的不确定性。

具体的，下式(3)表示所有样本熵的最大取值，其中P(y_j|x_i)表示属于第j类的可能性。

在分类任务中，常用softmax函数作为最后的激活层，其形式如下式(4)，其将一个含任意实数的K维向量Z压缩到另一个K维实向量σ(z)中，使得每一个元素变换后的值域均在[0，1]之间，即某一样本所有类别的概率和等于1。

针对softmax函数的特点，本实施例将分类模型的概率输出，作为判断样本不确定性的依据，即置信度。样本的置信度越低，其类别不确定性越强。一般而言，认为置信度在0.5左右样本包含的信息量较大，属于“模棱两可”的样本，而这类样本的正确标注有益于分类任务的准确率进一步提升。

因此，为了将这些不确定性较强的样本加以利用以提高分类模型的准确性，本实施例根据每个样本的置信度，从样本集的剩余样本中抽取出第二样本。例如，抽取出置信度在0.2-0.8的样本为第二样本。

需要说明的是，第二样本携带有包含初定类别信息的标注数据。由于当前分类模型的准确率尚未达到预设的阈值，因此，模型预测的样本的初定类别的准确性也具有一定的误差。为了解决这一问题，可以引用外部的机器模型或是人工的方式对第二样本的初定类别进行校正，以确定第二样本的命中类别。

步骤132，对第二样本进行数据增强处理以更新训练集；使用更新得到的目标训练集对当前分类模型进行训练，以优化所述分类模型。

考虑到第二阶段的主动训练过程对于训练样本规模的需求，本实施例对第二样本进行数据增强处理，以扩充训练样本规模。数据增强处理的具体实现方式可以参考上述步骤120，此处将不赘述。将处理得到的数据增强样本添加到训练集中，更新训练集，得到目标训练集。可见，本实施例每一轮主动训练都包括对训练集的更新。

目标训练集用于对当前分类模型进行训练，它包括第一样本经数据增强处理得到的样本和多次抽取的第二样本经数据增强处理后的样本。

此外在另一些实施例中，目标训练集还可以包括第三样本经数据增强处理后得到的样本。其中，第三样本可以通过如下方式获得：在根据置信度从样本集的剩余样本中抽取第二样本之后，从除第二样本外的剩余样本中抽取作为样本簇的簇心的样本为第三样本。对于同时利用第二样本和第三样本更新训练集的实施例，意在结合具有代表性的样本和不确定性较强的样本共同作为训练样本，用以训练分类模型。抽取第三样本的具体实现方式可参见上述步骤110，此处将不赘述。

由于当前分类模型包括一个或多个分类子模型，因此训练当前分类模型实质上是针对各个子模型进行单独训练。

在一种实现方式中，假设当前分类模型包括Z个子模型，Z≥1；首先对目标训练集进行Z轮样本抽取，得到Z组不完全相同的训练样本，且每组所包含的样本不存在重复。例如，任意一轮抽取过程可以为，随机从目标训练集中随机、有放回地抽取L个样本，以避免L个样本中出现重复的样本，L个样本构成一组训练样本。通过Z轮抽取即可得到Z组不完全相同的训练样本。

然后针对每个当前子模型，使用一组样本进行训练。本实施例将Z组训练样本与Z个子模型一一对应，从而避免使用相同的样本训练不同的子模型。

最后利用相同的测试样本获取训练后的每个子模型的分类权重；Z个训练后的子模型及各子模型对应的分类权重构成训练后的分类模型。

分类权重用于对多个子模型的输出的多个类别结果进行加权计算。本实施例中，分类权重可以基于每个子模型的准确率进行设置，例如对准确率较高的子模型设置较高的子模型设置较大的分类权重。

在本申请的另一些实施例中，Z个子模型中包括基于预训练参数的BERT(Bidirectional Encoder Representations from Transformers)模型。基于预训练参数的BERT模型，即在将该BERT模型添加在本申请分类模型中之前，使用大规模的无标注语料对BERT模型进行预训练，得到一个适用于一般任务的预训练模型。然后将通过参数微调(Fine-Turning)，使该预训练模型适用于本申请的分类任务。具体的，在参数微调过程中，并不改变模型的主体结构，而是对模型的输出层改造，以适应分类任务的参数。

其中，预训练过程基于词的编码表示进行，以提高模型的泛化性。具体可以采用随机遮罩法，即在输入文本中随机选择一定数量的词汇进行遮罩，将被遮罩词作为文本的类别标签；然后将文本序列输入BERT模型，利用BERT模型对文本类别进行预测。此外，为了使BERT模型可以更好地理解两个句子之间的关系，对BERT模型进行预训练，使模型可以判断输入的A和B两个句子是否为上下文关系。

采用基于预训练参数的BERT模型，既实现了将BERT模型集成在分类任务的模型中，又能使用较少的未标注数据即可学习过程，避免了大量的数据标注工作对分类任务的效率及准确性的掣肘。

步骤133，判断训练后的分类模型是否满足预设条件，如果满足，则执行步骤140，否在执行步骤131以启动新一轮的训练。

本实施例中，预设条件可以是根据需要设定的分类性能的阈值，例如模型的F1分数阈值。由于分类模型包括多个子模型，且每次对分类模型的训练实际上是分别针对每个子模型进行训练，因此，对于模型整体分类性能的评价，需要将每个子模型合并起来考虑。本实施例采用Micro-F1微平均或者Macro-F1宏平均的计算方法，来获得整体分类模型的F1分数，而Micro-F1微平均或者Macro-F1宏平均的计算方法为本领域技术人员所熟知，此处不再赘述。

获得当前分类模型的F1分数后，判断是否满足预设的F1阈值，如果满足，确定可以终止训练，否则，重复训练。

需要说明的是，在任意一轮主动训练之前，可以将一个新的子模型集成在当前分类模型中，即令Z＝Z+P，P为增加的子模型的个数。

在步骤140中，利用当前分类模型对待分类文本进行分类。

本实施例采用结果集成的方式确定待分类文本的命中类别。

作为一种可能的实现方式，首先将待分类文本输入到每一个子模型中，以分别利用Z个子模型获取待分类文本的类别，输出Z个类别数据；再根据每个子模型的分类权重对Z个类别数据进行加权，以加权结果作为待分类文本的命中类别。

在另一种可能的方式中，根据上述Z个类别数据计算每个类别在Z个类别中出现的频次，确定频次最大的类别为待分类文本的命中类别。

由以上技术方案可知，本申请提供的基于主动学习的弱监督文本分类方法，首先，从未标注的样本集中抽取作为样本簇的簇心的第一样本，基于该第一样本构成初始训练集，并使用初始训练集训练基准模型，得到一初始阶段的分类模型，采用第一样本构成初始训练集，不仅降低训练样本数量，而且能够保证初始阶段分类模型的准确性；然后，重复利用所述分类模型获取样本集中剩余样本的初定类别及所述初定类别的置信度，从而无需人工标注；再根据所述置信度从剩余样本中抽取第二样本，并对每次抽取的第二样本进行数据增强处理以更新训练集，从而扩展样本规模的同时丰富样本语义表示，提高模型的泛化能力和鲁棒性；最后使用每次更新得到的目标训练集对所述分类模型进行训练，以实现对所述分类模型的多轮主动训练，直至所述分类模型满足预设条件。

本申请文本分类方法，使用少量的未标注样本即可训练得到一初始阶段的分类模型，并通过预设条件触发当前分类模型进行多轮地边标注边训练，在提高文本分类的效率的同时保证分类准确率。

根据上述实施例提供的基于主动学习的弱监督文本分类方法，本实施例提供一种基于主动学习的弱监督文本分类装置。该装置可以应用于服务器、PC(个人电脑)、平板电脑、手机、虚拟现实设备和智能穿戴设备等多种设备中。

图4为该文本分类装置的一个实施例示意图。如图4所示，该装置可以包括：

第一抽样模块410，用于从样本集中抽取作为样本簇的簇心的第一样本；

初始训练模块420，用于基于第一样本构成初始训练集，并使用初始训练集对基准模型进行训练，得到分类模型；

主动训练模块430，用于重复利用所述分类模型获取样本集中剩余样本的初定类别及所述初定类别的置信度，根据所述置信度从剩余样本中抽取第二样本；对每次抽取的第二样本进行数据增强处理以更新训练集；使用每次更新得到的目标训练集对所述分类模型进行训练，以实现对所述分类模型的多轮循环主动训练，直至所述分类模型满足预设条件；

分类模块440，利用满足预设条件的分类模型对待分类文本进行分类。

其中，第一抽样模块410包括：

数据计算单元，用于获取样本集对应的数据点集中每个数据点的局部密度和互斥距离；

簇心确定单元，用于根据所述局部密度和互斥距离确定作为各个聚类簇的簇心的第一目标数据点；

样本抽取单元，用于从所述样本集中抽取所述第一目标数据点对应的样本为第一样本；每个数据点对应一个样本，每个聚类簇对应一个样本簇。

初始训练模块420包括：

标注单元，用于获取所述第一样本的标注数据；

第一数据增强单元，用于对携带所述标注数据的第一样本进行数据增强处理，将处理后的样本构成初始训练集；

特征构建单元，用于基于TF-IDF算法，获取初始训练集中每个样本的特征词向量；

训练单元，用于使用所述特征词向量对所述基准模型进行训练，得到分类模型。

主动训练模块430包括第二数据增强单元和主动训练单元；

所述第二数据增强单元，用于将所述第二样本由原始语言翻译成至少四种不同的目标语言；将所述目标语言的样本翻译成所述原始语言，并对经两次翻译得到的样本进行去重处理，得到数据增强样本。

所述主动训练单元，用于对目标训练集进行Z轮样本抽取，得到Z组不完全相同的训练样本；针对每个当前子模型，使用一组样本进行训练；利用相同的测试样本获取训练后的每个子模型的分类权重；Z个训练后的子模型及各子模型对应的分类权重构成训练后的分类模型。其中，Z个子模型中包括基于预训练参数的BERT模型。

分类模块440具体用于：分别利用所述Z个子模型获取所述待分类文本的类别，得到Z个类别数据；根据每个子模型的分类权重对Z个类别数据进行加权，得到待分类文本的命中类别；或者，确定Z个类别数据中频次最大的类别数据为待分类文本的命中类别。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于主动学习的弱监督文本分类方法，其特征在于，所述方法包括：

利用满足预设条件的分类模型对待分类文本进行分类。

2.根据权利要求1所述的方法，其特征在于，所述目标训练集还包括：第三样本经数据增强处理后得到的样本；

所述第三样本通过下述步骤获得：

在根据所述置信度从剩余样本中抽取第二样本之后，从除第二样本之外的剩余样本中抽取作为样本簇的簇心的第三样本。

3.根据权利要求1所述的方法，其特征在于，所述根据置信度从剩余样本中抽取第二样本，包括：从剩余样本中抽取所述置信度在0.2-0.8范围内的样本为第二样本。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述从样本集中抽取作为样本簇的簇心的第一样本，包括：

获取样本集对应的数据点集中每个数据点的局部密度和互斥距离；

根据所述局部密度和互斥距离确定作为各个聚类簇的簇心的第一目标数据点；

从所述样本集中抽取所述第一目标数据点对应的样本为第一样本；

其中，每个数据点对应一个样本，每个聚类簇对应一个样本簇。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述对第二样本进行数据增强处理，包括：

将所述第二样本由原始语言翻译成至少四种不同的目标语言；

将所述目标语言的样本翻译成所述原始语言，并对经两次翻译得到的样本进行去重处理。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述分类模型包括Z个子模型，Z≥1；

所述使用目标训练集对当前分类模型进行训练，包括：

对目标训练集进行Z轮样本抽取，得到Z组不完全相同的训练样本；

针对每个当前子模型，使用一组样本进行训练；

利用相同的测试样本获取训练后的每个子模型的分类权重；Z个训练后的子模型及各子模型对应的分类权重构成训练后的分类模型。

7.根据权利要求1所述的方法，其特征在于，所述基于第一样本构成初始训练集，并使用初始训练集对基准模型进行训练，包括：

获取所述第一样本的标注数据；

对携带所述标注数据的第一样本进行数据增强处理，将处理后的样本构成初始训练集；

基于TF-IDF算法，获取初始训练集中每个样本的特征词向量；

使用所述特征词向量对所述基准模型进行训练，得到分类模型。

8.根据权利要求1所述的方法，其特征在于，所述Z个子模型中包括基于预训练参数的BERT模型。

9.根据权利要求6所述的方法，其特征在于，所述利用满足预设条件的分类模型对待分类文本进行分类，包括：

分别利用所述Z个子模型获取所述待分类文本的类别，得到Z组类别数据；

根据每个子模型的分类权重对Z组类别数据进行加权，得到待分类文本的命中类别；

或者，确定Z组类别数据中频次最大的类别为待分类文本的命中类别。

10.一种基于主动学习的弱监督文本分类装置，其特征在于，所述装置包括：

分类模块，用于利用满足预设条件的分类模型对待分类文本进行分类。