CN113254599B

CN113254599B - 一种基于半监督学习的多标签微博文本分类方法

Info

Publication number: CN113254599B
Application number: CN202110720798.7A
Authority: CN
Inventors: 张丰; 叶华鑫; 汪愿愿; 杜震洪; 吴森森
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-08
Anticipated expiration: 2041-06-28
Also published as: CN113254599A

Abstract

本发明公开了一种基于半监督学习的多标签微博文本分类方法，涉及自然语言处理领域。该方法首先对原始微博文本进行预处理，并对少量文本进行标注；然后使用反向翻译生成标注数据集的增广数据，使用同义词替换和随机噪声注入生成无标注数据集的增广数据，使用分类器猜测生成无标注数据的伪标签，与增广后的标注数据集共同组成新的训练集；再将多标签分类任务转化为多个二分类任务，训练半监督微博文本分类模型，训练时每次从新的训练集中随机抽取两个样本，在文本隐藏空间使用样本混合技术生成新的样本，计算损失值，更新网络参数；最后综合使用训练好的多个分类器对微博文本进行分类。本发明对微博文本的细粒度信息提取具有重要的应用价值。

Description

一种基于半监督学习的多标签微博文本分类方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种通过半监督模型对微博文本进行多标签分类的方法。

背景技术

社交媒体每时每刻都在产生着海量的数据，其中有大量的信息比如灾情信息、情感信息等可以挖掘，但社交媒体数据具有信息碎片化密度低、不规范用语多的特点，面对如此庞大的数据体量以及多种多样的讨论主题，若只是依靠人工进行文本分类相关信息提取会造成数据分析成本过高，若使用词典或规则对文本进行快速过滤又面临着文本歧义等网络语言多样性与口语化问题的困扰。相较于从海量文本数据中使用人工或使用词表和规则筛选所需信息，近年来兴起的深度学习以其出色的性能成为文本分类的首选。但深度学习往往需要先对大量数据进行高质量标注才可以使得神经网络得到充分训练，而数据标注需要昂贵的成本。因此如何降低训练数据集创建成本且能充分提取未标注文本的语义信息，成为微博文本分类的一个关键突破点。

以深度神经网络为代表的深度学习方法，能充分利用计算机处理性能，具有对非线性问题超强的参数计算和拟合能力。在自然语言领域的研究中，神经网络语言模型以深度神经网络为基础，能够以高维向量的形式去表达字符、词语、语句甚至文章的语义特征。而微博文本作为一种口语化特异化的自然语言，能够很好地与当前语言模型结合。

随着迁移学习在自然语言领域的深入应用，当前主流的神经网络语言模型已从神经网络结构设计着手开始支持微调任务的展开，方便使用者基于其通用模型实例进行下游任务的神经网络改造，核心是将已训练好的模型中的神经网络节点迁移到一个新的网络结构中去，而非从头开始。相比于传统重新训练模型的方式，该方法在数据要求、训练时间和实践效果等方面都具有显著的优势，使模型输出的结果信息包含微调目标的融合权重，并实现目标任务的求解。

在另一方面，一种重要的样本混合技术Mixup已经在计算机视觉领域得到广泛应用，却鲜有在NLP(Natural Language Processing)领域的半监督学习中得到应用，之前NLP领域的半监督学习研究大多数都将标注数据与未标注数据完全分离开来分别进行训练，虽然可以利用到未标注数据中的语义信息，但是模型仍然容易过拟合于有限的标注数据中，而Mixup样本混合技术可以将标注数据和未标注数据进行混合以生成新的样本数据，而且由于Mixup采用的是线性插值法，理论上可以生成无限多的不重复样本从而避免过拟合问题。

发明内容

本发明的目的是克服现有技术存在的问题，提供一种基于半监督学习的多标签微博文本分类方法。

本发明的目的是通过以下技术方案来实现的：

一种基于半监督学习的多标签微博文本分类方法，其步骤如下：

S1：对原始微博文本进行预处理得到用于分类的无标注样本，将所有无标注样本分为待标注数据集和无标注数据集两部分；

S2：对于待标注数据集中的无标注样本进行多标签标注，得到标注数据集；再使用反向翻译对标注数据集进行数据增强，形成增广标注数据集；

S3：对无标注数据集使用同义词替换和随机噪声注入进行数据增强，形成增广无标注数据集；

S4：以增广标注数据集中的标注样本和增广无标注数据集中的无标注样本作为输入样本，将多标签文本分类任务转化为多个二分类任务，通过最小化总损失函数，对包含样本混合分类网络和多个二分类器的半监督微博文本分类模型进行训练并更新模型参数；每一轮训练过程中，先使用二分类器猜测输入的无标注样本的伪标签，并得到最小化熵损失；再将带有伪标签的无标注样本与输入的标注样本共同组成新的训练集；然后从新的训练集中随机抽取一个第一样本，从输入的无标注样本或标注样本中随机抽取另一个第二样本，两者同时输入样本混合分类网络中，在文本隐藏空间使用样本混合技术生成新的样本并输出预测类别，若第二样本来源于增广标注数据集则计算监督损失，若第二样本来源于增广无标注数据集则计算一致性损失；所述总损失函数由最小化熵损失、监督损失和一致性损失组成；

S5：将待分类的微博文本预处理后输入训练后的多个二分类器中，实现多标签分类。

作为优选，S1中，对每条微博文本进行预处理的操作包括：去除文本中的URL信息，去除文本中非用户编辑产生的系统固有字段，将文本中的繁体字转换为简体字，去除文本中的微博用户名，将文本中存在的表情符号转为文字，以及将文本中的连续重复出现次数超过阈值的字符进行删减。

作为优选，S2中，所述增广标注数据集的构建方法为：

S21：对于待标注数据集中的无标注样本进行多标签标注形成标注样本，从而得到标注数据集，其中一条无标注样本能同时被标记为多个类别；

S22：再使用反向翻译的数据增强方式，将标注数据集中的文本翻译为其它语言后再翻译回中文，作为新的增强标注样本，将所有原始标注样本和增强标注样本合并形成增广标注数据集X _labled，增广标注数据集X _labled中单个标注样本记为x _i ^l，其类别标签为y _i ^l。

进一步的，S3中，所述增广无标注数据集的构建方法为：

对无标注数据集中每一条原始无标注样本x _i ^u_ori，将文本中部分词语用同义词进行替换并注入随机噪声，形成增强无标注样本x _i ^u_aug，将所有原始无标注样本x _i ^u_ori和增强无标注样本x _i ^u_aug合并形成增广无标注数据集X _unlabled，增广无标注数据集X _unlabled中单个无标注样本记为x _i ^u，无标注样本x _i ^u均以原始无标注样本x _i ^u_ori和增强无标注样本x _i ^u_aug配对的样本对形式输入半监督微博文本分类模型。

进一步的，S4中，所述半监督微博文本分类模型内二分类器的个数与微博文本的标签类别数相同；

每一个二分类器均采用由第一预训练语言模型ELECTRA构造的分类网络，用于预测一种类别标签；

所述样本混合分类网络采用由第二预训练语言模型ELECTRA结合样本混合技术构造的分类网络，其中第二预训练语言模型ELECTRA的隐藏层总数为L，每一对第一样本x' _i和第二样本x _i输入后，均各自经过第二预训练语言模型ELECTRA的前m层隐藏层，分别得到第一特征向量h _m和第二特征向量h' _m，其中m≤L，第一特征向量h _m和第二特征向量h' _m进行加权线性插值后得到混合特征向量h ^*，混合特征向量h ^*再通过第二预训练语言模型ELECTRA的后L-m层隐藏层后输出特征向量h _L并进行后续的分类，得到类别标签y _i ^*。

进一步的，S4中，所述二分类器内对输入的无标注样本进行伪标签猜测的方法为：

S41：对于以样本对形式输入半监督微博文本分类模型的无标注样本x _i ^u构成，将各样本对中的原始无标注样本x _i ^u_ori和增强无标注样本x _i ^u_aug各自送入二分类器中，分别得到预测类别的第一概率分布p(x _i ^u_ori)和第二概率分布p(x _i ^{u_ aug})，两个概率分布加权求和得到概率分布形式的初始预测标签y' _i ^u；

S42：利用锐化函数对初始预测标签y' _i ^u进行锐化，二分类器输出锐化后的预测标签，作为输入的样本对中无标注样本的伪标签y _i ^u。

进一步的，所述锐化函数的形式为：

式中：||·||₁表示L1范数，T表示锐化函数的温度值。

进一步的，S4中，所述增广标注数据集和增广无标注数据集分批输入半监督微博文本分类模型中进行迭代训练，训练时采用小批量梯度下降的方法对样本混合分类网络和多个二分类器均进行模型参数更新。

进一步的，S4中，总损失函数L _STCM的形式为：

其中：

L _supervised表示监督损失，计算公式为：

L _consistency表示一致性损失，计算公式为：

L _EntMin表示最小化熵损失，计算公式为：

式中：M为当前迭代中第二样本来源于增广标注数据集的数量，N为当前迭代中第二样本来源于增广无标注数据集的数量，X _u表示当前迭代中输入半监督微博文本分类模型的所有无标注样本x _i ^u构成的集合，log表示以10为底数的对数，E表示求期望，max( , )表示取最大值操作，γ表示分类器的分类边界，||·||₂表示L2范数。

进一步的，S5中，待分类的微博文本所采用的预处理方法与S1中的预处理方法相同。

本发明与现有技术相比具有有益效果：

（1）本发明充分考虑微博文本的语言特征，设计微博文本预处理方法，在此基础上使用低熵标签猜测算法结合多种数据增强算法构建半监督微博文本分类模型，并将多标签分类任务转为多个二分类任务，实现微博文本的精准分类。相比于现有技术中的文本分类模型，本发明利用预训练语言模型ELECTRA优越的通用语义提取效果与训练速度，提升了微博文本分类模型的训练速度与精度。

（2）本发明引入计算机视觉领域的Mixup样本混合技术，在文本表征隐藏空间以线性插值的形式生成新的训练样本。这种数据增强方法可实现训练样本的无限量生成，减小训练集创建成本，增加微博文本分类模型的抗干扰能力。

附图说明

图1为基于半监督学习的多标签微博文本分类方法步骤流程图；

图2为半监督微博文本分类模型的结构示意图；

图3为样本混合分类网络ETMix的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

针对微博文本分类研究中存在的不规范用语与训练数据集创建成本高等问题，本发明的构思是引入Mixup样本混合技术，基于预训练语言模型ELECTRA提取通用语义特征，在文本表征隐藏空间以线性插值的形式源源不断地生成新的训练样本，降低训练集创建成本。下面对本发明的技术方案进行具体描述。

如图1所示，本发明的一个较佳实施例中，提供了一种基于半监督学习的多标签微博文本分类方法，其具体实现步骤如下：

S1：对原始微博文本进行预处理得到用于分类的无标注样本，将所有无标注样本分为待标注数据集X₁和无标注数据集X₂两部分；

S2：对于待标注数据集X₁中的无标注样本进行多标签标注，得到标注数据集X₃；再使用反向翻译对标注数据集X₃进行数据增强，形成增广标注数据集（记为X _labled）；

S3：对无标注数据集X₂使用同义词替换和随机噪声注入进行数据增强，形成增广无标注数据集（记为X _unlabled）；

S4：以增广标注数据集X _labled中的标注样本x _i ^l和增广无标注数据集X _unlabled中的无标注样本x _i ^u作为输入样本，将多标签文本分类任务转化为多个二分类任务，通过最小化总损失函数，对包含样本混合分类网络ETMix和多个二分类器的半监督微博文本分类模型进行训练并更新模型参数。每一轮训练过程中，先使用二分类器猜测输入的无标注样本的伪标签，并得到最小化熵损失；再将带有伪标签的无标注样本与输入的标注样本共同组成新的训练集X'（其中每一个样本记为x' _i，x' _i的样本记为y' _i）；然后从新的训练集X'中随机抽取一个第一样本x' _i，从输入的无标注样本或标注样本中随机抽取另一个第二样本x _i，两者同时输入样本混合分类网络中，在文本隐藏空间使用样本混合技术生成新的样本并输出预测类别，若第二样本x _i来源于增广标注数据集X _labled则计算监督损失，若第二样本x _i来源于增广无标注数据集X _unlabled则计算一致性损失；上述总损失函数由最小化熵损失、监督损失和一致性损失组成；

下面对于前述步骤在本发明中的具体实现过程进行详细阐述。

首先，数据质量是神经网络训练的基础，决定了后续模型训练的效果，传统的微博文本预处理方法会对文本进行分词，微博中不规范用语的普遍性会导致分词精度低下从而影响文本分类模型的训练效果。本发明充分考虑微博文本的语言特征通过步骤S1的实现数据预处理，下面具体展开描述本实施例中步骤S1中对每条微博文本进行预处理的操作具体的执行流程如下：

S11：去除文本中的URL信息。

S12：去除文本中的系统固有字段，这些字段一般属于非用户编辑产生的字段无助于分类，比如本发明后续实施例1的情感分类任务中可去除“显示地图”、“xxx的微博/快手/秒拍视频”、“组图共x张”和“网页链接”等。

S13：将文本中出现的繁体字转换为简体字。

S14：去除文本中的微博用户名。

S15：将文本中存在的表情符号转为表达该表情的文字，微博中的表情符号一般是emoji表情，可根据emoji 词典将emoji 表情符转为文字。

S16：将一些连续重复出现多次的字符进行删减，如将“哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈”删减为“哈哈哈哈”。在实际操作中，可预先设置一个阈值，若文本中的连续重复出现次数超过阈值的字符，则对其进行删减直至仅保留不超过阈值的字符数。

另外，原始微博文本可以通过爬虫程序从微博网站上获取，其样本量应满足后续训练的需求，经过上述S11~S16的预处理后即可形成用于分类的无标注样本。由于本发明后续在进行神经网络训练时引入了能在海量语料库上进行自监督训练充分学习文本通用语义特征的预训练语言模型，因此像分词这种较低层次的自然语言处理任务已经在训练时被隐式编码，所以本发明中此步骤无需对微博文本进行分词操作。

考虑单条微博文本中往往存在不止一种特征，因此本发明需要对其进行多分类。再考虑到无标注样本的数量庞大，因此如果每条样本均进行多分类标注将消耗大量的资源，因此本发明中可以仅取出少量无标注样本作为待标注数据集，以期以较少的标注成本实现对文本的高效分类。但是过小的标注数据在训练时容易引起过拟合问题，不同类的训练数据体相距较大时往往会影响预测的准确性，这时就需要对数据做数据增强以获得更好的模型泛化能力和预测准确性。在上述S2和S3中，其核心就是通过数据增强，形成增广标注数据集X _labled和增广无标注数据集X _unlabled。

在步骤S2和S3中涉及两大类数据增强技术，下面逐个进行阐述。

（1）同义词替换与随机噪声注入

这一类的文本增强技术就是期望在不改变句子主要意思的前提下替换句子中的某一部分或者插入、删除一部分内容。对于词汇替换来说，存在着基于同义词词典替换、基于词向量空间距离相似度替换、基于MLM任务训练替换和基于TF-IDF替换等多种方式。基于同义词词典替换的方式需要首先自行构造同义词词典或者采用开源的同义词数据库如WordNet，可能会存在词汇量不够的问题。基于词向量空间距离相似度替换的方式是使用Word2Vec或Glove等早期预训练语言模型在指定语料库上进行训练后得到词向量，再用词向量空间中词与词的距离衡量词与词之间的相似性，以余弦相似度进行表示，使用余弦相似度高的单词对文本中的原词进行替换，但这种方式会存在的问题就是词向量在训练完成之后即固定，每个词只存在一种向量表示，没有考虑一词多义以及不同的上下文信息对于词的语义的影响，比如：

小明的台风很好，因此获得了观众的喜爱。

考虑到上下文信息，句子中的“台风”指的是舞台风格，若是将“台风”简单的替换成向量空间余弦相似度高的“飓风”，整个句子所要表达的意思便会出现极大偏差。而基于MLM任务的词汇替换首先会在大规模的语料上进行类似“完形填空”任务的训练，顾及了需要替换的词的上下文信息。基于TF-IDF的词汇替换的基本思想则是TF-IDF分数比较低的词在句子中并不能提供什么信息，因此可以将此类词进行替换而不会影响句子大意，比如：

这个台风给整座城市带来了很大的损失。

这句话中的“这”和“那”就是TF-IDF分数较低的词，整个句子可以替换为：

那个台风给整座城市带来了很大的损失。

可以看到整个句子期望表达的意思并没有因此而发生太大的改变。

使用随机噪声注入进行文本数据增强的目的和词汇替换有所不同，其目的主要是为了让模型训练时更具鲁棒性，考虑如下三句：

小明的加人使得队伍有了主心骨。

壹个意外使得小明被迫暂停了救援计划。

这个台风真滴威力太大了。

第一句中的“加人”应该是“加入”，第二句中的“壹”为繁体中文，在整个以简体中文为主要语言的句子中显得格格不入，第三个句子中的“真滴”是当前网络用语惯用的表达，与“真的”同义。拼写错误、简繁混杂和网络用语等语言不规范现象在文本尤其是网络文本中频频出现，成为了自然语言处理模型不得不考虑的一点，而在文本数据中加入随机噪声可以在训练时添加微小的扰动让模型更好的理解句子的脉络，泛化性也会更好。具体方法有添加随机单词的拼写错误比如模拟因为拼音输入或五笔输入时因为键盘键位相似而产生的错误、使用从 unigram 频率（每个单词在训练语料库中出现的次数）分布中采样的单词进行替换、随机插入、随机删除、随机打乱以及使用占位符替换一些词等。

（2）反向翻译

反向翻译是一种利用训练好的语言翻译模型将一种语言翻译到另一种或另一些语言再将其翻译回原语言以实现在不改变原文本意思下实现文本扩充的技术，图 2以将中文翻译成英文和日语再将翻译好的英文和日语分别翻译回中文以实现中文文本的数据增强为例进行示意，在实际操作中还可以进行叠加操作，如先将中文翻译成英文再将英文翻译成日语最后将日语翻译回中文。

相比于词汇替换和随机噪声注入，反向翻译有时可以改变句子结构，对于用词也可以更为多元化，对于原本句子的修改方式可以更多，虽然其严重依赖于所使用的机器翻译模型的质量，但总的来说生成的新样本的质量相比于普通的数据增强方法要好，缺点就在于其代价昂贵，需要多个机器翻译模型做支持，而开放使用的多语言翻译接口往往有请求频次限制，难以应用于大规模数据。由于上述原因，本发明只在标记样本上使用反向翻译技术进行数据增强。

在本实施例的上述步骤S2中，增广标注数据集的构建方法具体如下：

在本实施例的上述步骤S3中，增广无标注数据集的构建方法具体如下：

对无标注数据集中每一条原始无标注样本x _i ^u_ori，将文本中部分词语用同义词进行替换并注入随机噪声，形成增强无标注样本x _i ^u_aug。具体的同义词替换方式和随机噪声注入方式不限，本实施例中使用ELECTRA模型对文本中约10%的词语寻找相似度最高的同义词予以替换，并注入约10%的随机噪声。数据增强操作完成后，将所有原始无标注样本x _i ^u_ori和增强无标注样本x _i ^u_aug合并形成增广无标注数据集X _unlabled。该增广无标注数据集X _unlabled中单个无标注样本记为x _i ^u，无标注样本x _i ^u既可以代表原始无标注样本x _i ^u_ori，也可以代表增强无标注样本x _i ^u_aug。需注意的是，对于增广无标注数据集X _unlabled而言，无标注样本x _i ^u需要以原始无标注样本x _i ^u_ori和增强无标注样本x _i ^u_aug配对的样本对形式输入半监督微博文本分类模型，以便于在样本混合分类网络中通过Mixup样本混合技术形成新样本。

完成对标注样本和无标注样本的初始数据增广后，需要猜测无标注样本的低熵标签，同时利用得到的未标注文本的低熵标签，进一步使用Mixup样本混合技术在文本表征隐藏空间以线性插值的形式源源不断地生成新的训练样本，对半监督微博文本分类模型进行训练，降低训练集创建成本。

在本发明中，前述的半监督微博文本分类模型如图2所示，该模型实际上包含了两部分，一部分是包含多个二分类器的分类器，而另一部分则是样本混合分类网络，而由于该样本混合分类网络中采用了基于ELECTRA的文本Mixup方法，因此将该网络命名为ETMix。

本发明中多标签文本分类任务是转化为多个二分类任务来实现的，由多个二分类器综合实现多分类任务，每一个二分类器实现一种类别的预测，因此二分类器的个数需要与微博文本的标签类别数相同，微博文本具体设置的标签类别可根据分类需要调整，例如在后续实施例1的情感分类任务中设置了多种情绪类别。每一个二分类器均采用由第一预训练语言模型ELECTRA构造的分类网络，用于预测一种类别标签，第一预训练语言模型ELECTRA采用ELECTRA (Efficiently Learning an Encoder that Classifies TokenReplacements Accurately) 模型，其具体结构属于现有技术，不再赘述。ELECTRA编码的特征向量通过一层全连接层后，即可得到分类的概率分布。

由此，在本实施例的S4中，二分类器内对输入的无标注样本进行伪标签猜测的方法为：

S41：对于以样本对形式输入半监督微博文本分类模型的无标注样本x _i ^u构成，将各样本对中的原始无标注样本x _i ^u_ori和增强无标注样本x _i ^u_aug各自送入二分类器中，原始无标注样本x _i ^u_ori对应得到预测类别的第一概率分布p(x _i ^u_ori)，而增强无标注样本x _i ^u_aug对应得到第二概率分布p(x _i ^{u_ aug})，第一概率分布p(x _i ^u_ori)和第二概率分布p(x _i ^{u_ aug})加权求和得到概率分布形式的初始预测标签y' _i ^u，其公式如下：

式中：权重ω _ori和ω _aug用来控制两条文本各自的预测概率分布对于最终得到的猜测标签y _i ^u的贡献。权重ω _ori和ω _aug都是模型中的超参数，视生成的增强文本的质量而决定，生成的增强文本对于原本文本的语义变动的越小，表达的多样性越好，则ω _aug的值越大，ω _ori的值越小

需注意的是，初始预测标签y' _i ^u是以概率分布的形式存在，因此上述锐化步骤的目的是避免概率分布对于每个类来说分布过于均匀缺少差异化，本实施例采用的锐化函数的形式优选为：

分布函数为：

式中：||·||₁表示L1范数，T表示锐化函数F _sharpen的温度值。

上述锐化函数实际上是使用了 L1 范式的 softmax 函数，温度值 T 用来控制概率分布的平滑程度，T 越小，得到的概率分布则越“尖锐”，当 T 等于 0 时，得到的概率分布实际上成为了一个 One-hot 向量。T可以预先设定一个值，但在进行一定迭代次数的训练后，有必要调整锐化函数中的 T 值，将 T 值变小的步骤也叫做降温或者退火，可以使得模型能够更好的收敛。

上述S4得到未标注文本的低熵标签后，需要进一步在文本表征隐藏空间使用样本混合技术进行数据增强生成新的训练样本。在计算机视觉领域提出了一个简单的数据增强方法Mixup，其使用了线性插值的方法叠加两幅输入图像和以及对标签进行组合来构建新的训练样本，之后被很多监督及半监督任务所使用，也产生了很多变体，比如先对图像进行裁剪再对被裁减的部分用训练集中的其他数据的像素值按比例混合后进行填充，以及在隐藏空间进行线性插值。Mixup的思想十分简单，即每次从训练集中随机抽取一组样本以随机权重分布进行加权线性插值，同时对两个样本的标签做同样的操作，接着使用预测结果和插值之后的样本标签计算损失值（Loss），再根据loss更新网络参数。对于Mixup，一方面可以将其看作是在原始训练集的基础上通过线性插值生成了新的样本，在另一方面，其也对模型实施了正则化试图令其在训练集上有线性化的表现，这在实数空间上连续表示的图像数据上表现良好，但难以用于离散表示且高度抽象的字符。这里对图像的连续性和文本的离散性做一定解释，例如将一幅图像中一个特征点像素值以1.0进行表示，将其改为1.0001进行表示仍然是可以的，因为本身一个特征点的像素值往往要依赖于周围像素的值进行计算，所以图像空间的表现是连续的，而若是一个字符的词向量表示某一个维度的值为2.0345，将其改为2.0346则是没有意义的，因为更改了之后该向量空间中并不存在这个向量坐标的值，而自然语言处理的基础就是将文本打散为词语、字符、音节等来作为基本单位进行处理。

由此，本实施例中的样本混合分类网络ETMix采用由第二预训练语言模型ELECTRA结合样本混合技术构造的分类网络，其中第二预训练语言模型ELECTRA的隐藏层总数记为L。本发明随机从中第二预训练语言模型ELECTRA的L层隐藏层中选择第m层对两个输入文本的隐藏表示进行Mixup操作，因此 ETMix中样本混合分类网络内的样本混合和分类过程可参见如图3所示：第一样本x' _i和抽取自新的训练集X'，而第二样本x _i随机抽取自增广标注数据集X _labled或者增广无标注数据集X _unlabled中的一个；每一对第一样本x' _i和第二样本x _i输入后，均各自经过第二预训练语言模型ELECTRA的前m层隐藏层，分别得到第一特征向量h _m和第二特征向量h' _m，其中1≤m≤L。第m层隐藏层输出的第一特征向量h _m和第二特征向量h' _m进行加权线性插值后得到混合特征向量h ^*，混合特征向量h ^*再通过第二预训练语言模型ELECTRA的后L-m层隐藏层后输出特征向量h _L并进行后续的分类，得到类别标签y _i ^*。

上述加权线性插值的公式可以表达如下：

h ^* =λh _m +（1-λ）h' _m

式中：λ表示线性插值时权重。在进行线性插值时权重λ符合贝塔分布（BetaDistribution)，最终第 L 层的隐藏层输出特征向量h _L参与下游分类任务，两个输入样本的标签也会按照同样的权重值进行线性插值从而得到类别标签y _i ^*。

上述ETMix中，隐藏空间中进行Mixup操作的隐藏层（记为Mixup层）层数m影响最终的编码效果，低层编码倾向于学习文本的表层特征比如句子长度以及句子中是否存在特定单词，中层编码倾向于捕捉文本的句法信息，而高层编码则在深层次语义理解任务中表现更好。本发明经过试验，最终确定ELECTRA 第 7、9、12 三层隐藏层作为 ETMix 中进行线性插值操作的隐藏层，对于每一次迭代训练中输入ETMix的batch，会随机挑选第 7、9、12 三层隐藏层中的一层作为 ETMix 中执行Mixup操作的线性插值层。

需注意的是，上述步骤S4中，增广标注数据集和增广无标注数据集是分批（batch）输入半监督微博文本分类模型中进行迭代训练，训练时采用小批量梯度下降（MSGD）的方法对样本混合分类网络和多个二分类器均进行模型参数更新。

因此，本实施例中总损失函数L _STCM的形式可以表达为：

其中：L _supervised表示监督损失，L _consistency表示一致性损失，L _EntMin表示最小化熵损失。

当将第一样本x' _i和第二样本x _i输入 ETMix 时，x' _i是从增广标注数据集X _labled和增广无标注数据集X _unlabled的混合集X'中随机抽取的，既可能是标注数据也可能是无标签数据，所以输入 ETMix 时的两条文本总的来说存在着三种情况：一是两条都是标注数据，二是两条都是无标签数据，三是一条为标注数据另一条为无标签数据。由于在训练时的抽取情况不可知但可知x _i为x _i ^l还是x _i ^u，所以将 loss 值的计算分为两部分。

当x _i为x _i ^l时，为了充分利用其中的标记数据信息，使用监督学习最常用的损失函数交叉熵对其进行计算，监督损失L _supervised计算公式为：

而x _i为x _i ^u时，为了能充分利用无标签数据的语义信息，本发明更关注于无标签数据在隐藏空间受到来自于标注数据的微小扰动之后，模型应该做出与此扰动具有一致性的预测结果y _i ^*，即y _i ^*相比于y _i ^u所混入的微小扰动的表现应与标注数据给无标签数据带来的微小扰动近似，所以本发明使用一致性正则来进行计算。一致性正则在半监督学习中被作为从无标签数据中提取语义信息的主要方法，其数学形式大致分为均方误差（MeanSquared Error，MSE）和 KL 散度（Kullback-Leilbler Divergence）两种，经试验MSE能使得模型对于无标签数据的预测错误具有更低的敏感度，因此本实施例采用MSE作为一致性损失。一致性损失L _consistency计算公式为：

上述L _supervised和L _consistency均由样本混合分类网络ETMix输出，因此共同记为L _ETMix。另外，为了使分类器的分类结果尽可能准确，本发明还单独对无标签数据的预测概率分布使用了最小化熵损失L _EntMin来计算损失值。最小化熵限定分类器的分类边界不应该穿过边际分布的高密度区域，强迫分类器对未标记数据作出低熵预测，本研究选用合页损失（Hinge Loss）作为最小化熵的实现，最小化熵损失L _EntMin计算公式为：

上述三种损失函数的公式中：M为当前迭代中第二样本来源于增广标注数据集的数量，N为当前迭代中第二样本来源于增广无标注数据集的数量，X _u表示当前迭代中输入半监督微博文本分类模型的所有无标注样本x _i ^u构成的集合，log表示以10为底数的对数，E表示求期望，max( , )表示取最大值操作，γ表示分类器的分类边界，||·||₂表示L2范数。

当上述迭代训练到达模型所需的精度时，即可得到训练完毕的模型。该训练完毕的模型中，样本混合分类网络ETMix并不参与后续的下游分类任务，而是仅仅采用多个二分类器参与后续的下游分类任务。

另外需要注意的是，前述步骤S5中，待分类的微博文本所采用的预处理方法应当与S1中的预处理方法相同，即执行S11~S16步骤后再输入S4中训练完毕的二分类器中，由每一个二分类器输出一种分类标签。因此，一条微博文本可能具有一个标签，也可能具有多个标签。

下面基于该上述S1~S5方法，将其应用至实施例1中，以直观展示其技术效果。

实施例1

本实施例中，对微博数据集进行积极、生气、难过、惊讶和害怕五类情感的情感提取，训练五个二分类模型，每个二分类模型使用150条含有该情绪的标注文本、150条不含有该情绪的文本以及40000条未标注文本构建成训练集，其基本步骤如前述的S1~S5所述，不再赘述，下面主要对各步骤的一些具体实现细节和效果进行展示。

1、根据步骤S1~S5中描述的方法，使用PyTorch深度学习框架构建板件本文本分类模型，模型的超参数具体内容主要包括如下几类：

1）每次迭代训练输入的增广标注数据集X _labled中标注样本x _i ^l数量batch_size_L=2；2）每次迭代训练输入的增广无标注数据集X _unlabled中无标注样本x _i ^u数量batch_size_u=4；2）初始学习率η=0.00005；3）训练轮数epoch=10；4）Mixup层集合mix_layers_set={7,9,12}，每次随机选择其中一层；5）最大文本长度max_sentence_size=256；6）Beta分布参数alpha=0.2，因此γ=0.1；7）最小化熵项中分类边界γ=0.7；8）锐化函数的温度值T=1；9）改变T时的迭代次数临界值temp_change=10000；10）测试间隔步数train_ interval：500。

2、开展共计五个情感二分类模型训练，每隔500步保存模型实例，并对验证集进行一次验证，最终选取验证准确率最高的保存点作为模型生成结果，分类精度指标如下表所示：

从精度评价结果来看，测试集各情感提取结果的综合评价指标F1值均在81%以上，充分证明本发明中提供的半监督文本分类方法具有优良的分类精度和泛化能力。

上述情感分类任务可用于灾害舆情分析等场景，可为灾害舆情信息快速提取提供模型支持。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于半监督学习的多标签微博文本分类方法，其特征在于，步骤如下：

2.如权利要求1所述的基于半监督学习的多标签微博文本分类方法，其特征在于，S1中，对每条微博文本进行预处理的操作包括：去除文本中的URL信息，去除文本中非用户编辑产生的系统固有字段，将文本中的繁体字转换为简体字，去除文本中的微博用户名，将文本中存在的表情符号转为文字，以及将文本中的连续重复出现次数超过阈值的字符进行删减。

3.根据权利要求1所述的基于半监督学习的多标签微博文本分类方法，其特征在于，S2中，所述增广标注数据集的构建方法为：

4.根据权利要求3所述的基于半监督学习的多标签微博文本分类方法，其特征在于，S3中，所述增广无标注数据集的构建方法为：

5.根据权利要求4所述的基于半监督学习的多标签微博文本分类方法，其特征在于，S4中，所述半监督微博文本分类模型内二分类器的个数与微博文本的标签类别数相同；

6.根据权利要求5所述的基于半监督学习的多标签微博文本分类方法，其特征在于，S4中，所述二分类器内对输入的无标注样本进行伪标签猜测的方法为：

S41：对于以样本对形式输入半监督微博文本分类模型的无标注样本x _i ^u，将各样本对中的原始无标注样本x _i ^u_ori和增强无标注样本x _i ^u_aug各自送入二分类器中，分别得到预测类别的第一概率分布p(x _i ^u_ori)和第二概率分布p(x _i ^{u_ aug})，两个概率分布加权求和得到概率分布形式的初始预测标签y' _i ^u；

7.根据权利要求6所述的基于半监督学习的多标签微博文本分类方法，其特征在于，所述锐化函数的形式为：

式中：||·||₁表示L1范数，T表示锐化函数的温度值。

8.根据权利要求6所述的基于半监督学习的多标签微博文本分类方法，其特征在于，S4中，所述增广标注数据集和增广无标注数据集分批输入半监督微博文本分类模型中进行迭代训练，训练时采用小批量梯度下降的方法对样本混合分类网络和多个二分类器均进行模型参数更新。

9.根据权利要求6所述的基于半监督学习的多标签微博文本分类方法，其特征在于，S4中，总损失函数L _STCM的形式为：

其中：

L _supervised表示监督损失，计算公式为：

L _consistency表示一致性损失，计算公式为：

L _EntMin表示最小化熵损失，计算公式为：

10.根据权利要求6所述的基于半监督学习的多标签微博文本分类方法，其特征在于，S5中，待分类的微博文本所采用的预处理方法与S1中的预处理方法相同。