CN112988975A

CN112988975A - 一种基于albert和知识蒸馏的观点挖掘方法

Info

Publication number: CN112988975A
Application number: CN202110380265.9A
Authority: CN
Inventors: 刘忠宝; 赵文娟; 荀恩东
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-06-18

Abstract

本发明公开了一种基于ALBERT和知识蒸馏的观点挖掘方法，所述方法包括：以ALBERT模型作为教师模型T，Text‑CNN模型作为学生模型S，使用原始数据D对教师模型T进行微调，得到适用于观点挖掘任务的教师模型T₁；通过教师模型T₁预测外部数据D₁所得的硬标签对学生模型S进行预训练指引，将预训练指引后的模型进行成对参数共享得到学生模型S₁；使用教师模型T₁和学生模型S₁分别对原始数据D和外部数据D₁进行预测得到两组软、硬标签；联合软、硬标签的交叉熵损失作为总损失反向传播训练学生模型S₁，得到学生模型S₂，作为最终的观点挖掘模型。本发明能够提高观点挖掘的准确率。

Description

一种基于ALBERT和知识蒸馏的观点挖掘方法

技术领域

本发明涉及观点挖掘技术领域，特别涉及一种基于ALBERT和知识蒸馏的观点挖掘方法。

背景技术

随着Web2.0的蓬勃发展，互联网成为人们生活中不可或缺的一部分，人们通过网络进行学习、交流、购物、娱乐，同时对社会热点事件、热门商品和相关服务进行评论。由于这些评论中通常包含了人们的观点色彩和观点倾向，如喜、怒、哀、乐和批评、赞扬等，挖掘评论中包含的观点、倾向具有十分重要的意义。利用这些数据，电商平台能够把握用户需求，进行个性化产品推荐；网络监管部门能够及时的把握舆情信息，及时对舆论进行引导；消费者能够明晰产品的优劣，获得更优质的购物体验。

观点挖掘是自然语言处理中的重要任务之一，主要是对带有观点色彩的主观性文本进行分析、处理、归纳和推理。目前以BERT(Bidirectional Encoder Representationsfrom Transformers)、ALBERT(ALite BERT)为主的预训练语言模型在观点挖掘任务中取得了很好的效果，但是由于模型庞大会导致的计算开销大，训练时间长等问题。因此，如何在保证性能的前提下对模型进行压缩、通过轻量级模型获取更高的准确率成为进一步的研究方向。

知识蒸馏作为一种模型压缩方法，在2015年由Hinton提出，一般使用“教师-学生”框架。其核心思想是将教师模型进行softmax分类后得到的介于0和1 之间的概率分布作为软标签，真实标注作为硬标签，联合软、硬标签对学生模型进行训练使其学到更多教师模型中的知识。在基于知识蒸馏的观点挖掘模型中，通常使用数据扩充和中间层传递知识的方法来指导学生模型训练，这些方法均提升了知识蒸馏的精度，但没有考虑到学生模型方面的改进。由于学生模型参数量少、模型简单且缺乏预训练任务进行指引，导致其学习到的知识有限，进而使得知识蒸馏的精度较低。

发明内容

针对上述问题，本发明的目的在于提供一种基于ALBERT和知识蒸馏的观点挖掘方法SA-ALBKD(Sentiment Analysis method based on A Lite BERT and KnowledgeDistillation)，该方法利用ALBERT模型作为教师模型，结合数据扩充的方法对学生模型进行预训练指引，并利用成对参数共享提升学生模型的复杂性，最后使用交叉熵损失函数联合软、硬标签对学生模型进行知识蒸馏，得到最终的观点挖掘模型，能够有效提高观点挖掘的准确率。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于ALBERT和知识蒸馏的观点挖掘方法，包括以下步骤：

以ALBERT模型作为教师模型T，Text-CNN模型作为学生模型S，使用原始数据D对教师模型T进行微调，得到适用于观点挖掘任务的教师模型T₁；

通过教师模型T₁预测外部数据D₁所得的硬标签对学生模型S进行预训练指引，将预训练指引后的模型进行成对参数共享得到学生模型S₁；

使用教师模型T₁和学生模型S₁分别对原始数据D和外部数据D₁进行预测得到两组软、硬标签；

联合软、硬标签的交叉熵损失作为总损失反向传播训练学生模型S₁，得到学生模型S₂，作为最终的观点挖掘模型。

优选地，所述成对参数共享的步骤具体包括：

对学生模型的层数加倍，然后在加倍层数和原层数之间共享参数；

对新增的共享参数层进行参数的随机减少。

优选地，通过爬虫工具从网络上爬取能够用于观点分类的数据，得到外部数据D₁；在进行知识蒸馏前，先使用教师模型T₁对原始数据D和外部数据D₁进行预测，得到原始数据D的软标签和外部数据D₁的软、硬标签，同时使用学生模型S₁对原始数据D和外部数据D₁进行预测，得到原始数据D和外部数据 D₁的软、硬标签，在得到上述预测标签后，将原始数据D和外部数据D₁共同应用于知识蒸馏。

优选地，所述对学生模型S进行预训练指引包括：在使用教师模型T₁对外部数据D₁预测得到硬标签之后，通过外部数据D₁和预测所得的硬标签对学生模型S进行微调。

优选地，所述教师模型为ALBERT模型，采取双向Transformer模型来获取文本的特征表示，由多个Encoder-Decoder构成，ALBERT模型使用其中的 Encoder部分；

在每个Encoder模块中，词嵌入在进入之前首先加入位置信息，之后再进入两个子网络，第一个子网络是多头自注意力层和归一化层，第二个子网络包括前馈层和归一化层，两个子网络之间采用残差连接；

Transformer模型采用多头自注意力机制，其公式为：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W⁰

其中W⁰是权重矩阵，用于将每个注意力头中矩阵拼接后压缩成序列长度大小；Q，K，V分别代表输入序列中每个词的query，key和value向量，对于每个注意力头来说，都获取了每条序列文本的自注意力，表示为：

head_i＝Attention(W_i ^QQ,W_i ^KK,W_i ^VV)

上式中W_i ^Q,W_i ^K,W_i ^V分别是Q，K，V的权重矩阵；

以下公式为注意力的计算方式，d_k表示query和key向量的维度：

Softmax为归一化激活函数，如下式所示：

其中z为N维行向量。

优选地，所述方法还包括对ALBERT模型进行模型压缩，具体包括以下步骤：

词嵌入层参数因式分解：

O(V×H)→O(V×E+E×H)

其中V为词表大小，H为隐藏层大小，E为词嵌入层大小；

跨层参数共享；

使用SOP任务替代NSP任务；

去除Dropout。

优选地，所述学生模型为Text-CNN模型，由数据输入层、卷积层、池化层和输出层构成；

在数据输入层，首先对待分类文本进行预处理，主要使用结巴分词进行分词，然后使用停用词表去停用词，最后使用Word2Vec工具对文本进行向量化表示；假设x_i∈R^k是句子中第i个词对应k维的词向量，对应句子标签为 y∈{y₁，y₂，…,y_i}，则一个长度为n的句子表示为：

式中

为向量拼接符；将x_1:n传入卷积层，其中每个句子的维度为n*k；

在卷积层，将经过向量化表示的n*k维文本矩阵作为Text-CNN的输入，使用卷积核进一步对局部特征进行提取；假设x_i:i+j为词向量x_i,x_i+1,…,x_i+j拼接而成，窗口为h的情况下，一次卷积运算中存在权重w∈R^hk，使得文本提取到新的局部特征c_i；在滑动窗口为X_i:i+h-1时局部特征表示为：

c_i＝f(w·x_i:i+h-1+b)

其中b是偏执向量，f是非线性激活函数ReLu；经过卷积后的特征C表示如下：

C＝[c₁,c₂,…,c_n-h+1]

在池化层，又称下采样层，对卷积后的特征向量进行压缩、降维、去除冗余信息；使用最大池化Max-pooling方法进行池化，只提取特征向量中的最大值作为最终的特征；最大池化后的特征C表示如下：

C＝max(C)

在输出层，将经过卷积层和池化层的特征进行全连接，采用全连接的softmax 函数进行分类，对第l个文本的观点类别进行预测，概率最大的类别即为预测文本的观点类别：

P_l(y|C,w_n,b)＝softmax(w_nC+b)

优选地，所述方法的损失函数如下所示：

loss＝λ×CE(t_i,s_i)+(1-λ)×CE(y_i,s_i)

其中，λ是平衡参数，CE为交叉熵，s_i为学生模型当前的输出，t_i为教师模型当前的软标签输出，y_i为原数据硬标签。

优选地，所述方法还包括：

采取混淆矩阵对分类结果进行统计，根据混淆矩阵的统计结果，采用精确率P、召回率R、调和平均值F1以及准确率Acc对模型效果进行评价，具体定义如下：

其中P表示所有预测为正例的样本中预测正确的样本所占的比例，R表示所有实际为正例的样本中预测正确的样本所占的比例，F1是P和R的调和平均值，Acc表示预测正确的样本占总样本的比例。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明针对知识蒸馏中学生模型表征能力有限、缺乏初始指引所导致的观点挖掘准确率低的问题，提出一种基于ALBERT和知识蒸馏的观点挖掘方法 SA-ALBKD；该方法将表征能力强的ALBERT模型作为教师模型；然后对学生模型Text-CNN进行预训练指引和成对参数共享，提升该模型的复杂性、加强对知识的学习能力；最后使用交叉熵损失函数联合软、硬标签对学生模型进行优化得到最终的观点挖掘模型；通过在观点分类任务公开数据集上进行对比实验，本发明方法能够有效提高观点挖掘的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于ALBERT和知识蒸馏的观点挖掘方法的流程示意图；

图2a和图2b是本发明实施例提供的成对参数共享的过程示意图；

图3是本发明实施例提供的ALBERT模型结构示意图；

图4是本发明实施例提供的Transformer encoder模型结构示意图；

图5是本发明实施例提供的基于卷积神经网络的文本观点分类模型示意图；

图6a和图6b是本发明实施例提供的在ChnSentiCorp和 Online_shopping_10_cats两个数据集上进行实验测试成对参数共享的有效性的结果示意图；

图7是本发明实施例提供的不同教师模型对知识蒸馏性能的影响示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例提供了一种基于ALBERT和知识蒸馏的观点挖掘方法，如图1所示，所述方法包括以下步骤：

本发明所述方法将表征能力强的ALBERT模型作为教师模型；然后对学生模型Text-CNN进行预训练指引和成对参数共享，提升该模型的复杂性、加强对知识的学习能力；最后使用交叉熵损失函数联合软、硬标签对学生模型进行优化得到最终的观点挖掘模型，能够有效提高观点挖掘的准确率。

进一步地，在本发明的实施例中，成对参数共享能够在不提升参数数量的情况下增加学生模型的复杂性。如图2a和图2b所示，成对参数共享的过程一共分为两步：

(1)对学生模型的层数加倍，然后在加倍层数和原层数之间共享参数，如图2a所示。通过层数加倍和共享参数，模型现在具有两倍的层数，因此模型具有更高的复杂性。

(2)对新增的共享参数层进行参数的随机减少。如图2b所示，此步骤将新增的共享参数层中的部分参数设置为0，让共享参数层学习教师模型中的新知识，进而提升学生模型的学习能力。

进一步地，知识蒸馏是通过数据的软、硬标签将教师模型中的知识传递到学生模型，但由于原始数据集较小，通常无法充分传递教师模型中的知识。因此，本发明用一个规模较大且未标记的数据集作为外部数据D₁，用教师模型T₁预测外部数据D₁的软、硬标签来帮助进行有效的知识提炼。

具体来说，通过爬虫工具从网络上爬取可以用来作为观点分类的数据，将其作为外部数据D₁，在进行知识蒸馏前，先使用教师模型T₁对原始数据D和外部数据D₁进行预测，得到原始数据D的软标签和外部数据D₁的软、硬标签，同时使用学生模型S₁对原始数据D和外部数据D₁进行预测，得到原始数据D 和外部数据D₁的软、硬标签，在得到上述预测标签后，将原始数据D和外部数据D₁共同应用于知识蒸馏。

进一步地，本发明还使用外部数据D₁对学生模型S进行预训练指引。所述对学生模型S进行预训练指引包括：在使用教师模型T₁对外部数据D₁预测得到硬标签之后，通过外部数据D₁和预测所得的硬标签对学生模型S进行微调。通过预训练指引，学生模型可以预先学习关于教师模型和关于任务本身的知识，使得学生模型在知识蒸馏的过程中更好的学习教师模型传递的知识。

在本发明的实施例中，教师模型为ALBERT模型，ALBERT模型是一种基于BERT模型的轻量化预训练语言模型，主要采取双向Transformer模型来获取文本的特征表示，其结构如图3所示。图中e₁,e₁,…,e_n表示文本中的每一个字符，在经过多层双向Transformer模型训练之后，得到E₁,E₂,…,E_n的词嵌入表示。

其中，Transformer模型是一个基于自注意力机制的Seq2Seq(Sequence toSequence)模型，该模型主要由多个Encoder-Decoder构成，ALBERT模型使用其中的Encoder部分，如图4所示，在每个Encoder模块中，词嵌入在进入之前首先加入位置信息，之后再进入两个子网络，第一个子网络是多头自注意力层和归一化层，第二个子网络包括前馈层和归一化层，两个子网络之间采用残差连接。

Transformer模型采用多头自注意力机制，其公式为：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W⁰ (1)

head_i＝Attention(W_i ^QQ,W_i ^KK,W_i ^VV) (2)

上式中W_i ^Q,W_i ^K,W_i ^V分别是Q，K，V的权重矩阵；

公式(3)为注意力的计算方式，d_k表示query和key向量的维度：

Softmax为归一化激活函数，如公式(4)所示：

其中z为N维行向量。

加深预训练模型的层数通常能提高预训练模型的推理能力和表征提取能力，但当模型增大到一定程度时，会出现GPU/TPU的OOM(Out OfMemory)现象，为了减少模型参数和增强预训练模型的语言推理能力，需要对ALBERT模型进行模型压缩。具体包括以下步骤：

(1)词嵌入层参数因式分解(FactorizedEmbedding Parameterization)；

在BERT模型中，embedding size大小一般都是等同于hidden size大小的，由于在第一次输入模型时token embedding是上下文无关，只有经过多头注意力模块和归一化之后的hidding embedding才是上下文相关，ALBERT模型将token embedding进行了分解：

O(V×H)→O(V×E+E×H) (5)

其中V为词表大小，H为隐藏层大小，E为词嵌入层大小；

(2)跨层参数共享(Cross-layerParameter Sharing)；

BERT中12层Transformer encoderblock是串行在一起的，但是参数并不共享，ALBERT模型将其参数进行共享，极大的减少了整个模型的参数量。

(3)使用SOP(Sentence Order Prediction)任务替代NSP(Next SentencePrediction)任务；

BERT在使用掩码语言模型(Masked Language Model,MLM)之外，还使用 NSP作为额外损失来优化模型，但NSP缺乏任务难度，并和MLM目标一致，并不能对模型进一步优化，而SOP可以使模型学习到句子连贯性信息。因此， ALBERT模型使用SOP任务替代NSP任务。

(4)去除Dropout；

Dropout是为了降低过拟合而增加的机制，对Dropout进行删除，能够进一步提升模型的学习能力。

进一步地，所述学生模型为Text-CNN模型，CNN是由传统神经网络发展而来的多层网络模型，具有快速的训练速度和出色的特征提取能力。Text-CNN 模型由数据输入层、卷积层、池化层和输出层构成，其结构如图5所示。

公式(6)中

c_i＝f(w·x_i:i+h-1+b) (7)

C＝[c₁,c₂,…,c_n-h+1] (8)

C＝max(C) (9)

P_l(y|C,w_n,b)＝softmax(w_nC+b) (10)

进一步地，所述方法的损失函数如公式(12)所示：

loss＝λ×CE(t_i,s_i)+(1-λ)×CE(y_i,s_i) (12)

其中，λ是平衡参数，CE为交叉熵，s_i为学生模型当前的输出，t_i为教师模型当前的软标签输出，y_i为原数据硬标签。由损失函数可知，训练目标是在保证学生模型预测的软、硬标签与教师模型预测的一致。

为验证所述方法的有效性，采用谭松波酒店评论数据集ChnSentiCorp，github 开源购物评论数据集Online_shopping_10_cats并结合外部数据进行验证。实验环境如表1所示。

表1实验环境

数据集的标签有正向观点和负向观点两类。外部数据采用从微博评论和淘宝评论中爬取的无标签评论数据20745条。数据集统计信息如表2所示。

表2数据集的统计信息

采取混淆矩阵对分类结果进行统计，混淆矩阵如表3所示，其中TP表示预测标签和真实标签均为正例，FP表示预测标签为正例，真实标签为负例，FN表示预测标签为负例，真实标签为正例，TN表示预测和真实标签均为负例。

表3分类结果的混淆矩阵

根据混淆矩阵的统计结果，采用精确率P(Precision)、召回率R(Recall)、调和平均值F1以及准确率Acc(Accuracy)对模型效果进行评价，具体定义如下：

其中P表示所有预测为正例的样本中预测正确的样本所占的比例，R表示所有实际为正例的样本中预测正确的样本所占的比例，F1是P和R值得调和平均值，Acc代表预测正确的样本占总样本的比例。

下面通过具体的实施例对本发明方法进行验证。在一种具体的实施方式中，ALBERT模型一共12层，词嵌入层为128维，隐层为768维，批次大小为32，初始学习率为1e-4，训练次数为5。模型优化方式采用AdamLR优化器对参数进行更新和微调，AdamLR是带有分段线性学习率的优化器，在1000步以内学习率线性的从0增加至100％，1000-2000步内线性地降低到10％，2000步之后保持10％，激活函数使用softmax。

Text-CNN模型，模型训练时的批处理大小为128，卷积核尺寸大小为[3,4,5]，卷积核单元数量设置为128，训练次数为5，学习率为0.001，学习率衰减指数为0.9，激活函数使用Relu，在使用结巴分词工具分词后使用Word2vec对文本进行词向量表示，词向量维度为100维，成对参数共享中的随机参数减少率为 10％。

知识蒸馏训练方法使用交叉熵作为损失函数，平衡参数取0.5。

实验1为了验证成对参数共享和随机参数减少率k对SA-ALBKD方法的有效性影响，在成对参数共享中选择3种方法：

(a)使用原始层数；

(b)对原始层数进行成对参数共享；

(c)在成对参数共享的基础上使用随机参数减少。

在随机参数减少中选用5％、10％、15％、20％四种不同k值，通过在 ChnSentiCorp和Online_shopping_10_cats两个数据集上进行实验，测试成对参数共享的有效性，并根据不同的k值对准确率的影响选择最合适的k值，使方法性能达到最优。实验结果如图6a和图6b所示。

在图6a和图6b中，横坐标表示k值，纵坐标表示评价指标Acc，从图中可知，只使用成对参数共享的(b)方法在性能上优于使用原始层数(a)方法，而本发明所使用的(c)方法优于(a)、(b)两方法，这是因为成对参数共享可以有效的提升学生模型的表征能力和学习能力，在知识蒸馏中学到更多教师模型的知识，进而使蒸馏后的模型具有更高的准确率。同时，k值大小也影响观点分类的准确率，k值为15％和20％时，学生模型损失了预训练指引环节学到的知识，k值为5％时，学生模型预训练知识过度依赖，对教师模型中知识的学习能力变差，从而导致观点分类准确率变差，k值为10％时性能达到最佳，所以选择k值为10％进行实验。

实验2为了检验不同教师模型对知识蒸馏性能的影响。将BERT-base和 ALBERT模型作为教师模型对学生模型Text-CNN进行知识蒸馏，使用知识蒸馏后的模型进行观点挖掘，在ChnSentiCorp和Online_shopping_10_cats两个数据集上的实验结果如图7所示。

在图7中，横坐标表示数据集，纵坐标表示评价指标Acc，由图7可知，使用ALBERT作为教师模型比使用BERT-base性能更优。这是由于ALBERT模型使用权重因子分解和跨层参数共享减少了参数总量，使得文本特征维度可以进一步加深，从而获得更深层次的语义信息，这些信息通过知识蒸馏传递至学生模型，使学生模型的观点分类准确率得到提升。

实验3为了验证所述方法在观点挖掘任务中的有效性，将本发明方法得到的模型与基准深度学习模型进行对比，基准深度学习模型包括Text-CNN、 AT-CNN、LSTM、Bi-LSTM、BERT-Tiny、BERT-base、ALBERT模型。在 ChnSentiCorp和Online_shopping_10_cats两个数据集上的实验结果如表4和表5 所示，其中黑色加粗表示这一指标下效果较好的方法。为避免单次实验的偶然性，本发明引入10折交叉验证的方式进行训练和测试，取其中最优的实验结果作为最终的实验结果。

表4 8种算法在ChnSentiCorp数据集上的实验结果

表5 8种算法在Online_shopping_10_cats数据集上的实验结果

从表4和表5可知，在观点挖掘任务中，传统深度学习模型Text-CNN、 AT-CNN、LSTM、Bi-LSTM的性能均低于预训练语言模型和基于知识蒸馏的观点挖掘模型，这是因为传统深度学习模型只在任务数据集中获取文本特征，而预训练模型通过自监督学习从大规模数据中获得字和词的泛化语义表征。与此同时，基于知识蒸馏的观点挖掘模型通过知识蒸馏的思想将预训练语言模型中的知识蒸馏到学生模型中，也得到了性能的提升。在ChnSentiCorp数据集中， SA-ALBKD模型在Acc上优于其他基准深度学习模型，与ALBERT模型相比 Acc提升1.31％，P、R、F1值分别提升0.81％、2.34％、0.39％，同比Text-CNN 模型Acc提升7.48％，P、R、F1值分别提升6.3％、7.88％、6.73％。在 Online_shopping_10_cats数据集中，SA-ALBKD模型同样优于其他基准深度学习模型，与ALBERT模型相比Acc提升1.08％，P、R、F1值分别提升0.91％、 1.36％、1.43％，同比Text-CNN模型准确率提升6.17％，P、R、F1值分别提升 6.24％、6.63％、6.42％。这是因为SA-ALBKD模型使用知识蒸馏的思想，通过教师模型ALBERT对原始数据和扩充数据预测的软、硬标签将知识传递给学生模型，同时对学生模型进行预训练指引和成对参数共享，加强了学生模型的表征能力和学习能力，使学生模型学习到扩充数据的知识和教师模型蒸馏的知识，从而提升了观点挖掘的准确率。

综上所述，本发明针对基于知识蒸馏的观点挖掘方法中学生模型表征能力有限、缺乏初始指引所导致的观点挖掘准确率低的问题，提出了一种基于 ALBERT和知识蒸馏的用户评论观点挖掘方法SA-ALBKD。该方法不仅通过 ALBERT预训练语言模型提升了词向量的表征能力，并且利用知识蒸馏的方法将ALBERT模型学习到的知识迁移到Text-CNN模型中，并通过预训练指引和成对参数共享提升学生模型的表征能力和学习能力。在ChnSentiCorp和 Online_shopping_10_cats两个数据集上的实验结果证明了所提方法有效的提升了观点挖掘的准确率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于ALBERT和知识蒸馏的观点挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的观点挖掘方法，其特征在于，所述成对参数共享的步骤具体包括：

对新增的共享参数层进行参数的随机减少。

3.根据权利要求1所述的观点挖掘方法，其特征在于，通过爬虫工具从网络上爬取能够用于观点分类的数据，得到外部数据D₁；在进行知识蒸馏前，先使用教师模型T₁对原始数据D和外部数据D₁进行预测，得到原始数据D的软标签和外部数据D₁的软、硬标签，同时使用学生模型S₁对原始数据D和外部数据D₁进行预测，得到原始数据D和外部数据D₁的软、硬标签，在得到上述预测标签后，将原始数据D和外部数据D₁共同应用于知识蒸馏。

4.根据权利要求1所述的观点挖掘方法，其特征在于，所述对学生模型S进行预训练指引包括：在使用教师模型T₁对外部数据D₁预测得到硬标签之后，通过外部数据D₁和预测所得的硬标签对学生模型S进行微调。

5.根据权利要求1所述的观点挖掘方法，其特征在于，所述教师模型为ALBERT模型，采取双向Transformer模型来获取文本的特征表示，由多个Encoder-Decoder构成，ALBERT模型使用其中的Encoder部分；

Transformer模型采用多头自注意力机制，其公式为：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W⁰

head_i＝Attention(W_i ^QQ,W_i ^KK,W_i ^VV)

上式中W_i ^Q,W_i ^K,W_i ^V分别是Q，K，V的权重矩阵；