CN114969321B

CN114969321B - 基于多权重自训练的环境类投诉举报文本分类方法

Info

Publication number: CN114969321B
Application number: CN202210249762.XA
Authority: CN
Inventors: 范青武; 邱昌盛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2024-03-22
Anticipated expiration: 2042-03-14
Also published as: CN114969321A

Abstract

基于多权重自训练模型得环境类投诉举报文本分类方法，属于人工智能技术领域。具体包括以下步骤：首先使用基于HowNet语料库的相似度计算方法赋予每个无标签数据第一权重；然后使用自训练的方法为每个无标签数据添加第二权重；接着通过权重融合和阈值筛选为每个无标签数据赋予伪标签并利用其参与训练。最后使用训练好的分类器进行投诉举报文本分类。本文所使用的基于多权重自训练模型的环境类投诉举报文本分类方法，在解决投诉举报少样本分类的问题上取得显著效果。

Description

基于多权重自训练的环境类投诉举报文本分类方法

技术领域

本发明涉及一种环境类投诉举报文本分类方法，尤其涉及一种基于多权重自训练模型的环境类投诉举报文本分类方法。

背景技术

涉及环境类的投诉举报类型多种多样，将投诉举报经过分类，快速准确定位投诉原因后，再交由相应主管部门会提升事件处理效率。通过分析，投诉举报文本具有口语化严重、表述不清的特点，并且有标签数据极少，直接构建有监督分类器面临着诸多困难；而通过人工进行标注开销昂贵，费时费力，且容易受到标注者主观的影响。

针对上述投诉举报分类中的问题，使用基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进，通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类，为环境类投诉举报可信度分析提供新思路。

综上所述，基于多权重自训练模型的环境类投诉举报文本分类是一项创新的研究问题，具有重要的研究意义和应用价值。

发明内容

本发明的目的是解决环境类投诉举报文本分类中文本口语化严重、表述不清，并且有标签数据极少，通过传统分类方法无法对投诉举报数据进行有效分类的问题。针对上述投诉举报分类中的问题，本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进，通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类。

基于多权重自训练模型的环境类投诉举报文本分类方法，该方法步骤如下：

S1原始数据收集；

S2从全部有标签数据集中为每个类随机抽取η个样本，作为目标集；

S3将目标集和无标签数据集中X_U中的所有文本数据进行分词和去停用词处理，最后得到各个集合的词集；

S4使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度；

S5计算每个无标签数据相对于每个类的平均相似度，将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重；

S6使用全部的有标签数据训练教师分类器，然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重；

S7然后将每个无标签样本的第一权重和第二权重进行叠加，并再次对叠加后的权重进行归一化得到最终权重；

S8对最大权重超过阈值的无标签文本添加相应的伪标签。将添加伪标签的样本添加到有标签数据集中，并从无标签数据集中剔除；

S9用更新后的有标签数据集训练一个学生模型。

S10重复S6到S9操作，直到全部无标签数据全部添加伪标签或程序运行完指定循环次数。将最后得到的分类器作为自训练模型的输出。

附图说明

图1为基于多权重自训练模型的环境类投诉举报文本分类模型示意图。

图2为基于多权重自训练模型的环境类投诉举报文本分类模型流程图。

具体实施方式

本发明提出一种基于多权重自训练模型的环境类投诉举报文本分类方法，

结合附图1详细说明本发明的具体实施方式：

步骤1，原始数据收集；

步骤2中，从全部有标签数据集X_L中为每个类随机抽取η个样本，本实验中η取20，作为目标集x_l＝{x¹,x²,…,xⁿ},其中n为投诉举报数据所包含的类别数，其中/>表示所抽取的第i个类别的第o个样本和标签。另外将全部无标签数据集作为无标签数据集m为全部无标签数据的数量。

步骤3，将目标集和无标签数据集中X_U中的所有文本数据进行分词和去停用词处理，最后得到各个集合的词集；

步骤4，使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度，具体计算方式是：

步骤401，在义原树中两个义原节点之间的路径长度：两个义原的相似度大小与它们之间的路径距离的大小相关。义原节点w₁与w₂之间的相似度

其中，Dist(w₁,w₂)表示义原在HowNet的知识树中的路径距离(若w₁,w₂不在同一棵树，则取一个较大常数20)，β为可调节参数，β取1；

步骤402，在两个义原节点之间的路径长度的基础上，加入义原节点的深度：在同一棵义原树中，两个义原的深度越大，表明义原包含的信息量越大，义原之间的相似度就越大。所以义原节点w₁与w₂之间的相似度也可以表示为：

其中，inf(w₁)，inf(w₂)表示义原w₁,w₂在义原树中所有的父节点组成的集合。

步骤403，义原之间的相似度计算综合义原路径长度，义原深度因素，因此义原之间的相似度即可由以下公式计算得到：

其中α₁与α₂为可调节参数，0≤α₁≤1,0≤α₂≤1,α₁+α₂＝1。

从目标集和无标签数据集中各取出一条样本，分词去停用词之后得到其中T_o,T_j分别表示抽取出的文本分词去停用词之后所剩的单词数，利用(3)公式分别计算/>和/>中每个单词之间的相似度，/>之间的相似度记为/>这样就可以得到两个文本单词之间的相似度集合

步骤5，计算每个无标签数据相对于每个类的平均相似度，将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重，具体方法如下：

步骤501：

令其中1≤b≤T_j。将T_j个Sim(a)加入集合P；

令其中1≤a≤T_o。将T_o个Sim(b)加入集合Q。

将P,Q集合所有元素之和的平均值作为与/>的相似度，即两个文本之间的相似度

其中，Sim(a)∈P,a＝1,2,…,T_o,1≤o≤η，Sim(b)∈Q,b＝1,2,…,T_j,1≤j≤m。

步骤502：使用上述方法从无标签数据集X_U中依次抽取样与目标集x_l中的每个类的样本/>(i∈[1,n],o∈[1,η],第i个类的第o个样本)做相似度计算，并计算/>相对于目标集中第i类的平均相似度/>和/>相对于目标集中的每个类的平均相似度/>

在生成第一权重之前，为了提高模型的准确度，对相对于每个类的平均相似度做一次相似度筛选，并设定筛选阈值λ(λ∈[0,1])，所用相似度筛选函数如下：

y＝sgn(ReLU(x-λ)) (7)

其中λ(λ∈[0,1])为设定的筛选阈值。所以筛选后的相似度为

最后将筛选之后的相似度进行归一化处理作为最后相对于每个类的权重

步骤6，使用全部的有标签数据训练教师分类器，然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重，具体步骤如下：

步骤601，将全部的有标签数据X_L和全部带有第一权重的无标签数据进行向量化。本文使用哈工大的中文bert-wwm-ext预训练模型对文本进行向量化。向量化后的有标签数据表示为

其中/>表示第t个向量化后的有标签数据及其标签，z表示有标签数据个数。

向量化后的无标签数据表示为

其中/>表示第j个向量化后的无标签数据，m表示无标签样本的个数。

步骤602，用bert分类器作为自训练模型的教师和学生模型。将V_L作为教师模型的输入，并使用交叉熵作为损失函数

其中：N为每个batch的大小；

M--表示类别个数；

y_ic--是符号函数(0或1)，如果样本i的真实类别等于c，y_ic取1，否则取 0；

p_ic--观测样本i属于类别c的预测概率。

步骤603，使用训练好的教师模型计算出V_U中样本数据对于每个类的预测概率，即数据/>的第二权重/>

步骤7，将第一权重与第二权重进行叠加并归一化得到数据的最终权重

同样的，为了提高同化数据的准确率。在为无标签数据添加伪标签之前，对最终生成的权重进行筛选，设定权重阈值为δ(δ∈[0,1])。因此，打标方式如下：

步骤8，对有标签数据集进行更新：将所有对应的无标签样本数据/>以/>的形式添加到有标签数据集中，形成新的有标签数据集/>并将其从无标签数据集中剔除。

步骤9，使用更新后的有标签数据集训练学生模型，同样使用交叉熵作为损失函数。将训练好的学生模型替换教师模型，并返回到步骤6。直到或者迭代达到最大迭代次数50次，模型停止训练，并将最后的教师模型作为模型的输出，用于对其他无标签数据分类。

本模型分类精确率(Precision)来表示模型的效果:

其中，为预测为正例且实际也为正例的样本数量；为预测为正例但实际为负例的样本数量。

本方法所用到的投诉举报数据集均来自于中国某环保相关部分所提供的真实数据。来自微信端、网页端、电话的环境类相关的投诉举报数据共计8910 条数据。为了更方便的将本文所提模型的性能与有监督模型进行对比，所选用的8910条数据全部为有标签数据。该数据用于半监督模型时，隐藏部分数据的标签当作无标签数据使用。

表1 MWST与有监督模型实验效果对比

如表1所示，基于多权重自训练的文本分类模型(MWST)在环境类投诉举报文本数据上的分类效果提升的较为明显。特别是在有标签数据较少而无标签数据较多的情况下，MWST模型的表现尤为突出。整体上，MWST与所对比的有监督模型效果高出12％以上；在L/U值小于1区间内，效果更为明显。与目前主流的几种半监督文本分类的模型进行对比，如表2所示，在环境类投诉举报文本数据上，MWST仍然具有一定的优势。在L/U值小于0.75区间内，MWST相比于其余模型优势明显。尤其在L/U值在0.2附近，MWST相比于其余模型高出10％以上。MWST在有标签数据较少，无标签数据较多时，可以利用相似度计算的方法为无标签提供有效的权重支持。相比于其他的半监督方法可以在不借助大量有标签数据学习的情况下获取更多类别信息，从而使其在小样本分类中取得更好的效果。

表2基于不同特征抽取器的MWST实验效果对比

表3基于不同相似度计算的MWST实验效果对比

表2，表3作为本文所提模型的验证实验。如表2所示，通过使用不同的特征抽取器来对比MWST模型的性能。从表中可以看出在所设计的对比实验中， BERT特征抽取器保持绝对优势。尤其在L/U较小阶段，BERT模型相比于卷积神经网络和循环神经网络，展现了其预训练的优势；并且BERT与Transfomer 相比，体量较小，可以在小样本的情况下有效的避免欠拟合的问题，从而体现出更好的特征抽取效果，因此本文所提模型中，采用BERT作为特征抽取器。

表3表示的是通过使用不同的相似度计算的方法来对比MWST模型的性能。从表中可以看出在所设计的比对实验中，基于HowNet的相似度计算方法在整体上有一定的优势。基于HowNet语料库可以轻松的获取词语义原之间的路径长度，层次深度，甚至是情感等信息。相比基于简单的文本编码表示的相似度计算，基于HowNet语料库的方法可以更好的从语义层面获取更多的信息，从而更有效的提高相似权重的准确性，为整体的模型效果提供更有效的帮助。

综上所述，本方法能够很好的利用多权重自训练模型，可以很好的完成投诉举报文本分类任务。

Claims

1.一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于，具体步骤如下：

步骤1 原始数据收集；

步骤2 从全部有标签数据集中为每个类随机抽取η个样本，作为目标集；

步骤3 将目标集和无标签数据集中X_U中的所有文本数据进行分词和去停用词处理，最后得到各个集合的词集；

步骤4 使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度；

步骤5 计算每个无标签数据相对于每个类的平均相似度，将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重；

步骤6 使用全部的有标签数据训练教师分类器，然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重；

步骤7 然后将每个无标签样本的第一权重和第二权重进行叠加，并再次对叠加后的权重进行归一化得到最终权重；

步骤8 对最大权重超过阈值的无标签文本添加相应的伪标签；将添加伪标签的样本添加到有标签数据集中，并从无标签数据集中剔除；

步骤9 用更新后的有标签数据集训练一个学生模型；

步骤10 重复步骤6到步骤9操作，直到全部无标签数据全部添加伪标签或程序运行完指定循环次数；将最后得到的分类器作为自训练模型的输出；

其中，所述的原始数据是环境类投诉举报文本数据。

2.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于：

步骤2中，从全部有标签数据集X_L中为每个类随机抽取η个样本，作为目标集x_l＝{x¹,x²,…,xⁿ},其中n为投诉举报数据所包含的类别数，

其中/>表示所抽取的第i个类别的第o个样本和标签；另外将全部无标签数据集作为无标签数据集m为全部无标签数据的数量。

3.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于：

步骤4中，使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度，具体计算方式是：

步骤401在义原树中两个义原节点之间的路径长度：两个义原的相似度大小与它们之间的路径距离的大小相关；义原节点w₁与w₂之间的相似度

其中，Dist(w₁,w₂)表示义原在HowNet的知识树中的路径距离(若w₁,w₂不在同一棵树，路径距离取20)，β为可调节参数，本发明中β取1；

步骤402在两个义原节点之间的路径长度的基础上，加入义原节点的深度：在同一棵义原树中，两个义原的深度越大，表明义原包含的信息量越大，义原之间的相似度就越大；所以义原节点w₁与w₂之间的相似度也可以表示为：

其中，inf(w₁)，inf(w₂)表示义原w₁,w₂在义原树中所有的父节点组成的集合；

步骤403义原之间的相似度计算综合义原路径长度，义原深度因素，因此义原之间的相似度即可由以下公式计算得到：

其中α₁与α₂为可调节参数，0≤α₁≤1,0≤α₂≤1,α₁+α₂＝1；

从目标集和无标签数据集中各取出一条样本，分词去停用词之后得到

其中T_o,T_j分别表示抽取出的文本分词去停用词之后所剩的单词数，利用(3)公式分别计算/>和/>中每个单词之间的相似度，/>之间的相似度记为/>这样就可以得到两个文本单词之间的相似度集合/>

1≤a≤T_o,1≤b≤T_j。

4.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于：

步骤5中，计算每个无标签数据相对于每个类的平均相似度，将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重，具体方法如下：

步骤501：

令其中1≤b≤T_j；将T_j个Sim(a)加入集合P；

令其中1≤a≤T_o；将T_o个Sim(b)加入集合Q；

其中，Sim(a)∈P,a＝1,2,…,T_o,1≤o≤η，Sim(b)∈Q,b＝1,2,…,T_j,1≤j≤m；

步骤502：使用上述方法从无标签数据集X_U中依次抽取样

与目标集x_l中的每个类的样本/>做相似度计算，并计算/>相对于目标集中第i类的平均相似度/>

和相对于目标集中的每个类的平均相似度

在生成第一权重之前，为了提高模型的准确度，对相对于每个类的平均相似度做一次相似度筛选，并设定筛选阈值λ，所用相似度筛选函数如下：

y＝sgn(ReLU(x-λ)) (7)

其中λ为设定的筛选阈值；所以筛选后的相似度为

最终通过遍历无标签数据集中的数据得到每个无标签样本相对于每个类的第一权重。

5.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于：

步骤6中，使用全部的有标签数据训练教师分类器，然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重，具体步骤如下：

步骤601，将全部的有标签数据X_L和全部带有第一权重的无标签数据进行向量化；本文使用哈工大的中文bert-wwm-ext预训练模型对文本进行向量化；向量化后的有标签数据表示为

其中/>y_t表示第t个向量化后的有标签数据及其标签，z表示有标签数据个数；

向量化后的无标签数据表示为

其中/>表示第j个向量化后的无标签数据，m表示无标签样本的个数；

步骤602，用bert分类器作为自训练模型的教师和学生模型；将V_L作为教师模型的输入，并使用交叉熵作为损失函数

其中：N为每个batch的大小；

M--表示类别个数；

y_ic--是符号函数为0或1，如果样本i的真实类别等于c，y_ic取1，否则取0；

p_ic--观测样本i属于类别c的预测概率；

6.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于：

步骤7中，将第一权重与第二权重进行叠加并归一化得到数据的最终权重

在为无标签数据添加伪标签之前，对最终生成的权重进行筛选，设定权重阈值为δ；因此，打标方式如下：

7.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于：

步骤8中，对有标签数据集进行更新：将所有对应的无标签样本数据/>以的形式添加到有标签数据集中，形成新的有标签数据集/>并将其从无标签数据集中剔除。

8.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于：

步骤9中，使用更新后的有标签数据集训练学生模型，同样使用交叉熵作为损失函数。

9.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法，其特征在于：

步骤9中，将训练好的学生模型替换教师模型，并返回到步骤6；直到或者迭代达到50次以上，模型停止训练，并将最后的教师模型作为模型的输出，用于对其他无标签数据分类。