CN112214599B

CN112214599B - 基于统计学和预训练语言模型的多标签文本分类方法

Info

Publication number: CN112214599B
Application number: CN202011121726.2A
Authority: CN
Inventors: 廖伟智; 周佳瑞; 阴艳超; 曹阳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-06-24
Anticipated expiration: 2040-10-20
Also published as: CN112214599A

Abstract

本发明公开了一种基于统计学和预训练语言模型的多标签文本分类方法，包括以下步骤：S1、对需要分类的训练语料进行预处理；S2、建立基于统计学方法和语言模型的标签获取模型；S3、对获取的标签数据进行处理；S4、建立基于预训练语言模型的多标签分类模型，利用得到的标签数据进行模型训练；S5、使用训练好的多标签文本分类模型，对待分类的文本数据进行多标签分类。本发明提出一种结合了统计学方法与预训练语言模型标签获取方法，使用ALBERT语言模型来获取文本的语义编码信息，不需要人工标注数据集，能够提高获取标签的准确度。

Description

基于统计学和预训练语言模型的多标签文本分类方法

技术领域

本发明涉及一种基于统计学和预训练语言模型的多标签文本分类方法。

背景技术

2013年以来，基于神经网络的深度学习理论取得了重大进步，已经广泛运用到图像和自然语言处理领域，衍生了许多研究与应用方向。文本分类是自然语言处理中最重要的任务之一,在现实生活中有很多应用,例如舆情监测,标签推荐,信息查找等。传统的单标签文本分类算法难以解决现实生活场景中文本的多样性问题，多标签文本分类已经成为自然语言处理文本分类任务中热门研究方向。

当前的多标签文本分类方法主要分为两类：

第一类是基于传统机器学习的多标签文本分类方法，例如：Binary relevance，Classifier chains，ML-DT，Rank-SVM和ML-KNN等，是通过提取依赖于语料库实现标签的特征提取，这类方法需要通过人工设计的特征来训练分类器，模型的质量取决于特征设计的质量。而且这类方法并没有考虑单词的语义信息及上下文信息，还会造成数据维度灾难，准确性也不高。

第二类是基于深度学习的多标签文本分类方法，这类方法将深度学习，例如全连接神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、注意力机制(Attention)等应用到多标签文本分类中。使用神经网络处理文本分类弥补了传统机器学习方法的很多缺陷，比如：不需要通过人工设计特征等，但是这些方法仍未能充分的提取语义信息，且比较依赖于训练数据集的标签准确度。

上述分类方法存在以下技术缺点：

(1)基于传统机器学习的多标签文本分类方法需要人工设计特征，非常耗时耗力，并且特征的质量对分类效果的影响很大。

(2)现有的基于深度学习的方法大多采用CNN、RNN等来提取语义信息，虽然可以取得不错的效果，但相比使用预训练语言模型来提取语义信息，仍然具有一定的差距。

(3)以上两种方法都需要较大规模的已标注数据集，特别是基于深度学习的多标签文本分类方法，对训练数据集的标签准确度以及规模大小都提出了更高的要求，而对于许多应用领域，大规模高准确性的标注数据集的获取成本往往都很大。

发明内容

本发明的目的在于克服现有技术的不足，提供一种结合统计学方法与预训练语言模型标签获取方法，使用ALBERT语言模型来获取文本的语义编码信息，不需要人工标注数据集，能够提高获取标签的准确度的基于统计学和预训练语言模型的多标签文本分类方法。

本发明的目的是通过以下技术方案来实现的：基于统计学和预训练语言模型的多标签文本分类方法，包括以下步骤：

S1、对需要分类的训练语料进行预处理；

S2、建立基于统计学方法和语言模型的标签获取模型；

S3、对获取的标签数据进行处理；

S4、建立基于预训练语言模型的多标签分类模型，利用得到的标签数据进行模型训练；

S5、使用训练好的多标签文本分类模型，对待分类的文本数据进行多标签分类。

进一步地，所述步骤S1具体实现方法为：获取需要标注的语料数据集OrgData，并去除停用词，然后得到NewData并保存下来。

进一步地，所述步骤S2的标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层：

关键词层：通过统计学方法得到排名靠前的k个关键词；

输入编码层：将输入转换为神经网络可识别的词向量；

预训练语言模型层：采用Google预训练好的语言模型：albert_small_zh_google模型；

相似度分析层：本层是一个全连接层，通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后，进行相似度的计算。

进一步地，所述步骤S3具体实现方法为：对标签进行统计得到整个数据集的标签集合Lable_Set，对每个标签进行编号，得到标签集合Lable_Set对应的标签编号集合Lable_ID，再通过Lable_ID将数据集中的标签转换为对应的one-hot向量。

进一步地，所述步骤S4的多标签分类模型包括依次连接的输入编码层、预训练语言模型层、全连接层和输出层；

输入编码层：将输入转换为神经网络可识别的词向量；

预训练语言模型层：采用Google预训练好的语言模型：albert_small_zh_google模型，输出向量选择为整个语义编码向量：

全连接层：将预训练语言模型层输出的语义编码向量作为全连接层的输入，得到输出b_c′：

b_c′＝W'b_c

其中W′为全连接层的权值矩阵；

输出层：对全连接层的输出b_c′，通过softmax计算得到标签的概率分布y_t：

y_t＝softmax(b_c′)。

进一步地，所述步骤S4的模型训练具体实现方法为：对多标签分类模型的输出概率分布向量与步骤S3中得到的真实标签的one-hot向量进行交叉熵损失函数计算，其计算公式为：

其中，p，q分别代表多标签分类模型的输出概率分布向量和真实标签的one-hot向量；p(x_i)和q(x_i)分别表示向量中第i个元素，n表示向量中元素的总数量；

采用梯度下降法(或其他优化方法)训练该模型的参数，当模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止该模型的训练。

本发明的有益效果是：本发明提出一种结合了统计学方法与预训练语言模型标签获取方法，使用ALBERT语言模型来获取文本的语义编码信息，不需要人工标注数据集，能够提高获取标签的准确度。

附图说明

图1为本发明的基于统计学和预训练语言模型的多标签文本分类方法的流程图；

图2为本发明的标签获取模型结构图；

图3为本发明的BERT模型结构图；

图4为本发明的Transformer Encoder端单元结构图；

图5为本发明多标签分类模型的结构图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种基于统计学和预训练语言模型的多标签文本分类方法，包括以下步骤：

S1、对需要分类的训练语料进行预处理；具体实现方法为：获取需要标注的语料数据集OrgData，并去除停用词(例如“了”、“个”等停用词和特殊符号等无意义字词)，然后得到NewData并保存下来。

S2、建立基于统计学方法和语言模型的标签获取模型；标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层，如图2所示。

关键词层：通过统计学方法(如TF-IDF/TextRank/LDA等算法)得到排名靠前的k个关键词；本实施例以TF-IDF为例进行说明：

①、计算数据集中每个单段文本中每个词的词频(TF)：

即

TF_w表示第w个词条的词频；

②、计算该词对应整个语料数据集的逆文档频率IDF_w：

即

③、计算该词的词频-逆文档频率TF-IDF；

TF-IDF＝TF*IDF；

④、对每个段落按照步骤(1)～(3)计算每个词的TF-IDF，并按降序进行排列，取前k个词作为该段落的关键词。

输入编码层：将输入转换为神经网络可识别的词向量，作为下一层的输入；在这一层中使用预训练的词向量Glove,将语料转化为神经网络可以处理的词向量。

以一个句子为例，其表现形式为：

经过输入编码层转化为

其中n为句子的长度，d_v为词向量的维度。同样的，对于TF-IDF得到的k个关键词，其表现形式为

通过输入编码层转化为对应的词向量，表示为

将其按从左到右的顺序拼接成一个词向量编码矩阵H^t∈R^k×v，其中v为词向量的维度。

预训练语言模型层：采用Google预训练好的语言模型：albert_small_zh_google模型；该模型是一个BERT的改进模型，下面对BERT和ALBERT模型做一个简要介绍。BERT(Bidirectional Encoder Representation from Transformers)是Google的Devlin J等于2018年10月提出的新型预训练模型，在当时11项自然语言处理任务中刷新了记录。其结构如图3所示。

BERT模型采用了双向Transformer编码器，其训练方法分为两步：一是通过随机MASK训练集中15％的词。其中被打上[MASK]标记的词有80％的概率直接替换为[MASK]标签，10％概率替换为任意单词，10％概率保留原始Token，让模型预测被MASK的单词含义；二是通过从训练文本中挑选语句对，其中包括连续的语句对和非连续的语句对，让模型来判断语句对是否呈“上下句”关系。

BERT模型中Transformer编码器具体单元结构如图4所示。在输入文本后先进行词嵌入(Embedding)编码处理，将文本词向量化，再对其进行位置信息编码(PositionalEncoding)。为了充分考虑每一个句子中不同词语之间的语义和语法联系，设计了自注意力层(Self-Attention)，同时考虑到不同head(不同表示子空间)中单词的Attention(侧重点)不同，通过结合多个自注意力层形成多头(Multi-Head)机制来使模型获得更大容量。基于多头机制的自注意力层的输出会经过残差连接(Residual Connection)&层归一化(Layer Normalization)层，通过将经过位置信息编码后的输出与多头机制自注意力层的输出相加，再进行层归一化操作，这样可以做到仅关注差异部分并使模型更容易训练。残差连接&层归一化层的输出传递到前馈神经网络层(Feed Forward)，再经过残差连接&层归一化层后输出。

ALBERT(A LITE BERT)是Google公司基于BERT基础上进行了一系列改造后的预训练小模型，该模型参数量相比传统BERT大幅度降低，运行速度提高，在一定程度上突破了硬件的限制，并在许多自然语言处理任务上发挥出色。

ALBERT相较于BERT的改进点主要有以下几点：

①：Factorized embedding parameterization(词嵌入因式分解)：降低Embedding层的词嵌入维度，并在词嵌入和隐藏层间再添加一个project层。假设词表大小为L，隐藏层维度为H，词嵌入维度为V。那么BERT模型参数P_bert计算公式为：

P_bert＝V×L

ALBERT模型参数P_albert计算公式为：

P_albert＝L×V+V×H

BERT模型中词嵌入维度和隐藏层维度相同，在通常V很大，V远小于H的情况下，词嵌入因式分解后的参数量将大幅度减小。

②：Cross-Layer Parameter Sharing(跨层参数共享)：在ALBERT模型中结合了Transformer两种参数共享的方式，将全连接层和attention层都实现了参数共享，达到减小参数量和提高模型训练速度的效果。

③：Inter-sentence coherence loss(句间连贯)：改进了BERT模型原有的连续句二分类训练任务，提出了SOP(sentence-order prediction)的新型训练任务，让模型去识别给定两个句子的先后顺序。

④：移除dropout层。

albert_small_zh_google是ALBERT模型的一个实例，ALBERT模型全称是A LiteBERT，是Bert模型的一种轻量化改进型，Google公司针对不同语言预训练了模型的参数，并发布在GitHub上，根据隐藏层的数量分为small、base、large等，albert_small_zh_google就是其中的一种已经训练好的，针对中文语言的小型预训练语言模型。

在本层中，将句子向量

输入到ALBERT模型，得到n个单词的语义编码向量

其中d_h为Albert的隐藏单元个数，此处d_h＝384，取

作为本层的输出，因为在Albert模型中，最后一层的输出将整个句子的特征信息投射到了句子第一个字的隐藏状态向量上面，因此可以将

作为该句子的向量表示。

相似度分析层：本层是一个全连接层，通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后，进行相似度的计算，，其计算公式为：

以词向量

与句子向量

为例，其实际的余弦相似度为

其中，W为该全连接层的权值矩阵。

同样的，计算每个词向量与该文本段的全部句子向量的余弦相似度，通过Rank计算公式计算出每个词向量的Rank值，并按降序进行排列，按照要求取前k个词作为该段文本的真实标签输出。其Rank值计算公式如下：

其中，w_r和u_r是权重参数，m是一个文本段中句子的个数。

S3、对获取的标签数据进行处理；具体实现方法为：对标签进行统计得到整个数据集的标签集合Lable_Set，对每个标签进行编号，得到标签集合Lable_Set对应的标签编号集合Lable_ID，再通过Lable_ID将数据集中的标签转换为对应的one-hot向量。

S4、建立基于预训练语言模型的多标签分类模型，利用得到的标签数据进行模型训练；多标签分类模型包括依次连接的输入编码层、预训练语言模型层、全连接层和输出层，如图5所示。

输入编码层：将输入转换为神经网络可识别的词向量；

b_c′＝W′b_c

其中W′为全连接层的权值矩阵；

y_t＝softmax(b_c′)。

模型训练具体实现方法为：对多标签分类模型的输出概率分布向量与步骤S3中得到的真实标签的one-hot向量进行交叉熵损失函数计算，其计算公式为：

S5、使用训练好的多标签文本分类模型，对待分类的文本数据进行多标签分类；将预测数据中的文本进行分词、去除停用词后，然后将其输入到训练好的多标签文本分类模型中，进行文本类别的预测。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，包括以下步骤：

S1、对需要分类的训练语料进行预处理；

S2、建立基于统计学方法和语言模型的标签获取模型；标签获取模型包括依次连接的关键词层、输入编码层、预训练语言模型层和相似度分析层：

关键词层：通过统计学方法得到排名靠前的k个关键词；

输入编码层：将输入转换为神经网络可识别的词向量；

相似度分析层：本层是一个全连接层，通过权值矩阵W将通过输入编码层得到的TF-IDF关键词词向量与句子向量映射到相同的向量空间后，进行相似度的计算；

S3、对获取的标签数据进行处理；具体实现方法为：对标签进行统计得到整个数据集的标签集合Lable_Set，对每个标签进行编号，得到标签集合Lable_Set对应的标签编号集合Lable_ID，再通过Lable_ID将数据集中的标签转换为对应的one-hot向量；

2.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，所述步骤S1具体实现方法为：获取需要标注的语料数据集OrgData，并去除停用词，然后得到NewData并保存下来。

3.根据权利要求1所述的基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，所述步骤S4的多标签分类模型包括依次连接的输入编码层、预训练语言模型层、全连接层和输出层；

输入编码层：将输入转换为神经网络可识别的词向量；

预训练语言模型层：采用Google预训练好的语言模型：albert_small_zh_google模型，输出向量为整个语义编码向量b_c；

b_c′＝W′b_c

其中W′为全连接层的权值矩阵；

y_t＝softmax(b_c′)。

4.根据权利要求3所述的基于统计学和预训练语言模型的多标签文本分类方法，其特征在于，所述步骤S4的模型训练具体实现方法为：对多标签分类模型的输出概率分布向量与步骤S3中得到的真实标签的one-hot向量进行交叉熵损失函数计算，其计算公式为：

其中，p，q分别代表多标签分类模型的输出概率分布向量和真实标签的one-hot向量；p(x_i)和q(x_i)分别表示多标签分类模型的输出概率分布向量和真实标签的one-hot向量中第i个元素，n表示向量中元素的总数量；

采用梯度下降法训练该模型的参数，当模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止该模型的训练。