CN113342970B

CN113342970B - 一种多标签复杂文本分类方法

Info

Publication number: CN113342970B
Application number: CN202011328247.8A
Authority: CN
Inventors: 王志鹏; 孙力泽; 朱西华; 邓强
Original assignee: China Telecom Wanwei Information Technology Co Ltd
Current assignee: China Telecom Wanwei Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2023-01-03
Anticipated expiration: 2040-11-24
Also published as: CN113342970A

Abstract

本发明涉及的技术领域为人工智能领域，具体是一种基于Bert对多标签复杂文本分类方法。本发明旨在解决文本在数量多的情况下且类别复杂的文本分类问题。方法步骤包括：a）利用Bert提取文本信息;b）将Bert提取出来信息分别放入Attention和Cnn两个层中继续做特征提取;c)根据结果进行迭代学习。在海量的信息中挑出有效的信息,利用模型提取出其中信息并进行准确分类。

Description

一种多标签复杂文本分类方法

技术领域

本发明涉及的技术领域为人工智能领域，具体是一种基于Bert对多标签复杂文本分类方法。

背景技术

信息爆炸式的发展，人对于无限的信息接收程度是有限的,如何在海量的信息中挑出有效的信息,这就是本发明要解决的问题。文章、短新闻、一句话等等都有其信息，该信息可能是有用的，可能是无用的，也可能隐含着其他信息，如何利用模型提取出其中信息并进行准确分类，这就是急需解决的问题。

深度学习之前常用的方法是通过“关键词词频计算”，“重复出现的句子”等作为辅助来对文本进行分类，这样在某种情况下可以达到很好的分类效果,但是对于专业类文本等是不合理的，因为人在判断这篇文章是否属于哪一类时，是通过意思去理解得出的结论，当然通过上述方法去判断类别是一种高效的方法和简单的策略，但是如果出现歧义问题就无法准确的进行分类，那么这就需要能提取较多信息的模型来帮我们解决该类问题。

基于自然语言处理的Bert模型进行展开。一种基于Bert对多标签复杂文本分类方法。Bert模型与2018年提出，一经提出就在11个NLP任务上刷新了之前的记录，这种现象级表现引爆了自然语言处理行业，成为NLPer必用的工具之一。

Bert模型也就是Transformer的Encoding(编码)部分,Encoding部分的工作原理是把输入到模型的句子进行信息提取,分别提取出原句子字的位置信息部分,段落的位置信息部分，再加上句首的CLS类别标记，两句话之间的SEP句子分割符，通过此数据构造就可以提取出句子级或文章级的信息，接着就可以进行多种NLP下游任务。Bert的损失函数如下：Loss = x - x * z + log（1 + exp（-x））/ n。x:预测值概率、z:真实值、n:样本数量。

现有技术缺陷主要在于以下几个方面：1.数据标注的是否准确，标注人是否按照培训时的要求去做，这个会影响到最后模型的效果。2.需要强劲的硬件支撑，训练费时耗力。

发明内容

本发明的目的旨在解决复杂多类别文本的分类问题，解决人工误分问题，提高工作效率。

一种多标签复杂文本分类方法，其特征在于包括如下步骤：

数据来源于互联网督查平台的留言，将留言处理成bert模型输入的格式， bert标准模型在输入时需要同时输入两个句子，每次只输入一个句子来进行接下来的任务；把数据分别处理成字的高阶向量Token Embeddings,其中CLS是该段句子的类别, SEP是句子结尾处的标记；段落信息的高阶向量Segment Embeddings,数据放入多头注意力机制Mutilate-Head Attention，首先会有q，k，v三个矩阵，这三个矩阵即输入的输入段落转化的高阶向量Input Embedding，三个矩阵分别做随机初始化，q和k矩阵相乘，q*k得出结果r1;得到的结果除以

，其中64为每个头的隐层深度，得到结果r2=r1/

；然后将上步结果带代入公式中

，其中

是第i个节点的输出值，C为节点的个数，∑为连加符号,e是一个无理数，约为2.718281828。得到概率值

，最后得到结果r3=p1*v，多头机制出现的结果r3先进入神经网络得出结果再和未做任何操作的Input Embedding做残差连接，即r3通过concat操作处理Input Embedding，得到r4；

将上述结果在接入到相同的神经网络中得出结果r5=f(wx+b),f为激活函数W为神经网络参数，x为输入值，b为偏置项；

此步结果和上步结果再做残差连接，r5与r4最后再做层归一化layer_normal得到最终输出，将上述步骤重复操作12次。

所述bert模型输出结果分别投入到attention和cnn这两个模块中做信息抽取；cnn模块主要做卷积工作,对bert模型最后一层的输出结果进行信息的不断提取，通过CnnBlock模块通过重复做卷积的方式进行信息抽取，最终的信息用Max pooling和MeanPooling的Concat结果作为信息提取的输出。

本发明旨在解决文本在数量多的情况下且类别复杂的文本分类问题。方法步骤包括：利用Bert提取文本信息、将Bert提取出来信息分别放入Attention和Cnn两个层中继续做特征提取、根据结果进行迭代学习。在海量的信息中挑出有效的信息,利用模型提取出其中信息并进行准确分类。

附图说明

图1为本发明的流程示意图；

图2为本发明处理数据示意图；

图3为本发明数据投入到bert模型示意图；

图4为本发明数据信息抽取示意图；

图5为本发明的模块流程示意图。

具体实施方式

一种多标签复杂文本分类方法，其特征在于包括如下步骤：

，其中64为每个头的隐层深度，得到结果r2=r1/

；然后将上步结果带代入公式中

，其中

是第i个节点的输出值，C为节点的个数，∑为连加符号,e是一个无理数，约为2.718281828，节点处e为

。得到概率值

，最后得到结果r3=p1*v，多头机制出现的结果r3先进入神经网络得出结果再和未做任何操作的Input Embedding做残差连接，即r3通过concat操作处理InputEmbedding，得到r4；

其中图1包括如下：

处理数据——将准备好的20类数据，数据来源于互联网督查平台的群众留言，将留言处理成bert模型输入的格式，正常来说，bert标准模型在输入时需要同时输入两个句子，但是我们这回是分类问题，所以每次只输入一个句子来进行接下来的任务。

如图2所示,把数据分别处理成Token Embeddings(字的高阶向量),其中[CLS]是该段句子的类别,[SEP]是句子结尾处的标记;Segment Embeddings(段落信息的高阶向量)，存在的意义就在于分辨该句属于哪一句;Position Embedding(字位置的高阶向量)，其主要的目的在于确定字的位置信息，保证输入的顺序。还要加入attention_mask(注意力掩码机制),这个掩码机制的作用就是增加字与字之间的联系，这个掩码shape=[batch_size,seq_length,seq_length],seq_length为序列长度,这个矩阵后两位为相同数值的意义在于,让序列中的每个字相互之间存在存在联系,而不是单单只与较近的字存在联系。

就本案例来说本质上做的是分类任务，只需要一句或者一段文字进行描述就可以了，其次作为有监督学习，就需要相应的文本标签，所以label=【CLS】。除了这些信息外，我们还需要确定这段文字是属于哪一段，所以需要Segment Embeddings的存在。当然最重要的就是字的位置信息，因为一段话是有顺序的，如果不幸顺序被打乱了，那么就无法得知这段话表达的正确含义，所以Position Embedding是至关重要的，让机器知道这段文字是以何种顺序进行输入的，同时也为了模型输出时，预测结果将以何种顺序输出做了铺垫。

由于今年关于疫情的话题较多，且疫情期间发生的事情不能简单的归为一类，经过人工筛选后，将疫情问题划分为20个小类，每个类别为了数据尽量的均衡，我采用了同义词进行了数据的增量，保证了样本均衡。

将数据投入到bert模型中——数据处理完毕，输入到模型中,模型的结构如图4，数据放入Mutilate-Head Attention(多头注意力机制)，多头注意力运作的机制是这样的，首先会有q，k，v三个矩阵，这三个矩阵即输入的Input Embedding(输入段落转化的高阶向量)，不同的是，三个矩阵分别做了随机初始化,让本来三个相同的矩阵稍显不同。

“我是谁”--> Input Embedding,将文字转化为高维向量

q,k,v --> Input Embedding做随机初始化的结果

在Mutilate-Head Attention(多头注意力机制)中每个Head主要做了这几件事:

q和k矩阵相乘，q*k得出结果r1;

得到的结果除以

（64为每个头的隐层深度），得到结果r2=r1/

;

然后将上步结果带到softmax中

，其中

是第i个节点的输出值，C为节点的个数，得到概率值p1*v矩阵相乘得到结果r3;

多头机制出现的结果r3先进入神经网络得出结果再和未做任何操作的InputEmbedding做残差连接，即r3+Input Embedding（“+”为concat操作），得到r4;

将上述结果在接入到相同的神经网络中得出结果r5=f(wx+b),f为激活函数，W为神经网络参数，x为输入值，b为偏置项。此步结果和上步结果再做残差连接，r5+r4最后再做layer_normal得到最终输出。以上步骤重复12次。

如图4所示把bert模型输出结果分别投入到attention和cnn这两个特定模块中做信息的进一步抽取，

cnn模块:如上图4所示,该模块主要做卷积工作,对bert模型最后一层的输出结果进行信息的不断提取。尤其是Cnn Block模块通过重复做卷积的方式进行信息抽取，最终的信息用Max pooling和Mean Pooling的Concat结果作为信息提取的输出。

工作流程:

输入为bert模型最后一层的结果,先做一次卷积，f1 = wx+b；

卷积后做batch normalize操作,然后再加上一个bias，f2 = batch_f(f1+b)；

再做激活得到的结果放入CnnBlock中进行多轮卷积操作,f3 = [i*(f(f2)) fori in times]；

将卷积后的结果和CNNBlock的结果做残差连接,f5 = f4+Output2；

取该结果的Mean pooling和Max pooling然后相加作为最后的输出结果。f6 =Mean(f5) + Max(f6)；

attention模块:该模块的目的很明确，保证全面性。模块输入是Bert模型的最后一层结果和首个位置的信息，既[CLS]。Cnn模块抽取的是整个的信息，attention模块的目的就是找到字与字之间的信息，这样有了两种信息，信息就会更全面，让分类效果更好。

模块流程如下:

输入为Bert模型最后一层的结果和第一个位置的结果即[CLS]；

先做一次tanh的激活,L1 = tanh(last_layer_result)；

激活后做一次卷积后再softmax一下得到各个字的概率α = softmax(f(w*L1+b))；

该权重再和最后一层的输出结果相乘；

再进入卷积提取最终的信息；

求损失,继续迭代学习。

名词解释

BatchSize:即批量大小，每次训练传入模型的数据数量；

Dropout：即随机失效，防止过拟合的常见方法；

Adam：即一种优化算法，基于训练数据迭代地更新模型权重；

Tanh：双曲正切，神经网络的激活函数；

Relu：即修正线性单元，常用在神经网络激活层；

Encoding:解码部分；

Mutilate-Head Attention:多头注意力机制；

随机初始化：对参数选取初始值；

Max pooling：保留卷积中的最大特征值，抛弃其他特征值；

Mean pooling：取特征值的平均值作为池化后的特征值；

Attention: 注意力机制；

Cnn: 卷积神经网络；

layer_normal：层归一化；

Concat: 拼接,将两种不同的信息组合到一起,成为复合信息。

Claims

1.一种多标签复杂文本分类方法，其特征在于包括如下步骤：

数据来源于互联网督查平台的留言，将留言处理成bert模型输入的格式，bert标准模型在输入时需要同时输入两个句子，每次只输入一个句子来进行接下来的任务；把数据分别处理成字的高阶向量Token Embeddings,其中CLS是该段句子的类别, SEP是句子结尾处的标记；段落信息的高阶向量Segment Embeddings,数据放入多头注意力机制Mutilate-Head Attention，首先会有q，k，v三个矩阵，这三个矩阵即输入的输入段落转化的高阶向量Input Embedding，三个矩阵分别做随机初始化，q和k矩阵相乘，q*k得出结果r1;得到的结果除以

，其中64为每个头的隐层深度，得到结果r2=r1/

；然后将上步结果带代入公式中

，其中

是第i个节点的输出值，C为节点的个数，∑为连加符号,e是一个无理数，约为2.718281828；得到概率值

，最后得到结果r3=p1*v，多头机制出现的结果r3先进入神经网络得出结果再和未做任何操作的InputEmbedding做残差连接，即r3通过concat操作处理Input Embedding，得到r4；

2. 根据权利要求1所述的一种多标签复杂文本分类方法，其特征在于所述bert模型输出结果分别投入到attention和cnn这两个模块中做信息抽取；cnn模块主要做卷积工作,对bert模型最后一层的输出结果进行信息的不断提取，通过Cnn Block模块通过重复做卷积的方式进行信息抽取，最终的信息用Max pooling和Mean Pooling的Concat结果作为信息提取的输出。