CN110413785B

CN110413785B - 一种基于bert和特征融合的文本自动分类方法

Info

Publication number: CN110413785B
Application number: CN201910675003.8A
Authority: CN
Inventors: 高尚兵; 李文婷; 朱全银; 周泓; 陈晓兵; 相林; 陈浩霖; 李翔; 于永涛
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2021-10-19
Anticipated expiration: 2039-07-25
Also published as: CN110413785A

Abstract

本发明公开了一种基于BERT和特征融合的文本自动分类方法，首先对文本数据进行清洗，通过BERT实现文本到动态字向量的转化，同时利用CNN和BiLSTM来提取文本的特征，将BERT输出的字向量序列分别传给CNN网络和BiLSTM网络；然后将CNN网络的输出和BiLSTM网络的输出拼接在一起，进行特征融合，最后，通过全连接层以及softmax层输出最终的预测概率向量。本发明适用于普遍的有监督文本标签预测问题，可以有效地提高序列信息和局部特征突出的文本数据标签预测的精确度。

Description

一种基于BERT和特征融合的文本自动分类方法

技术领域

本发明涉及监督文本分类及深度学习领域，具体涉及一种基于BERT和特征融合的文本自动分类方法。

背景技术

随着互联网上在线文本信息数据的急剧增加，文本分类在信息处理上起着至关重要要的作用，是处理较大规模文本信息的关键技术，并推动了信息处理朝着自动化的方向发展，文本分类是对文本数据按照一定的分类体系或标准进行自动分类标记。属于一种基于分类体系的自动分类。搭建一个合理的预训练语言模型以及一个下游网络结构可以有效的解决文本分类问题，进而提高预测标签的准确度。

传统的文本分类方法中，大多是基于深度学习方法大部分采用CNN模型或RNN模型来解决文本分类问题，存在这很大的不足，且传统的基于深度学习方法是基于非动态字向量或者词向量来作为输入，字向量或者词向量并不能根据它的上下文去改变，信息涵盖量比较单一。针对这些问题，本发明提出了一种基于BERT和特征融合的文本自动分类方法。

发明内容

发明目的：为了解决现有技术存在的问题，本发明提供一种能提升文本分类任务精度的基于BERT和特征融合的文本自动分类方法。

技术方案：本发明提出一种基于BERT和特征融合的文本自动分类方法，包括如下步骤：

(1)输入一个原始文本数据集T，对文本数据进行预处理，得到文本数据集T′；其中，T＝{t₁,t₂,…,t_a,…,t_len(T)}，len(T)为T中文本内容的数量，t_a为T中第a个文本信息，T′＝{t₁′,t₂′,…,t_b′,…,t_len(T')′}，len(T′)为T′中文本内容的数量，t_b′为T′中第b个文本信息；

(2)对文本数据集T′进行向量化，利用预训练好的BERT模型将T′中的每个文本信息进行tokenization分词，将每个字转化成固定长度的向量，得到的词向量与句子编码和位置编码一起作为特征输入到BERT的双向Transformer当中，得到字向量序列S，其中S＝{s₁,s₂,…,s_e,…,s_len(T')}，其中，s_e是第e个文本的输出向量表示；

(3)对字向量序列S进行两次深度编码，以s_e为例，将步骤(2)得到的s_e分别输入到CNN和BiLSTM模型中，得到两个特征向量F¹和F²；

(4)对F¹和F²两个特征向量进行特征融合得到新的特征向量F³，F³再经过全连接层来实现线性降维，得到F⁴＝{F₁ ⁴,F₂ ⁴,…,F₁₀ ⁴}；

(5)使用softmax层进行概率运算，将步骤(4)得到的F⁴向量作为输入，输入到softmax层中，使得输入向量中的每个实数被映射为0到1之间的实数，并且输出向量中所有实数之和为1，这些实数表示相应种类的概率大小，得到的输出为概率预测向量P＝{p₁,p₂,…,p_f,…,p₁₀},其中，p_f表示该文本为第f类的概率；

(6)模型参数优化，根据步骤(2)至步骤(5)对模型进行编译，采用的损失函数为交叉熵，优化器为adam，指标为准确度；编译完成后，使用带标记的数据对模型进行训练，训练前将所有数据划分训练集、验证集和测试集，训练时保存在验证集上准确度最高的模型；

(7)文本分类预测，利用步骤(6)得到的模型，对待分类的文本进行预测，模型输出一个概率预测向量P＝{p₁,p₂,…,p_f,…,p₁₀}，搜索向量P中的最大数值，并将最大值对应的分类结果作为最终输出，即文本分类的结果Y_out。

步骤(1)所述数据预处理主要包括去重、去乱码、去空。

所述步骤(2)包括以下步骤：

(21)定义T′＝{t₁′,t₂′,…,t_b′,…,t_len(T')′}，其中，t_b′表示T'文本数据集中的第b个文本，将待分类文本内容t_b′统一为固定长度Lmax；

(22)定义i为循环变量，且赋i初值为1，开始循环；

(23)定义len(T')为T′数据集中的文本信息数量，如果i≤len(T′)则跳转到下一步；否则跳转到(28)；

(24)定义len(t_i′)为文本中第i个文本信息的长度，如果len(t_i′)+2≤Lmax则跳转到下一步；否则对文本信息截取前Lmax个单位，且跳转到(25)；

(25)通过建立一个双向预训练语言模型的BERT模型将T′中的每个文本t_i′进行tokenization处理并转化成token的形式，得到token序列T″＝{t₁″,t₂″,…,t_c″,…,t_len(T')″}，其中，t_c″表示第c个文本，t_c″＝{W₁,W₂,…,W_d,…,W_Lmax}，其中，变量c∈[1,len(T′)]，变量d∈[1,len(Lmax)],W_d代表第d个token表示；

(26)将T″中每个文本t_c″中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层，分别得到向量编码V₁、句子编码V₂及位置编码V₃；

(27)将步骤(22)获得的三种不同的输出V₁、V₂和V₃相加，输入到BERT的双向Transformer中，最终的输出来自于最后一层的隐藏层神经元，得到一个字向量序列s_i＝{V(W₁),V(W₂),…,V(W_e),…,V(W_Lmax)}作为BERT模型的输出，其中，V(W_e)代表第e个token的向量表示；

(28)跳出循环，并输出由len(T')个s_i组成的字向量序列S＝{s₁,s₂,…,s_e,…,s_len(T')}。

步骤(3)所述的CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算，然后将得到的多维特征用Flatten层转化成一维特征，得到特征向量F¹，F¹＝{F₁ ¹,F₂ ¹,…,F_k ¹}，其中，k＝98304为CNN第二个池化层输出的神经元数。

骤(3)所述BiLSTM模型BiLSTM模型含有768个隐藏神经元，对输入的字向量序列进行一个序列上的双向运算，得到的输出经过非线性激活层的运算后，作为另一个特征向量F²，F²＝{F₁ ²,F₂ ²,…,F_m ²}，其中，m＝768为BiLSTM隐藏层神经元数。

步骤(6)所述的训练集、验证集和测试集按6：2：2划分。

有益效果：与现有技术相比，本发明的有益效果：本发明实现了在文本分类任务中，使用BERT预训练模型来生成上下文语义信息更丰富的动态字向量，并且通过特征融合的方法将CNN和BiLSTM的优势进行互补，可以提取文本的序列化特征，且对于字词的编码能力较好，达到提升文本分类任务精度的目的。

附图说明

图1为本发明的流程图；

图2为本发明的算法流程图；

图3为CNN网络结构图；

图4为BILSTM网络结构图。

具体实施方式

BERT(Bidirectional Encoder Representation from Transformers，Transformer的双向编码表示)语言模型：BERT利用masked model实现了语言模型的双向性，证明了双向性对语言表示预训练的重要性。BERT模型是真正意义上的双向语言模型，每个词可以同时利用该词的上下文信息。BERT是第一个微调模型在sentence-level和token-level自然语言任务都达到了最好效果。证明了pre-trained representations可以缓解了不同任务对特殊模型结构的设计需求。BERT在11个自然语言处理任务上达到了最好效果。并在BERT的extensive ablations证明了“BERT的双向性”是一个重要的创新。BERT语言模型实现了文本到动态字向量的转化，增强了文本向量的语义信息。

BILSTM模型(双向长短时记忆网络模型)：

长短记忆神经网络——通常称作LSTM，是一种特殊的RNN，能够学习长的依赖关系。LSTM是为了避免长依赖问题而精心设计的。记住较长的历史信息实际上是他们的默认行为，而不是他们努力学习的东西。所有循环神经网络都具有神经网络的重复模块链的形式。在标准的RNN中，该重复模块将具有非常简单的结构，例如单个tanh层。输入层的数据会经过向前和向后两个方向推算，最后输出的隐含状态再进行concat，再作为下一层的输入，原理其实和LSTM是类似的，就是多了双向计算和concat过程，增强了上下文的特征联系的语义信息。

CNN模型(卷积神经网络模型)：

一般的，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率，充分利用卷积神经网络提取局部特征的优势对文本进行特征提取。

下面结合附图对本发明作进一步详细说明。本实施方式中涉及大量变量，现将个变量作如下说明，如表1所示：

表1变量说明表

如图1所示，一种基于BERT和特征融合的文本自动分类方法，包括以下步骤，具体算法如图2所示：

1、输入一个原始文本数据集T，对文本数据进行预处理；其中，T＝{t₁,t₂,…,t_a,…,t_len(T)}，其中，len(T)为T中文本内容的数量，t_a为T中第a个文本信息。具体数据预处理处理步骤如下：进行语句的规范化，若出现字词不规范、句子结构混乱、段落不完整等异常情况，则进行相应的修改或删除，以保证文本内容的正确和规范，最终得到文本数据集T′，T′＝{t₁′,t₂′,…,t_b′,…,t_len(T')′}，其中，len(T′)为T′中文本内容的数量，t_b′为T′中第b个文本信息。

2、对文本数据集T′进行向量化，利用一个预训练好的BERT模型将T′中的每个文本信息进行tokenization分词，将每个字转化成固定长度的向量，得到的词向量与句子编码和位置编码一起作为特征输入到BERT的双向Transformer当中，最终得到一个字向量序列S，其中S＝{s₁,s₂,…,s_e,…,s_len(T')}，其中，s_e是第e个文本的输出向量表示。

步骤2中得到词向量序列的方法为：

(1)定义T′＝{t₁′,t₂′,…,t_b′,…,t_len(T')′}，其中，t_b′表示T'文本数据集中的第b个文本；首先将待分类文本内容t_b′统一为固定长度Lmax。

(2)定义i为循环变量，且赋i初值为1，开始循环。

(3)定义len(T')为T′数据集中的文本信息数量，如果i≤len(T′)则跳转到下一步；否则跳转到(8)。

(4)定义len(t_i′)为文本中第i个文本信息的长度，如果len(t_i′+2)≤Lmax则跳转到下一步；否则对文本信息截取前Lmax个单位，且跳转到(5)。

(5)通过建立一个双向预训练语言模型的BERT模型将T′中的每个文本t_i′进行tokenization处理并转化成token的形式，得到token序列T″＝{t₁″,t₂″,…,t_c″,…,t_len(T')″}，其中，t_c″表示第c个文本，t_c″＝{W₁,W₂,…,W_d,…,W_Lmax}，其中，变量c∈[1,len(T′)]，变量d∈[1,len(Lmax)],W_d代表第d个token表示；

(6)将T″中每个文本t_c″中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层，分别得到向量编码V₁、句子编码V₂及位置编码V₃；

(7)将(2)获得的三种不同的输出V₁、V₂和V₃相加，输入到BERT的双向Transformer中，最终的输出来自于最后一层的隐藏层神经元，得到一个字向量序列s_i＝{V(W₁),V(W₂),…,V(W_e),…,V(W_Lmax)}作为BERT模型的输出，其中，V(W_e)代表第e个token的向量表示；

(8)跳出循环，并输出由len(T')个s_i组成的字向量序列S＝{s₁,s₂,…,s_e,…,s_len(T')}。

3、对字向量序列S进行两次深度编码，以s_i为例，将步骤2得到的s_i分别输入到CNN和BiLSTM模型中。其中，CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算，然后将得到的多维特征用Flatten层转化成一维特征，最终得到一个特征向量F¹，F¹＝{F₁ ¹,F₂ ¹,…,F_k ¹}，k＝98304为CNN第二个池化层输出的神经元数；这里的BiLSTM模型含有768个隐藏神经元，对输入的字向量序列进行一个序列上的双向运算，得到的输出经过非线性激活层的运算后，作为另一个特征向量F²，F²＝{F₁ ²,F₂ ²,…,F_m ²}，其中，m＝768为BiLSTM隐藏层神经元数。

图3为CNN网络结构CNN模型运算的具体方法为：

(1)这里卷积神经网络CNN的输入为s_i，首先经过第一个卷积层，用128个100×5的卷积核对输入s_i进行卷积运算，得到特征f₁；

(2)将上一步得到的f₁输入到激活函数Relu()中，得到输出为f₂计算公式为：

f₂＝max(0,f₁)

(3)将上一步得到的f₂输入到最大值池化层，用1×101的池化核进行步长为1的池化，得到输出为f₃；

(4)重复(1)至(3)将其中部分参数替换：卷积层改用256个1×1的卷积核进行卷积，最大值池化层改用1×1的池化核进行步长为2的池化，最终得到输出为f₄；

(5)使用Flatten层将多维特征f₄压缩为一个一维向量，得到CNN的最终输出为F¹。

图4为BiLSTM网络结构图，BiLSTM模型运算的具体方法为：

(1)这里双向长短期记忆网络BiLSTM的输入为s_i，对输入进行正向和反向的语义信息计算，最终得到与句子长度相同的正向隐层状态序列H_i＝{h_i0,h_i1,…,h_i(n-1)}和反向隐层状态序列H_i′＝{h_i0′,h_i1′,…,h_i(n-1)′}，再将H和H′进行合并得到h_i，具体公式如下：

h_i＝H_i+H_i′

(2)将上一步得到的BiLSTM的输出h_i输入到Leaky Relu激活函数中，得到输出为F²具体公式为：

4、将步骤3得到的两个分别来自于CNN和BiLSTM的F¹和F²特征向量进行融合：首先对这两个特征向量进行拼接得到一个新的特征向量F³＝{F₁ ³,F₂ ³,…,F_l ³}，其中，l＝k+mF³；特征向量再经过全连接层来实现线性降维，维数最终降至10(对应10个预测结果)，得到F⁴＝{F₁ ⁴,F₂ ⁴,…,F₁₀ ⁴}。

5、使用softmax层进行概率运算，将步骤4得到的F⁴向量作为输入，输入到softmax层中，使得输入向量中的每个实数被映射为0到1之间的实数，并且输出向量中所有实数之和为1，这些实数表示相应种类的概率大小，得到的输出为概率预测向量P＝{p₁,p₂,…,p_f,…,p₁₀},其中，p_f表示该文本为第f类的概率。

softmax层运算的具体方法为：

这里的输入为F⁴＝{F₁ ⁴,F₂ ⁴,…,F_f ⁴,…,F₁₀ ⁴}，其中，f∈[1,10]，计算每一个输出的似然值为

最终得到概率预测向量P＝{p₁,p₂,…,p_f,…,p₁₀}。

6、模型参数优化，根据步骤2至步骤5对模型进行编译，采用的损失函数为交叉熵，优化器为adam，指标为准确度。编译完成后，使用带标记的数据对模型进行训练，训练前将所有数据按6：2：2划分训练集、验证集和测试集，训练时保存在验证集上准确度最高的模型。

7、文本分类预测，利用步骤6得到的模型，对待分类的文本进行预测，模型输出一个概率预测向量P＝{p₁,p₂,…,p_f,…,p₁₀}，搜索向量P中的最大数值，并将最大值对应的分类结果作为最终输出，即文本分类的结果Y_out。

为了更好的说明本方法的有效性，通过对3541311条招聘信息文本数据进行清洗，进行语句的规范化，若出现字词不规范、句子结构混乱、段落不完整等异常情况，则进行相应的修改或删除，以保证文本内容的正确和规范。对文本数据进行向量化，利用BERT预训练语言模型将句子中的每个字进行向量化，然后保持每个字在句子中的顺序不变，将每个字映射成一个向量，得到字向量序列。对字向量序列进行两次深度编码，将得到的字向量序列分别输入到CNN和BiLSTM模型中，对两个特征向量进行特征融合，然后通过全连接层以及softmax输出最终的预测标签。改进的文本分类算法进一步提高了分类的准确度，在一共10个标签的文本分类中的精确率、召回率、F1-Score均达到了96％的分类效果。

本发明创造性的提出了一种基于BERT和特征融合的文本自动分类方法。充分利用卷积神经网络提取局部特征的优势以及利用BiLSTM具有记忆的优势将提取的上下文特征联系起来更好地表示文本的语义信息，从而达到提升文本分类任务精度的目的。适用于较大规模文本数据，可以有效地提高序列信息和局部特征突出的文本数据标签预测的精确度。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所做的等同替换，均因包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有的技术。

Claims

1.一种基于BERT和特征融合的文本自动分类方法，其特征在于，包括以下步骤：

(7)文本分类预测，利用步骤(6)得到的模型，对待分类的文本进行预测，模型输出一个概率预测向量P＝{p₁,p₂,…,p_f,…,p₁₀}，搜索向量P中的最大数值，并将最大值对应的分类结果作为最终输出，即文本分类的结果Y_out；

步骤(3)所述的CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算，然后将得到的多维特征用Flatten层转化成一维特征，得到特征向量F¹，

其中，k＝98304为CNN第二个池化层输出的神经元数；具体实现过程如下：

1)卷积神经网络CNN的输入为s_i，首先经过第一个卷积层，用128个100×5的卷积核对输入s_i进行卷积运算，得到特征f₁；

2)将f₁输入到激活函数Relu()中，得到输出为f₂计算公式为：

f₂＝max(0,f₁)

3)将f₂输入到最大值池化层，用1×101的池化核进行步长为1的池化，得到输出为f₃；

4)重复1)至3)将其中部分参数替换：卷积层改用256个1×1的卷积核进行卷积，最大值池化层改用1×1的池化核进行步长为2的池化，最终得到输出为f₄；

5)使用Flatten层将多维特征f₄压缩为一个一维向量，得到CNN的最终输出为F¹；

步骤(3)所述BiLSTM模型BiLSTM模型含有768个隐藏神经元，对输入的字向量序列进行一个序列上的双向运算，得到的输出经过非线性激活层的运算后，作为另一个特征向量F²，F²＝{F₁ ²,F₂ ²,…,F_m ²}，其中，m＝768为BiLSTM隐藏层神经元数。

2.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法，其特征在于，步骤(1)所述数据预处理主要包括去重、去乱码、去空。

3.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法，其特征在于，所述步骤(2)包括以下步骤：

(22)定义i为循环变量，且赋i初值为1，开始循环；

(25)通过建立一个双向预训练语言模型的BERT模型将T'中的每个文本t_i′进行tokenization处理并转化成token的形式，得到token序列T″＝{t₁″,t₂″,…, t_c″,…,t_len(T')″}，其中，t_c″表示第c个文本，t_c″＝{W₁,W₂,…,W_d,…,W_Lmax}，其中，变量c∈[1,len(T′)]，变量d∈[1,len(Lmax)],W_d代表第d个token表示；

4.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法，其特征在于，步骤(6)所述的训练集、验证集和测试集按6：2：2划分。