CN112732916A

CN112732916A - 一种基于bert的多特征融合模糊文本分类模型

Info

Publication number: CN112732916A
Application number: CN202110032293.1A
Authority: CN
Inventors: 梁艳红; 张萌萌; 李欣泽; 刘芃辰
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-04-30
Anticipated expiration: 2041-01-11
Also published as: CN112732916B

Abstract

本发明为一种基于BERT的多特征融合模糊文本分类模型，该方法包括以下内容：准备模糊文本分类原始数据集；构建BERT_MFFM模型，BERT_MFFM模型包括BERT模型、卷积神经网络、双向长短记忆网络、Self‑Attention模块，BERT模型的输入为模糊文本，BERT模型的输出分别连接卷积神经网络、双向长短记忆网络、Self‑Attention模块，分别提取模糊文本的局部特征、句子语义特征和句法结构特征；BERT模型的输出同时与双向长短记忆网络的输出拼接在一起，然后使用最大池化操作筛选出最优句子语义特征；采用并行拼接的方式将局部特征、最优句子语义特征和句法结构特征进行融合，融合结果经SoftMax函数进行模糊文本分类，至此完成BERT_MFFM模型的构建。解决特征获取不全面问题，以提高分类的准确率。

Description

一种基于BERT的多特征融合模糊文本分类模型

技术领域

本发明的技术方案涉及自然语言处理技术领域，具体说是一种基于BERT的多特征融合模糊文本分类模型。

背景技术

随着网络技术的发展，信息成爆炸式增长，尤其是文本数据。客观世界中包含大量的文本信息，比如期刊文献、时事新闻、电子邮件、短信、聊天信息，以及电子书籍等。由于汉语文本的多样性和复杂性，内容交叉、内容相近、类别间相似度较高、界限不明确的模糊文本也大量增加。在海量的文本信息中，如何高效管理和分析大量模糊文本，并能从中快速获取有效信息成为文本分类领域的一项重要任务。

在文本分类中文本表示和特征提取是文本分类的两大难点，直接影响分类结果。文本表示是自然语言处理(Natural Language Processing，NLP)的核心，其将文本语义转换成具有隐性表征的向量，便于计算机理解。特征提取将高维数据转换为低维数据表示，这个过程中筛去重复、噪声和最不重要的特征来减少特征的数量，并进一步选择最有利的特征。

目前在普通文本分类研究中，深度学习的神经网络被广泛应用。在基于深度学习的文本分类中先将文本进行分词，使用Word2vec模型对文本进行文本表示,再使用神经网络进行特征提取和分类。这种文本表示方法，舍弃了文本中大量的位置信息，只考虑了文本的局部信息，未结合文本整体信息，不能表达出文本的完整语义。李洋和董红斌(李洋,董红斌.基于CNN和BiLSTM网络特征融合的文本情感分析[J].计算机应用,2018,38(11):3075-3080.)提出一种CNN和BiLSTM融合模型，融合模型使用Word2vec对文本进行向量表示，利用CNN提取文本向量的局部特征，BiLSTM提取文本上下文相关的句子语义特征，将两种互补模型提取的特征进行融合，以提升文本分类的准确率，然而使用Word2vec模型进行文本表示之前，必须将文本先进行分词处理，舍弃了大量位置信息，Word2vec模型通过将文本映射到向量空间进行文本表示。故此，语义相同的词将被映射到向量空间中相同的位置，得到具有相同数值的文本向量，不能解决不同语境或同一语境下的多义性问题。BiLSTM可以很好的提取文本句子语义特征，却忽略了两个上下文之间的交互信息，导致语义损失。因此针对模糊文本分类而言，上述的方式并不能适用。

故此，文本提出一种基于BERT的多特征融合模糊文本分类模型，消除了模糊文本的二义性、多义性，补充了BiLSTM所忽略的上下文之间的交互信息，并使用Self-Attention学习句子的内部结构获取句法特征。

发明内容

为实现对模糊文本更加精确的分类，解决模糊文本分类中存在的语义理解不充分、特征获取不全面的问题，本文提出一种基于BERT的多特征融合模糊文本分类模型(Multi-feature Fusion Fuzzy Text Classification Model Based On BERT,BERT_MFFM)。该模型使用BERT语言框架对模糊文本进行文本表示，生成动态词向量提升文本的表征能力；在下游分类任务中，利用CNN、BiLSTM和Self-Attention的分别提取关键字符特征、句子语义特征、句法结构特征，并将BERT训练出的动态词向量做为补充信息增强句子语义特征，得到更加完善的句子语义特征。融合关键字符特征、句子语义特征和句法结构特征得到多维特征，解决特征获取不全面问题，以提高分类的准确率。

本发明的技术方案为：一种基于BERT的多特征融合模糊文本分类模型，具体包括以下步骤：

S1：准备模糊文本分类原始数据集；

S2：将原始数据集按6：1：1比例分为训练集、验证集和测试集；

S3：将模糊的文本输入到BERT模型中经多层双向Transfomer编码器训练，得到结合上下文语境的动态词向量；

S4：卷积神经网络、双向长短记忆网络、Self-Attention中同时输入动态词向量，使用卷积神经网络、双向长短记忆网络、Self-Attention中学习文本深层特征，以提取模糊文本的局部特征、句子语义特征和句法结构特征；

S5：将步骤S3中得到的动态词向量同时作为补充信息以增强句子语义特征，并筛选出最优句子语义特征，即最优全局特征；

S6:采用并行拼接的方式将局部特征、最优全局特征和句法结构特征进行融合；

S7:使用SoftMax函数对文本分类结果进行预测，获得训练好的BERT_MFFM模型；

S8:将待分类的模糊文本输入到训练好的BERT_MFFM模型中，实现模糊文本的分类。

本发明的有益效果是：

(1)利用BERT的双向Transformer编码器对模糊文本进行文本表示，得到文本的双向编码表示，训练出结合上下文语境的动态词向量，使同一个词在不同的上下文语境中具有不同表达，提升了词向量的表征能力，消除了模糊文本的多义性。

(2)在下游分类任务中，利用CNN、BiLSTM的优势分别提取字符级和句子特征(关键字符特征、句子语义特征)，并将BERT训练出的动态词向量作为句子语义特征的补充，然后，使用最大池化操作筛选得到最优句子语义特征。BERT模型训练的词向量不仅可以消除文本的多义性，其本身也是文本对句子层面的向量表示，因此，本文所提模型将BERT训练出来的词向量与BiLSTM所输出的句子语义特征相结合，补充了BiLSTM所忽略的上下文之间的交互信息，使句子语义特征增强，利于后期分类精度的提高。

(3)使用Self-Attention学习句子的内部结构，提取模糊文本中复杂的句法结构特征。最后，将关键字符特征、最优句子语义特征和句法结构特征融合，获得更加丰富、全面的特征。

本发明的优点是：本发明首次将BERT模型用于模糊文本分类，以BERT模型为基础进行模糊文本分类，在具有更多语义信息的动态词向量上进行学习，提取局部特征、句子语义特征、句法结构特征，并使用动态词向量弥补句子语义特征缺乏的上下文交互信息。将得到的多特征进行融合，得到更加丰富的多维特征。本申请BERT_MFFM模型在模糊文本分类中的准确率为79.41％，优于在BERT模型上使用单一神经网络模型，证明所提模型的优势。

本申请BERT_MFFM模型中BERT模型能与下游的神经网络连接，将BERT模型的输出维度与下游神经网络的输入维度调为一致，提高模型的适用性及精度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

图1为本发明实施例中一种基于BERT的多特征融合模糊文本分类模型结构图；

图2为本发明实施例中一种基于BERT的多特征融合模糊文本分类模型流程图；

图3为本发明实施例中BERT模型结构图。

具体实施方式

为了更加清晰的阐述本发明的技术方案，下面结合附图及实例，对本发明进一步详细描述。本发明的实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

本发明实施例一种基于BERT的多特征融合模糊文本分类模型的结构图如图1所示，具体实施步骤如下：

S1：从知网上整理相近论文的摘要，进行数据预处理后作为模糊文本分类数据集。

在一个大类别(相同主题下)找属于该大类别下的相近的小类，每个小类的数量差不多相等，不同小类间样本数量差异不超过10％，每个小类约8000条；

本文从知网(CKNI)同一个大类别(信息科技)下整理20000篇相近文本的摘要，进行数据预处理后得到8万条模糊文本作为本实验的数据集。文本类别包含：电子计算机、微型计算机、操作系统、数据库原理、软件工程、程序语言、计算机的应用、应用软件、编译程序、无线电电子十小类。

S2：将S1中整理的数据集按照6:1:1比例分为训练集、验证集和测试集。

S3：将模糊文本在词嵌入层使用BERT将文本进行向量表示，得到含有位置信息的动态词向量[T₁，T₂，...，T_n]。BERT模型结构如图3所示，其中，Input层为模糊文本，TokenEmbedding为令牌嵌入、Segment Embedding为分段嵌入、Position Embedding为位置嵌入；Tansformer层中含有多个Trm，Trm为Transformer编码器，Output层中[T1,T2,...,Tn]为BERT模型输出的动态词向量，步骤S3的实现过程为：

S3.1：Tansformer层的输入是令牌嵌入(Token Embedding)、分段嵌入(SegmentEmbedding)和位置嵌入(Position Embedding)的总和，通过结合位置向量和词向量，引入每个词的位置信息。

S3.2：BERT中的Transformer层利用Multi-HeadAttention多头注意力关注来自不同位置的不同表征子空间的信息，得到完全基于上下文信息的文本表示。其计算公式如公式(1)，(2)，(3)所示。

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_h)W^o (1)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (2)

其中，W^O是附加权重矩阵，W_i ^Q,W_i ^K,W_i ^V分别是Q,K,V的权重矩阵。Q,K,V分别表示输入序列中每个词的索引query、键key和值value向量，d_k表示每个词的索引query和键key向量的维度，SoftMax为归一化函数；Multi-Head即多头的Self-attention，Attention为Self-attention，head_i即表示控制几个Self-attention，i表示注意力头数，本实施例中共12头；

S4：卷积神经网络(CNN)通过卷积运算提取文本的N-gram特征，得到句子的关键字符特征。

将输入CNN的动态词向量结合成输入矩阵[X₁，X₂，...，X_n]，在卷积层利用多个不同大小的卷积核从多角度对语义信息进行提取，生成多个特征向量C[C1,C2..,C_n-F+1]，每个卷积核计算局部特征的公式如公式(4)所示。

C_j＝f(w·x_j:j+F-1+b) (4)

其中,W是卷积层的矩阵，f是个非线性函数，b是个偏执常量，X_j:j+F-1为卷积窗的文本局部特征矩阵，F是指滤波器的窗口大小，其作用在X_j到X_j+F-1上，计算得到特征C_j，n指动态词向量的个数，j为1～n的整数。

S5：双向长短记忆网络(BiLSTM)提取含有上下文信息的句子语义特征。

BiLSTM的隐藏层为2，由正向和反向两个LSTM组成，每个LSTM中隐藏单元的数量为768，BiLSTM构建的句子语义特征I_wst，由正向LSTM输出的隐层状态序列

与反向LSTM输出的隐层状态

进行拼接而成。如公式(5)、(6)、(7)所示。

双向长短记忆网络的输入为步骤S3输出的动态词向量，输出为句子语义特征；

同时将步骤S3由BERT预训练得到的动态词向量作为补充信息与BiLSTM的输出向量进行拼接以增强句子语义特征，即将动态词向量与句子语义特征进行拼接，然后使用最大池化操作筛选出最优句子语义特征；

将步骤S3中的动态词向量作为Self-Attention自我注意力模块的输入，学习句法结构特征，如公式(3)，具体过程是：

1)将步骤S3中的动态词向量通过线性变化得到查询Q、键K和值V三个矩阵；

2)将查询Q矩阵中的元素索引query和键K矩阵中的元素key利用点积函数进行相似度计算得到权重。

3)将使用softmax函数对权重进行归一化；

4)将权重和值V矩阵中相应的键值value进行加权求得最后的特征。

S6：采用并行拼接的方式将关键字符特征、最优句子语义特征和句法结构特征进行融合，得到具有关键字符信息、句子语义信息和句法结构信息的多维特征。

S7：使用SoftMax函数对连接层进行归一化，其将神经元的输出映射到(0，1)区间，并选择概率值最大的类作为预测结果，获得训练好的BERT_MFFM模型。

选定精度(Precision)、准确率(Accuracy)、召回率(Recall)、F1-分数(F1 score)等性能指标作为评价标准，其计算公式如下：

其中，TP为将正确类预测为正确类的个数；TN为正确识别到不属于该类的样本总数；FP为被误分到该类的样本总数；FN属于此类但被分到其他类的样本总数。

将整理好的数据输入到训练好的BERT_MFFM模型中，实现模糊文本的分类，并与其它网络模型进行比较，采用上述的评价指标进行评价。

BERT_MFFM模型各部分参数如表1所示。

表1 BERT_MFFM模型各部分参数

实验所用服务器为Linux操作系统，内存为32G。集成开发环境为python3.7(64位)，Pytorch1.1框架，CPU为Intel(R)Xeon(R)W-2123CPU@3.60GHz。

将分类结果与以BERT模型和Word Embedding分别做文本表示，单一卷积神经网络(CNN)、双向长短记忆网络(BiLSTM)、深度金字塔卷积神经网络(Deep PyramidConvolutional Neural Networksfor Text Categorization，DPCNN)作为分类器和本申请BERT_MFFM模型的实验结果进行对比。实验结果如表2所示。

表2实验对比结果

如表1所示，以BERT模型作为文本表示模型比传统的Word Embedding相比，各个分类模型的准确率都大有提升，说明了本文选用BERT模型作为文本表示模型的正确性。BERT_CNN准确率相比与BERT模型和BERT_DPCNN模型的精确率分别高0.97％和0.72％，说明使用卷积神经网络提取动态词向量中的特征对模糊文本分类是有效的且优于深度卷积神经网络，同时也证明了使用卷积神经网络提取关键字符特征的正确性。BERT_BiLSTM的分类效果较BERT模型较低，说明在长短记忆网络提取句子语义特征时，忽略了某些语义特征，故本文提出的BERT_MFFM模型将BERT预训练的词向量与BiLSTM提取的句子语义特征结合，以补充Bi'LSTM所忽略的信息。

表1的数据表明，相比于四种经典的文本分类算法，BERT_MFFM在模糊文本数据集上表现良好的性能。BERT_MFFM模型在准确率、精度、召回率、F1-Score四项评价指标都优于BERT_CNN模型、BERT_BiLSTM模型和BERT模型，表明BERT_MFFM增强了BiLST M所提取的句子语义特征且解决了CNN本身忽视的文本上下文语义问题，能提取文本的更全面的上下文特征和局部语义特征，比单一的提取上下文特征模型或提取局部语义特征模型能更好地进行文本分类。

本发明BERT_MFFM模型在模糊文本分类上的应用，其准确率、精度、召回率、F1-Score均能达到79％以上，效果显著。

本发明未述及之处适用于现有技术。

Claims

1.一种基于BERT的多特征融合模糊文本分类模型，该方法包括以下内容：

准备模糊文本分类原始数据集，将原始数据集分成训练集、验证集和测试集；

构建BERT_MFFM模型，BERT_MFFM模型包括BERT模型、卷积神经网络、双向长短记忆网络、Self-Attention模块，

BERT模型的输入为模糊文本，BERT模型的输出分别连接卷积神经网络、双向长短记忆网络、Self-Attention模块，分别提取模糊文本的局部特征、句子语义特征和句法结构特征；BERT模型的输出同时与双向长短记忆网络的输出拼接在一起，然后使用最大池化操作筛选出最优句子语义特征；

采用并行拼接的方式将局部特征、最优句子语义特征和句法结构特征进行融合，融合结果经SoftMax函数进行模糊文本分类，至此完成BERT_MFFM模型的构建。

2.根据权利要求1所述的模糊文本分类模型，其特征在于，所述BERT模型包括模糊文本输入层Input，令牌嵌入层、分段嵌入层、位置嵌入层、Transformer层、输出层Output；Tansformer层中含有多个Trm，Trm为Transformer编码器，BERT模型输出的动态词向量为[T1,T2,...,Tn]；

Tansformer层的输入是令牌嵌入、分段嵌入和位置嵌入的总和，通过结合位置向量和词向量，引入每个词的位置信息；

Transformer层利用Multi-HeadAttention多头注意力关注来自不同位置的不同表征子空间的信息，得到完全基于上下文信息的文本表示。

3.根据权利要求2所述的模糊文本分类模型，其特征在于，BERT模型中隐含单元数量为768，学习率为5e^-5，每句话处理长度为64字符，批处理大小为64，Dropout随机失活率为0.1，迭代次数为5。

4.根据权利要求1所述的模糊文本分类模型，其特征在于，卷积神经网络通过卷积运算提取文本的N-gram特征，得到句子的关键字符特征，在卷积层利用多个不同大小的卷积核从多角度对语义信息进行提取，生成多个特征向量；优选，卷积核的大小依次为3、4、5，动态词向量依次经过这三个卷积核大小的卷积层，每层卷积核的数量为256，经最大池化操作输出局部特征。

5.根据权利要求2所述的模糊文本分类模型，其特征在于，双向长短记忆网络的隐藏层为2，由正向和反向两个LSTM组成，每个LSTM中隐藏单元的数量为768，BiLSTM构建的句子语义特征I_wst，由正向LSTM输出的隐层状态序列

与反向LSTM输出的隐层状态

进行拼接而成，双向长短记忆网络的输入为BERT模型输出的动态词向量，输出为句子语义特征。

6.根据权利要求1所述的模糊文本分类模型，其特征在于，所述Self-Attention模块的输入为动态词向量，输出为句法结构特征，具体过程是：

1)将BERT模型输出的动态词向量通过线性变化得到查询Q、键K和值V三个矩阵；

2)将查询Q矩阵中的元素索引query和键K矩阵中的元素key利用点积函数进行相似度计算得到权重；

3)将使用softmax函数对权重进行归一化；

4)将权重和值V矩阵中相应的键值value进行加权求得最后的特征，即为句法结构特征。

7.根据权利要求1所述的模糊文本分类模型，其特征在于，所述原始数据集的制作是，在一个大类别找属于该大类别下的相近的小类，每个小类的数量相近，每个小类的数量为7000条以上，构成模糊文本分类用的原始数据集。

8.根据权利要求1所述的模糊文本分类模型，其特征在于，训练集、验证集和测试集中样本数量之比6：1：1。

9.根据权利要求1所述的模糊文本分类模型，其特征在于，BERT_MFFM模型的准确率、精度、召回率、F1-Score均能达到79％以上。