CN114510569A

CN114510569A - 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

Info

Publication number: CN114510569A
Application number: CN202210030824.8A
Authority: CN
Inventors: 陈晓兵; 康丽; 卢佳琪; 包涵; 张润; 张冰莹
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-17

Abstract

本发明公开了一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，首先对文本数据进行文本预处理；然后，对词语进行注意力机制处理，提取单词和子序列的信息依赖关系；与此同时，基于改进ChineseBERT预训练模型进行拼音信息和字符信息的提取；之后对拼音信息和字符信息进行矩阵融合，同时加上位置信息，保持上下文语义的完整性，通过经典的Bert模型进行处理，使用参数共享机制，得到最终的信息特征向量；对得到的上下文语义向量和信息依赖关系向量融合，作为CNN的输入，得到最终的化工新闻分类结果。本发明充分优化了文本的拼音字符语义信息；提取词语的依赖关系和局部依赖关系的问题；通过Bert模型参数共享机制降低时间复杂度的问题，有效的提高文本分类的精确度。

Description

基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

技术领域

本发明属于文本分类和自然语言处理技术领域，具体涉及一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法。

背景技术

ChineseBERT模型主要是融合字形与拼音信息的中文预训练模型，模型将字符嵌入(char embedding)、字形嵌入(glyph embedding)和拼音嵌入(pinyin embedding)进行拼接起来；然后通过融合层，得到一个d维融合嵌入(fusion embedding)；最后将其与位置嵌入(position embedding)、片段嵌入(segment embedding)相加，形成Transformer-Encoder层的输入。由于预训练时没有使用NSP任务，因此模型结构省略了片段嵌入(segment embedding)。

MLP多层感知机，也叫做人工神经网络，除了输入输出层，它中间可以有多个隐层，最简单的MLP只含一个隐层，即三层的结构，多层感知机层与层之间是全连接的。多层感知机最底层是输入层，中间是隐藏层，最后是输出层。

Attention机制就是对输入的每个元素考虑不同的权重参数，从而更加关注与输入的元素相似的部分，而抑制其它无用的信息。其最大的优势就是能一步到位的考虑全局联系和局部联系，且能并行化计算，这在大数据的环境下尤为重要的。

在面对新闻文本分类问题的时候，研究者们会选择将语句相似度、神经网络等融入到文本分类中，忽略了文本数据训练时的时间复杂度，中文字符拼音信息，深层次文本特征的提取问题以及对应数据的语义信息。因此，通过改进ChineseBERT预训练模型的架构和共享Bert模型的参数，来提高模型的鲁棒性和降低时间复杂度，同时结合连级注意力机制得到字符到子序列上下文特征信息，从而解决中文化工突发事件新闻文本分类的问题，进而提高文本分类的准确度。

现有的文本分类方法中，有的只关注分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度，没有考虑文本信息的实体特征信息；有的只关注主题语义特征，没有考虑文本的全局特征信息。也有的方法主要是进行特征的简单提取，没有考虑使用预训练模型，还有长依赖项的关系。

在面对化工突发事件新闻文本分类问题时，已有论文主要基于传统的特征提取方法和主题识别方法，其次基于深度神经网络分类模型等，但是关于文本分类还有很多的问题有待解决：化工新闻信息在训练时的时间复杂度、空间复杂度和模型的鲁棒性问题；特征提取的信息不能充分的刻画文本的全文信息，有些语义是不同的，例如同字异义的，全局的上下文信息不够全面现象；对于ChineseBERT这个中文预训练模型，在预训练时候，对于字形信息，需要通过不同的字体的实例化图像进行处理，之后还需要进行识别学习和扁平化操作，占用很多的空间复杂度；并且模型是从头训练，在向量层需要，但是在transformer-encoder层也是从头训练，导致时间复杂度增加。

发明内容

发明目的：针对现有技术中存在的问题，本发明提出一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，能够多层面精确刻画文本数据特征，通过改进ChineseBERT模型的架构，即抽取拼音向量和字符向量来进行融合，之后加入位置向量进行整合，输入到Bert模型中进行训练，其中的Bert参数实行共享，降低时间复杂度，解耦属于同一字符形式的不同语义，同时使用连级注意力机制来增进上下文特征信息，来弥补传统新闻文本特征信息丢失问题，提高化工突发事件新闻实际应用效率，实现准确的文本分类。

技术方案：本发明提出一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，具体包括以下步骤：

(1)将化工突发事件新闻文本数据D进行文本预处理，得到新闻文本数据D1；

(2)通过word2vec模型处理化工突发文本数据D1，得到文本特征向量R1，将词向量R1输入到Word Attention模型中，得到新的词依赖特征信息H1，再将词依赖特征信息H1输入到Seq Attention模型，得到子序列特征信息H2；

(3)通过对文本数据D1进行开源拼音包处理，得到对应的拼音序列，之后输入到MLP，经过最大池化层输出拼音向量H3，对预处理后的文本进行one-hot编码，得到字符向量H4，与拼音向量H3进行矩阵化嵌入，得到2维矩阵向量R3；

(4)将矩阵特征信息R3与位置向量信息R4进行整合得到特征信息H5，输入H5至Bert预训练模型中，得到对应的特征信息H6；

(5)将步骤(2)中的上下文特征信息H2与步骤(4)中的语义特征信息H6进行整合，输入到CNN模型中，得到最终的文本分类结果。

进一步地，所述步骤(1)包括以下步骤：

(11)定义化工突发事件新闻文本数据集为D，定义Text为单个文本数据，定义id，title，label分别为单个文本序列号，数据的标题，文本标签，并且满足关系Text＝{id,title,label}，D＝{Text₁,Text₂,…,Text_i,…,Text_n}，Text_i为D中第i个文本信息数据，其中，n＝len(D)为D中文本数量，变量i∈[1,n]；

(12)定义处理后的化工突发事件文本数据集为D1，D1＝{Text₁,Text₂,…,Text_j,…,Text_m}，Text_j为D1中第j个文本信息数据，其中，m＝len(D1)分别为D1中文本数量，变量j∈[1,m]；

(13)读取数据集D，遍历整个数据集；

(14)如果title＝＝null，执行(15)，否则执行(16)；

(15)删除对应行数据；

(16)根据停用词表去除一些无用的字符；

(17)保存预处理后的文本数据集D1。

进一步地，所述步骤(2)包括以下步骤：

(201)读取预处理后的文本数据集D1；

(202)定义词特征向量集R1；

(203)通过word2vec模型进行数据分词处理，由word2vec模型进行训练得到文本词特征向量

(204)保存词特征向量R1，并且满足

为数据向量集中第i个词特征向量，其中，变量i∈[1,a]，a为分词后词向量的数量；

(205)定义基于注意力机制的词依赖特征向量H1；

(206)将词特征向量R1，输入到Attention机制中，得到基于注意力的词依赖特征向量

其中

表示文本中的第j个词依赖特征向量，满足

变量j∈[1,b]，b为词依赖特征向量的数量，其中的Attention机制的输入与调整方法为，使用softmax归一化，进行权重矩阵W_f调节，之后乘V，

其中，d_k为一个Q和K向量的维度，

为尺度标量因子，分别代表query，key，value；

(207)定义循环变量k，用来学习第一级注意力机制的词特征向量H1，k初始值为1；

(208)定义基于注意力机制的子序列依赖特征向量H2；

(209)如果k≤b则执行(210)，否则执行(212)；

(210)将词依赖特征向量H1，输入到Attention机制中，得到基于注意力的子序列依赖特征向量

其中

表示文本中的第t个子序列依赖特征向量，满足

变量t∈[1,c]，c为子序列依赖特征向量的数量；

(211)k＝k+1；

(212)输出并保存二级注意力机制的特征向量H2。

进一步地，所述步骤(3)包括以下步骤：

(31)定义拼音特征向量H3，定义one-hot字符向量H4，定义融合嵌入矩阵R3；

(32)读入文本数据D1到开源的拼音包里，得到拼音表示，将其输入到MLP中，神经网络中由3个隐藏层，每个隐藏层64个节点数，然后由最大池化层得到拼音向量

满足

为数据向量集中第i个字符对应的拼音向量，其中，变量i∈[1,d]，d为拼音向量的数量；

(33)读取预处理数据D1，通过one-hot编码字符向量，得到字符向量

满足

为数据向量集中第j个字符特征向量，其中，变量j∈[1,e]；

(34)融合拼音向量H3和字符向量H4，得到融合嵌入向量

主要使用具有可学习矩阵的全连接层诱导矩阵向量的嵌入，融合矩阵向量

其中

表示文本中的第t个字符对应的融合特征向量，变量t∈[1,s]。

进一步地，所述步骤(4)包括以下步骤：

(41)定义位置向量R4，定义融合位置向量的特征向量矩阵H5，定义Bert预训练后的特征向量H6；

(42)将融合矩阵向量R3与positional Embedding相加，得到整合特征向量矩阵

其中，变量h∈[1,f]；

(43)读取整合特征向量矩阵H5输入到Bert模型中训练，得到最终的特征信息向量H6，其中

为Bert训练后向量第p个特征向量，其中，变量p∈[1,g]，对Bert模型的训练参数共享，得到对应的训练特征向量。

进一步地，所述步骤(5)包括以下步骤：

(51)读取上下文特征信息H2，读取语义信息H6；

(52)将H2和H6整合得到的特征向量输入到CNN分类模型中的卷积层，将先前层的特征映射与卷积核卷积，并加上相应修正偏差b1，作为权重的修正超参数；

(53)通过隐藏层激活函数的相关运算，输出特征映射，使用Leaky-ReLU激活函数，作为隐藏层的激活函数，如下公式，Leaky-ReLU为所有负值分配一个非零的斜率：

其中，a_i是固定的超参数，i表示对应第i个特征信息的a_i；

(54)定义预测标签集L，使用最大池化层进行处理，之后进行全连接操作，进行文本分类L＝{label}，得到最终的文本分类结果S。

有益效果：与现有技术相比，本发明的有益效果：本发明基于ChineseBert模型的改进，利用拼音和字符向量信息进行整合嵌入，同时添加位置向量信息进行整合，输入到Bert模型中进行训练，其中的Bert参数使用共享机制，用来解耦属于同一字符形式的不同语义，节省资源消耗的同时得到对应的上下文语义信息；同时使用Word2Vec模型进行预处理数据的处理，接着使用连级的Attention机制进行信息学习，得到词到序列的特征信息与上下文关联；最后融合以上两部分的特征向量输入到CNN分类模型中，得到最终的文本分类结果。

附图说明

图1为本发明的流程图；

图2为新闻文本数据预处理流程图；

图3为Word2Vec模块和连级Attention机制特征信息提取流程图；

图4为拼音与字符向量嵌入流程图；

图5为特征融合嵌入及Bert模型训练流程图；

图6为多特征融合文本分类流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，如图1所示，具体包括以下步骤：

本发明涉及的变量，如表1所示：

表1变量说明表

步骤1：对化工突发事件新闻数据集D通过遍历和筛选，得到预处理后的化工突发事件新闻集D1。如图2所示，具体方法为：

步骤1.1：定义化工突发事件新闻文本数据集为D，定义Text为单个文本数据，定义id，title，label分别为单个文本序列号，数据的标题，文本标签，并且满足关系Text＝{id,title,label}，D＝{Text₁,Text₂,…,Text_i,…,Text_n}，Text_i为D中第i个文本信息数据，其中，n＝len(D)为D中文本数量，变量i∈[1,n]；

步骤1.2：定义处理后的化工突发事件文本数据集为D1，D1＝{Text₁,Text₂,…,Text_j,…,Text_m}，Text_j为D1中第j个文本信息数据，其中，m＝len(D1)分别为D1中文本数量，变量j∈[1,m]；

步骤1.3：读取数据集D，遍历整个数据集；

步骤1.4：如果title＝＝null，执行步骤1.5，否则执行步骤1.6；

步骤1.5：删除对应行数据；

步骤1.6：根据停用词表去除一些无用的字符；

步骤1.7：保存预处理后的文本数据集D1。

步骤2：读取预处理后的数据集D1，经过word2vec模型训练，得到文本词向量，作为第一级注意力机制的输入，然后让其作为第二级注意力机制的输入，得到最终的上下文特征向量。如图3所示，具体方法为：

步骤2.1：读取预处理后的文本数据集D1；

步骤2.2：定义词特征向量集R1；

步骤2.3：通过word2vec模型进行数据分词处理，由word2vec模型进行训练得到文本词特征向量

步骤2.4：保存词特征向量R1，并且满足

步骤2.5：定义基于注意力机制的词依赖特征向量H1；

步骤2.6：将词特征向量R1，输入到Attention机制中，得到基于注意力的词依赖特征向量

其中

表示文本中的第j个词依赖特征向量，满足

其中，d_k为一个Q和K向量的维度，

为尺度标量因子，Q，K，V是张量，分别代表query，key，value；

步骤2.7：定义循环变量k，用来学习第一级注意力机制的词特征向量H1，k初始值为1；

步骤2.8：定义基于注意力机制的子序列依赖特征向量H2；

步骤2.9：如果k≤b则执行步骤2.10，否则执行2.12；

步骤2.10：将词依赖特征向量H1，输入到Attention机制中，得到基于注意力的子序列依赖特征向量

其中

表示文本中的第t个子序列依赖特征向量，满足

变量t∈[1,c]，c为子序列依赖特征向量的数量；

步骤2.11：k＝k+1；

步骤2.12：输出并保存二级注意力机制的特征向量H2。

步骤3：读取预处理后的新闻数据集D1，由开源拼音包进行处理，之后输入到MLP中进行向量化，同时对新闻数据集D1进行one-hot编码，得到的字符向量与拼音向量进行融合矩阵嵌入，得到2维矩阵向量R3。如图4所示，具体方法为：

步骤3.1：定义拼音特征向量H3，定义one-hot字符向量H4，定义融合嵌入矩阵R3；

步骤3.2：读入文本数据D1到开源的拼音包里，得到拼音表示，将其输入到MLP中，神经网络中由3个隐藏层，每个隐藏层64个节点数，然后由最大池化层得到拼音向量

满足

为数据向量集中第i个字符对应的拼音向量，其中，变量i∈[1,d],d为拼音向量的数量；

步骤3.3：读取预处理数据D1，通过one-hot编码字符向量，得到字符向量

满足

为数据向量集中第j个字符特征向量，其中，变量j∈[1,e]；

步骤3.4：融合拼音向量H3和字符向量H4，得到融合嵌入向量

其中

表示文本中的第t个字符对应的融合特征向量，变量t∈[1,s]。

步骤4：将矩阵特征信息R3与位置向量融合，得到特征信息H5，输入到Bert模型中进行向量化训练，得到最终的语义特征信息H6。如图5所示，具体方法为：

步骤4.1：定义位置向量R4，定义融合位置向量的特征向量矩阵H5，定义Bert预训练后的特征向量H6；

步骤4.2：将融合矩阵向量R3与positional Embedding相加，得到整合特征向量矩阵

其中，变量h∈[1,f]；

步骤4.3：读取整合特征向量矩阵H5输入到Bert模型中训练，得到最终的特征信息向量H6，其中

步骤5：将步骤2、4得到的特征信息进行整合，进行全连接处理，输入到CNN模型中分类处理，得到最终的文本分类结果。如图6所示，具体方法为：

步骤5.1：读取上下文特征信息H2，读取语义信息H6；

步骤5.2：将H2和H6整合得到的特征向量输入到CNN分类模型中的卷积层(隐藏单元)，将先前层的特征映射与卷积核卷积，并加上相应修正偏差b1，作为权重的修正超参数；

步骤5.3：通过隐藏层激活函数的相关运算，输出特征映射，使用Leaky-ReLU激活函数，作为隐藏层的激活函数，如下公式，Leaky-ReLU为所有负值分配一个非零的斜率：

其中，a_i是固定的超参数，i表示对应第i个特征信息的a_i；

步骤5.4：定义预测标签集L，使用最大池化层进行处理，之后进行全连接操作，进行文本分类L＝{label}，得到最终的文本分类结果S。

本发明可与化工突发事件新闻结合，从而完成基于连级的Attention机制的学习得到文本上下文特征提取，并且使用ChineseBERT预训练模型在使用拼音和字符信息的基础上添加位置信息，并且输入到Bert模型中进行训练得到最终的语义特征信息，两者进行融合嵌入通过CNN模型进行文本分类操作，对于化工安全新闻根据《国家突发公共事件总体应急预案》的突发事件分类，对其中的一部分分类总结，得到化工突发事件的类别(如火灾，爆炸、易燃、易爆、有毒气体泄漏)进行化工新闻突发事件的分类。

本发明可以用于自然语言处理的分类、特征信息提取以及拼音字符信息进行预训练得到语义特征信息等方面，还有各种化工新闻文本的分类。