CN115114432A

CN115114432A - 一种融合全局语义特征与拼接特征的标准内容文本分类方法

Info

Publication number: CN115114432A
Application number: CN202210492503.XA
Authority: CN
Inventors: 胡燕祝; 赵兴昊; 王珂璠; 庄育锋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-09-27

Abstract

本发明公开了一种融合全局语义特征与拼接特征的标准内容文本分类方法，步骤是：(1)提取标准内容文本的序列化向量；(2)确定每个单词的上下文表示；(3)提取词语上下文权重及全局语义信息；(4)提取文本特征信息；(5)融合输出特征得到最终的类别预测概率。本发明使用基于层和词的局部信息提取方法获得更多的局部语义特征，融合多网络有效提取全局语义特征，最后将二者融合，为标准内容文本分类提供了一种准确率高的文本分类方法。

Description

一种融合全局语义特征与拼接特征的标准内容文本分类方法

技术领域

本发明涉及计文本分类与标准数字化领域，具体的说，主要是一种融合全局语义特征与拼接特征的《标准》内容文本分类方法。

背景技术

标准分类是标准数字化工作中的一个必不可少的环节，标准内容的自动分类有助于标准使用人员快捷对比。目前，文本分类方法主要有基于神经网络模型、基于随机森林模型等方法。基于卷积神经网络的模型利用滑动卷积窗口，获得不同抽象层次的局部语义特征，但缺乏对于上下文的信息建模能力；基于循环神经网络的模型通过递归计算捕捉全局语义信息，但缺乏对局部信息的感知能力；注意力机制利用权重调整突出重点信息，但忽略了时序信息；预训练模型利用大规模语料预先训练，但应用场景受限明显；基于随机森林模型的方法，能在一定程度上平衡误差，但运算时间较长，应用扩展性较差。

标准内容具有明显的交叉引用特点，同一标准内部相互引用，不同标准之间相互引用，且不同标准在定义及要求上有明显差别。因此，需要一种能够准确提取标准内容的上下文语义特征，分类准确率、扩展应用性好的标准内容文本分类方法，为标准数字化领域提供强有力的支持。

发明内容

为了解决上述现有技术中存在的问题，本发明提供了一种融合全局语义特征与拼接特征的《标准》内容文本分类方法，其具体流程如图1所示。

技术方案实施步骤如下：

(1)提取标准内容文本的序列化向量Ε：

获取文本中句子的向量表示，得到

X＝[x₁,x₂,…,x_n]

式中，X是句子的向量表示，x_i表示该句子文本中的第i个字符，通过将文本X输入到 ALBERT层进行序列化操作，提取序列化后的文本向量，得到

Ε＝[E₁,E₂,…,E_n]

其中Ε表示句子文本经序列化后的字符数组，E_i表示文本中第i个字的序列化字符；

(2)确定每个单词的上下文表示

将经过ALBERT处理后的字符表示输入到BiLSTM层，BiLSTM通过前向和后向的LSTM来获得第t时刻前向隐藏层状态r_t和后向隐藏层状态l_t，并将r_t和l_t拼接起来作为隐藏层状态向量h_t，最后将h_t与词向量信息E_t结合，得到最终的每个单词的上下文表示

的计算过程如下

上式

为前向LSTM的三个门(输入门、遗忘门、输出门)，

为后向LSTM的三个门，这六个门可以控制信息流向，解决传统RNN的梯度消失与爆炸问题；在前向LSTM中，隐藏层状态r_t-1对r_t的更新有影响，对于后向LSTM，隐藏层状态l_t+1对l_t的更新有影响。W为权重矩阵；b为偏置项；σ为sigmoid激活函数；c为状态变量，其与输出门共同控制最后的隐藏层状态；*为哈达玛积；tanh为双曲正切函数；

为向量的拼接操作。经过BiLSTM处理之后的具有上下文信息的字符数组为

(3)提取词语上下文权重及全局语义信息F_global：

将BiLSTM输出的字符数组

通过注意力机制对每个词的上下文匹配一个权重，以体现不同单词对句子全局语义特征的重要程度，最后通过加权求和得到全局语义信息F_global

W_u为权重矩阵，b_u为偏置项，u_a为随机初始化、可学习的上下文向量，a_t为第t时刻的单词归一化权重。经过注意力机制加权，最终得到具有全局信息的向量F_global；

(4)提取文本特征信息F_local：

采用基于层和词的局部信息提取的改进CNN模型，除了基于层的在不同的一维卷积核下的特征信息进行池化，同时对基于词的在不同层下的特征进行池化，取不同宽度大小的h_l的一维卷积核(h_l为卷积核宽度)作用于文本表征[E₁,E₂,…,E_i,…,E_n]上提取特征矩阵M。

M＝[R₁,R₂,…,R_l]

L_i＝[r_i1,r_i2,…,r_il]

W_il是结构中第i个词对应的第l个一维卷积核权重矩阵，其作用在字向量窗口

产生新特征r_il，其中b是偏置项，relu是激活函数。一维卷积核作用于每个可能的子向量窗口产生第l个一维卷积核特征向量R_l，多个卷积核特征向量组合得到特征矩阵M。M矩阵的行向量表示成同一个词在不同层的向量表示，同一层的特征可以由M的列向量表示。本专利使用的最大池化操作分别作用于特征矩阵M的行向量和列向量，方法上采用最大池化的方法。得到最显著的层特征

和词特征

最终将所有显著的层特征和词特征进行拼接，得到最后的特征表示F_local。R_i表示第i层的层特征，L_j表示第j个词的特征；

(5)融合输出特征得到最终的类别预测概率p：

p1＝softmax1(W_gF_global+b_g)

p2＝softmax2(W_localF_local+b_local)

通过注意力机制获得的文本语义特征信息F_global与通过基于层和词的局部信息提取的改进CNN获得的文本特征信息表示F_local分别作用于softmax1分类器和softmax2分类器，分别获得分类概率p1与p2，取这两个概率的算数平均进行融合，最终得到类别预测概率p，其中W_g与W_local为可训练权重，b_g与b_local为偏置项。

本发明比现有技术具有的优点：

(1)本发明使用的基于层和词的局部信息提取方法相对于以往模型能够提取更多的局部信息，对于局部信息提取不足的网络信息提取能有较大改进。

(2)本发明方法提供了一种利用全局与局部特征信息，进行文本分类的一种方法，该方法一方面充分提取局部和全局信息，充分融合模型优势。利用字序列向量作嵌入层，以获得更好的文本表示，融合多网络有效提取全局语义特征，使用基于层和词的局部信息提取方法获得更多的局部语义特征，最后将二者融合。

附图说明

为了更好地理解本发明，下面结合附图作进一步的说明。

图1是建立的融合全局语义特征与拼接特征的《标准》内容文本分类方法的步骤流程图；

图2是建立的融合全局语义特征与拼接特征的《标准》内容文本分类方法的算法流程图；

图3是建立融合全局语义特征与拼接特征的《标准》内容文本分类方法的网络模型示意图；

图4是建立融合全局语义特征与拼接特征的《标准》内容文本分类方法的准确度比较图；

具体实施方式

下面通过实施案例对本发明做进一步详细说明。

本实施案例中选用燃气事故标准、危化品事故标准两个标准数据集进行测试，其中包括处置流程、应对预案、管道材料等不同方面的标准集，每类标准集包含150个标准，分别一共300个标准。

本发明所提供的融合全局语义特征与拼接特征的《标准》内容文本分类方法，算法流程如图2所示，具体步骤如下：

(1)提取标准内容文本的序列化向量Ε：

以燃气事故处理标准数据集为例，燃气事故处理标准数据集中的句子平均单词数为19 个，对应句子的文本表示

X＝[x₁,x₂,…,x_i,…,x₁₉]

式中，X是句子的向量表示，x_i表示该句子文本中的第i个字符，通过将文本X输入到 ALBERT层进行序列化操作，得到序列化后的文本向量，

Ε＝[E₁,E₂,…,E_i,…,E₁₉]

其中Ε表示句子文本经序列化后的字符数组，E_i表示文本中第i个字的序列化字符，嵌入维度为768。

(2)确定每个单词的上下文表示

将经过ALBERT处理后的字符表示输入到BiLSTM层，网络模型如图3所示，r₁₉为前向通道输出句子的表征向量，l₁为后向通道表征句子的表征向量，BiLSTM通过前向和后向的LSTM来获得第t时刻前向隐藏层状态r_t和后向隐藏层状态l_t，其中1≤t≤19，为对应句子的词E_t的上下文嵌入的向量表示，并将r_t和l_t拼接起来作为隐藏层状态向量h_t，1≤t≤19。最后将h_t与词向量信息E_t结合，得到最终的每个单词的上下文表示

的计算过程如下，

上式

为前向LSTM的三个门(输入门、遗忘门、输出门)，

为后向LSTM的三个门，门可以控制信息流向，解决传统RNN的梯度消失与爆炸问题；在前向LSTM 中r_t-1为上一词的词嵌入向量，而在后向LSTM中l_t+1为上一词的词向量嵌入；W为权重矩阵初始化分布满足

的随机分布；b为偏置项，初始化为0；σ为sigmoid激活函数；c 为状态变量，其与输出门共同控制最后的隐藏层状态；*为哈达玛积；tanh为双曲正切函数；

为向量的拼接操作。

BiLSTM的输出为将上下文信息导入到每个字符的句子数组，因为句子为19个词组成，所以得到对应19个字符的特征向量

(3)提取词语上下文权重及全局语义信息F_global：

将由19个字符组成的句子的特征表征向量

通过注意力机制对每个词表征匹配一个权重，以体现不同单词对句子全局语义特征的重要程度，最后通过加权求和得到全局语义信息F_global。

W_u为权重矩阵，初始化满足分布

b_u为偏置项，初始化为0，u_a为随机初始化 N(0,1)，可学习的上下文向量，a_t为第t时刻的单词归一化权重。

(4)提取文本特征信息F_local：

采用基于层和词的局部信息提取的改进CNN模型，除了基于层的在不同的一维卷积核下的特征信息进行池化，同时对基于词的在不同层下的特征进行池化，选取不同宽度大小的h_l的一维卷积核(h_l为卷积核宽度，满足h₁＞h₂＞…＞h_i＞…＞h₁₉，在训练中设置，本次实验中，设置h_l＝1,2,3)作用于文本表征[E₁,E₂,…,E_i,…,E₁₉]上提取特征矩阵M。

M＝[R₁,R₂,R₃]

L_i＝[r_i1,r_i2,r_i3]

W_il是结构中第i个元素对应的第l个一维卷积核权重矩阵，初始化分布满足为N(0,1)，其作用在字向量窗口

产生新特征r_i，其中b是偏置项b＝0.01，relu是激活函数。一维卷积核作用于每个可能的子向量窗口产生特征向量R，得到三层的卷积特征向量，多个特征向量组合得到特征矩阵M。针对特征矩阵M。最大池化操作分别作用于特征矩阵M中的每个层特征R_i和每个词特征L_i，得到最显著的层特征

和元素特征

最终将所有最显著特征拼接，得到最后的特征表示F_local。

(5)融合输出得到最终的类别预测概率p：

p1＝softmax1(W_gF_global+b_g)

p2＝softmax2(W_localF_local+b_local)

通过注意力机制获得的文本语义特征信息F_global与通过基于层和元素的特征信息表示F_local分别作用于softmax1分类器和softmax2分类器，分别获得分类概率p1与p2，取这两个概率的算数平均进行融合，最终得到类别预测概率p，其中W_g与W_local为可训练权重，均用 N(0,1)初始化，b_g与b_local为偏置项，初始化0。

为了验证本发明对标准内容文本分类的准确性，对本发明进行了文本分类实验，实验结果如图4所示。由图4可以看出，本方法相对于其他模型的性能均有提高。