CN112364160A

CN112364160A - 一种结合ALBERT和BiGRU的专利文本分类方法

Info

Publication number: CN112364160A
Application number: CN202010497459.2A
Authority: CN
Inventors: 曾诚; 温超东; 任俊伟; 张*; 张; 何鹏; 马传香; 肖奎
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2021-02-12

Abstract

本发明属于专利文献的计算机分析技术领域，尤其是一种结合ALBERT和BiGRU的专利文本分类方法。现有的专利文本分类算法大都采用Word2vec等方式获取文本的词向量表示，舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对此问题，现提出一种结合ALBERT和BiGRU的专利文本分类方法，使用ALBERT预训练的动态词向量代替传统的Word2vec等方式训练的静态词向量，提升了词向量的表征能力；并使用BiGRU神经网络模型进行训练，最大程度保留了专利文本中长距离词之间的语义关联，提升了专利文本分类的效果，并在多项评价指标中有着较好的表现。

Description

一种结合ALBERT和BiGRU的专利文本分类方法

技术领域

本发明属于专利文献的计算机分析技术领域，具体涉及一种结合ALBERT和BiGRU的专利文本分类方法。

背景技术

随着科学与信息技术的飞速发展，专利申请数量逐年递增。2018年全球创新者共提交了330万件发明专利申请，连续九年实现增长，涨幅为5.2％。其中，中国国家知识产权局受理的专利申请数量最多，达到154万件，占全球总量的46.7％。为便于专利文献的检索与管理，需要对专利文献按照专业技术领域进行分类。现阶段专利分类的任务仍主要由专利审查员完成，不仅耗费大量人力和时间，且无法有效保证准确率。因此，需对专利文本进行自动化预分类，以实现专利文本的快速分类及快速审查。

与一般文本相比，专利文本具有结构特殊、专业性强、领域词汇较多等特点，需要采用更加针对的分类方法。专利文本分类属于自然语言处理领域，一般包括数据预处理、文本特征表示、分类器选择及效果评价等步骤，其中文本特征表示与分类器选择最为重要，将直接影响分类结果的准确性。

现有的专利文本分类算法大都采用Word2Vec等传统的词向量方式获取文本的特征表示，舍弃了大量的位置信息且不能表示出文本的完整语义。Devlin等提出了BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型，该模型通过使用双向Transformer编码器对语料库进行训练得到文本的双向编码表示，且训练出的词向量为动态词向量，提升了词向量的表征能力。增大BERT预训练模型的规模对下游任务的效果有一定的提升，但受计算资源的限制，所需的训练时间较长，且进一步提升模型的规模将导致显存或内存不足。为此，Lan等提出ALBERT(A Lite BERT)模型，该模型是基于BERT模型的一种轻量级预训练语言模型，与BERT模型均采用双向Transformer获取文本的特征表示，且大大减少了模型中的参数，并在多项NLP任务中取得最佳效果。

近年来，随着深度学习的发展，研究人员开始尝试使用神经网络构建分类模型。Kim提出文本卷积神经网络(TextCNN)用于文本分类，但基于卷积神经网络的文本分类算法无法考虑到文本中长距离词之间的语义关联。为此，Mikolov等利用RNN进行文本分类，较好地利用了当前词上下文信息。然而，传统的RNN存在梯度爆炸和消失问题，处理长序列文本的效果并不理想。Hochreiter等提出长短期记忆网络(LSTM)，解决了传统RNN梯度爆炸和消失的问题。之后，Dey等提出了门控循环单元(Gated Recurrent Unit,GRU)，在保持LSTM的效果的同时使得模型结构更加简单。

发明内容

本发明所要解决的技术问题是提供一种结合ALBERT和BiGRU的专利文本分类方法，提升了专利文本分类的效果，并在多项评价指标中有着较好的表现。

为解决上述技术问题，本发明结合ALBERT和BiGRU的专利文本分类方法，包含以下步骤：

步骤一，对国家信息中心发布的专利数据集进行数据清洗，剔除掉分类号为非严格IPC分类的专利文本数据，并根据IPC分类号给专利数据打上分类标签。IPC分类法是国际上通用的专利文献分类法，包含部、大类、小类、大组和小组五个层级。本发明在部级别对专利文本进行分类，数据集包含A、B、C、D、E、F、G、H八个部的专利数据。

步骤二，利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示，得到专利文本特征。其中ALBERT模型是基于BERT模型的一种轻量级预训练语言模型，与BERT模型均采用双向Transformer获取文本的特征表示。

在Transformer编码器中，最主要的模块是多头自注意力机制(Multi-HeadAttention)，其计算公式见式(1)，其中W^O是附加权重矩阵，使得拼接后的矩阵维度压缩成序列长度大小。

MultiHead(Q,K,V)＝Concat(head₁,…,head_s)W^O (1)

上式中head_i的计算公式见式(2)，其中W_i ^Q,W_i ^K,W_i ^V分别Q,K,V的权重矩阵。

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (2)

Attention的计算公式见式(3)，其中Q,K,V分别表示输入序列中每个词的query、key和value向量，d_k表示每个词的query和key向量的维度。Softmax(·)为归一化激活函数，其计算公式见式(4)，z为N维的行向量。

ALBERT在BERT的基础上进行了两大改进：一是减少BERT模型的参数，二是使用SOP任务代替NSP任务。其中，减少BERT模型的参数是通过嵌入层参数因式分解和跨层参数共享来完成的。进行嵌入层参数因式分解后的时间复杂度变化见式(5)，其中V表示词表的大小，E表示嵌入层大小，H表示隐藏层大小，由于H＞＞E，可知通过该因式分解能有效减少模型的参数；跨层参数共享则为在不同层的Transformer编码器之间共享所有的参数。SOP任务的核心为对句子间的连贯性进行评估，并产生句子间连贯损失。对于多句子输入的下游任务，SOP相对NSP能够提升约2％的准确率。

O(V×H)→O(V×E+E×H) (5)

步骤三，将ALBERT层输出的专利文本特征作为BiGRU层的输入，分别传给BiGRU的前向GRU层和后向GRU层，经过多个GRU隐藏单元的训练，最终得到两个文本向量表示，分别记作

和

其中，GRU是LSTM的一个变体，并在LSTM的基础之上进行了简化，只由z_t和r_t两个门控单元组成。其中z_t表示更新门，用于控制前一时刻的状态信息被带入到当前状态中的程度，z_t的值越大说明前一时刻的状态信息带入越多；r_t表示重置门，用于控制忽略前一时刻的状态信息的程度，r_t的值越小说明忽略的越多，GRU的前向传播计算公式如式(6)到式(9)所示。

z_t＝σ(W_zxx_t+W_zhh_t-1+b_z) (6)

r_t＝σ(W_rxx_t+W_rhh_t-1+b_r) (7)

其中，σ表示sigmoid激活函数；x_t表示当前时刻的输入，在文本分类中表示第t个单词的词向量；h_t-1和h_t分别表示前一时刻隐藏层状态和当前时刻隐藏层状态，

表示当前时刻新的记忆；⊙表示向量的点乘。W_zx、W_rx和

分别表示在更新门、重置门和新的记忆中对于x_t的权重矩阵，W_zh、W_rh和

分别表示在更新门、重置门和新的记忆中对于h_t-1的权重矩阵，b_z、b_r和

分别表示在更新门、重置门和新的记忆中的偏置值。

步骤四，将

和

在第一个维度进行叠加,得到向量F_g,F_g的维度为2h,h为隐藏单元个数。通过全连接层对F_g进行两次全连接，其中第一次全连接的输出维度为h,第二次全连接的输出维度为n，n表示标签的个数。

步骤五，对全连接层的输出结果进行Softmax归一化，得到专利文本属于每一类的概率分布矩阵L。其中，

z为N维的向量。对L按行取最大值的索引，即得到最终的专利文本分类标签。

本发明中的有益效果为：

本方法使用ALBERT预训练的动态词向量代替传统的Word2vec等方式训练的静态词向量，提升了词向量的表征能力；并使用BiGRU神经网络模型进行训练，最大程度保留了专利文本中长距离词之间的语义关联，提升了专利文本分类的效果，并在多项评价指标中有着较好的表现。

附图说明

图1为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的结合ALBERT和BiGRU的专利文本分类算法工作流程图；

图2为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的TransformerEncoder部分的模型结构图；

图3为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的注意力机制结构图；

图4为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的GRU的模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

图1示出了本发明的一种结合ALBERT和BiGRU的专利文本分类算法工作的流程图。

如图1所示，对专利文本进行分类的方法包括如下步骤：

步骤一、对国家信息中心发布的专利数据集进行数据清洗，剔除掉分类号为非严格IPC分类的专利文本数据，并根据IPC分类号给专利数据打上分类标签。经过数据清洗，原始数据剩余约232万，包含IPC的所有部(从A到H)，共有124个大类，数据详情如表1所示。

表1专利文本分类数据集信息表

步骤二、对文本数据进行特征提取，利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示，得到专利文本特征。ALBERT是基于BERT模型的一种轻量级预训练语言模型，与BERT模型均采用双向Transformer获取文本的特征表示。

Transformer编码器是一个基于Self-Attention的Seq2Seq模型，该模型的结构为Encoder-Decoder。ALBERT使用的是Transformer模型中的Encoder部分，TransformerEncoder部分的模型结构如图2所示。Encoder由N个相同的网络层堆叠而成，每个网络层包含两个子网络层：第一层为多头自注意力机制层，第二层为普通的前馈网络层，用于融入词语的位置信息。每个子网络层都含有一个“Add&Norm”层，用于将本层的输入与输出相加并进行归一化处理，随后两个子网络层之间使用残差连接。

在Transformer编码器中，最主要的模块是多头自注意力机制(Multi-HeadAttention)，由多个自注意力机制(Self-Attention)拼接而成，自注意力机制的结构如图3所示。由图可知，注意力的计算公式为

其中Q,K,V分别表示输入序列中每个词的query、key和value向量，d_k表示每个词的query和key向量的维度，Softmax(·)为归一化激活函数。

步骤三、将ALBERT层输出的专利文本特征作为BiGRU层的输入，分别传给BiGRU的前向GRU层和后向GRU层。经过多个GRU隐藏单元的训练，最终得到两个文本向量表示，分别记作

和

其中，GRU是LSTM的一个变体，并在LSTM的基础之上进行了简化，其模型结构如图4所示。其中z_t表示更新门，用于控制前一时刻的状态信息被带入到当前状态中的程度，z_t的值越大说明前一时刻的状态信息带入越多；r_t表示重置门，用于控制忽略前一时刻的状态信息的程度，r_t的值越小说明忽略的越多

步骤四、将

和

步骤五、对全连接层的输出结果进行Softmax归一化，得到专利文本属于每一类的概率分布矩阵L。其中，

本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的实验参数主要包括ALBERT模型和BiGRU模型的参数，在固定其他参数的前提下，依次改变可变参数的数值，以得到模型的最优参数。其中ALBERT采用Google发布的预训练中文模型“ALBERT-Base”，其模型参数如表2所示。BiGRU模型参数如表3所示，ALBERT-BiGRU综合模型的训练参数如表4所示。

表2 ALBERT模型参数表

表3 BiGRU模型参数表

表4综合模型训练参数表

为评价模型的分类效果，采用精确率P与召回率R的调和平均值F1和准确率Acc来对模型效果进行评价。使用TP表示实际为正例且预测为正例，FP表示实际为负例但预测为正例，TN表示实际为负例且预测为负例，FN表示实际为正例但预测为负例。则精确率

召回率

两者的调和平均值

准确率

在专利数据集中的部级别进行实验，各模型对每个部进行分类的F1值如表5所示，总体准确率Acc如表6所示。

表5各模型8个部F1值

表6各模型总体准确率Acc

由表5和表6可知，本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法在多项评价指标中均有着较好的表现，能有效提升专利文本分类的效果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种结合ALBERT和BiGRU的专利文本分类方法，其特征在于本方法包括如下步骤：

步骤一、对国家信息中心发布的专利数据集进行数据清洗，剔除掉分类号为非严格IPC分类的专利文本数据，并根据IPC分类号给专利数据打上分类标签。

步骤二、对文本数据进行特征提取，利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示，得到专利文本特征。

步骤三、将ALBERT层输出的专利文本特征作为BiGRU层的输入，分别传给前向GRU层和后向GRU层。经过多个GRU隐藏单元的训练，最终得到两个文本向量表示，分别记作

和

步骤四、将

和

2.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法，其特征在于：所述的步骤一中IPC分类法是国际上通用的专利文献分类法，包含部、大类、小类、大组和小组五个层级。

3.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法，其特征在于：所述的步骤二中的ALBERT是基于BERT模型的一种轻量级预训练语言模型，与BERT模型均采用双向Transformer获取文本的特征表示。Transformer中最主要的模块是多头自注意力机制(Multi-Head Attention)，其计算公式为MultiHead(Q,K,V)＝Concat(head₁,…,head_s)W^O，W^O是附加权重矩阵，使得拼接后的矩阵维度压缩成序列长度大小。head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)，

其中，Q,K,V分别表示输入序列中每个词的query、key和value向量，d_k表示每个词的query和key向量的维度，W_i ^Q,W_i ^K,W_i ^V分别为Q,K,V的权重矩阵，Softmax为归一化激活函数。

4.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法，其特征在于：所述的步骤三中的GRU是LSTM的一个变体，并在LSTM的基础之上进行了简化，只由z_t和r_t两个门控单元组成。其中，z_t表示更新门，用于控制前一时刻的状态信息被带入到当前状态中的程度，z_t的值越大说明前一时刻的状态信息带入越多；r_t表示重置门，用于控制忽略前一时刻的状态信息的程度，r_t的值越小说明忽略的越多。