CN112364160A - 一种结合ALBERT和BiGRU的专利文本分类方法 - Google Patents
一种结合ALBERT和BiGRU的专利文本分类方法 Download PDFInfo
- Publication number
- CN112364160A CN112364160A CN202010497459.2A CN202010497459A CN112364160A CN 112364160 A CN112364160 A CN 112364160A CN 202010497459 A CN202010497459 A CN 202010497459A CN 112364160 A CN112364160 A CN 112364160A
- Authority
- CN
- China
- Prior art keywords
- albert
- text
- patent text
- bigru
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000007635 classification algorithm Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000003062 neural network model Methods 0.000 abstract description 2
- 230000000717 retained effect Effects 0.000 abstract description 2
- 230000003068 static effect Effects 0.000 abstract description 2
- 230000015654 memory Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于专利文献的计算机分析技术领域,尤其是一种结合ALBERT和BiGRU的专利文本分类方法。现有的专利文本分类算法大都采用Word2vec等方式获取文本的词向量表示,舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对此问题,现提出一种结合ALBERT和BiGRU的专利文本分类方法,使用ALBERT预训练的动态词向量代替传统的Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大程度保留了专利文本中长距离词之间的语义关联,提升了专利文本分类的效果,并在多项评价指标中有着较好的表现。
Description
技术领域
本发明属于专利文献的计算机分析技术领域,具体涉及一种结合ALBERT和BiGRU的专利文本分类方法。
背景技术
随着科学与信息技术的飞速发展,专利申请数量逐年递增。2018年全球创新者共提交了330万件发明专利申请,连续九年实现增长,涨幅为5.2%。其中,中国国家知识产权局受理的专利申请数量最多,达到154万件,占全球总量的46.7%。为便于专利文献的检索与管理,需要对专利文献按照专业技术领域进行分类。现阶段专利分类的任务仍主要由专利审查员完成,不仅耗费大量人力和时间,且无法有效保证准确率。因此,需对专利文本进行自动化预分类,以实现专利文本的快速分类及快速审查。
与一般文本相比,专利文本具有结构特殊、专业性强、领域词汇较多等特点,需要采用更加针对的分类方法。专利文本分类属于自然语言处理领域,一般包括数据预处理、文本特征表示、分类器选择及效果评价等步骤,其中文本特征表示与分类器选择最为重要,将直接影响分类结果的准确性。
现有的专利文本分类算法大都采用Word2Vec等传统的词向量方式获取文本的特征表示,舍弃了大量的位置信息且不能表示出文本的完整语义。Devlin等提出了BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型,该模型通过使用双向Transformer编码器对语料库进行训练得到文本的双向编码表示,且训练出的词向量为动态词向量,提升了词向量的表征能力。增大BERT预训练模型的规模对下游任务的效果有一定的提升,但受计算资源的限制,所需的训练时间较长,且进一步提升模型的规模将导致显存或内存不足。为此,Lan等提出ALBERT(A Lite BERT)模型,该模型是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer获取文本的特征表示,且大大减少了模型中的参数,并在多项NLP任务中取得最佳效果。
近年来,随着深度学习的发展,研究人员开始尝试使用神经网络构建分类模型。Kim提出文本卷积神经网络(TextCNN)用于文本分类,但基于卷积神经网络的文本分类算法无法考虑到文本中长距离词之间的语义关联。为此,Mikolov等利用RNN进行文本分类,较好地利用了当前词上下文信息。然而,传统的RNN存在梯度爆炸和消失问题,处理长序列文本的效果并不理想。Hochreiter等提出长短期记忆网络(LSTM),解决了传统RNN梯度爆炸和消失的问题。之后,Dey等提出了门控循环单元(Gated Recurrent Unit,GRU),在保持LSTM的效果的同时使得模型结构更加简单。
发明内容
本发明所要解决的技术问题是提供一种结合ALBERT和BiGRU的专利文本分类方法,提升了专利文本分类的效果,并在多项评价指标中有着较好的表现。
为解决上述技术问题,本发明结合ALBERT和BiGRU的专利文本分类方法,包含以下步骤:
步骤一,对国家信息中心发布的专利数据集进行数据清洗,剔除掉分类号为非严格IPC分类的专利文本数据,并根据IPC分类号给专利数据打上分类标签。IPC分类法是国际上通用的专利文献分类法,包含部、大类、小类、大组和小组五个层级。本发明在部级别对专利文本进行分类,数据集包含A、B、C、D、E、F、G、H八个部的专利数据。
步骤二,利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示,得到专利文本特征。其中ALBERT模型是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer获取文本的特征表示。
在Transformer编码器中,最主要的模块是多头自注意力机制(Multi-HeadAttention),其计算公式见式(1),其中WO是附加权重矩阵,使得拼接后的矩阵维度压缩成序列长度大小。
MultiHead(Q,K,V)=Concat(head1,…,heads)WO (1)
上式中headi的计算公式见式(2),其中Wi Q,Wi K,Wi V分别Q,K,V的权重矩阵。
headi=Attention(QWi Q,KWi K,VWi V) (2)
Attention的计算公式见式(3),其中Q,K,V分别表示输入序列中每个词的query、key和value向量,dk表示每个词的query和key向量的维度。Softmax(·)为归一化激活函数,其计算公式见式(4),z为N维的行向量。
ALBERT在BERT的基础上进行了两大改进:一是减少BERT模型的参数,二是使用SOP任务代替NSP任务。其中,减少BERT模型的参数是通过嵌入层参数因式分解和跨层参数共享来完成的。进行嵌入层参数因式分解后的时间复杂度变化见式(5),其中V表示词表的大小,E表示嵌入层大小,H表示隐藏层大小,由于H>>E,可知通过该因式分解能有效减少模型的参数;跨层参数共享则为在不同层的Transformer编码器之间共享所有的参数。SOP任务的核心为对句子间的连贯性进行评估,并产生句子间连贯损失。对于多句子输入的下游任务,SOP相对NSP能够提升约2%的准确率。
O(V×H)→O(V×E+E×H) (5)
其中,GRU是LSTM的一个变体,并在LSTM的基础之上进行了简化,只由zt和rt两个门控单元组成。其中zt表示更新门,用于控制前一时刻的状态信息被带入到当前状态中的程度,zt的值越大说明前一时刻的状态信息带入越多;rt表示重置门,用于控制忽略前一时刻的状态信息的程度,rt的值越小说明忽略的越多,GRU的前向传播计算公式如式(6)到式(9)所示。
zt=σ(Wzxxt+Wzhht-1+bz) (6)
rt=σ(Wrxxt+Wrhht-1+br) (7)
其中,σ表示sigmoid激活函数;xt表示当前时刻的输入,在文本分类中表示第t个单词的词向量;ht-1和ht分别表示前一时刻隐藏层状态和当前时刻隐藏层状态,表示当前时刻新的记忆;⊙表示向量的点乘。Wzx、Wrx和分别表示在更新门、重置门和新的记忆中对于xt的权重矩阵,Wzh、Wrh和分别表示在更新门、重置门和新的记忆中对于ht-1的权重矩阵,bz、br和分别表示在更新门、重置门和新的记忆中的偏置值。
本发明中的有益效果为:
本方法使用ALBERT预训练的动态词向量代替传统的Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大程度保留了专利文本中长距离词之间的语义关联,提升了专利文本分类的效果,并在多项评价指标中有着较好的表现。
附图说明
图1为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的结合ALBERT和BiGRU的专利文本分类算法工作流程图;
图2为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的TransformerEncoder部分的模型结构图;
图3为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的注意力机制结构图;
图4为本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的GRU的模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
图1示出了本发明的一种结合ALBERT和BiGRU的专利文本分类算法工作的流程图。
如图1所示,对专利文本进行分类的方法包括如下步骤:
步骤一、对国家信息中心发布的专利数据集进行数据清洗,剔除掉分类号为非严格IPC分类的专利文本数据,并根据IPC分类号给专利数据打上分类标签。经过数据清洗,原始数据剩余约232万,包含IPC的所有部(从A到H),共有124个大类,数据详情如表1所示。
表1专利文本分类数据集信息表
步骤二、对文本数据进行特征提取,利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示,得到专利文本特征。ALBERT是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer获取文本的特征表示。
Transformer编码器是一个基于Self-Attention的Seq2Seq模型,该模型的结构为Encoder-Decoder。ALBERT使用的是Transformer模型中的Encoder部分,TransformerEncoder部分的模型结构如图2所示。Encoder由N个相同的网络层堆叠而成,每个网络层包含两个子网络层:第一层为多头自注意力机制层,第二层为普通的前馈网络层,用于融入词语的位置信息。每个子网络层都含有一个“Add&Norm”层,用于将本层的输入与输出相加并进行归一化处理,随后两个子网络层之间使用残差连接。
在Transformer编码器中,最主要的模块是多头自注意力机制(Multi-HeadAttention),由多个自注意力机制(Self-Attention)拼接而成,自注意力机制的结构如图3所示。由图可知,注意力的计算公式为其中Q,K,V分别表示输入序列中每个词的query、key和value向量,dk表示每个词的query和key向量的维度,Softmax(·)为归一化激活函数。
其中,GRU是LSTM的一个变体,并在LSTM的基础之上进行了简化,其模型结构如图4所示。其中zt表示更新门,用于控制前一时刻的状态信息被带入到当前状态中的程度,zt的值越大说明前一时刻的状态信息带入越多;rt表示重置门,用于控制忽略前一时刻的状态信息的程度,rt的值越小说明忽略的越多
本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法的实验参数主要包括ALBERT模型和BiGRU模型的参数,在固定其他参数的前提下,依次改变可变参数的数值,以得到模型的最优参数。其中ALBERT采用Google发布的预训练中文模型“ALBERT-Base”,其模型参数如表2所示。BiGRU模型参数如表3所示,ALBERT-BiGRU综合模型的训练参数如表4所示。
表2 ALBERT模型参数表
表3 BiGRU模型参数表
表4综合模型训练参数表
为评价模型的分类效果,采用精确率P与召回率R的调和平均值F1和准确率Acc来对模型效果进行评价。使用TP表示实际为正例且预测为正例,FP表示实际为负例但预测为正例,TN表示实际为负例且预测为负例,FN表示实际为正例但预测为负例。则精确率召回率两者的调和平均值准确率
在专利数据集中的部级别进行实验,各模型对每个部进行分类的F1值如表5所示,总体准确率Acc如表6所示。
表5各模型8个部F1值
表6各模型总体准确率Acc
由表5和表6可知,本发明提出的一种结合ALBERT和BiGRU的专利文本分类方法在多项评价指标中均有着较好的表现,能有效提升专利文本分类的效果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种结合ALBERT和BiGRU的专利文本分类方法,其特征在于本方法包括如下步骤:
步骤一、对国家信息中心发布的专利数据集进行数据清洗,剔除掉分类号为非严格IPC分类的专利文本数据,并根据IPC分类号给专利数据打上分类标签。
步骤二、对文本数据进行特征提取,利用ALBERT预训练语言模型对专利文本进行句子层面的特征表示,得到专利文本特征。
2.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法,其特征在于:所述的步骤一中IPC分类法是国际上通用的专利文献分类法,包含部、大类、小类、大组和小组五个层级。
3.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法,其特征在于:所述的步骤二中的ALBERT是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer获取文本的特征表示。Transformer中最主要的模块是多头自注意力机制(Multi-Head Attention),其计算公式为MultiHead(Q,K,V)=Concat(head1,…,heads)WO,WO是附加权重矩阵,使得拼接后的矩阵维度压缩成序列长度大小。headi=Attention(QWi Q,KWi K,VWi V),其中,Q,K,V分别表示输入序列中每个词的query、key和value向量,dk表示每个词的query和key向量的维度,Wi Q,Wi K,Wi V分别为Q,K,V的权重矩阵,Softmax为归一化激活函数。
4.根据权利要求1所述的结合ALBERT和BiGRU的专利文本分类方法,其特征在于:所述的步骤三中的GRU是LSTM的一个变体,并在LSTM的基础之上进行了简化,只由zt和rt两个门控单元组成。其中,zt表示更新门,用于控制前一时刻的状态信息被带入到当前状态中的程度,zt的值越大说明前一时刻的状态信息带入越多;rt表示重置门,用于控制忽略前一时刻的状态信息的程度,rt的值越小说明忽略的越多。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497459.2A CN112364160A (zh) | 2020-06-02 | 2020-06-02 | 一种结合ALBERT和BiGRU的专利文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497459.2A CN112364160A (zh) | 2020-06-02 | 2020-06-02 | 一种结合ALBERT和BiGRU的专利文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364160A true CN112364160A (zh) | 2021-02-12 |
Family
ID=74516432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010497459.2A Withdrawn CN112364160A (zh) | 2020-06-02 | 2020-06-02 | 一种结合ALBERT和BiGRU的专利文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364160A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926303A (zh) * | 2021-02-23 | 2021-06-08 | 南京邮电大学 | 一种基于BERT-BiGRU的恶意URL检测方法 |
CN113033801A (zh) * | 2021-03-04 | 2021-06-25 | 北京百度网讯科技有限公司 | 神经网络模型的预训练方法、装置、电子设备和介质 |
-
2020
- 2020-06-02 CN CN202010497459.2A patent/CN112364160A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926303A (zh) * | 2021-02-23 | 2021-06-08 | 南京邮电大学 | 一种基于BERT-BiGRU的恶意URL检测方法 |
CN112926303B (zh) * | 2021-02-23 | 2023-06-27 | 南京邮电大学 | 一种基于BERT-BiGRU的恶意URL检测方法 |
CN113033801A (zh) * | 2021-03-04 | 2021-06-25 | 北京百度网讯科技有限公司 | 神经网络模型的预训练方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020100710A4 (en) | A method for sentiment analysis of film reviews based on deep learning and natural language processing | |
Long et al. | Sentiment analysis of text based on bidirectional LSTM with multi-head attention | |
CN109992783B (zh) | 中文词向量建模方法 | |
CN111414481B (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN113312452B (zh) | 基于多任务学习的篇章级文本连贯性分类方法 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN114048295A (zh) | 一种用于数据处理的跨模态检索方法及系统 | |
CN114547230A (zh) | 一种智能行政执法案例信息抽取和案由认定方法 | |
CN112364160A (zh) | 一种结合ALBERT和BiGRU的专利文本分类方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN117648469A (zh) | 一种基于对比学习的交叉双塔结构答案选择方法 | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
CN113204640A (zh) | 一种基于注意力机制的文本分类方法 | |
CN116822504A (zh) | 基于情感知识和方面交互的方面级情感分析方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
Yang et al. | Multi-intent text classification using dual channel convolutional neural network | |
CN112598065B (zh) | 一种基于记忆的门控卷积神经网络语义处理系统及方法 | |
CN112613316B (zh) | 一种生成古汉语标注模型的方法和系统 | |
CN115146024A (zh) | 一种基于语义规则的蒙古语反向重构情感分布学习方法 | |
Shi et al. | Entity relationship extraction based on BLSTM model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210212 |
|
WW01 | Invention patent application withdrawn after publication |