CN112784051A

CN112784051A - 专利术语抽取方法

Info

Publication number: CN112784051A
Application number: CN202110157625.9A
Authority: CN
Inventors: 吕学强; 游新冬; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-11

Abstract

本申请公开了一种专利术语抽取方法，包括：利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量，将词向量输入到BiLSTM层进行语义编码，自动提取句子特征；利用CRF层解码输出概率最大的预测标签序列，得到每个字符的标注类型，对序列中的实体提取分类。本申请实施例提供的专利术语抽取方法，利用BERT对专业领域专利文本进行向量化，能有效提高术语抽取结果的准确率，抽取效果优于当前主流的深度学习术语抽取模型，在专业领域专利文本术语抽取中，准确率、召回率和F1值均有了显著提升，可以准确快速识别出字符较多的专业领域专利长序列术语。

Description

专利术语抽取方法

技术领域

本申请涉及文本处理技术领域，具体涉及一种专利术语抽取方法。

背景技术

专业术语的自动抽取对于领域机器翻译、领域知识图谱等方面均具有重要作用。目前专利年均申请增长率保持稳定，如何更快速更准确地翻译专利文本成为一个值得关注的问题。当前专利文献的翻译方式主要有两种，一种是经由专业领域人士的翻译，但高质量翻译是一项高要求且耗时的生产任务，对人类翻译专家的要求较高，能满足该要求的合格翻译人才比较缺乏，况且由于专利文献具有新颖性、可靠性和权威性的特点，翻译人员在翻译过程中需要利用领域术语表来把握对领域术语的准确翻译，术语库的构建就显得尤为重要。另一种翻译方式是先对专利文本进行机器翻译，然后进行译后编辑，据统计，市面上翻译引擎对专利文本的翻译经常存在语义缺失、语义不准确、术语错误等问题，其中术语错误更是占了翻译错误的很大比例，这就对机器翻译技术提出了更高的要求，如何利用术语词表改进机器翻译的质量值得深入研究。无论是人工翻译还是机器翻译，都离不开领域术语库的构建，这些现象都凸显了领域术语抽取的重要性。

专利文献中的领域术语为专利文献分析提供了结构化知识单元，能够使查阅人员准确快捷的了解专利的方向以及核心技术。从专利文献中自动抽取术语，构建术语库的过程，对于机器翻译、对话系统、信息检索等方面发挥着重要的基础性作用。随着科学技术的不断发展、大量专业领域专利文本的不断申请，专业领域术语抽取需求也在不断扩大，此前依靠人工收集和传统机器学习算法的抽取方法已经远远不能满足人们的需求，利用深度学习实现更高效、更准确的自动抽取领域术语的方法已经成为必然的发展趋势。目前，已经有众多国内外学者对领域术语抽取做了大量的研究实验，主要研究方法包括基于规则的方法、基于统计的方法以及规则与统计两者相结合的方法。利用基于统计和规则的方法虽然取得了一定的效果，但专业领域(例如新能源领域等)的中文术语实体识别仍旧依赖人工界定的特征和领域专业知识，术语的识别精确率和召回率因受到特定领域情境的限制而无法推广应用。

发明内容

本申请的目的是提供一种专利术语抽取方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种专利术语抽取方法，包括：

利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量。

进一步地，所述专利术语抽取方法还包括：

将词向量输入到BiLSTM层进行语义编码，自动提取句子特征；

利用CRF层解码输出概率最大的预测标签序列，得到每个字符的标注类型，对序列中的实体提取分类。

进一步地，所述利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量，包括：

首先向量经过三个不同的全连接层，得到Q，K，V三个向i量，然后Q和K^T进行矩阵相乘得到单词和其他单词相关程度的向量QK^T，最后将标准化的QK^T放入到softmax激活函数中，得到词与词之间的关联度向量，再乘以V得到最终向量。

进一步地，BiLSTM层包括两个LSTM；

LSTM由t时刻的输入词x_t，细胞状态C_t，临时细胞状态

隐藏状态h_t，遗忘门f_t，记忆门i_t和输出门O_t组成。LSTM将计算有用的信息传入到下一时刻，无用的信息被丢弃，并在每个时间步输出隐藏状态h_t，其中遗忘，记忆与输出由通过上个时刻的隐藏状态h_t-1和当前输入x_t计算出来的遗忘门f_t，记忆门i_t，输出门o_t来控制，包括公式8-12：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t)。

进一步地，利用CRF层解码输出概率最大的预测标签序列包括：

对于任一输入序列X＝(x₁，x₂，...，x_n)，其对应标签序列Y＝(y₁，y₂，...，y_n)的CRF评估分数函数为

其中W是转移分数矩阵，

表示标签y_i-1转移到标签y_i的分数，

表示第i个词x_i映射到标签y_i的非归一化概率。

预测序列概率p(Y|X)用Softmax函数进行计算

两头取对数得到预测序列的似然函数

解码时，

表示真实的标注序列，Y_x表示所有可能的标注序列，通过动态规划算法得到最大分数的输出预测标签序列Y^*，即为CRF层的最终标注序列：

。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的专利术语抽取方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的专利术语抽取方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的专利术语抽取方法，利用BERT对专业领域专利文本进行向量化，能有效提高术语抽取结果的准确率，抽取效果优于当前主流的深度学习术语抽取模型，在专业领域专利文本术语抽取中，准确率、召回率和F1值均有了显著提升，可以准确快速识别出字符较多的专业领域专利长序列术语。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施方式中的BERT-BiLSTM-CRF新能源专利术语抽取模型结构图；

图2为本申请一实施方式中的Transformer的编码器结构图；

图3为本申请一实施方式中的LSTM单元结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

鉴于近年来BERT预训练语言模型在英文自然语言处理(NLP)任务中的优异表现，自动挖掘隐含特征可以有效解决发现新词的特点，同时减少人工定义特征和对领域知识过度依赖的问题。本申请的一个实施例提出了一种专利术语抽取方法。

本申请实施例从深度学习的角度出发，提出基于BERT-BiLSTM-CRF的专业领域专利术语抽取模型。该模型首先利用BERT中文预训练向量将专业领域专利文本转为字符级嵌入向量训练出单词的字符集特征，然后将字符集特征输送到BiLSTM模型进行训练，更深层次地挖掘专利文本中术语与其它词汇之间的语义信息，更好地捕捉前后文隐含的信息，最后与CRF层相结合，解决输出标签之间的依赖关系问题，得到全局最优的术语标记序列。

1基于BERT-BiLSTM-CRF的术语抽取模型

近年来不依赖人工特征的端到端BiLSTM-CRF模型成为术语识别的主流模型，随着在自然语言处理领域对深度神经网络模型研究的不断深入，不少研究指出，经过预训练的词嵌入模型能更好的理解文本语义信息，应用到专业术语识别这一类命名实体识别(NER)任务中能更好的提高实体识别的结果，提升后续实验任务的准确性。

1.1 BERT-BiLSTM-CRF专业领域专利术语抽取模型整体框架

BERT-BiLSTM-CRF专业领域专利术语抽取模型整体结构如图1所示，首先是BERT预训练语言模型层，被标注过的字符级语料经过该层将每个字符转化为低维的词向量。其次是BiLSTM层，将上一层输出的词向量序列输入到这一层进行语义编码，自动提取句子特征。最后是CRF层，利用这一层解码输出概率最大的预测标签序列，得到每个字符的标注类型，对序列中的实体提取分类，最终实现专业领域专利术语的抽取。与其他基于深度学习的术语抽取模型相比，该模型最主要的区别是利用了Google在大规模中文语料上习得的BERT预训练中文向量，因为其更强的上下文长距离语义学习能力，可以更好地解决字向量一词多义的问题，更深层次地挖掘专业领域专利文本的特征，为下游任务提供更丰富的语义信息。

1.2 BERT预训练语言模型

从one-hot语言模型的提出，再到Word2Vec、Glove，近几年又有ELMO、GPT到BERT预训练模型的出现，语言模型对文本语义的表征提取更加丰富。但语言模型也存在着自身的局限性。其中one-hot向量稀疏，无法刻画单词间的相似度，容易导致模型泛化能力差。Word2Vec和Glove单层神经网络模型训练出来的词向量属于静态Word Embedding，与上下文无关，一词只有一个词向量，无法表示一词多义。为了改进此问题，ELMo模型使用双向LSTM语言模型进行预训练，根据具体输入，得到与上下文依赖的当前词表示并加入到有监督模型中，但只是两个单向的LSTM在最高层进行简单的拼接，根据上下文对embedding动态调整，效果提升有限。OpenAI GPT模型利用Transformer网络代替LSTM作为语言模型来更好的捕获长距离语言结构，但GPT是从左到右受限制的单向Transformer语言模型，只能捕获单向的语义信息，无法获取一个字词的上下文，BERT模型则是综合了ELMO和GPT这两者的优势，利用Transformer的编码器作为语言模型的基础，self-Attention机制获取单词与单词之间的语义权重，模型上下层直接相互连接，所以，BERT预训练模型与其他语言模型相比，具有更强的上下文长距离语义学习能力，相应生成的字嵌入分布式表示具有更强的语义表征优势。

BERT模型的英文全称是Bidirectional Encoder Representation fromTransformers，输入的字序列由字向量、文本向量和位置向量拼接得到E₁到E_N向量。再通过Transformer层得到最终的特征向量T₁到T_N。在BERT中只用到了Transformer的编码结构，通过双向的Transformer编码器代替了LSTM，BERT能同时获取句子前后两个方向的信息，获取更多上下文信息，使词嵌入具有更丰富的语义表示。

Transformer之所以具有较强的特征提取能力，是由于其内部的多头注意力机制。self-attention机制主要是根据同一个句子中词与词之间的关联程度调整权重系数矩阵来获取词的表征，也就是说，BERT模型对每个单词编码时，都会考虑到句子中其他单词的语义权重，因此具有很强的编码能力。具体操作可以解释为：首先向量经过三个不同的全连接层，得到Q，K，V三个向i量，然后Q和K^T进行矩阵相乘得到单词和其他单词相关程度的向量QK^T。最后将标准化的QK^T放入到softmax激活函数中，得到词与词之间的关联度向量，再乘以V得到最终向量，如公式1所示：

再通过多头结构拼接向量结果：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^o#(2)

为了使网络更容易训练，transformer还引入了残差连接和层归一化：

FFN＝max(0，xW₁+b₁)W₂+b₂#(5)

为了解决注意力机制不提取时序特征这个问题，Transformer在数据预处理前加入了位置编码，并与输入向量数据进行求和，得到句子中每个字的相对位置。

最后，BERT将位置嵌入和词嵌入拼接起来作为模型输入，如图2所示。

1.3 BiLSTM层

LSTM的全称是Long Short-Term Memory，它是循环神经网络RNN的一种变体，巧妙地运用门控概念实现长期记忆，有效解决了RNN训练时所产生的梯度爆炸或梯度消失的问题，非常适合时序类型的数据，比如文本数据。LSTM单元结构如图3所示。

LSTM模型由t时刻的输入词x_t，细胞状态C_t，临时细胞状态

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)#(8)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)#(9)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)#(10)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)#(11)

h_t＝o_ttanh(c_t)#(12)

改进的LSTM通过门控机制实现长时序类型数据的编码，但是单向的LSTM只能对数据从一个方向编码，即无法编码从后到前的信息。BiLSTM综合考虑了正向特征提取和逆向特征提取，构建了两个方向相反的隐藏层，通过这种方式，BiLSTM可以更好地捕捉双向的语义依赖，取得更好的语义表达效果。

1.4 CRF层

经过BiLSTM层的词嵌入向量充分考虑了上下文信息，但是输出的预测标签并没有考虑标签之间的依赖信息。比如以“I-TERM”作为单词首词的标签就是一个非法标签，因为一个单词只可能是两种情况，一种是术语，标签是“B-TERM”，一种不是术语，标签是“O-TERM”，利用条件随机场模型则可以规避这种非法情况的发生。条件随机场模型(CRF，Conditional Random Field)为预测的标签添加一些约束，通过概率转移矩阵捕捉标签之间的依赖关系，排除非法用语的情况，获得一个最优的预测序列，弥补BiLSTM的缺点。

对于任一输入序列X＝(x₁，x₂，...，x_n)，其对应标签序列Y＝(y₁，y₂，...，y_n)的CRF评估分数函数可以由公式13表示：

其中W是转移分数矩阵，

表示标签y_i-1转移到标签y_i的分数，

表示第i个词x_i映射到标签y_i的非归一化概率。

预测序列概率p(Y|X)可以用Softmax函数进行计算：

两头取对数得到预测序列的似然函数：

解码时，

针对专业领域专利文本进一步提升术语抽取准确率的任务，本申请实施例提出了基于BERT-BiLSTM-CRF的专业领域专利术语抽取方法，主要包括以下3个贡献点：1)构建了一个专业领域专利文本的语料库以及领域词典，包含3002条专业领域专利语料以及26873个术语词汇。2)提出了基于BERT-BiLSTM-CRF的专业领域专利术语抽取研究方法，通过BERT预训练模型对专业领域专利文本进行文本向量化，以更好地捕捉文本的语义，与其他深度学习抽取模型相比，本申请实施例提出的方法在准确率、召回率和F1值均有了显著提升。3)本申请实施例提出的方法能有效识别字符较多的专利长序列术语，对领域词典的构建起到了很大的帮助作用。

本申请实施例针对专业领域中文术语的抽取任务，构建了一个专业领域专利文本的语料库和领域词典，提出了一种基于深度学习的BERT-BiLSTM-CRF专业领域专利术语抽取方法，利用BERT对专业领域专利文本进行向量化，能有效提高术语抽取结果的准确率，抽取效果优于当前主流的深度学习术语抽取模型，并在专业领域专利文本术语抽取中得到了实际应用，可以准确快速识别出字符较多的专业领域专利长序列术语。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。