CN112784603A

CN112784603A - 专利功效短语识别方法

Info

Publication number: CN112784603A
Application number: CN202110157623.XA
Authority: CN
Inventors: 吕学强; 游新冬; 董志安; 韩晶
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-11

Abstract

本申请公开了一种专利功效短语识别方法，包括：融合字符级特征和单词级特征；对字符级特征使用word2vec或Bert进行向量化，对单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量；在嵌入层融合各特征向量输入到BiLSTM或Transformer进行编码，最后使用CRF解码得到对应输入序列的标签序列。本申请实施例提供的专利功效短语识别方法，融合了融合字符级特征和单词级特征，使用注意力机制将词表匹配得到的对应字符的单词集合向量化后，与字符级各特征的向量表示融合为最终的输入向量，在精确度、召回率和F1值这三个方面的表现均更为优秀，精确度高，召回率高，F1值高，有效提高了专利功效短语的识别效果。

Description

专利功效短语识别方法

技术领域

本申请涉及文本处理技术领域，具体涉及一种专利功效短语识别方法。

背景技术

专利作为先进技术的最通用载体，其数量逐年高速增长。面对大规模的专利数据，专利分析者需要借助分析技术和管理工具对其进行科学地研究挖掘。在各种分析技术和管理工具中，专利技术功效图具有简洁明了、通俗易懂的特点，但由于人工构建的模式制作成本高、研发周期长，从而没有大规模的推广使用。如何借助计算机提高技术功效图构建的自动化程度，已成为智能构建技术功效图的研究重点。技术功效图的构建可以分为三部分：技术主题识别、功效短语识别、技术功效矩阵构建，其中技术主题和功效短语识别是构建技术功效图的基础。因此，技术主题和功效短语识别的自动化程度和精度的进步能够提高技术功效图的构建效率和质量。

根据技术短语和功效短语两者的识别顺序，可以分为异步模式和同步模式。其中，异步模式中对技术短语和功效短语分别采用不同的策略独立识别。异步模式中，技术功效词的识别主要通过规则和传统机器学习模型实现，但是面对多变的文本格式，人工定义的规则往往不具有完备性，识别结果的查全率较低，而传统机器学习方法存在查准率较低的问题。

同步识别模式中，技术短语和功效短语作为SAO(Subject-Action-Object)结构的组成部分同时被识别。同步模式依赖于NLP工具和专家意见，且不遵循SAO结构的技术和功效短语会被遗漏，从而导致查全率低。

综上所述，基于规则和基于SAO结构的识别方法无法覆盖专利文本中所有的功效短语，而基于传统机器学习方法的功效短语识别精度不足。

发明内容

本申请的目的是提供一种专利功效短语识别方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种专利功效短语识别方法，包括：

融合字符级特征和单词级特征。

进一步地，字符级特征包括字符、字符拼音和字符五笔，单词级特征为包含当前字符的单词的集合；所述方法还包括：对字符级特征使用word2vec或Bert进行向量化，对单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量；在嵌入层融合各特征向量输入到BiLSTM或Transformer进行编码，最后使用CRF解码得到对应输入序列的标签序列。

进一步地，基于字符输入的模型中，输入的句子视为一个字符序列。

进一步地，通过工具包pypinyin获得汉字字符对应的拼音，以拼音序列作为语料，使用word2vec训练得到拼音的向量化表示。

进一步地，通过官方五笔转换表将语料中的汉字转换为五笔码，再使用word2vec训练得到五笔码到向量表示的映射。

进一步地，单词特征的提取首先通过词表识别出字符序列中所有可能出现的单词，然后根据单词中字符出现的位置将其加入B、M、E、S四个单词集合，B、M、E、S分别代表字符出现在单词的开头、中间、结尾以及字符自身可看作单词；当集合中无匹配的单词，用None标记填充；

在获取到字符的各单词集合后，通过注意力机制获取集合中各单词向量的权重，进一步对单词向量加权求和得到集合向量；其中，单词向量权重的大小等价于单词和输入句子之间的语义关联程度，语义关联程度通过句子向量和单词向量的余弦相似度进行度量；句子向量通过Bert编码得到的各字符向量相加得到，句子向量需要通过一个全联接层投影到与单词向量相同的空间。

进一步地，使用一个单层BiLSTM作为编码层模型，解码层使用CRF模型一次对整个字符序列进行标签推理。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的专利功效短语识别方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的专利功效短语识别方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的专利功效短语识别方法，融合了融合字符级特征和单词级特征，使用注意力机制将词表匹配得到的对应字符的单词集合向量化后，与字符级各特征的向量表示融合为最终的输入向量，在精确度、召回率和F1值这三个方面的表现均更为优秀，精确度高，召回率高，F1值高，有效提高了专利功效短语的识别效果。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施方式的融合多特征的专利功效短语识别模型结构图；

图2为本申请一个实施方式的字符的单词特征提取示例图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

为了提升专利功效短语的抽取效果，本申请实施例将功效短语识别任务转换为命名实体识别(Named Entity Recognition，NER)。目前，神经网络方法已经在命名实体识别任务上取得了优异的效果。因此，本申请实施例采用融合多特征的神经网络方法实现专利功效短语的抽取。

命名实体识别是自然语言处理中的基础任务，目标是从文本中抽取出对应特定实体类型的短语，抽取出的实体短语可以辅助实现更复杂的NLP任务。

深度学习模型在NER任务中被广泛的使用，且融合字符和单词信息可以有效的提升NER性能。本申请实施例在模型嵌入层，引入了汉字字符的拼音和五笔特征，并利用注意力机制得到字符的单词级特征向量，最后融合多特征的向量作为BiLSTM+CRF模型的输入。

专利功效短语是专利文本的关键信息，专利功效短语的识别是构建技术功效图重要一环。针对现有功效短语识别方法精度较低的问题，本申请的一个实施例提供了一种融合多特征的专利功效短语识别方法。特征根据粒度大小，分为字符级特征和单词级特征，其中字符级特征包括字符、字符拼音和字符五笔，单词级特征为包含当前字符的单词的集合。字符级特征使用word2vec或Bert进行向量化，单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量。在嵌入层融合各特征向量输入到BiLSTM或Transformer进行编码，最后使用CRF解码得到对应输入序列的标签序列。

最优特征组合为word2vec字向量、Bert字向量、五笔特征向量和单词特征向量。在最优特征组合的基础上，使用BiLSTM+CRF识别专利功效词短语的F1值达到91.15％，识别效果优于现有方法，证明了本申请实施例的方法的有效性。

融合多特征的功效短语抽取

目前的中文专利功效短语抽取方法中，处理的最小单元普遍为单词，所以必须对语料进行分词。然而，分词操作会将部分功效短语划分为多个单词，导致现有方法在识别前需要考虑单词合并的问题。另一方面，在之前的研究中没有考虑到分词带来的另一问题：分词错误可能导致功效短语边界被错误分割，进而使得功效短语不能被识别。例如，对“具备高阻燃性能。”使用自然语言处理工具LTP分词，得到的结果为“具备/高阻/燃/性能/。”，“阻”被划分到了单词“高阻”中，从而导致功效短语“阻燃性能”无法被识别。

为了避免中文的分词操作对功效短语识别的影响，本申请实施例使用字符作为输入序列的最小单元，并在模型嵌入层融合字符级特征和单词级特征增强识别的效果，功效短语识别模型结构如图1所示。

1.1嵌入层

模型在嵌入层通过word2vec或预训练模型Bert将各特征转化为固定维数的稠密向量，再使用拼接的方式融合不同的特征组合得到最终输入编码层的向量。

1.1.1字符特征

基于字符输入的模型中，输入的句子视为一个字符序列s＝{c₁，c₂，...，c_n}∈V_c，其中V_c表示字符集合。

X＝bert(s) (2)

其中，e^c表示使用word2vec训练得到的字符向量查找表，

代表序列中第i个字符的word2vec向量，bert表示Bert预训练模型，

代表字符序列s输入到Bert后得到的矩阵输出，h_bert表示Bert的隐状态维数，

代表序列中第i个字符的Bert向量。

1.1.2拼音特征

汉字存在多音的现象，对应同一汉字可以表现为不同读音，而读音的变化通常代表着汉字语义的改变。人们通过汉字发音的变化可以感知不同的语义，神经网络模型也可以借助拼音特征学习拼音到语义的映射。本申请实施例通过工具包pypinyin获得汉字字符对应的拼音，以拼音序列作为语料，使用word2vec训练得到拼音的向量化表示。

p＝f_pyplnyln(s) (4)

其中，f_pyplnyln表示将字符序列映射为拼音序列的方法，e^py代表拼音码向量查找表，

表示序列中第i个字符的拼音对应的向量。

1.1.3五笔特征

拼音输入法是基于汉字发音，而五笔输入法基于汉字的结构。由于大量的汉字是象形文字，五笔输入法可用于找出潜在的语义关系以及单词边界。五笔相较于拼音可以得到不同层次的汉字语义，并且拥有相同结构的汉字组成词的几率更大，所以五笔有助于找到单词边界。本申请实施例通过官方五笔转换表将语料中的汉字转换为五笔码，再使用word2vec训练得到五笔码到向量表示的映射。

其中，f_wubl代表汉字到五笔码的映射，e^wb表示五笔码向量查找表，

代表输入序列中第i个字符的五笔码对应的向量。

1.1.4单词级特征

基于字符的模型进一步融入单词特征，有助于提升模型识别效果。单词特征可以通过修改编码层模型的结构融入，也可以在嵌入层直接获取并融入到输入向量中。本申请实施例选择在嵌入层融入单词特征，因为便于融合字符特征进行比较，并且单词特征与编码层模型的耦合度低，可以切换使用不同的编码器。

字符的单词级特征，对应为包含当前字符的单词集合，集合中单词的提取需要借助词表得到。单词特征的提取首先通过词表识别出字符序列中所有可能出现的单词，然后根据单词中字符出现的位置将其加入B、M、E、S四个单词集合，B、M、E、S分别代表字符出现在单词的开头、中间、结尾以及字符自身可看作单词。当集合中无匹配的单词，用None标记填充。如图2所示，字符“阻”对应出现在单词“高阻”的结尾以及单词“阻燃”和单词“阻燃性能”的开头，所以对应B＝{“阻燃”，“阻燃性能”}，E＝{“高阻”}；且该句子中未匹配到中间包含字符“阻”的单词，同时字符“阻”无法独立成词，故M＝{None}，S＝{None}。

在获得字符的单词特征后，对应每个字符的四个单词集合可以用如下公式表示：

在获取到字符的各单词集合后，通过注意力机制获取集合中各单词向量的权重，进一步对单词向量加权求和得到集合向量。其中，单词向量权重的大小等价于单词和输入句子之间的语义关联程度，语义关联程度通过句子向量和单词向量的余弦相似度进行度量。句子向量通过Bert编码得到的各字符向量相加得到，由于Bert输出的字符向量维度大于单词向量的维度，句子向量需要通过一个全联接层投影到与单词向量相同的空间。单词集合

的向量表示的计算过程如下：

其中，W_s，b_s为训练参数，x_s表示句子s的向量表示，e^w代表单词向量查找表，a_s，j表示单词集合

中第j个词与句子的关联程度，m对应为集合

中单词个数，

表示单词集合

对应的向量。对应字符的单词特征向量，由包含它的四个单词集合的向量表示融合得到：

1.2编码层

1.2.1 BiLSTM

循环神经网络(recurrent neural network，rnn)因其共享参数，循环计算的运行模式，能够有效的处理存在依赖关系的序列。在诸多改进的rnn结构中，BiLSTM因为能够处理长期依赖关系并且结合上下文进行编码的特点得到广泛的应用。本申请实施例将使用一个单层BiLSTM作为编码层模型，以下是对前向Istm计算过程的定义：

其中，σ表示sigmoid函数，

表示逐元素的乘积，W和b代表训练参数。后向Istm的定义和前向Istm相同，区别仅在于对序列建模的顺序相反，将前向Istm和后向Istm第i步的隐状态拼接得到字符c_i上下文相关的表示

1.2.2 Transformer

Transformer通过自注意力机制获取序列中元素的上下文依赖关系，在诸多自然语言处理任务上取得了重大突破。Transformer编码器由多头自注意力层和前馈神经网络层两部分构成，其中多头注意力层的基础是自注意力机制，自注意力机制的计算过程如以下公式所示：

Q，K，V＝HW_q，HW_k，HW_v，(19)

其中，W_q，W_k，W_q是将输入H投影到三个不同空间的参数矩阵，以上三个矩阵的大小都是

d代表输入的维度，d_k是一个超参数，Q_t是输入序列中第t个元素的查询向量，K_t是输入序列中第j个元素的键向量。多头自注意力使用多组W_q，W_k，W_q增强自注意力机制的效果，其计算过程定义如下：

head^(h)＝Attention(Q^(h)，K^(h)，V^(h))，(23)

MultiHead(H)＝Concat(head⁽¹⁾，...，head^(m))W^o.(24)

以上公式中m代表参数矩阵W_q，W_k，W_q的组数，h代表参数矩阵的索引，W^o代表大小为

的训练参数矩阵。多头注意力层的输出由前馈网络层进一步处理，处理过程如下所示：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (25)

其中W₁，W₂，b₁，b₂都是训练参数，

d_ff是超参数。

1.3解码层

在NER任务中，解码层通常使用CRF模型一次对整个字符序列进行标签推理：

其中，w_y′，y和b_y′，y是联系于标签对(y′，y)的训练参数，h_t表示编码层t时刻的输出，θ代表模型参数，Y_(s)表示字符序列s对应的所有可能出现的标签序列。标签推理过程中，CRF在给定输入序列s的情况下，需要找出使得条件概率最大的标签序列y^*：

标签序列y^*的查找问题可以使用维特比算法高效地解决。

为提高专利功效短语识别的效果，本申请实施例提出了一种融合多特征的功效短语识别方法。该方法在模型嵌入层融合了字符、字符五笔和字符拼音等字符级特征，其中字符特征的向量化兼顾了Bert预训练模型和word2vec模型。在此基础上，为补足基于字符输入的模型缺少单词信息的短板，使用注意力机制将词表匹配得到的对应字符的单词集合向量化后，与字符级各特征的向量表示融合为最终的输入向量，语义更加丰富的输入向量提高了模型识别的效果。与传统的CRF模型和未融合多特征的深度学习方法相比，本申请实施例的方法在精确度、召回率和F1值这三个方面的表现均更为优秀，精确度高，召回率高，F1值高，有效提高了专利功效短语的识别效果。

本申请另一个实施例，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的功效短语识别方法。

本申请另一个实施例，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的功效短语识别方法。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种专利功效短语识别方法，其特征在于，包括：

融合字符级特征和单词级特征。

2.根据权利要求1所述的专利功效短语识别方法，其特征在于，字符级特征包括字符、字符拼音和字符五笔，单词级特征为包含当前字符的单词的集合；所述方法还包括：对字符级特征使用word2vec或Bert进行向量化，对单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量；在嵌入层融合各特征向量输入到BiLSTM或Transformer进行编码，最后使用CRF解码得到对应输入序列的标签序列。

3.根据权利要求2所述的专利功效短语识别方法，其特征在于，基于字符输入的模型中，输入的句子视为一个字符序列。

4.根据权利要求2所述的专利功效短语识别方法，其特征在于，通过工具包pypinyin获得汉字字符对应的拼音，以拼音序列作为语料，使用word2vec训练得到拼音的向量化表示。

5.根据权利要求2所述的专利功效短语识别方法，其特征在于，通过官方五笔转换表将语料中的汉字转换为五笔码，再使用word2vec训练得到五笔码到向量表示的映射。

6.根据权利要求2所述的专利功效短语识别方法，其特征在于，单词特征的提取首先通过词表识别出字符序列中所有可能出现的单词，然后根据单词中字符出现的位置将其加入B、M、E、S四个单词集合，B、M、E、S分别代表字符出现在单词的开头、中间、结尾以及字符自身可看作单词；当集合中无匹配的单词，用None标记填充；

7.根据权利要求2所述的专利功效短语识别方法，其特征在于，使用一个单层BiLSTM作为编码层模型，解码层使用CRF模型一次对整个字符序列进行标签推理。

8.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-7中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-7中任一所述的方法。