CN115730599A

CN115730599A - 基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品

Info

Publication number: CN115730599A
Application number: CN202211367549.5A
Authority: CN
Inventors: 刘悦; 刘勐; 邱锐玲; 李响; 王家彬; 温强; 孙世琦
Original assignee: Wuxi Ruiwen Technology Co ltd
Current assignee: Wuxi Ruiwen Technology Co ltd
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-03-03

Abstract

基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品，属于数据识别技术领域，解决用于专利关键信息识别的标注专利数据匮乏和准确性低问题。本发明的方法包括：将专利数据集划分成若干个小组；建立StructBERT模型，StructBERT模型利用最近邻分类模型获得专利数据集的标签概率分布；将标签概率作为CRF层的输入分数；将训练好的StructBERT模型作为自学习策略中的教师模型，利用教师模型为未标注数据生成软标签，获取自训练策略得到的标注数据；获取扩增数据集；获取学生模型；将扩展数据集作为专利数据集，训练自训练策略后的StructBERT模型；利用基于StructBERT的中文专利关键信息识别模型对中文专利关键信息进行识别。本发明适用于对中文专利关键信息的识别。

Description

基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品

技术领域

本申请涉及数据识别技术领域，尤其涉及中文专利关键信息的识别。

背景技术

专利关键信息抽取是从一篇专利文本中获取所解决的技术问题、使用的核心技术以及直接或间接产生的应用效果三部分专利关键信息。在分析一项专利时，这三部分可以概括为专利的重点。

命名实体识别任务旨在从非结构化文本中定位实体并分类为预先定义的实体类型的任务，例如人名、组织和位置等。

专利的这三种关键信息类型可以视为一种特殊的命名实体识别任务。因此，命名实体识别的各种技术和方法都可以考虑用于解决这一问题。

近年来，深度学习在NER领域取得了显著的成功，尤其是在诸如BERT和RoBERTa等自我监督的预训练语言模型(PLM)方面。最先进的(SoTA)NER模型通常使用PLM权重初始化，并通过标准的监督学习进行微调。尽管PLMs取得了巨大的成功，但它通常需要大量的领域标注语料才能发挥作用。然而，标注数据的代价是非常昂贵的，往往还需要丰富的领域知识和专家经验。

发明内容

本发明目的是为了解决现有用于专利关键信息识别的标注专利数据匮乏和准确性低问题，提供了基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品。

本发明是通过以下技术方案实现的，本发明一方面，提供一种基于StructBERT的中文专利关键信息识别方法，所述方法包括：

步骤1、将专利数据集划分成若干个小组，每个小组包含支持集和查询集两个部分，其中，支持集是标注的样本，用于训练模型，查询集是未含标注的样本，用于更新模型参数；

步骤2、建立StructBERT模型，所述StructBERT模型利用最近邻分类模型获得所述专利数据集的标签概率分布；

将所述标签概率作为CRF层的输入分数，所述CRF层的输出为预测序列的得分，其参数是标签转换矩阵；

步骤3、训练所述StructBERT模型；

步骤4、将所述训练好的StructBERT模型作为自学习策略中的教师模型，利用所述教师模型为未标注数据生成软标签，获取自训练策略得到的标注数据；

步骤5、利用所述专利数据集和所述自训练策略得到的标注数据，获取扩增数据集；

步骤6、将所述扩展数据集作为专利数据集，并利用步骤1至步骤3训练所述训练好的StructBERT模型，获取基于StructBERT的中文专利关键信息识别模型；

步骤7、利用所述基于StructBERT的中文专利关键信息识别模型对中文专利关键信息进行识别。

进一步地，所述专利数据集包括三种类型实体：解决问题、技术手段和实施效果。

进一步地，所述专利数据集采用BIO标注方式进行标注。

进一步地，所述BIO标注方式具体为：

采用BIO标注将每个元素标注为“B-X”、“I-X”或者“O”，对于实体类型X，“B-X”表示该元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

进一步地，步骤2中，所述利用最近邻分类模型获得所述专利数据集的标签概率分布，包括：

通过编码器获得支持集以及查询集中每个词的上下文表示，对于查询集中每个词x∈Q，计算其上下文表示和支持集中所有词x′∈S的上下文表示之间的欧式距离，计算公式为：

其中，d(f_θ(x)，f_θ(x′))表示x与x′之间的欧式距离，f_θ(x)和f_θ(x′)表示x与x′所对应的向量。

进一步地，步骤2中的所述预测序列的得分的计算方法为：

其中，s(X，y)为预测序列的得分，

表示句子中第i单词对应y_i标签的分数，y_i表示句子中第i个单词的标签，y₀和y_n是句子的开始位置和结束位置标签，

表示从标签y_i到标签y_i+1的转换分数。

进一步地，步骤3，具体包括：

利用对数概率训练所述StructBERT模型，当对数概率最大时，完成训练，所述对数概率为：

其中，Y是标签序列。

第二方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于StructBERT的中文专利关键信息识别方法的步骤。

第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行如上文所述的一种基于StructBERT的中文专利关键信息识别方法。

第四方面，本发明提供一种计算机程序产品，所述计算机程序被处理器执行时实现如上文所述的一种基于StructBERT的中文专利关键信息识别方法。

本发明的有益效果：

考虑到数据标注的代价，在小规模样本的条件下，本发明在基于度量学习的Few-shot Learning框架下，并设计实现了一种基于StructBERT模型，有效提升了专利命名实体识别的效果。

首先，本发明针对专利关键信息的多种表达形式，包括语序的多样性等，以导致识别不出或不准的问题，构建StructBERT模型对专利关键信息进行识别，可以提升预测识别的准确性；

其次，本发明利用自学习策略，基于初步训练好的StructBERT模型，对原始标注数据进行扩展，进而提高标注样本的数量，解决了小规模样本导致模型训练不足，以使得模型识别精度低的问题；

最后，扩展样本数据后，本发明再次利用该扩展后获取的大数量样本数据对StructBERT模型进行训练，以提高该模型的预测结果的准确性。

本发明适用于对中文专利关键信息的识别。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的模型训练框架图；

图2为本发明方法的中文专利关键信息识别方法流程示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施方式一、一种基于StructBERT的中文专利关键信息识别方法，所述方法包括：

需要说明的是，本步骤采用了小组训练策略，小组类似于batch，每经过1个小组更新一次模型参数。训练阶段，每个小组通过从训练集中随机选取N个类别，每个类别采样K个样本来构建支持集

通过从上述每个类别采样K′个样本来构建查询集

并且有

这样构建而成的任务称之为N-way K-shot任务，通过利用支持集S_train的信息预测查询集Q_train的标签的方式来训练小样本学习系统。

需要说明的是，在最近邻分类的基础上引入CRF添加标签约束，基于专利数据集，使用训练的方式构建CRF转移矩阵，确保预测标签的准确性和可靠性。

步骤3、训练所述StructBERT模型；

步骤4、将所述训练好的StructBERT模型作为自学习(self-training)策略中的教师模型，利用所述教师模型为未标注数据生成软标签，获取自训练策略得到的标注数据；

需要说明的是，使用了自学习策略进行半监督学习，利用未标记数据D^U和有限的标记数据D^L来提高模型的性能。自学习旨在用标注语料训练教师模型，然后用该模型预测未标注语料，并将预测结果和标注结果一起作为训练语料训练学生模型。

本实施方式中，首先，本实施方式针对专利关键信息的多种表达形式，包括语序的多样性等，以导致识别不出或不准的问题，构建StructBERT模型对专利关键信息进行识别，可以提升预测识别的准确性；

其次，本实施方式利用自学习策略，基于初步训练好的StructBERT模型，对原始标注数据进行扩展，进而提高标注样本的数量，解决了小规模样本导致模型训练不足，以使得模型识别精度低的问题；

最后，扩展样本数据后，本实施方式再次利用该扩展后获取的大数量样本数据对StructBERT模型进行训练，以提高该模型的预测结果的准确性。

实施方式二，本实施方式是对实施方式一所述的一种基于StructBERT的中文专利关键信息识别方法的进一步限定，本实施方式中，对所述专利数据集，做了进一步限定，具体包括：

所述专利数据集包括三种类型实体：解决问题、技术手段和实施效果。

本实施方式中，实体类型共划分为三种类型实体：解决问题(problem)、技术手段(method)、实施效果(effect)。解决问题主要指发明所要解决的某个当前的技术问题。如“一种芒果豆沙冰淇淋及其制备方法”中的“芒果豆沙冰淇淋”。技术手段主要指解决技术问题的必要技术特征。“将牛奶进行灌装”中的“灌装”均为技术手段实体。实施效果主要指由构成发明的技术特征直接带来的，或者是由所述的技术特征必然产生的技术效果。如“该益生菌冰淇淋粉制成的冰淇淋营养丰富”中的“营养丰富”。

实施方式三，本实施方式是对实施方式一所述的一种基于StructBERT的中文专利关键信息识别方法的进一步限定，本实施方式中，对所述专利数据集的标注方式，做了进一步限定，具体包括：

所述专利数据集采用BIO标注方式进行标注。

本实施方式中，由于专利中的关键信息进行标注时，会产生对于同一个命名实体中的多个词分别标注的可能，进而产生标注不准确的问题，解决联合标注问题的最简单的方法，就是将其转化为原始标注问题，标准做法就是使用BIO标注。

实施方式四，本实施方式是对实施方式三所述的一种基于StructBERT的中文专利关键信息识别方法的进一步限定，本实施方式中，对所述BIO标注方式，做了进一步限定，具体包括：

所述BIO标注方式具体为：

本实施方式中，给出了BIO标注方式的具体方法，用于对中文专利关键信息识别。

实施方式五，本实施方式是对实施方式一所述的一种基于StructBERT的中文专利关键信息识别方法的进一步限定，本实施方式中，对步骤2中，所述利用最近邻分类模型获得所述专利数据集的标签概率分布，做了进一步限定，包括：

需要说明的是，

在获取欧式距离后，再对于实体类型为y的支持集S_y和查询点x，采用公式

得到x的对应的正确的标签，具体为：依据最近邻原理，选取距离最近的x′所对应的实体类型y作为查询点x的预测结果。

利用本实施方式中的欧式距离，可以准确获取查询点对应的标签。NNshot旨在通过词之间的相似性进行分类。NNShot首先通过编码器获得支持集以及查询集中每个词的上下文向量表示，以便模型进行计算。对于每个词x∈Q，Q为查询集，计算其嵌入表示与支持集中所有词x′∈S的欧式距离，S为支持集，依据最近邻原理，距离越大，表示二者越不相似。最后，选则距离最近(即最相似)的x′所对应的实体类型作为该词的预测结果。

实施方式六，本实施方式是对实施方式一所述的一种基于StructBERT的中文专利关键信息识别方法的进一步限定，本实施方式中，对步骤2中的所述预测序列的得分的计算方法，做了进一步限定，具体包括：

步骤2中的所述预测序列的得分的计算方法为：

利用如下公式获取所述预测序列的得分，

其中，s(X，y)为预测序列的得分，

表示从标签y_i到标签y_i+1的转换分数。

本实施方式中，利用标签转换矩阵A，获取该预测序列的得分，以提高预测识别的准确性。

实施方式七，本实施方式是对实施方式一所述的一种基于StructBERT的中文专利关键信息识别方法的进一步限定，本实施方式中，对步骤3，做了进一步限定，具体包括：

其中，Y是标签序列。

本实施方式中，训练模型使正确标签序列的log-probability最大化，即模型达到最优，其中Y是所有可能的标签序列。

实施方式八，本实施方式是本发明方法的一种实施例，如图1所示，具体包括：

步骤1：采用BIO标注模式标注专利数据，数据集中实体类型共划分为三种类型实体：解决问题(problem)、技术手段(method)、实施效果(effect)。

步骤2：将数据集划分成若干个小组，每个小组内部包含支持集(support set)和查询集(query set)两个部分，支持集是标注的样本，用于训练模型，查询集是未含标注的样本，用于更新模型参数。一个小组就是一次选择支持集和查询集类别的过程，即用选择的某几个类训练一次模型，下一个小组，再选择其他几个类训练模型将其作为模型训练时每次的输入数据。

步骤3：StructBERT通过最近邻分类模型(Nearest neighbor classificationfor few-shot NER，NNShot)获得数据集的标签概率分布。

步骤4：将分类模型NNShot输出的标签概率P∈R^d*N作为CRF层的输入分数，其参数是标签转换矩阵A∈R^N+2，其中

表示从标签y_i到标签y_i+1的转换分数。对于一个预测的标签序列，定义其得分如下：

其中s(X，y)为序列得分，

表示句子中第i单词对应y_i标签的分数。y_i表示句子中第i个单词的标签y，y₀和y_n是句子的开始位置和结束位置标签，将它们添加到相应的的标签集中。因此，A是大小为N+2的方阵。

步骤5：训练模型使正确标签序列的log-probability最大化，即模型达到最优，其中Y是所有可能的标签序列：

步骤6：将上述步骤训练好的StructBERT模型作为自学习策略中的教师模型，使用该教师模型为未标注数据生成软标签。

最后使用步骤1中所使用的专利数据集和利用自训练策略得到的标注数据上采用交叉熵损失函数学习一个学生模型θ^stu，即使用自学习策略扩增训练集规模之后继续训练模型，学生模型为StructBERT模型(即基于StructBERT的中文专利关键信息识别模型)，具体包括：

步骤7：将使用自学习策略扩增的数据集划分成若干个小组，每个小组内部包含支持集(support set)和查询集(query set)两个部分，将其作为上述步骤训练好的StructBERT模型每次的输入数据继续进行训练。

步骤8：StructBERT通过最近邻分类模型(Nearest neighbor classificationfor few-shot NER，NNShot)获得数据集的标签概率分布。

步骤9：将分类模型NNShot的输出标签概率P∈R^d*N作为CRF层的输入分数，其参数是标签转换矩阵A∈R^N+2，其中A_i，j表示从标签i到标签j的转换分数。对于一个预测序列，定义其得分如下：

其中s(X，y)为序列得分，

步骤10：训练模型使正确标签序列的log-probability最大化，其中Y是所有可能的标签序列：

进一步的，步骤1中采用BIO标注将每个元素标注为“B-X”、“I-X”或者“O”，对于实体类型X，“B-X”表示该元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

实体类型共划分为三种类型实体：解决问题(problem)、技术手段(method)、实施效果(effect)。解决问题主要指发明所要解决的某个当前的技术问题。如“一种芒果豆沙冰淇淋及其制备方法”中的“芒果豆沙冰淇淋”。技术手段主要指解决技术问题的必要技术特征。“将牛奶进行灌装”中的“灌装”均为技术手段实体。实施效果主要指由构成发明的技术特征直接带来的，或者是由所述的技术特征必然产生的技术效果。如“该益生菌冰淇淋粉制成的冰淇淋营养丰富”中的“营养丰富”。

进一步的，步骤1中采用了小组训练策略，小组类似于batch，每经过1个小组更新一次模型参数。训练阶段，每个小组通过从训练集中随机选取N个类别，每个类别采样K个样本来构建支持集

通过从上述每个类别采样K′个样本来构建查询集

并且有

进一步的，步骤2中的NNshot，旨在通过词之间的相似性进行分类。NNShot首先通过编码器获得支持集以及查询集中每个词的上下文向量表示，以便模型进行计算。对于每个词x∈Q，Q为查询集，计算其嵌入表示与支持集中所有词x′∈S的欧式距离，S为支持集，计算公式如3-5示，依据最近邻原理，距离越大，表示二者越不相似。最后，选则距离最近(即最相似)的x′所对应的实体类型作为该词的预测结果。

进一步的，步骤2获取标签概率分布具体为：

步骤2.1：通过编码器获得支持集以及查询集中每个词的上下文表示，对于查询集中每个词x∈Q，计算其上下文表示和支持集中所有词x′∈S的上下文表示之间的欧式距离，计算公式如式3-6所示：

其中d(f_θ(x)，f_θ(x′))表示x与x′之间的欧式距离，f_θ(x)和f_θ(x′)表示x与x′所对应的向量。

步骤2.2：对于实体类型为y的支持集S_y和查询点x，采用公式3-7计算得到x的对应的正确的标签。

依据最近邻原理，距离越大，表示二者越不相似。最后，选则距离最近(即最相似)的x′所对应的实体类型y作为该词的预测结果。

进一步的，步骤3中在最近邻分类的基础上引入CRF添加标签约束，基于本专利数据，使用训练的方式构建CRF转移矩阵，确保预测标签的准确性。

进一步的，步骤5中使用了自学习策略进行半监督学习，利用未标记数据DU和有限的标记数据DL来提高模型的性能。自学习旨在用标注语料训练教师模型，然后用该模型预测未标注语料，并将预测结果和标注结果一起作为训练语料训练学生模型。

最终，完成基于StructBERT的中文专利关键信息识别模型的建立，利用它可完成对中文专利关键信息进行识别。

如图2所示，本发明基于StructBERT的中文专利关键信息的识别方法的流程为：

1.输入待识别的专利数据。

2.计算每个词上下文表示之间的欧式距离。

3.计算各个标签的概率，获取标签概率分布。

4.将上述标签概率作为CRF层的输入分数，计算预测序列的得分。

5.获取识别出的标签序列，并且输出中文专利关键信息的识别结果。

实施方式九，本实施方式是基于本发明方法的实验效果以及与其他方法的对比分析，具体包括：

为了验证模型的性能，基于某专利局标注的语料构建了命名实体识别数据集，并在数据集上进行了实验，实验结果表明，本发明提出的StructBERT模型具有较好的性能。

实验数据集：

构建了冰淇淋制备领域的专利关键信息标注数据集，数据来源于这一领域的272篇专利数据。每篇专利主要包括五部分内容：发明名称、摘要、权利要求书、说明书、附图，仅对发明名称、摘要以及第一权利要求书进行标注。数据集共包括三种类型的实体：解决问题(problem)、技术手段(method)、实施效果(effect)。

为了方便和其他命名实体识别方法进行对比，根据标点符号“、；，”将标注结果中长度较长的关键信息划分成长度较短的关键信息，如“防病抗癌、抗心脑血管病、抗肾衰、抗病毒、抗斑、减皱、增智、壮阳、消脂”在标注结果中为1个关键信息，划分后将变成9个关键信息。根据标注结果为每个词分配一个标签，并根据标点符号“。；，”将专利篇章划分成句子。

数据集总体统计如表1所示，技术手段实体占比最大。

表1数据集总体统计

实验设置与评价指标：

使用以下几个当前最具代表性的命名实体识别策略作为基线模型进行比较。

(1)BERT-tagger，通过在BERT基础上增加一个线性分类器来构建的，并在一个完全监督的设置下使用交叉熵作为目标进行训练。

(2)Lattice-BERT，它是NER领域发表的最新成果之一，基于词典让模型有效学习到中文字信息和词信息，利用中文的多粒度表示预训练语言模型。

(3)ProtoBERT，它也是另一种非常有效的小样本学习模型，其基于这样一个思想，即存在一个嵌入空间，其中每个类型的点围绕一个单一的原型表示聚集。原型网络学习一个度量空间，在该空间中，可以通过计算到每个类的原型表示的距离来进行分类。

(4)NNShot首先通过编码器获得支持集以及查询集中每个词的上下文表示，对于查询集中每个词x∈Q，计算其上下文表示和支持集中所有词x′∈S的上下文表示之间的欧式距离，计算公式如式6-1所示：

然后，对于类型为y的支持集S_y和查询点x，采用如下公式计算得到x对应的正确标签：

y^*＝argmin_y∈Y d_y(x) (6-2)

依据最近邻原理，距离越大，表示二者越不相似。最后，选则距离最近(即最相似)的x′所对应的实体类型作为该词的预测结果。

实验使用的预训练模型为Bert-Base-Chinese模型，Bert-Base-Chinese共12层，隐藏层维度为768，12个注意力头，110M的参数量。模型训练使用的优化器是AdamW，学习率设置为5e-05，Dropout值设为0.1。将272篇专利数据集按照8：2划分为训练集和测试集。

实体识别选用BIO标注模式。在评价阶段只有当一个实体的边界和实体类型完全正确时，才能将该实体视为正确结果。本文采用精确率P、召回率R和F1值作为评价指标。其中，TP表示预测正确的正例实体总数，TN表示预测错误的正例实体总数，FP表示预测正确的负例实体总数，FN表示预测错误的负例实体总数。

实验结果：

主要进行了以下两个实验。实验一只使用标注的专利数据训练模型。实验二额外使用自学习策略，引入1000篇未标注的专利数据。

实验一结果如下表所示：根据表2，可以发现，与基线相比，所提出的StructBERT模型实现了更好的性能。

表2整体实验结果

Model	P	R	F1
				基线：Lattice-BERT	0.333	0.359	0.346
基线：BERT-Tagger	0.380	0.432	0.405
				基线：ProtoBERT	0.472	0.438	0.454
基线：NNShot	0.475	0.463	0.469
				StructBERT	0.490	0.470	0.480

实验二中结果如下表所示：根据表3可以看出，引入自学习策略对Lattice-BERT的性能提升尤为显著，F1值提升了7.2个点，BERT-Tagger F1值提升了1.7个点，ProtoBERT的F1值提升了近1个点。尽管使用自学习后NNShot和StructBERT的F1值略有下降，但其准确率分别提升了3.7个点和3个点。整体来说，本发明提出的StructBERT模型取得了更好的性能。

表3整体实验结果

Model	P	R	F1
				基线：Lattice-BERT	0.419	0.417	0.418
基线：BERT-Tagger	0.412	0.433	0.422
				基线：ProtoBERT	0.456	0.470	0.462
NNShot	0.512	0.429	0.466
				StructBERT	0.520	0.423	0.467

本发明的方法适用于小样本数据条件，可以有效的应对标注的专利数据匮乏问题，并能够较好地识别中文专利中的解决的核心问题、有用的关键技术以及实施效果，填补这种信息识别的技术空白；在专利关键信息提取方面具有较好的性能。