CN114444470B

CN114444470B - 专利文本中的领域命名实体识别方法、装置、介质及设备

Info

Publication number: CN114444470B
Application number: CN202210081976.0A
Authority: CN
Inventors: 严妍; 彭祖剑; 汪敏; 裴非; 石鑫; 白杨
Original assignee: Beijing Kaipuyun Information Technology Co ltd; Cape Cloud Information Technology Co ltd
Current assignee: Beijing Kaipuyun Information Technology Co ltd; Cape Cloud Information Technology Co ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-12-02
Anticipated expiration: 2042-01-24
Also published as: CN114444470A

Abstract

本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备，属于计算机技术领域。所述方法包括：获取训练数据，训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体；利用训练数据对BART预训练模型进行训练；根据预设的Prompt模板和训练数据生成Prompt数据，其中，Prompt模板是针对同一专利领域中领域命名实体的特点创建的，且不同专利领域的Prompt模板不同；利用Prompt数据对训练后的BART模型进行调优，得到领域命名实体识别模型；利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度，也提高了识别的准确率。

Description

专利文本中的领域命名实体识别方法、装置、介质及设备

技术领域

本申请实施例涉及芯片安全技术领域，特别涉及一种专利文本中的领域命名实体识别方法、装置、介质及设备。

背景技术

专利文本中通常都包含一些领域命名实体，在进行专利检索时，可以先识别出专利文本中的领域命名实体，再基于领域命名实体计算不同专利文本之间的相似度，从而可以通过领域命名实体来辅助专利检索。

在识别领域命名实体时，计算机设备可以采用深度学习模型(如Transformer、BERT等)结合CRF(Conditional Random Field，条件随机场)等来识别专利文本摘要、权利要求书以及说明书中的领域命名实体。

由于不同专利领域中领域命名实体之间的差别较大，所以，采用上述方式来识别不同专利领域的领域命名实体的难度较大，导致领域命名实体识别的准确率较低。

发明内容

本申请实施例提供了一种专利文本中的领域命名实体识别方法、装置、介质及设备，用于解决识别不同专利领域的领域命名实体的难度较大，导致领域命名实体识别的准确率较低的问题。所述技术方案如下：

一方面，提供了一种专利文本中的领域命名实体识别方法，所述方法包括：

获取训练数据，所述训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体，所述字段包括摘要、权利要求书和说明书中的至少一种；

利用所述训练数据对BART预训练模型进行训练；

根据预设的Prompt模板和所述训练数据生成Prompt数据，其中，所述Prompt模板是针对同一专利领域中领域命名实体的特点创建的，且不同专利领域的Prompt模板不同；

利用所述Prompt数据对训练后的BART模型进行调优，得到领域命名实体识别模型；

利用所述领域命名实体识别模型识别各个专利文本中的领域命名实体。

在一种可能的实现方式中，所述根据预设的Prompt模板和所述训练数据生成Prompt数据，包括：

获取每个专利领域的Prompt模板，所述Prompt模板是按照每个领域命名实体所属的专利领域创建的；

根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句；

将每个字段中的领域命名实体替换为对应的Prompt语句，得到Prompt数据。

在一种可能的实现方式中，当所述Prompt模板中包括领域命名实体变量和专利领域时，所述根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句，包括：

将每个领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，得到Prompt语句。

在一种可能的实现方式中，当所述Prompt模板中包括领域命名实体变量和实体类型变量时，或者，当所述Prompt模板中包括领域命名实体变量、实体类型变量和专利领域时，所述根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句，包括：

对于每个领域命名实体，获取所述领域命名实体所属的实体类别，所述实体类别是根据同一领域的专利文本的特点创建的；

将所述领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，将所述领域命名实体所属的实体类别赋值给对应的Prompt模板中的实体类别变量，得到Prompt语句。

在一种可能的实现方式中，所述获取训练数据，包括：

获取多篇专利文本；

对于每篇专利文本中的每个字段，对所述字段分别进行分字处理和分词处理，得到多个词条，所述词条包括字和词汇；

将每个词条的词标签设置为预定内容；

从所述多个词条中筛选领域命名实体，将每个领域命名实体的词标签由所述预定内容修改为实体类别标签。

一方面，提供了一种专利文本中的领域命名实体识别装置，所述装置包括：

获取模块，用于获取训练数据，所述训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体，所述字段包括摘要、权利要求书和说明书中的至少一种；

训练模块，用于利用所述训练数据对BART预训练模型进行训练；

生成模块，用于根据预设的Prompt模板和所述训练数据生成Prompt数据，其中，所述Prompt模板是针对同一专利领域中领域命名实体的特点创建的，且不同专利领域的Prompt模板不同；

调优模块，用于利用所述Prompt数据对训练后的BART模型进行调优，得到领域命名实体识别模型；

识别模块，用于利用所述领域命名实体识别模型识别各个专利文本中的领域命名实体。

在一种可能的实现方式中，所述生成模块，还用于：

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的专利文本中的领域命名实体识别方法。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的专利文本中的领域命名实体识别方法。

本申请实施例提供的技术方案的有益效果至少包括：

由于Prompt模板是针对同一专利领域中领域命名实体的特点创建的，且不同专利领域的Prompt模板不同，所以，在根据预设的Prompt模板和训练数据生成Prompt数据，利用Prompt数据对训练后的BART模型进行调优后，得到的领域命名实体识别模型能够针对不同专利领域的领域命名实体的特点来识别领域命名实体，从而能够准确识别各个专利领域的领域命名实体，既降低了专利文本中的领域命名实体的识别难度，也提高了识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的专利文本中的领域命名实体识别方法的方法流程图；

图2是本申请另一实施例提供的专利文本中的领域命名实体识别方法的方法流程图；

图3是本申请再一实施例提供的专利文本中的领域命名实体识别装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的专利文本中的领域命名实体识别方法的方法流程图，该专利文本中的领域命名实体识别方法可以应用于计算机设备中。该专利文本中的领域命名实体识别方法，可以包括：

步骤101，获取训练数据，该训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体，该字段包括摘要、权利要求书和说明书中的至少一种。

本实施例中，可以选取包含领域命名实体较多(即具有代表性的)的多篇专利文本来生成训练数据。具体的，对于每篇专利文本，可以先提取其中的字段，再对每个字段中的领域命名实体进行标注。在标注领域命名实体时，我们可以采用机器方式进行标注，也可以采用手动方式进行标注，还可以采用机器+手动方式进行标注。

以采用机器+手工方式进行标注为例，则计算机设备可以利用领域词典将一些常见的领域命名实体(如人参、三七等)收集起来，将字段中的这些领域命名实体标注出来，然后，再由人工将字段中未被发现的领域命名实体或标注错误的领域命名实体进行标注，这样，既可以快速得到训练数据，也可以提高训练数据的准确性。

本实施例中所需人工标注的训练数据不多，即只需要较少的训练数据即可达到很好的领域命名实体提取效果，减少了人工标注训练数据的工作量。

步骤102，利用训练数据对BART预训练模型进行训练。

将标注好的训练数据输入BART(Bidirectionaland Auto-RegressiveTransformers)预训练模型，再定义一组参数，可以得到这组参数对应的模型以及这个模型的精准率和召回率等指标。通过改变参数组合可以得到不同的模型，这样，我们可以根据需要选取精准率、召回率或F值等指标最高的参数组合，即可得到训练后的BART模型。

步骤103，根据预设的Prompt模板和训练数据生成Prompt数据，其中，Prompt模板是针对同一专利领域中领域命名实体的特点创建的，且不同专利领域的Prompt模板不同。

Prompt模板是为下游任务设计出来的一种输入形式或模板，它能够帮助预训练模型回忆起自己在预训练时学习到的东西。

由于不同专利领域的领域命名实体之间的差别较大，所以，可以针对每个专利领域中领域命名实体的特点创建Prompt模板，并针对不同的专利领域创建不同的Prompt模板。即，每个专利领域的领域命名实体对应于至少一个Prompt模板。这里所说的专利领域可以是中医药领域、机械领域、电学领域等任意领域。

本实施例中，计算机设备可以根据Prompt模板和训练数据生成Prompt数据，具体生成方式详见下面实施例中的描述。

步骤104，利用Prompt数据对训练后的BART模型进行调优，得到领域命名实体识别模型。

在调优过程中，当某个Prompt模板的识别效果不好时，我们可以重新设计Prompt模板，并利用新的Prompt模板生成Prompt数据，利用新的Prompt数据对BART模型进行调优。

步骤105，利用领域命名实体识别模型识别各个专利文本中的领域命名实体。

在得到领域命名实体识别模型后，我们可以利用领域命名实体识别模型识别专利文本中的领域命名实体。具体的，计算机设备可以将专利文本输入领域命名实体识别模型中，该领域命名实体识别模型最终会输出专利文本中的各个领域命名实体。

若领域命名实体识别模型对某个语句的识别结果不理想，我们可以将标注好的该语句加入到训练数据里，利用训练数据来重新训练模型。由于本实施例中对于训练数据量的要求并不高，所以，训练模型所需时间较少，训练效率较高。

综上所述，本申请实施例提供的专利文本中的领域命名实体识别方法，由于Prompt模板是针对同一专利领域中领域命名实体的特点创建的，且不同专利领域的Prompt模板不同，所以，在根据预设的Prompt模板和训练数据生成Prompt数据，利用Prompt数据对训练后的BART模型进行调优后，得到的领域命名实体识别模型能够针对不同专利领域的领域命名实体的特点来识别领域命名实体，从而能够准确识别各个专利领域的领域命名实体，既降低了专利文本中的领域命名实体的识别难度，也提高了识别的准确率。

请参考图2，其示出了本申请一个实施例提供的专利文本中的领域命名实体识别方法的方法流程图，该专利文本中的领域命名实体识别方法可以应用于计算机设备中。该专利文本中的领域命名实体识别方法，可以包括：

步骤201，获取训练数据，该训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体，该字段包括摘要、权利要求书和说明书中的至少一种。

当采用机器方式进行标注时，计算机设备可以获取多篇专利文本；对于每篇专利文本中的每个字段，对字段分别进行分字处理和分词处理，得到多个词条，词条包括字和词汇；将每个词条的词标签设置为预定内容；从多个词条中筛选领域命名实体，将每个领域命名实体的词标签由预定内容修改为实体类别标签。

以一个语句为例，计算机设备将其按字符切分，为得到的每个词条标注一个标签。假设预设内容为“O”，则计算机设备先将所有的词条的标签标注为“O”，然后，如果某个词条是领域命名实体，则将这个词条的标签标注成对应的实体类别。

在得到标注的领域命名实体后，计算机设备可以直接将标注的内容作为训练数据，也可以再采用人工方式对标注的内容进行检查。比如，对未被发现的领域命名实体或标注错误的领域命名实体进行标注，这样，既可以快速得到训练数据，也可以提高训练数据的准确性。本实施例中所需人工标注的训练数据不多，即只需要较少的训练数据即可达到很好的领域命名实体提取效果，减少了人工标注训练数据的工作量。

步骤202，利用训练数据对BART预训练模型进行训练。

将标注好的训练数据输入BART预训练模型，再定义一组参数，可以得到这组参数对应的模型以及这个模型的精准率和召回率等指标。通过改变参数组合可以得到不同的模型，这样，我们可以根据需要选取精准率、召回率或F值等指标最高的参数组合，即可得到训练后的BART模型。

步骤203，创建Prompt模板。

本实施例中创建的Prompt模板可以分为三类：

第一类Prompt模板中包括领域命名实体变量和专利领域，若以X表示领域命名实体，且专利领域为中医药领域，则Prompt模板可以是“[X]是中医药领域的实体”。

本实施例中，对于每个专利领域，可以预先根据本专利领域中领域命名实体的特点对领域命名实体进行分类，再针对每个实体类别创建一个Prompt模板。其中，实体类别是根据同一领域的专利文本的特点创建的。以中医药领域为例，则可以将本专利领域中的所有领域命名实体划分为成分、功效、发明领域和阶段活动这四个类别。

在此基础上，第二类Prompt模板中包括领域命名实体变量和实体类型变量，若以X表示领域命名实体，Y表示实体类别，则创建的Prompt模板可以是“[X]是[Y]实体”。

第三类Prompt模板中包括领域命名实体变量、实体类型变量和专利领域，若以X表示领域命名实体，Y表示实体类别，且专利领域为中医药领域，则Prompt模板可以是“[X]是中医药领域的[Y]实体”。

步骤204，获取每个专利领域的Prompt模板，Prompt模板是按照每个领域命名实体所属的专利领域创建的。

计算机设备可以获取创建好的每个专利领域的Prompt模板。

步骤205，根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句。

当Prompt模板中包括领域命名实体变量和专利领域时，根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句，可以包括：将每个领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，得到Prompt语句。具体的，计算机设备可以利用领域命名实体替换Prompt模板中的[X]，得到一个Prompt语句。

当Prompt模板中包括领域命名实体变量和实体类型变量时，或者，当Prompt模板中包括领域命名实体变量、实体类型变量和专利领域时，根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句，包括：对于每个领域命名实体，获取领域命名实体所属的实体类别，实体类别是根据同一领域的专利文本的特点创建的；将领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，将领域命名实体所属的实体类别赋值给对应的Prompt模板中的实体类别变量，得到Prompt语句。具体的，计算机设备可以利用领域命名实体替换Prompt模板中的[X]，利用实体类别替换Prompt模板中的[Y]，得到一个Prompt语句。

步骤206，将每个字段中的领域命名实体替换为对应的Prompt语句，得到Prompt数据。

步骤207，利用Prompt数据对训练后的BART模型进行调优，得到领域命名实体识别模型。

步骤208，利用领域命名实体识别模型识别各个专利文本中的领域命名实体。

本实施例中，计算机设备可以利用领域命名实体识别模型对每篇专利文本进行领域命名实体识别，得到每篇专利文本的领域命名实体集合，再使用每篇专利文本的标题、摘要和权利要求书进行建模，最后将词袋算法和语义算法融合，对建模后的专利文本之间的相似度进行计算，得到专利文本之间的语义相似度，根据语义相似度对专利文本进行排序。当一个专利文本的领域命名实体被识别地较准确时，表示这个专利文本的向量较接近真实文本，进而促进文本相似度的计算和近似文本的检索推荐。

请参考图3，其示出了本申请一个实施例提供的专利文本中的领域命名实体识别装置的结构框图，该专利文本中的领域命名实体识别装置可以应用于计算机设备中。该专利文本中的领域命名实体识别装置，可以包括：

获取模块310，用于获取训练数据，训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体，字段包括摘要、权利要求书和说明书中的至少一种；

训练模块320，用于利用训练数据对BART预训练模型进行训练；

生成模块330，用于根据预设的Prompt模板和训练数据生成Prompt数据，其中，Prompt模板是针对同一专利领域中领域命名实体的特点创建的，且不同专利领域的Prompt模板不同；

调优模块340，用于利用Prompt数据对训练后的BART模型进行调优，得到领域命名实体识别模型；

识别模块350，用于利用领域命名实体识别模型识别各个专利文本中的领域命名实体。

在一个可选的实施例中，生成模块330，还用于：

获取每个专利领域的Prompt模板，Prompt模板是按照每个领域命名实体所属的专利领域创建的；

在一个可选的实施例中，当Prompt模板中包括领域命名实体变量和专利领域时，生成模块330，还用于：

在一个可选的实施例中，当Prompt模板中包括领域命名实体变量和实体类型变量时，或者，当Prompt模板中包括领域命名实体变量、实体类型变量和专利领域时，生成模块330，还用于：

对于每个领域命名实体，获取领域命名实体所属的实体类别，实体类别是根据同一领域的专利文本的特点创建的；

将领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，将领域命名实体所属的实体类别赋值给对应的Prompt模板中的实体类别变量，得到Prompt语句。

在一个可选的实施例中，获取模块310，还用于：

获取多篇专利文本；

对于每篇专利文本中的每个字段，对字段分别进行分字处理和分词处理，得到多个词条，词条包括字和词汇；

将每个词条的词标签设置为预定内容；

从多个词条中筛选领域命名实体，将每个领域命名实体的词标签由预定内容修改为实体类别标签。

综上所述，本申请实施例提供的专利文本中的领域命名实体识别装置，由于Prompt模板是针对同一专利领域中领域命名实体的特点创建的，且不同专利领域的Prompt模板不同，所以，在根据预设的Prompt模板和训练数据生成Prompt数据，利用Prompt数据对训练后的BART模型进行调优后，得到的领域命名实体识别模型能够针对不同专利领域的领域命名实体的特点来识别领域命名实体，从而能够准确识别各个专利领域的领域命名实体，既降低了专利文本中的领域命名实体的识别难度，也提高了识别的准确率。

本申请一个实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的专利文本中的领域命名实体识别方法。

本申请一个实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的专利文本中的领域命名实体识别方法。

需要说明的是：上述实施例提供的专利文本中的领域命名实体识别装置在进行专利文本中的领域命名实体识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将专利文本中的领域命名实体识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的专利文本中的领域命名实体识别装置与专利文本中的领域命名实体识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种专利文本中的领域命名实体识别方法，其特征在于，所述方法包括：

利用所述训练数据对BART预训练模型进行训练；

利用所述领域命名实体识别模型识别各个专利文本中的领域命名实体；

所述根据预设的Prompt模板和所述训练数据生成Prompt数据，包括：获取每个专利领域的Prompt模板，所述Prompt模板是按照每个领域命名实体所属的专利领域创建的；根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句；将每个字段中的领域命名实体替换为对应的Prompt语句，得到Prompt数据；

当所述Prompt模板中包括领域命名实体变量和专利领域时，所述根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句，包括：将每个领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，得到Prompt语句；

当所述Prompt模板中包括领域命名实体变量和实体类型变量时，或者，当所述Prompt模板中包括领域命名实体变量、实体类型变量和专利领域时，所述根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句，包括：对于每个领域命名实体，获取所述领域命名实体所属的实体类别，所述实体类别是根据同一领域的专利文本的特点创建的；将所述领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，将所述领域命名实体所属的实体类别赋值给对应的Prompt模板中的实体类别变量，得到Prompt语句。

2.根据权利要求1所述的方法，其特征在于，所述获取训练数据，包括：

获取多篇专利文本；

将每个词条的词标签设置为预定内容；

3.一种专利文本中的领域命名实体识别装置，其特征在于，所述装置包括：

识别模块，用于利用所述领域命名实体识别模型识别各个专利文本中的领域命名实体；

所述生成模块，还用于：获取每个专利领域的Prompt模板，所述Prompt模板是按照每个领域命名实体所属的专利领域创建的；根据每个领域命名实体和对应专利领域的Prompt模板生成Prompt语句；将每个字段中的领域命名实体替换为对应的Prompt语句，得到Prompt数据；

当所述Prompt模板中包括领域命名实体变量和专利领域时，所述生成模块，还用于：将每个领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，得到Prompt语句；

当所述Prompt模板中包括领域命名实体变量和实体类型变量时，或者，当所述Prompt模板中包括领域命名实体变量、实体类型变量和专利领域时，所述生成模块，还用于：对于每个领域命名实体，获取所述领域命名实体所属的实体类别，所述实体类别是根据同一领域的专利文本的特点创建的；将所述领域命名实体赋值给对应的Prompt模板中的领域命名实体变量，将所述领域命名实体所属的实体类别赋值给对应的Prompt模板中的实体类别变量，得到Prompt语句。

4.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1或2所述的专利文本中的领域命名实体识别方法。

5.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1或2所述的专利文本中的领域命名实体识别方法。