CN116402055A

CN116402055A - 一种专利文本实体的抽取方法、装置、设备和介质

Info

Publication number: CN116402055A
Application number: CN202310594616.5A
Authority: CN
Inventors: 冉从敬; 王福新; 张逸人; 黄海瑛; 丁群哲; 李旺; 田文芳; 马丽娜; 刘妍; 何梦婷; 张向春; 杨添添; 刘雅卓
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-07-07
Anticipated expiration: 2043-05-25
Also published as: CN116402055B

Abstract

本申请公开了一种专利文本实体的抽取方法、装置、设备及介质，根据权利要求文本中的权利要求主题、权利要求引用关系和权利要求序号生成至少一个三元组，并根据三元组生对应成权利要求主题的引用关系拓扑图；将各个引用关系拓扑图对应的权利要求文本输入至预训练模型bert中，生成第一实体对；按照引用关系将各个引用关系拓扑图对应的权利要求文本划分为至少一个技术方案块，并分别将技术方案块输入至预训练模型bert中，生成对应的技术方案实体对；对技术方案实体对进行拼接生成第二实体对；剪切融合第一实体对和第二实体对生成权利要求实体对。根据权利要求主题的整体文本和技术方案块文本提取实体对，使得生成的权利要求实体对具有更高的准确度。

Description

一种专利文本实体的抽取方法、装置、设备和介质

技术领域

本申请涉及文本实体抽取技术领域，尤其涉及一种专利文本实体的抽取方法、装置、设备和介质。

背景技术

数据与我们的日常生活息息相关，从最初的计算机、摄像头到现在的大数据、人工智能，我们在不断升级操作数据的方式和手段。大数据是指越来越庞大、越来越复杂、数据流转越来越快速的数据集，特别是数据源不定的数据集，高速Velocity，大量Volume，多样化Variety即为大数据的3V特性。

数据的一部分表现形式是非结构化的文本数据。如何把这些非结构化的文本数据转化为结构化的信息，更加准确地抽取出目标信息，并基于这些信息进行进一步的研究和应用，成为了当前的研究热点。而信息抽取，就是解析海量文本数据的主要手段之一。

信息抽取（Information Extraction，IE）是从自然语言文本中抽取出任务所需的特定信息，帮助我们将海量内容进行自动分类、提取和重构的一种技术。对于非结构化海量文本数据的信息抽取，它的主要任务是自动抽取指定类型的实体、关系和事件等事实信息。

随着我国发明专利数量逐年增加，想要从庞大的专利数量中获取有价值的信息也变得越来越困难，那么如何从海量专利数据中提取关键的信息，成为亟需解决的技术问题。

发明内容

本申请的主要目的在于提供一种专利文本实体抽取方法、装置、设备和介质，旨在解决如何从专利文本中提取关键的信息的技术问题。

第一方面，本申请提供一种专利文本实体的抽取方法，所述方法包括以下步骤：

根据权利要求文本中的权利要求主题、对应的权利要求引用关系和对应的权利要求序号生成至少一个三元组，并根据所述三元组生成对应权利要求主题的引用关系拓扑图，其中所述三元组包括权利要求主题、权利要求引用关系和权利要求序号；

将各个所述引用关系拓扑图对应的权利要求文本输入至预训练模型bert中，生成第一实体对；

按照引用关系将各个所述引用关系拓扑图对应的权利要求文本划分为至少一个技术方案块，并分别将所述技术方案块输入至所述预训练模型bert中，生成对应的技术方案实体对；

对所述技术方案实体对进行拼接生成第二实体对；

剪切融合所述第一实体对和所述第二实体对生成权利要求实体对。

一些实施例中，所述将各个所述引用关系拓扑图对应的权利要求文本输入至预训练模型bert中，生成第一实体对，包括：

将所述引用关系拓扑图对应的权利要求文本转换为预设的文本格式后输入至所述预训练模型bert中，获取所述预训练模型bert生成的第一输出序列；

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

在所述第一输出序列中提取与所述首实体N对应的第一首实体N向量序列，与所述尾实体N对应的第一尾实体N向量序列、与所述首实体N+1对应的第一首实体N+1向量序列、与所述尾实体N+1对应的第一尾实体N+1向量序列；

将所述第一首实体N向量序列和所述第一尾实体N向量序列的均值作为所述首实体N的第一向量表示实体N；

将所述第一首实体N+1向量序列和所述第一尾实体N+1向量序列的均值作为所述首实体N+1的第一向量表示实体N+1；

将所述首实体类型N转换为第一向量表示实体类型N，将所述尾实体类型N+1转换为第一向量表示实体类型N+1；

将所述首实体N的第一向量表示实体N、所述首实体N+1的第一向量表示实体N+1、所述第一向量表示实体类型N和所述第一向量表示实体类型N+1按照所述首实体N与尾实体N+1之间的关系进行拼接，生成所述第一实体对。

一些实施例中，分别将所述技术方案块输入至所述预训练模型bert中，生成对应的技术方案实体对，包括：

分别将所述技术方案块转换为预设的文本格式后输入至所述预训练模型bert中，获取所述预训练模型bert生成的与各个技术方案块对应的第二输出序列；

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

在所述第二输出序列中提取与所述首实体N对应的第二首实体N向量序列，与所述尾实体N对应的第二尾实体N向量序列、与所述首实体N+1对应的第二首实体N+1向量序列、与所述尾实体N+1对应的第二尾实体N+1向量序列；

将所述第二首实体N向量序列和所述第二尾实体N向量序列的均值作为所述首实体N的第二向量表示实体N；

将所述第二首实体N+1向量序列和所述第二尾实体N+1向量序列的均值作为所述首实体N+1的第二向量表示实体N+1；

将所述首实体类型N转换为第二向量表示实体类型N，将所述尾实体类型N+1转换为第二向量表示实体类型N+1；

将所述首实体N的第二向量表示实体N、所述首实体N+1的第二向量表示实体N+1、所述第二向量表示实体类型N和所述第二向量表示实体类型N+1按照所述首实体N与尾实体N+1之间的关系进行拼接，生成与各个第二输出序列对应的技术方案实体对。

一些实施例中，所述对所述技术方案实体对进行拼接生成第二实体对，包括：

通过预设的循环神经网络对多个所述技术方案实体对中的多个实体关系进行相互关系分析，得到多个所述技术方案实体对的多个实体关系的相互关系信息；

将多个所述实体关系的相互关系信息映射到所述循环神经网络各个节点的连接关系中，以生成所述第二实体对；

其中，所述循环神经网络包括多个节点，多个所述技术方案实体对中的每个实体关系被输入到所述循环神经网络的不同节点中，所述循环神经网络根据多个所述实体关系的相互关系信息改变各个节点的连接关系，使多个所述实体关系的相互关系信息映射到所述循环神经网络各个节点的连接关系中。

一些实施例中，所述剪切融合所述第一实体对和所述第二实体对生成权利要求实体对，包括：

将所述第一实体对和所述第二实体对中相同的首实体和尾实体，作为所述权利要求实体对的首实体和尾实体，若所述第一实体对和所述第二实体对中不存在相同的首实体和尾实体，则遍历所述引用关系拓扑图对应的权利要求文本，确定所述第一实体对和所述第二实体对中各自首实体和尾实体的词频，将词频更高的首实体和尾实体，作为所述权利要求实体对的首实体和尾实体；

判断所述第一实体对和所述第二实体对的实体类型是否相同，若相同，则将相同的实体类型作为所述权利要求实体对的实体类型，否则，遍历所述技术方案实体对，将所述技术方案实体对中出现频率最高的实体类型作为所述权利要求实体对的实体类型，并根据相应的实体之间的关系进行拼接。

第二方面，本申请还提供一种专利文本实体的抽取装置，所述装置包括：

拓扑图生成模块，其用于根据权利要求文本中的权利要求主题、对应的权利要求引用关系和对应的权利要求序号生成至少一个三元组，并根据所述三元组生成对应权利要求主题的引用关系拓扑图，其中所述三元组包括权利要求主题、权利要求引用关系和权利要求序号；

第一实体对生成模块，其用于将各个所述引用关系拓扑图对应的权利要求文本输入至预训练模型bert中，生成第一实体对；

技术方案实体对生成模块，其用于按照引用关系将各个所述引用关系拓扑图对应的权利要求文本划分为至少一个技术方案块，并分别将所述技术方案块输入至所述预训练模型bert中，生成对应的技术方案实体对；

第二实体对生成模块，其用于对所述技术方案实体对进行拼接生成第二实体对；

权利要求实体对生成模块，其用于剪切融合所述第一实体对和所述第二实体对生成权利要求实体对。

一些实施例中，所述第一实体对生成模块还用于：

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

一些实施例中，所述技术方案实体对生成模块还用于：

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的专利文本实体的抽取方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的专利文本实体的抽取方法的步骤。

本申请提供一种专利文本实体的抽取方法、装置、设备及介质，通过根据权利要求文本中的权利要求主题、对应的权利要求引用关系和对应的权利要求序号生成至少一个三元组，并根据所述三元组生成对应权利要求主题的引用关系拓扑图；将各个所述引用关系拓扑图对应的权利要求文本输入至预训练模型bert中，生成第一实体对；按照引用关系将各个所述引用关系拓扑图对应的权利要求文本划分为至少一个技术方案块，并分别将所述技术方案块输入至所述预训练模型bert中，生成对应的技术方案实体对；对所述技术方案实体对进行拼接生成第二实体对；剪切融合所述第一实体对和所述第二实体对生成权利要求实体对。根据权利要求主题的整体文本和技术方案块文本提取实体对，使得生成的权利要求实体对具有更高的准确度。

通过本发明所构思的以上技术方案具有以下有益效果：

1.本发明技术方案通过将权利要求文本拆分成多个技术方案块的形式输入到所述预训练模型bert中，使得不会错过每个技术方案的实体对提取，再将多个技术方案实体对进行拼接，能够使得到的第二实体对更准确；

2.本发明技术方案通过对第一实体对和第二实体对进行剪切融合的目的在于，通过权利要求的整体文体作为输入提取实体对；通过技术方案块作为输入提取实体对，两种不同的方式提取权利要求实体对并进行融合，相当于从两个维度对提取的实体对进行校准融合，最终生成准确度更高的权利要求实体对。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种专利文本实体的抽取方法的流程示意图；

图2为权利要求串联递进式引用关系的拓扑图；

图3为权利要求并列式引用关系的拓扑图；

图4本申请实施例提供的一种专利文本实体的抽取装置的示意性框图；

图5为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种专利文本实体的抽取方法、装置、设备及介质。其中，该专利文本实体的抽取方法可应用于计算机设备中，该计算机设备可以是笔记本电脑、台式电脑等终端设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种专利文本实体的抽取方法的流程示意图。

如图1所示，该方法包括步骤S101至步骤S105。

步骤S101、根据权利要求文本中的权利要求主题、对应的权利要求引用关系和对应的权利要求序号生成至少一个三元组，并根据所述三元组生成对应权利要求主题的引用关系拓扑图，其中所述三元组包括权利要求主题、权利要求引用关系和权利要求序号。

具体的，从专利文本中提取权利要求文本，按照每个权利要求文本的权利要求主题、权利要求引用关系及权利要求序号生成至少一个三元组，其中，该三元组的格式为（权利要求主题，权利要求引用关系，权利要求序号）。接着根据三元组，生成针对每个主题的引用关系的拓扑图。需要理解的是生成的三元组的个数以及生成的引用关系拓图的个数与权利要求主题的个数对应。如一个权利要求中包括方法、装置和设备三个权利要求主题，则根据该权利要求文本可以生成方法主题的三元组、装置主题的三元组和设备主题的三元组，共三个三元组，并为每个三元组生成对应的引用关系的拓扑图。

示范性的，如图3和图4所示，当拓扑图为图3串联递进式引用关系拓扑图时，其对应的三元组为（权1的权利要求主题，（权7引权6，权6引权5，权5引权4，权4引权3，权3引权2，权2引权1），权利要求1-7），当拓扑图为图4并列式引用关系拓扑图时，其对应的三元组为（权1的权利要求主题，（权7引权2，权5和权6引权4，权5引权4，权4引权3，权3引权1，权2引权1），权利要求1-7）。

需要理解的是，本实施例中权利要求实体对的生成是以权利要求主题为单位进行的，即根据方法主题的权利要求文本生成方法主题的权利要求实体对，根据装置主题的权利要求文本生成装置主题的权利要求实体对，根据设备主题的权利要求文本生成设备主题的权利要求实体对。下面以权利要求文本中的一个权利要求主题为例进行具体说明，权利要求文本中的任意一个主题均可使用该方法。

步骤S2、将各个所述引用关系拓扑图对应的权利要求文本输入至预训练模型bert中，生成第一实体对。

具体的，将各个所述引用关系拓扑图对应的权利要求文本输入至预训练模型bert中，生成第一实体对，包括：

将所述引用关系拓扑图对应的权利要求文本转换为预设的文本格式后输入至所述预训练模型bert中，获取所述预训练模型bert生成的第一输出序列。

其中，所述文本格式中包括：首实体N，尾实体N，首实体类型N；首实体N+1，尾实体N+1，尾实体类型N+1；以及首实体N与尾实体N+1之间的关系；其中，N为首实体、尾实体和首实体类型的序号。

示范性的，所述文本格式为：((首实体N，尾实体N，首实体类型N)，(首实体N+1，尾实体N+1，尾实体类型N+1)，首实体N与尾实体N+1之间的关系)。

进一步的，在所述第一输出序列中提取与所述首实体N对应的第一首实体N向量序列，与所述尾实体N对应的第一尾实体N向量序列、与所述首实体N+1对应的第一首实体N+1向量序列、与所述尾实体N+1对应的第一尾实体N+1向量序列；将所述第一首实体N向量序列和所述第一尾实体N向量序列的均值作为所述首实体N的第一向量表示实体N；将所述第一首实体N+1向量序列和所述第一尾实体N+1向量序列的均值作为所述首实体N+1的第一向量表示实体N+1；将所述首实体类型N转换为第一向量表示实体类型N，将所述尾实体类型N+1转换为第一向量表示实体类型N+1；将所述首实体N的第一向量表示实体N、所述首实体N+1的第一向量表示实体N+1、所述第一向量表示实体类型N和所述第一向量表示实体类型N+1按照所述首实体N与尾实体N+1之间的关系进行拼接，生成所述第一实体对。

值得说明的是，本实施例中的预训练模型bert是一个语言模型，其用于将长句子切分成多个实体对，并提取关键实体对，其训练方法本领域技术人员悉知，在此不再赘述。

示范性的，当一个权利要求主题的引用关系拓扑图为图3串联递进式引用关系拓扑图时，将拓扑图对应的权利要求的整体文本输入到所述预训练模型bert中，经过对整体文本进行提取实体操作之后，生成所述第一实体对。或者，当一个权利要求主题的引用关系拓扑图为图4并列式引用关系拓扑图时，将拓扑图对应的权利要求的整体文本输入到所述预训练模型bert中，经过对整体文本进行提取实体操作之后，生成所述第一实体对。

步骤S3、按照引用关系将各个所述引用关系拓扑图对应的权利要求文本划分为至少一个技术方案块，并分别将所述技术方案块输入至所述预训练模型bert中，生成对应的技术方案实体对。

示范性的，按照引用关系将各个所述引用关系拓扑图对应的权利要求文本划分为至少一个技术方案块具体方法包括：

根据权利要求序号和引用关系划分技术方案块，当一个权利要求主题的引用关系拓扑图为图3所示的串联递进式引用关系拓扑图时，遍历该拓扑图对应的权利要求文本，按照所述引用关系划分成多个技术方案块，具体划分为：技术方案块1（权利要求1对应的技术方案）、技术方案块2（权利要求1到2对应的技术方案）、技术方案块3（权利要求1到3对应的技术方案）、技术发方案块4（权利要求1到4对应的技术方案）、技术方案块5（权利要求1到5对应的技术方案）、技术方案块6（权利要求1到6对应的技术方案）和技术方案块7（权利要求1到7对应的技术方案）。

或者，当一个权利要求主题的引用关系拓扑图为图4所示的并列式引用关系拓扑图时，遍历该拓扑图对应的权利要求文本，按照所述引用关系划分成多个技术方案块，具体划分为：技术方案块1（权利要求1对应的技术方案）、技术方案块2（权利要求1到2对应的技术方案）、技术方案块3（权利要求1到2到7对应的技术方案）、技术方案块4（权利要求1和3组成的技术方案）、技术方案块5（权利要求1和3和4组成的技术方案）、技术方案块6（权利要求1和3和4和5组成的技术方案）和技术方案块7（权利要求1和3和4和5和6组成的技术方案）。

进一步的，分别将所述技术方案块输入至所述预训练模型bert中，生成对应的技术方案实体对，包括：

其中，所述文本格式包括：首实体N，尾实体N，首实体类型N；首实体N+1，尾实体N+1，尾实体类型N+1；以及首实体N与尾实体N+1之间的关系；其中，N为首实体、尾实体和首实体类型的序号。

进一步的，在所述第二输出序列中提取与所述首实体N对应的第二首实体N向量序列，与所述尾实体N对应的第二尾实体N向量序列、与所述首实体N+1对应的第二首实体N+1向量序列、与所述尾实体N+1对应的第二尾实体N+1向量序列；将所述第二首实体N向量序列和所述第二尾实体N向量序列的均值作为所述首实体N的第二向量表示实体N；将所述第二首实体N+1向量序列和所述第二尾实体N+1向量序列的均值作为所述首实体N+1的第二向量表示实体N+1；将所述首实体类型N转换为第二向量表示实体类型N，将所述尾实体类型N+1转换为第二向量表示实体类型N+1；将所述首实体N的第二向量表示实体N、所述首实体N+1的第二向量表示实体N+1、所述第二向量表示实体类型N和所述第二向量表示实体类型N+1按照所述首实体N与尾实体N+1之间的关系进行拼接，生成与各个第二输出序列对应的技术方案实体对。

步骤S4、对所述技术方案实体对进行拼接生成第二实体对。

具体的，通过预设的循环神经网络对多个所述技术方案实体对中的多个实体关系进行相互关系分析，得到多个所述技术方案实体对的多个实体关系的相互关系信息；将多个所述实体关系的相互关系信息映射到所述循环神经网络各个节点的连接关系中，以生成所述第二实体对。

示范性的，本实施例中的循环神经网络为GRN神经网络。对于Bi-DAG-LSTM神经网络而言，节点的更新是逐个进行的，因此多个节点之间不能同时更新，而对于GRN神经网络而言，根据树状图的结构，多个节点是可以同步更新的，而且无需从两个方向进行两次更新。因此，本发明所述循环神经网络可以是GRN神经网络，用来提取每个实体关系的效率更高。此外，Bi-DAG-LSTM神经网络对树状图结构进行了拆分，实际上这样拆分的操作会使得每个实体关系有所损失，因此，采用GRN神经网络可以更加完整的对每个实体关系进行提取。

值得说明的是，本实施例通过将权利要求拆分成多个技术方案块的形式输入到所述预训练模型bert中，使得不会错过每个技术方案的实体对提取，再将多个技术方案实体对进行拼接，能够使所述第二实体对更准确。

步骤S5、剪切融合所述第一实体对和所述第二实体对生成权利要求实体对。

具体的，将所述第一实体对和所述第二实体对中相同的首实体和尾实体，作为所述权利要求实体对的首实体和尾实体，若所述第一实体对和所述第二实体对中不存在相同的首实体和尾实体，则遍历所述引用关系拓扑图对应的权利要求文本，确定所述第一实体对和所述第二实体对中各自首实体和尾实体的词频，将词频更高的首实体和尾实体，作为所述权利要求实体对的首实体和尾实体；

值得说明的是，对所述第一实体对和所述第二实体对进行剪切融合的目的在于，通过两种不同方式（通过权利要求的整体文体作为输入，提取实体对；通过技术方案块作为输入，提取实体对）提取权利要求实体对并进行融合，相当于从两个维度对提取的实体对进行校准融合，最终生成准确度更高的权利要求实体对；更好的是，此处还可以利用判别器先对所述第一实体和所述第二实体的准确度进行判断及调优，将调优的结果反馈给所述预训练模型bert，经过多轮训练后，将最后生成的所述第一实体对和所述第二实体对进行剪切融合，这样做的技术效果在于，最大程度的保证了生成的权利要求实体对的准确性。

本申请实施例提供的专利文本实体的抽取方法，具有以下有益效果：本发明技术方案通过将权利要求文本拆分成多个技术方案块的形式输入到所述预训练模型bert中，使得不会错过每个技术方案的实体对提取，再将多个技术方案实体对进行拼接，能够使得到的第二实体对更准确。本发明技术方案通过对第一实体对和第二实体对进行剪切融合的目的在于，通过权利要求的整体文体作为输入提取实体对；通过技术方案块作为输入提取实体对，两种不同的方式提取权利要求实体对并进行融合，相当于从两个维度对提取的实体对进行校准融合，最终生成准确度更高的权利要求实体对。

请参照图4，图4为本申请实施例提供的一种专利文本实体的抽取装置的示意性框图。

如图4所示，该装置包括：

其中，所述第一实体对生成模块还用于：

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

其中，技术方案实体对生成模块还用于:

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

其中，所述第二实体对生成模块还用于：

其中，所述权利要求实体对生成模块还用于:

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。

如图5所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种专利文本实体的抽取方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种专利文本实体的抽取方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元 (Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的专利文本实体的抽取方法可参照本申请的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种专利文本实体的抽取方法，其特征在于，包括：

对所述技术方案实体对进行拼接生成第二实体对；

2.根据权利要求1所述的专利文本实体的抽取方法，其特征在于，所述将各个所述引用关系拓扑图对应的权利要求文本输入至预训练模型bert中，生成第一实体对，包括：

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

3.根据权利要求1所述的专利文本实体的抽取方法，其特征在于，分别将所述技术方案块输入至所述预训练模型bert中，生成对应的技术方案实体对，包括：

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

4.按照权利要求3所述的专利文本实体的抽取方法，其特征在于，所述对所述技术方案实体对进行拼接生成第二实体对，包括：

5.根据权利要求1所述的专利文本实体的抽取方法，其特征在于，所述剪切融合所述第一实体对和所述第二实体对生成权利要求实体对，包括：

6.一种专利文本实体的抽取装置，其特征在于，包括：

7.按照权利要求6所述的专利文本实体的抽取装置，其特征在于，所述第一实体对生成模块还用于：

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

8.按照权利要求6所述的专利文本实体的抽取装置，其特征在于，所述技术方案实体对生成模块还用于：

其中，所述文本格式中包括：

首实体N，尾实体N，首实体类型N；

首实体N+1，尾实体N+1，尾实体类型N+1；以及

首实体N与尾实体N+1之间的关系；

其中，N为首实体、尾实体和首实体类型的序号；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的专利文本实体的抽取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至5中任一项所述的专利文本实体的抽取方法的步骤。