CN116912047A

CN116912047A - 一种专利结构感知相似性检测方法

Info

Publication number: CN116912047A
Application number: CN202311178236.XA
Authority: CN
Inventors: 程戈; 尹智斌
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-10-20
Anticipated expiration: 2043-09-13
Also published as: CN116912047B

Abstract

本发明公开了一种专利结构感知相似性检测方法，包括以下步骤：输入待检测专利文档，提取待检测专利文档的结构性元素；根据待检测专利文档的结构性元素，构建专利文档的结构感知模型，并对专利文档的结构感知模型进行训练；所述结构感知模型包括深层编码器、浅层解码器和分类器；基于所述结构感知模型进行待检测专利文档与对比文件集的相似性比较，判断待检测专利文档与对比文件集中各对比文件的相似性。本发明解决了现有基于深度学习的专利相似度检测方法未考虑专利的结构信息导致专利相似度检测精度低以及效果不佳的技术问题。

Description

一种专利结构感知相似性检测方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种专利结构感知相似性检测方法。

背景技术

在各种应用中，如专利申请人需要进行检索工作列出相关文献，专利审查员和专利代理人需要通过检索相似专利确定技术方案的新颖性与创造性，专利律师进行侵权检索等，都需要对专利的相似性进行检测。目前，现有的深度学习技术多聚焦于提取专利的语义信息进行相似性检测，例如Bert模型、CNN模型以及RNN模型等，然而这些技术忽略了专利的结构信息。专利作为一种长文本，其各部分之间存在内在的逻辑关系，这种逻辑关系通过专利的结构得以表现。若依据此结构来设计模型，能更好的提取语义信息，特别是增强模型对关键词句的提取能力。因此，有必要对现有的专利相似性检测中的深度学习技术进行改进，使之能够利用专利的结构信息。

发明内容

本发明的主要目的是提出一种专利结构感知相似性检测方法，旨在解决现有基于深度学习的专利相似度检测方法未考虑专利的结构信息导致专利相似度检测精度低以及效果不佳的技术问题。

为实现上述目的，本发明提供一种专利结构感知相似性检测方法，其中，所述专利结构感知相似性检测方法包括以下步骤：

S1、输入待检测专利文档，提取待检测专利文档的结构性元素；

S2、根据待检测专利文档的结构性元素，构建专利文档的结构感知模型，并对专利文档的结构感知模型进行训练；所述结构感知模型包括深层编码器、浅层解码器和分类器；

S3、基于所述结构感知模型进行待检测专利文档与对比文件集的相似性比较，判断待检测专利文档与对比文件集中各对比文件的相似性。

优选方案之一，所述结构性元素包括标题、摘要、权利要求书、背景技术、发明内容和具体实施方式。

优选方案之一，所述步骤S2对专利文档的结构感知模型进行训练，包括：

第一训练阶段，基于所述待检测专利文档的结构性元素对深层编码器和浅层解码器语义提取进行训练；第二训练阶段，基于深层编码器提取的语义向量对分类器相似性判断进行训练。

优选方案之一，所述第一训练阶段包括对深层编码器进行训练，具体为：

获取待检测专利文档的任一结构性元素的token序列，随机将结构性元素的token序列第一百分比的token进行掩盖，形成深层编码器训练文本的token序列；

根据所述深层编码器训练文本对深层编码器进行训练，并计算深层编码器损失函数；

通过深层编码器器进行结构性元素文本的语义提取。

优选方案之一，所述计算深层编码器损失函数，具体为：

；

其中，为深层编码器的损失函数，为被预测的token，为待检测专利文档的任一结构性元素的token序列，为待检测专利文档的任一结构性元素的token 序列中被掩盖的第一百分比的token。

优选方案之一，所述通过深层编码器进行结构性元素文本的语义提取，具体为：

；

其中，为待检测专利文档的任一结构性元素的语义表示，为深层编码器，为深层编码器训练文本的token序列。

优选方案之一，所述第一训练阶段包括对浅层解码器进行训练，具体为：

获取待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列，随机将结构性元素的token序列第二百分比的token进行掩盖，形成浅层解码器训练文本的token序列；

根据所述深层编码器得到的待检测专利文档的任一结构性元素的语义表示以及浅层解码器训练文本对浅层解码器进行训练，并计算浅层解码器损失函数。

优选方案之一，所述计算浅层解码器损失函数，具体为：

；

其中，为浅层解码器的损失函数，为被预测的token，为待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列，为待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列中被掩盖的第二百分比的 token。

优选方案之一，所述基于深层编码器提取的语义向量对分类器相似性判断进行训练之后，还包括：计算分类器的损失函数，具体为：

；

其中，为分类器的损失函数，为待检测专利文档与对比文件集中对比文件的配对数量，为待检测专利文档与对比文件集中第n个对比文件配对真实值与预测值的交叉熵损失，为分类器经softmax函数的输出，为待检测专利文档与对比文件集中第n个对比文件配对的标签。

优选方案之一，其特征在于，所述深层编码器和浅层解码器采用多层堆叠的Transformer模型，所述分类器采用MLP模型。

本发明的上述技术方案中，该专利结构感知相似性检测方法包括以下步骤：输入待检测专利文档，提取待检测专利文档的结构性元素；根据待检测专利文档的结构性元素，构建专利文档的结构感知模型，并对专利文档的结构感知模型进行训练；所述结构感知模型包括深层编码器、浅层解码器和分类器；基于所述结构感知模型进行待检测专利文档与对比文件集的相似性比较，判断待检测专利文档与对比文件集中各对比文件的相似性。本发明解决了现有基于深度学习的专利相似度检测方法未考虑专利的结构信息导致专利相似度检测精度低以及效果不佳的技术问题。

在本发明中，根据提取并分析专利文档的结构性元素以及基于结构性元素之间的内在逻辑关系构建专利文档的结构感知模型，可以在检测专利相似性时考虑专利文档的结构信息，并利用该结构信息提升编码专利文本中关键词句的能力，从而提供更加精确的相似性检测结果。

附图说明

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例一种专利结构感知相似性检测方法的示意图；

图2为本发明实施例结构感知模型训练示意图；

图3为本发明实施例结构感知模型的结构示意图。

本发明目的实现、功能特点及优点将结合实施方式，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

需要说明，本发明实施方式中所有方向性指示（诸如上、下……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

并且，本发明各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参见图1-图3，根据本发明的一方面，本发明提供一种专利结构感知相似性检测方法，其中，所述专利结构感知相似性检测方法包括以下步骤：

具体地，在本实施例中，所述结构性元素包括标题、摘要、权利要求书、背景技术、发明内容和具体实施方式；每个结构性元素都是构成专利文档的一部分文本，本发明选择结构性元素的原则为，在一个专利文档中，如果两种结构性元素之间可以找到相关关键词句，则认为该结构性元素为两种不同的、具有内在逻辑关系的结构性元素，可则以将这两部分文本作为两种结构性元素来提取；例如，权利要求书与背景技术均会涉及大量相关的技术名词，通过权利要求书和背景技术之间的逻辑关系进行深层编码器和浅层解码器训练，可以提高深层编码器提取技术名词的能力。

具体地，在本实施例中，所述结构感知模块包括深层编码器、浅层解码器和分类器；所述步骤S2对专利文档的结构感知模型进行训练，包括：第一训练阶段，基于所述待检测专利文档的结构性元素对深层编码器和浅层解码器语义提取进行训练，通过第一阶段训练，利用两种结构元素之间的内在逻辑关系增强深层编码器提取技术名词的能力，本发明以深层编码器和浅层编码器分别处理权利要求书文本与背景技术文本为例进行说明，本发明不进行具体限定，具体可根据需要进行设定，例如，还可以让深层编码器处理权利要求书文本，设置两个浅层解码器分别处理背景技术和具体实施方式等；第二训练阶段，基于深层编码器提取的语义向量对分类器相似性判断进行训练；通过第二训练阶段训练分类器，通过分类器接收专利对，调用经训练增强后的深层编码器生成专利对的语义向量，根据语义向量判断专利对中的两个专利是否相似。

具体地，在本实施例中，所述深层编码器和浅层解码器采用多层堆叠的Transformer模型，所述深层编码器采用Bert模型，所述Bert模型即为在一个通用数据集上训练过的12层Transformer；所述浅层解码器采用随机初始化参数的单层Transformer；通过将待检测专利文档的结构性元素输入至深层编码器和浅层解码器，同时进行训练，并计算共同损失作为训练的总损失。

具体地，在本实施例中，所述第一训练阶段包括对深层编码器进行训练，具体为：

获取待检测专利文档的权利要求书文本的token序列，随机将权利要求书文本的token序列第一百分比的token进行掩盖，形成深层编码器训练文本的token序列；其中，所述权利要求书文本的token序列为：

；

其中，所述第一百分比为15％，本发明不进行具体限定，具体可根据需要进行设定，随机将权利要求书文本的token序列中15％的token进行掩盖，形成深层编码器训练文本的token序列；

根据所述深层编码器训练文本对深层编码器进行训练，通过对权利要求文本中未被掩盖的token来预测被掩盖的token，并计算深层编码器损失函数；所述计算深层编码器损失函数，具体为：

；

其中，为深层编码器的损失函数，为被预测的token，为权利要求书文本的token序列，为权利要求书文本的token序列中被掩盖的第一百分比的token；

通过深层编码器器进行权利要求书文本的语义提取；所述通过深层编码器进行权利要求书文本的语义提取，具体为：

；

其中，为权利要求书文本的语义表示，为深层编码器，为深层编码器训练文本的token序列。

具体地，在本实施例中，所述所述第一训练阶段包括对浅层解码器进行训练，具体为：

获取待检测专利文档的背景技术文本的token序列，随机将背景技术文本的token序列第二百分比的token进行掩盖，形成浅层解码器训练文本的token序列；所述背景技术文本的token序列为：

；

其中，所述第二百分比为45％，本发明不进行具体限定，具体可根据需要进行设定，随机将背景技术文本的token序列45％的token进行掩盖，形成浅层解码器训练文本的 token序列；

根据所述深层编码器得到的权利要求书文本的语义表示以及浅层解码器训练文本对浅层解码器进行训练，预测背景技术文本中被掩盖的token，并计算浅层解码器损失函数；所述计算浅层解码器损失函数，具体为：

；

其中，为浅层解码器的损失函数，为被预测的token，为背景技术文本的token序列，为为背景技术文本的token序列中被掩盖的第二百分比的token。

具体地，在本实施例中，所述深层编码器和浅层解码器的训练是同时进行的，总的损失函数为：

；

其中，为总的损失函数；在训练过程中，为降低总的损失，就必须同时降低深层编码器和浅层解码器的损失，而浅层解码器因为在背景技术文本中掩盖掉了很多token，预测正确率会很低，为让浅层解码器预测更佳准确，也即降低浅层解码器损失，就必须充分利用深层编码器输出的权利要求书文本的语义表示；因为在权利要求书文本中有大量背景技术文本中也出现过的技术名词，所以深层编码器生成的语义表示，就必须更多的提取这些名词，才能提高浅层解码器预测的准确率；这些名词为两个结构性元素中共有且大量出现的，深层编码器在权利要求书文本中提取的越多，浅层解码器就可以把它用在背景技术文本的预测上，提高自身的准确率，因此深层编码器提取技术名词的能力就得到了加强，而这些技术名词对判断专利相似性具有重要作用，因此在判断专利相似性时，通过采用经训练加强后的深层编码器会比常规深层编码器效果更好。

具体地，在本实施例中，所述分类器采用MLP模型或其他相同作用的模型；待检测专利文档常存在多个候选的对比文件集，为筛选出候选的对比文件集中与待检测专利文档相似的专利，首先将待检测专利与对比文件集中每一个候选的对比文件拼成专利对，若对比文件集中存在N个专利，则可得到N个专利对，为每一个专利对都打上标签，专利对中两专利相似则为，不相似则为；将专利对文本送入分类器中，对于每一个专利对组成的文本，分类器先调用训练过的深层编码器将文本转化成语义向量表示，然后将语义向量送入MLP模型，得到分类结果，分类结果为二维向量，向量分布越接近则表示专利对中两个专利越不相似，越接近表示两个专利越相似；使用分类器对专利对的分类结果与专利对的真是标签计算损失，所述损失函数为：

；

其中，为分类器的损失函数，为待检测专利文档与对比文件集中对比文件的配对数量，为待检测专利文档与对比文件集中第n个对比文件配对真实值与预测值的交叉熵损失，为分类器经softmax函数的输出，为待检测专利文档与对比文件集中第n个对比文件配对的标签，为或；所述交叉熵损失为：

；

深层编码器经过第一训练阶段的训练，提取关键技术名词的能力得到加强，关键技术名词对于判断专利相似性具有重要价值，采用训练增强后的深层编码器提取专利对语义向量使分类器会判断专利相似性效果更好，增强模型对关键词句的提取能力，提高了专利相似度检测精度；分类器训练完成后，则可以检测两个专利之间的相似性，输出向量接近则判定为相似，接近则判定不相似。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。

Claims

1.一种专利结构感知相似性检测方法，其特征在于，包括以下步骤：

所述步骤S2对专利文档的结构感知模型进行训练，包括：

第一训练阶段，基于所述待检测专利文档的结构性元素对深层编码器和浅层解码器语义提取进行训练；第二训练阶段，基于深层编码器提取的语义向量对分类器相似性判断进行训练；

所述第一训练阶段包括对深层编码器进行训练，具体为：

根据所述深层编码器训练文本对深层编码器进行训练，并计算深层编码器损失函数；所述计算深层编码器损失函数，具体为：

；

其中，为深层编码器的损失函数，/>为被预测的token，/>为待检测专利文档的任一结构性元素的token序列，/>为待检测专利文档的任一结构性元素的token序列中被掩盖的第一百分比的token；

通过深层编码器器进行结构性元素文本的语义提取；所述通过深层编码器进行结构性元素文本的语义提取，具体为：

；

其中，为待检测专利文档的任一结构性元素的语义表示，/>为深层编码器，/>为深层编码器训练文本的token序列；

2.根据权利要求1所述的一种专利结构感知相似性检测方法，其特征在于，所述结构性元素包括标题、摘要、权利要求书、背景技术、发明内容和具体实施方式。

3.根据权利要求1所述的一种专利结构感知相似性检测方法，其特征在于，所述第一训练阶段包括对浅层解码器进行训练，具体为：

4.根据权利要求3所述的一种专利结构感知相似性检测方法，其特征在于，所述计算浅层解码器损失函数，具体为：

；

其中，为浅层解码器的损失函数，/>为被预测的token，/>为待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列，/>为待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列中被掩盖的第二百分比的token。

5.根据权利要求1所述的一种专利结构感知相似性检测方法，其特征在于，所述基于深层编码器提取的语义向量对分类器相似性判断进行训练之后，还包括：计算分类器的损失函数，具体为：

；

其中，为分类器的损失函数，/>为待检测专利文档与对比文件集中对比文件的配对数量，/>为待检测专利文档与对比文件集中第n个对比文件配对真实值与预测值的交叉熵损失，/>为分类器经softmax函数的输出，/>为待检测专利文档与对比文件集中第n个对比文件配对的标签。

6.根据权利要求1-5任一项所述的一种专利结构感知相似性检测方法，其特征在于，所述深层编码器和浅层解码器采用多层堆叠的Transformer模型，所述分类器采用MLP模型。