CN115617956A

CN115617956A - 一种基于多模态注意力图谱的专利检索方法及系统

Info

Publication number: CN115617956A
Application number: CN202211616301.8A
Authority: CN
Inventors: 徐青伟; 严长春; 裴非; 范娥媚; 蔡明睿
Original assignee: Zhiguagua Tianjin Big Data Technology Co ltd; Beijing Zhiguquan Technology Service Co ltd
Current assignee: Zhiguagua Tianjin Big Data Technology Co ltd; Beijing Zhiguquan Technology Service Co ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-01-17

Abstract

本发明公开了一种基于多模态注意力图谱的专利检索方法及系统，该方法包括应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱，利用多模态模型对专利文档的文本和附图进行向量编码，基于多模态知识图谱结合注意力机制表示学习方法，将专利文本和附图在统一表示空间中进行关联编码，构建以专利各组成单元的文本、附图为实体关系的多模态知识图谱，通过图注意力机制有效融合了文本和附图之间、文档内部各组成部分之间的语义关联关系，克服了传统文本和图片检索中无法深度利用文本图片内在深层语义关联关系的缺点，提升了专利多模态检索的查全率和查准率。

Description

一种基于多模态注意力图谱的专利检索方法及系统

技术领域

本发明涉及文献检索技术领域，具体涉及一种基于多模态注意力图谱的专利检索方法及系统。

背景技术

专利文档中包含丰富的文本和附图信息，本质上是一种多模态的媒体类型，需要综合利用文本和图像分析方法进行精准和高效的处理。基于专利检索进行专利查重和侵权检测是专利申请和维权过程中的一个关键核心环节，如何实现精准高效检索已经成为专利系统建设中的一项重要内容。当前的专利检索通常基于用户输入的查询文本和专利文本的相似度匹配实现，缺乏综合利用文本和图片进行融合检索的技术手段。因此，如何从精准高效地从用户输入的文本和图片中检索出相关专利已然成为目前的一项重要研究内容。

目前常见的专利检索方法一般针对文本和图片进行独立编码，基于用户输入的文本或者图片与专利文本或者附图向量间的相似度检索实现，现有方法缺乏文本与图片之间深度关联关系分析，也没有充分利用专利文档中各内部组成单元之间的关联语义信息，导致专利检索过程中输入与目标之间的相似度量不准确，使得最终专利检索的完整性和准确率整体不高。

发明内容

鉴于此，本发明提供的一种基于多模态知识图谱结合注意力机制的检索方案，以克服传统文本和图片检索中无法深度利用文本图片内在深层语义关联关系的缺点，提升了专利多模态检索的查全率和查准率。

为了实现上述目的，本发明提供如下技术方案：

本发明一方面提供了一种基于多模态注意力图谱的专利检索方法，包括：

应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱，所述相关实体包括篇章、段落、句子、附图；

利用多模态模型对专利文档的文本和附图进行向量编码，将生成的向量附加到所述多模态知识图谱中对应的节点作为其向量属性，并存储到向量数据库中；

在所述多模态知识图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习；

当进行专利检索时，对用户输入的文本或图片应用多模态预训练模型进行编码，将编码得到的向量与知识图谱中的节点进行向量间相似度计算，并按照相似度进行排序。

更适宜地，对专利文件中的相关实体及其关系构建为多模态知识图谱，包括专利文档解析、实体关系抽取，具体为：

专利文档解析，专利文档结构解析和篇章段落分割，将专利的标题、摘要、权利声明、说明书部分以及附图进行分割，然后将各部分内部文本拆分为句子，构建为树形数据结构的文档树；

实体关系抽取，将分割后的文档树中的文档、篇章、段落、句子以及附图构建为图谱中的节点，之间的从属、邻接关系构建为图谱中的关系。

更适宜地，对专利文件中的相关实体及其关系构建为多模态知识图谱，还包括知识补全，具体如下：

补充完善图谱中节点间的内在隐含的语义关联关系，通过计算节点关联的文本和图片之间相似度度量，超过预定的阈值后添加，所述文本、图片之间的相似度通过最长公共子串LCS和预训练模型进行计算。

其中，图嵌入表征学习是基于图的邻接关系计算通过注意力机制编码GAT实现的。

优选地，在专利检索步骤中，所述向量间相似度计算具体为：

以输入向量与向量库中的候选向量间的余弦距离:

为度量，通过向量数据库进行相似检索比对，选择与输入检索向量距离最近的前K篇候选专利文档，作为最终的检索结果。

优选地，所述多模态预训练模型为图文预训练CLIP模型；和/或，

所述向量数据库为FAISS向量数据库。

另一方面，本发明还提供一种基于多模态注意力图谱的专利检索系统，包括：

知识图谱构建单元，应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱，所述相关实体包括篇章、段落、句子、附图；

向量编码单元，利用多模态模型对专利文档的文本和附图进行向量编码，将生成的向量附加到所述多模态知识图谱中对应的节点作为其向量属性，并存储到向量数据库中；

表征学习单元，在所述多模态知识图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习；

专利检索单元，当进行专利检索时，用于对用户输入的文本或者图片应用多模态预训练模型进行编码，将编码得到的向量与知识图谱中的节点进行向量间相似度计算，并按照相似度由高到低排序。

更适宜地，知识图谱构建单元包括：

专利文档解析模块，专利文档结构解析和篇章段落分割，将专利的标题、摘要、权利声明、说明书部分以及附图进行分割，然后将各部分内部文本拆分为句子，构建为树形数据结构的文档树；

实体关系抽取模块，将分割后的文档树中的文档、篇章、段落、句子以及附图构建为图谱中的节点，之间的从属、邻接关系构建为图谱中的关系。

更适宜地，知识图谱构建单元还包括知识补全，具体如下：

优选地，表征学习单元基于图的邻接关系计算通过注意力机制编码GAT实现图嵌入表征学习。

本发明具有如下优点：

本发明提供的技术方案通过基于多模态知识图谱结合注意力机制表示学习方法，将专利文本和附图在统一表示空间中进行关联编码，构建以专利各组成单元的文本、附图为实体关系的多模态知识图谱，通过图注意力机制有效融合了文本和附图之间、文档内部各组成部分之间的语义关联关系，克服了传统文本和图片检索中无法深度利用文本图片内在深层语义关联关系的缺点，提升了专利多模态检索的查全率和查准率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其他的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例提供的一种基于多模态注意力图谱的专利检索方法流程图；

图2为本发明实施例中构建的知识图谱示意图；

图3为本发明实施例提供的编码和检索流程示意图；

图4为本发明实施例提供的一种基于多模态注意力图谱的专利检索系统架构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图文预训练 CLIP(Contrastive Language-Image Pre-Training) 模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型，该模型直接使用大量的互联网数据进行预训练，通过图像编码器、文本编码器分别对图像和文本进行统一编码后将图像和文本映射到同一个特征空间，在很多任务表现上达到了目前最佳表现，例如图像检索、地理定位、视频动作识别等，而且仅仅通过无监督学习就可以得到和主流的有监督算法接近的效果。专利文档中包含了丰富的文本和附图数据，应用CLIP对专利文件中的附图像和文本等多模态数据进行统一编码，能够有效提高专利检索的查全率和查准率。

向量数据库是用来存储、检索、分析向量的数据库，提供高效的数据组织、检索和分析的能力。其支持基于欧式距离、余弦距离等度量的十亿级别的大规模稠密向量聚类和相似度检索，能够快速高效的对索引执行k近邻搜索，即对于每个查询向量，在数据库中查找其k近邻。目前，常用的向量数据库有FAISS、Milvus、Annoy、HNSW等。

FAISS（Facebook AI Similarity Search）是一个Facebook AI团队开源的向量数据库，针对高维空间中的海量稠密向量数据，提供高效且可靠的相似性聚类和检索方法，可支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。FAISS是一个高效的相似度搜索和密集向量聚类库，通俗地说，FAISS就是一个相似向量查找的数据库。

Milvus是一款云原生向量数据库，它具备高可用、高性能、易拓展的特点，用于海量向量数据的实时召回。Milvus基于FAISS、Annoy、HNSW等向量搜索库构建，核心是解决稠密向量相似度检索的问题。在向量检索库的基础上，Milvus 支持数据分区分片、数据持久化、增量数据摄取、标量向量混合查询、time travel 等功能，同时大幅优化了向量检索的性能，可满足任何向量检索场景的应用需求。

多模态知识图谱聚焦于多模态知识管理，应用多模态融合模型对文本、图像等多种模态数据进行实体关系抽取来构建面向专利领域的多模态知识图谱，通过多模态预训练模型分别对专利的文本和附图进行嵌入式向量编码，应用注意力机制以图传播机制方式对文本和附图执行图嵌入表征学习，基于知识图谱的相似计算来实现专利文档的检索。

注意力机制（Attention Mechanism）是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。注意力机制本质上与人类对外界事物的观察机制相似。通常来说，人们在观察外界事物的时候，首先会比较关注比较倾向于观察事物某些重要的局部信息，然后再把不同区域的信息组合起来，从而形成一个对被观察事物的整体印象。Attention机制最先应用在自然语言处理方面，主要是为了改进文本之间的编码方式，通过编码-解码之后能学习到更好的序列信息。

参照图1，本发明提供的一种基于多模态注意力图谱的专利检索方法，包括：

步骤S101，应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱，所述相关实体包括篇章、段落、句子、附图；

步骤S102，利用多模态模型对专利文档的文本和附图进行向量编码，将生成的向量附加到所述多模态知识图谱中对应的节点作为其向量属性，并存储到向量数据库中；

步骤S103，在所述多模态知识图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习；

步骤S104，当进行专利检索时，对用户输入的文本或图片应用多模态预训练模型进行编码，将编码得到的向量与知识图谱中的节点进行向量间相似度计算，并按照相似度由高到低排序。

其中，对专利文件中的相关实体及其关系构建为多模态知识图谱，包括专利文档解析、实体关系抽取，具体为：

其中，对专利文件中的相关实体及其关系构建为多模态知识图谱，还包括知识补全，具体如下：

为使本发明的原理、特性和优点更加清楚，下面对本发明的技术方案进行详细描述。

实施例一

本发明实施例中，多模态预训练模型采用图文预训练CLIP模型，采用FAISS向量数据库进行向量存储和相似专利文件检索过程进行描述，本发明实施例提供的专利检索方法包括：

首先，通过对专利文件中文本、附图关系抽取来实现多模态知识图谱构建；利用多模态模型对专利文件的文本和附图进行向量编码；在图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习；

在专利检索的过程中，对用户输入的文本或者图片应用多模态预训练模型进行编码后，与知识图谱中的节点进行向量间相似度计算，排序后返回Top K的结果。

主要步骤概括为：图谱构建、向量编码、表征学习、专利检索。

图谱构建：应用实体关系抽取模型对专利文档中的篇章、段落、句子、附图等相关实体及其关系构建为多模态知识图谱。

向量编码：利用图文预训练CLIP多模态预训练模型对专利文本和附图进行向量编码。

表征学习：应用图注意力机制对图谱中的文本和附图节点执行增强的图嵌入表征学习。

专利检索：对用户输入的文本或者图片应用图文预训练CLIP模型进行编码，通过FAISS向量库搜索的方式进行检索。

其中，图谱构建包括专利文件解析、实体关系抽取、知识补全；

专利文件解析是专利文档结构解析和篇章段落分割，专利文本篇章段落分割，首先是将专利的标题、摘要、权利声明、说明书部分以及附图进行分割，然后将各部分内部文本拆分为句子，构建为树形数据结构的文档树；例如，一篇专利文本样例片段，对其进行解析后生成的文档树。专利文档为根节点，发明名称、摘要、权利声明、说明书、说明书附图作为根节点下的二级节点。其中，权利声明根据权利要求的隶属层次关系进行解析，例如首句“1.”部分解析为主权利要求，“2.”、“3.”、“5.”解析为主权利的从属权利要求，“4.”和“6.”分别作为“3.”、“5.”的从属权利要求，最终形成根据权利要求的具有语义关联关系的句子结构。

实体关系抽取是将分割后的文档树中的文档、篇章、段落、句子以及附图构建为图谱中的节点，之间的从属、邻接关系构建为图谱中的关系，如图2所示；

知识补全是补充完善图谱中节点间的内在隐含的语义关联关系，具体方式通过计算节点关联的文本和图片之间相似度度量，超过一定阈值（在此取0.9）后添加，文本图片之间的相似度通过最长公共子串LCS和基于CLIP预训练模型进行计算。

假设T1, T2为图谱上两个实体对应的文本，调用lcs函数计算公共子串长度，即L=lcs(T1,T2)，如果L/min(len(T1), T2)>0.9，则在图谱中T1, T2 对应的实体间添加关联关系。其中，len为计算文本字符串长度函数。

向量相似度计算基于图文预训练CLIP的文本模型Bert编码实现，首先使用Bert对两个节点的文本T1, T2进行编码，分别得到句向量:

这里，句向量s₁和s₂中元素为浮点数，向量维度取768，即I=768。编码后的所有向量存储到FAISS向量库中，余弦相似度:

作为向量之间的距离度量，通过FAISS向量库阈值检索的方式，查找出与当前向量T1相似度大于指定阈值（在此取0.9）的所有候选向量T2，在图谱中T1, T2对应的实体间添加关联关系。

所述向量编码是利用CLIP多模态预训练模型，对知识图谱中的节点所关联的文本和图片分别通过CLIP的文本编码器和图像编码器进行向量编码：

算法1 文本和图片编码如下：

encoded_images = image_encoder(images)

encoded_texts = text_encoder(texts)

embedded_images = L2_normalization(image_projection(encoded_images)

embedded_texts = L2_normalization(text_projection(encoded_texts)

其中，images为图片的二进制编码输入，image_encoder基于CLIP的ViT图像模型进行编码，image_projection是将编码后的图片映射到统一表征空间向量，L2_normalization是对映射后的向量进行L2归一化编码；texts为文本的字符串编码输入，text_encoder基于CLIP的Bert文本模型进行编码，text_projection是将编码后的图片映射到统一表征空间向量，L2_normalization是对映射后的向量进行L2归一化编码。

通过CLIP编码器生成的向量附加到图谱中对应的节点作为其向量属性，同时存储到FAISS向量库中。

所述表征学习基于图的邻接关系计算通过注意力机制编码GAT实现。

注意力机制编码GAT过程如下：设

为节点特征的集合（包括文本向量和图片向量属性），其中N为节点数目,

为节点编码所得的向量，F为每个节点的特征数目。对特征作线性变换，其中线性变换的权重矩阵为W（F’为输出特征数目），随机初始化W，通过注意力机制

计算得'节点j对节点i的重要性度量

，其中,

单层前馈神经网络，使用LeakReLU作为激活函数（LeakReLU中的参数

取0.2），神经网络的参数向量为

，则

，其中，

表示转置操作，

表示连接操作。为了保留图的结构信息，只计算与节点i相邻节点对节点的重要性度量，即

与节点i的所有相邻节点的集合。

为了使不同节点的重要性具有可比性，使用softmax函数作归一化，得到注意力系数

。将sigmod函数作用于整合后的注意力机制特征，得到节点i的输出特征：

算法2基于图传播算法的GAT编码过程如下：

清除图谱所有节点的停止更新状态，初始化当前时刻t=0，差异度量为δ=1e-2。

迭代执行循环一，直到所有图谱节点均标记为停止更新：

循环一：如果所有节点均已标记为停止更新，则结束算法；

否则，遍历图谱的所有未标记为停止更新的节点Vi，更新当前时刻t=t+1:

（1）取出Vi的所有邻接节点Ni，应用上述GAT编码过程对节点Vi进行编码，得到当前时刻t的输出特征

, 如果t=1，则跳过步骤（2）继续执行；否则，继续执行步骤（2）；

（2）计算当前

与上一时刻

之间的方差值

如果，

，则将Vi标记为停止更新。

应用算法2的GAT编码得到了图谱上各节点向量的表征学习编码。

所述专利检索是首先应用算法1的CLIP多模态模型对用户输入的文本或者图片进行编码后生成输入向量，然后以输入向量与向量库中的候选向量间的余弦距离

为度量，通过FAISS向量库进行相似检索，选择与输入检索向量距离最近的Top K候选专利，作为最终的检索结果返回给用户。

综上，如图3所示，本发明提供的专利检索方法流程主要步骤概括为：专利文本树、图谱构建、向量编码、专利检索。

实施例二

参照图4，本发明实施例提供的一种基于多模态注意力图谱的专利检索系统，包括：

知识图谱构建单元410，应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱，所述相关实体包括篇章、段落、句子、附图；

向量编码单元420，利用多模态模型对专利文档的文本和附图进行向量编码，将生成的向量附加到所述多模态知识图谱中对应的节点作为其向量属性，并存储到向量数据库中；

表征学习单元430，在所述多模态知识图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习；

专利检索单元440，当进行专利检索时，用于对用户输入的文本或者图片应用多模态预训练模型进行编码，将编码得到的向量与知识图谱中的节点进行向量间相似度计算，并按照相似度由高到低排序。

其中，知识图谱构建单元410包括：

专利文档解析模块410a，专利文档结构解析和篇章段落分割，将专利的标题、摘要、权利声明、说明书部分以及附图进行分割，然后将各部分内部文本拆分为句子，构建为树形数据结构的文档树；

实体关系抽取模块410b，将分割后的文档树中的文档、篇章、段落、句子以及附图构建为图谱中的节点，之间的从属、邻接关系构建为图谱中的关系。

知识图谱构建单元410还包括知识补全模块410c，具体如下：

知识补全模块410c，用于补充完善图谱中节点间的内在隐含的语义关联关系，通过计算节点关联的文本和图片之间相似度度量，超过预定的阈值后添加，所述文本、图片之间的相似度通过最长公共子串LCS和预训练模型进行计算。

其中，表征学习单元630基于图的邻接关系计算通过注意力机制编码GAT实现图嵌入表征学习。

本发明的技术效果

本发明通过基于多模态知识图谱结合注意力机制表示学习方法，将专利文本和附图在统一表示空间中进行关联编码，构建以专利的篇章、段落等各组成单元为节点、文本和图片为属性、之间关联为关系的多模态知识图谱，通过图注意力机制有效融合了文本和附图之间、文档内部各组成部分之间的语义关联关系，克服了传统文本和图片检索中无法深度利用文本图片内在深层语义关联关系的缺点，提升了专利多模态检索的查全率和查准率。

第一，本发明基于多模态模型的统一空间编码方式，能够将语义相似的文本和附图进行有效关联，克服了传统的独立编码方式导致的文本和图片语义表征割裂的缺陷；

第二，基于专利文档树构建的知识图谱，充分捕获了专利各组成部分间的语义关联关系，利用图传播机制和邻接关系的图注意力机制的增强表征学习，进一步加强了文本和附图之间的语义耦合度，有利于提升多模态专利检索场景下的整体有效性。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于多模态注意力图谱的专利检索方法，其特征在于，包括：

2.如权利要求1所述的专利检索方法，其特征在于，

所述应用实体关系抽取模型对专利文件中的相关实体及其关系构建为多模态知识图谱，包括专利文档解析、实体关系抽取，具体为：

3.如权利要求2所述的专利检索方法，其特征在于，

所述应用实体关系抽取模型对专利文件中的相关实体及其关系构建为多模态知识图谱，还包括知识补全，具体如下：

4.如权利要求1所述的专利检索方法，其特征在于，

所述图嵌入表征学习是基于图的邻接关系计算通过注意力机制编码GAT实现的。

5.如权利要求1所述的专利检索方法，其特征在于，

所述专利检索步骤中，所述向量间相似度计算具体为：

以输入向量与向量库中的候选向量间的余弦距离：

为度量，通过向量数据库进行相似检索比对，选择与输入检索向量距离最近的前K篇候选专利文档，作为最终的检索结果，其中，s_1i为句向量S1中的元素，s_2i及s_2j为句向量S2中的元素。

6.如权利要求1-5中任一项所述的专利检索方法，其特征在于，其中，

所述多模态预训练模型为图文预训练CLIP模型；和/或，

所述向量数据库为FAISS向量数据库。

7.一种基于多模态注意力图谱的专利检索系统，其特征在于，包括：

8.如权利要求7所述的专利检索系统，其特征在于，所述知识图谱构建单元包括：

9.如权利要求8所述的专利检索系统，其特征在于，所述知识图谱构建单元还包括知识补全，具体如下：

10.如权利要求7所述的专利检索系统，其特征在于，

所述表征学习单元基于图的邻接关系计算通过注意力机制编码GAT实现图嵌入表征学习。