CN117056543A

CN117056543A - 一种基于图像的多模态专利检索方法

Info

Publication number: CN117056543A
Application number: CN202311051950.2A
Authority: CN
Inventors: 王建; 张晞曈; 王佐成; 吕孝忠; 李�浩; 孙昕; 张文婷; 王淑莹; 汪鹏
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-14

Abstract

本发明涉及信息检索技术领域，具体是一种基于图像的多模态专利检索方法，包括以下步骤：将专利库中专利的图片和该图片对应的图例输入到编码器，分别获得图片向量表示和将文本向量表示；计算所有图片向量表示和文本向量表示之间的余弦相似度，并进行正则化处理；采用对比学习，根据相似度构造InfoNCE损失函数，以训练CLIP模型；将待检索图片输入CLIP模型中，然后和专利库中所有图例文本向量计算余弦相似度；最后筛选出与待检索图片具有最大余弦相似度或余弦相似度在预设范围内的图例文本向量，该图例文本向量对应的专利即为所需检索出的专利。本发明拓宽了检索的渠道，降低检索难度，并且能够结合文本检索以提高检索的准确性。

Description

一种基于图像的多模态专利检索方法

技术领域

本发明涉及信息检索技术领域，具体是一种基于图像的多模态专利检索方法。

背景技术

专利检索是专利申请前不可或缺的操作步骤，通过专利申请前的初步检索，可以获得一些相关的对比文件；这些对比文件中很有可能包含着可借鉴之处，有助于申请人完善技术方案，以提出更好布局措施，获得最佳的保护效果。

现有的专利检索技术，通常采用检索关键词、一段文本等文字性的内容，将这些内容输入到自然语言处理模型，并和后台数据库里的专利进行比对，返回和检索条件相关的结果。在专利CN113168499A中公开了一种检索专利文档的方法，包括读取多个专利文档，每个所述专利文档包括全说明书，以及转换为全说明书图形和权利要求图形。所述图形包含：节点，每个所述节点具有从所述全说明书或权利要求提取的第一自然语言单元作为节点值；以及所述节点之间的边缘，所述边缘是基于从所述全说明书或权利要求提取的至少一个第二自然语言单元确定的。该方法能够有效的提高专利检索的准确性。

上述现有技术是基于文本的检索技术，背后使用的自然语言处理模型，该模型在处理数据库中的专利时，会忽略其中的图片，导致在使用上述现有技术时，只能使用自己编辑的文本进行检索，导致检索的方式过于单一。同时，过于单一的检索方式，无法更准确、更有效的检索到需要的对比文件，进而无法对与本申请相关的现有技术进行全面的了解。

发明内容

为了避免和克服现有技术中存在的技术问题，本发明提供了一种基于图像的多模态专利检索方法。本发明通过输入图片的方式进行检索，拓宽了检索的渠道，降低检索难度；并且能够结合文本检索以提高检索的准确性。

为实现上述目的，本发明提供如下技术方案：

一种基于图像的多模态专利检索方法，包括以下步骤：

S1、对专利库中的每篇专利，提取其中的图片和对应的图例文字，将图片输入图像编码器，获得图片向量表示；将对应的图例文字输入文字编码器，获得文本向量表示；

S2、计算所有图片的图片向量表示和图例文本对用的文本向量表示之间的余弦相似度，获得相似度矩阵，对来自同一篇专利的图片和图例文本之间的余弦相似度进行正则化处理；

S3、基于相似度矩阵，采用对比学习损失函数，最大化相似度矩阵对角线的值，对图像编码器和文字编码器进行Fine-tune，得到整个CLIP模型，同时保存所有图例文本的文本向量表示；

S4、将待检索的图片输入训练好的图形编码器中，得到图片向量表示，计算其与所有图例文本的之间的图片向量表示的余弦相似度，取排名靠前的图例文本对应的专利作为检索结果。

作为本发明再进一步的方案：步骤S1的细节如下：

S11、对于专利库中的每篇专利，抽取其中的图片及对应图例文字LEGEND，同时根据专利的名称和摘要，对图例文字LEGEND进行上下文语义的补齐，得到的输入语料为([CLS],TITLE,[SEP],ABSTRACT,[SEP],LEGEND)；[CLS]表示标识文本开始的占位符，[SEP]表示段落分割的占位符，TITLE表示专利名称，ABSTRACT表示专利的摘要，LEGEND表示专利的图例说明；

S12、将上述格式的文本语料输入到预训练的文本编码器中，得到对应的文本表示向量T；

S13、将专利中的图片输入预训练的图像编码器中，得到对应的图片向量表示I。

作为本发明再进一步的方案：步骤S2的细节如下：

S21、计算各个文本向量表示T与图片向量表示I之间的余弦相似度，并记为I_iT_j，I_iT_j表示第i个图片向量表示和第j个文本向量表示之间的余弦相似度；并获得N×N相似度矩阵如下：

其中，N表示图片的个数，也是图例文字的个数；

S22、相似度矩阵主对角线上是图片和对应图例文字的余弦相似度，被称为正样本，其余位置被称为负样本；

S23、对于来自同一篇专利的样本对(图片，图例文字)，它们的正样本的余弦相似度保持不变，负样本的余弦相似度乘以一个较小的系数，进行正则化，得到正则化的相似度矩阵。

作为本发明再进一步的方案：步骤S3的细节如下：基于正则化的相似度矩阵，采用对比学习的InfoNCE损失函数，对文本编辑器和图像编辑器进行Fine-tune，得到训练好的CLIP模型。

作为本发明再进一步的方案：步骤S4的细节如下：

S41、使用训练好的CLIP模型，计算专利库中所有图例文字对应的文本向量表示，并保存下来；

S42、将待检索的图片输入训练好的CLIP模型中的图像编码器，得到对应的图片向量表示，计算该图片向量表示和S41步骤中保存的所有文字向量表示之间的余弦相似度，取余弦相似度最大或者前K的个文本向量表示，这些文本向量表示对应的专利即为检索得到的专利。

作为本发明再进一步的方案：其中的文本编码器可以采用Transformer架构的BERT，图像编码器可以采用ResNet或者Vision Transformer。

与现有技术相比，本发明的有益效果是：

1、本发明扩展了专利检索的输入，对基于文本的专利检索进行了补充，充分利用文本模型所忽略的图片数据，实现了基于图像的专利检索，提供多样化的检索结果。此外，本发明提供的基于图片的专利检索，还可以作为启发式的检索方式，为使用者提供创作灵感，加快创新想法的验证和实现。

2、本发明充分利用了文本检索所忽略的专利中的图像数据，扩展了专利检索的输入。

3、将多模态的CLIP模型引入专利检索领域，构建了专利数据库中“图像－图例文本－专利”的模态转换关系。同时在训练模型多模态CLIP模型时，利用专利文本的结构化对图片描述文本进行了扩充，提供更加充分的上下文语义表示，并针对同一篇专利中的训练数据做了正则化，降低模型的偏差。

附图说明

图1为本发明的结构示意图。

图2为本发明中CLIP模型的结构示意图。

图3为本发明中图片检索过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～3，一种基于图像的多模态专利检索方法。本发明旨在挖掘专利中图像和对应文本之间的关系以及特征表示。这里关系表示涉及到文本和图片两种形式的数据，采用的是基于CLIP的多模态迁移学习模型。

该模型的训练流程如下图2所示，对于文本和图片，分别训练一个Encoder模型提取各自的特征，其中的Text Encoder采用的是流行的Transformer架构，Image Encoder可以采用ResNet或者Vision Transformer(VT)。重点在于，如何利用专利构造有效的训练语料。

专利中的图片通常会有对应的文字，用以说明当前图片的内容，这样一幅图片和对应的图例说明，正好可以组成一对(Image,Text)，作为一个训练样本。考虑到图片的图例说明文本通常是简单的一个句子，有时候会出现表意不明的情况，而专利作为结构化的文本语料，有固定的段落格式，比如标题，背景，发明内容等，因此可以利用这些信息作为图例的上下文补充，也就是Text-Encoder的输入语料为([CLS],TITLE,[SEP],ABSTRACT,[SEP],LEGEND)这样包含专利名称、摘要和图例说明拼接起来的长文本，以提供更加准确的上下文语义，其中[CLS]是标识文本开始的占位符，[SEP]是段落分割的占位符。

根据专利库里的专利数据，假设构造了N对这样的训练样本，每一对的图片和文本分别经过Text-Encoder和Image-Encoder之后，得到各自的embedding特征向量I_k和T_k，这些向量维度相同，相互之间可以计算余弦相似度cos(I_i,T_j)，简单记作I_iTj_。N对样本，得到一个N×N的相似度矩阵，如图2所示。现在期望达到的效果是，每对原始的图片和对应的图例说明之间的余弦相似度最大，也就是图2中相似度矩阵的对角线上的值I_kT_k尽可能大，其他位置的余弦相似度尽可能小。为达到这样的效果，CLIP采用的是对照学习InfoNCE损失函数，对角线上的N个样本为正样本，其他位置的N²-N个样本为负样本。

同时需要注意到，一篇专利中会有多张图片，这些归属于同一篇专利的图片，各自的作用并不相同，按照上述方式构建对应图例说明的长文本时，会有一部分文本都是类似的，比如其中的TITLE,ABSTRACT等部分，这样同属于一篇专利的图片在经过Text-Encoder之后，得到的embedding向量很接近，后续计算余弦相似度时，彼此之间没有明显的差异，导致模型误差较大。对此，本发明做了如下改进，对于来自同一篇专利的(Image,Text)样本对，它们组成的正样本的余弦相似度保持不变，负样本的余弦相似度乘以一个小于1的系数进行缩放，减小相互之间的影响，相当于做了正则化。总体来看，相当于图2中的相似度矩阵点乘(对应位置相乘)右边的正则化矩阵，比如图2中相似度矩阵左上角的3×3部分，它对应的(I₁,T₁)，(I₂,T₂)，(I₃,T₃)是来自于同一篇专利的3对(Image,Text)，它们对应于图2右边的正则化矩阵左上角3×3部分，该正则化矩阵中，对角线元素为1，其他位置的元素为0.8，也就是缩小了对应位置的余弦相似度值。正则化矩阵中的缩放系数σ，图2中为0.8，是训练时的超参数。

训练结束之后，除了保存Text Encoder、Image Encoder模型，还需要保存这N对(Image,Text)样本中Text部分对应的特征向量{T₁,T₂,...,T_N}。对于输入的待检索图片，如图3所示，经过训练好的Image-Encoder之后，得到对应embedding向量I，和专利库中所有专利图片对应的Text embedding向量计算余弦相似度，取余弦相似度最大或者靠前的K个Text embedding结果，这样就得到了与待检索图片相似的文本还有对应的专利，实现了基于图像的多模态专利检索。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图像的多模态专利检索方法，其特征在于，包括以下步骤：

S2、计算所有图片的图片向量表示和图例文本对应的文本向量表示之间的余弦相似度，获得相似度矩阵，对来自同一篇专利的图片和图例文本之间的余弦相似度进行正则化处理；

S4、将待检索的图片输入训练好的图形编码器中，得到图片向量表示，计算其与所有图例文本之间的图片向量表示的余弦相似度，取排名靠前的图例文本对应的专利作为检索结果。

2.根据权利要求1所述的一种基于图像的多模态专利检索方法，其特征在于，步骤S1的细节如下：

3.根据权利要求2所述的一种基于图像的多模态专利检索方法，其特征在于，步骤S2的细节如下：

其中，N表示图片的个数，也是图例文字的个数；

4.根据权利要求3所述的一种基于图像的多模态专利检索方法，其特征在于，步骤S3的细节如下：基于正则化的相似度矩阵，采用对比学习的InfoNCE损失函数，对文本编辑器和图像编辑器进行Fine-tune，得到训练好的CLIP模型。

5.根据权利要求4所述的一种基于图像的多模态专利检索方法，其特征在于，步骤S4的细节如下：

6.根据权利要求5所述的一种基于图像的多模态专利检索方法，其特征在于，其中的文本编码器可以采用Transformer架构的BERT，图像编码器可以采用ResNet或者VisionTransformer。