CN111597371B

CN111597371B - 外观专利的多模态图像检索方法及系统

Info

Publication number: CN111597371B
Application number: CN202010291845.6A
Authority: CN
Inventors: 叶街林; 杨志景; 谭俊鹏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2023-04-28
Anticipated expiration: 2040-04-14
Also published as: CN111597371A

Abstract

本发明公开了外观专利的多模态图像检索方法及系统，首先对外观专利多个视图进行特征提取及融合，再对文本进行特征提取，综合考虑多种模态的信息，最后进行深度视觉语义嵌入，因此在大规模的外观设计专利数据库当中可以具有很好的检索效果；针对ANN中树结构没有对数据进行紧凑编码表示因此效率不高，哈希方法中汉明距离的计算并不是一种精确的距离计算的问题，本发明提出距离编码乘积量化，在编码的过程当中不仅将数据点编码为子空间聚类索引的串联，而且还将每个数据点与其重建编码表示之间的距离也编码进来，形成一个有效的对每个数据的紧凑编码表示；从而提高检索的效率及准确性。

Description

外观专利的多模态图像检索方法及系统

技术领域

本发明涉及图像检索技术领域，尤其涉及外观专利的多模态图像检索方法及系统。

背景技术

由于图像是外观设计专利的主要内容，因此，进行外观设计专利搜索的关键技术是以图搜图核心技术。然而，外观设计专利不仅仅包含了专利设计的多个视图信息，还包含了相关的简要描述等文字信息，比如针对椅子的文字描述“这是一张圆角的木制长方形餐桌椅”等等。因此，如何利用好外观设计专利的文字信息进行多模态检索以使其检索效果达到最优，是一项具有现实意义的问题。

多模态学习技术由于其涉及的模态多，信息丰富等优点，近年来不少学者都投入到其中进行研究。然而，不同模态异构数据如何进行融合以及不同模态高层语义方面如何进行更好的统一却一直是多模态研究领域的热点与难点。西安电子科技大学在其专利“基于深层主题自编码模型的多模态检索方法”(申请号：201910527804.X)中提出一种基于深层主题自编码模型的多模态检索方法，以泊松伽马置信自编码网络为基础，发掘不同模态隐层之间由浅到深的联系，得到一个用于检索多模态信息的联合特征，提高检索性能。然而，其重点放在了多模态信息之间的互联，却并未考虑到多模态系统的规模通常是很大的这一问题。因此，涉及到大规模时效果可能不如人意。

另外，针对外观专利进行的图像检索往往是一个大规模的图像数据集检索任务。此类检索具有三个典型的主要特征：图像数据量大、特征维度高，要求响应时间短。近似最近邻搜索(Approximate Nearest Neighbor Search)是解决大规模相似性检索的有效方法。ANN通过将全空间进行分割，然后通过某种方式，快速锁定在某几个子空间里做遍历，具有计算效率高、检索质量好的优点。

ANN方法大体可以分为三大类：基于树的方法、哈希方法、矢量量化方法。基于递归空间划分的树结构的经典方法包括KD树，R树，有利点树和分层k均值树。但是，对于高维数据而言，大多数这些技术中的搜索性能甚至可能比遍历扫描更慢。而且，它们没有对数据进行紧凑编码表示，因此在处理十亿等等大规模数据量的问题时效率较低。

紧凑编码表示通过将高维数据编码为紧凑码，通过简单的位串操作或预先计算的查找表来进行快速距离(相似性)计算，具有很高的压缩率。目前可分为两大类：基于哈希和基于矢量量化的方法。哈希方法中，数据点被编码为保持相似性的二进制代码，因此可以通过遍历相似的二进制代码或在邻近的哈希桶中找到其近邻数据点。重庆邮电大学在其专利“一种基于多图正则化深度哈希的多模态医学图像检索方法”(申请号：201910048281.0)中提出利用多通道深度模型提取多模态医学图像的深度特征，然后构建近邻图以保持数据的局部流行结构，最后将向量编码为哈希码在汉明距离来进行相似性搜索。然而，由于将高维数据投影到汉明空间的过程中会有精度损失，汉明距离仅给出离散化的排序，而本质上不提供精确的距离，因此基于哈希的汉明距离计算方法对于大规模的图像来说存在着精确度不够的问题。

基于量化的方法与聚类紧密相关。在这些方法中，一个数据点的紧凑编码表示就是对包含该数据点的聚类的索引(即码字索引)进行编码。乘积量化将原始数据空间分解为低维子空间，并使用K均值聚类分别量化每个子空间，并在子空间中进行编码。然后，它将聚类索引串联起来作为紧凑编码。在这之后，又有不少研究者针对PQ进行了改进，例如Ge等提出的OPQ，以及随后的LOPQ。相比于其他方法，PQ及其改进方法在近似K近邻搜索中获得了最好的实验结果。部分原因是PQ平衡了乘积空间，并且可以更准确地估算距离。然而，它们也存在随着每个子空间聚类数目增加导致检索效果变差，并且在距离估算方面也具有存在着一定的偏置与方差的缺陷。

发明内容

本发明为解决现有外观专利多模态图像检索方法其检索效率低下、检索精度不高的问题，提供了外观专利的多模态图像检索方法及系统。

为实现以上发明目的，而采用的技术手段是：

外观专利的多模态图像检索方法，包括以下步骤：

S1.提取外观专利多视图的图像特征及文本特征；

S2.对所述图像特征及文本特征进行深度视觉语义量化，利用深度学习方法最小化深度视觉语义量化的目标函数，从而训练得到外观专利多模态图像检索模型；其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入，对所述图像特征进行视觉语义量化编码；

S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索，基于距离编码排序得到检索结果。

上述方案中，通过外观专利多模态图像检索模型对多种模态的特征信息训练达到高层语义方面的统一；并提出包含了残差距离编码的紧凑编码，从而提高多模态图像检索的效率。

优选的，所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征，得到z₁,z₂,…,z_n，其中n表示外观专利的视图个数；对所述图像特征进行加权融合，得到多视图融合的图像特征：

i表示外观专利的第i个视图，β表示外观专利第i个视图的权重。

优选的，所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的文本特征{v}。

优选的，步骤S2所述的对所述图像特征{z}及文本特征{v}进行深度视觉语义嵌入具体包括：定义训练阶段的自适应间隔损失函数：

设

表示训练阶段的N1个原始图像的文本特征数据点，而每一个文本特征数据点都与标签集y(y_n∈y)当中的某几个有关；

表示自适应间隔，用于保证图像特征z_n与正确文本标签的单词特征v_i之间的内积相似性要大于其与错误文本标签的单词特征v_j之间的内积相似性。

优选的，步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括：每个图像特征z_n被M个码本C＝[C₁,…,C_M]量化，其中每个码本C_m都包含了K个码字C_m＝[C_m1,…,C_mK]，每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量；

相应于M个码本，紧凑二进制编码也被分为M个部分b_1n,…,b_Mn，即

则z_n表示为

定义训练阶段的量化误差为：

上式服从于离散限制||b_mn||₀＝1并且b_mn∈{0,1}^K，用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征z_n。

优选的，步骤S2所述的外观专利多模态图像检索模型具体为：

其中，α是自适应间隔损失与量化误差之间的权衡权重，w,C,B是模型需要更新的参数，w是网络参数集。综合上面深度视觉语义嵌入及视觉语义量化编码两个损失函数，外观专利多模态图像检索模型总的目标是最小化上式，从而完成训练。

优选的，所述步骤S3具体包括：

基于步骤S2训练好的模型，对用于查询的数据库向量进行视觉语义量化编码得

数据库向量中每个向量的紧凑编码表示为：

其中B_n为距离编码；

利用非对称距离计算方法对查询向量y与用于查询的数据库向量x_n进行距离估计：

其中，r_ix是属于x_n的距离编码B_n所对应的距离；其中查询向量y为目标外观专利经所述步骤S1得到；

对计算得到的距离估计按升序排序，抽取其前k个作为检索结果。

本发明还提供了外观专利的多模态图像检索系统，包括：

特征提取模块，用于提取外观专利多视图的图像特征及文本特征；

深度视觉语义量化模块，用于对所述图像特征及文本特征进行深度视觉语义量化，利用深度学习方法最小化深度视觉语义量化的目标函数，从而训练得到外观专利多模态图像检索模型；其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入，对所述图像特征进行视觉语义量化编码；

图像检索模块，用于利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索，基于距离编码排序得到检索结果。

与现有技术相比，本发明技术方案的有益效果是：

1、本发明针对大规模外观设计专利图像数据库的多模态的性质，以及目前的检索方法并没有对外观设计专利的图像与文本描述的高层语义信息进行利用，导致外观设计专利检索欠佳的问题，本发明首先外观专利多个视图进行特征提取及融合，再对文本进行特征提取，综合考虑多种模态的信息，最后进行深度视觉语义嵌入，因此在大规模的外观设计专利数据库当中可以具有很好的检索效果。

2、针对ANN中基于树结构与基于哈希的方法存在较大的缺陷性，树结构没有对数据进行紧凑编码表示因此效率不高，哈希方法中汉明距离的计算只是离散排序而不是精确的距离计算，本发明提出距离编码乘积量化，在编码的过程当中不仅将数据点编码为子空间聚类索引的串联，而且还将每个数据点与其重建编码表示之间的距离也编码进来，形成一个有效的对每个数据的紧凑编码表示；从而提高检索的效率及准确性。

附图说明

图1为实施例1的方法流程图。

图2为实施例1中图像检索的流程图。

图3为实施例1中的距离编码乘积量化示意图。

图4为实施例2的系统模块示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

外观专利的多模态图像检索方法，如图1和2所示，包括以下步骤：

S1.提取外观专利多视图的图像特征及文本特征；

其中，对于外观专利多视图的图像特征，本实施例采用ShangHua Gao等人在2019CVPR论文当中提出的能够大大提升物体检测效果的基于ResNet改进的深度卷积神经网络Res2Net提取得到：z₁,z₂,…,z_n，其中n表示外观专利的视图个数，分别可能有左视图、右视图、主视图、后视图、俯视图、立体图1以及立体图2等等；对所述图像特征进行加权融合，得到多视图融合的图像特征：

i表示外观专利的第i个视图，β表示外观专利第i个视图的权重需说明的是，应保证立体图与主视图的权重占比较大。

其中，对于外观专利的文本特征提取，本实施例利用谷歌的Word2Vec模型提取得到{v}；

S2.对所述图像特征及文本特征进行深度视觉语义量化，利用深度学习方法最小化深度视觉语义量化的目标函数，从而训练得到外观专利多模态图像检索模型；其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入，对所述图像特征进行视觉语义量化编码：

上述两种特征的提取方法都采用深度学习技术以便对高层语义信息进行提取，随后对其进行深度视觉语义嵌入，以达到高层语义方面的统一，具体步骤包括：

定义训练阶段的自适应间隔损失函数：

设

视觉语义嵌入过程提升了外观设计专利图像检索的效果，然而效率更高的图像检索系统需要靠视觉语义量化编码来进一步实现。因此对于提取好的图像特征{z}，每个图像特征z_n被M个码本C＝[C₁,…,C_M]量化，其中每个码本C_m都包含了K个码字C_m＝[C_m1,…,C_mK]，每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量；

则z_n表示为

定义训练阶段的量化误差为：

联合以上深度视觉语义嵌入及视觉语义量化编码步骤，得到一个端到端的有效外观专利多模态图像检索模型：

其中，α是自适应间隔损失与量化误差之间的权衡权重，w,C,B是模型需要更新的参数，w是网络参数集。

该外观专利多模态图像检索模型的总目标即最小化上式，输入向量数量为N1，向量维度D＝128，M＝4，K＝256，则如图3所示，首先会对向量进行切分，切分为四个维度为32的子向量集32*4＝128，然后分别在每个子空间当中进行K＝256的聚类；图3中x_n为128维，M＝4,K＝256,l₁＝32bits,l₂＝4bits；

S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索，基于距离编码排序得到检索结果；需要说明的是，关于该量化编码部分的参数，实验时候应该尝试多次调参(一般为2的n次方)，直到获得使得检索效果最好的一组参数。为便于理解，在本实施例中采用以下具体数据进行举例说明：设向量维度D＝128，子空间数目M＝4，子空间聚类中心K＝256，乘积量化二进制编码位数l₁＝8*4＝32bits；全局距离的量化编码数目为16，其二进制编码位数l₂＝4bits，因此可供查询的数据库向量的总编码长度L＝l₁+l₂＝36bits，则该步骤S3的具体步骤包括：

S31.数据库向量的乘积量化编码

基于步骤S2训练好的模型，对用于查询的N个数据库向量进行视觉语义量化编码，得到形如

的编码，其中每一位码字都需要8bits来进行二值存储，那么最后的乘积量化编码的长度是32bits。

S32.距离量化编码

针对已经乘积量化编码好的数据库向量q(x_n)，对每一个特征点与其重建编码的距离d(x,q(x_n))进行量化编码。如图3所示是将所有数据点的残差距离量化成为k＝16个距离，然后再进行编码，每一个距离编码都需要4bits来进行存储。其中每一个码字B_n对应的距离值是所有落入这个空间的数据点的残差距离的平均值，即：

其中S_i＝{x|t_i≤d(x,q(x))<t_i+1且x∈{z}∪{v}}

因此，每个可供查询的数据库向量的紧凑编码表示为：

最后就是36bits。

S33.查询向量与子聚类中心的距离池的构建

针对每一个查询向量y，首先也对其进行切分成为4段子向量，然后分别在四个子空间计算其与256个聚类中心的距离，成为一个K*M＝256*4的距离池。此距离池可作为查询向量与待查询向量的非对称距离的查找表。

S34.查询向量与数据库向量的距离计算

在大规模外观设计专利图像数据库当中，针对每一个查询图像，如何求取其与可供查询的数据库向量的距离是一个非常棘手的问题，因为它耗时又耗力。

乘积量化编码的存储空间少，计算效率高的特点就体现在此处。

将步骤S31和S32得出的编码

作为索引，按照非对称距离计算公式

首先从步骤S33创建好的距离池当中取出乘积量化编码

对应的四个距离，然后再从步骤S32当中取出距离编码B_n对应的距离，将其累加，就得到每一个查询向量y与待查询的数据库向量x_n的距离估计。

S35.检索结果

实施例2

本实施例提供了外观专利的多模态图像检索系统，如图4所示，包括：

该外观专利的多模态图像检索系统基于实施例1的方法构建，其原理与上述方法一致，此处不再进行赘述。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。