CN111597371B - 外观专利的多模态图像检索方法及系统 - Google Patents
外观专利的多模态图像检索方法及系统 Download PDFInfo
- Publication number
- CN111597371B CN111597371B CN202010291845.6A CN202010291845A CN111597371B CN 111597371 B CN111597371 B CN 111597371B CN 202010291845 A CN202010291845 A CN 202010291845A CN 111597371 B CN111597371 B CN 111597371B
- Authority
- CN
- China
- Prior art keywords
- image
- quantization
- appearance patent
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013139 quantization Methods 0.000 claims abstract description 62
- 230000000007 visual effect Effects 0.000 claims abstract description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 3
- 239000000047 product Substances 0.000 description 13
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102220621241 Proline-rich membrane anchor 1_S32A_mutation Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了外观专利的多模态图像检索方法及系统,首先对外观专利多个视图进行特征提取及融合,再对文本进行特征提取,综合考虑多种模态的信息,最后进行深度视觉语义嵌入,因此在大规模的外观设计专利数据库当中可以具有很好的检索效果;针对ANN中树结构没有对数据进行紧凑编码表示因此效率不高,哈希方法中汉明距离的计算并不是一种精确的距离计算的问题,本发明提出距离编码乘积量化,在编码的过程当中不仅将数据点编码为子空间聚类索引的串联,而且还将每个数据点与其重建编码表示之间的距离也编码进来,形成一个有效的对每个数据的紧凑编码表示;从而提高检索的效率及准确性。
Description
技术领域
本发明涉及图像检索技术领域,尤其涉及外观专利的多模态图像检索方法及系统。
背景技术
由于图像是外观设计专利的主要内容,因此,进行外观设计专利搜索的关键技术是以图搜图核心技术。然而,外观设计专利不仅仅包含了专利设计的多个视图信息,还包含了相关的简要描述等文字信息,比如针对椅子的文字描述“这是一张圆角的木制长方形餐桌椅”等等。因此,如何利用好外观设计专利的文字信息进行多模态检索以使其检索效果达到最优,是一项具有现实意义的问题。
多模态学习技术由于其涉及的模态多,信息丰富等优点,近年来不少学者都投入到其中进行研究。然而,不同模态异构数据如何进行融合以及不同模态高层语义方面如何进行更好的统一却一直是多模态研究领域的热点与难点。西安电子科技大学在其专利“基于深层主题自编码模型的多模态检索方法”(申请号:201910527804.X)中提出一种基于深层主题自编码模型的多模态检索方法,以泊松伽马置信自编码网络为基础,发掘不同模态隐层之间由浅到深的联系,得到一个用于检索多模态信息的联合特征,提高检索性能。然而,其重点放在了多模态信息之间的互联,却并未考虑到多模态系统的规模通常是很大的这一问题。因此,涉及到大规模时效果可能不如人意。
另外,针对外观专利进行的图像检索往往是一个大规模的图像数据集检索任务。此类检索具有三个典型的主要特征:图像数据量大、特征维度高,要求响应时间短。近似最近邻搜索(Approximate Nearest Neighbor Search)是解决大规模相似性检索的有效方法。ANN通过将全空间进行分割,然后通过某种方式,快速锁定在某几个子空间里做遍历,具有计算效率高、检索质量好的优点。
ANN方法大体可以分为三大类:基于树的方法、哈希方法、矢量量化方法。基于递归空间划分的树结构的经典方法包括KD树,R树,有利点树和分层k均值树。但是,对于高维数据而言,大多数这些技术中的搜索性能甚至可能比遍历扫描更慢。而且,它们没有对数据进行紧凑编码表示,因此在处理十亿等等大规模数据量的问题时效率较低。
紧凑编码表示通过将高维数据编码为紧凑码,通过简单的位串操作或预先计算的查找表来进行快速距离(相似性)计算,具有很高的压缩率。目前可分为两大类:基于哈希和基于矢量量化的方法。哈希方法中,数据点被编码为保持相似性的二进制代码,因此可以通过遍历相似的二进制代码或在邻近的哈希桶中找到其近邻数据点。重庆邮电大学在其专利“一种基于多图正则化深度哈希的多模态医学图像检索方法”(申请号:201910048281.0)中提出利用多通道深度模型提取多模态医学图像的深度特征,然后构建近邻图以保持数据的局部流行结构,最后将向量编码为哈希码在汉明距离来进行相似性搜索。然而,由于将高维数据投影到汉明空间的过程中会有精度损失,汉明距离仅给出离散化的排序,而本质上不提供精确的距离,因此基于哈希的汉明距离计算方法对于大规模的图像来说存在着精确度不够的问题。
基于量化的方法与聚类紧密相关。在这些方法中,一个数据点的紧凑编码表示就是对包含该数据点的聚类的索引(即码字索引)进行编码。乘积量化将原始数据空间分解为低维子空间,并使用K均值聚类分别量化每个子空间,并在子空间中进行编码。然后,它将聚类索引串联起来作为紧凑编码。在这之后,又有不少研究者针对PQ进行了改进,例如Ge等提出的OPQ,以及随后的LOPQ。相比于其他方法,PQ及其改进方法在近似K近邻搜索中获得了最好的实验结果。部分原因是PQ平衡了乘积空间,并且可以更准确地估算距离。然而,它们也存在随着每个子空间聚类数目增加导致检索效果变差,并且在距离估算方面也具有存在着一定的偏置与方差的缺陷。
发明内容
本发明为解决现有外观专利多模态图像检索方法其检索效率低下、检索精度不高的问题,提供了外观专利的多模态图像检索方法及系统。
为实现以上发明目的,而采用的技术手段是:
外观专利的多模态图像检索方法,包括以下步骤:
S1.提取外观专利多视图的图像特征及文本特征;
S2.对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;
S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。
上述方案中,通过外观专利多模态图像检索模型对多种模态的特征信息训练达到高层语义方面的统一;并提出包含了残差距离编码的紧凑编码,从而提高多模态图像检索的效率。
优选的,所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征,得到z1,z2,…,zn,其中n表示外观专利的视图个数;对所述图像特征进行加权融合,得到多视图融合的图像特征:i表示外观专利的第i个视图,β表示外观专利第i个视图的权重。
优选的,所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的文本特征{v}。
优选的,步骤S2所述的对所述图像特征{z}及文本特征{v}进行深度视觉语义嵌入具体包括:定义训练阶段的自适应间隔损失函数:
设表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关;表示自适应间隔,用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相似性要大于其与错误文本标签的单词特征vj之间的内积相似性。
优选的,步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括:每个图像特征zn被M个码本C=[C1,…,CM]量化,其中每个码本Cm都包含了K个码字Cm=[Cm1,…,CmK],每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量;
定义训练阶段的量化误差为:
上式服从于离散限制||bmn||0=1并且bmn∈{0,1}K,用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征zn。
优选的,步骤S2所述的外观专利多模态图像检索模型具体为:
其中,α是自适应间隔损失与量化误差之间的权衡权重,w,C,B是模型需要更新的参数,w是网络参数集。综合上面深度视觉语义嵌入及视觉语义量化编码两个损失函数,外观专利多模态图像检索模型总的目标是最小化上式,从而完成训练。
优选的,所述步骤S3具体包括:
利用非对称距离计算方法对查询向量y与用于查询的数据库向量xn进行距离估计:
其中,rix是属于xn的距离编码Bn所对应的距离;其中查询向量y为目标外观专利经所述步骤S1得到;
对计算得到的距离估计按升序排序,抽取其前k个作为检索结果。
本发明还提供了外观专利的多模态图像检索系统,包括:
特征提取模块,用于提取外观专利多视图的图像特征及文本特征;
深度视觉语义量化模块,用于对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;
图像检索模块,用于利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。
与现有技术相比,本发明技术方案的有益效果是:
1、本发明针对大规模外观设计专利图像数据库的多模态的性质,以及目前的检索方法并没有对外观设计专利的图像与文本描述的高层语义信息进行利用,导致外观设计专利检索欠佳的问题,本发明首先外观专利多个视图进行特征提取及融合,再对文本进行特征提取,综合考虑多种模态的信息,最后进行深度视觉语义嵌入,因此在大规模的外观设计专利数据库当中可以具有很好的检索效果。
2、针对ANN中基于树结构与基于哈希的方法存在较大的缺陷性,树结构没有对数据进行紧凑编码表示因此效率不高,哈希方法中汉明距离的计算只是离散排序而不是精确的距离计算,本发明提出距离编码乘积量化,在编码的过程当中不仅将数据点编码为子空间聚类索引的串联,而且还将每个数据点与其重建编码表示之间的距离也编码进来,形成一个有效的对每个数据的紧凑编码表示;从而提高检索的效率及准确性。
附图说明
图1为实施例1的方法流程图。
图2为实施例1中图像检索的流程图。
图3为实施例1中的距离编码乘积量化示意图。
图4为实施例2的系统模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
外观专利的多模态图像检索方法,如图1和2所示,包括以下步骤:
S1.提取外观专利多视图的图像特征及文本特征;
其中,对于外观专利多视图的图像特征,本实施例采用ShangHua Gao等人在2019CVPR论文当中提出的能够大大提升物体检测效果的基于ResNet改进的深度卷积神经网络Res2Net提取得到:z1,z2,…,zn,其中n表示外观专利的视图个数,分别可能有左视图、右视图、主视图、后视图、俯视图、立体图1以及立体图2等等;对所述图像特征进行加权融合,得到多视图融合的图像特征:
i表示外观专利的第i个视图,β表示外观专利第i个视图的权重需说明的是,应保证立体图与主视图的权重占比较大。
其中,对于外观专利的文本特征提取,本实施例利用谷歌的Word2Vec模型提取得到{v};
S2.对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码:
上述两种特征的提取方法都采用深度学习技术以便对高层语义信息进行提取,随后对其进行深度视觉语义嵌入,以达到高层语义方面的统一,具体步骤包括:
定义训练阶段的自适应间隔损失函数:
设表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关;表示自适应间隔,用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相似性要大于其与错误文本标签的单词特征vj之间的内积相似性。
视觉语义嵌入过程提升了外观设计专利图像检索的效果,然而效率更高的图像检索系统需要靠视觉语义量化编码来进一步实现。因此对于提取好的图像特征{z},每个图像特征zn被M个码本C=[C1,…,CM]量化,其中每个码本Cm都包含了K个码字Cm=[Cm1,…,CmK],每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量;
定义训练阶段的量化误差为:
上式服从于离散限制||bmn||0=1并且bmn∈{0,1}K,用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征zn。
联合以上深度视觉语义嵌入及视觉语义量化编码步骤,得到一个端到端的有效外观专利多模态图像检索模型:
其中,α是自适应间隔损失与量化误差之间的权衡权重,w,C,B是模型需要更新的参数,w是网络参数集。
该外观专利多模态图像检索模型的总目标即最小化上式,输入向量数量为N1,向量维度D=128,M=4,K=256,则如图3所示,首先会对向量进行切分,切分为四个维度为32的子向量集32*4=128,然后分别在每个子空间当中进行K=256的聚类;图3中xn为128维,M=4,K=256,l1=32bits,l2=4bits;
S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果;需要说明的是,关于该量化编码部分的参数,实验时候应该尝试多次调参(一般为2的n次方),直到获得使得检索效果最好的一组参数。为便于理解,在本实施例中采用以下具体数据进行举例说明:设向量维度D=128,子空间数目M=4,子空间聚类中心K=256,乘积量化二进制编码位数l1=8*4=32bits;全局距离的量化编码数目为16,其二进制编码位数l2=4bits,因此可供查询的数据库向量的总编码长度L=l1+l2=36bits,则该步骤S3的具体步骤包括:
S31.数据库向量的乘积量化编码
S32.距离量化编码
针对已经乘积量化编码好的数据库向量q(xn),对每一个特征点与其重建编码的距离d(x,q(xn))进行量化编码。如图3所示是将所有数据点的残差距离量化成为k=16个距离,然后再进行编码,每一个距离编码都需要4bits来进行存储。其中每一个码字Bn对应的距离值是所有落入这个空间的数据点的残差距离的平均值,即:
因此,每个可供查询的数据库向量的紧凑编码表示为:
S33.查询向量与子聚类中心的距离池的构建
针对每一个查询向量y,首先也对其进行切分成为4段子向量,然后分别在四个子空间计算其与256个聚类中心的距离,成为一个K*M=256*4的距离池。此距离池可作为查询向量与待查询向量的非对称距离的查找表。
S34.查询向量与数据库向量的距离计算
在大规模外观设计专利图像数据库当中,针对每一个查询图像,如何求取其与可供查询的数据库向量的距离是一个非常棘手的问题,因为它耗时又耗力。
乘积量化编码的存储空间少,计算效率高的特点就体现在此处。
将步骤S31和S32得出的编码作为索引,按照非对称距离计算公式首先从步骤S33创建好的距离池当中取出乘积量化编码对应的四个距离,然后再从步骤S32当中取出距离编码Bn对应的距离,将其累加,就得到每一个查询向量y与待查询的数据库向量xn的距离估计。
S35.检索结果
对计算得到的距离估计按升序排序,抽取其前k个作为检索结果。
实施例2
本实施例提供了外观专利的多模态图像检索系统,如图4所示,包括:
特征提取模块,用于提取外观专利多视图的图像特征及文本特征;
深度视觉语义量化模块,用于对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;
图像检索模块,用于利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。
该外观专利的多模态图像检索系统基于实施例1的方法构建,其原理与上述方法一致,此处不再进行赘述。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.外观专利的多模态图像检索方法,其特征在于,包括以下步骤:
S1.提取外观专利多视图的图像特征及文本特征;
所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征,得到z1,z2,…,zn,其中n表示外观专利的视图个数;对所述图像特征进行加权融合,得到多视图融合的图像特征:i表示外观专利的第i个视图,β表示外观专利第i个视图的权重;
S2.对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;
步骤S2所述的对所述图像特征及文本特征进行深度视觉语义嵌入具体包括:定义训练阶段的自适应间隔损失函数:
设表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关;表示自适应间隔,用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相正确文本标签的单词特征似性要大于其与错误文本标签的单词特征vj之间的内积相似性;
步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括:每个图像特征zn被M个码本C=[C1,…,CM]量化,其中每个码本Cm都包含了K个码字Cm=[Cm1,…,CmK],每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量;
定义训练阶段的量化误差为:
上式服从于离散限制||bmn||0=1并且bmn∈{0,1}K,用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征zn;
步骤S2所述的外观专利多模态图像检索模型具体为:
其中,α是自适应间隔损失与量化误差之间的权衡权重,w,C,B是模型需要更新的参数,w是网络参数集;
S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。
2.根据权利要求1所述的外观专利的多模态图像检索方法,其特征在于,所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的文本特征{v}。
4.外观专利的多模态图像检索系统,其特征在于,包括:
特征提取模块,用于提取外观专利多视图的图像特征及文本特征;
深度视觉语义量化模块,用于对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;
所述的对所述图像特征及文本特征进行深度视觉语义嵌入具体包括:定义训练阶段的自适应间隔损失函数:
设表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关;表示自适应间隔,用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相正确文本标签的单词特征似性要大于其与错误文本标签的单词特征vj之间的内积相似性;
所述的对所述图像特征进行视觉语义量化编码具体包括:每个图像特征zn被M个码本C=[C1,…,CM]量化,其中每个码本Cm都包含了K个码字Cm=[Cm1,…,CmK],每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量;
定义训练阶段的量化误差为:
上式服从于离散限制||bmn||0=1并且bmn∈{0,1}K,用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征zn;
所述的外观专利多模态图像检索模型具体为:
其中,α是自适应间隔损失与量化误差之间的权衡权重,w,C,B是模型需要更新的参数,w是网络参数集;
图像检索模块,用于利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291845.6A CN111597371B (zh) | 2020-04-14 | 2020-04-14 | 外观专利的多模态图像检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291845.6A CN111597371B (zh) | 2020-04-14 | 2020-04-14 | 外观专利的多模态图像检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597371A CN111597371A (zh) | 2020-08-28 |
CN111597371B true CN111597371B (zh) | 2023-04-28 |
Family
ID=72192014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010291845.6A Active CN111597371B (zh) | 2020-04-14 | 2020-04-14 | 外观专利的多模态图像检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597371B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516118B (zh) * | 2021-07-29 | 2023-06-16 | 西北大学 | 一种图像与文本联合嵌入的多模态文化资源加工方法 |
CN114020953B (zh) * | 2021-10-27 | 2022-12-13 | 北京中知智慧科技有限公司 | 外观设计产品的多图检索方法及装置 |
CN113901177B (zh) * | 2021-10-27 | 2023-08-08 | 电子科技大学 | 一种基于多模态属性决策的代码搜索方法 |
CN115909317A (zh) * | 2022-07-15 | 2023-04-04 | 广东工业大学 | 一种三维模型-文本联合表达的学习方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN110992217A (zh) * | 2019-11-15 | 2020-04-10 | 广东工业大学 | 一种外观设计专利多视图特征表示、检索的方法及装置 |
-
2020
- 2020-04-14 CN CN202010291845.6A patent/CN111597371B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN110992217A (zh) * | 2019-11-15 | 2020-04-10 | 广东工业大学 | 一种外观设计专利多视图特征表示、检索的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111597371A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597371B (zh) | 外观专利的多模态图像检索方法及系统 | |
CN110275936B (zh) | 一种基于自编码神经网络的相似法律案例检索方法 | |
CN108304911A (zh) | 基于记忆神经网络的知识抽取方法以及系统和设备 | |
CN113064959B (zh) | 一种基于深度自监督排序哈希的跨模态检索方法 | |
CN107491479B (zh) | 一种基于本体库的标签管理方法 | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
CN107122411B (zh) | 一种基于离散多视图哈希的协同过滤推荐方法 | |
CN105912611A (zh) | 一种基于cnn的快速图像检索方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN109166615B (zh) | 一种随机森林哈希的医学ct图像存储与检索方法 | |
CN103902704A (zh) | 面向大规模图像视觉特征的多维倒排索引与快速检索算法 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN112948601B (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN110516145B (zh) | 一种基于句向量编码的信息搜索方法 | |
CN112256727B (zh) | 基于人工智能技术的数据库查询处理及优化方法 | |
CN115617956A (zh) | 一种基于多模态注意力图谱的专利检索方法及系统 | |
CN107133348B (zh) | 大规模图片集中基于语义一致性的近似搜索方法 | |
CN117453861A (zh) | 基于对比学习与预训练技术的代码搜索推荐方法和系统 | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
CN116383437A (zh) | 一种基于卷积神经网络的跨模态素材推荐方法 | |
CN115544070A (zh) | 一种基于轨迹表示学习的相似度查询优化方法 | |
CN114969279A (zh) | 一种基于层次图神经网络的表格文本问答方法 | |
CN113254688A (zh) | 一种基于深度哈希的商标检索方法 | |
CN102566770A (zh) | 一种模糊笔顺的五笔画输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |