CN116109447A - 一种搜索方法、装置、设备和介质 - Google Patents
一种搜索方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116109447A CN116109447A CN202211705238.5A CN202211705238A CN116109447A CN 116109447 A CN116109447 A CN 116109447A CN 202211705238 A CN202211705238 A CN 202211705238A CN 116109447 A CN116109447 A CN 116109447A
- Authority
- CN
- China
- Prior art keywords
- vectors
- vector
- picture
- similarity
- searching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 462
- 238000013461 design Methods 0.000 claims abstract description 88
- 238000001914 filtration Methods 0.000 claims abstract description 60
- 238000000605 extraction Methods 0.000 claims description 47
- 238000012360 testing method Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 abstract description 2
- 230000004044 response Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种搜索方法、装置、设备和介质,涉及搜索领域;方法包括:当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片,然后提取待搜索图片的特征向量,并在外观设计图片向量库中确定与特征向量对应的若干相似向量,每一相似向量对应有唯一的专利标识,进而根据专利过滤条件和若干相似向量各自对应的专利标识在全文搜索数据库中进行筛选,得到符合专利过滤条件的多个目标专利信息并输出。本申请通过待搜索图片的图片内容以及专利过滤条件对应的语义信息两个层面上进行专利搜索,实现了快速精准定位专利的目的。
Description
技术领域
本申请涉及搜索的技术领域,尤其是涉及一种搜索方法、装置、设备和介质。
背景技术
外观设计专利是指对产品的形状、图案或其结合以及色彩与形状、图案的结合所做出的富有美感并适于工业应用的新设计。目前外观设计会有大量的附图,这些附图能够展示专利所要保护的外观的整体轮廓、局部细节、颜色以及形状等特征。当需要搜索涉及的外观是否已经被在先申请时,往往是人工基于关键词搜索,搜索的效率低。
因而,提供一种提高搜索效率的方案,是本领域亟待解决的技术问题。
发明内容
为了提高搜索效率,本申请提供一种搜索方法、装置、设备和介质。
第一方面,本申请提供一种搜索方法,采用如下的技术方案:
一种搜索方法,包括:
当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片;
提取所述待搜索图片的特征向量,并根据所述特征向量、外观设计图片向量库,确定与所述特征向量对应的若干相似向量;
确定若干相似向量各自对应的专利标识;
根据所述专利过滤条件、若干相似向量各自对应的专利标识在全文搜索数据库中进行专利搜索,确定多个目标专利信息;
输出多个目标专利信息。
通过采用上述技术方案,当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片,然后提取待搜索图片的特征向量,并在外观设计图片向量库中确定与特征向量对应的若干相似向量,每一相似向量对应有唯一的专利标识,进而根据专利过滤条件和若干相似向量各自对应的专利标识在全文搜索数据库中进行筛选,得到符合专利过滤条件的多个目标专利信息并输出。可知,本方案先利用待搜索图片的特征向量在外观设计图片向量库中进行向量搜索,得到若干相似向量,实现了从海量的图片中快速确定与待搜索图片相似的图片的目的,进而根据相似向量对应的专利标识结合专利过滤条件,从全文搜索数据库中进行语义层面的分析,得到多个目标专利信息,通过待搜索图片的图片内容以及专利过滤条件对应的语义信息两个层面上进行专利搜索,实现了快速精准定位专利的目的。
本申请在一较佳示例中可以进一步配置为:
所述提取所述待搜索图片的特征向量,包括:
利用TensorRT框架下的图片特征提取模型,提取所述待搜索图片的特征向量;
其中,TensorRT框架下的图片特征提取模型是从Pytorch框架下的模型经过中间模型框架转换得到的,Pytorch框架下的模型的向量输出维度为512维。
通过采用上述技术方案,降低了向量维度,通过修改网络结构重新训练,利用中间模型框架将训练好的模型在不同框架之间进行转换,在精度损失可接受的范围内,提高模型服务的效率。
本申请在一较佳示例中可以进一步配置为:
所述外观设计图片向量库包括:多个分布式节点各自对应的子外观设计图片向量库;
所述根据所述特征向量、外观设计图片向量库,确定与所述特征向量对应的若干相似向量,包括:
根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量,其中,每一分布式节点能够根据携带有特征向量的向量搜索请求从对应的子外观设计图片向量库中确定多个相似向量;
从所有的相似向量中按照相似程度,确定若干相似向量。
通过采用上述技术方案,采用了分布式搜索框架进行向量搜索,减少了整体服务的响应时间,提高了搜索效率。
本申请在一较佳示例中可以进一步配置为:
所述接收多个分布式节点各自发送的多个相似向量,包括:
通过流式传输分次获取多个分布式节点各自发送的多个相似向量。
通过采用上述技术方案,分布式节点间采用流式传输方式进行数据传输,减少了节点间的通讯压力,减少了整体服务的响应时间,优化了客户体验。
本申请在一较佳示例中可以进一步配置为:
分布式节点首次发送的相似向量的数量为预设页面显示数量,且每次获取到的每一分布式节点的相似向量均存储于缓存中;
相应的,输出多个目标专利信息,包括:
若为首次输出,则输出页面显示数量的第一目标专利信息,其中,第一目标专利信息为根据专利过滤条件和首次获取的所有分布式节点各自对应的多个相似向量确定的;
若为翻页输出,则输出页面显示数量的第二目标专利信息,其中,第二目标专利信息为根据专利过滤条件和从缓存中获取的所有分布式节点各自对应的多个相似向量确定的。
通过采用上述技术方案,流式传输第一次传输数量是web页面的显示数量,同时在后台传输剩余的大批量数据,可以快速响应用户的首次请求,且不会影响用户后续的翻页请求,减少了服务响应时间。
本申请在一较佳示例中可以进一步配置为:
所述特征向量包括图片信息对应的第一特征向量、字符信息对应的第二特征向量,每一子外观设计图片向量库中的每一向量包括每一外观设计图片对应的第一特征向量和第二特征向量;
相应的,所述根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量,包括:
根据待搜索图片的第一特征向量,与每一分布式节点的子外观设计图片向量库中的所有第一特征向量进行相似度计算,得到所有的第一相似度结果;
根据待搜索图片的第二特征向量,与每一分布式节点的子外观设计图片向量库中的所有第二特征向量进行相似度计算,得到所有的第二相似度结果;
获取预设的第一特征向量的第一权重、第一特征向量的第二权重,其中,第一权重大于第二权重;
针对每一分布式节点的子外观设计图片向量库中的每一向量,利用第一权重、第二权重、第一相似度结果和第二相似度结果,确定相似度值;
从每一分布式节点的子外观设计图片向量库的所有向量中,按照相似度值大到小选择一定数量的向量作为每一分布式节点搜索得到的多个相似向量。
通过采用上述技术方案,当图片的特征包括两维度特征时,可以结合两维度各自对应的相似度结果和权重,共同确定第一外观设计图片向量库中的每一向量与待搜索图片的向量相似度,结果更加准确。
本申请在一较佳示例中可以进一步配置为:方法还包括:
获取针对每一过滤条件数量的多个测试数据,其中,测试数据包括:设定的相似向量的数量、确定相似向量的时间;
针对每一过滤条件数量,根据多个测试数据进行多项式拟合,得到数量与时间的多项式拟合函数;所述多项式拟合函数用于根据确定相似向量的目标时间确定相似向量的数量。
通过采用上述技术方案,利用多项式函数关系将非线性的数据关系进行拟合,进而可以根据确定的目标时间确定相似向量的数量,以保证搜索响应速度。
第二方面,本申请提供一种搜索装置,采用如下的技术方案:
一种搜索装置,包括:
图片获取模块,用于当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片;
提取与确定模块,用于提取所述待搜索图片的特征向量,并根据所述特征向量、外观设计图片向量库,确定与所述特征向量对应的若干相似向量;
专利信息获取模块,用于确定若干相似向量各自对应的专利标识;
确定模块,用于根据所述专利过滤条件、若干相似向量各自对应的专利标识在全文搜索数据库中进行专利搜索,确定多个目标专利信息;
输出模块,用于输出多个目标专利信息。
本申请在一较佳示例中可以进一步配置为:
提取与确定模块在执行所述提取所述待搜索图片的特征向量时,用于:
利用TensorRT框架下的图片特征提取模型,提取所述待搜索图片的特征向量;
其中,TensorRT框架下的图片特征提取模型是从Pytorch框架下的模型经过中间模型框架转换得到的,Pytorch框架下的模型的向量输出维度为512维。
本申请在一较佳示例中可以进一步配置为:
所述外观设计图片向量库包括:多个分布式节点各自对应的子外观设计图片向量库;
提取与确定模块在执行所述根据所述特征向量、外观设计图片向量库,确定与所述特征向量对应的若干相似向量时,用于:
根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量,其中,每一分布式节点能够根据携带有特征向量的向量搜索请求从对应的子外观设计图片向量库中确定多个相似向量;
从所有的相似向量中按照相似程度,确定若干相似向量。
本申请在一较佳示例中可以进一步配置为:
提取与确定模块在执行接收多个分布式节点各自发送的多个相似向量时,用于:
通过流式传输分次获取多个分布式节点各自发送的多个相似向量。
本申请在一较佳示例中可以进一步配置为:分布式节点每次发送的相似向量的数量为预设页面显示数量,且每次获取到的每一分布式节点的预设页面显示数量的相似向量均存储于缓存中;
相应的,输出模块在执行输出多个目标专利信息时,用于:
若为首次输出,则输出页面显示数量的第一目标专利信息,其中,第一目标专利信息为根据专利过滤条件和首次获取的所有分布式节点各自对应的多个相似向量确定的;
若为翻页输出,则输出页面显示数量的第二目标专利信息,其中,第二目标专利信息为根据专利过滤条件和从缓存中获取的所有分布式节点各自对应的多个相似向量确定的。
本申请在一较佳示例中可以进一步配置为:
所述特征向量包括图片信息对应的第一特征向量、字符信息对应的第二特征向量,每一子外观设计图片向量库中的每一向量包括每一外观设计图片对应的第一特征向量和第二特征向量;
相应的,提取与确定模块在执行根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量时,用于:
根据待搜索图片的第一特征向量,与每一分布式节点的子外观设计图片向量库中的所有第一特征向量进行相似度计算,得到所有的第一相似度结果;
根据待搜索图片的第二特征向量,与每一分布式节点的子外观设计图片向量库中的所有第二特征向量进行相似度计算,得到所有的第二相似度结果;
获取预设的第一特征向量的第一权重、第一特征向量的第二权重,其中,第一权重大于第二权重;
针对每一分布式节点的子外观设计图片向量库中的每一向量,利用第一权重、第二权重、第一相似度结果和第二相似度结果,确定相似度值;
从每一分布式节点的子外观设计图片向量库的所有向量中,按照相似度值大到小选择一定数量的向量作为每一分布式节点搜索得到的多个相似向量。
本申请在一较佳示例中可以进一步配置为:
搜索装置,还包括:
拟合模块,用于获取针对每一过滤条件数量的多个测试数据,其中,测试数据包括:设定的相似向量的数量、确定相似向量的时间;
针对每一过滤条件数量,根据多个测试数据进行多项式拟合,得到数量与时间的多项式拟合函数;所述多项式拟合函数用于根据确定相似向量的目标时间确定相似向量的数量。
第三方面,本申请提供一种搜索设备,采用如下的技术方案:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行如第一方面任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行如第一方面任一项所述的方法。
综上所述,本申请包括以下至少一种有益技术效果:
1.利用待搜索图片的特征向量在外观设计图片向量库中进行向量搜索,得到若干相似向量,实现了从海量的图片中快速确定与待搜索图片相似的图片的目的,进而根据相似向量对应的专利标识结合专利过滤条件,从全文搜索数据库中进行语义层面的分析,得到多个目标专利信息,通过待搜索图片的图片内容以及专利过滤条件对应的语义信息两个层面上进行专利搜索,实现了快速精准定位专利的目的;
2.采用了分布式搜索框架进行向量搜索,减少了整体服务的响应时间,提高了搜索效率。
附图说明
图1为本申请实施例提供的一种搜索的场景图;
图2为本申请实施例提供的另一种搜索的场景图;
图3为本申请实施例提供的一种搜索方法的流程示意图;
图4为本申请实施例提供的一种搜索框架示意图;
图5为本申请实施例提供的一种搜索装置的结构示意图;
图6为本申请实施例提供的一种搜索设备的结构示意图。
具体实施方式
以下结合附图1至6对本申请作进一步详细说明。
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的一种搜索方法、装置、设备和介质。具体地,本申请实施例提供的搜索方法由搜索设备执行,该搜索设备可以为服务器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,
为了便于理解,下面对本申请的技术方案所适用的场景进行介绍,参见图1和图2。
如图1所示,本申请实施例提供的一种搜索的场景图,包括:终端设备和搜索设备;终端设备和与搜索设备之间通过网络连接,比如,有线或无线网络连接,其中,搜索装置设置在搜索设备中。在需要进行外观专利排查时,需要搜索出相似的外观专利信息。在搜索过程中,当接收到终端发送的搜索请求后,搜索设备获取相应的待搜索图片,进而根据待搜索图片进行相似度搜索以得到符合搜索请求的专利信息,并反馈给终端。
如图2所示,本申请实施例中提供的搜索方法部署在搜索设备上,该搜索设备可以为终端设备,能够在接收到用户触发的搜索请求后,获取相应的待搜索图片,进而根据待搜索图片进行相似度搜索以得到符合搜索请求的专利信息,并显示专利信息。
具体地,本申请实施例提供了一种搜索方法,由搜索设备执行,如图3所示,该方法包括步骤S101至步骤S105,其中:
步骤S101:当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片。
其中,待搜索图片为产品的任一角度的外观的图片。
具体地,终端设备能够为用户提供应用程序的搜索界面,其中,搜索界面包括图片信息上传控件和过滤条件选择列表,当检测到用户针对图片信息上传控件和过滤条件选择列表的触发操作,生成图片搜索请求,其中,触发图片信息上传控件的操作可以是拖拽图片至触发区域或粘贴图片网址至触发区域或打开摄像功能进行拍照得到的图片。
其中,专利过滤条件包括但是不限于以下任意一项或者多项:申请人、发明人、地址、分类号、专利代理机构、简要说明和专利状态。待搜索图片的图片类型包括但是不限于:静态图片、动态图片,且,本申请实施例不对待搜索图片的数量进行限定,可以是1张、2张3张等。
步骤S102:提取待搜索图片的特征向量,并根据特征向量、外观设计图片向量库,确定与特征向量对应的若干相似向量;
在本申请实施例中,对确定待搜索图片的特征向量的确定方式不进行限制,在一些实施例中,搜索设备可以将待搜索图片输入至特征提取模型,来获取待搜索图片的特征向量,其中,特征提取模型可以采用常见的提取模型或者改进的提取模型,利用训练图像进行训练后生成的;在另一些实施例中,搜索设备可以将待搜索图片发送至特征提取设备,特征提取设备用于进行特征向量提取;搜索设备获取特征提取设备反馈的特征向量。
其中,提取的特征向量可以表征图像中的对象的特点,具体可以包括多种维度的信息,例如:图片信息、字符信息和标签信息。进而可以通过多维度进行比较以提高相似向量确定的准确度。
进一步的,在提取待搜索图片的特征向量之前,还可以包括:判断待搜索图像的格式是否为目标格式,目标格式是当前提取特征向量的标准格式,若是,则执行提取待搜索图片的特征向量,若否,则对待搜索图片进行格式转换,转换成目标格式的待搜索图片。进一步的,还可以根据特征提取方式的需求,对待搜索图片进行等比例缩放、裁剪以及灰度处理。
在本申请实施例中,预先设置有外观设计图片向量库,管理员可将大量的外观设计图片的向量上传至外观设计图片向量库,每一向量与唯一的ID对应。在上传过程中,还可以通过调用第三方借口将向量进行压缩,且打标签入库,该标签可以是向量唯一对应的ID。在一些可能的情况中,该外观设计图片向量库可以为一个也可以是多个,当数量为多个向量库时,每个向量库可以存储不同类型的向量,进而在进行向量匹配时,可以先确定向量的类型再从对应的向量库进行向量匹配,减小了匹配范围,进而减小了任务量提高了匹配效率。
进一步的,该外观设计图片向量库中的向量对应的图与公开的全文搜索数据库ElasticSearch中的外观设计图同步。具体地,实时检测全文搜索数据库ElasticSearch中是否有增量的外观设计图,若是,则提取增量的外观设计图,并提取增量的外观设计图的特征向量,以更新外观设计图片向量库,并为增量的外观设计图的特征向量赋予唯一对应的ID。
具体地,根据待搜索图片的特征向量,依次与外观设计图片向量库中的向量进行相似度计算,得到外观设计图片向量库中每一向量与待搜索图片的特征向量的相似度值;根据所有相似度,选择若干相似向量,其中,相似向量的数量用户可根据实际需求设置或者根据经验设置。
步骤S103:确定若干相似向量各自对应的专利标识;
在本申请实施例中,外观设计图片向量库中每一向量对应唯一的ID,进而,可以根据若干相似向量各自对应的ID,确定相应的专利标识;专利标识包括但是不限定于:专利申请号、专利公开号。
步骤S104:根据专利过滤条件、若干相似向量各自对应的专利标识在全文搜索数据库中进行专利搜索,确定多个目标专利信息;
具体地,根据若干相似向量各自对应的专利标识从全文搜索数据库中确定若干专利标识各自对应的专利信息;根据专利过滤条件和专利信息对应的相似度值,从若干专利信息中确定多个目标专利信息,得到的目标专利信息为同时满足图片的语义信息和图片信息的专利信息。
步骤S105:输出多个目标专利信息。
具体地,可以是向终端设备发送目标专利信息,当终端设备接收到目标专利信息后,可以按照排序以及页面要求进行显示。还可以是搜索设备在显示界面按照排序以及页面要求显示多个目标专利信息。
在本申请实施例中,当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片,然后提取待搜索图片的特征向量,并在外观设计图片向量库中确定与特征向量对应的若干相似向量,每一相似向量对应有唯一的专利标识,进而根据专利过滤条件和若干相似向量各自对应的专利标识在全文搜索数据库中进行筛选,得到符合专利过滤条件的多个目标专利信息并输出。
可知,本申请实施例先利用待搜索图片的特征向量在外观设计图片向量库中进行向量搜索,得到若干相似向量,实现了从海量的图片中快速确定与待搜索图片相似的图片的目的,进而根据相似向量对应的专利标识结合专利过滤条件,从全文搜索数据库中进行语义层面的分析,得到多个目标专利信息,通过待搜索图片的图片内容以及专利过滤条件对应的语义信息两个层面上进行专利搜索,实现了快速精准定位专利的目的。
在一种可能的实施例中,为了提高待搜索图片的特征向量提取的效果,提取待搜索图片的特征向量,包括:利用TensorRT框架下的图片特征提取模型,提取待搜索图片的特征向量,其中,TensorRT框架下的图片特征提取模型是从Pytorch框架下的模型经过中间模型框架转换得到的,Pytorch框架下的模型的向量输出维度为512维。
具体地,TensorRT框架下的图片特征提取模型的生成过程可以包括:获取Pytorch框架下的图片特征提取模型和训练后的权重,其中,Pytorch框架下的图片特征提取模型的输出向量维度为512维;根据Pytorch框架下的图片特征提取模型和训练后的权重确中间模型框架下的图片特征提取模型和权重;根据中间模型框架下的图片特征提取模型和权重分别转换成TensorRT框架下的图片特征提取模型和权重。
TensorRT是NVIDIA官方推出的基于CUDA(Compute Unified DeviceArchitecture,统一计算设备架构)和cudnn(CUDA Deep Neural Network library,CUDA深层神经网络库)的高性能深度学习推理加速引擎,能够使深度学习模型在GPU(GraphicsProcessing Unit,图形处理器)上进行低延迟、高吞吐量的部署。采用C++开发,并提供了C++和Python的API接口(Application Program Interface,应用程序接口),支持TensorFlow、Pytorch、Caffe、Mxnet等深度学习框架,其中Mxnet、Pytorch的支持需要先转换为中间模格式。
如果直接采用TensorRT推理优化框架对开发人员要求非常高,会大大增加开发周期。而Pytorch框架在进行模型推理计算的时候,会构建动态图结构,这种模型结构很灵活,采用Pytorch框架能够提高开发人员的代码开发效率,提高了产品的迭代速度。
可以理解的是,然而,Pytorch框架下的模型的在线服务性能不足。因而,本申请实施例中,先采用Pytorch框架进行代码开发,进行模型训练,得到Pytorch框架下的模型,在推理服务部署的时候,利用工具包将训练好的Pytorch框架下的模型经过中间模型框架转换为TensorRT框架下的图片特征提取模型,中间模型框架可以为ONNX或Caffe,转为TensorRT,在精度损失可接受的范围内,提高模型服务的效率。
在本申请实施例中TensorRT框架下的图片特征提取模型的输出向量维度可以由ResNet50(输出向量维度2048维)调整为512维。
可见,本申请实施例中采用的特征提取模型,降低向量维度,通过修改网络结构重新训练,保证精度不降低的情况下降低了向量维度,通过大量实验表明,用经过优化的图片特征提取模型服务提取图片的特征向量,整体性能比普通torch模型提速两倍以上。
在一种可能的实施例中,获取Pytorch框架下的图片特征提取模型和训练后的权重之前,还包括:利用测试集对Pytorch框架下的图片特征提取模型进行测试得到测试结果;若测试结果的准确率达到预设阈值,则确定Pytorch框架下的图片特征提取模型验证通过,可以进行格式转换,否则需要对Pytorch框架下的图片特征提取模型再次进行训练。
在一种可能的实施例中,还可以对中间模型框架下的图片特征提取模型的文件进行简化处理,得到简化后的文件,并根据简化后的文件得到简化后的中间模型框架下的图片特征提取模型;并利用测试集对简化后的中间模型框架下的图片特征提取模型进行测试,若简化后的测是结果在预设范围内,则确定测试通过,相应的,根据中间模型框架下的图片特征提取模型和权重分别转换成TensorRT框架下的图片特征提取模型和权重,包括:根据简化后的中间模型框架下的图片特征提取模型和权重分别转换成TensorRT框架下的图片特征提取模型和权重。可见,本申请实施例可以通过简化中间模型的文件大小,减少了计算量,提高了效率。
进一步的,在确定若干相似向量的时候,需要取前若干项相似度值高的相似度向量,相似度向量的数量若是很高,则影响整体搜索的效率,若是较低,则可能在结合过滤条件过滤时造成得不到搜索结果的情况。进而,确定相似度向量的数量直接影响搜索效果。
在一种可能的实施例中,为了提高搜索效率,可以结合过滤条件的数量、搜索设备的运行性能,确定相似向量的总量。
在另一种可能的实施例中,可以获取针对每一过滤条件数量的多个测试数据,其中,测试数据包括:设定的相似向量的数量、确定相似向量的时间;
针对每一过滤条件数量,根据多个测试数据进行多项式拟合,得到数量与时间的多项式拟合函数;多项式拟合函数用于根据确定相似向量的目标时间确定相似向量的数量。
具体地,针对每一数量的过滤条件,利用测试图片在第一相似向量的数量的前提下进行测试,得到确定相似向量的时间;然后按照数量步长调整相似向量的数量,再次进行测试,得到对应的确定相似向量;重复上述步骤得到多个测试数据,进而可以根据多个测试数据进行拟合,得到针对每一数量的过滤条件的多项式拟合函数。
可以理解的是,多个测试数据均为满足要求的数据。在一种可能的情况中,获取针对每一过滤条件数量的多个测试数据之前,还包括:获取多个原始测试数据,判断所有的原始测试数据中是否存在错误数据;若存在错误数据,则将去除错误数据之后的所有数据作为所有的测试数据。
值得注意的是,技术人员可以根据实际的时间需求确定相似向量的数量。
可见,本申请实施例能够利用多个测试数据生成多项式函数关系,以将非线性的数据关系进行精确地拟合。进而可以根据实际的时间需求调整每一目标时间下的数量,以提高搜索效率。
在一种可能的实施例中,为了提高搜索效率,本申请实施例提供一种分布式搜索框架,请参考图4,图4为本申请实施例提供的一种搜索框架示意图,包括主节点和多个分布式节点,每一分布式节点均具有搜索功能,能够实现相似向量的搜索,每一分布式节点均与主节点连接。
值得注意的是,若每一分布式节点具有特征向量提取功能,则主节点可以将搜索请求转发至多个分布式节点,以使分布式节点进行特征向量提取以及根据提取结果进行向量搜索;若每一分布式节点不具有特征向量提取功能,则主节点可以将携带有待搜索向量对应的特征向量的搜索请求发送至多个分布式节点,以使分布式节点进行向量搜索。
其中,外观设计图片向量库包括:多个分布式节点各自对应的子外观设计图片向量库;
可以理解的是,每一子外观设计图片向量库的数据库中的每一数据均不相同。分配每一向量库的向量可以是随机的,还可以是按照类别分配,本申请实施例不再进行限定。
S102中的根据特征向量、外观设计图片向量库,确定与特征向量对应的若干相似向量,包括:步骤SA1-步骤SA2(附图未示出),其中:
SA1、根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量,其中,每一分布式节点能够根据携带有特征向量的向量搜索请求从对应的子外观设计图片向量库中确定多个相似向量;
其中,每一分布式节点可以进行向量搜索,从相应的子外观设计图片向量库中确定多个向量,其中,可以通过计算特征向量的相似度,来判断两幅图是否相似。特征向量的相似度匹配可以采用空间向量模型,即可以把特征向量作为空间中的点,点与其他向量的距离作为向量将的相似度,距离越近,特征向量越相似。
在一种可实现的实施方式中,若特征向量包括图片信息对应的特征向量,则SA1可以包括:根据待搜索图片的特征向量,与子外观设计图片向量库中的所有特征向量进行相似度计算,得到所有的相似度值;从子外观设计图片向量库的所有向量中,按照从相似度值大到小选择一定数量的向量作为多个相似向量。
在另一种可实现的实施方式中,所述特征向量包括图片信息对应的第一特征向量、字符信息对应的第二特征向量,每一子外观设计图片向量库中的每一向量包括每一子外观设计图片对应的第一特征向量和第二特征向量,
可以理解的是,图片内容中包括图片信息和字符信息,相应的提取的特征向量可以包括两维度向量,分别为图片信息对应的第一特征向量和字符信息对应的第二特征向量;
相应的,SA1可以包括:SA1-1至SA1-5(附图未示出),其中:
SA1-1、根据待搜索图片的第一特征向量,与每一分布式节点的子外观设计图片向量库中的所有第一特征向量进行相似度计算,得到所有的第一相似度结果;
其中,每一第一相似度结果可以用百分比的形式,例如,75%。SA1-2、根据待搜索图片的第二特征向量,与每一分布式节点的子外观设计图片向量库中的所有第二特征向量进行相似度计算,得到所有的第二相似度结果;
其中,每一第一相似度结果、第二相似读结果可以用百分比的形式,例如,75%,数值越大表明相似度越高。
SA1-3、获取预设的第一特征向量的第一权重、第一特征向量的第二权重,其中,第一权重大于第二权重;
其中,第一权重和第二权重可根据经验设置,一般情况下第一权重大于第二权重,无论是图片信息还是字符信息均能体现用户的搜索意向,一般的图片信息占比更大。
SA1-4、针对每一分布式节点的子外观设计图片向量库中的每一向量,利用第一权重、第二权重、第一相似度结果和第二相似度结果,确定相似度值;
其中,相似度值表明特征向量的相似程度。
SA1-5、从每一分布式节点的子外观设计图片向量库的所有向量中,按照相似度值大到小选择一定数量的向量作为每一分布式节点搜索得到的多个相似向量。
可见,当图片的特征包括两维度特征时,可以结合两维度各自对应的相似度结果和权重,共同确定第一外观设计图片向量库中的每一向量与待搜索图片的向量相似度,结果更加准确。
进一步的,对于本申请实施例,分布式节点之间通过GRPC通信。
优选的,接收多个分布式节点各自发送的多个相似向量,包括:通过流式传输分次获取多个分布式节点各自发送的多个相似向量。
对于流式传输方式进行进一步阐述,当总共要传输40000个信息时,那么可以分次传输,第一次传输100个(预设页面每页的展示数量),剩下的分8次传输,每次传输(40000-100)/8=4988个。当然,还可以是其他的传输次数,本申请实施例不再进行限定,只要是能够实现本申请实施例的目的即可。
可见,节点间采用流式传输方式进行数据传输,减少了节点间的通讯压力,减少了整体服务的响应时间,优化了客户体验。
SA2、从所有的相似向量中按照相似程度,确定若干相似向量。
主节点作为协调节点,负责协调整理各个分布式节点的数据,每个分布式节点上,有向量库和向量搜索接口,主节点能够调度分布式节点进行搜索,并对多个分布式节点各自发送的多个相似向量进行收集、整合和排序,最终得到若干相似向量。
在本申请实施例中,采用了分布式搜索框架进行向量搜索,减少了整体服务的响应时间,提高了搜索效率。
进一步的,分布式节点首次发送的相似向量的数量为预设页面显示数量,且每次获取到的每一分布式节点的相似向量均存储于缓存中;
相应的,输出多个目标专利信息,包括:
若为首次输出,则输出页面显示数量的第一目标专利信息,其中,第一目标专利信息为根据专利过滤条件和首次获取的所有分布式节点各自对应的多个相似向量确定的;
若为翻页输出,则输出页面显示数量的第二目标专利信息,其中,第二目标专利信息为根据专利过滤条件和从缓存中获取的所有分布式节点各自对应的多个相似向量确定的。
每个分布式节点首次传输的数据数量为页面显示数量,此时能够保证在首次输出页面中显示的数据为按照相似度高的顺序排列的目标专利信息。通过流式数据不断传输,进而缓存中读取数据并结合专利过滤条件、全文搜索数据库进行专利搜索以确定剩余的目标专利信息,然后再根据翻页请求进行翻页输出,来输出按照相似度高的顺序的目标专利信息。
可见,流式传输第一次传输数量是web页面的显示数量,同时在后台传输剩余的大批量数据 ,可以快速响应用户的首次请求,且不会影响用户后续的翻页请求,减少了服务响应时间。
结合上述任一实施例,本申请实施例提供以下具体地搜索实例。
如:用户A上传一张图片作为待搜索图片,图片内容是一只带有某种功能的电动牙刷,用户A想确认此图片是否已有其他用户申请了专利,点击搜索按钮,执行本申请的搜索方法,搜索结果中有与之相似的图片,但是相似度极低,如果用户A生产产品的话,不会构成侵权。用户确认此图片相关专利还没有被申请过,即可自己发起申请。
再如:用户B上传一张图片,图片内容是某种材质的布料的外观图像,用户B点击搜索按钮,执行本申请的搜索方法,搜索结果中有与之相似的图片,且相似度极高,而且根据过滤条件筛选后,该相似专利还未超过保护期限。因此,用户B不能申请此图片相关专利。
再如:用户C上传一张图片,图片内容是手机的某个零部件,用户C想了解此图片最近五年被某几家龙头企业申请与之相似的专利有哪些,点击搜索按钮,执行本申请的搜索方法,获得搜索结果,通过翻页即可查看所有的相似专利,用户C从一定程度上了解了该零部件近些年的发展趋势及状况。
本申请提供的搜索方法,整体服务响应很快(毫秒级),用户没有明显的搜索延迟体验。帮助了使用者确认某种外观设计专利是否已经被申请,减少专利侵权的风险,提高了使用者的搜索效率,节省了使用者的时间成本。
上述实施例从方法流程的角度介绍一种搜索方法,下述实施例从虚拟模块或者虚拟单元的角度介绍了一种搜索装置,具体详见下述实施例。
本申请实施例提供一种搜索装置,如图5所示,该搜索装置具体可以包括:
图片获取模块510,用于当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片;
提取与确定模块520,用于提取待搜索图片的特征向量,并根据特征向量、外观设计图片向量库,确定与特征向量对应的若干相似向量;
专利信息获取模块530,用于确定若干相似向量各自对应的专利标识;
确定模块540,用于根据专利过滤条件、若干相似向量各自对应的专利标识在全文搜索数据库中进行专利搜索,确定多个目标专利信息;
输出模块550,用于输出多个目标专利信息。
本申请实施例的一种可能的实现方式,提取与确定模块520在执行提取待搜索图片的特征向量时,用于:
利用TensorRT框架下的图片特征提取模型,提取待搜索图片的特征向量;
其中,TensorRT框架下的图片特征提取模型是从Pytorch框架下的模型经过中间模型框架转换得到的,Pytorch框架下的模型的向量输出维度为512维。
本申请实施例的一种可能的实现方式,外观设计图片向量库包括:多个分布式节点各自对应的子外观设计图片向量库;
提取与确定模块520在执行根据特征向量、外观设计图片向量库,确定与特征向量对应的若干相似向量时,用于:
根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量,其中,每一分布式节点能够根据携带有特征向量的向量搜索请求从对应的子外观设计图片向量库中确定多个相似向量;
从所有的相似向量中按照相似程度,确定若干相似向量。
本申请实施例的一种可能的实现方式,提取与确定模块520在执行接收多个分布式节点各自发送的多个相似向量时,用于:
通过流式传输分次获取多个分布式节点各自发送的多个相似向量。
本申请在一较佳示例中可以进一步配置为:
分布式节点首次发送的相似向量的数量为预设页面显示数量,且每次获取到的每一分布式节点的相似向量均存储于缓存中;
相应的,输出模块550在执行输出多个目标专利信息时,用于:
若为首次输出,则输出页面显示数量的第一目标专利信息,其中,第一目标专利信息为根据专利过滤条件和首次获取的所有分布式节点各自对应的多个相似向量确定的;
若为翻页输出,则输出页面显示数量的第二目标专利信息,其中,第二目标专利信息为根据专利过滤条件和从缓存中获取的所有分布式节点各自对应的多个相似向量确定的。
本申请实施例的一种可能的实现方式,特征向量包括图片信息对应的第一特征向量、字符信息对应的第二特征向量,每一子外观设计图片向量库中的每一向量包括每一外观设计图片对应的第一特征向量和第二特征向量;
相应的,提取与确定模块520在执行根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量时,用于:
根据待搜索图片的第一特征向量,与每一分布式节点的子外观设计图片向量库中的所有第一特征向量进行相似度计算,得到所有的第一相似度结果;
根据待搜索图片的第二特征向量,与每一分布式节点的子外观设计图片向量库中的所有第二特征向量进行相似度计算,得到所有的第二相似度结果;
获取预设的第一特征向量的第一权重、第一特征向量的第二权重,其中,第一权重大于第二权重;
针对每一分布式节点的子外观设计图片向量库中的每一向量,利用第一权重、第二权重、第一相似度结果和第二相似度结果,确定相似度值;
从每一分布式节点的子外观设计图片向量库的所有向量中,按照相似度值大到小选择一定数量的向量作为每一分布式节点搜索得到的多个相似向量。
本申请在一较佳示例中可以进一步配置为:
搜索装置,还包括:
拟合模块,用于获取针对每一过滤条件数量的多个测试数据,其中,测试数据包括:设定的相似向量的数量、确定相似向量的时间;
针对每一过滤条件数量,根据多个测试数据进行多项式拟合,得到数量与时间的多项式拟合函数;多项式拟合函数用于根据确定相似向量的目标时间确定相似向量的数量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的一种装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例中提供了一种搜索设备,如图6所示,图6所示的搜索设备600包括:处理器601和存储器603。其中,处理器601和存储器603相连,如通过总线602相连。可选地,搜索设备60还可以包括收发器604。需要说明的是,实际应用中收发器604不限于一个,该搜索设备600的结构并不构成对本申请实施例的限定。
处理器601可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器601也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线602可包括一通路,在上述组件之间传送信息。总线602可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一型的总线。
存储器603可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器603用于存储执行本申请方案的应用程序代码,并由处理器601来控制执行。处理器601用于执行存储器603中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,搜索设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图6示出的搜索设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与相关技术相比,本申请实施例利用待搜索图片的特征向量在外观设计图片向量库中进行向量搜索,得到若干相似向量,实现了从海量的图片中快速确定与待搜索图片相似的图片的目的,进而根据相似向量对应的专利标识结合专利过滤条件,从全文搜索数据库中进行语义层面的分析,得到多个目标专利信息,通过待搜索图片的图片内容以及专利过滤条件对应的语义信息两个层面上进行专利搜索,实现了快速精准定位专利的目的。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种搜索方法,其特征在于,包括:
当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片;
提取所述待搜索图片的特征向量,并根据所述特征向量、外观设计图片向量库,确定与所述特征向量对应的若干相似向量;
确定若干相似向量各自对应的专利标识;
根据所述专利过滤条件、若干相似向量各自对应的专利标识在全文搜索数据库中进行专利搜索,确定多个目标专利信息;
输出多个目标专利信息。
2.根据权利要求1所述的搜索方法,其特征在于,所述提取所述待搜索图片的特征向量,包括:
利用TensorRT框架下的图片特征提取模型,提取所述待搜索图片的特征向量;
其中,TensorRT框架下的图片特征提取模型是从Pytorch框架下的模型经过中间模型框架转换得到的,Pytorch框架下的模型的向量输出维度为512维。
3.根据权利要求1所述的搜索方法,其特征在于,所述外观设计图片向量库包括:多个分布式节点各自对应的子外观设计图片向量库;
所述根据所述特征向量、外观设计图片向量库,确定与所述特征向量对应的若干相似向量,包括:
根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量,其中,每一分布式节点能够根据携带有特征向量的向量搜索请求从对应的子外观设计图片向量库中确定多个相似向量;
从所有的相似向量中按照相似程度,确定若干相似向量。
4.根据权利要求3所述的搜索方法,其特征在于,所述接收多个分布式节点各自发送的多个相似向量,包括:
通过流式传输分次获取多个分布式节点各自发送的多个相似向量。
5.根据权利要求4所述的搜索方法,其特征在于,分布式节点首次发送的相似向量的数量为预设页面显示数量,且每次获取到的每一分布式节点的相似向量均存储于缓存中;
相应的,输出多个目标专利信息,包括:
若为首次输出,则输出页面显示数量的第一目标专利信息,其中,第一目标专利信息为根据专利过滤条件和首次获取的所有分布式节点各自对应的多个相似向量确定的;
若为翻页输出,则输出页面显示数量的第二目标专利信息,其中,第二目标专利信息为根据专利过滤条件和从缓存中获取的所有分布式节点各自对应的多个相似向量确定的。
6.根据权利要求3所述的搜索方法,其特征在于,所述特征向量包括图片信息对应的第一特征向量、字符信息对应的第二特征向量,每一子外观设计图片向量库中的每一向量包括每一外观设计图片对应的第一特征向量和第二特征向量;
相应的,所述根据携带有特征向量的向量搜索请求调度每一分布式节点进行向量搜索,得到每一分布式节点搜索得到的多个相似向量,包括:
根据待搜索图片的第一特征向量,与每一分布式节点的子外观设计图片向量库中的所有第一特征向量进行相似度计算,得到所有的第一相似度结果;
根据待搜索图片的第二特征向量,与每一分布式节点的子外观设计图片向量库中的所有第二特征向量进行相似度计算,得到所有的第二相似度结果;
获取预设的第一特征向量的第一权重、第一特征向量的第二权重,其中,第一权重大于第二权重;
针对每一分布式节点的子外观设计图片向量库中的每一向量,利用第一权重、第二权重、第一相似度结果和第二相似度结果,确定相似度值;
从每一分布式节点的子外观设计图片向量库的所有向量中,按照相似度值大到小选择一定数量的向量作为每一分布式节点搜索得到的多个相似向量。
7.根据权利要求1至6任一项所述的搜索方法,其特征在于,还包括:
获取针对每一过滤条件数量的多个测试数据,其中,测试数据包括:设定的相似向量的数量、确定相似向量的时间;
针对每一过滤条件数量,根据多个测试数据进行多项式拟合,得到数量与时间的多项式拟合函数;所述多项式拟合函数用于根据确定相似向量的目标时间确定相似向量的数量。
8.一种搜索装置,其特征在于,包括:
图片获取模块,用于当接收到携带有专利过滤条件的图片搜索请求时,获取待搜索图片;
提取与确定模块,用于提取所述待搜索图片的特征向量,并根据所述特征向量、外观设计图片向量库,确定与所述特征向量对应的若干相似向量;
专利信息获取模块,用于确定若干相似向量各自对应的专利标识;
确定模块,用于根据所述专利过滤条件、若干相似向量各自对应的专利标识在全文搜索数据库中进行专利搜索,确定多个目标专利信息;
输出模块,用于输出多个目标专利信息。
9.一种搜索设备,其特征在于,包括:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211705238.5A CN116109447A (zh) | 2022-12-29 | 2022-12-29 | 一种搜索方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211705238.5A CN116109447A (zh) | 2022-12-29 | 2022-12-29 | 一种搜索方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116109447A true CN116109447A (zh) | 2023-05-12 |
Family
ID=86255441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211705238.5A Pending CN116109447A (zh) | 2022-12-29 | 2022-12-29 | 一种搜索方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109447A (zh) |
-
2022
- 2022-12-29 CN CN202211705238.5A patent/CN116109447A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947919B (zh) | 用于生成文本匹配模型的方法和装置 | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
US20200401896A1 (en) | Generating larger neural networks | |
CN111666416B (zh) | 用于生成语义匹配模型的方法和装置 | |
CN108984555B (zh) | 用户状态挖掘和信息推荐方法、装置以及设备 | |
US11875241B2 (en) | Aspect pre-selection using machine learning | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN107832338B (zh) | 一种识别核心产品词的方法和系统 | |
CN110837586B (zh) | 问答匹配方法、系统、服务器及存储介质 | |
CN106354856B (zh) | 基于人工智能的深度神经网络强化搜索方法和装置 | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN112364204A (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN111460185A (zh) | 书籍搜索方法、装置和系统 | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
CN116894711A (zh) | 商品推荐理由生成方法及其装置、电子设备 | |
US20230368503A1 (en) | Self-supervised audio-visual learning for correlating music and video | |
CN111026849B (zh) | 数据处理方法和装置 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN116109447A (zh) | 一种搜索方法、装置、设备和介质 | |
CN114329093A (zh) | 数据的处理方法、装置及设备 | |
CN111949860B (zh) | 用于生成相关度确定模型的方法和装置 | |
CN111897910A (zh) | 信息推送方法和装置 | |
CN117392260B (zh) | 一种图像生成方法及装置 | |
CN114048392B (zh) | 多媒体资源推送方法、装置、电子设备及存储介质 | |
CN110502698B (zh) | 一种信息推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |