CN113971226A - 一种图像搜索方法、装置、设备以及存储介质 - Google Patents
一种图像搜索方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113971226A CN113971226A CN202111242860.2A CN202111242860A CN113971226A CN 113971226 A CN113971226 A CN 113971226A CN 202111242860 A CN202111242860 A CN 202111242860A CN 113971226 A CN113971226 A CN 113971226A
- Authority
- CN
- China
- Prior art keywords
- image
- source
- warehousing
- confidence coefficient
- source image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 claims description 71
- 239000003814 drug Substances 0.000 claims description 22
- 229940079593 drug Drugs 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims 1
- 238000012015 optical character recognition Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000003062 neural network model Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种图像搜索方法、装置、设备以及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景下。具体实现方案为:根据源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为源图像的相似图像的第一置信度;根据源图像的文本特征和搜索库中入库图像的文本特征,获得入库图像为源图像的相似图像的第二置信度;根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果。应用本公开实施例提供的方案能够实现基于图像进行图像搜索。
Description
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景下。
背景技术
当今互联网络能够为用户提供的信息越来越多,因此,用户可以通过互联网络搜索自己所需的信息。例如,搜索自己所需的商品信息、搜索自己所需的工作资料信息等。
通常情况下,用户在客户端输入搜索文本,客户端向服务端发送上述搜索文本,然后服务端基于上述搜索文本进行搜索,得到搜索结果,并向客户端反馈上述搜索结果。
然而,一些情况下,上述搜索文本较为复杂,导致用户在客户端输入搜索文本困难;另一种情况下,用户难以确定搜索文本,例如,用户想要搜索一件不知道名称的商品时,不知道以什么文本对该商品进行描述。
但是针对上述情况,用户能够获得相关的图像。所以,亟需一种图像搜索方案,以实现基于图像进行图像搜索。
发明内容
本公开提供了一种图像搜索方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种图像搜索方法,包括:
提取源图像的图像特征;
根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度;
提取所述源图像的文本特征;
根据所述源图像的文本特征和所述搜索库中入库图像的文本特征,获得入库图像为所述源图像的相似图像的第二置信度;
根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果。
根据本公开的另一方面,提供了一种图像搜索装置,包括:
图像特征提取模块,用于提取源图像的图像特征;
第一置信度获得模块,用于根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度;
文本特征提取模块,用于提取所述源图像的文本特征;
第二置信度获得模块,用于根据所述源图像的文本特征和所述搜索库中入库图像的文本特征,获得入库图像为所述源图像的相似图像的第二置信度;
搜索结果确定模块,用于根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述图像搜索方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述图像搜索方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述图像搜索方法。
由以上可见,应用本公开实施例提供的方案进行图像搜索时,由于第一置信度是根据源图像的图像特征和搜索库中入库图像的图像特征获得的,第二置信度是根据源图像的文本特征和搜索库中入库图像的文本特征获得的,所以,第一置信度是从图像特征角度反映源图像与入库图像之间的相似度,第二置信度是从文本特征角度反映源图像与入库图像之间的相似度。鉴于此,在从入库图像中确定源图像的搜索结果时,综合考虑了图像特征和文本特征,入库图像对应的第一置信度和第二置信度能够能够全面、准确地反映源图像与入库图像之间的相似度,从而使得源图像的搜索结果的准确度高。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的第一种图像搜索方法的流程示意图;
图2为本公开实施例提供的第二种图像搜索方法的流程示意图;
图3为本公开实施例提供的第三种图像搜索方法的流程示意图;
图4为本公开实施例提供的第四种图像搜索方法的流程示意图;
图5为本公开实施例提供的一种图像搜索方法的流程框图;
图6为本公开实施例提供的第一种图像搜索装置的结构示意图;
图7为本公开实施例提供的第二种图像搜索装置的结构示意图;
图8为本公开实施例提供的第三种图像搜索装置的结构示意图;
图9为本公开实施例提供的第四种图像搜索装置的结构示意图
图10是用来实现本公开实施例的图像搜索方法的电子设备的框图;
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面先对本公开实施例的应用场景和执行主体进行说明。
本公开实施例的应用场景为:存在信息搜索需求的情况下,基于图像进行搜索的场景。
例如,上述应用场景可以是:购物软件基于图像为用户搜索商品图像的场景,这种情况下,用户通过购物软件向服务器上传所要搜索的商品的图像1,服务器搜索与图像1相似的商品图像,并向购物软件反馈搜索到的商品图像,购物软件在用户界面上显示服务器反馈的商品图像。
上述应用场景还可以是:搜索网站基于图像为用户查询资料的场景,这种情况下,用户通过客户端展示的搜索网站的用户界面向服务器上传所要查询的内容的图像2,服务器搜索与图像2具有相似内容的图像,并向上述客户端反馈搜索到的图像,客户端在搜索网站的用户界面显示服务器反馈的图像。
本公开实施例的执行主体为能够提供搜索服务的服务器,也可以是具有搜索功能的终端设备。
下面再对本公开实施例提供的图像搜索方法进行具体说明。
参见图1,图1为本公开实施例提供的第一种图像搜索方法的流程示意图,上述方法包括以下步骤S101-S105。
步骤S101:提取源图像的图像特征。
上述源图像为图像搜索过程中作为搜索基准的图像。这样在源图像作为搜索基准的情况下,图像搜索过程中所搜索到的图像是与上述源图像相关的图像。
上述源图像可以是用户上传的图像,还可以是用户正在浏览的一张图像,还可以是用户在预设时间段内浏览过的一张图像等。
上述源图像在不同的应用场景下具有不同的内容。例如,上述源图像的内容可以是商品,可以是景点等。
本公开的一个实施例中,源图像可以是针对药品的图像。由于药品的名称一般比较复杂,不便于用户输入,这样当源图像是针对药品的图像时,免去了用户输入药品名称,降低了用户针对药品进行搜索的难度。
源图像的图像特征可以包括图像的颜色特征、纹理特征、形状特征或者空间特征等。
具体的,可以通过以下两种不同的方式提取源图像的图像特征。
一种实施方式中,可以采用预设的图像特征提取算法,提取源图像的图像特征。上述图像特征提取算法可以为SIFT(Scale-Invariant Feature Transform,尺度不变特征变换)、HOG(Histogram of Oriented Gradient,方向梯度直方图)等。
另一种实施方式中,可以将源图像输入预先训练的图像特征提取模型,获得图像特征提取模型输出的预设维度的图像特征。
上述预设维度可以为512维度、256维度等。
图像特征提取模型为用于提取图像的图像特征的模型。上述图像特征提取模型可以是ViT(Vision Transformer,视觉转换器)、VGG(Visual Geometry Group,超分辨率测试序列)等。
可以采用有监督训练方式获得上述图像特征提取模型。具体的,获得样本图像和样本图像的标注图像特征,将样本图像输入第一初始神经网络模型,得到第一初始神经网络模型对样本图像进行图像特征提取得到的图像特征,根据得到的图像特征与标注图像特征,计算第一初始神经网络模型进行特征提取的损失值,根据损失值调整第一初始神经网络模型的模型参数。反复执行上述过程,在满足训练结束条件后,完成模型训练,将训练后的模型作为图像特征提取模型。
上述第一初始神经网络模型可以是CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等。
由于图像特征提取模型是预先训练得到的,在采用大量的样本图像对模型进行训练过程中,图像特征提取模型能够学习到图像特征的规律。这样将源图像输入至图像特征提取模型后,图像特征提取模型能够较为准确的提取出源图像的图像特征。
步骤S102:根据源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为源图像的相似图像的第一置信度。
上述搜索库可以是与源图像的图像类型相对应的图像库。例如:当源图像为针对药品的图像时,搜索库为药品图像库,这样搜索库中存储的入库图像均为针对药品的图像;当源图像为针对服饰的图像时,搜索库为服饰图像库,这样搜索库中存储的入库图像均为针对服饰的图像。
入库图像是指搜索库中已存储的图像。
入库图像的图像特征可以是预先对入库图像进行图像特征提取得到的图像特征。上述图像特征可以存储在搜索库中。
入库图像的图像特征提取方式可以与前述源图像的图像特征提取方式相同,这里不再赘述。
由于第一置信度是根据源图像的图像特征和入库图像的图像特征获得的置信度,所以,第一置信度从图像特征的角度反映了入库图像与源图像之间的相似度。这样可以认为,第一置信度越高,入库图像与源图像之间的相似度越大,入库图像是源图像的相似图像的可能性越高;第一置信度越低,入库图像与源图像之间的相似度越小,入库图像是源图像的相似图像的可能性越低。
具体的,上述步骤S102中,可以针对搜索库中每一入库图像获得第一置信度,还可以仅针对搜索库中的部分入库图像获得第一置信度。
具体的,可以通过不同的方式获得第一置信度。
一种实施方式中,计算源图像的图像特征与入库图像的图像特征之间的距离,将上述距离转换为入库图像与源图像之间的相似度,作为第一置信度。
上述距离可以为欧式距离、余弦距离等。
在对距离进行转换时,可以根据预设的距离与相似度之间的对应关系,将上述距离转换为入库图像与源图像之间的相似度。
获得第一置信度的其他实施方式可以参见图3对应的实施例,在此不进行详述。
步骤S103:提取源图像的文本特征。
具体的,本步骤中可以先对源图像进行文本识别,得到识别结果;然后提取识别结果的文本特征,作为源图像的文本特征。
在进行文本识别时,可以对源图像进行文本检测,确定源图像中的文本区域,识别文本区域中的文本,得到识别结果。
当源图像中多个区域存在文本时,可以检测得到多个文本区域。在这种情况下,可以从多个文本区域中选择部分文本区域,将所选择的文本区域作为后续进行文本识别的区域;还可以检测到的所有文本区域均作为后续进行文本识别的区域。
在从多个文本区域中选择部分文本区域时,可以基于文本区域的尺寸,从多个文本区域中选择。例如:可以选择最大尺寸的文本区域、选择尺寸大于预设尺寸阈值的文本区域等。
在识别文本区域中的文本时,可以采用文本识别算法识别文本区域中的文本,上述文本识别算法可以为OCR(Optical Character Recognition,光学字符识别)算法、Seq2Seq(Sequence to Sequence,序列对序列)算法等。
下面对提取识别结果的文本特征的方式进行说明。
一种实施方式中,采用预设的文本特征提取算法,提取识别结果的文本特征,作为源图像的文本特征。
上述文本特征提取算法可以为:TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆向文件频率)、Word2Vec(Word to Vector,词向量)等。
另一种实施方式中,将识别结果输入预先训练的文本特征提取模型,获得文本特征提取模型输出的文本特征,作为源图像的文本特征。
上述文本特征提取模型为用于提取文本的文本特征的模型。上述文本特征提取模型可以是Sim-BERT(Similar-Bidirectional Encoder Representation fromTransformers,相似双向编码器)、N-Gram(汉语语言模型)等。
可以采用有监督训练方式获得上述文本特征提取模型。具体的,获得样本文本和样本文本的标注文本特征,将样本文本输入第二初始神经网络模型,得到第二初始神经网络模型对样本文本进行文本特征提取得到的文本特征,根据得到的文本特征与标注文本特征,计算第二初始神经网络模型进行特征提取的损失值,根据损失值调整第二初始神经网络模型的模型参数。反复执行上述过程,在满足训练结束条件后,完成模型训练,将训练后的模型作为文本特征提取模型。
上述第二初始神经网络模型可以是CNN、RNN等。
由于文本特征提取模型是预先训练得到的,在采用大量的样本文本对模型进行训练过程中,文本特征提取模型能够学习到文本特征的规律。这样将识别结果输入至文本特征提取模型后,文本特征提取模型能够较为准确的提取出识别结果的文本特征,从而获得较准确的源图像的文本特征。
步骤S104:根据源图像的文本特征和搜索库中入库图像的文本特征,获得入库图像为源图像的相似图像的第二置信度。
入库图像的文本特征可以是预先对入库图像进行文本特征提取得到的,上述入库图像的文本特征可以存储在搜索库中。
入库图像的图像特征提取方式可以与前述源图像的文本特征提取方式相同,这里不再赘述。
由于第二置信度是根据源图像的文本特征和入库图像的文本特征获得的置信度,所以,第二置信度从文本特征角度反映了入库图像与源图像之间的相似度。这样可以认为,第二置信度越高,入库图像与源图像之间的相似度越大,入库图像是源图像的相似图像的可能性越高;第二置信度越低,入库图像与源图像之间的相似度越小,入库图像是源图像的相似图像的可能性越低。
具体的,上述步骤S104中,可以针对搜索库中每一入库图像获得第二置信度,还可以仅针对搜索库中部分入库图像获得第二置信度。
具体的,可以通过不同的方式获得第二置信度。
一种实施方式中,计算源图像的文本特征与入库图像的文本特征之间的距离,将上述距离转换为入库图像与源图像之间的相似度,作为第二置信度。
上述距离可以为欧式距离、余弦距离等。
在对距离进行转换时,可以根据预设的距离与相似度之间的对应关系,将上述距离转换为入库图像与源图像之间的相似度。
获得第二置信度的其他实施方式可以参见图3对应的实施例,在此不进行详述。
步骤S105:根据入库图像对应的第一置信度和第二置信度,从入库图像中确定源图像的搜索结果。
具体的,可以按照以下两种方式确定源图像的搜索结果。
一种实施方式中,可以基于入库图像对应的第一置信度和第二置信度,分别从入库图像中确定源图像的相似图像,作为源图像的搜索结果。
在这种实施方式中,可以按照以下两种方式确定源图像的搜索结果。
第一种,基于第一置信度,从入库图像中确定源图像的第一相似图像,并基于第二置信度,从入库图像中确定源图像的第二相似图像,根据第一相似图像和第二相似图像,确定源图像的搜索结果。
在选择第一相似图像时,可以将所对应的第一置信度大于第一置信度阈值的入库图像,确定为第一相似图像,上述第一置信度阈值可以为90%、95%等;也可以将第一预设数量个第一置信度最高的入库图像,确定为第一相似图像,上述第一预设数量数量可以为10、20等。
在选择第二相似图像时,可以将所对应的第二置信度大于第二置信度阈值的入库图像,确定为第二相似图像,上述第二置信度阈值可以为85%、95%等;也可以将第二预设数量个第二置信度最高的入库图像,确定为第二相似图像,上述第二预设数量数量可以为5、10等。
在确定源图像的搜索结果时,一种实现方式中,可以将第一相似图像和第二相似图像确定为源图像的搜索结果;
另一种实现方式中,可以确定第一相似图像和第二相似图像中发生重复的重复图像,若重复图像的数量大于第三预设数量,将重复图像确定为源图像的搜索结果;若重复图像的数量小于或等于第三预设数量,根据第一相似图像和第二相似图像中未发生重复的未重复图像对应的第一置信度和第二置信度,从未重复图像中确定图像,作为源图像的搜索结果,并将重复图像确定为源图像的搜索结果。上述第三预设数量数量可以为20、30等。
在从未重复图像中确定源图像的搜索结果时,可以选择未重复图像所对应的第一置信度大于第三置信度阈值、且所对应的第二置信度大于第四置信度阈值的图像,作为源图像的搜索结果;也可以计算未重复图像对应的第一置信度和第二置信度的平均值,确定目标数量个平均值最高的未重复图像,上述目标数量为第三预设数量与重复图像的数量之间的差值。
第二种,基于第一置信度,从入库图像中确定源图像的第三相似图像,根据第三相似图像对应的第二置信度,从第三相似图像中确定源图像的第四相似图像,作为源图像的搜索结果。
在选择第三相似图像时,可以将所对应的第一置信度大于第五置信度阈值的入库图像,确定为第三相似图像,上述第五置信度阈值可以为90%、95%等;也可以将第四预设数量个第一置信度最高的入库图像,确定为第三相似图像,上述第四预设数量数量可以为10、20等。
在选择第四相似图像时,可以将第三相似图像所对应的第二置信度大于第六置信度阈值的入库图像,确定为第四相似图像,上述第六置信度阈值可以为85%、95%等;也可以将第五预设数量个第二置信度最高的入库图像,确定为第四相似图像,上述第五预设数量数量可以为5、10等。
另一种实施方式中,可以结合入库图像对应的第一置信度和第二置信度,从入库图像中确定源图像的相似图像,作为源图像的搜索结果。上述实施方式的具体实现过程可以参见后续图3所示实施例,在此不进行详述。
由以上可见,应用本实施例提供的方案进行图像搜索时,由于第一置信度是根据源图像的图像特征和搜索库中入库图像的图像特征获得的,第二置信度是根据源图像的文本特征和搜索库中入库图像的文本特征获得的,所以,第一置信度是从图像特征角度反映源图像与入库图像之间的相似度,第二置信度是从文本特征角度反映源图像与入库图像之间的相似度。鉴于此,在从入库图像中确定源图像的搜索结果时,综合考虑了图像特征和文本特征,入库图像对应的第一置信度和第二置信度能够全面、准确地反映源图像与入库图像之间的相似度,从而使得源图像的搜索结果的准确度高。
另外,在源图像不清楚、有遮挡、反光等情况下,源图像的图像特征会发生较大的变化,这样会导致提取得到的图像特征并不能准确表征源图像,但是上述情况对文本影响较小,这样提取得到的文本特征依然能够较为准确地表征源图像。本实施例提供的图像搜索方案中,不仅考虑了图像特征,还引入了文本特征,因此,即使源图像发生了上述所列举的情况,依然能够较为准确地确定源图像的搜索结果。
再者,若搜索库中存储的是各种产品的图像,源图像所针对的产品外观发生改变,而外观变化后的图像未及时更新至搜索库,这种情况下,如果源图像为外观变化后的图像,虽然外观变化后的图像和外观变化前的图像之间图像特征不同,但是由于本公开实施例提供的方案中,不仅考虑了图像特征,还考虑了文本特征,所以,依然能够准确的获得图像搜索结果。
参见图2,图2为本公开实施例提供的第二种图像搜索方法的流程示意图,与上述图1所示实施例相比,在从入库图像中确定源图像的搜索结果之前,还包括以下步骤S206-S207。
具体的,本实施例中图像搜索方法包括以下步骤S206-S207。
步骤S201:提取源图像的图像特征。
步骤S202:根据源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为源图像的相似图像的第一置信度。
步骤S203:提取源图像的文本特征。
步骤S204:根据源图像的文本特征和搜索库中入库图像的文本特征,获得入库图像为源图像的相似图像的第二置信度。
上述步骤S201-S204分别与前述步骤S101-S104相同,这里不再详述。
步骤S206:根据入库图像对应的第一置信度,从入库图像中确定源图像的相似图像,作为第一候选图像。
上述第一候选图像是根据入库图像对应的第一置信度确定的,由于第一置信度从图像特征的角度反映了入库图像与源图像之间的相似度,所以,第一候选图像是从图像特征的角度作为源图像的相似图像。
具体的,可以通过以下两种方式确定第一候选图像。
一种实施方式中,确定所对应的第一置信度大于第七置信度阈值的入库图像,作为第一候选图像。上述第七置信度阈值可以为90%,95%等。
另一种实施方式中,确定第二预设数量个第一置信度最大的入库图像,作为第一候选图像。上述第二预设数量可以是10、20等。
步骤S207:根据入库图像对应的第二置信度,从入库图像中确定源图像的相似图像,作为第二候选图像。
上述第二候选图像是根据入库图像对应的第二置信度确定的,由于第二置信度从文本特征的角度反映了入库图像与源图像之间的相似度,所以,第二候选图像是从文本特征的角度作为源图像的相似图像。
具体的,可以通过以下两种方式确定第一候选图像。
一种实施方式中,确定所对应的第二置信度大于第八置信度阈值的入库图像,作为第二候选图像。上述第八置信度阈值可以为80%,90%等。
另一种实施方式中,确定第三预设数量个第二置信度最大的入库图像,作为第二候选图像。上述第三预设数量可以是5、10等。
在上述基础上,图1所示的步骤S105,可以按照以下步骤S205实现。
步骤S205:根据各目标候选图像对应的第一置信度和第二置信度,从各目标候选图像中确定源图像的搜索结果。
上述目标候选图像为:由第一候选图像和第二候选图像确定的图像。
本公开的一个实施例中,上述目标候选图像可以是通过以下两种方式确定得到的图像。
第一种方式,确定第一候选图像与第二候选图像之间重复的候选图像,作为目标候选图像。
具体的,可以确定第一候选图像的图像标识与第二候选图像的图像标识之间发生重复的图像标识,将所确定的图像标识对应的候选图像作为目标候选图像。
例如:第一候选图像的图像标识包括:P1、P2、P3、……、P9,第二候选图像的图像标识包括:P3、P4、P5、……、P11,上述图像标识之间发生重复的图像标识为:P3、P4、……、P9,所以目标候选图像包括:标识为P3、P4、……、P9的候选图像。
由于第一候选图像与第二候选图像之间重复的候选图像不仅从图像特征的角度与源图像相似,还从文本特征的角度与源图像相似,所以,将上述重复的候选图像确定为目标候选图像,能够提高目标候选图像的准确度。
第二种方式,将第一候选图像与第二候选图像确定为目标候选图像。
当第一候选图像与第二候选图像之间不存在重复的图像时,目标候选图像包括第一候选图像和第二候选图像。
当第一候选图像与第二候选图像之间存在重复的图像时,目标候选图像包括上述重复的图像、第一候选图像中除重复的图像之外的图像、第二候选图像中除重复的图像之外的图像。
由于将第一候选图像与第二候选图像均确定为目标候选图像,这样可以使得所确定的目标候选图像较为全面和丰富。
由以上可见,应用本实施例提供的方案进行图像搜索时,基于各目标候选图像对应的第一置信度和第二置信度,从各目标候选图像中确定源图像的搜索结果。由于目标候选图像是根据第一候选图像和第二候选图像确定得到的图像,第一候选图像是根据第一置信度从入库图像中确定的图像,第二候选图像是根据第二置信度从入库图像中确定的图像,也就是第一候选图像是基于第一置信度从入库图像中初步筛选得到的图像,第二候选图像是基于第二置信度从入库图像中初步筛选得到的图像,所以,目标候选图像是从初步筛选得到的图像中进一步筛选得到的图像,目标候选图像的数量比较少,从数量较少的目标候选图像中确定源图像的搜索结果,提高了确定搜索结果的效率。
由前述图1所示实施例的步骤S105可知,确定源图像的搜索结果的具体方式可以为结合入库图像对应的第一置信度和第二置信度,从入库图像中确定源图像的相似图像,作为源图像的搜索结果。具体实现上述确定源图像的搜索结果的实现方式可以参见下述图3所示实施例中描述的确定源图像的搜索结果的方式。
参见图3,图3为本公开实施例提供的第三种图像搜索方法的流程示意图。在上述图1所示实施例的基础上,确定源图像的搜索结果,可以包括以下步骤S305-S307。
具体的,图3所示实施例中图像搜索方法包括以下步骤S301-S307。
步骤S301:提取源图像的图像特征。
步骤S302:根据源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为源图像的相似图像的第一置信度。
步骤S303:提取源图像的文本特征。
步骤S304:根据源图像的文本特征和搜索库中入库图像的文本特征,获得入库图像为源图像的相似图像的第二置信度。
上述步骤S301-S304分别与前述步骤S101-S104相同,这里不再详述。
步骤S305:根据同一入库图像对应的第一置信度和第二置信度,计算入库图像为源图像的相似图像的第三置信度。
本步骤中,可以针对搜索库中的每一入库图像均获得第三置信度,还可以仅针对搜索库中的部分入库图像获得第三置信度。
具体的,可以通过以下两种不同的方式获得一张入库图像的第三置信度。
一种实施方式中,计算入库图像对应的第一置信度和第二置信度的平均值,作为该入库图像对应的第三置信度。
例如:入库图像对应的第一置信度为90%,第二置信度为80%,计算第一置信度和第二置信度的平均值为:(90%+80%)/2=85%,这样该入库图像对应的第三置信度为85%。
另一种实施方式中,可以预先为第一置信度和第二置信度分别设置有权重,按照第一置信度对应的第一权重和第二置信度对应的第二权重,对入库图像对应的第一置信度和第二置信度进行加权求和,将计算得到的值确定为该入库图像对应的第三置信度。
例如:假设,第一置信度对应的第一权重为0.6,第二置信度对应的第二权重为0.4,一张入库图像对应的第一置信度为85%,对应的第二置信度为80%,这样按照第一权重和第二权重,对第一置信度和第二置信度进行加权求和得到:0.6*85%+0.4*80%=83%,此时,该图库图像对应的第三置信度为83%。
步骤S306:根据入库图像对应的第三置信度,对入库图像进行排序。
具体的,可以按照以下两种不同方式对入库图像进行排序。
一种实施方式中,可以按照第三置信度由高到低的顺序对入库图像进行排序,在排序后的图像中越靠前的图像的第三置信度越高;在排序后的图像中越靠后的图像的第三置信度越低。
另一种实施方式中,可以按照第三置信度由低到高的顺序对入库图像进行排序,在排序后的图像中越靠前的图像的第三置信度越低;在排序后的图像中越靠后的图像的第三置信度越高。
步骤S307:基于排序结果,从入库图像中确定源图像的搜索结果。
在按照第三置信度由高到低的顺序对入库图像进行排序的情况下,可以从排序后的入库图像中确定前预设数量个入库图像,作为源图像的搜索结果。
在按照第三置信度由低到高的顺序对入库图像进行排序的情况下,可以从排序后的入库图像中确定后预设数量个入库图像,作为源图像的搜索结果。
由于第三置信度是根据入库图像对应的第一置信度和第二置信度计算得到的置信度,所以,第三置信度综合考虑了图像特征和文本特征,从这两个角度反映了源图像与入库图像之间的相似度,这样第三置信度能够更加全面、准确地反映源图像与入库图像之间的相似度。从而基于入库图像对应的第三置信度,能够准确地对入库图像进行排序,进而使得所确定的搜索结果的准确度高。
区别于前述图1所示实施例中描述的获得第一置信度、第二置信度的方式,还可以通过下述图4所示实施例中描述的方式获得第一置信度和第二置信度。
参见图4,图4为本公开实施例提供的第四种图像搜索方法的流程示意图,在上述图1或图2所示实施例的基础上,在获得第一置信度、第二置信度之前,还可以包括以下步骤S406-S407。
具体的,本实施例中图像搜索方法包括以下步骤S401-S407。
步骤S401:提取源图像的图像特征。
上述步骤S401与前述步骤S101相同,这里不再详述。
步骤S406:确定源图像的目标图像类型。
图像类型与划分维度有关,例如:当划分维度为图像内容维度时,图像的图像类型可以包括:食品类型、药品类型、人类型、动物类型、车辆类型等;当划分维度为图像来源维度时,图像的图像类型可以包括拍摄类型、合成类型、绘制类型等。
具体的,可以通过以下两种方式确定目标图像类型。
一种实施方式中,获得用户上传的源图像的目标图像类型。
另一种实施方式中,对源图像进行图像分析,确定源图像的图像类型。
例如,可以采用预设的图像分类算法对源图像进行图像分类,得到源图像的分类结果,作为目标图像类型。上述图像分类算法包括:KNN(K-NearestNeighbor,最邻近点结算法)、SVM(Support Vector Machines,支持向量机)等。
步骤S407:确定搜索库中目标图像类型的目标入库图像。
搜索库中各入库图像的图像类型可以是预先获得的,这样可以基于所获得的图像类型预先对各入库图像的图像类型进行标记。在此基础上,一种实施方式中,确定目标图像类型的目标标识,从入库图像中确定图像类型的标识为目标标识的入库图像,作为目标入库图像。
上述目标标识可以是根据预设的图像类型与标识之间的对应关系,确定目标图像类型对应的标识,作为目标标识。
在上述基础上,图1所示的步骤S102,可以按照以下步骤S402实现。
步骤S402:根据源图像的图像特征和目标入库图像的图像特征,获得目标入库图像为源图像的相似图像的第一置信度。
具体的,可以计算源图像的图像特征与目标入库图像的图像特征之间的距离,将计算得到的距离转换为目标入库图像与源图像之间的相似度,作为第一置信度。上述距离可以为欧式距离、余弦距离等。
在对距离进行转换时,可以根据预设的距离与相似度之间的对应关系,将上述距离转换为入库图像与源图像之间的相似度。
步骤S403:提取源图像的文本特征。
上述步骤S403与前述步骤S103相同,这里不再详述。
在上述基础上,图1所示的步骤S104,可以按照以下步骤S404实现。
步骤S404:根据源图像的文本特征和目标入库图像的文本特征,获得目标入库图像为源图像的相似图像的第二置信度。
具体的,可以计算源图像的文本特征与目标入库图像的文本特征之间的距离,将计算得到的距离转换为目标入库图像与源图像之间的相似度,作为第二置信度。
上述距离可以为欧式距离、余弦距离等。
在对距离进行转换时,可以根据预设的距离与相似度之间的对应关系,将上述距离转换为入库图像与源图像之间的相似度。
步骤S405:根据入库图像对应的第一置信度和第二置信度,从入库图像中确定源图像的搜索结果。
其中,上述步骤S405与上述图1所示的步骤S105相同,这里不再详述。
由以上可见,由于目标入库图像是搜索库中类型为目标图像类型的入库图像,目标入库图像的数量远小于搜索库中所有入库图像的数量,那么根据源图像的图像特征和目标入库图像的图像特征,能够较快地获得目标入库图像对应的第一置信度,并且根据源图像的文本特征和目标入库图像的文本特征,能够较快地获得目标入库图像对应的第二置信度,提高了获得第一置信度和第二置信度的效率,从而提高了进行图像搜索的效率。
以下结合图5,对本公开实施例提供的图像搜索方法进行具体说明。图5为本公开实施例提供的一种图像搜索方法的流程框图。
首先,对图5中涉及到的各个模型进行说明。
图5中涉及的网络模型或算法包括ViT、OCR-ENGINE、Word2vec。
其中,ViT用于对图像进行图像特征提取,是本公开实施例中提及的一种图像特征提取模型;
OCR-ENGINE(OCR引擎)用于对图像进行文本识别。
Word2vec用于对识别结果进行文本特征提取,是本公开实施例中提及的一种文本特征提取模型。
其次,对图5所示的模型训练流程进行说明。
在图5所示的实施例中,源图像为针对药品的图像,以下为方便描述,将针对药品的图像称为药品源图像。
在左侧分支中,将药品源图像输入ViT,获得ViT输出的512维度的特征向量,作为源图像的图像特征;将源图像的图像特征与药品搜索库中每一入库图像的图像特征进行比对,得到每一入库图像为源图像的相似图像的第一置信度。
在右侧分支中,将药品源图像输入OCR-ENGINE,将OCR-ENGINE输出的识别结果输入Word2vec,得到Word2vec输出的128维度的特征向量,作为源图像的文本特征;将源图像的文本特征与药品搜索库中每一入库图像的文本特征进行比对,得到每一入库图像为源图像的相似图像的第二置信度。
根据同一入库图像的第一置信度和第二置信度,计算入库图像为源图像的相似图像的第三置信度,基于入库图像对应的第三置信度,确定源图像的搜索结果。
与上述图像搜索方法相对应的,本公开还提供了一种图像搜索装置。
参见图6,图6为本公开实施例提供的第一种图像搜索装置的结构示意图,上述装置包括以下模块601-605。
图像特征提取模块601,用于提取源图像的图像特征;
第一置信度获得模块602,用于根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度;
文本特征提取模块603,用于提取所述源图像的文本特征;
第二置信度获得模块604,用于根据所述源图像的文本特征和所述搜索库中入库图像的文本特征,获得入库图像为所述源图像的相似图像的第二置信度;
搜索结果确定模块605,用于根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果。
由以上可见,应用本实施例提供的方案进行图像搜索时,由于第一置信度是根据源图像的图像特征和搜索库中入库图像的图像特征获得的,第二置信度是根据源图像的文本特征和搜索库中入库图像的文本特征获得的,所以,第一置信度是从图像特征角度反映源图像与入库图像之间的相似度,第二置信度是从文本特征角度反映源图像与入库图像之间的相似度。鉴于此,在从入库图像中确定源图像的搜索结果时,综合考虑了图像特征和文本特征,入库图像对应的第一置信度和第二置信度能够全面、准确地反映源图像与入库图像之间的相似度,从而使得源图像的搜索结果的准确度高。
参见图7,图7为本公开实施例提供的第二种图像搜索装置的结构示意图,上述装置包括以下模块701-707。
图像特征提取模块701,用于提取源图像的图像特征;
第一置信度获得模块702,用于根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度;
文本特征提取模块703,用于提取所述源图像的文本特征;
第二置信度获得模块704,用于根据所述源图像的文本特征和所述搜索库中入库图像的文本特征,获得入库图像为所述源图像的相似图像的第二置信度;
上述模块701-704与图6所示实施例中模块601-604相同。
置信度计算子模块705,根据同一入库图像对应的第一置信度和第二置信度,计算入库图像为所述源图像的相似图像的第三置信度;
图像排序子模块706,用于根据入库图像对应的第三置信度,对入库图像进行排序;
搜索结果确定子模块707,用于基于排序结果,从入库图像中确定所述源图像的搜索结果。
由于第三置信度是根据入库图像对应的第一置信度和第二置信度计算得到的置信度,所以,第三置信度综合考虑了图像特征和文本特征,从这两个角度反映了源图像与入库图像之间的相似度,这样第三置信度能够更加全面、准确地反映源图像与入库图像之间的相似度。从而基于入库图像对应的第三置信度,能够准确地对入库图像进行排序,进而使得所确定的搜索结果的准确度高。
参见图8,图8为本公开实施例提供的第三种图像搜索装置的结构示意图,上述装置包括以下模块801-807。
图像特征提取模块801,用于提取源图像的图像特征;
第一置信度获得模块802,用于根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度;
文本特征提取模块803,用于提取所述源图像的文本特征;
第二置信度获得模块804,用于根据所述源图像的文本特征和所述搜索库中入库图像的文本特征,获得入库图像为所述源图像的相似图像的第二置信度;
上述模块801-804与图6所示实施例中模块601-604相同。
第一图像确定模块806,用于根据入库图像对应的第一置信度,从入库图像中确定所述源图像的相似图像,作为第一候选图像;
第二图像确定模块807,用于根据入库图像对应的第二置信度,从入库图像中确定所述源图像的相似图像,作为第二候选图像;
搜索结果确定模块805,具体用于根据各目标候选图像对应的第一置信度和第二置信度,从各目标候选图像中确定所述源图像的搜索结果,其中,所述目标候选图像为:由所述第一候选图像和第二候选图像确定的图像。
由以上可见,应用本实施例提供的方案进行图像搜索时,基于各目标候选图像对应的第一置信度和第二置信度,从各目标候选图像中确定源图像的搜索结果。由于目标候选图像是根据第一候选图像和第二候选图像确定得到的图像,第一候选图像是根据第一置信度从入库图像中确定的图像,第二候选图像是根据第二置信度从入库图像中确定的图像,也就是第一候选图像是基于第一置信度从入库图像中初步筛选得到的图像,第二候选图像是基于第二置信度从入库图像中初步筛选得到的图像,所以,目标候选图像是从初步筛选得到的图像中进一步筛选得到的图像,目标候选图像的数量比较少,从数量较少的目标候选图像中确定源图像的搜索结果,提高了确定搜索结果的效率。
本公开的一个实施例中,通过以下方式确定所述目标候选图像:
所述候选图像确定模块具体用于将所述第一候选图像与所述第二候选图像确定为目标候选图像;或确定所述第一候选图像与所述第二候选图像之间重复的候选图像,作为目标候选图像。
这样,由于第一候选图像与第二候选图像之间重复的候选图像不仅从图像特征的角度与源图像相似,还从文本特征的角度与源图像相似,所以,将上述重复的候选图像确定为目标候选图像,能够提高目标候选图像的准确度;并且由于将第一候选图像与第二候选图像均确定为目标候选图像,这样可以使得所确定的目标候选图像较为全面和丰富。
本公开的一个实施例中,上述图像特征提取模块,具体用于将源图像输入预先训练的图像特征提取模型,获得所述图像特征提取模型输出的预设维度的图像特征。
由于图像特征提取模型是预先训练得到的,在采用大量的样本图像对模型进行训练过程中,图像特征提取模型能够学习到图像特征的规律。这样将源图像输入至图像特征提取模型后,图像特征提取模型能够较为准确的提取出源图像的图像特征。
本公开的一个实施例中,上述文本特征提取模块,具体用于对所述源图像进行文本识别,得到识别结果;将所述识别结果输入预先训练的文本特征提取模型,获得所述文本特征提取模型输出的文本特征,作为所述源图像的文本特征。
由于文本特征提取模型是预先训练得到的,在采用大量的样本文本对模型进行训练过程中,文本特征提取模型能够学习到文本特征的规律。这样将识别结果输入至文本特征提取模型后,文本特征提取模型能够较为准确的提取出识别结果的文本特征,从而获得较准确的源图像的文本特征。
参见图9,图9为本公开实施例提供的第四种图像搜索装置的结构示意图,上述装置包括901-907。
图像特征提取模块901,用于提取源图像的图像特征;
上述模块901与图6所示实施例中模块601相同。
类型确定模块906,用于根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度之前,确定所述源图像的目标图像类型;
第三图像确定模块907,具体用于根据所述源图像的图像特征和目标入库图像的图像特征,获得目标入库图像为所述源图像的相似图像的第一置信度;
第一置信度获得模块902,具体用于根据所述源图像的图像特征和目标入库图像的图像特征,获得目标入库图像为所述源图像的相似图像的第二置信度。
文本特征提取模块903,用于提取所述源图像的文本特征;
上述模块903与图6所示实施例中模块603相同。
第二置信度获得模块904,用于根据所述源图像的图像特征和目标入库图像的图像特征,获得目标入库图像为所述源图像的相似图像的第二置信度;
搜索结果确定模块905,用于根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果。
上述模块905与图6所示实施例中模块605相同。
由以上可见,由于目标入库图像是搜索库中类型为目标图像类型的入库图像,目标入库图像的数量远小于搜索库中所有入库图像的数量,那么根据源图像的图像特征和目标入库图像的图像特征,能够较快地获得目标入库图像对应的第一置信度,并且根据源图像的文本特征和目标入库图像的文本特征,能够较快地获得目标入库图像对应的第二置信度,提高了获得第一置信度和第二置信度的效率,从而提高了进行图像搜索的效率。
本公开的一个实施例中,上述源图像为:针对药品的图像。
由于药品的名称一般比较复杂,不便于用户输入,这样当源图像是针对药品的图像时,免去了用户输入药品名称,降低了用户针对药品进行搜索的难度。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
本公开实施例提供了一种电子设备,上述一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行图像搜索方法。
本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行图像搜索方法。
本公开实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现图像搜索方法。
由以上可见,应用本实施例提供的方案进行图像搜索时,由于第一置信度是根据源图像的图像特征和搜索库中入库图像的图像特征获得的,第二置信度是根据源图像的文本特征和搜索库中入库图像的文本特征获得的,所以,第一置信度是从图像特征角度反映源图像与入库图像之间的相似度,第二置信度是从文本特征角度反映源图像与入库图像之间的相似度。鉴于此,在从入库图像中确定源图像的搜索结果时,综合考虑了图像特征和文本特征,入库图像对应的第一置信度和第二置信度能够全面、准确地反映源图像与入库图像之间的相似度,从而使得源图像的搜索结果高。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如图像搜索方法。例如,在一些实施例中,图像搜索方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的图像搜索方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像搜索方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种图像搜索方法,包括:
提取源图像的图像特征;
根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度;
提取所述源图像的文本特征;
根据所述源图像的文本特征和所述搜索库中入库图像的文本特征,获得入库图像为所述源图像的相似图像的第二置信度;
根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果。
2.根据权利要求1所述的方法,其中,所述根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果,包括:
根据同一入库图像对应的第一置信度和第二置信度,计算入库图像为所述源图像的相似图像的第三置信度;
根据入库图像对应的第三置信度,对入库图像进行排序;
基于排序结果,从入库图像中确定所述源图像的搜索结果。
3.根据权利要求1所述的方法,其中,在所述根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果之前,还包括:
根据入库图像对应的第一置信度,从入库图像中确定所述源图像的相似图像,作为第一候选图像;
根据入库图像对应的第二置信度,从入库图像中确定所述源图像的相似图像,作为第二候选图像;
所述根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果,包括:
根据各目标候选图像对应的第一置信度和第二置信度,从各目标候选图像中确定所述源图像的搜索结果。
4.根据权利要求3所述的方法,其中,通过以下方式确定所述目标候选图像:
将所述第一候选图像与所述第二候选图像确定为目标候选图像;
或
确定所述第一候选图像与所述第二候选图像之间重复的候选图像,作为目标候选图像。
5.根据权利要求1-4中任一项所述的方法,其中,所述提取源图像的图像特征,包括:
将源图像输入预先训练的图像特征提取模型,获得所述图像特征提取模型输出的预设维度的图像特征。
6.根据权利要求1-4中任一项所述的方法,其中,所述提取所述源图像的文本特征,包括:
对所述源图像进行文本识别,得到识别结果;
将所述识别结果输入预先训练的文本特征提取模型,获得所述文本特征提取模型输出的文本特征,作为所述源图像的文本特征。
7.根据权利要求1-4中任一项所述的方法,其中,在所述根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度之前,还包括:
确定所述源图像的目标图像类型;
确定所述搜索库中所述目标图像类型的目标入库图像;
所述根据源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度,包括:
根据所述源图像的图像特征和目标入库图像的图像特征,获得目标入库图像为所述源图像的相似图像的第一置信度;
所述根据所述源图像的文本特征和所述搜索库中入库图像的文本特征,获得入库图像为所述源图像的相似图像的第二置信度,包括:
根据所述源图像的文本特征和目标入库图像的文本特征,获得目标入库图像为所述源图像的相似图像的第二置信度。
8.根据权利要求1-4中任一项所述的方法,其中,所述源图像为:针对药品的图像。
9.一种图像搜索装置,包括:
图像特征提取模块,用于提取源图像的图像特征;
第一置信度获得模块,用于根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度;
文本特征提取模块,用于提取所述源图像的文本特征;
第二置信度获得模块,用于根据所述源图像的文本特征和所述搜索库中入库图像的文本特征,获得入库图像为所述源图像的相似图像的第二置信度;
搜索结果确定模块,用于根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果。
10.根据权利要求9所述的装置,其中,所述搜索结果确定模块,包括:
置信度计算子模块,根据同一入库图像对应的第一置信度和第二置信度,计算入库图像为所述源图像的相似图像的第三置信度;
图像排序子模块,用于根据入库图像对应的第三置信度,对入库图像进行排序;
搜索结果确定子模块,用于基于排序结果,从入库图像中确定所述源图像的搜索结果。
11.根据权利要求9所述的装置,其中,所述装置还包括:
第一图像确定模块,用于在所述搜索结果确定模块根据入库图像对应的第一置信度和第二置信度,从入库图像中确定所述源图像的搜索结果之前,根据入库图像对应的第一置信度,从入库图像中确定所述源图像的相似图像,作为第一候选图像;
第二图像确定模块,用于根据入库图像对应的第二置信度,从入库图像中确定所述源图像的相似图像,作为第二候选图像;
所述搜索结果确定模块,具体用于根据各目标候选图像对应的第一置信度和第二置信度进行融合,得到各目标候选图像为所述源图像的相似图像的第三置信度,从各目标候选图像中确定所述源图像的搜索结果,其中,所述目标候选图像为:由所述第一候选图像和第二候选图像确定的图像。
12.根据权利要求11所述的装置,其中,通过以下方式确定所述目标候选图像:
将所述第一候选图像与所述第二候选图像确定为目标候选图像;或确定所述第一候选图像与所述第二候选图像之间重复的候选图像,作为目标候选图像。
13.根据权利要求9-12中任一项所述的装置,其中,所述图像特征提取模块,具体用于将源图像输入预先训练的图像特征提取模型,获得所述图像特征提取模型输出的预设维度的图像特征。
14.根据权利要求9-12中任一项所述的装置,其中,所述文本特征提取模块,具体用于对所述源图像进行文本识别,得到识别结果;将所述识别结果输入预先训练的文本特征提取模型,获得所述文本特征提取模型输出的文本特征,作为所述源图像的文本特征。
15.根据权利要求9-12中任一项所述的装置,所述装置还包括:
类型确定模块,用于在所述第一置信度获得模块根据所述源图像的图像特征和搜索库中入库图像的图像特征,获得入库图像为所述源图像的相似图像的第一置信度之前,确定所述源图像的目标图像类型;
第三图像确定模块,用于确定所述搜索库中所述目标图像类型的目标入库图像;
所述第一置信度获得模块,具体用于根据所述源图像的图像特征和目标入库图像的图像特征,获得目标入库图像为所述源图像的相似图像的第一置信度;
所述第二置信度获得模块,具体用于根据所述源图像的文本特征和目标入库图像的文本特征,获得目标入库图像为所述源图像的相似图像的第二置信度。
16.根据权利要求9-12中任一项所述的装置,其中,所述源图像为:针对药品的图像。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111242860.2A CN113971226A (zh) | 2021-10-25 | 2021-10-25 | 一种图像搜索方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111242860.2A CN113971226A (zh) | 2021-10-25 | 2021-10-25 | 一种图像搜索方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113971226A true CN113971226A (zh) | 2022-01-25 |
Family
ID=79588214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111242860.2A Pending CN113971226A (zh) | 2021-10-25 | 2021-10-25 | 一种图像搜索方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113971226A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019127832A1 (zh) * | 2017-12-29 | 2019-07-04 | 国民技术股份有限公司 | 智能搜索方法、装置、终端及服务器、存储介质 |
CN111782841A (zh) * | 2019-11-27 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 图像搜索方法、装置、设备和计算机可读介质 |
CN111949814A (zh) * | 2020-06-24 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 搜索方法、装置、电子设备和存储介质 |
-
2021
- 2021-10-25 CN CN202111242860.2A patent/CN113971226A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019127832A1 (zh) * | 2017-12-29 | 2019-07-04 | 国民技术股份有限公司 | 智能搜索方法、装置、终端及服务器、存储介质 |
CN111782841A (zh) * | 2019-11-27 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 图像搜索方法、装置、设备和计算机可读介质 |
CN111949814A (zh) * | 2020-06-24 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 搜索方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113656582B (zh) | 神经网络模型的训练方法、图像检索方法、设备和介质 | |
CN107590255B (zh) | 信息推送方法和装置 | |
CN113627508B (zh) | 陈列场景识别方法、装置、设备以及存储介质 | |
CN111949814A (zh) | 搜索方法、装置、电子设备和存储介质 | |
CN114549874A (zh) | 多目标图文匹配模型的训练方法、图文检索方法及装置 | |
CN113204621B (zh) | 文档入库、文档检索方法,装置,设备以及存储介质 | |
CN114429633A (zh) | 文本识别方法、模型的训练方法、装置、电子设备及介质 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN112699237B (zh) | 标签确定方法、设备和存储介质 | |
CN110674388A (zh) | 推送项目的配图方法、装置、存储介质和终端设备 | |
CN116597443A (zh) | 素材标签处理方法、装置、电子设备及介质 | |
CN114036397B (zh) | 数据推荐方法、装置、电子设备和介质 | |
CN113971226A (zh) | 一种图像搜索方法、装置、设备以及存储介质 | |
CN114329016A (zh) | 图片标签生成方法和文字配图方法 | |
CN114647739A (zh) | 实体链指方法、装置、电子设备及存储介质 | |
CN114417029A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN114329206A (zh) | 标题生成方法和装置、电子设备、计算机可读介质 | |
CN109815312B (zh) | 一种文档查询的方法、装置、计算设备及计算机存储介质 | |
EP3980963A1 (en) | Method and apparatus for cosmetic product recommendation | |
CN113408530B (zh) | 一种图像识别方法、装置、设备以及存储介质 | |
CN112818167B (zh) | 实体检索方法、装置、电子设备及计算机可读存储介质 | |
CN113128601B (zh) | 分类模型的训练方法和对图像进行分类的方法 | |
KR20180068455A (ko) | 이미지 검색 모델을 제공하는 방법, 장치, 시스템 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |