CN113282781B - 图像检索方法及装置 - Google Patents

图像检索方法及装置 Download PDF

Info

Publication number
CN113282781B
CN113282781B CN202110539585.4A CN202110539585A CN113282781B CN 113282781 B CN113282781 B CN 113282781B CN 202110539585 A CN202110539585 A CN 202110539585A CN 113282781 B CN113282781 B CN 113282781B
Authority
CN
China
Prior art keywords
image
retrieval
historical
features
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110539585.4A
Other languages
English (en)
Other versions
CN113282781A (zh
Inventor
曾锐
林汉权
林杰兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Draft Xiamen Information Service Co ltd
Gaoding Xiamen Technology Co Ltd
Original Assignee
Gaoding Xiamen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gaoding Xiamen Technology Co Ltd filed Critical Gaoding Xiamen Technology Co Ltd
Priority to CN202110539585.4A priority Critical patent/CN113282781B/zh
Publication of CN113282781A publication Critical patent/CN113282781A/zh
Priority to PCT/CN2021/119402 priority patent/WO2022241987A1/zh
Application granted granted Critical
Publication of CN113282781B publication Critical patent/CN113282781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像检索方法、介质、设备及装置,其中方法包括:获取历史图像,并对历史图像进行显著性检测,以及根据显著性检测结果对历史图像进行语义提取,以得到历史图像的语义特征;计算历史图像对应的文案特征;将历史图像输入到风格识别模型,以得到历史图像的风格特征;计算历史图像对应的检索向量,并生成检索数据库;获取待检索图像,并计算待检索图像对应的待检索向量,以及根据待检索向量和检索向量计算检索数据库中任意一个历史图像与待检索图像之间的相似值;根据所有历史图像对应的相似值返回待检索图像对应的检索结果;能够从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。

Description

图像检索方法及装置
技术领域
本发明涉及图像检索技术领域,特别涉及一种图像检索方法、一种计算机可读存储介质、一种计算机设备以及一种图像检索装置。
背景技术
以图搜图,是根据用户提供的指定图像进行图像检索,以得到目标图像的功能;这一功能不需要用户自行整理关键词、分析检索方式;可以有效提高用户的检索效率,降低用户在检索目标图像过程中所需要耗费的时间。
相关技术中,在根据用户指定图像进行图像检索的过程中,多只是将整张图像输入到模型,以提取整张图像的特征;接着,根据整张图片的特征进行目标图像的检索。这种方式容易忽略指定图像的重要信息,造成最终目标图像检索结果不准确。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种图像检索方法,能够从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种图像检索装置。
为达到上述目的,本发明第一方面实施例提出了一种图像检索方法,包括以下步骤:获取历史图像,并通过预先训练好的显著性检测网络对所述历史图像进行显著性检测,以及根据显著性检测结果对所述历史图像进行语义提取,以得到所述历史图像的语义特征;对所述历史图像进行文案提取,并根据文案提取结果计算所述历史图像对应的文案特征;将所述历史图像输入到风格识别模型,以得到所述历史图像的风格特征;根据所述语义特征、所述文案特征和所述风格特征计算所述历史图像对应的检索向量,并根据多个所述历史图像和每个历史图像对应的检索向量生成检索数据库;获取待检索图像,并计算所述待检索图像对应的待检索向量,以及根据所述待检索向量和所述检索向量计算所述检索数据库中任意一个历史图像与所述待检索图像之间的相似值;根据所有历史图像对应的相似值返回所述待检索图像对应的检索结果。
根据本发明实施例的图像检索方法,首先,获取历史图像,并通过预先训练好的显著性检测网络对历史图像进行显著性检测,以提取历史图像中的主体部分;接着,根据显著性检测结果对历史图像进行语义分析,以得到历史图像的语义特征;然后,对历史图像进行文案提取,并根据文案提取结果计算历史图像对应的文案特征;接着,将历史图像输入到风格识别模型中,以通过风格识别模型提取历史图像的风格特征;然后,对语义特征、文案特征和风格特征进行特征融合以得到检索向量;并将该历史图像和对应的检索向量加入到检索数据库中,以通过多个历史图像及其对应的检索向量生成检索数据库;接着,获取待检索图像,并计算待检索图像对应的待检索向量,以及根据待检索向量和任意一个历史图像对应的检索向量计算该待检索图像与该历史图像之间的相似值;然后,根据所有历史图像对应的相似值返回待检索图像对应的检索结果;从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
另外,根据本发明上述实施例提出的图像检索方法还可以具有如下附加的技术特征:
可选地,所述显著性检测网络的训练包括:获取开源数据集和无主体图像,并提取所述开源数据集中图像的主体信息,以及将所述主体信息与所述无主体图像进行融合;根据所述开源数据集和所述主体信息与所述无主体图像的融合结果生成训练集,以便根据所述训练集进行所述显著性检测网络的训练。
可选地,根据文案提取结果计算所述历史图像对应的文案特征,包括:对文案提取结果进行分词和关键词提取,以生成对应文案提取结果的关键词和所述关键词对应的权重;将所述关键词映射为关键词向量,并根据关键词向量和对应的权重进行加权平均,以得到所述历史图像对应的文案特征。
可选地,根据所述语义特征、所述文案特征和所述风格特征计算所述历史图像对应的检索向量,包括:获取所述语义特征对应的权重、所述文案特征对应的权重和所述风格特征对应的权重,并根据所述语义特征对应的权重、所述文案特征对应的权重、所述风格特征对应的权重对所述语义特征、所述文案特征和所述风格特征进行特征融合,以得到所述检索向量。
可选地,还包括:获取用户对于所述检索结果的点击数据,并根据所述点击数据对所述语义特征对应的权重、所述文案特征对应的权重、所述风格特征对应的权重进行更新。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有图像检索程序,该图像检索程序被处理器执行时实现如上述的图像检索方法。
根据本发明实施例的计算机可读存储介质,通过存储图像检索程序,以使得处理器在执行该图像检索程序时,实现如上述的图像检索方法,从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
为达到上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的图像检索方法。
根据本发明实施例的计算机设备,通过存储器对图像检索程序进行存储,以使得处理器在执行该图像检索程序时,实现如上述的图像检索方法,从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
为达到上述目的,本发明第四方面实施例提出了一种图像检索装置,包括:语义特征模块,所述语义特征模块用于获取历史图像,并通过预先训练好的显著性检测网络对所述历史图像进行显著性检测,以及根据显著性检测结果对所述历史图像进行语义提取,以得到所述历史图像的语义特征;文案特征模块,所述文案特征模块用于对所述历史图像进行文案提取,并根据文案提取结果计算所述历史图像对应的文案特征;风格特征模块,所述风格特征模块用于将所述历史图像输入到风格识别模型,以得到所述历史图像的风格特征;数据库模块,所述数据库模块用于根据所述语义特征、所述文案特征和所述风格特征计算所述历史图像对应的检索向量,并根据多个所述历史图像和每个历史图像对应的检索向量生成检索数据库;检索模块,所述检索模块用于获取待检索图像,并计算所述待检索图像对应的待检索向量,以及根据所述待检索向量和所述检索向量计算所述检索数据库中任意一个历史图像与所述待检索图像之间的相似值;反馈模块,所述反馈模块用于根据所有历史图像对应的相似值返回所述待检索图像对应的检索结果。
根据本发明实施例的图像检索装置,通过设置语义特征模块用于获取历史图像,并通过预先训练好的显著性检测网络对历史图像进行显著性检测,以及根据显著性检测结果对历史图像进行语义提取,以得到历史图像的语义特征;文案特征模块用于对历史图像进行文案提取,并根据文案提取结果计算历史图像对应的文案特征;风格特征模块用于将历史图像输入到风格识别模型,以得到历史图像的风格特征;数据库模块用于根据语义特征、文案特征和风格特征计算历史图像对应的检索向量,并根据多个历史图像和每个历史图像对应的检索向量生成检索数据库;检索模块用于获取待检索图像,并计算待检索图像对应的待检索向量,以及根据待检索向量和检索向量计算检索数据库中任意一个历史图像与待检索图像之间的相似值;反馈模块用于根据所有历史图像对应的相似值返回待检索图像对应的检索结果;从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
另外,根据本发明上述实施例提出的图像检索装置还可以具有如下附加的技术特征:
可选地,所述显著性检测网络的训练包括:获取开源数据集和无主体图像,并提取所述开源数据集中图像的主体信息,以及将所述主体信息与所述无主体图像进行融合;根据所述开源数据集和所述主体信息与所述无主体图像的融合结果生成训练集,以便根据所述训练集进行所述显著性检测网络的训练。
可选地,根据文案提取结果计算所述历史图像对应的文案特征,包括:对文案提取结果进行分词和关键词提取,以生成对应文案提取结果的关键词和所述关键词对应的权重;将所述关键词映射为关键词向量,并根据关键词向量和对应的权重进行加权平均,以得到所述历史图像对应的文案特征。
附图说明
图1为根据本发明实施例的图像检索方法的流程示意图;
图2为根据本发明实施例的图像检索装置的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
相关技术中,在根据用户指定图像进行图像检索的过程中,多只是将整张图像输入到模型,以提取整张图像的特征;接着,根据整张图片的特征进行目标图像的检索。这种方式容易忽略指定图像的重要信息,造成最终目标图像检索结果不准确;根据本发明实施例的图像检索方法,首先,获取历史图像,并通过预先训练好的显著性检测网络对历史图像进行显著性检测,以提取历史图像中的主体部分;接着,根据显著性检测结果对历史图像进行语义分析,以得到历史图像的语义特征;然后,对历史图像进行文案提取,并根据文案提取结果计算历史图像对应的文案特征;接着,将历史图像输入到风格识别模型中,以通过风格识别模型提取历史图像的风格特征;然后,对语义特征、文案特征和风格特征进行特征融合以得到检索向量;并将该历史图像和对应的检索向量加入到检索数据库中,以通过多个历史图像及其对应的检索向量生成检索数据库;接着,获取待检索图像,并计算待检索图像对应的待检索向量,以及根据待检索向量和任意一个历史图像对应的检索向量计算该待检索图像与该历史图像之间的相似值;然后,根据所有历史图像对应的相似值返回待检索图像对应的检索结果;从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本发明实施例的图像检索方法的流程示意图,如图1所示,该图像检索方法包括以下步骤:
S101,获取历史图像,并通过预先训练好的显著性检测网络对历史图像进行显著性检测,以及根据显著性检测结果对历史图像进行语义提取,以得到历史图像的语义特征。
也就是说,获取用于训练的历史图像,并通过预先训练好的显著性检测网络对历史图像进行显著性检测,以得到历史图像中的主体区域;然后,如果历史图像存在主体区域,则对主体区域进行语义提取;如果历史图像不存在主体区域,则对整个历史图像进行语义提取,以得到历史图像的语义特征。可以理解,如果图像为商品类图像,则该商品类图像中往往会有一个凸显的主体,该主体位置、颜色等均会较为吸引用户的眼球;而如果是海报图像,则该海报图像中会存在很多的小元素分布在海报当中;通过首先提取具有显著性的主体区域,可以有效提高后续对于目标图像的检索准确性。
在一些实施例中,显著性检测网络的训练包括:获取开源数据集和无主体图像,并提取开源数据集中图像的主体信息,以及将主体信息与无主体图像进行融合;根据开源数据集和主体信息与无主体图像的融合结果生成训练集,以便根据训练集进行显著性检测网络的训练。
可以理解,开源数据集中的图像大部分都是自然场景下的图片,和具体的应用场景下的图像会有所偏差。例如,在海报场景下,图片中会存在大量的文本框、小元素。而如果通过人工打标来生成训练集的话,将要耗费大量的人力和物力;因此,在进行显著性检测网络的训练时;首先,通过提取开源数据集中图像所对应的主体信息,并将该主体信息与无主体图像进行融合,以生成新的图像;如此,可以得到大量的训练样本,无需人工进行标注;降低显著性检测网络训练过程所需要耗费的资源。
S102,对历史图像进行文案提取,并根据文案提取结果计算历史图像对应的文案特征。
即言,首先,对历史图像进行文字检测识别,以识别历史图像中的文字部分,完成文案提取;接着,根据文案提取结果计算历史图像所对应的文案特征。
其中,根据文案提取结果计算历史图像对应的文案特征的方式可以有多种。
在一些实施例中,根据文案提取结果计算历史图像对应的文案特征,包括:对文案提取结果进行分词和关键词提取,以生成对应文案提取结果的关键词和关键词对应的权重;将关键词映射为关键词向量,并根据关键词向量和对应的权重进行加权平均,以得到历史图像对应的文案特征。
作为一种示例,首先,通过爬虫等技术对网络上公开的文案进行搜罗,以便根据搜罗到的数据生成训练数据集;接着,根据训练数据集进行word2vector模型和分词模型的训练;然后,对历史图像进行文字检测识别,以提取出历史图像中的文字部分;接着,通过分词模型对文字部分进行分词以及关键词提取,以得到相应的关键词和每个关键词对应的权重;然后,通过word2vector将每个关键词映射成相应的关键词向量;接着,根据关键词对应的关键词向量和权重进行加权求和,以得到该历史图像对应的文案特征向量。
S103,将历史图像输入到风格识别模型,以得到历史图像的风格特征。
即言,通过预先训练好的风格识别模型对历史图像进行风格识别(可以理解,每个图像都会有其相应的风格;例如,春节类的海报大部分都会使用红色作为主色调,以凸出喜庆的氛围);以得到历史图像的风格特征;可以理解,这种风格识别将有效提高后续图像检索的准确性。
作为一种示例,风格识别模型的训练可以包括:首先,获取图像模板对应的结果图像(即言,通过该图像模板生成的图像),以将同一图像模板对应的结果图像作为同一风格的图像;如此,可以得到大量有效的训练数据。进一步地,可以提取同一风格中每个结果图像的主色,并计算结果图像之间的主色颜色距离,以滤除明显不属于同一风格的结果图像,确定最终训练数据。
作为另一种示例,可以使用ResNet50结合tripletloss进行训练以得到风格识别模型。
S104,根据语义特征、文案特征和风格特征计算历史图像对应的检索向量,并根据多个历史图像和每个历史图像对应的检索向量生成检索数据库。
即言,根据语义特征、文案特征和风格特征进行历史图像对应的检索向量的计算;进而,在计算完成之后,将该历史图像和对应的检索向量加入到检索数据库;从而,根据多个历史图像和每个历史图像对应的检索向量能够构建出检索数据库,以便后续根据检索数据库进行图像检索。
在一些实施例中,根据语义特征、文案特征和风格特征计算历史图像对应的检索向量,包括:获取语义特征对应的权重、文案特征对应的权重和风格特征对应的权重,并根据语义特征对应的权重、文案特征对应的权重、风格特征对应的权重对语义特征、文案特征和风格特征进行特征融合,以得到检索向量。
作为一种示例,语义特征、文案特征和风格特征均为长度为128的一维向量,分别为verctor1,vecotr2,vector3;接着,定义三个特征所对应的权重为a1,a2,a3;则最终的检索向量表达为:a1*vector1+a2*vector2+a3*vector3。
在一些实施例中,本发明实施例提出的图像检索方法还包括:获取用户对于检索结果的点击数据,并根据点击数据对语义特征对应的权重、文案特征对应的权重、风格特征对应的权重进行更新。
可以理解,在初始进行检索向量的计算时,可以使用初始化权重(例如,1,1,1)结合三个特征的值进行计算。而在方法的持续使用过程中;可以通过获取用户对于检索结果的点击数据来判断检索结果的准确性;进而,根据点击数据对语义特征对应的权重、文案特征对应的权重、风格特征对应的权重进行更新,可以有效提高最终权重设置的准确性;进而提高最终图像检索的准确性。
S105,获取待检索图像,并计算待检索图像对应的待检索向量,以及根据待检索向量和检索向量计算检索数据库中任意一个历史图像与待检索图像之间的相似值。
S106,根据所有历史图像对应的相似值返回待检索图像对应的检索结果。
即言,获取用户上传的待检索图像,并提取待检索图像对应的语义特征、文案特征和风格特征,以及对三个特征进行融合,以得到该待检索图像对应的待检索向量;接着,计算该待检索向量与检索数据库中任意一个历史图像对应的检索图像对应检索向量之间的余弦相似度;以将该余弦相似度作为待检索图像与该历史图像之间的相似值;如此,遍历检索数据库,可以计算待检索图像与每个历史图像之间的相似值;然后,根据相似值的大小对历史图像进行排序,并根据排序结果返回该待检索图像对应的检索结果。
综上所述,根据本发明实施例的图像检索方法,首先,获取历史图像,并通过预先训练好的显著性检测网络对历史图像进行显著性检测,以提取历史图像中的主体部分;接着,根据显著性检测结果对历史图像进行语义分析,以得到历史图像的语义特征;然后,对历史图像进行文案提取,并根据文案提取结果计算历史图像对应的文案特征;接着,将历史图像输入到风格识别模型中,以通过风格识别模型提取历史图像的风格特征;然后,对语义特征、文案特征和风格特征进行特征融合以得到检索向量;并将该历史图像和对应的检索向量加入到检索数据库中,以通过多个历史图像及其对应的检索向量生成检索数据库;接着,获取待检索图像,并计算待检索图像对应的待检索向量,以及根据待检索向量和任意一个历史图像对应的检索向量计算该待检索图像与该历史图像之间的相似值;然后,根据所有历史图像对应的相似值返回待检索图像对应的检索结果;从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,其上存储有图像检索程序,该图像检索程序被处理器执行时实现如上述的图像检索方法。
根据本发明实施例的计算机可读存储介质,通过存储图像检索程序,以使得处理器在执行该图像检索程序时,实现如上述的图像检索方法,从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
为了实现上述实施例,本发明实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的图像检索方法。
根据本发明实施例的计算机设备,通过存储器对图像检索程序进行存储,以使得处理器在执行该图像检索程序时,实现如上述的图像检索方法,从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
为了实现上述实施例,本发明实施例提出了一种图像检索装置,如图2所示,该图像检索装置包括:语义特征模块10、文案特征模块20、风格特征模块30、数据库模块40、检索模块50和反馈模块60。
其中,语义特征模块10用于获取历史图像,并通过预先训练好的显著性检测网络对历史图像进行显著性检测,以及根据显著性检测结果对历史图像进行语义提取,以得到历史图像的语义特征;
文案特征模块20用于对历史图像进行文案提取,并根据文案提取结果计算历史图像对应的文案特征;
风格特征模块30用于将历史图像输入到风格识别模型,以得到历史图像的风格特征;
数据库模块40用于根据语义特征、文案特征和风格特征计算历史图像对应的检索向量,并根据多个历史图像和每个历史图像对应的检索向量生成检索数据库;
检索模块50用于获取待检索图像,并计算待检索图像对应的待检索向量,以及根据待检索向量和检索向量计算检索数据库中任意一个历史图像与待检索图像之间的相似值;
反馈模块60用于根据所有历史图像对应的相似值返回待检索图像对应的检索结果。
在一些实施例中,显著性检测网络的训练包括:获取开源数据集和无主体图像,并提取开源数据集中图像的主体信息,以及将主体信息与无主体图像进行融合;根据开源数据集和主体信息与无主体图像的融合结果生成训练集,以便根据训练集进行显著性检测网络的训练。
在一些实施例中,根据文案提取结果计算历史图像对应的文案特征,包括:对文案提取结果进行分词和关键词提取,以生成对应文案提取结果的关键词和关键词对应的权重;将关键词映射为关键词向量,并根据关键词向量和对应的权重进行加权平均,以得到历史图像对应的文案特征。
需要说明的是,上述关于图1中图像检索方法的描述同样适用于该图像检索装置,在此不做赘述。
综上所述,根据本发明实施例的图像检索装置,通过设置语义特征模块用于获取历史图像,并通过预先训练好的显著性检测网络对历史图像进行显著性检测,以及根据显著性检测结果对历史图像进行语义提取,以得到历史图像的语义特征;文案特征模块用于对历史图像进行文案提取,并根据文案提取结果计算历史图像对应的文案特征;风格特征模块用于将历史图像输入到风格识别模型,以得到历史图像的风格特征;数据库模块用于根据语义特征、文案特征和风格特征计算历史图像对应的检索向量,并根据多个历史图像和每个历史图像对应的检索向量生成检索数据库;检索模块用于获取待检索图像,并计算待检索图像对应的待检索向量,以及根据待检索向量和检索向量计算检索数据库中任意一个历史图像与待检索图像之间的相似值;反馈模块用于根据所有历史图像对应的相似值返回待检索图像对应的检索结果;从而实现从多个维度提取图像的特征信息,深度挖掘原始图像的潜在信息,进而提高图像检索的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种图像检索方法,其特征在于,包括以下步骤:
获取历史图像,并通过预先训练好的显著性检测网络对所述历史图像进行显著性检测,以及根据显著性检测结果对所述历史图像进行语义提取,以得到所述历史图像的语义特征;
对所述历史图像进行文案提取,并根据文案提取结果计算所述历史图像对应的文案特征;
将所述历史图像输入到风格识别模型,以得到所述历史图像的风格特征;
根据所述语义特征、所述文案特征和所述风格特征计算所述历史图像对应的检索向量,并根据多个所述历史图像和每个历史图像对应的检索向量生成检索数据库;
获取待检索图像,并计算所述待检索图像对应的待检索向量,以及根据所述待检索向量和所述检索向量计算所述检索数据库中任意一个历史图像与所述待检索图像之间的相似值;
根据所有历史图像对应的相似值返回所述待检索图像对应的检索结果;
其中,根据所述语义特征、所述文案特征和所述风格特征计算所述历史图像对应的检索向量,包括:
获取所述语义特征对应的权重、所述文案特征对应的权重和所述风格特征对应的权重,并根据所述语义特征对应的权重、所述文案特征对应的权重、所述风格特征对应的权重对所述语义特征、所述文案特征和所述风格特征进行特征融合,以得到所述检索向量。
2.如权利要求1所述的图像检索方法,其特征在于,所述显著性检测网络的训练包括:
获取开源数据集和无主体图像,并提取所述开源数据集中图像的主体信息,以及将所述主体信息与所述无主体图像进行融合;
根据所述开源数据集和所述主体信息与所述无主体图像的融合结果生成训练集,以便根据所述训练集进行所述显著性检测网络的训练。
3.如权利要求1所述的图像检索方法,其特征在于,根据文案提取结果计算所述历史图像对应的文案特征,包括:
对文案提取结果进行分词和关键词提取,以生成对应文案提取结果的关键词和所述关键词对应的权重;
将所述关键词映射为关键词向量,并根据关键词向量和对应的权重进行加权平均,以得到所述历史图像对应的文案特征。
4.如权利要求1所述的图像检索方法,其特征在于,还包括:
获取用户对于所述检索结果的点击数据,并根据所述点击数据对所述语义特征对应的权重、所述文案特征对应的权重、所述风格特征对应的权重进行更新。
5.一种计算机可读存储介质,其特征在于,其上存储有图像检索程序,该图像检索程序被处理器执行时实现如权利要求1-4中任一项所述的图像检索方法。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-4中任一项所述的图像检索方法。
7.一种图像检索装置,其特征在于,包括:
语义特征模块,所述语义特征模块用于获取历史图像,并通过预先训练好的显著性检测网络对所述历史图像进行显著性检测,以及根据显著性检测结果对所述历史图像进行语义提取,以得到所述历史图像的语义特征;
文案特征模块,所述文案特征模块用于对所述历史图像进行文案提取,并根据文案提取结果计算所述历史图像对应的文案特征;
风格特征模块,所述风格特征模块用于将所述历史图像输入到风格识别模型,以得到所述历史图像的风格特征;
数据库模块,所述数据库模块用于根据所述语义特征、所述文案特征和所述风格特征计算所述历史图像对应的检索向量,并根据多个所述历史图像和每个历史图像对应的检索向量生成检索数据库;其中,根据所述语义特征、所述文案特征和所述风格特征计算所述历史图像对应的检索向量,包括:获取所述语义特征对应的权重、所述文案特征对应的权重和所述风格特征对应的权重,并根据所述语义特征对应的权重、所述文案特征对应的权重、所述风格特征对应的权重对所述语义特征、所述文案特征和所述风格特征进行特征融合,以得到所述检索向量;
检索模块,所述检索模块用于获取待检索图像,并计算所述待检索图像对应的待检索向量,以及根据所述待检索向量和所述检索向量计算所述检索数据库中任意一个历史图像与所述待检索图像之间的相似值;
反馈模块,所述反馈模块用于根据所有历史图像对应的相似值返回所述待检索图像对应的检索结果。
8.如权利要求7所述的图像检索装置,其特征在于,所述显著性检测网络的训练包括:
获取开源数据集和无主体图像,并提取所述开源数据集中图像的主体信息,以及将所述主体信息与所述无主体图像进行融合;
根据所述开源数据集和所述主体信息与所述无主体图像的融合结果生成训练集,以便根据所述训练集进行所述显著性检测网络的训练。
9.如权利要求7所述的图像检索装置,其特征在于,根据文案提取结果计算所述历史图像对应的文案特征,包括:
对文案提取结果进行分词和关键词提取,以生成对应文案提取结果的关键词和所述关键词对应的权重;
将所述关键词映射为关键词向量,并根据关键词向量和对应的权重进行加权平均,以得到所述历史图像对应的文案特征。
CN202110539585.4A 2021-05-18 2021-05-18 图像检索方法及装置 Active CN113282781B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110539585.4A CN113282781B (zh) 2021-05-18 2021-05-18 图像检索方法及装置
PCT/CN2021/119402 WO2022241987A1 (zh) 2021-05-18 2021-09-18 图像检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110539585.4A CN113282781B (zh) 2021-05-18 2021-05-18 图像检索方法及装置

Publications (2)

Publication Number Publication Date
CN113282781A CN113282781A (zh) 2021-08-20
CN113282781B true CN113282781B (zh) 2022-06-28

Family

ID=77279558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110539585.4A Active CN113282781B (zh) 2021-05-18 2021-05-18 图像检索方法及装置

Country Status (2)

Country Link
CN (1) CN113282781B (zh)
WO (1) WO2022241987A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282781B (zh) * 2021-05-18 2022-06-28 稿定(厦门)科技有限公司 图像检索方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288019A (zh) * 2019-06-21 2019-09-27 北京百度网讯科技有限公司 图像标注方法、装置和存储介质
CN111415396A (zh) * 2019-01-08 2020-07-14 腾讯科技(深圳)有限公司 一种图像生成方法、装置和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144587B2 (en) * 2016-03-08 2021-10-12 Shutterstock, Inc. User drawing based image search
CN106649487B (zh) * 2016-10-09 2020-02-18 苏州大学 基于兴趣目标的图像检索方法
CN107291855A (zh) * 2017-06-09 2017-10-24 中国电子科技集团公司第五十四研究所 一种基于显著对象的图像检索方法及系统
CN110019896B (zh) * 2017-07-28 2021-08-13 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置及电子设备
CN108829826B (zh) * 2018-06-14 2020-08-07 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
CN110297931B (zh) * 2019-04-23 2021-12-03 西北大学 一种图像检索方法
CN110175249A (zh) * 2019-05-31 2019-08-27 中科软科技股份有限公司 一种相似图片的检索方法及系统
CN110598037B (zh) * 2019-09-23 2022-01-04 腾讯科技(深圳)有限公司 一种图像搜索方法、装置和存储介质
CN110866140B (zh) * 2019-11-26 2024-02-02 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN113282781B (zh) * 2021-05-18 2022-06-28 稿定(厦门)科技有限公司 图像检索方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415396A (zh) * 2019-01-08 2020-07-14 腾讯科技(深圳)有限公司 一种图像生成方法、装置和存储介质
CN110288019A (zh) * 2019-06-21 2019-09-27 北京百度网讯科技有限公司 图像标注方法、装置和存储介质

Also Published As

Publication number Publication date
CN113282781A (zh) 2021-08-20
WO2022241987A1 (zh) 2022-11-24

Similar Documents

Publication Publication Date Title
Chaudhuri et al. Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method
US11093698B2 (en) Method and apparatus and computer device for automatic semantic annotation for an image
Lin et al. Microsoft coco: Common objects in context
CN105493078B (zh) 彩色草图图像搜索
CN103984738A (zh) 一种基于搜索匹配的角色标注方法
CN105117399B (zh) 一种图像搜索方法和装置
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN109426831B (zh) 图片相似匹配及模型训练的方法、装置及计算机设备
CN114861836B (zh) 一种基于人工智能平台的模型部署方法及相关设备
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
JP6787831B2 (ja) 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
US8204889B2 (en) System, method, and computer-readable medium for seeking representative images in image set
CN113255354B (zh) 搜索意图识别方法、装置、服务器及存储介质
CN110942090A (zh) 模型训练、图像处理方法、装置、电子设备及存储介质
CN113282781B (zh) 图像检索方法及装置
Jayanthiladevi et al. Text, images, and video analytics for fog computing
CN113657087A (zh) 信息的匹配方法及装置
CN111191065B (zh) 一种同源图像确定方法及装置
CN110674388A (zh) 推送项目的配图方法、装置、存储介质和终端设备
Lu et al. Optimized training of deep neural network for image analysis using synthetic objects and augmented reality
CN112115996B (zh) 图像数据的处理方法、装置、设备及存储介质
CN105740889A (zh) 一种图像分类方法、装置及系统
CN112328743A (zh) 代码搜索方法、装置、可读存储介质和电子设备
CN110688850A (zh) 餐饮类型确定方法和装置
CN111915636B (zh) 一种废弃物目标定位和分割的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221008

Address after: 361001 unit R, 2nd floor, No. 33-102, Punan 1st Road, Siming District, Xiamen City, Fujian Province

Patentee after: GAODING (XIAMEN) TECHNOLOGY Co.,Ltd.

Patentee after: Draft (Xiamen) Information Service Co.,Ltd.

Address before: G15-2, 3rd floor, No.10, Punan 1st Road, Dongpu Road, Siming District, Xiamen City, Fujian Province

Patentee before: GAODING (XIAMEN) TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221031

Address after: 361001 unit R, 2nd floor, No. 33-102, Punan 1st Road, Siming District, Xiamen City, Fujian Province

Patentee after: GAODING (XIAMEN) TECHNOLOGY Co.,Ltd.

Patentee after: Draft (Xiamen) Information Service Co.,Ltd.

Address before: G15-2, 3rd floor, No.10, Punan 1st Road, Dongpu Road, Siming District, Xiamen City, Fujian Province

Patentee before: GAODING (XIAMEN) TECHNOLOGY Co.,Ltd.