CN106021362B - 查询式的图片特征表示的生成、图片搜索方法和装置 - Google Patents

查询式的图片特征表示的生成、图片搜索方法和装置 Download PDF

Info

Publication number
CN106021362B
CN106021362B CN201610306218.9A CN201610306218A CN106021362B CN 106021362 B CN106021362 B CN 106021362B CN 201610306218 A CN201610306218 A CN 201610306218A CN 106021362 B CN106021362 B CN 106021362B
Authority
CN
China
Prior art keywords
picture
clustering cluster
click
vector
picture feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610306218.9A
Other languages
English (en)
Other versions
CN106021362A (zh
Inventor
付立波
方高林
陈雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610306218.9A priority Critical patent/CN106021362B/zh
Priority to US15/281,209 priority patent/US10459971B2/en
Publication of CN106021362A publication Critical patent/CN106021362A/zh
Application granted granted Critical
Publication of CN106021362B publication Critical patent/CN106021362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks

Abstract

本发明实施例公开了一种查询式的图片特征表示的生成、图片搜索方法和装置。所述查询式的图片特征表示的生成方法包括:根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合;根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量;根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示。本发明的技术方案优化了现有的图片搜索技术,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。

Description

查询式的图片特征表示的生成、图片搜索方法和装置
技术领域
本发明实施例涉及信息处理技术,尤其涉及一种查询式的图片特征表示的生成、图片搜索方法和装置。
背景技术
图片搜索是指用户输入自然语言查询,例如,通过搜索引擎提供的文本输入框输入的查询式(也称为Query),从图片集合中查找并按照相关性等指标,返回排过序的图片结果给用户的信息检索过程。相关性是搜索引擎最主要的性能指标之一,它度量了返回结果与用户查询需求的相关程度。对于图片搜索引擎,返回的图片是无结构的像素格式,而用户输入的Query是文本格式,这是两种完全不同的信息格式,两者无法直接进行运算。
目前主要通过下述三种方式描述图片搜索的相关性特征:1、文本匹配特征,通过图片周边文本与Query比较计算得到;2、分类匹配特征,对图片内容分类得到分类标签,再与Query比较计算得到;3、点击率特征,通过统计大量用户查询后的点击行为等得到特定图片与该Query的相关性度量。
上述三种描述图片搜索相关性特性的方法均具有一定的局限性:
特征文本匹配特征:图片的周边文本可能存在与图片内容的不一致性,很多情况下不能完整准确的描述图片的内容,因而会影响文本匹配特征的精准性;
分类匹配特征:受限于类别体系的完整性和分类模型的准确性。一般的,类别体系越精细,分类难度越大,分类模型的准确性越差,且分类结果与Query文本的语义偏差越大,匹配越困难。但如果类别体系太粗略,与Query的匹配精度又不够。因此,该特征一般只起辅助作用;
点击率特征:主要基于用户行为统计,一方面存在偏倚和噪声,另一方面有稀疏性,只有在高频Query下展现靠前且展现次数充足的图片,能够统计到较充分的点击,其它情况,统计不到点击,或者点击非常稀疏,缺少统计意义。
发明内容
有鉴于此,本发明实施例提供一种查询式的图片特征表示的生成、图片搜索方法和装置,以优选现有的图片搜索技术,提高图片搜索结果与用户输入的查询式之间的相关度。
在第一方面,本发明实施例提供了一种查询式的图片特征表示的生成方法,包括:
根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合;
根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量;
根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示。
在第二方面,本发明实施例还提供了一种图片搜索方法,包括:
根据用户输入的查询式,确定与所述查询式对应的图片特征表示;其中,所述查询式对应的图片特征表示通过对与所述查询式对应的点击图片集合中各图片的图片特征向量聚类生成;
根据所述图片特征表示,计算所述查询式与各待排序图片之间的相关性度量值;
根据计算得到的所述相关性度量值对各所述待排序图片进行排序,并将与排序结果对应的图片搜索结果提供给所述用户。
在第三方面,本发明实施例提供了一种查询式的图片特征表示的生成装置,包括:
点击图片集合获取模块,用于根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合;
图片特征向量生成模块,用于根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量;
图片特征表示生成模块,用于根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示。
在第四方面,本发明实施例还提供了一种图片搜索装置,包括:
图片特征表示确定模块,用于根据用户输入的查询式,确定与所述查询式对应的图片特征表示;其中,所述查询式对应的图片特征表示通过对与所述查询式对应的点击图片集合中各图片的图片特征向量聚类生成;
相关性度量值计算模块,用于根据所述图片特征表示,计算所述查询式与各待排序图片之间的相关性度量值;
图片搜索结果提供模块,用于根据计算得到的所述相关性度量值对各所述待排序图片进行排序,并将与排序结果对应的图片搜索结果提供给所述用户。
本发明实施例根据搜索用户的图片点击日志,获取与同一目标搜索式对应的点击图片集合,并生成与该点击图片集合对应的图片特征向量,基于该图片特征向量对各点击图片进行聚类,并将聚类结果作为所述目标搜索式的图片特征表示,当图片搜索引擎接收到用户输入的图片查询式后,通过确定与该图片查询式对应的图片特征表示,可以计算得到各待排序图片与所述图片查询式之间的相关性度量值,进而基于所述相关性度量值,将各待排序图片进行排序并将排序结果返回给所述用户,优化了现有的图片搜索技术,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
附图说明
图1是本发明第一实施例的一种查询式的图片特征表示的生成方法的流程图;
图2是本发明第二实施例的一种查询式的图片特征表示的生成方法的流程图;
图3是本发明第三实施例的一种查询式的图片特征表示的生成方法的流程图;
图4是本发明第四实施例的一种图片搜索方法的流程图;
图5是本发明第五实施例的一种图片搜索方法的流程图;
图6是本发明第六实施例的一种查询式的图片特征表示的生成装置的结构图;
图7是本发明第七实施例的一种图片搜索装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
为了清楚、明白的描述本发明各实施例的内容,首先重点描述一下本发明的发明构思。
如前所述,背景技术中介绍的三种描述图片搜索的相关性特征的方式,并未直接基于图片内容计算图片与查询式之间的相关性,而是通过图片的周边文本、图片的分类以及图片的点击率等与图片内容间接关联的特征计算图片与查询式之间的相关性。相区别的,在本申请中,发明人创造性的提出:建立查询式的图片特征表示,该图片特征表示中包括有与查询式的点击图片日志对应的图片的图片特征向量,通过将查询式的图片特征表示与各待排序的图片的图片特征向量进行相关度计算,可以得到查询式与各图片之间的相关性度量值,进而可以准确的实现针对用户输入的查询式进行图片搜索的目的。
即:在某个查询式下一张图片的点击率(点击次数/展现次数)正相关于该图片与该查询式的相关性。在此基础上:
1)通过对查询式下的点击图片聚类获得对该查询式的一种表示,这种表示与图片的表示格式相同,从而能够与图片直接进行匹配计算。这一步可以离线实现也可以在线实现。
2)在在线检索阶段,使用前一步获得的表示,与该查询式下的每个待排序图片进行匹配计算,得到待排序图片与该查询式在这种表示上的相关性度量值,可以作为图片与查询式相关性的一维特征。
第一实施例
图1为本发明第一实施例提供的一种查询式的图片特征表示的生成方法的流程图,本实施例的方法可以由查询式的图片特征表示的生成装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于生成查询式的图片特征表示的服务器中。本实施例的方法具体包括:
110、根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合。
一般来说,当用户通过图片搜索引擎输入查询式后,会基于与该查询式对应的图片搜索结果点击查看一个或者多个图片。相应的,搜索引擎会将用户输入的查询式以及基于所述查询式点击的图片信息存储于图片点击日志中。
通过收集网络中不同用户的图片点击日志,并按照不同的查询式进行点击图片的汇总,可以获取与各目标查询式对应的点击图片集合。
其中,所述点击图片集合中包括有用户基于所述目标查询式点击的一个或者多个图片。
在本实施例中,所述目标查询式可以仅包括单一查询式;进一步的,考虑到用户点击的稀疏性,针对那些点击较少或者无点击的冷门查询式,可以根据语义相似性使得上述冷门查询式与其他查询式共享点击图片,相应的,所述目标查询式还可以包括满足设定相似度阈值条件的至少两个查询式。
在一个具体的例子中,可以直接选取“生日贺卡”作为目标查询式,还可以通过语义相似度聚类的方式,将“生日贺卡”、“寿诞贺卡”以及“生辰贺卡”作为目标查询式。
120、根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量。
一般来说,根据图片的不同的图片内容特征,可以生成图片的不同类型的图片特征向量。
在本实施例中,对图片特征向量的具体形式并不进行限定,只需要保证最后生成的任意图片特征向量之间可以计算距离(或者说相似度)即可。
在一个具体的例子中,如果基于图片的低级视觉特征,所生成的图片特征向量可以为基于颜色分布直方图的颜色分布向量或者视觉词分布向量;如果基于图片的语义特征,所生成的图片特征向量可以为类别分布向量。
130、根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示。
考虑到与同一目标查询式对应的点击图片的数量可能很多,如果直接将全部点击图片所对应的图片特征向量作为所述目标查询式的图片特征表示,会使图片特征表示包含的信息量巨大,进而也会使基于该图片特征表示的图片排序过程的计算量复杂,排序的实时性变差。
在本实施例中,考虑到虽然用户基于同样的目标查询式会点击不同的图片,但是很多图片之间是具有一定的相关性的,在一个例子中,基于目标查询式“范冰冰”的点击图片集合,虽然基于该查询式的搜索结果不同用户会点击查看不同的图片,但是用户的实际的查询需求是具有一定的相关性的,例如,有些用户具有点击查看范冰冰的剧照的需求,有些用户具有点击查看范冰冰的现场照的需求等。
因此,可以根据所述图片特征向量,对各所述点击图片进行聚类,针对同一聚类簇中的图片,可以通过仅使用该聚类簇中的一个或者少数几个图片来代表同一聚类簇中全部图片的方式,或者将簇元素较少的聚类簇作为噪声进行删除等方式,对所述点击图片集合中各点击图片对应的图片特征向量进行优化处理,以优化所述目标查询式的图片特征表示中包括的图片特征向量的数量。
在本实施例中,可以根据图片特征向量的不同形式,采取不同类型的聚类算法,典型的,可以采取K-means(K均值)聚类算法或者层次聚类算法等,可以采取加权聚类算法,也可以采取非加权聚类算法等,本实施例对此并不进行限制。
在本实施例的一个优选的实施方式中,所述聚类算法可以为加权聚类算法;
相应的,在根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示之前,还可以包括:
根据各所述点击图片的权重参数,确定各点击图片的权重值。
其中,所述权重参数可以为与所述点击图片对应的点击率,也可以为与所述点击图片对应的图片热度,还可以为图片的质量特征参数等,本实施例对此并不进行限制。
本发明实施例根据搜索用户的图片点击日志,获取与同一目标搜索式对应的点击图片集合,并生成与该点击图片集合对应的图片特征向量,基于该图片特征向量对各点击图片进行聚类,并将聚类结果作为所述目标搜索式的图片特征表示,当图片搜索引擎接收到用户输入的图片查询式后,通过确定与该图片查询式对应的图片特征表示,可以计算得到各待排序图片与所述图片查询式之间的相关性度量值,进而基于所述相关性度量值,将各待排序图片进行排序并将排序结果返回给所述用户,优化了现有的图片搜索技术,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
第二实施例
图2是本发明第二实施例的一种查询式的图片特征表示的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将所述图片特征向量具体优化为:类别分布向量;
相应的,将根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量具体优化为:将待处理点击图片的图片像素内容输入至类别分类器组中;其中,所述类别分类器组通过设定数量的、经过分类标注的训练数据训练生成;获取所述类别分类器组输出的,由所述待处理点击图片分属于不同类别的概率值构成的第一向量;将所述第一向量中包括的各概率值进行排序后,获取设定数量的有效概率值;将由所述有效概率值所组成的第二向量作为与所述待处理点击图片对应的所述类别分布向量。
相应的,本实施例的方法具体包括:
210、根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合。
在本实施例中,根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合具体还可以包括:滤除所述图片点击日志中包括的噪声日志。
这样设置的原因是:用户的图片点击日志里可能会存在大量噪声,例如有些不适宜的图片或者与相关图片反差过大的恶意图片等,反而会吸引用户点击,甚至出现在任何查询下都会引起点击。有些相关结果很多的查询式,用户在浏览到靠前的相关图片后,需求已经满足,后面的相关图片被点击的概率将会大幅下降。这两种行为都会造成点击/无点击、点击多少与相关性的失真,因此为了进一步提高所选取的正负样本图片的准确性,需要滤除所述图片点击日志中包括的噪声日志。
识别和去除噪声日志是保证训练出的模型的准确性的必要操作。这里简单介绍两种方法:
1)点击查询式聚类法。汇总一张图片(包括重复图片、相似图片)被点击的所有查询式(以下称为点击查询式)并聚类,可以得到该图片所满足的主要需求类别,小众的类别可以认为是噪声从而去掉。与主要需求类别的距离都较远的点击查询式,可以作为为噪声点击。
2)图片聚类法。汇总一个查询式(包括语义相同、相似的查询式)下的所有点击图片,对这些图片的分类结果或者分类表示进行聚类,可以得到满足该查询式需求的主要图片类别,小众的类别可以认为是噪声从而去掉。
220、将待处理点击图片的图片像素内容输入至类别分类器组中。
其中,所述类别分类器组通过设定数量的、经过分类标注的训练数据训练生成。
在本实施例中,可以预先定义一个较全面精细的分类体系,例如千以上的类别,预先标注足够多的训练数据,训练一个类别分类器组。该类别分类器组的输入为图片像素内容,输出为图片属于每个类别的概率所构成的一个向量,即图片的类别分布向量。
230、获取所述类别分类器组输出的,由所述待处理点击图片分属于不同类别的概率值构成的第一向量。
240、将所述第一向量中包括的各概率值进行排序后,获取设定数量的有效概率值。
250、将由所述有效概率值所组成的第二向量作为与所述待处理点击图片对应的所述类别分布向量,并将所述类别分布向量作为所述图片特征向量。
在本实施例中,为了精简类别分布向量的向量长度,可以对所生成的类别分布向量可以做一些简化,例如,按概率大小排序后,只保留前R个类别和概率值,其中,R为大于1的整数。
260、根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示。
本实施例的技术方案基于图片的语义特征,生成图片的类别分布向量作为图片特征向量,并基于该类别分布向量生成与目标查询式对应的图片特征表示,使得最终生成的图片特征表示与查询式之间的契合度更高,进而可以进一步提高搜索引擎基于所述图片特征表示的图片排序结果更加符合搜索用户的实际需求。
第三实施例
图3是本发明第三实施例的一种查询式的图片特征表示的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示具体优化为:根据与各点击图片对应的图片特征向量,以及与所述图片特征向量相匹配的聚类算法,对各所述点击图片进行聚类,生成聚类簇集合;获取所述聚类簇集合中包括的异常聚类簇;将滤除所述异常聚类簇后的所述聚类簇集合作为所述目标查询式的图片特征表示。
相应的,本实施例的方法具体包括:
310、根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合。
320、根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量。
330、根据与各点击图片对应的图片特征向量,以及与所述图片特征向量相匹配的聚类算法,对各所述点击图片进行聚类,生成聚类簇集合。
在本实施例中,可以定义为查询式q下的点击图片集合,其中,m为点击图片集合中包括的图片总数量,m为大于等于1的整数;依次标记每个图片i∈[1,m]的权重值Wi,其中,可以通过点击率来标记所述Wi,同时,使用fi标记每个图片的图片特征向量,典型的,该图片特征向量fi为一个定长向量。
使用设定聚类算法对fi,i∈[1,m]进行聚类,生成聚类簇集合,其中,如果选取的聚类算法为带权聚类算法,则需要使用Wi,i∈[1,m]对fi进行加权处理。
在本实施例的一个优选的实施方式中,所述聚类簇集合中的聚类簇具体包括:质心、聚类簇中包括的元素数量、聚类簇中各元素的图片特征向量以及聚类簇中元素的标准方差。
如前例,假定最终将fi,i∈[1,m]聚为N类,N为大于1的整数,聚类后的第k个聚类簇CLk可以表示为:
其中,为第k个聚类簇的质心(可以是真实质心,也可以是与真实质心接近的某个图片特征向量),同时,与fi,i∈[1,m]具有相同的向量格式,nk为第k个聚类簇中包括的元素数量,为第k个聚类簇中的元素,σk为第k个聚类簇中元素的标准方差,用于度量该聚类簇中元素的聚集程度。(也可以使用其它的量如散度来度量上述元素的聚集程度)。
此外,质心、标准方差(散度)的计算所使用的距离依fi,i∈[1,m]的向量形式而定,例如欧式距离、余弦距离等。聚类数量N的个数由实验决定。
340、获取所述聚类簇集合中包括的异常聚类簇。
在本实施例的一个优选的实施方式中,获取所述聚类簇集合中包括的异常聚类簇可以包括:
获取与所述目标查询式的分类不匹配的聚类簇作为所述异常聚类簇。
在本实施例的另一个优选的实施方式中,获取所述聚类簇集合中包括的异常聚类簇可以包括:将所述聚类簇集合中的各聚类簇按照包括的元素个数进行排序;根据排序结果,保留设定数量的聚类簇作为有效聚类簇,将所述聚类簇集合中除去所述有效聚类簇之外的聚类簇作为所述异常聚类簇。
350、将滤除所述异常聚类簇后的所述聚类簇集合作为所述目标查询式的图片特征表示。
需要重点说明的是:本实施例的技术方案可以离线实现,也可以在线实现。如果通过离线实现,则可以对每个目标查询式离线生成对应的图片特征表示,以Key-Value(键值对)大表的形式进行存储(典型的,Key为目标查询式,Value为图片特征表示),供在线图片搜索时调用,如果通过在线实现,则可以在用户在线搜索时,直接获取与用户当前输入的查询式对应的点击图片,在线聚类并生成相应的图片特征表示。
本实施例的技术方案对于任何一个有一定数量的点击图片的目标查询式,都可以得到该目标查询式的一个图片特征表示,这个图片特征表示与图片的图片特征向量具有相同的格式,因而可以直接与图片的图片特征向量进行匹配计算。其次,基于点击图片聚类得到的图片特征表示,保证了这个图片特征表示既能真实反应目标查询式的实际需求,也能较好反应目标查询式需求的多样性,还可以从一定程度上起到过滤点击噪音的作用。
另外,需要再次强调的是,本发明实施例与现有技术的区别主要在于:
1)本发明实施例所生成的查询式的图片特征表示突破了文本的限制,使得查询式有了图片内容层面上的表示,可以直接与图片内容进行匹配计算,这是与文本匹配特征和分类匹配特征相比的优点。
2)本发明实施例所生成的查询式的图片特征表示可以基于任意的图片内容特征。而分类匹配特征在图片分类的类别体系过小时,其分类结果的语义不精细,类别体系过大时,分类的准确率又较低,且与查询式的文本(或者类别标签)的匹配难度急剧增大(即所谓的图片与文本的语义鸿沟)。与分类匹配特征相比,本发明避免了这些问题。
3)本发明实施例所生成的查询式的图片特征表示来自于查询式下的点击图片,然后可以与任意图片进行匹配计算,将用户点击行为所包含的图片对查询式的相关性度量推广到任意的无点击图片或稀疏点击图片。而点击率特征只适用于查询式之下统计到有效点击的图片。这是本发明相比较于点击率特征的优点。
综上,本发明在查询式的图片特征表示、查询式与图片内容的匹配、点击推广等几个方面的能力比现有技术及各种融合和变种的能力更强,对所期望解决的问题解决得更彻底。
第四实施例
图4为本发明第四实施例提供的一种图片搜索方法的流程图,本实施例的方法可以由图片搜索装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于图片搜索引擎所在的服务器中。本实施例的方法具体包括:
410、根据用户输入的查询式,确定与所述查询式对应的图片特征表示。
在本实施例中,所述查询式具体是指用户通过图片搜索引擎输入的,文本形式的查询式,例如:“生日贺卡”。
其中,所述查询式对应的图片特征表示通过对与所述查询式对应的点击图片集合中各图片的图片特征向量聚类生成。
在本实施例的一个优选的实施方式中,所述图片特征表示具体包括:聚类簇集合;
其中,所述聚类簇集合中的聚类簇具体包括:质心(可以是真实质心,也可以是与真实质心接近的某个图片特征向量)、聚类簇中包括的元素个数、聚类簇中各元素的图片特征向量以及聚类簇中元素的标准方差。
同时,所述质心与聚类簇中各元素的图片特征向量具有相同的向量格式。
420、根据所述图片特征表示,计算所述查询式与各待排序图片之间的相关性度量值。
其中,可以选取所述图片特征表示中各聚类簇的所述质心,与各待排序图片对应的图片特征向量计算相似度,并根据计算结果确定所述查询式与各待排序图片之间的相关性度量值;也可以选取所述图片特征表示中设定数量的聚类簇中包括的设定数量图片特征向量,与各待排序图片对应的图片特征向量计算相似度,并根据计算结果确定所述查询式与各待排序图片之间的相关性度量值等,本实施例对此并不进行限制。
430、根据计算得到的所述相关性度量值对各所述待排序图片进行排序,并将与排序结果对应的图片搜索结果提供给所述用户。
本发明实施例的技术方案在图片搜索引擎接收到用户输入的图片查询式后,通过确定与该图片查询式对应的图片特征表示,可以计算得到各待排序图片与所述图片查询式之间的相关性度量值,进而基于所述相关性度量值,将各待排序图片进行排序并将排序结果返回给所述用户,优化了现有的图片搜索技术,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
第五实施例
图5是本发明第五实施例的一种图片搜索方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据所述图片特征表示,计算所述查询式与各待排序图片之间的相关性度量值具体优化为:依次获取一个待排序图片作为当前比对图片,并获取所述当前比对图片的图片特征向量作为待比对向量,其中,所述待比对向量与所述聚类簇包括中各元素的图片特征向量的向量类型以及向量长度相同;分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度,并将计算得到的最大相似度作为所述当前比对图片与所述查询式之间的相关性度量值;返回执行获取一个待排序图片的操作,直至完成对全部待排序图片的处理。
相应的,本实施例的方法具体包括:
510、根据用户输入的查询式,确定与所述查询式对应的图片特征表示。
520、依次获取一个待排序图片作为当前比对图片,并获取所述当前比对图片的图片特征向量作为待比对向量。
其中,所述待比对向量与所述聚类簇包括中各元素的图片特征向量的向量类型以及向量长度相同。
530、分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度,并将计算得到的最大相似度作为所述当前比对图片与所述查询式之间的相关性度量值。
在本实施例的一个优选的实施方式中,分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度具体可以包括:
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的质心之间的向量距离,作为所述待比对向量与所述聚类簇集合中的各聚类簇的相似度。
在本实施例的另一个优选的实施方式中,分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度具体可以包括:
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的质心之间的向量距离;将计算得到的各向量距离除以各聚类簇的标准方差的结果,作为所述待比对向量与所述聚类簇集合中的各聚类簇的相似度。
在一个具体的例子中,与用户输出的查询式q对应的图片特征表示Expq={CL1,CL2,…,CLK},CLi,i∈[1,K],代表第i个聚类簇;
为第i个聚类簇的质心(可以是真实质心,也可以是与真实质心接近的某个图片特征向量),ni为第i个聚类簇中包括的元素数量,为第i个聚类簇中的元素,σi为第i个聚类簇中元素的标准方差,用于度量该聚类簇中元素的聚集程度。(也可以使用其它的量如散度来度量上述元素的聚集程度)。
通过上述图片特征表示Expq说明该查询式q可能有K种有效需求。待排序图片只要满足任何一种需求,都可以认为与该查询式q相关。所以相关性度量值Rel可以定义为:
fj为待排序图片的图片特征向量,为簇CLi的质心,dist(,)为距离定义,例如欧式距离或者余弦距离等。
考虑到不同聚类簇中图片的聚集程度不同,为了使得相关性度量值Rel在数值上可比,可以使用聚类簇的标准方差或者散度对Rel数值进行正则化。使用标准方差进行正则化示例如下:
540、判断是否完成对全部待排序图片的处理:若是,执行550;否则,返回执行520。
550、根据计算得到的所述相关性度量值对各所述待排序图片进行排序,并将与排序结果对应的图片搜索结果提供给所述用户。
通过实验表明,使用本实施例的技术方案显著提升了图片搜索的相关性。评估表明,增加该图片特征表示之后,图片搜索在随机查询式上的搜索结果满意度提升15%以上,即搜索结果可感知变好的查询式数量与搜索结果可感知变差的查询式数量之差,占随机抽样查询式的比例在15%以上,效果非常显著。
第六实施例
图6是本发明第六实施例的一种查询式的图片特征表示的生成装置的结构图。如图6所示,所述装置包括:
点击图片集合获取模块61,用于根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合。
图片特征向量生成模块62,用于根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量。
图片特征表示生成模块63,用于根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示。
本发明实施例根据搜索用户的图片点击日志,获取与同一目标搜索式对应的点击图片集合,并生成与该点击图片集合对应的图片特征向量,基于该图片特征向量对各点击图片进行聚类,并将聚类结果作为所述目标搜索式的图片特征表示,当图片搜索引擎接收到用户输入的图片查询式后,通过确定与该图片查询式对应的图片特征表示,可以计算得到各待排序图片与所述图片查询式之间的相关性度量值,进而基于所述相关性度量值,将各待排序图片进行排序并将排序结果返回给所述用户,优化了现有的图片搜索技术,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
在上述各实施例的基础上,所述图片特征向量可以包括:类别分布向量、基于颜色分布直方图的颜色分布向量或者视觉词分布向量。
在上述各实施例的基础上,图片特征向量生成模块具体可以用于:
将待处理点击图片的图片像素内容输入至类别分类器组中;其中,所述类别分类器组通过设定数量的、经过分类标注的训练数据训练生成;
获取所述类别分类器组输出的,由所述待处理点击图片分属于不同类别的概率值构成的第一向量;
将所述第一向量中包括的各概率值进行排序后,获取设定数量的有效概率值;
将由所述有效概率值所组成的第二向量作为与所述待处理点击图片对应的所述类别分布向量。
在上述各实施例的基础上,所述目标查询式具体可以包括:单一查询式或者满足设定相似度阈值条件的至少两个查询式。
在上述各实施例的基础上,图片特征表示生成模块具体可以包括:
聚类簇集合生成单元,用于根据与各点击图片对应的图片特征向量,以及与所述图片特征向量相匹配的聚类算法,对各所述点击图片进行聚类,生成聚类簇集合;
异常聚类簇获取单元,用于获取所述聚类簇集合中包括的异常聚类簇;
图片特征表示获取单元,用于将滤除所述异常聚类簇后的所述聚类簇集合作为所述目标查询式的图片特征表示。
在上述各实施例的基础上,异常聚类簇获取单元具体可以用于:
获取与所述目标查询式的分类不匹配的聚类簇作为所述异常聚类簇。
在上述各实施例的基础上,异常聚类簇获取单元具体可以用于:
将所述聚类簇集合中的各聚类簇按照包括的元素个数进行排序;
根据排序结果,保留设定数量的聚类簇作为有效聚类簇,将所述聚类簇集合中除去所述有效聚类簇之外的聚类簇作为所述异常聚类簇。
在上述各实施例的基础上,所述聚类算法可以为加权聚类算法;
相应的,所述装置还可以包括:权重值确定模块,用于在根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示之前,根据各所述点击图片的权重参数,确定各点击图片的权重值;其中,所述权重参数包括与所述点击图片对应的点击率。
在上述各实施例的基础上,所述聚类簇集合中的聚类簇具体可以包括:质心、聚类簇中包括的元素数量、聚类簇中各元素的图片特征向量以及聚类簇中元素的标准方差。
本发明实施例所提供的查询式的图片特征表示的生成装置可用于执行本发明任意实施例提供的查询式的图片特征表示的生成方法,具备相应的功能模块,实现相同的有益效果。
第七实施例
图7是本发明第七实施例的一种图片搜索装置的结构图。如图7所示,所述装置包括:
图片特征表示确定模块71,用于根据用户输入的查询式,确定与所述查询式对应的图片特征表示;其中,所述查询式对应的图片特征表示通过对与所述查询式对应的点击图片集合中各图片的图片特征向量聚类生成。
相关性度量值计算模块72,用于根据所述图片特征表示,计算所述查询式与各待排序图片之间的相关性度量值。
图片搜索结果提供模块73,用于根据计算得到的所述相关性度量值对各所述待排序图片进行排序,并将与排序结果对应的图片搜索结果提供给所述用户。
本发明实施例的技术方案在图片搜索引擎接收到用户输入的图片查询式后,通过确定与该图片查询式对应的图片特征表示,可以计算得到各待排序图片与所述图片查询式之间的相关性度量值,进而基于所述相关性度量值,将各待排序图片进行排序并将排序结果返回给所述用户,优化了现有的图片搜索技术,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
在上述各实施例的基础上,所述图片特征表示具体可以包括:聚类簇集合;
其中,所述聚类簇集合中的聚类簇具体包括:质心、聚类簇中包括的元素个数、聚类簇中各元素的图片特征向量以及聚类簇中元素的标准方差。
在上述各实施例的基础上,所述相关性度量值计算模块具体可以用于:
依次获取一个待排序图片作为当前比对图片,并获取所述当前比对图片的图片特征向量作为待比对向量,其中,所述待比对向量与所述聚类簇包括中各元素的图片特征向量的向量类型以及向量长度相同;
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度,并将计算得到的最大相似度作为所述当前比对图片与所述查询式之间的相关性度量值;
返回执行获取一个待排序图片的操作,直至完成对全部待排序图片的处理。
在上述各实施例的基础上,所述关性度量值计算模块具体还可以用于:
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的质心之间的向量距离,作为所述待比对向量与所述聚类簇集合中的各聚类簇的相似度。
在上述各实施例的基础上,所述关性度量值计算模块具体还可以用于:
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的质心之间的向量距离;
将计算得到的各向量距离除以各聚类簇的标准方差的结果,作为所述待比对向量与所述聚类簇集合中的各聚类簇的相似度。
本发明实施例所提供的图片搜索装置可用于执行本发明任意实施例提供的图片搜索方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种查询式的图片特征表示的生成方法,其特征在于,包括:
根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合;
根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量;
根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示;
其中,根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示包括:
根据与各点击图片对应的图片特征向量,以及与所述图片特征向量相匹配的聚类算法,对各所述点击图片进行聚类,生成聚类簇集合;
获取所述聚类簇集合中包括的异常聚类簇;
将滤除所述异常聚类簇后的所述聚类簇集合作为所述目标查询式的图片特征表示。
2.根据权利要求1所述的方法,其特征在于,所述图片特征向量包括:类别分布向量、基于颜色分布直方图的颜色分布向量或者视觉词分布向量。
3.根据权利要求2所述的方法,其特征在于,根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量包括:
将待处理点击图片的图片像素内容输入至类别分类器组中;其中,所述类别分类器组通过设定数量的、经过分类标注的训练数据训练生成;
获取所述类别分类器组输出的,由所述待处理点击图片分属于不同类别的概率值构成的第一向量;
将所述第一向量中包括的各概率值进行排序后,获取设定数量的有效概率值;
将由所述有效概率值所组成的第二向量作为与所述待处理点击图片对应的所述类别分布向量。
4.根据权利要求1所述的方法,其特征在于,所述目标查询式具体包括:单一查询式或者满足设定相似度阈值条件的至少两个查询式。
5.根据权利要求1所述的方法,其特征在于,获取所述聚类簇集合中包括的异常聚类簇包括:
获取与所述目标查询式的分类不匹配的聚类簇作为所述异常聚类簇。
6.根据权利要求1所述的方法,其特征在于,获取所述聚类簇集合中包括的异常聚类簇包括:
将所述聚类簇集合中的各聚类簇按照包括的元素个数进行排序;
根据排序结果,保留设定数量的聚类簇作为有效聚类簇,将所述聚类簇集合中除去所述有效聚类簇之外的聚类簇作为所述异常聚类簇。
7.根据权利要求1所述的方法,其特征在于,所述聚类算法为加权聚类算法;
在根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示之前,还包括:
根据各所述点击图片的权重参数,确定各点击图片的权重值;其中,所述权重参数包括与所述点击图片对应的点击率。
8.根据权利要求1所述的方法,其特征在于,所述聚类簇集合中的聚类簇具体包括:质心、聚类簇中包括的元素数量、聚类簇中各元素的图片特征向量以及聚类簇中元素的标准方差。
9.一种图片搜索方法,其特征在于,包括:
根据用户输入的查询式,确定与所述查询式对应的图片特征表示;其中,所述查询式对应的图片特征表示通过对与所述查询式对应的点击图片集合中各图片的图片特征向量聚类生成;
根据所述图片特征表示,计算所述查询式与各待排序图片之间的相关性度量值;
根据计算得到的所述相关性度量值对各所述待排序图片进行排序,并将与排序结果对应的图片搜索结果提供给所述用户;
所述查询式对应的图片特征表示通过对与所述查询式对应的点击图片集合中各图片的图片特征向量聚类生成,包括:
根据与各点击图片对应的图片特征向量,以及与所述图片特征向量相匹配的聚类算法,对各所述点击图片进行聚类,生成聚类簇集合;
获取所述聚类簇集合中包括的异常聚类簇;
将滤除所述异常聚类簇后的所述聚类簇集合作为所述查询式的图片特征表示。
10.根据权利要求9所述的方法,其特征在于,所述图片特征表示具体包括:聚类簇集合;
其中,所述聚类簇集合中的聚类簇具体包括:质心、聚类簇中包括的元素个数、聚类簇中各元素的图片特征向量以及聚类簇中元素的标准方差。
11.根据权利要求10所述的方法,其特征在于,根据所述图片特征表示,计算所述查询式与各待排序图片之间的相关性度量值包括:
依次获取一个待排序图片作为当前比对图片,并获取所述当前比对图片的图片特征向量作为待比对向量,其中,所述待比对向量与所述聚类簇包括中各元素的图片特征向量的向量类型以及向量长度相同;
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度,并将计算得到的最大相似度作为所述当前比对图片与所述查询式之间的相关性度量值;
返回执行获取一个待排序图片的操作,直至完成对全部待排序图片的处理。
12.根据权利要求11所述的方法,其特征在于,具体的,分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度具体包括:
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的质心之间的向量距离,作为所述待比对向量与所述聚类簇集合中的各聚类簇的相似度。
13.根据权利要求11所述的方法,其特征在于,分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度具体包括:
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的质心之间的向量距离;
将计算得到的各向量距离除以各聚类簇的标准方差的结果,作为所述待比对向量与所述聚类簇集合中的各聚类簇的相似度。
14.一种查询式的图片特征表示的生成装置,其特征在于,包括:
点击图片集合获取模块,用于根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合;
图片特征向量生成模块,用于根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量;
图片特征表示生成模块,用于根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示;
其中,所述图片特征表示生成模块具体用于:
根据与各点击图片对应的图片特征向量,以及与所述图片特征向量相匹配的聚类算法,对各所述点击图片进行聚类,生成聚类簇集合;
获取所述聚类簇集合中包括的异常聚类簇;
将滤除所述异常聚类簇后的所述聚类簇集合作为所述目标查询式的图片特征表示。
15.根据权利要求14所述的装置,其特征在于,所述聚类簇集合中的聚类簇具体包括:质心、聚类簇中包括的元素数量、聚类簇中各元素的图片特征向量以及聚类簇中元素的标准方差。
16.一种图片搜索装置,其特征在于,包括:
图片特征表示确定模块,用于根据用户输入的查询式,确定与所述查询式对应的图片特征表示;其中,所述查询式对应的图片特征表示通过对与所述查询式对应的点击图片集合中各图片的图片特征向量聚类生成;
相关性度量值计算模块,用于根据所述图片特征表示,计算所述查询式与各待排序图片之间的相关性度量值;
图片搜索结果提供模块,用于根据计算得到的所述相关性度量值对各所述待排序图片进行排序,并将与排序结果对应的图片搜索结果提供给所述用户;
所述查询式对应的图片特征表示通过对与所述查询式对应的点击图片集合中各图片的图片特征向量聚类生成,包括:
根据与各点击图片对应的图片特征向量,以及与所述图片特征向量相匹配的聚类算法,对各所述点击图片进行聚类,生成聚类簇集合;
获取所述聚类簇集合中包括的异常聚类簇;
将滤除所述异常聚类簇后的所述聚类簇集合作为所述查询式的图片特征表示。
17.根据权利要求16所述的装置,其特征在于,所述图片特征表示具体包括:聚类簇集合;
其中,所述聚类簇集合中的聚类簇具体包括:质心、聚类簇中包括的元素个数、聚类簇中各元素的图片特征向量以及聚类簇中元素的标准方差。
18.根据权利要求17所述的装置,其特征在于,所述相关性度量值计算模块具体用于:
依次获取一个待排序图片作为当前比对图片,并获取所述当前比对图片的图片特征向量作为待比对向量,其中,所述待比对向量与所述聚类簇包括中各元素的图片特征向量的向量类型以及向量长度相同;
分别计算所述待比对向量与所述聚类簇集合中的各聚类簇的相似度,并将计算得到的最大相似度作为所述当前比对图片与所述查询式之间的相关性度量值;
返回执行获取一个待排序图片的操作,直至完成对全部待排序图片的处理。
CN201610306218.9A 2016-05-10 2016-05-10 查询式的图片特征表示的生成、图片搜索方法和装置 Active CN106021362B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610306218.9A CN106021362B (zh) 2016-05-10 2016-05-10 查询式的图片特征表示的生成、图片搜索方法和装置
US15/281,209 US10459971B2 (en) 2016-05-10 2016-09-30 Method and apparatus of generating image characteristic representation of query, and image search method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610306218.9A CN106021362B (zh) 2016-05-10 2016-05-10 查询式的图片特征表示的生成、图片搜索方法和装置

Publications (2)

Publication Number Publication Date
CN106021362A CN106021362A (zh) 2016-10-12
CN106021362B true CN106021362B (zh) 2018-04-13

Family

ID=57099080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610306218.9A Active CN106021362B (zh) 2016-05-10 2016-05-10 查询式的图片特征表示的生成、图片搜索方法和装置

Country Status (2)

Country Link
US (1) US10459971B2 (zh)
CN (1) CN106021362B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401005B (zh) * 2017-02-08 2021-05-14 腾讯科技(深圳)有限公司 一种表情推荐方法和装置
CN106997379B (zh) * 2017-03-20 2020-08-04 杭州电子科技大学 一种基于图片文本点击量的相近文本的合并方法
CN107679183B (zh) * 2017-09-29 2020-11-06 百度在线网络技术(北京)有限公司 分类器用训练数据获取方法和装置、服务器及存储介质
CN110019867A (zh) * 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 图像搜索方法、系统和索引构建方法和介质
CN110019889A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置
CN108062377A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 标签图片集的建立、标签的确定方法、装置、设备及介质
CN108228844B (zh) * 2018-01-09 2020-10-27 美的集团股份有限公司 一种图片筛选方法及装置、存储介质、计算机设备
CN109034248B (zh) * 2018-07-27 2022-04-05 电子科技大学 一种基于深度学习的含噪声标签图像的分类方法
CN109241318B (zh) * 2018-09-21 2023-06-13 平安科技(深圳)有限公司 图片推荐方法、装置、计算机设备及存储介质
US11380045B2 (en) 2018-10-29 2022-07-05 Autodesk, Inc. Shaped-based techniques for exploring design spaces
US11741662B2 (en) 2018-10-29 2023-08-29 Autodesk, Inc. Shaped-based techniques for exploring design spaces
US11126330B2 (en) * 2018-10-29 2021-09-21 Autodesk, Inc. Shaped-based techniques for exploring design spaces
CN109741380B (zh) * 2018-12-27 2021-09-14 广州华迅网络科技有限公司 纺织品图片快速匹配方法和装置
CN111753111A (zh) * 2019-04-10 2020-10-09 北京京东尚科信息技术有限公司 图片搜索方法和装置
CN110147851B (zh) * 2019-05-29 2022-04-01 北京达佳互联信息技术有限公司 图像筛选方法、装置、计算机设备及存储介质
CN110674328A (zh) * 2019-09-27 2020-01-10 长城计算机软件与系统有限公司 一种商标图像检索方法、系统、介质及设备
CN110909190B (zh) * 2019-11-18 2022-12-09 惠州Tcl移动通信有限公司 数据搜索方法、装置、电子设备及存储介质
CN111461171B (zh) * 2020-03-04 2023-05-26 中南大学 一种用于构建高炉铁水硅含量预测模型的数据优选方法及系统
US11403339B2 (en) * 2020-05-04 2022-08-02 Adobe Inc. Techniques for identifying color profiles for textual queries
CN111597375B (zh) * 2020-05-19 2023-11-14 清华大学 基于相似图片组代表特征向量的图片检索方法及相关设备
CN112148909B (zh) * 2020-09-18 2024-03-29 微梦创科网络科技(中国)有限公司 搜索相似图片的方法及系统
CN112328819B (zh) * 2020-11-07 2023-08-18 嘉兴智设信息科技有限公司 一种基于图片集推荐相似图片的方法
CN112560998A (zh) * 2021-01-19 2021-03-26 德鲁动力科技(成都)有限公司 针对目标检测的少样本数据扩增方法
CN112883643A (zh) * 2021-02-07 2021-06-01 智慧航海(青岛)科技有限公司 一种船舶搭载激光感知模块的仿真测试系统
CN113111206A (zh) * 2021-04-19 2021-07-13 浙江商汤科技开发有限公司 图搜方法、装置、电子设备以及存储介质
CN113268620A (zh) * 2021-04-19 2021-08-17 维沃移动通信有限公司 图片显示方法及装置
US20240012832A1 (en) * 2022-07-07 2024-01-11 At&T Intellectual Property I, L.P. Machine learning-based data set profiling and visualization
US11934452B1 (en) 2022-10-31 2024-03-19 Adobe Inc. Text-based color palette searches utilizing text-to-color models

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN102930296A (zh) * 2012-11-01 2013-02-13 长沙纳特微视网络科技有限公司 一种图像识别方法及装置
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103744970A (zh) * 2014-01-10 2014-04-23 北京奇虎科技有限公司 一种确定图片的主题词的方法及装置
CN103984746A (zh) * 2014-05-26 2014-08-13 西安电子科技大学 基于半监督分类与区域距离测度的sar图像识别方法
CN104778281A (zh) * 2015-05-06 2015-07-15 苏州搜客信息技术有限公司 一种基于社区分析的图像索引并行构建方法
CN104820718A (zh) * 2015-05-22 2015-08-05 哈尔滨工业大学 基于地理位置特征与全局视觉特征的图像分类和检索方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6084595A (en) * 1998-02-24 2000-07-04 Virage, Inc. Indexing method for image search engine
US6563959B1 (en) * 1999-07-30 2003-05-13 Pixlogic Llc Perceptual similarity image retrieval method
US7945393B2 (en) * 2002-01-10 2011-05-17 Chemimage Corporation Detection of pathogenic microorganisms using fused sensor data
US7801893B2 (en) * 2005-09-30 2010-09-21 Iac Search & Media, Inc. Similarity detection and clustering of images
US20110237446A1 (en) * 2006-06-09 2011-09-29 Chemlmage Corporation Detection of Pathogenic Microorganisms Using Fused Raman, SWIR and LIBS Sensor Data
US8325465B2 (en) * 2007-04-13 2012-12-04 Kemet Electronics Corporation NbO capacitors with improved performance and higher working voltages
US8352465B1 (en) * 2009-09-03 2013-01-08 Google Inc. Grouping of image search results
US8352494B1 (en) * 2009-12-07 2013-01-08 Google Inc. Distributed image search
US8438163B1 (en) * 2010-12-07 2013-05-07 Google Inc. Automatic learning of logos for visual recognition
JP5577371B2 (ja) * 2012-03-29 2014-08-20 楽天株式会社 画像検索装置、画像検索方法およびプログラム
US9195717B2 (en) * 2012-06-26 2015-11-24 Google Inc. Image result provisioning based on document classification
US20140032583A1 (en) * 2012-07-27 2014-01-30 Sergey Ioffe Multi-Resolution Exploration of Large Image Datasets
JP2014127011A (ja) * 2012-12-26 2014-07-07 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US20150088923A1 (en) * 2013-09-23 2015-03-26 Google Inc. Using sensor inputs from a computing device to determine search query

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN102930296A (zh) * 2012-11-01 2013-02-13 长沙纳特微视网络科技有限公司 一种图像识别方法及装置
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103744970A (zh) * 2014-01-10 2014-04-23 北京奇虎科技有限公司 一种确定图片的主题词的方法及装置
CN103984746A (zh) * 2014-05-26 2014-08-13 西安电子科技大学 基于半监督分类与区域距离测度的sar图像识别方法
CN104778281A (zh) * 2015-05-06 2015-07-15 苏州搜客信息技术有限公司 一种基于社区分析的图像索引并行构建方法
CN104820718A (zh) * 2015-05-22 2015-08-05 哈尔滨工业大学 基于地理位置特征与全局视觉特征的图像分类和检索方法

Also Published As

Publication number Publication date
US10459971B2 (en) 2019-10-29
CN106021362A (zh) 2016-10-12
US20170329804A1 (en) 2017-11-16

Similar Documents

Publication Publication Date Title
CN106021362B (zh) 查询式的图片特征表示的生成、图片搜索方法和装置
CN106095893B (zh) 一种跨媒体检索方法
Chang et al. Semantic concept discovery for large-scale zero-shot event detection
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN107515877A (zh) 敏感主题词集的生成方法和装置
WO2022134794A1 (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
Li et al. Harvesting social images for bi-concept search
CN113626607B (zh) 异常工单识别方法、装置、电子设备及可读存储介质
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN108228684A (zh) 聚类模型的训练方法、装置、电子设备和计算机存储介质
CN114588633B (zh) 一种内容推荐方法
CN103699612B (zh) 一种图像检索排序的方法及装置
CN102693258A (zh) 高精度的类似检索系统
Shi et al. Segmentation quality evaluation based on multi-scale convolutional neural networks
CN110263207A (zh) 图像搜索方法、装置、设备及计算机可读存储介质
Xu et al. Robust seed localization and growing with deep convolutional features for scene text detection
Ching et al. Learning image aesthetics by learning inpainting
CN112925994A (zh) 基于局部和全局信息融合的群组推荐方法、系统及设备
Chow et al. A new feature selection scheme using a data distribution factor for unsupervised nominal data
CN109462635B (zh) 一种信息推送方法、计算机可读存储介质及服务器
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质
CN111460088A (zh) 相似文本的检索方法、装置和系统
CN116362933B (zh) 基于大数据的智慧校园管理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant