CN103744970A - 一种确定图片的主题词的方法及装置 - Google Patents

一种确定图片的主题词的方法及装置 Download PDF

Info

Publication number
CN103744970A
CN103744970A CN201410012403.8A CN201410012403A CN103744970A CN 103744970 A CN103744970 A CN 103744970A CN 201410012403 A CN201410012403 A CN 201410012403A CN 103744970 A CN103744970 A CN 103744970A
Authority
CN
China
Prior art keywords
query
participle
click
picture
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410012403.8A
Other languages
English (en)
Other versions
CN103744970B (zh
Inventor
陶哲
薛红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410012403.8A priority Critical patent/CN103744970B/zh
Publication of CN103744970A publication Critical patent/CN103744970A/zh
Application granted granted Critical
Publication of CN103744970B publication Critical patent/CN103744970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明公开一种确定图片的主题词的方法及装置,属于互联网技术领域。所述方法包括:查询与输入的待识别图片对应的多张相似图片;查找query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。根据本发明,能够方便快捷地确定待识别图片的主题词,并且所确定的主题词的准确性也较高。

Description

一种确定图片的主题词的方法及装置
技术领域
本发明涉及互联网技术领域,具体涉及一种确定图片的主题词的方法及装置。
背景技术
传统图片搜索引擎的实现方式是根据用户输入的查询关键词(query,描述性文本)匹配图片关键词(与图片关联度较高的文本),从图片数据库中搜索出与所述查询关键词相关的图片,其图片搜索功能在本质上还是文本搜索。而以图搜图系统或者称为反向图片搜索引擎(reverse image searchengine)是一种以图片作为搜索源的技术,其使用图片本身代替查询关键词来搜索其他图片。用户通过在反向图片搜索引擎中上传图片或者输入图片的URL地址,根据图片内容进行匹配,可以搜索到互联网上与输入的待识别图片相似的其他图片资源。
在反向图片搜索引擎的搜索结果页中通常会展示输入的待识别图片的缩略图、待识别图片的相关信息以及与待识别图片对应的多张相似图片。其中,所述待识别图片的相关信息通常包括待识别图片的尺寸和待识别图片的主题词,所述主题词通常展示在所述缩略图的旁边或者下方。
在现有反向图片搜索引擎的具体实现中,待识别图片的主题词通常是根据相似图片的相关信息确定,例如,根据图片的上传者或者网站的经营者对相似图片进行的标注(对图片的文字说明)来确定。现有实现方式的缺点至少包括:如果匹配到多张相似图片,而这些相似图片的标注往往不同,甚至相差甚远,则根据标注信息来确定待识别图片的主题词存在困难,并且,所确定出的主题词的准确性也较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定图片的主题词的方法及装置。
根据本发明的一个方面,提供了一种确定图片的主题词的方法,包括:
查询与输入的待识别图片对应的多张相似图片;
查找query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;
基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
可选地,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,包括:
根据点击记录确定查询query中各分词的点击得分;
从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
可选地,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数;
所述根据点击记录确定查询query中各分词的点击得分,包括:
将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。
可选地,所述方法还包括:
从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query;
统计各分词在所有可信任查询query中的出现次数;
将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重;
将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
可选地,所述方法还包括:将提取到的所述待识别图片的主题词进行展示。
根据本发明的另一个方面,提供了一种确定图片的主题词的装置,包括:
图片数据库,适于存储通过网络抓取到的图片数据;
查询器,适于从所述图片数据库中查询与输入的待识别图片对应的多张相似图片;
日志存储器,适于存储query点击日志;
日志分析器,适于查找所述query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;
主题词提取器,适于基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
可选地,所述主题词提取器包括:
点击得分获取单元,适于根据点击记录确定查询query中各分词的点击得分;
主题词提取单元,适于从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
可选地,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数;
所述点击得分获取单元进一步适于:
将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。
可选地,所述装置还包括权重计算器,所述权重计算器适于:
从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query;
统计各分词在所有可信任查询query中的出现次数;
将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重;
所述点击得分获取单元进一步适于:
将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
可选地,所述装置还包括输出接口,适于将提取到的所述待识别图片的主题词进行展示。
与现有技术相比,本发明的有益技术效果如下:
用户在图片搜索引擎中输入查询关键词(query)来搜索图片,在返回的搜索结果中,用户点击的图片通常是较符合用户预期的,也就是与输入的查询关键词相关的图片,搜索结果中的图片被点击次数越多,说明查询关键词与被点击的图片的相关性也就越大。因此,本发明利用用户在图片搜索引擎中输入的查询关键词与在搜索结果中点击的图片之间的关系,能够方便快捷地确定用户在反向图片搜索引擎中所输入的待识别图片的主题词,并且所确定的主题词的准确性也较高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的确定图片的主题词的方法流程图;
图2示出了根据本发明一个实施例的确定图片的主题词的装置结构图。
具体实施方式
图1示出了根据本发明一个实施例的确定图片的主题词的方法流程图。参照图1,所述方法可以包括:
步骤102,查询与输入的待识别图片对应的多张相似图片;
反向图片搜索引擎是一种以图片作为搜索源的技术,其使用图片本身代替查询关键词(query)来搜索其他图片。通过在反向图片搜索引擎的搜索框中上传待识别图片或者输入待识别图片的URL地址,反向图片搜索引擎根据待识别图片的内容与图片数据库中的图片进行匹配,可以搜索到互联网上与待识别图片相似的其他图片资源。其中,图片数据库中存储有通过网络抓取到的图片数据。
步骤104,查找query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;
在图片搜索引擎的搜索框中输入查询query来搜索图片时,在返回的搜索结果中可能会发生用户点击行为。用户的点击行为信息会被图片搜索引擎记录在query点击日志中,所述query点击日志可以由图片搜索引擎的日志存储器存储。具体地,所述query点击日志可以记录如下信息中的一个或多个:用户标识(例如用户名)、查询query、搜索结果、用户对搜索结果中各图片的点击行为。在一次搜索操作中,用户在搜索结果中点击了一张或者多张图片,则query点击日志中会记录用户首次点击的是哪张图片,因此,所述query点击日志中的点击记录还可以进一步区分为对图片的首次点击记录和非首次点击记录。
在本步骤中,可以以图片为单位,根据所述query点击日志进行统计,得到每张相似图片分别对应的查询query点击表,所述查询query点击表中包括查询query及对应的点击数,然后,对这些查询query点击表按照查询query进行汇总,就可以得到各查询query分别对应的点击数。其中,所述点击数还可以包括首次点击数和总点击数。
需要说明的是,点击数的计算还可以考虑用户的概念,即同一用户的多次重复点击只统计为一次点击。另外,用户输入的查询query还可能会存在一些问题,比如错别字、拼音等,所以还可以对查询query进行纠错,查询query的的纠错可以使用纠错表,通过查找比对纠错表找到与其对应的正确形式。最后利用纠错后的query及其首次点击数和总点击数生成图片的查询query点击表。
步骤106,基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
用户在图片搜索引擎中输入查询query来搜索图片,在返回的搜索结果中,用户点击的图片通常是较符合用户预期的,也就是与输入的查询query相关的图片,搜索结果中的图片被点击次数越多,说明查询query与被点击的图片的相关性也就越大。因此,本发明实施例利用用户在图片搜索引擎中输入的查询query与在搜索结果中点击的图片之间的关系,能够方便快捷地确定用户在反向图片搜索引擎中所输入的待识别图片的主题词,并且所确定的主题词的准确性也较高。
在一种实现方式中,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,可以包括:
步骤S12,根据点击记录确定查询query中各分词的点击得分;
首先,对所述多个查询query中的每个查询query分别进行分词处理,得到每个查询query分别对应的多个分词;然后,对于每个查询query,将该查询query对应的所述相似图片的点击数作为各分词在该查询query下的点击得分;最后,分别对各分词在所有查询query下的点击得分进行累加,得到各分词分别对应的最终点击得分。
步骤S14,从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
分词的点击得分越高,说明该分词与待识别图片的相关性也越大,因此,可以将点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。另外,在分词的数量较多时,还可以先对分词的点击得分进行排序,从中获取点击得分排名靠前的预定数目个分词,然后,再从点击得分排名靠前的预定数目个分词中提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。其中,所述预设的得分阈值以及所述预定数目可以根据经验或者实验确定。
在另一种实现方式中,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,可以包括:
步骤S22,将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
如果不同用户在图片搜索引擎中输入相同的查询query,对搜索结果中的同一张图片都发生了点击行为,可以认为这个查询query与此图片的相关性很大。相反,如果搜索结果中的某一张图片点击次数较少,可以认为查询query与此图片的相关性较小。另外,同一查询query对应的图片点击结果中,用户首次点击的图片与非首次点击的图片的重要性也不同。首次点击的图片,说明更符合用户的搜索预期,也就是与查询query的相关性越大。所以,根据查询query对应的相似图片的首次点击数First_clicks和总点击数Total_clicks,可以计算获得此查询query的置信度,计算公式如下:
Confidencequery=Weightfirst×First_clicks+Weightnormal×Total_clicks
其中,Confidencequery为查询query的置信度,Weightfirst为首次点击数的权重,Weightnormal为总点击数的权重,Weightfirst大于Weightnormal,二者的具体取值可以根据经验或者实验确定。
步骤S24,将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
查询query一般是由一个或多个分词组合而成,而图片主题词的产生也是以分词为单位分析产生的,所以就需要拆分计算查询query中各分词对应的点击得分。在计算分词对应的点击得分时,既需要考虑其所在查询query的置信度,还需要考虑分词的词性,词性不同,其表达主题的能力就不同。比如“高清柳岩图片”,用户想要看到的是柳岩的图片,而“高清”只是对中心词的辅助,并不能表达搜索结果的主要内容。所以不同词性的分词对于主题的贡献度不同,在分词的点击得分计算过程中权重也不同。单一查询query中分词的点击得分可以按照如下公式计算:
Wordquery=Confidencequery×Weightpart_of_speech
其中,Wordquery为查询query中某一分词的点击得分,Weightpart_of_speech为该分词对应的贡献度。其中,各分词的贡献度可以根据经验或者实验确定。
步骤S26,将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分;
一张待识别图片对应多张相似图片,所述多张相似图片对应多个(N个)查询query,因此,可以按照如下公式计算各分词的点击得分:
Word pic = Σ i = 1 N Word query i
其中,Wordpic为某一分词对应的点击得分,
Figure BDA0000455610140000082
为该分词在第i个查询query中的点击得分。
步骤S28,从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
分词的点击得分越高,说明该分词与待识别图片的相关性也越大,因此,可以将点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。另外,在分词的数量较多时,还可以先对分词的点击得分进行排序,从中获取点击得分排名靠前的预定数目个分词,然后,再从点击得分排名靠前的预定数目个分词中提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。其中,所述预设的得分阈值以及所述预定数目可以根据经验或者实验确定。
为进一步提高所提取的待识别图片的主题词的准确性,在又一种实现方式中,并不直接将上述步骤26中的累加结果作为该分词的点击得分,而是将所述累加结果作为该分词的基础得分,并引入分词的可信任权重的概念,将分词的基础得分与该分词的可信任权重之积作为该分词对应的点击得分。即所述步骤S26可以被替换为如下几个步骤:
步骤S260,将各分词在所有查询query中的点击得分进行累加,得到累加结果;
计算公式如下:
Word pic = Σ i = 1 N Word query i
其中,Wordpic为某一分词对应的累加结果,
Figure BDA0000455610140000092
为该分词在第i个查询query中的点击得分。
步骤S262,从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query;
步骤S264,统计各分词在所有可信任查询query中的出现次数;
步骤S266,将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重;
步骤S268,将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
如果查询query的置信度大于预设的置信度阈值Thresholdquery(具体取值可以根据经验或者实验确定),就认为这个查询query是可以信任的,可信任查询query中的各分词也是可信任的,为可信任分词。可信任查询query相比较于普通查询query,其对于主题词的正确提取贡献更大,其包含的可信任分词的权重也越大。可信任分词的权重与其在所有可信任查询query中的出现次数相关,假设每个分词的基础权重为Weightbase,可信任查询query的总数为Q,某一分词出现于可信任查询query中Wq次,则其可信任权重WeightTrusted的计算公式可以为:
Weight Trusted = Weight base + W q Q
这样,根据各分词的可信任权重,其对应的点击得分Wordpic_title可以按照如下公式计算:
Wordpic_title=Wordpic×WeightTrusted
然后,在步骤S28中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词;
或者,先比较所有分词的点击得分,找出得分最高的K个词:
Word pic _ title , = MAX k ( Word pic _ title )
如果Word′pic_title大于预设的得分阈值Thresholdpic,则可以作为所述待识别图片的主题词。
根据本发明实施例的上述一个或多个技术方案,在提取到待识别图片的主题词之后,还可以将提取到的所述待识别图片的主题词进行展示。例如,将提取到的所述待识别图片的主题词在反向图片搜索引擎的搜索结果页中向用户展示,所述主题词可以展示在待识别图片的缩略图的旁边或者下方。
以下给出实现上述方法的装置。
图2示出了根据本发明一个实施例的确定图片的主题词的装置结构图。参照图2,所述装置可以包括图片数据库20、查询器22、日志存储器24、日志分析器26和主题词提取器28,其中:
图片数据库20适于存储通过网络抓取到的图片数据。不论是图片搜索引擎还是反向图片搜索引擎,都是基于图片数据库20来进行图片的搜索。图片数据库20中的图片数据可以是搜索引擎派出的“蜘蛛”程序从网络中抓取得到的。
日志存储器24适于存储关键词query点击日志。在图片搜索引擎的搜索框中输入查询query来搜索图片时,在返回的搜索结果中可能会发生用户点击行为。用户的点击行为信息会被图片搜索引擎记录在query点击日志中,所述query点击日志可以由图片搜索引擎的日志存储器24存储。具体地,所述query点击日志可以记录如下信息中的一个或多个:用户标识(例如用户名)、查询query、搜索结果、用户对搜索结果中各图片的点击行为。另外,所述query点击日志中的点击记录还可以进一步区分为对图片的首次点击记录和非首次点击记录。
查询器22适于从所述图片数据库20中查询与输入的待识别图片对应的多张相似图片。查询器22的一种具体实现是方向图片搜索引擎,通过在反向图片搜索引擎的搜索框中上传待识别图片或者输入待识别图片的URL地址,反向图片搜索引擎根据待识别图片的内容与图片数据库20中的图片进行匹配,可以搜索到互联网上与待识别图片相似的其他图片资源。
日志分析器26适于查找所述query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录。日志分析器26可以以图片为单位,根据所述query点击日志进行统计,得到每张相似图片分别对应的查询query点击表,所述查询query点击表中包括查询query及对应的点击数,然后,对这些查询query点击表按照查询query进行汇总,就可以得到各查询query分别对应的点击数。其中,所述点击数还可以包括首次点击数和总点击数
主题词提取器28适于基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
在一种实现方式中,所述主题词提取器28可以包括:
点击得分获取单元,适于根据点击记录确定查询query中各分词的点击得分;
主题词提取单元,适于从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
在另一种实现方式中,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数,此种情况下,所述点击得分获取单元进一步适于:
将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。
为进一步提高所提取的待识别图片的主题词的准确性,在又一种实现方式中,所述确定图片的主题词的装置还包括权重计算器,所述权重计算器适于:
从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query;
统计各分词在所有可信任查询query中的出现次数;
将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重。
此种情况下,所述点击得分获取单元进一步适于:将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
在提取到待识别图片的主题词之后,还可以将提取到的所述待识别图片的主题词进行展示。因此,所述确定图片的主题词的装置还可以包括输出接口,适于将提取到的所述待识别图片的主题词进行展示。例如,提取到的所述待识别图片的主题词在反向图片搜索引擎的搜索结果页中向用户展示,所述主题词可以展示在待识别图片的缩略图的旁边或者下方。
对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在以上实施例中,所描述的各种搜索引擎的具体组成包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
以下给出本发明的一个应用实例。
首先,用户在反向图片搜索引擎中输入一张图片A,所述反向图片搜索引擎返回了与图片A相似的3张图片,分别是N1、N2和N3。
然后,以图片为单位,根据query点击日志统计各图片在各查询query下的点击记录,得到统计表1:
图片 查询query 首次点击数 总点击数
N1 北京爱情故事张歆艺 2 2
N1 张韵艺图片 2 2
N1 张韵艺 272 522
N2 张韵艺电脑壁纸 1 1
N3 张韵艺发型 0 2
N3 张韵艺图片 4 11
其次,对统计表1按照查询query进行汇总,得到统计表2:
查询query 首次点击数 总点击数
北京爱情故事张歆艺 2 2
张韵艺图片 6 13
张韵艺 272 522
张韵艺电脑壁纸 1 1
张韵艺发型 0 2
在统计表1中,图片N1和图片N3具有相同的查询query“张韵艺图片”,因此,对“张韵艺图片”对应的点击数进行了汇总,得到了统计表2。
再次,根据查询query的首次点击数和总点击数,可以计算出每个分词的点击得分;
最后,找出点击得分最高的K个分词,并与预设的得分阈值进行比较,将这K个分词中点击得分大于得分阈值的分词作为图片A的主题词输出。
例如,假设K=2,点击得分排名靠前的两个分词为“张韵艺”和“图片”,如果二者的点击得分均大于得分阈值,则可以将“张韵艺”和“图片”作为图片A的主题词输出,如果只有一个分词的点击得分均大于得分阈值,则可以将“张韵艺”作为图片A的主题词输出。
综上所述,本发明实施例利用用户在图片搜索引擎中输入的查询关键词与在搜索结果中点击的图片之间的关系,能够方便快捷地确定用户在反向图片搜索引擎中所输入的待识别图片的主题词,并且所确定的主题词的准确性也较高。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定图片的主题词的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种确定图片的主题词的方法,包括:
查询与输入的待识别图片对应的多张相似图片;
查找关键词query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;
基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
2.如权利要求1所述的方法,其中,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,包括:
根据点击记录确定查询query中各分词的点击得分;
从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
3.如权利要求1或2所述的方法,其中,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数;
所述根据点击记录确定查询query中各分词的点击得分,包括:
将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。
4.如权利要求1-3任一项所述的方法,其中,还包括:
从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query;
统计各分词在所有可信任查询query中的出现次数;
将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重;
将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
5.如权利要求1至4中任一项所述的方法,其中,还包括:将提取到的所述待识别图片的主题词进行展示。
6.一种确定图片的主题词的装置,包括:
图片数据库,适于存储通过网络抓取到的图片数据;
查询器,适于从所述图片数据库中查询与输入的待识别图片对应的多张相似图片;
日志存储器,适于存储关键词query点击日志;
日志分析器,适于查找所述query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;
主题词提取器,适于基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
7.如权利要求6所述的装置,其中,所述主题词提取器包括:
点击得分获取单元,适于根据点击记录确定查询query中各分词的点击得分;
主题词提取单元,适于从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
8.如权利要求6或7所述的装置,其中,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数;
所述点击得分获取单元进一步适于:
将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。
9.如权利要求6-8任一项所述的装置,其中,还包括权重计算器,所述权重计算器适于:
从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query;
统计各分词在所有可信任查询query中的出现次数;
将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重;
所述点击得分获取单元进一步适于:
将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
10.如权利要求6至9中任一项所述的装置,其中,还包括输出接口,适于将提取到的所述待识别图片的主题词进行展示。
CN201410012403.8A 2014-01-10 2014-01-10 一种确定图片的主题词的方法及装置 Active CN103744970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410012403.8A CN103744970B (zh) 2014-01-10 2014-01-10 一种确定图片的主题词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410012403.8A CN103744970B (zh) 2014-01-10 2014-01-10 一种确定图片的主题词的方法及装置

Publications (2)

Publication Number Publication Date
CN103744970A true CN103744970A (zh) 2014-04-23
CN103744970B CN103744970B (zh) 2016-11-23

Family

ID=50501988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410012403.8A Active CN103744970B (zh) 2014-01-10 2014-01-10 一种确定图片的主题词的方法及装置

Country Status (1)

Country Link
CN (1) CN103744970B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731948A (zh) * 2015-03-31 2015-06-24 北京奇虎科技有限公司 优质图片搜索资源的收录方法及装置
CN106021362A (zh) * 2016-05-10 2016-10-12 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
CN106599194A (zh) * 2016-12-14 2017-04-26 北京小米移动软件有限公司 标签确定方法及装置
CN111859095A (zh) * 2019-04-02 2020-10-30 搜狗(杭州)智能科技有限公司 一种图片识别方法及装置
CN111859148A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 主题的提取方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924855A (zh) * 2006-09-18 2007-03-07 浙江大学 图像搜索引擎中的排名方法
CN1983264A (zh) * 2006-05-19 2007-06-20 华为技术有限公司 一种收集用户数据的系统及方法
CN101984420A (zh) * 2010-09-03 2011-03-09 百度在线网络技术(北京)有限公司 一种基于拆词处理进行图片搜索的方法与设备
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎
CN102855245A (zh) * 2011-06-28 2013-01-02 北京百度网讯科技有限公司 一种用于确定图片相似度的方法与设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983264A (zh) * 2006-05-19 2007-06-20 华为技术有限公司 一种收集用户数据的系统及方法
CN1924855A (zh) * 2006-09-18 2007-03-07 浙江大学 图像搜索引擎中的排名方法
CN101984420A (zh) * 2010-09-03 2011-03-09 百度在线网络技术(北京)有限公司 一种基于拆词处理进行图片搜索的方法与设备
CN102855245A (zh) * 2011-06-28 2013-01-02 北京百度网讯科技有限公司 一种用于确定图片相似度的方法与设备
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周翀: "搜索引擎中文档聚类方法研究", 《中国博士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731948A (zh) * 2015-03-31 2015-06-24 北京奇虎科技有限公司 优质图片搜索资源的收录方法及装置
CN106021362A (zh) * 2016-05-10 2016-10-12 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
CN106021362B (zh) * 2016-05-10 2018-04-13 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
US10459971B2 (en) 2016-05-10 2019-10-29 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus of generating image characteristic representation of query, and image search method and apparatus
CN106599194A (zh) * 2016-12-14 2017-04-26 北京小米移动软件有限公司 标签确定方法及装置
CN111859095A (zh) * 2019-04-02 2020-10-30 搜狗(杭州)智能科技有限公司 一种图片识别方法及装置
CN111859148A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 主题的提取方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN103744970B (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
JP7282940B2 (ja) 電子記録の文脈検索のためのシステム及び方法
Alex et al. Adapting the Edinburgh geoparser for historical georeferencing
JP6047550B2 (ja) 検索方法、クライアント及びサーバ
CN104484459A (zh) 一种对知识图谱中的实体进行合并的方法及装置
CN101930438A (zh) 一种搜索结果生成方法及信息搜索系统
JP5616444B2 (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
US10956469B2 (en) System and method for metadata correlation using natural language processing
US20200265074A1 (en) Searching multilingual documents based on document structure extraction
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
US20130232157A1 (en) Systems and methods for processing unstructured numerical data
Chebbi et al. Big data: Concepts, challenges and applications
CN103744970A (zh) 一种确定图片的主题词的方法及装置
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN106021418B (zh) 新闻事件的聚类方法及装置
US11874882B2 (en) Extracting key phrase candidates from documents and producing topical authority ranking
US8290925B1 (en) Locating product references in content pages
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
CN103164542A (zh) 数据搜索的方法及客户端
JP2010123000A (ja) Webページグループ抽出方法及び装置及びプログラム
US11182441B2 (en) Hypotheses generation using searchable unstructured data corpus
CN104376115A (zh) 一种基于全局搜索的模糊词确定方法及装置
CN103559313A (zh) 搜索方法及装置
US20160098397A1 (en) Dynamic summary generator
Peng et al. Research on information collection method of shipping job hunting based on web crawler
CN104615723B (zh) 查询词权重值的确定方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220729

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right