CN103455550A - 一种获取具有对比效果的图片搜索结果的方法及装置 - Google Patents

一种获取具有对比效果的图片搜索结果的方法及装置 Download PDF

Info

Publication number
CN103455550A
CN103455550A CN2013103193393A CN201310319339A CN103455550A CN 103455550 A CN103455550 A CN 103455550A CN 2013103193393 A CN2013103193393 A CN 2013103193393A CN 201310319339 A CN201310319339 A CN 201310319339A CN 103455550 A CN103455550 A CN 103455550A
Authority
CN
China
Prior art keywords
word
search
demand
ambiguity
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103193393A
Other languages
English (en)
Other versions
CN103455550B (zh
Inventor
黄际洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310319339.3A priority Critical patent/CN103455550B/zh
Publication of CN103455550A publication Critical patent/CN103455550A/zh
Application granted granted Critical
Publication of CN103455550B publication Critical patent/CN103455550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种获取具有对比效果的图片搜索结果的方法及装置,其中所述方法包括:利用预设的种子词从搜索日志中挖掘关键词模板;利用所述关键词模板从搜索日志中确定具有一个以上搜索需求的歧义词;确定所述歧义词相关联的需求词;当用户输入的关键词与所述歧义词匹配时,将匹配词相关联的各个需求词分别与匹配词组合为搜索词进行图片搜索,以获取匹配词相关联的各类图片搜索结果,并将各类图片搜索结果对比展示。通过上述方式,本发明能够根据用户的搜索需求获取全面的图片搜索结果。

Description

一种获取具有对比效果的图片搜索结果的方法及装置
【技术领域】
本发明涉及图片搜索技术,特别涉及一种获取具有对比效果的图片搜索结果的方法和装置。
【背景技术】
目前的图片搜索引擎根据用户输入的关键词,查找图片周围文本中包含该关键词的图片作为搜索结果返回给用户,如果用户输入的关键词反映多个搜索需求,现有的图片搜索引擎将对此无法判断,其返回的结果很可能只反映其中的一个搜索需求,如果该搜索需求正好不符合用户的意图,则用户可能需要经过多次搜索,才能获得自己满意的图片。
请参考图1,图1是现有的图片搜索引擎用户搜索“东方不败”时的返回结果。假设用户在搜索“东方不败”时,由演员“陈乔恩”扮演的“东方不败”正处于电视台的热播阶段,则用户得到的图片搜索结果就很可能如图1所示,即用户在搜索结果中很可能只能得到“陈乔恩”扮演的“东方不败”这一种搜索需求的结果。但事实上用户搜索“东方不败”有可能想要演员“林青霞”扮演的结果,又或者用户搜索“东方不败”时,并不是想得到特定演员扮演的结果,而是希望分别得到不同演员扮演的结果。
【发明内容】
本发明所要解决的技术问题是提供一种获取具有对比效果的图片搜索结果的方法及装置,以解决现有的图片搜索引擎不能根据用户的搜索需求返回全面的搜索结果的问题。
本发明为解决技术问题而采用的技术方案是提供一种获取具有对比效果的图片搜索结果的方法,包括:利用预设的种子词从搜索日志中挖掘关键词模板,其中所述种子词包括种子中心词及种子限定词,所述种子中心词在相同类目下反映一个以上的搜索需求,所述种子限定词决定所述相同类目的范围;利用所述关键词模板从搜索日志中确定具有一个以上搜索需求的歧义词;确定所述歧义词相关联的需求词,其中一个相关联的需求词对应歧义词的一个搜索需求;当用户输入的关键词与所述歧义词匹配时,将匹配词相关联的各个需求词分别与匹配词组合为搜索词进行图片搜索,以获取匹配词相关联的各类图片搜索结果,并将各类图片搜索结果对比展示,其中一类图片搜索结果对应一个搜索需求。
根据本发明之一优选实施例,所述步骤A包括:从搜索日志中提取包含种子中心词及种子限定词的历史搜索词;将提取的历史搜索词中包含的种子中心词泛化为模板槽,以得到关键词模板。
根据本发明之一优选实施例,所述步骤B包括:针对搜索日志的历史搜索词中与模板槽匹配的中心词,根据该中心词匹配到的各个关键词模板的置信度之和确定该中心词的歧义分值,其中一个关键词模板的置信度等于该关键词模板的模板槽匹配的相异种子中心词个数与预设的种子中心词总数之比;将歧义分值超过预设第一阈值的中心词确定为具有一个以上搜索需求的歧义词。
根据本发明之一优选实施例,所述步骤C包括:以会话为单位对搜索日志进行切分;当切分得到的同一个会话中存在一个搜索动作包含歧义词,且另一搜索动作不仅包含该歧义词,还包括设定类别词时,将所述设定类别词作为该歧义词相关联的候选需求词;计算歧义词的候选需求词的需求热度,并将需求热度高于预设第二阈值的候选需求词作为最终的需求词。
根据本发明之一优选实施例,所述步骤D在对各类图片搜索结果对比展示时,根据匹配词相关联的需求词的需求热度,确定各类图片搜索结果的排列顺序。
本发明还提供了一种获取具有对比效果的图片搜索结果的装置,包括:模板挖掘单元,用于利用预设的种子词从搜索日志中挖掘关键词模板,其中所述种子词包括种子中心词及种子限定词,所述种子中心词在相同类目下反映一个以上的搜索需求,所述种子限定词决定所述相同类目的范围;歧义词挖掘单元,用于利用所述关键词模板从搜索日志中确定具有一个以上搜索需求的歧义词;需求词挖掘单元,用于确定所述歧义词相关联的需求词,其中一个相关联的需求词对应歧义词的一个搜索需求;展示单元,用于当用户输入的关键词与所述歧义词匹配时,将匹配词相关联的各个需求词分别与匹配词组合为搜索词进行图片搜索,以获取匹配词相关联的各类图片搜索结果,并将各类图片搜索结果对比展示,其中一类图片搜索结果对应一个搜索需求。
根据本发明之一优选实施例,所述模板挖掘单元包括:提取子单元,用于从搜索日志中提取包含种子中心词及种子限定词的历史搜索词;泛化子单元,用于将提取的历史搜索词中包含的种子中心词泛化为模板槽,以得到关键词模板。
根据本发明之一优选实施例,所述歧义词挖掘单元包括:计算子单元,用于针对搜索日志的历史搜索词中与模板槽匹配的中心词,根据该中心词匹配到的各个关键词模板的置信度之和确定该中心词的歧义分值,其中一个关键词模板的置信度等于该关键词模板的模板槽匹配的相异种子中心词个数与预设的种子中心词总数之比;歧义词确定子单元,用于将歧义分值超过预设第一阈值的中心词确定为具有一个以上搜索需求的歧义词。
根据本发明之一优选实施例,所述需求词挖掘单元包括:切分子单元,用于以会话为单位对搜索日志进行切分;候选需求词确定子单元,用于当切分得到的同一个会话中存在一个搜索动作包含歧义词,且另一搜索动作不仅包含该歧义词,还包括设定类别词时,将所述设定类别词作为该歧义词相关联的候选需求词;最终需求词确定子单元,用于计算歧义词的候选需求词的需求热度,并将需求热度高于预设第二阈值的候选需求词作为最终的需求词。
根据本发明之一优选实施例,所述展示单元在对各类图片搜索结果对比展示时,根据匹配词相关联的需求词的需求热度,确定各类图片搜索结果的排列顺序。
由以上技术方案可以看出,本发明首先通过搜索日志挖掘到关键词模板,然后通过关键词模板从搜索日志中挖掘歧义词,再通过歧义词确定相关联的需求词,从而能够准确确定用户的哪些搜索行为具有多个搜索需求,并在线上用户的搜索中,对具有多个搜索需求的图片搜索行为进行有针对性的反馈,产生对比效果的图片搜索结果,由于本发明能够根据用户的搜索需求返回全面的搜索结果,因此减少了用户搜索次数,提高了搜索效率。
【附图说明】
图1为现有的图片搜索结果返回结果的实施例的示意图;
图2为本发明中获取具有对比效果的图片搜索结果的方法的实施例的流程示意图;
图3为本发明中具有对比效果的图片搜索结果的一个实施例的示意图;
图4为本发明中具有对比效果的图片搜索结果的又一个实施例的示意图;
图5为本发明中获取具有对比效果的图片搜索结果的装置的实施例的结构示意框图;
图6为本发明中模板挖掘单元的实施例的结构示意框图;
图7为本发明中歧义词挖掘单元的实施例的结构示意框图;
图8为本发明中需求词挖掘单元的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图2,图2为本发明中获取具有对比效果的图片搜索结果的方法的实施例的流程示意图。如图2所示,本实施例包括线下实施部分和线上实施部分,其中线下实施部分包括步骤S1至步骤S3,线上实施部分为步骤S4。下面将对本实施例的线下实施部分和线上实施部分分别进行介绍。
具体地,步骤S1包括步骤S11和步骤S12。
步骤S11:从搜索日志中提取包含种子中心词及种子限定词的历史搜索词。
步骤S12:将提取的历史搜索词中包含的种子中心词泛化为模板槽,以得到关键词模板。
步骤S11中的种子词是预先由人工设定的,并且种子词可分为种子中心词及种子限定词。其中种子中心词在相同类目下反映一个以上的搜索需求,种子限定词决定了上述相同类目的范围。
例如,以挖掘影视类的关键词模板为例,种子中心词可以是“东方不败”、“任盈盈”、“令狐冲”、“韦小宝”、“段誉”等词条,这些词条在影视这一相同类目下可以反映多个搜索需求,每个搜索需求对应一个扮演者。种子限定词可以是“演员”、“扮演者”等词条,这些词条决定了上述相同类目的范围是影视,而不是其他。
利用上述种子中心词和种子限定词,步骤S11可以从搜索日志中提取历史搜索词,以种子中心词包括“东方不败”、“任盈盈”、“令狐冲”、“韦小宝”、“段誉”,种子限定词为“扮演者”为例,下面示意了从搜索日志中提取到的大量历史搜索词中的部分历史搜索词:
东方不败不同扮演者
新版任盈盈扮演者
东方不败扮演者剧照
历代令狐冲扮演者
韦小宝扮演者对比
历届韦小宝扮演者
历版段誉扮演者
根据上述提取的历史搜索词,在步骤S12中,将种子中心词泛化为模板槽,即可得到关键词模板。例如上述示意的部分历史搜索词可以泛化为下列关键词模板:
[角色名称]不同扮演者
新版[角色名称]扮演者
[角色名称]扮演者剧照
历代[角色名称]扮演者
[角色名称]扮演者对比
历届[角色名称]扮演者
历版[角色名称]扮演者
其中[角色名称]表示模板槽的类型,一个历史搜索词包含模板槽指示类型的词语,且其余部分和关键词模板除模板槽以外的部分相同,则这个历史搜索词就能够与该模板相匹配。
通过上述步骤S11和S12,能够从搜索日志中挖掘出大量的关键词模板,在步骤S2中将介绍如何利用这些模板确定歧义词。
具体地,步骤S2包括步骤S21和步骤S22。
步骤S21:针对搜索日志的历史搜索词中与模板槽匹配的中心词,根据该中心词匹配到的各个关键词模板的置信度之和确定该中心词的歧义分值。
步骤S22:将歧义分值超过预设第一阈值的中心词确定为具有一个以上搜索需求的歧义词。
步骤S21中,首先针对步骤S1挖掘得到的所有关键词模板,计算每个模板的置信度。具体地,可根据下列公式计算每个关键词模板的置信度:
关键词模板W的置信度=关键词模板W的模板槽匹配的相异种子中心词个数/预设的种子中心词总数。
例如预设的种子中心词总共包括“东方不败”、“任盈盈”、“令狐冲”、“韦小宝”、“段誉”,即5个词语,假设“[角色名称]不同扮演者”的模板槽“[角色名称]”在搜索日志中匹配到的相异种子中心词包括“东方不败”、“任盈盈”、“令狐冲”和“韦小宝”,也就是说搜索日志中存在“东方不败不同扮演者”、“任盈盈扮演者”、“令狐冲扮演者”和“韦小宝扮演者”这四个历史搜索词,即“[角色名称]”在搜索日志中匹配到的相异种子中心词个数为4,而预设的种子中心词总是为5,因此“[角色名称]不同扮演者”这个关键词模板的置信度就是4/5=0.8。
假设通过上述方式,前面例子中的关键词模板计算得到的置信度如表1所示:
表1
关键词模板 置信度
[角色名称]不同扮演者 0.8
新版[角色名称]扮演者 0.2
[角色名称]扮演者剧照 0.2
历代[角色名称]扮演者 0.4
[角色名称]扮演者对比 1.0
历届[角色名称]扮演者 0.6
历版[角色名称]扮演者 0.4
下面以搜索日志中的历史搜索词包含的中心词有“黄蓉”和“郭靖”为例,说明如何计算一个中心词的歧义分值。请参考表2:
表2
Figure BDA00003570955500081
从以上的例子中可以看出,中心词的歧义分值,就是包含该中心词的历史搜索词对应的关键词模板的置信度之和。例如搜索日志中有“黄蓉扮演者对比”、“黄蓉不同扮演者”和“历代黄蓉扮演者”这三个历史搜索词,其中心词均为“黄蓉”,这三个历史搜索词匹配的关键词模板就是中心词“黄蓉”匹配的关键词模板,由于这三个关键词模板的置信度分别是1.0、0.8和0.4,因此中心词“黄蓉”的歧义分值就是1.0+0.8+0.4=2.2。
通过步骤S21,能够从搜索日志中挖掘到大量的中心词,如果中心词的歧义分值太低,则意味着其具有多个搜索需求的可能性较小,因此在步骤S22中,可以通过预设第一阈值,将歧义分值太低的中心词过滤掉,剩下的中心词就是本实施例中挖掘到的歧义词。
歧义词表明该词语可以表达多个搜索需求,因此在步骤S3中,还需要进一步确定歧义词相关联的需求词,其中每个需求词对应了歧义词的一个搜索需求。
具体地,步骤S3包括:
步骤S31:以会话(session)为单位对搜索日志进行切分。
步骤S32:当切分得到的同一个会话中存在一个搜索动作包含歧义词,且另一搜索动作不仅包含该歧义词,还包括设定类别词时,将上述设定类别词作为该歧义词相关联的候选需求词。
步骤S33:计算歧义词的候选需求词的需求热度,并将需求热度高于预设第二阈值的候选需求词作为最终的需求词。
搜索日志中记录了每个用户每次搜索行为发生的时间、该次搜索行为使用的搜索词以及该次搜索行为对应的搜索动作(如翻页、主动修改)等信息。会话指的是同一用户在一定的时间间隔内发生的搜索行为的集合。作为一种方式,如果将一定的时间间隔限定为15分钟,则同一用户在15分钟内发生的搜索行为的集合就构成了一个会话。请参考表3,表3为一个会话的实施例的示意结构:
表3
时间 历史搜索词 搜索动作
01:15:01 东方不败
01:15:29 东方不败陈乔恩 主动修改
01:16:03 林青霞东方不败 相关推荐
经过步骤S31的处理,可以从搜索日志中得到若干个如表3所示的会话,在步骤S32中,以表3所示的会话为例,由于在一个搜索动作中包含歧义词“东方不败”,而另一个会话中既包含歧义词“东方不败”,又包含了“陈乔恩”这一设定类别(属于设定的“演员名称”类别)的词语,因此“陈乔恩”就可以作为歧义词“东方不败”相关联的一个候选需求词。可以理解,表3中的“林青霞”可以作为歧义词“东方不败”相关联的另一个候选需求词。以上设定类别,可以是人工设定的类别,也可以是通过机器学习的方法总结出来的类别,本发明对此并没有限制。
作为一种实施方式,在步骤S33中,可以通过计算每个候选需求词对应的会话数与该候选需求词相关联的歧义词对应的会话数之间的比值来衡量该候选需求词的需求热度。例如搜索日志中有30个会话包含“东方不败”这个歧义词,在这30个会话中,有16个会话包含候选需求词“陈乔恩”,则候选需求词“陈乔恩”的需求热度就是16/30=0.53。
通过上述方式,歧义词的每个候选需求词都可以求得需求热度,在本实施例的步骤S33中,还需要对需求热度过低的候选需求词进行过滤,也就是只有超过预设第二阈值的候选需求词才会被确定为与歧义词相关的最终需求词。请参考表4,表4为最终挖掘到的歧义词及相关联的需求词的一个实施例的示意。
表4
Figure BDA00003570955500101
以上对线下如何挖掘歧义词及各歧义词相关联的需求词的过程进行了完整的介绍,下面对线上利用歧义词及相关联的需求词获取图片搜索结果并进行对比展示的过程进行介绍。
在步骤S4中,首先会将用户输入的关键词与线下挖掘的歧义词进行比较,如果两者相匹配,则进一步确定进行图片搜索时使用的搜索词。例如用户输入的关键词为“东方不败”,由于线下挖掘到的歧义词包含“东方不败”,因此在步骤S4中,可以形成3个搜索词进行图片搜索,分别是“东方不败”与“陈乔恩”的组合、“东方不败”与“林青霞”的组合以及“东方不败”和“茅威涛”的组合,这样可以分别得到三类图片搜索结果,其中的每一类对应一个演员的搜索需求。在一个实施例中,步骤S4中将各类图片搜索结果对比展示时,依据匹配词相关联的需求词的需求热度确定各类图片搜索结果的排列顺序,其中需求词的需求热度越高,对应类别的图片搜索结果就排列越靠前。请参考图3,图3为本发明中具有对比效果的图片搜索结果的一个实施例的示意图。从图3中可以看出,与搜索需求对应的各类图片搜索结果的排列顺序是由需求词的需求热度确定的。
值得注意的是,步骤S4中的匹配策略可以自由设定,并非要求字面绝对匹配,例如用户输入的关键词为“东方不败的扮演者”也可以认为是与歧义词“东方不败”匹配的,此外,如果用户输入的关键词为“东方不败林青霞”,则在将各类图片搜索结果对比展示时,可以将用户输入的关键词中包含的需求词对应的图片搜索结果置顶,而其他的需求词对应的搜索结果仍可按照需求词的需求热度进行排列。请参考图4,图4为具有对比效果的图片搜索结果的又一个实施例的示意图。
请参考图5,图5为本发明中获取具有对比效果的图片搜索结果的装置的实施例的结构示意框图。
其中,模板挖掘单元201,用于利用预设的种子词从搜索日志中挖掘关键词模板,其中所述种子词包括种子中心词及种子限定词,所述种子中心词在相同类目下反映一个以上的搜索需求,所述种子限定词决定所述相同类目的范围。
歧义词挖掘单元202,用于利用所述关键词模板从搜索日志中确定具有一个以上搜索需求的歧义词。
需求词挖掘单元203,用于确定所述歧义词相关联的需求词,其中一个相关联的需求词对应歧义词的一个搜索需求。
展示单元204,用于当用户输入的关键词与所述歧义词匹配时,将匹配词相关联的各个需求词分别与匹配词组合为搜索词进行图片搜索,以获取匹配词相关联的各类图片搜索结果,并将各类图片搜索结果对比展示,其中一类图片搜索结果对应一个搜索需求。
请参考图6,图6为本发明中模板挖掘单元201的实施例的结构示意框图。
其中,提取子单元2011,用于从搜索日志中提取包含种子中心词及种子限定词的历史搜索词。
泛化子单元2012,用于将提取的历史搜索词中包含的种子中心词泛化为模板槽,以得到关键词模板。
请参考图7,图7为本发明中歧义词挖掘单元202的实施例的结构示意框图。
其中,计算子单元2021,用于针对搜索日志的历史搜索词中与模板槽匹配的中心词,根据该中心词匹配到的各个关键词模板的置信度之和确定该中心词的歧义分值,其中一个关键词模板的置信度等于该关键词模板的模板槽匹配的相异种子中心词个数与预设的种子中心词总数之比。
歧义词确定子单元2022,用于将歧义分值超过预设第一阈值的中心词确定为具有一个以上搜索需求的歧义词。
请参考图8,图8为本发明中需求词挖掘单元203的实施例的结构示意框图。
其中,切分子单元2031,用于以会话为单位对搜索日志进行切分。
候选需求词确定子单元2032,用于当切分得到的同一个会话中存在一个搜索动作包含歧义词,且另一搜索动作不仅包含该歧义词,还包括设定类别词时,将所述设定类别词作为该歧义词相关联的候选需求词。
最终需求词确定子单元2033,用于计算歧义词的候选需求词的需求热度,并将需求热度高于预设第二阈值的候选需求词作为最终的需求词。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种获取具有对比效果的图片搜索结果的方法,包括:
A.利用预设的种子词从搜索日志中挖掘关键词模板,其中所述种子词包括种子中心词及种子限定词,所述种子中心词在相同类目下反映一个以上的搜索需求,所述种子限定词决定所述相同类目的范围;
B.利用所述关键词模板从搜索日志中确定具有一个以上搜索需求的歧义词;
C.确定所述歧义词相关联的需求词,其中一个相关联的需求词对应歧义词的一个搜索需求;
D.当用户输入的关键词与所述歧义词匹配时,将匹配词相关联的各个需求词分别与匹配词组合为搜索词进行图片搜索,以获取匹配词相关联的各类图片搜索结果,并将各类图片搜索结果对比展示,其中一类图片搜索结果对应一个搜索需求。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括:
从搜索日志中提取包含种子中心词及种子限定词的历史搜索词;
将提取的历史搜索词中包含的种子中心词泛化为模板槽,以得到关键词模板。
3.根据权利要求2所述的方法,其特征在于,所述步骤B包括:
针对搜索日志的历史搜索词中与模板槽匹配的中心词,根据该中心词匹配到的各个关键词模板的置信度之和确定该中心词的歧义分值,其中一个关键词模板的置信度等于该关键词模板的模板槽匹配的相异种子中心词个数与预设的种子中心词总数之比;
将歧义分值超过预设第一阈值的中心词确定为具有一个以上搜索需求的歧义词。
4.根据权利要求1所述的方法,其特征在于,所述步骤C包括:
以会话为单位对搜索日志进行切分;
当切分得到的同一个会话中存在一个搜索动作包含歧义词,且另一搜索动作不仅包含该歧义词,还包括设定类别词时,将所述设定类别词作为该歧义词相关联的候选需求词;
计算歧义词的候选需求词的需求热度,并将需求热度高于预设第二阈值的候选需求词作为最终的需求词。
5.根据权利要求4所述的方法,其特征在于,所述步骤D在对各类图片搜索结果对比展示时,根据匹配词相关联的需求词的需求热度,确定各类图片搜索结果的排列顺序。
6.一种获取具有对比效果的图片搜索结果的装置,包括:
模板挖掘单元,用于利用预设的种子词从搜索日志中挖掘关键词模板,其中所述种子词包括种子中心词及种子限定词,所述种子中心词在相同类目下反映一个以上的搜索需求,所述种子限定词决定所述相同类目的范围;
歧义词挖掘单元,用于利用所述关键词模板从搜索日志中确定具有一个以上搜索需求的歧义词;
需求词挖掘单元,用于确定所述歧义词相关联的需求词,其中一个相关联的需求词对应歧义词的一个搜索需求;
展示单元,用于当用户输入的关键词与所述歧义词匹配时,将匹配词相关联的各个需求词分别与匹配词组合为搜索词进行图片搜索,以获取匹配词相关联的各类图片搜索结果,并将各类图片搜索结果对比展示,其中一类图片搜索结果对应一个搜索需求。
7.根据权利要求6所述的装置,其特征在于,所述模板挖掘单元包括:
提取子单元,用于从搜索日志中提取包含种子中心词及种子限定词的历史搜索词;
泛化子单元,用于将提取的历史搜索词中包含的种子中心词泛化为模板槽,以得到关键词模板。
8.根据权利要求7所述的装置,其特征在于,所述歧义词挖掘单元包括:
计算子单元,用于针对搜索日志的历史搜索词中与模板槽匹配的中心词,根据该中心词匹配到的各个关键词模板的置信度之和确定该中心词的歧义分值,其中一个关键词模板的置信度等于该关键词模板的模板槽匹配的相异种子中心词个数与预设的种子中心词总数之比;
歧义词确定子单元,用于将歧义分值超过预设第一阈值的中心词确定为具有一个以上搜索需求的歧义词。
9.根据权利要求6所述的装置,其特征在于,所述需求词挖掘单元包括:
切分子单元,用于以会话为单位对搜索日志进行切分;
候选需求词确定子单元,用于当切分得到的同一个会话中存在一个搜索动作包含歧义词,且另一搜索动作不仅包含该歧义词,还包括设定类别词时,将所述设定类别词作为该歧义词相关联的候选需求词;
最终需求词确定子单元,用于计算歧义词的候选需求词的需求热度,并将需求热度高于预设第二阈值的候选需求词作为最终的需求词。
10.根据权利要求9所述的装置,其特征在于,所述展示单元在对各类图片搜索结果对比展示时,根据匹配词相关联的需求词的需求热度,确定各类图片搜索结果的排列顺序。
CN201310319339.3A 2013-07-26 2013-07-26 一种获取具有对比效果的图片搜索结果的方法及装置 Active CN103455550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310319339.3A CN103455550B (zh) 2013-07-26 2013-07-26 一种获取具有对比效果的图片搜索结果的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310319339.3A CN103455550B (zh) 2013-07-26 2013-07-26 一种获取具有对比效果的图片搜索结果的方法及装置

Publications (2)

Publication Number Publication Date
CN103455550A true CN103455550A (zh) 2013-12-18
CN103455550B CN103455550B (zh) 2017-06-06

Family

ID=49737913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310319339.3A Active CN103455550B (zh) 2013-07-26 2013-07-26 一种获取具有对比效果的图片搜索结果的方法及装置

Country Status (1)

Country Link
CN (1) CN103455550B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077415A (zh) * 2014-07-16 2014-10-01 百度在线网络技术(北京)有限公司 搜索方法及装置
CN104199990A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 搜索结果项置顶数的获取方法及系统、搜索服务器
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置
CN106547808A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 图片更新方法、类目排序方法及装置
CN107967634A (zh) * 2016-10-19 2018-04-27 阿里巴巴集团控股有限公司 一种信息推荐方法及装置
CN108197284A (zh) * 2018-01-12 2018-06-22 北京百度网讯科技有限公司 搜索处理方法及装置
CN108881945A (zh) * 2018-07-11 2018-11-23 深圳创维数字技术有限公司 消除关键词歧义的方法、电视及可读存储介质
CN113255694A (zh) * 2021-05-21 2021-08-13 北京百度网讯科技有限公司 训练图像特征提取模型和提取图像特征的方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271476A (zh) * 2008-04-25 2008-09-24 清华大学 网络图像搜索中基于聚类的相关反馈检索方法
CN101984420A (zh) * 2010-09-03 2011-03-09 百度在线网络技术(北京)有限公司 一种基于拆词处理进行图片搜索的方法与设备
US8429173B1 (en) * 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271476A (zh) * 2008-04-25 2008-09-24 清华大学 网络图像搜索中基于聚类的相关反馈检索方法
US8429173B1 (en) * 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query
CN101984420A (zh) * 2010-09-03 2011-03-09 百度在线网络技术(北京)有限公司 一种基于拆词处理进行图片搜索的方法与设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077415A (zh) * 2014-07-16 2014-10-01 百度在线网络技术(北京)有限公司 搜索方法及装置
CN104077415B (zh) * 2014-07-16 2018-05-04 百度在线网络技术(北京)有限公司 搜索方法及装置
CN104199990A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 搜索结果项置顶数的获取方法及系统、搜索服务器
CN104199990B (zh) * 2014-09-28 2018-09-04 北京奇虎科技有限公司 搜索结果项置顶数的获取方法及系统、搜索服务器
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置
CN106547808A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 图片更新方法、类目排序方法及装置
CN107967634A (zh) * 2016-10-19 2018-04-27 阿里巴巴集团控股有限公司 一种信息推荐方法及装置
CN108197284A (zh) * 2018-01-12 2018-06-22 北京百度网讯科技有限公司 搜索处理方法及装置
CN108197284B (zh) * 2018-01-12 2022-01-25 北京百度网讯科技有限公司 搜索处理方法及装置
CN108881945A (zh) * 2018-07-11 2018-11-23 深圳创维数字技术有限公司 消除关键词歧义的方法、电视及可读存储介质
CN108881945B (zh) * 2018-07-11 2020-09-22 深圳创维数字技术有限公司 消除关键词歧义的方法、电视及可读存储介质
CN113255694A (zh) * 2021-05-21 2021-08-13 北京百度网讯科技有限公司 训练图像特征提取模型和提取图像特征的方法、装置

Also Published As

Publication number Publication date
CN103455550B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN103455550A (zh) 一种获取具有对比效果的图片搜索结果的方法及装置
US10575037B2 (en) Video recommending method, server, and storage media
CN102073729B (zh) 一种关系化知识共享平台及其实现方法
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN107273537A (zh) 一种搜索词推荐方法、机顶盒和存储介质
WO2018054199A1 (zh) 文件评估方法和装置
CN107748745B (zh) 一种企业名称关键字提取方法
Rudinac et al. Learning crowdsourced user preferences for visual summarization of image collections
CN103500172A (zh) 一种图片搜索系统
CN105956206A (zh) 一种基于关键词树的视频检索方法及系统
CN104809117A (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
US20140379719A1 (en) System and method for tagging and searching documents
CN103324760A (zh) 使用解说词文档自动生成营养健康教育视频的方法及系统
CN110753269B (zh) 视频摘要生成方法、智能终端及存储介质
CN103064903A (zh) 图片检索方法和装置
CN102298585A (zh) 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102737042A (zh) 建立问句生成模型的方法和装置以及问句生成方法和装置
CN110609889B (zh) 基于学术网络确定对象重要性排名及选择评审专家的方法和系统
CN109308315A (zh) 一种基于专家领域相似度与关联关系的协同推荐方法
CN104268279A (zh) 语料数据的查询方法和装置
CN102750282A (zh) 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
CN103593356A (zh) 基于多媒体信息指纹技术的信息搜索方法、系统和应用
CN103839270A (zh) 一种图像匹配方法及装置
CN109472282A (zh) 一种基于极少训练样本的深度图像哈希方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant