CN103279504A - 一种基于歧义消解的搜索方法及装置 - Google Patents

一种基于歧义消解的搜索方法及装置 Download PDF

Info

Publication number
CN103279504A
CN103279504A CN2013101709006A CN201310170900A CN103279504A CN 103279504 A CN103279504 A CN 103279504A CN 2013101709006 A CN2013101709006 A CN 2013101709006A CN 201310170900 A CN201310170900 A CN 201310170900A CN 103279504 A CN103279504 A CN 103279504A
Authority
CN
China
Prior art keywords
senses
dictionary entry
session
word
ambiguity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101709006A
Other languages
English (en)
Other versions
CN103279504B (zh
Inventor
黄际洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310170900.6A priority Critical patent/CN103279504B/zh
Publication of CN103279504A publication Critical patent/CN103279504A/zh
Application granted granted Critical
Publication of CN103279504B publication Critical patent/CN103279504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于歧义消解的搜索方法及装置,其中所述方法包括:A.预先从搜索日志中提取歧义词以及所述歧义词对应的义项;B.获取用户输入的搜索词;C.判断所述搜索词与所述步骤A中提取的歧义词是否匹配,如果是,则在向所述用户返回搜索结果时根据所述搜索词对应的义项对所述搜索结果进行展示。通过上述方式,本发明能够提高搜索效率。

Description

一种基于歧义消解的搜索方法及装置
【技术领域】
本发明涉及搜索技术,特别涉及一种基于歧义消解的搜索方法及装置。
【背景技术】
在现有的搜索引擎中,没有考虑如何满足搜索词存在歧义的搜索请求的问题。以图片搜索引擎为例,在搜索引擎获取到用户的搜索词后,只会向用户返回与该搜索词关联度最大的图片,如果该搜索词存在歧义,则用户为了找到自己需要的图片,要么需要在众多图片中进行辨识,要么需要重新对搜索词进行限定。
从上述介绍中可以看出,现有技术对用户一方和搜索引擎服务器一方均存在缺陷。对用户而言,由于难以快速满足自己的需求,搜索的效率较低,对搜索引擎服务器而言,由于需要多次响应用户请求,服务器负担也较大。
【发明内容】
本发明所要解决的技术问题是提供一种基于歧义消解的搜索方法及装置,以提高搜索效率,降低服务器负担。
本发明为解决技术问题而采用的技术方案是提供一种基于歧义消解的搜索方法,包括:A.预先从搜索日志中提取歧义词以及所述歧义词对应的义项;B.获取用户输入的搜索词;C.判断所述搜索词与所述步骤A中提取的歧义词是否匹配,如果是,则在向所述用户返回搜索结果时根据所述搜索词对应的义项对所述搜索结果进行展示。
根据本发明之一优选实施例,所述方法在所述步骤B前进一步包括:D.计算所述歧义词对应的各义项的需求热度;并且所述步骤C中,在向所述用户返回搜索结果时根据所述搜索词对应的义项及各义项的需求热度对所述搜索结果进行展示。
根据本发明之一优选实施例,所述步骤A包括:A1.以会话为单位对搜索日志进行切分;A2.按照预设的提取规则,从切分得到的各会话中提取歧义词以及所述歧义词对应的候选义项;A3.按照预设的归一化策略,对所述歧义词对应的候选义项进行归一化处理。
根据本发明之一优选实施例,所述步骤D包括:D1.计算归一化处理后各义项对应的会话占比和点击占比,其中所述会话占比是指一个义项对应的会话数以及该义项所属歧义词对应的会话数之间的比值,所述点击占比是指所述搜索日志中,由一个义项所属歧义词引起的点击页面里与该义项之间具有关联关系的点击页面被点击的次数,以及由该义项所属歧义词引起的点击页面被点击的次数之间的比值;D2.根据下列公式计算各义项的需求热度:
Totle_Score=λ1*Session_Score+λ2*CT_Score,其中Totle_Score表示一个义项的需求热度,Session_Score表示该义项的会话占比,CT_Score表示该义项的点击占比,λ1和λ2分别表示该义项的会话占比和点击占比对应权重。
根据本发明之一优选实施例,所述步骤C中在对所述搜索结果进行展示时,将所述搜索词对应的义项按照需求热度从高至低排列,以作为所述搜索结果的引导词;或者,将所述搜索结果按照所述搜索词对应的义项进行分类,并按照各义项的需求热度从高到低对各类搜索结果进行排列。
本发明还提供了一种基于歧义消解的搜索装置,包括:提取单元,用于预先从搜索日志中提取歧义词以及所述歧义词对应的义项;接收单元,用于获取用户输入的搜索词;展示单元,用于判断所述搜索词与所述提取单元提取的歧义词是否匹配,如果是,则在向所述用户返回搜索结果时根据所述搜索词对应的义项对所述搜索结果进行展示。
根据本发明之一优选实施例,所述装置进一步包括热度计算单元,用于计算所述歧义词对应的各义项的需求热度;并且所述展示单元在向所述用户返回搜索结果时根据所述搜索词对应的义项及各义项的需求热度对所述搜索结果进行展示。
根据本发明之一优选实施例,所述提取单元包括:切分子单元,用于以会话为单位对搜索日志进行切分;提取子单元,用于按照预设的提取规则,从切分得到的各会话中提取歧义词以及所述歧义词对应的候选义项;合并子单元,用于按照预设的归一化策略,对所述歧义词对应的候选义项进行归一化处理。
根据本发明之一优选实施例,所述热度计算单元包括:占比计算子单元,用于计算归一化处理后各义项对应的会话占比和点击占比,其中所述会话占比是指一个义项对应的会话数以及该义项所属歧义词对应的会话数之间的比值,所述点击占比是指所述搜索日志中,由一个义项所属歧义词引起的点击页面里与该义项之间具有关联关系的点击页面被点击的次数,以及由该义项所属歧义词引起的点击页面被点击的次数之间的比值;热度计算子单元,用于根据下列公式计算各义项的需求热度:Totle_Score=λ1*Session_Score+λ2*CT_Score,其中Totle_Score表示一个义项的需求热度,Session_Score表示该义项的会话占比,CT_Score表示该义项的点击占比,λ1和λ2分别表示该义项的会话占比和点击占比对应权重。
根据本发明之一优选实施例,所述展示单元在对所述搜索结果进行展示时,将所述搜索词对应的义项按照需求热度从高至低排列,以作为所述搜索结果的引导词;或者,将所述搜索结果按照所述搜索词对应的义项进行分类,并按照各义项的需求热度从高到低对各类搜索结果进行排列。
由以上技术方案可以看出,由于本发明预先通过对搜索日志进行处理,从搜索日志中提取到歧义词以及歧义词对应的义项,因此,能够在用户的搜索过程中对用户搜索词进行有针对性的反馈,从而提高了用户的搜索效率,降低了服务器负担。值得注意的是,本发明提取歧义词以及歧义词对应义项的过程是根据搜索日志中的信息自动实现的,由于搜索日志中的信息能够反映随时间变化而产生的词语的语义变化,因此,本发明中提取的歧义词及其义项更具时效性,与人工制定的歧义词表相比,本发明对歧义词搜索的满足度更高。
【附图说明】
图1为本发明中基于歧义消解的搜索方法的实施例一的流程示意图;
图2为本发明中对搜索结果进行展示的一个实施例的示意图;
图3为本发明中对搜索结果进行展示的另一个实施例的示意图;
图4为本发明中基于歧义消解的搜索方法的实施例二的流程示意图;
图5为本发明中基于歧义消解的搜索装置的实施例一的结构示意框图;
图6为本发明中提取单元201的一个实施例的结构示意框图;
图7为本发明中基于歧义消解的搜索装置的实施例二的结构示意框图;
图8为本发明中热度计算单元204的一个实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的方法,可用于垂直搜索领域,如图片搜索、视频搜索等,也可以用于通用搜索领域,为了方便说明,下面的实施例均以图片搜索为例进行介绍。
请参考图1,图1为本发明中基于歧义消解的搜索方法的实施例一的流程示意图。图1所示的S11是预先在线下实施的步骤,S12和S13则是在线上实施的步骤。需要指出的是,线上实施是指实施过程具有与用户行为相交互的特点,即该过程是对用户行为进行即时反馈的过程,而线下实施过程则因为不需要与用户行为相交互,可在线上实施过程之前的任意时刻实施。
在本实施例中,步骤S11包括步骤S111、S112和S113。
其中步骤S111:以会话(session)为单位对搜索日志进行切分。
搜索日志是记录大量用户在线上搜索时发生的搜索行为的文件,在搜索日志中,记录了每个用户每次搜索行为发生的时间、该次搜索行为使用的搜索词以及该次搜索行为对应的搜索动作(如翻页、主动修改)等信息。会话指的是同一用户在一定的时间间隔内发生的搜索行为的集合。作为一种方式,如果将一定的时间间隔限定为15分钟,则同一用户在15分钟内发生的搜索行为的集合就构成了一个会话。请参考表1,表1为一个会话的实施例的示意结构:
表1
时间 搜索词 搜索动作
13:54:08 三叶草
13:54:19 三叶草紫色植物 主动修改
按照上述会话的定义,搜索日志可以被切分为若干数量的会话,利用这些会话,可以在步骤S112中提取到歧义词及其对应的候选义项。
步骤S112:按照预设的提取规则,从切分得到的各会话中提取歧义词及其对应的候选义项。
上述提取规则,可以是人工对搜索日志进行分析后总结的规则,也可以是通过机器学习方法自动得到的规则,本发明对此不进行限定。下面提供一种提取规则,以方便理解步骤S112的实施过程。
该提取规则为:将同时满足下列条件一和条件二的会话中的在先搜索词作为歧义词,在后搜索词作为该歧义词对应的候选义项。
条件一:同一会话中的在先搜索词为名词,且在后搜索词由该名词和另一名词短语构成。
条件二:同一会话中的在后搜索词与在先搜索词之间的时间间隔不超过45秒,且在后搜索词对应的搜索动作为主动修改。
通过统计数据证实,由条件一和条件二共同限定的提取规则效果最优,能够有效提高获取到的歧义词及其对应候选义项的准确率。
下面通过具体会话实例对步骤S112的提取过程进行说明。假设搜索日志经切分后有10个会话,分别用表2至表11表示:
表2
时间 query 搜索动作
09:00:43 三叶草
09:01:01 阿迪达斯三叶草 主动修改
表3
时间 query 搜索动作
10:20:05 三叶草
10:20:41 三叶草adidas 主动修改
表4
时间 query 搜索动作
13:44:53 三叶草
13:44:59 韩剧三叶草 主动修改
表5
时间 query 搜索动作
17:59:54 三叶草
17:59:59 三叶草日剧 主动修改
表6
时间 query 搜索动作
21:04:10 三叶草
21:04:29 韩剧三叶草 主动修改
表7
时间 query 搜索动作
12:16:23 三叶草
12:16:45 三叶草植物 主动修改
表8
时间 query 搜索动作
18:59:20 三叶草
18:59:32 三叶草漫画 主动修改
表9
时间 query 搜索动作
10:59:28 三叶草
11:00:14 草药三叶草 主动修改
表10
时间 query 搜索动作
15:58:58 三叶草
16:00:13 植物三叶草 主动修改
表11
时间 query 搜索动作
13:54:08 三叶草
13:54:19 三叶草紫色植物 主动修改
按照上述提取规则,可以从表2至表11所示的会话实施例中提取到歧义词“三叶草”,并且其对应的候选义项有“阿迪达斯”、“adidas”、“韩剧”、“日剧”、“植物”、“漫画”、“草药”、“紫色植物”。
在步骤S112得到候选义项之后,执行步骤S113就能够得到歧义词对应的义项。
步骤S113:按照预设的归一化策略,对歧义词对应的候选义项进行归一化处理。
步骤S113中可采用的归一化策略至少包括但不限于以下任意一种:
策略一:将语义上有上下位关系的义项合并到上位,例如“草药”的上位是“植物”,草药就被合并至“植物”。
策略二:将合成的名词短语,合并到被其包含的名词上,例如“紫色植物”被合并到“植物”。
策略三:将具有相同含义的义项合并,例如将“adidas”合并到“阿迪达斯”。
经过归一化处理后,可以得到歧义词“三叶草”对应的义项有“阿迪达斯”、“韩剧”、“日剧”、“植物”、“漫画”。
根据上述介绍可以理解,步骤S11在线下可以提取大量的歧义词以及其对应的义项,这些歧义词及其义项是确定在线上对用户搜索结果如何进行展示的依据。
具体地,假设步骤S12中获取到用户输入的搜索词为“三叶草”,则在步骤S13中,由于该搜索词与步骤S11得到的歧义词“三叶草”相匹配,因此在步骤S13中将依据搜索词“三叶草”对应的义项对搜索结果进行展示。
在一个实施例中,步骤S13中根据搜索词对应的义项对搜索结果进行展示的具体方式为:将搜索词对应的义项作为搜索结果的引导词。请参考图2,图2为本发明中对搜索结果进行展示的一个实施例的示意图。在图2所示的实施例中,“阿迪达斯”、“韩剧”、“日剧”等义项成为了搜索结果的引导词。在另一个实施例中,步骤S13中根据搜索词对应的义项对搜索结果进行展示的具体方式为:将搜索结果按照搜索词对应的义项进行分类展示。其中,将搜索结果按照搜索词对应的义项进行分类可以有多种方式,例如,计算各义项在搜索结果对应页面中的出现率,出现率最高的义项就是该搜索结果对应类别。又或者计算搜索结果对应页面与各义项的语义相似度,相似度最高的义项就是该搜索结果对应类别。请参考图3,图3为本发明中对搜索结果进行展示的另一个实施例的示意图。在图3所示的实施例中,搜索结果是分类展示的,用户可以直接选取自己需要的结果而不需要再点击引导词。
对有若干个义项的歧义词,其每个义项对应的需求热度并不一定相同。以“三叶草”为例,有可能大多数用户搜索该词语时,都是想了解与韩剧三叶草相关的信息,而很少有用户对植物三叶草感兴趣。因此,在本发明方法的另一个实施例中,还进一步对歧义词各义项的需求热度进行了计算,以更好地满足绝大多数用户的需要,提高搜索效率。
请参考图4,图4为本发明中基于歧义消解的搜索方法的实施例二的流程示意图。本实施例中步骤S21与实施例一中的步骤S11是类似的,但是为了在线上过程中更好地对搜索结果进行展示,本实施例在线下实施过程中进一步包括了步骤S22。通过步骤S22可以得到歧义词的各义项的需求热度。
在一个实施例中,步骤S22具体包括步骤S221和步骤S222:
步骤S221:计算归一化处理后各义项对应的会话占比和点击占比,其中会话占比是一个义项对应的会话数以及该义项所属歧义词对应的会话数之间的比值,所述点击占比是指所述搜索日志中,由一个义项所属歧义词引起的点击页面里与该义项之间具有关联关系的点击页面被点击的次数,以及由该义项所属歧义词引起的点击页面被点击的次数之间的比值。
例如通过表2至表11,可以计算“三叶草”的各义项对应的会话占比如表12所示:
表12
Figure BDA00003172116200091
为了说明如何计算点击占比,假设搜索日志中记录的由歧义词“三叶草”引起的点击页面如表13所示,其中由歧义词“三叶草”引起的点击页面是指用户在以“三叶草”为搜索词进行搜索后点击了的搜索结果页面。
表13
Figure BDA00003172116200101
由表13可以看出,歧义词“三叶草”引起的点击页面有页面A至页面F,因此“三叶草”引起的点击页面被点击的次数就是页面A至页面F被点击的次数之和,即等于50。而点击页面与一个义项之间是否具有关联关系,可以通过计算该点击页面与这个义项之间的语义相似度来确定,与该点击页面的语义相似度最高的义项可认为与该点击页面之间具有关联关系。此外也可以通过计算各义项在点击页面中的出现次数来确定点击页面与各义项之间的关联关系,例如一个义项在一个点击页面中出现次数最多,则该义项与该点击页面具有关联关系。
表13所示的点击页面在确定关联的义项后如表14所示:
表14
对于无法确定关联义项的点击页面可以抛弃不参与后续计算,因此对表14的数据进行整理后,可以得到表15所示的各义项的点击占比:
表15
歧义词“三叶草”的各义项 点击占比
植物 0.2
阿迪达斯 0.6
韩剧 0.1
漫画 0.06
在步骤S222中,将根据下列公式对各义项的需求热度进行计算:Totle_Score=λ1*Session_Score+λ2*CT_Score,其中Totle_Score表示一个义项的需求热度,Session_Score表示该义项的会话占比,CT_Score表示该义项的点击占比,λ1和λ2分别表示该义项的会话占比和点击占比对应权重。
λ1和λ2通过样本训练得到,可以采用梯度下降等方法,训练过程就是连续迭代,不停调整λ1和λ2的值,以达到在标准训练集合上,目标函数效果最优。假设最终的λ1=1,λ2=3,则歧义词“三叶草”的各义项的需求热度如表16所示:
表16
义项 Session_Score CT_Score Totle_Score
阿迪达斯 0.2 0.6 2.0
植物 0.4 0.2 1.0
韩剧 0.2 0.1 0.5
漫画 0.1 0.06 0.28
日剧 0.1 0 0.1
以上对本实施例中步骤S22如何计算各义项的需求热度的方式进行了介绍。值得注意的是,本实施例中线下实施的步骤S21和S22也可以以一定的时间间隔重复实施。因为词语的含义有可能随着时间变化而发生改变,原来没有歧义的词语后来可能出现了歧义,这在搜索日志中可以体现出来。以一定的时间间隔重复实施步骤S21和S22,就能够及时发现那些新出现的歧义词并将之提取出来。优选地,可以制定重复实施的时间间隔为一天。
由于本实施例在线下实施的步骤中获知了各义项的需求热度,因此在线上实施的步骤S24中对搜索结果进行展示时,可以将搜索词对应的义项按照需求热度从高至低排列,以作为搜索结果的引导词。请参考图2,图2中义项“阿迪达斯”、“韩剧”、“漫画”、“日剧”就是按照需求热度从高到低排列的。又或者,在步骤S24中对搜索结果进行展示时,可以将搜索结果按照搜索词对应的义项进行分类,并按照各义项的需求热度从高到低对各类搜索结果进行排列。请参考图3,图3中搜索结果不仅按照搜索词对应的义项进行了分类,并且各类别出现的顺序与该类别对应义项的需求热度是对应的,义项的需求热度越高,则该义项对应类别的搜索结果排在越前,这样能够更好地满足大多数用户的需求,减少点击次数,提高搜索效率。
请参考图5,图5为本发明中基于歧义消解的搜索装置的实施例一的结构示意框图。
其中提取单元201,用于预先从搜索日志中提取歧义词以及歧义词对应的义项。
接收单元202,用于获取用户输入的搜索词。
展示单元203,用于判断所述搜索词与所述提取单元提取的歧义词是否匹配,如果是,则在向所述用户返回搜索结果时根据所述搜索词对应的义项对所述搜索结果进行展示。
请参考图6,图6为本发明中提取单元201的一个实施例的结构示意框图。
其中,切分子单元2011,用于以会话为单位对搜索日志进行切分。搜索日志是记录大量用户在线上搜索时发生的搜索行为的文件,在搜索日志中,记录了每个用户每次搜索行为发生的时间、该次搜索行为使用的搜索词以及该次搜索行为对应的搜索动作(如翻页、主动修改)等信息。会话指的是同一用户在一定的时间间隔内发生的搜索行为的集合。作为一种方式,如果将一定的时间间隔限定为15分钟,则同一用户在15分钟内发生的搜索行为的集合就构成了一个会话。
按照上述会话的定义,切分单元2011可以将搜索日志切分为若干数量的会话,利用这些会话,提取子单元2012就可以提取到歧义词及其对应的候选义项。
提取子单元2012,用于按照预设的提取规则,从切分得到的各会话中提取歧义词及其候选义项。上述提取规则,可以是人工对搜索日志进行分析后总结的规则,也可以是通过机器方法自动学习得到的规则,本发明对此不进行限定。优选的,提取规则为将同时满足下列条件一和条件二的会话中的在先搜索词作为歧义词,在后搜索词作为该歧义词对应的候选义项。
条件一:同一会话中的在先搜索词为名词,且在后搜索词由该名词和另一名词短语构成。
条件二:同一会话中的在后搜索词与在先搜索词之间的时间间隔不超过45秒,且在后搜索词对应的搜索动作为主动修改。
合并子单元2013,用于按照预设的归一化策略,对歧义词对应的候选义项进行归一化处理。具体地,归一化策略至少包括但不限于以下任意一种:
策略一:将语义上有上下位关系的义项合并到上位。
策略二:将合成的名词短语,合并到被其包含的名词上。
策略三:将具有相同含义的义项合并。
请继续参考图5。图5所示的展示单元203在对搜索结果进行展示时,一种方式为将搜索词对应的义项作为搜索结果的引导词。展示单元203在对搜索结果进行展示时,另一种方式是将搜索结果按照搜索词对应的义项进行分类展示。
请参考图7,图7为本发明中基于歧义消解的搜索装置的实施例二的结构示意框图。与图5所示的实施例相比,本实施例进一步包括热度计算单元204,用于计算歧义词对应的各义项的需求热度。
请参考图8,图8为本发明中热度计算单元204的一个实施例的结构示意框图。其中,占比计算子单元2041,用于计算归一化处理后各义项对应的会话占比和点击占比,其中所述会话占比是指一个义项对应的会话数以及该义项所属歧义词对应的会话数之间的比值,所述点击占比是指所述搜索日志中,由一个义项所属歧义词引起的点击页面里与该义项之间具有关联关系的点击页面被点击的次数,以及由该义项所属歧义词引起的点击页面被点击的次数之间的比值。热度计算子单元2042,用于根据下列公式计算各义项的需求热度:
Totle_Score=λ1*Session_Score+λ2*CT_Score,其中Totle_Score表示一个义项的需求热度,Session_Score表示该义项的会话占比,CT_Score表示该义项的点击占比,λ1和λ2分别表示该义项的会话占比和点击占比对应权重。
在图8所示的实施例中,展示单元203在对搜索结果进行展示时,一种方式是将搜索词对应的义项按照需求热度从高至低排列,以作为搜索结果的引导词。展示单元203在对搜索结果进行展示时,另一种方式是将搜索结果按照搜索词对应的义项进行分类,并按照各义项的需求热度从高到低对各类搜索结果进行排列。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种基于歧义消解的搜索方法,包括:
A.预先从搜索日志中提取歧义词以及所述歧义词对应的义项;
B.获取用户输入的搜索词;
C.判断所述搜索词与所述步骤A中提取的歧义词是否匹配,如果是,则在向所述用户返回搜索结果时根据所述搜索词对应的义项对所述搜索结果进行展示。
2.根据权利要求1所述的方法,其特征在于,所述方法在所述步骤B前进一步包括:
D.计算所述歧义词对应的各义项的需求热度;并且
所述步骤C中,在向所述用户返回搜索结果时根据所述搜索词对应的义项及各义项的需求热度对所述搜索结果进行展示。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤A包括:
A1.以会话为单位对搜索日志进行切分;
A2.按照预设的提取规则,从切分得到的各会话中提取歧义词以及所述歧义词对应的候选义项;
A3.按照预设的归一化策略,对所述歧义词对应的候选义项进行归一化处理。
4.根据权利要求3所述的方法,其特征在于,所述步骤D包括:
D1.计算归一化处理后各义项对应的会话占比和点击占比,其中所述会话占比是指一个义项对应的会话数以及该义项所属歧义词对应的会话数之间的比值,所述点击占比是指所述搜索日志中,由一个义项所属歧义词引起的点击页面里与该义项之间具有关联关系的点击页面被点击的次数,以及由该义项所属歧义词引起的点击页面被点击的次数之间的比值;
D2.根据下列公式计算各义项的需求热度:
Totle_Score=λ1*Session_Score+λ2*CT_Score,其中Totle_Score表示一个义项的需求热度,Session_Score表示该义项的会话占比,CT_Score表示该义项的点击占比,λ1和λ2分别表示该义项的会话占比和点击占比对应权重。
5.根据权利要求4所述的方法,其特征在于,所述步骤C中在对所述搜索结果进行展示时,将所述搜索词对应的义项按照需求热度从高至低排列,以作为所述搜索结果的引导词;或者,将所述搜索结果按照所述搜索词对应的义项进行分类,并按照各义项的需求热度从高到低对各类搜索结果进行排列。
6.一种基于歧义消解的搜索装置,包括:
提取单元,用于预先从搜索日志中提取歧义词以及所述歧义词对应的义项;
接收单元,用于获取用户输入的搜索词;
展示单元,用于判断所述搜索词与所述提取单元提取的歧义词是否匹配,如果是,则在向所述用户返回搜索结果时根据所述搜索词对应的义项对所述搜索结果进行展示。
7.根据权利要求6所述的装置,其特征在于,所述装置进一步包括热度计算单元,用于计算所述歧义词对应的各义项的需求热度;并且所述展示单元在向所述用户返回搜索结果时根据所述搜索词对应的义项及各义项的需求热度对所述搜索结果进行展示。
8.根据权利要求6或7所述的装置,其特征在于,所述提取单元包括:
切分子单元,用于以会话为单位对搜索日志进行切分;
提取子单元,用于按照预设的提取规则,从切分得到的各会话中提取歧义词以及所述歧义词对应的候选义项;
合并子单元,用于按照预设的归一化策略,对所述歧义词对应的候选义项进行归一化处理。
9.根据权利要求8所述的装置,其特征在于,所述热度计算单元包括:
占比计算子单元,用于计算归一化处理后各义项对应的会话占比和点击占比,其中所述会话占比是指一个义项对应的会话数以及该义项所属歧义词对应的会话数之间的比值,所述点击占比是指所述搜索日志中,由一个义项所属歧义词引起的点击页面里与该义项之间具有关联关系的点击页面被点击的次数,以及由该义项所属歧义词引起的点击页面被点击的次数之间的比值;
热度计算子单元,用于根据下列公式计算各义项的需求热度:
Totle_Score=λ1*Session_Score+λ2*CT_Score,其中Totle_Score表示一个义项的需求热度,Session_Score表示该义项的会话占比,CT_Score表示该义项的点击占比,λ1和λ2分别表示该义项的会话占比和点击占比对应权重。
10.根据权利要求9所述的装置,其特征在于,所述展示单元在对所述搜索结果进行展示时,将所述搜索词对应的义项按照需求热度从高至低排列,以作为所述搜索结果的引导词;或者,将所述搜索结果按照所述搜索词对应的义项进行分类,并按照各义项的需求热度从高到低对各类搜索结果进行排列。
CN201310170900.6A 2013-05-10 2013-05-10 一种基于歧义消解的搜索方法及装置 Active CN103279504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310170900.6A CN103279504B (zh) 2013-05-10 2013-05-10 一种基于歧义消解的搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310170900.6A CN103279504B (zh) 2013-05-10 2013-05-10 一种基于歧义消解的搜索方法及装置

Publications (2)

Publication Number Publication Date
CN103279504A true CN103279504A (zh) 2013-09-04
CN103279504B CN103279504B (zh) 2019-11-05

Family

ID=49062024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310170900.6A Active CN103279504B (zh) 2013-05-10 2013-05-10 一种基于歧义消解的搜索方法及装置

Country Status (1)

Country Link
CN (1) CN103279504B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015090714A (ja) * 2013-11-07 2015-05-11 株式会社リコー 電子文書の取り出し及び報告
CN107180087A (zh) * 2017-05-09 2017-09-19 北京奇艺世纪科技有限公司 一种搜索方法及装置
CN107665220A (zh) * 2016-07-29 2018-02-06 苏宁云商集团股份有限公司 一种用于搜索业务的处理方法及系统
CN107679183A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 分类器用训练数据获取方法和装置、服务器及存储介质
CN108197284A (zh) * 2018-01-12 2018-06-22 北京百度网讯科技有限公司 搜索处理方法及装置
CN108984533A (zh) * 2018-08-03 2018-12-11 清华大学 一种词汇义原预测方法及装置
CN110019888A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN113486252A (zh) * 2021-07-30 2021-10-08 北京字节跳动网络技术有限公司 搜索结果展示方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750002A (zh) * 2005-10-26 2006-03-22 孙斌 提供搜索结果的方法
CN101563685A (zh) * 2006-10-03 2009-10-21 阿迪利亚公司 利用用户反馈处理查询的系统和方法
US20110060733A1 (en) * 2009-09-04 2011-03-10 Alibaba Group Holding Limited Information retrieval based on semantic patterns of queries
CN102349072A (zh) * 2009-01-30 2012-02-08 谷歌公司 识别查询方面

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750002A (zh) * 2005-10-26 2006-03-22 孙斌 提供搜索结果的方法
CN101563685A (zh) * 2006-10-03 2009-10-21 阿迪利亚公司 利用用户反馈处理查询的系统和方法
CN102349072A (zh) * 2009-01-30 2012-02-08 谷歌公司 识别查询方面
US20110060733A1 (en) * 2009-09-04 2011-03-10 Alibaba Group Holding Limited Information retrieval based on semantic patterns of queries

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015090714A (ja) * 2013-11-07 2015-05-11 株式会社リコー 電子文書の取り出し及び報告
CN107665220A (zh) * 2016-07-29 2018-02-06 苏宁云商集团股份有限公司 一种用于搜索业务的处理方法及系统
CN107180087B (zh) * 2017-05-09 2019-11-15 北京奇艺世纪科技有限公司 一种搜索方法及装置
CN107180087A (zh) * 2017-05-09 2017-09-19 北京奇艺世纪科技有限公司 一种搜索方法及装置
US10936906B2 (en) 2017-09-29 2021-03-02 Baidu Online Network Technology (Beijing) Co., Ltd. Training data acquisition method and device, server and storage medium
CN107679183B (zh) * 2017-09-29 2020-11-06 百度在线网络技术(北京)有限公司 分类器用训练数据获取方法和装置、服务器及存储介质
CN107679183A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 分类器用训练数据获取方法和装置、服务器及存储介质
US11238310B2 (en) 2017-09-29 2022-02-01 Baidu Online Network Technology (Beijing) Co., Ltd. Training data acquisition method and device, server and storage medium
CN110019888A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN108197284A (zh) * 2018-01-12 2018-06-22 北京百度网讯科技有限公司 搜索处理方法及装置
CN108197284B (zh) * 2018-01-12 2022-01-25 北京百度网讯科技有限公司 搜索处理方法及装置
CN108984533A (zh) * 2018-08-03 2018-12-11 清华大学 一种词汇义原预测方法及装置
CN113486252A (zh) * 2021-07-30 2021-10-08 北京字节跳动网络技术有限公司 搜索结果展示方法、装置、设备和介质

Also Published As

Publication number Publication date
CN103279504B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN103279504A (zh) 一种基于歧义消解的搜索方法及装置
US9846748B2 (en) Searching for information based on generic attributes of the query
CN102364473B (zh) 融合地理信息与视觉信息的网络新闻检索系统及方法
US9405805B2 (en) Identification and ranking of news stories of interest
US9436707B2 (en) Content-based image ranking
US7565345B2 (en) Integration of multiple query revision models
AU2012312072B2 (en) Providing topic based search guidance
US7617205B2 (en) Estimating confidence for query revision models
US8412727B1 (en) Generating query refinements from user preference data
CN109388760B (zh) 推荐标签获取方法、媒体内容推荐方法、装置及存储介质
Bao et al. Competitor mining with the web
WO2017181834A1 (zh) 一种智能问答方法及装置
US20060230005A1 (en) Empirical validation of suggested alternative queries
CN105357586A (zh) 视频弹幕过滤方法及装置
US20140012840A1 (en) Generating search results
CN103678668A (zh) 相关搜索结果的提示方法、服务器及系统
WO2021082123A1 (zh) 信息推荐方法及装置、电子设备
CN111506831A (zh) 一种协同过滤的推荐模块、方法、电子设备及存储介质
CN109952571B (zh) 基于上下文的图像搜索结果
CN105005555A (zh) 基于聊天时间的关键词提取方法及装置
CN103312584A (zh) 一种在网络社区中发布信息的方法与设备
CN113792209B (zh) 搜索词生成方法、系统及计算机可读存储介质
US20160041999A1 (en) Query analyzer
CN107423298B (zh) 一种搜索方法和装置
US20110231387A1 (en) Engaging content provision

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant