CN103258025A - 生成共现关键词的方法、提供关联搜索词的方法以及系统 - Google Patents

生成共现关键词的方法、提供关联搜索词的方法以及系统 Download PDF

Info

Publication number
CN103258025A
CN103258025A CN2013101656901A CN201310165690A CN103258025A CN 103258025 A CN103258025 A CN 103258025A CN 2013101656901 A CN2013101656901 A CN 2013101656901A CN 201310165690 A CN201310165690 A CN 201310165690A CN 103258025 A CN103258025 A CN 103258025A
Authority
CN
China
Prior art keywords
keyword
search
search word
bunch
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101656901A
Other languages
English (en)
Other versions
CN103258025B (zh
Inventor
阮星华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310165690.1A priority Critical patent/CN103258025B/zh
Publication of CN103258025A publication Critical patent/CN103258025A/zh
Application granted granted Critical
Publication of CN103258025B publication Critical patent/CN103258025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

提供一种生成共现关键词的方法、提供关联搜索词的方法以及系统。一种生成共现关键词的方法包括:获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录;根据各个用户的搜索记录,为每个用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词;通过对代表关键词进行配对形成多个代表关键词对,并且计算每个代表关键词对出现的次数;选择出现的次数最高的代表关键词对作为共现关键词对,并且将选择的共现关键词对存储在共现词典中。

Description

生成共现关键词的方法、提供关联搜索词的方法以及系统
技术领域
本申请涉及一种生成共现关键词的方法、提供关联搜索词的方法以及系统,尤其涉及一种通过对搜索日志进行分析,从而找出用户通常会一同搜索的话题的技术。
背景技术
搜索引擎的“相关检索词”功能是体现搜索引擎智能性的一个重要方面。“相关检索词”功能能够根据用户的搜索词为用户推荐N个(一般是10个)相关的搜索词,对用户的搜索行为起到一个提示和引导的作用,帮助用户更便捷地找到所需要的信息。例如,当用户搜索“万有引力”的时候,不同的用户可能有不同的需求:
(1)查找万有引力定律或者公式;
(2)查找2011年赵天宇导演的电影《万有引力》;
(3)查找汪苏泷的歌曲《万有引力》。
当然,也可能还有其他与“万有引力”相关的需求。总体说来,用户的需求是多元化的,同样一个搜索词对于不同的用户来说可能有不同的需求。在这种情况下,搜索引擎在满足主要需求的前提下,还需要尽量满足多元化的次要需求。更进一步,如果搜索引擎还能够推荐出用户可能存在“潜在需求”的相关检索词,则更能够体现搜索引擎的智能性,提高用户体验吸引用户进行更多的检索查询。
发明内容
本发明的目的在于提供一种生成共现关键词的方法、提供关联搜索词的方法以及系统,通过对搜索日志进行分析,挖掘出一般用户通常会一同检索的话题,以扩展用户的检索入口。
根据本发明的一方面,提供一种一种生成共现关键词的方法,包括:a)获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录;b)根据各个用户的搜索记录,为每个用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;c)从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词;d)通过对代表关键词进行配对形成多个代表关键词对,并且计算每个代表关键词对出现的次数;e)选择出现的次数最高的代表关键词对作为共现关键词对,并且将选择的共现关键词对存储在共现词典中。
优选地,步骤b)包括,对用户的搜索记录执行以下操作:对所述搜索记录中的搜索词进行切词,并且计算分词的权重;针对每两个搜索词,根据同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之间的相似度;选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。
优选地,步骤b)还包括:在对搜索词进行切词的处理中,从所述搜索记录中去除重复出现的搜索词。
优选地,通过以下公式计算两个搜索词之间的相似度β:
β=∑min(w1i,w2i
其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤n,n为所述共同出现的分词的个数。
优选地,在步骤d)中,使用包括配对的两个代表关键词以及其出现次数的三元组,累积计算在为各个用户形成的全部代表关键词对当中,每个代表关键词对出现的次数。
优选地,所述的方法还包括:将在步骤b)中计算出的全部搜索词簇存储到搜索词簇词典。
优选地,所述的方法还包括:通过将共现关键词对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现率,并且在共现词典中还存储所述共现关键词对的共现率。
优选地,所述的方法还包括:如果接收到包括共现关键词对中的一个代表关键词的搜索词,则从搜索词簇词典找出包括共现关键词对中的另一个代表关键词的搜索词簇,并且作为响应,发送找出的搜索词簇中的一个或多个搜索词。
根据本发明的另一方面,提供一种生成共现关键词的系统,包括:日志获取模块,用于获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录;搜索词簇计算模块,用于根据用户的搜索记录,为用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;共现关键词对确定模块,用于从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词,通过对代表关键词进行配对形成多个代表关键词对,计算每个代表关键词对出现的次数,并且选择出现的次数最高的代表关键词对作为共现关键词对;词典存储模块,用于将选择的共现关键词对存储在共现词典中。
优选地,搜索词簇计算模块对用户的搜索记录执行以下操作:对所述搜索记录中的搜索词进行切词,并且计算分词的权重;针对每两个搜索词,根据同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之间的相似度;选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。
优选地,搜索词簇计算模块在对每个搜索词进行切词的处理中,从所述搜索记录中去除重复出现的搜索词。
优选地,搜索词簇计算模块通过以下公式计算两个搜索词之间的相似度β:
β=∑min(w1i,w2i
其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤n,n为所述共同出现的分词的个数。
优选地,共现关键词对确定模块使用包括配对的两个代表关键词以及其出现次数的三元组,累积计算在为各个用户形成的全部代表关键词对当中,每个代表关键词对出现的次数。
优选地,词典存储模块还将搜索词簇计算模块计算出的全部搜索词簇存储到搜索词簇词典。
优选地,共现关键词对确定模块还通过将共现关键词对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现率,并且词典存储模块在共现词典中还存储所述共现关键词对的共现率。
根据本发明的另一方面,提供一种提供关联搜索词的方法,包括:接收第一搜索词;从第一搜索词提取第一关键词;从共现关键词词典查找包括所述第一关键词的共现关键词对,所述共现关键词词典包括至少一对共现关键词;如果找到所述共现关键词对,则从包括多个搜索词簇的搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索词簇,其中,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词,从所述搜索词簇选择一个或多个搜索词作为第二搜索词,并且作为响应,发送选择的第二搜索词。
优选地,所述第一关键词是第一搜索词中权重最高的关键词。
优选地,每个搜索词簇还包括至少一个代表关键词。
优选地,所述从包括多个搜索词簇的搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索词簇的操作包括:从所述搜索词簇词典查找以所述共现关键词对中的第二关键词作为代表关键词的搜索词簇。
优选地,所述的方法还包括:从包括多个搜索词簇的搜索词簇词典查找包括所述第一关键词的搜索词簇,并且作为响应,还发送找到的所述搜索词簇中的一个或多个搜索词。
根据本发明的另一方面,提供一种提供关联搜索词的系统,包括:词典存储模块,用于存储包括至少一对共现关键词的共现关键词词典,以及包括多个搜索词簇的搜索词簇词典,其中,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词;信息收发模块,用于接收第一搜索词,并且发送第二搜索词;关键词提取模块,用于从第一搜索词提取第一关键词;关联查询模块,从共现关键词词典查找包括所述第一关键词的共现关键词对,如果找到所述共现关键词对,则从搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索词簇,从所述搜索词簇选择一个或多个搜索词作为第二搜索词,并且作为响应,通过信息收发模块发送选择的第二搜索词。
优选地,所述第一关键词是第一搜索词中权重最高的关键词。
优选地,每个搜索词簇还包括至少一个代表关键词。
优选地,关联查询模块从所述搜索词簇词典查找以所述共现关键词对中的第二关键词作为代表关键词的搜索词簇。
优选地,关联查询模块还从包括多个搜索词簇的搜索词簇词典查找包括所述第一关键词的搜索词簇,并且作为响应,通过信息收发模块还发送找到的所述搜索词簇中的一个或多个搜索词。
根据本发明的生成共现关键词和/或提供关联搜索词的方法和系统可通过对搜索日志中的用户搜索记录进行挖掘分析,找到用户搜索行为的相互关联,生成用户通常会一同检索的共现关键词。在此基础上,可在用户通过一个话题的搜索词进行搜索时,将一般用户通常一同检索的其他话题的搜索词也推荐给用户,从而扩展用户的检索入口,改善用户体验。
附图说明
通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本发明的示例性实施例的生成共现关键词的方法的流程图;
图2是示出根据本发明的示例性实施例为不同用户生成的搜索词簇的全部代表关键词的示意图;
图3是示出根据本发明的示例性实施例的提供关联搜索词的方法的流程图;
图4是示出根据本发明的示例性实施例的生成共现关键词和/或提供关联搜索词的系统的逻辑框图。
具体实施方式
以下,将参照附图来详细说明本发明的实施例。
用户每天查找的信息之间有一定的关联关系,也就是说,用户的搜索词簇之间存在一定的联系。例如,查找“天气”的用户在一次搜索中搜索“旅游”的概率会高一些。再有一个著名的例子就是,通过对沃尔玛超市销售记录的分析,发现购买尿布的客户一般同时都会购买啤酒,因此沃尔玛超市根据这个规律将啤酒放得离尿布近一些,从而提高整体的商品销量。
本发明在充分分析现有搜索引擎相关检索词策略的基础上,提出一种通过对用户的检索日志进行挖掘分析,进而获取搜索引擎相关检索词的方法和系统。将用户在搜索引擎中的搜索行为看作一个消费行为,其消费过程就是使用搜索词获取信息的过程。在大部分用户在查询A信息后一般都会查询B信息的情况下,本发明将包括用于查询B信息的搜索词当中满意度较高的搜索词也推荐给用户,从而引导用户进行更多的点击查询,提高相关检索词的整体点击量。
图1是示出根据本发明的示例性实施例的生成共现关键词的方法的流程图。在计算机系统中实现本发明的生成共现关键词的方法,并且图4示例性地示出用于生成共现关键词的系统的逻辑框图。
参照图1,在步骤S110,所述系统获取采集的预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录。举例来说,可按照cookie值将所述预定时间段的搜索日志整理为各个用户的搜索记录。
在步骤S120,根据用户的搜索记录,为用户计算至少一个搜索词簇,所述搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词。
根据本发明的优选实施例,在步骤S120,在对用户计算至少一个搜索词簇的过程中,在所述搜索记录中去除重复的搜索词。
根据本发明的可选实施例,在步骤S120,所述系统对用户的搜索记录执行以下处理:
120-1、对所述搜索记录中的搜索词进行切词,并且计算分词的权重。搜索引擎中的切词算法以及计算分词的权重的算法为现有技术,在此不再赘述。
例如,在用户A的一段时间内的搜索记录中,包括三个搜索词,“鲁班奖评奖的条件”、“鲁班奖的条件”和“桂圆的功效与作用”,以下是经过分词和分词权重计算后的结果:
A、“鲁班奖评奖的条件”:切出的分词(权重)为“鲁班奖(0.45)、评奖(0.1)、的(0.05)、条件(0.4)”;
B、“鲁班奖的条件”,切出的分词(权重)为“鲁班奖(0.5)、的(0.05)、条件(0.45)”;
C、“桂圆的功效与作用”,切出的分词(权重)为“桂圆(0.3)、的(0.05)、功效(0.3)、与(0.05)、作用(0.3)”。
120-2、针对每两个搜索词,根据同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之间的相似度。
根据本发明的可选实施例,通过以下公式计算两个搜索词之间的相似度β:
β=∑min(w1i,w2i
其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,0<i≤n,n为所述共同出现的分词的个数。也就是说,通过将每个同时出现在两个搜索词中的分词的最小权重值相加来计算所述两个搜索词的相似度值。
继续前述示例,A和B项中的两个搜索词中同时出现的分词有“鲁班奖”(权重分别为0.45和0.5)、“的”(权重都为“0.05”)和“条件”(权重分别为0.4和0.45)。对于每个分词的权重我们取两者中最小值,最后得到的相似度为:
β=Min(0.45,0.5)+Min(0.05,0.05)+Min(0.4,0.45)
=0.45+0.05+0.4
=0.9
120-3、选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。可根据需要设置所述预定阈值。
例如,在将所述预定阈值设置为0.8的情况下,将A和B项中的搜索词“鲁班奖评奖的条件”和“鲁班奖的条件”归入一个搜索词簇。
再例如,前述示例中C项中的“桂圆的功效与作用”可单独组成一个搜索词簇。
在步骤S130,所述系统从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词。
以包括“鲁班奖评奖的条件”和“鲁班奖的条件”的搜索词簇为例,在权重阈值被设置为0.2的情况下,可将“鲁班奖”和“条件”选为所述搜索词簇的代表关键词。
在步骤S140,通过对代表关键词进行配对形成多个代表关键词对,并且计算每个代表关键词对出现的次数。
图2示意性地示出为不同用户生成的搜索词簇的全部代表关键词,其中,每个用户以其搜索时使用的cookie来标识。例如,自用户cookie1的搜索记录计算出的全部搜索词簇中,共找出3个代表关键词q1、q2和q5,将所述3个代表关键词配对,得到(q1,q2)、(q1,q5)和(q2,q5)三个代表关键词对;将cookie2的代表关键词q7和q1配对,得到代表关键词对(q1,q7);将cookie3的代表关键词q1和q5配对,得到代表关键词对(q1,q5);将cookie4的代表关键词q5、q3和q1相互配对,得到代表关键词对(q5,q3)、(q5,q1)和(q3,q1)。在为用户cookie1~cookie4配出的代表关键词对中,(q1,q5)出现过3次,其他的代表关键词对均出现过1次。
为了便于处理,根据本发明的优选实施例,在步骤S140,所述系统使用包括配对的两个代表关键词以及其出现次数的三元组,对累积计算在为各个用户形成的全部代表关键词对当中,每个代表关键词对出现的次数。
以图2所示的示例为例,使用包括上述三元组的HASH表。例如,自用户cookie1的代表关键词q1、q2和q5,得到(q1,q2,1),(q1,q5,1),(q2,q5,1),将这三个三元组插入HASH表:
(q1,q2,1)
(q1,q5,1)
(q2,q5,1)
继续处理用户cookie2的搜索词簇中的代表关键词,得到(q1,q7,1),此时HASH表状态如下:
(q1,q2,1)
(q1,q5,1)
(q2,q5,1)
(q1,q7,1)
继续处理用户cookie3的搜索词簇中的代表关键词得到的hash表状态如下:
(q1,q2,1)
(q1,q5,2)
(q1,q7,1)
(q2,q5,1)
继续处理用户cookie4得到的hash表状态如下:
(q1,q2,1)
(q1,q3,1)
(q1,q5,3)
(q1,q7,1)
(q2,q5,1)
(q3,q5,1)
同样得到,(q1,q5)共同出现的次数最多,共3次。
在步骤S150,所述系统选择出现的次数最高的代表关键词对作为共现关键词对,并且将选择的共现关键词对存储在共现词典中。
在前述示例中,q1和q5组成的代表关键词对被选为共现关键词对。
根据本发明的优选实施例,所述系统在步骤S150,还通过将共现关键词对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现率,并且在共现词典中还存储所述共现关键词对的共现率。
例如,共现关键词对(q1,q5)的共现率为3/6=50%,在共现词典中存储所述共现关键词对时,还存储其共现率。
根据本发明的优选实施例,所述系统还将在步骤S120计算出的全部搜索词簇存储到搜索词簇词典中。优选地,所述系统在存储所述搜索词簇时,还存储每个搜索词簇的代表关键词。
根据本发明的优选实施例,如果接收到包括共现关键词对中的一个代表关键词的搜索词,则从搜索词簇词典找出包括共现关键词对中的另一个代表关键词的搜索词簇,并且作为响应,搜索词搜索词发送找出的搜索词簇中的一个或多个搜索词,例如,找出的搜索词簇中根据预定算法被认作用户满意度高的搜索词。
自此,可通过一段时间的搜索日志,计算出共现率高的共现关键词对,从而当接收到用户的包括共现关键词对中的一个代表关键词的搜索词时,可将包括共现关键词对中的另一个代表关键词的搜索词也推荐给用户,为用户提供其可能感兴趣的、更丰富的查询入口。
图3是示出根据本发明的示例性实施例的提供关联搜索词的方法的流程图。在计算机系统中实现本发明的提供关联搜索词的方法,并且图4示例性地示出用于提供关联搜索词的系统的逻辑框图。
参照图3,在步骤S310,所述系统接收第一搜索词。
在步骤S320,所述系统从第一搜索词提取第一关键词。根据本发明的优选实施例,所述第一关键词是第一搜索词中权重最高的关键词。可使用搜索引擎中通用的切词以及计算分词的权重的算法来从第一搜索词提取第一关键词,在此不再赘述。所述第一关键词可不只是一个。
在步骤S330,所述系统从共现关键词词典查找包括所述第一关键词的共现关键词对。所述共现关键词词典包括至少一对共现关键词。
在步骤S340,所述系统确定是否找到包括所述第一关键词的共现关键词对。如果确定找到了包括所述第一关键词的共现关键词对,则在步骤S350,所述系统从包括多个搜索词簇的搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索词簇,其中,如前所述,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词。此后,在步骤S360,所述系统从所述搜索词簇搜索词选择一个或多个搜索词作为第二搜索词(例如,所述搜索词簇中根据预定算法被认作用户满意度高的搜索词),并且在步骤S370,作为响应,所述系统发送选择的第二搜索词。
根据本发明的优选实施例,搜索词簇词典中的每个搜索词簇还包括至少一个代表关键词;在步骤S350,所述系统从所述搜索词簇词典查找以所述共现关键词对中的第二关键词作为代表关键词的搜索词簇。
根据本发明的优选实施例,所述系统还从包括多个搜索词簇的搜索词簇词典查找包括所述第一关键词的搜索词簇,并且作为响应,还发送找到的所述搜索词簇中的一个或多个搜索词。
图4是示出根据本发明的示例性实施例的生成共现关键词和/或提供关联搜索词的系统的逻辑框图。
参照图4,所述生成共现关键词的系统包括日志获取模块410、搜索词簇计算模块420、共现关键词对确定模块430和词典存储模块440。
日志获取模块410获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录。
搜索词簇计算模块420根据各个用户的搜索记录,为用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词。具体地,搜索词簇计算模块420对用户的搜索记录执行以下操作:对所述搜索记录中的搜索词进行切词,并且计算分词的权重;针对每两个搜索词,根据同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之间的相似度;选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。
根据本发明的优选实施例,搜索词簇计算模块420在对搜索词进行切词的处理中,从所述搜索记录中去除重复出现的搜索词。
根据本发明的优选实施例,搜索词簇计算模块420通过以下公式计算两个搜索词之间的相似度β:
β=∑min(w1i,w2i
其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤n,n为所述共同出现的分词的个数。
共现关键词对确定模块430从搜索词簇计算模块420计算出的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词,通过对代表关键词进行配对形成多个代表关键词对,并且计算每个代表关键词对出现的次数。此后,共现关键词对确定模块430选择出现的次数最高的代表关键词对作为共现关键词对。
根据本发明的优选实施例,共现关键词对确定模块430使用包括配对的两个代表关键词以及其出现次数的三元组,累积计算在为各个用户形成的全部代表关键词对当中,每个代表关键词对出现的次数。
词典存储模块440将共现关键词对确定模块430选择的共现关键词对存储在共现词典中。根据本发明的优选实施例,词典存储模块440还将搜索词簇计算模块420计算出的全部搜索词簇存储到搜索词簇词典。
根据本发明的优选实施例,共现关键词对确定模块430还通过将共现关键词对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现率,并且词典存储模块440在共现词典中还存储所述共现关键词对的共现率。
另一方面,所述提供关联搜索词的系统包括:词典存储模块440、信息收发模块450、关键词提取模块460和关联查询模块470。
如前所述,词典存储模块440存储包括至少一对共现关键词的共现关键词词典,以及包括多个搜索词簇的搜索词簇词典。其中,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词。
信息收发模块450接收第一搜索词,并且作为响应,发送关联查询模块470选择的第二搜索词。
关键词提取模块460从信息收发模块450接收的第一搜索词提取第一关键词。所述第一关键词可以是第一搜索词中权重最高的关键词。
关联查询模块470从词典存储模块440存储的共现关键词词典查找包括所述第一关键词的共现关键词对。如果找到所述共现关键词对,则关联查询模块470从搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索词簇,从所述搜索词簇搜索词选择一个或多个搜索词作为第二搜索词,并且通过信息收发模块450发送选择的第二搜索词。
根据本发明的优选实施例,搜索词簇词典中的每个搜索词簇还包括至少一个代表关键词,关联查询模块470从所述搜索词簇词典查找以所述共现关键词对中的第二关键词作为代表关键词的搜索词簇。
根据本发明的另一示例性实施例,关联查询模块470还从包括多个搜索词簇的搜索词簇词典查找包括所述第一关键词的搜索词簇,并且还通过信息收发模块450发送找到的所述搜索词簇中的一个或多个搜索词。
本发明所述的系统可包括日志获取模块410、搜索词簇计算模块420、共现关键词对确定模块430、词典存储模块440、信息收发模块450、关键词提取模块460和关联查询模块470,以生成共现关键词并且提供关联搜索词。
根据本发明的生成共现关键词和/或提供关联搜索词的方法和系统可通过对搜索日志中的用户搜索记录进行挖掘分析,找到用户搜索行为的相互关联,生成用户通常会一同检索的共现关键词。在此基础上,可在用户通过一个话题的搜索词进行搜索时,将一般用户通常一同检索的其他话题的搜索词也推荐给用户,从而扩展用户的检索入口,改善用户体验。
需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
尽管已参照优选实施例表示和描述了本发明,但本领域技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对这些实施例进行各种修改和变换。

Claims (25)

1.一种生成共现关键词的方法,包括:
a)获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录;
b)根据各个用户的搜索记录,为每个用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;
c)从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词;
d)通过对代表关键词进行配对形成多个代表关键词对,并且计算每个代表关键词对出现的次数;
e)选择出现的次数最高的代表关键词对作为共现关键词对,并且将选择的共现关键词对存储在共现词典中。
2.如权利要求1所述的方法,其特征在于,步骤b)包括,对用户的搜索记录执行以下操作:
对所述搜索记录中的搜索词进行切词,并且计算分词的权重;
针对每两个搜索词,根据同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之间的相似度;
选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。
3.如权利要求2所述的方法,其特征在于,步骤b)还包括:在对搜索词进行切词的处理中,从所述搜索记录中去除重复出现的搜索词。
4.如权利要求3所述的方法,其特征在于,通过以下公式计算两个搜索词之间的相似度β:
β=∑min(w1i,w2i
其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤n,n为所述共同出现的分词的个数。
5.如权利要求4所述的方法,其特征在于,在步骤d)中,使用包括配对的两个代表关键词以及其出现次数的三元组,累积计算在为各个用户形成的全部代表关键词对当中,每个代表关键词对出现的次数。
6.如权利要求1-5中的任一项所述的方法,还包括:将在步骤b)中计算出的全部搜索词簇存储到搜索词簇词典。
7.如权利要求6所述的方法,还包括:通过将共现关键词对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现率,并且在共现词典中还存储所述共现关键词对的共现率。
8.如权利要求7所述的方法,还包括:如果接收到包括共现关键词对中的一个代表关键词的搜索词,则从搜索词簇词典找出包括共现关键词对中的另一个代表关键词的搜索词簇,并且作为响应,发送找出的搜索词簇中的一个或多个搜索词。
9.一种生成共现关键词的系统,包括:
日志获取模块,用于获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录;
搜索词簇计算模块,用于根据用户的搜索记录,为用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;
共现关键词对确定模块,用于从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词,通过对代表关键词进行配对形成多个代表关键词对,计算每个代表关键词对出现的次数,并且选择出现的次数最高的代表关键词对作为共现关键词对;
词典存储模块,用于将选择的共现关键词对存储在共现词典中。
10.如权利要求9所述的系统,其特征在于,搜索词簇计算模块对用户的搜索记录执行以下操作:
对所述搜索记录中的搜索词进行切词,并且计算分词的权重;
针对每两个搜索词,根据同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之间的相似度;
选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。
11.如权利要求10所述的系统,其特征在于,搜索词簇计算模块在对每个搜索词进行切词的处理中,从所述搜索记录中去除重复出现的搜索词。
12.如权利要求11所述的系统,其特征在于,搜索词簇计算模块通过以下公式计算两个搜索词之间的相似度β:
β=∑min(w1i,w2i
其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤n,n为所述共同出现的分词的个数。
13.如权利要求12所述的系统,其特征在于,共现关键词对确定模块使用包括配对的两个代表关键词以及其出现次数的三元组,累积计算在为各个用户形成的全部代表关键词对当中,每个代表关键词对出现的次数。
14.如权利要求9-13中的任一项所述的系统,其特征在于,词典存储模块还将搜索词簇计算模块计算出的全部搜索词簇存储到搜索词簇词典。
15.如权利要求14所述的系统,其特征在于,共现关键词对确定模块还通过将共现关键词对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现率,并且词典存储模块在共现词典中还存储所述共现关键词对的共现率。
16.一种提供关联搜索词的方法,包括:
接收第一搜索词;
从第一搜索词提取第一关键词;
从共现关键词词典查找包括所述第一关键词的共现关键词对,所述共现关键词词典包括至少一对共现关键词;
如果找到所述共现关键词对,则执行以下操作:
从包括多个搜索词簇的搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索词簇,其中,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词,
从所述搜索词簇选择一个或多个搜索词作为第二搜索词,并且
作为响应,发送选择的第二搜索词。
17.如权利要求16所述的方法,其特征在于,所述第一关键词是第一搜索词中权重最高的关键词。
18.如权利要求17所述的方法,其特征在于,每个搜索词簇还包括至少一个代表关键词。
19.如权利要求18所述的方法,其特征在于,所述从包括多个搜索词簇的搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索词簇的操作包括:从所述搜索词簇词典查找以所述共现关键词对中的第二关键词作为代表关键词的搜索词簇。
20.如权利要求16-19的任一项所述的方法,还包括:从包括多个搜索词簇的搜索词簇词典查找包括所述第一关键词的搜索词簇,并且作为响应,还发送找到的所述搜索词簇中的一个或多个搜索词。
21.一种提供关联搜索词的系统,包括:
词典存储模块,用于存储包括至少一对共现关键词的共现关键词词典,以及包括多个搜索词簇的搜索词簇词典,其中,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词;
信息收发模块,用于接收第一搜索词,并且发送第二搜索词;
关键词提取模块,用于从第一搜索词提取第一关键词;
关联查询模块,从共现关键词词典查找包括所述第一关键词的共现关键词对,如果找到所述共现关键词对,则从搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索词簇,从所述搜索词簇选择一个或多个搜索词作为第二搜索词,并且作为响应,通过信息收发模块发送选择的第二搜索词。
22.如权利要求21所述的系统,其特征在于,所述第一关键词是第一搜索词中权重最高的关键词。
23.如权利要求22所述的系统,其特征在于,每个搜索词簇还包括至少一个代表关键词。
24.如权利要求23所述的系统,其特征在于,关联查询模块从所述搜索词簇词典查找以所述共现关键词对中的第二关键词作为代表关键词的搜索词簇。
25.如权利要求21-24的任一项所述的系统,其特征在于,关联查询模块还从包括多个搜索词簇的搜索词簇词典查找包括所述第一关键词的搜索词簇,并且作为响应,通过信息收发模块还发送找到的所述搜索词簇中的一个或多个搜索词。
CN201310165690.1A 2013-05-08 2013-05-08 生成共现关键词的方法、提供关联搜索词的方法以及系统 Active CN103258025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310165690.1A CN103258025B (zh) 2013-05-08 2013-05-08 生成共现关键词的方法、提供关联搜索词的方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310165690.1A CN103258025B (zh) 2013-05-08 2013-05-08 生成共现关键词的方法、提供关联搜索词的方法以及系统

Publications (2)

Publication Number Publication Date
CN103258025A true CN103258025A (zh) 2013-08-21
CN103258025B CN103258025B (zh) 2016-08-31

Family

ID=48961942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310165690.1A Active CN103258025B (zh) 2013-05-08 2013-05-08 生成共现关键词的方法、提供关联搜索词的方法以及系统

Country Status (1)

Country Link
CN (1) CN103258025B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914552A (zh) * 2014-04-14 2014-07-09 百度在线网络技术(北京)有限公司 应用检索方法和装置
CN104239552A (zh) * 2014-09-24 2014-12-24 北京百度网讯科技有限公司 生成关联关键词、提供关联关键词的方法及系统
CN104424300A (zh) * 2013-08-30 2015-03-18 北京千橡网景科技发展有限公司 个性化搜索提示方法及装置
CN105446984A (zh) * 2014-06-30 2016-03-30 阿里巴巴集团控股有限公司 一种扩展词对的筛选方法及装置
CN105740288A (zh) * 2014-12-11 2016-07-06 北京奇虎科技有限公司 商品信息搜索方法及网络侧设备
CN107330672A (zh) * 2017-07-03 2017-11-07 北京拉勾科技有限公司 一种基于相似度的信息处理方法、装置及计算设备
CN107766498A (zh) * 2017-10-19 2018-03-06 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN107784478A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 行政机构信息的处理方法和装置
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置
CN112784599A (zh) * 2020-12-23 2021-05-11 北京百度网讯科技有限公司 诗句的生成方法、装置、电子设备和存储介质
CN113486071A (zh) * 2021-07-27 2021-10-08 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统
CN112784599B (zh) * 2020-12-23 2024-05-10 北京百度网讯科技有限公司 诗句的生成方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及系统
US20080071740A1 (en) * 2006-09-18 2008-03-20 Pradhuman Jhala Discovering associative intent queries from search web logs
CN101295319A (zh) * 2008-06-24 2008-10-29 北京搜狗科技发展有限公司 一种扩展查询的方法、装置及搜索引擎系统
US20090063461A1 (en) * 2007-03-01 2009-03-05 Microsoft Corporation User query mining for advertising matching
US20100191747A1 (en) * 2009-01-29 2010-07-29 Hyungsuk Ji Method and apparatus for providing related words for queries using word co-occurrence frequency
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN102737038A (zh) * 2011-04-07 2012-10-17 阿里巴巴集团控股有限公司 关联度确定方法及装置、信息提供方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071740A1 (en) * 2006-09-18 2008-03-20 Pradhuman Jhala Discovering associative intent queries from search web logs
US20090063461A1 (en) * 2007-03-01 2009-03-05 Microsoft Corporation User query mining for advertising matching
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及系统
CN101295319A (zh) * 2008-06-24 2008-10-29 北京搜狗科技发展有限公司 一种扩展查询的方法、装置及搜索引擎系统
US20100191747A1 (en) * 2009-01-29 2010-07-29 Hyungsuk Ji Method and apparatus for providing related words for queries using word co-occurrence frequency
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN102737038A (zh) * 2011-04-07 2012-10-17 阿里巴巴集团控股有限公司 关联度确定方法及装置、信息提供方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424300A (zh) * 2013-08-30 2015-03-18 北京千橡网景科技发展有限公司 个性化搜索提示方法及装置
CN103914552B (zh) * 2014-04-14 2017-06-20 百度在线网络技术(北京)有限公司 应用检索方法和装置
CN103914552A (zh) * 2014-04-14 2014-07-09 百度在线网络技术(北京)有限公司 应用检索方法和装置
CN105446984A (zh) * 2014-06-30 2016-03-30 阿里巴巴集团控股有限公司 一种扩展词对的筛选方法及装置
CN104239552A (zh) * 2014-09-24 2014-12-24 北京百度网讯科技有限公司 生成关联关键词、提供关联关键词的方法及系统
CN104239552B (zh) * 2014-09-24 2017-09-01 北京百度网讯科技有限公司 生成关联关键词、提供关联关键词的方法及系统
CN105740288A (zh) * 2014-12-11 2016-07-06 北京奇虎科技有限公司 商品信息搜索方法及网络侧设备
CN107784478A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 行政机构信息的处理方法和装置
CN107784478B (zh) * 2016-08-31 2020-09-15 北京国双科技有限公司 行政机构信息的处理方法和装置
CN107330672B (zh) * 2017-07-03 2021-02-26 北京拉勾科技有限公司 一种基于相似度的信息处理方法、装置及计算设备
CN107330672A (zh) * 2017-07-03 2017-11-07 北京拉勾科技有限公司 一种基于相似度的信息处理方法、装置及计算设备
CN107766498A (zh) * 2017-10-19 2018-03-06 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN107766498B (zh) * 2017-10-19 2022-01-07 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置
CN110245357B (zh) * 2019-06-26 2023-05-02 北京百度网讯科技有限公司 主实体识别方法和装置
CN112784599A (zh) * 2020-12-23 2021-05-11 北京百度网讯科技有限公司 诗句的生成方法、装置、电子设备和存储介质
CN112784599B (zh) * 2020-12-23 2024-05-10 北京百度网讯科技有限公司 诗句的生成方法、装置、电子设备和存储介质
CN113486071A (zh) * 2021-07-27 2021-10-08 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统
CN113486071B (zh) * 2021-07-27 2022-04-26 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统

Also Published As

Publication number Publication date
CN103258025B (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
CN103258025A (zh) 生成共现关键词的方法、提供关联搜索词的方法以及系统
JP6967612B2 (ja) 情報検索方法、装置及びシステム
US20190050487A1 (en) Search Method, Search Server and Search System
US9836539B2 (en) Content quality filtering without use of content
Kim et al. Topic chains for understanding a news corpus
CN103518187B (zh) 用于信息建模的方法和系统及其应用
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US20130103637A1 (en) System and methods thereof for detection of user demographic information
Schedl Leveraging microblogs for spatiotemporal music information retrieval
US10146775B2 (en) Apparatus, system and method for string disambiguation and entity ranking
JP2010020490A (ja) 未訪問地の情報提供装置及び未訪問地の情報提供方法
CN102110135A (zh) 信息处理装置、估计关联度的方法和程序
CN104794161A (zh) 对网络舆情监控的方法
WO2018058118A1 (en) Method, apparatus and client of processing information recommendation
CN103258045A (zh) 推荐内容确定系统和方法
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
JP2014532240A (ja) 情報の検索
CN111651678A (zh) 一种基于知识图谱的个性化推荐方法
JP6972770B2 (ja) 対話制御システム、プログラム、及び方法
Kamruzzaman et al. Text categorization using association rule and naive Bayes classifier
Medvet et al. Brand-related events detection, classification and summarization on twitter
CN102915381A (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
WO2019123113A1 (en) Clustering facets on a two-dimensional facet cube for text mining
Tarasova Classification of hate tweets and their reasons using svm
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant