CN102609433B - 基于用户日志进行查询推荐的方法及系统 - Google Patents

基于用户日志进行查询推荐的方法及系统 Download PDF

Info

Publication number
CN102609433B
CN102609433B CN2011104225621A CN201110422562A CN102609433B CN 102609433 B CN102609433 B CN 102609433B CN 2011104225621 A CN2011104225621 A CN 2011104225621A CN 201110422562 A CN201110422562 A CN 201110422562A CN 102609433 B CN102609433 B CN 102609433B
Authority
CN
China
Prior art keywords
degree
user
query
query string
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011104225621A
Other languages
English (en)
Other versions
CN102609433A (zh
Inventor
王继民
李雷明子
王建冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2011104225621A priority Critical patent/CN102609433B/zh
Publication of CN102609433A publication Critical patent/CN102609433A/zh
Application granted granted Critical
Publication of CN102609433B publication Critical patent/CN102609433B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户日志进行查询推荐的方法及系统,所述方法包括:根据用户日志中的数据集得到有效查询日志集合;选择典型查询串作为训练集,在有效查询日志集合中提取每个查询串的支持度、流行度、推荐度、共现度、相似度和关联度等六个特征指标,构建基于训练集的复合预测模型;对用户输入的查询串,提取候选查询串的六个特征指标,并将其作为变量输入到复合预测模型中,计算每一候选查询串与给定查询串的相关性大小,输出排序靠前的n个查询串;所述系统包括实现上述方法的数据准备模块、预测模型构建模块和处理输出模块。本发明充分利用搜索引擎用户日志,为用户推荐更加优质的查询串。

Description

基于用户日志进行查询推荐的方法及系统
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种基于用户日志进行查询推荐的方法及系统。
背景技术
随着万维网上信息数量的快速增长,越来越多的人使用搜索引擎去查找Web上的有用信息。2011年中国互联网络信息中心(CNNIC)的统计报告显示,在各种网络应用服务中搜索引擎的使用率已排名第一,并成为网民进入互联网的最主要入口。使用搜索引擎时,用户只需在搜索框中输入一个查询串(或称查询短语,query),检索系统就会根据用户输入的内容提供检索结果列表(result list),用户点击相应结果的URL到达相应网页。
虽然搜索引擎的技术在不断改进和提升,但仍旧存在如下问题:一方面,统计表明,用户输入的查询串普遍较短,平均只有2-4个汉字,在这种情况下,短语所表达的主题比较宽泛,容易产生歧义,从而不一定能确切反映用户的搜索意图;另一方面,即使用户提出的关键词是准确的,搜索引擎也仅仅是把与关键词匹配的结果返回给用户,结果具有通用性,不能很好的满足用户的个性化信息需求。因此,查询推荐(query suggestion)技术被广泛应用于各大主流的搜索引擎,即在系统返回结果的页面中包含了一个相关查询列表,从而为用户明确搜索意图提供思路、为修改查询提供参考,同时也能帮助搜索引擎进行更精确的定位,提高搜索结果的质量。
目前,根据推荐内容的来源,查询推荐方法可分为两类:基于文档的方法和基于用户日志的方法。由于搜索引擎日志本身包含了大量构造完整的查询,故比较容易发现查询之间的各种联系,因此基于搜索引擎日志的方法成为查询推荐的主流。
根据所利用日志的内容,基于日志的查询推荐方法可分为三类:基于查询串、基于点击网页地址(URL)、基于用户会话(Session)。基于查询串的方法利用输入的查询内容之间的相似度计算查询相关度,查询内容可以包括查询所对应用户点击结果的锚文本、摘要等信息;基于点击URL的方法利用两查询中相同或相似的点击URL作为特征,计算两查询间的相关度;基于用户会话的方法则根据两查询在同一搜索过程(Session)中共现的次数计算相关度。
根据所使用的技术方法,基于日志的查询推荐可分为如下几类:基于聚类方法的推荐、基于关联规则的推荐、基于时间分布的推荐等。基于聚类的方法试图对查询串进行聚类发现相关查询,也可构造由查询串和点击URL组成的二部图来寻找相关查询串,该方法存在数据稀疏问题,需要丰富的日志数据做支撑。基于关联规则的方法中,把查询短语视为关联规则的项,把查询日志看作会话的集合,从而推荐统会话中共同出现的高频词汇,该方法需要准确划分session;基于时间分布的推荐,则考虑到相似查询的搜索频率在时间分布上应该是相似的,特殊的时间点通常有特殊的查询和推荐,这类方法可以作为其他方法的一种补充应用在查询推荐系统中。
传统的查询推荐,很多是基于文档的推荐,或者利用大量的文档信息,或者利用人工编辑的语义资源,但通常计算量大,尤其不再适合网络内容更新频繁、新事物层出不穷、搜索意图多元化的Web检索系统推荐。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:提供一种基于用户日志进行查询推荐的方法及系统,以充分利用搜索引擎用户日志,为用户提供最可能反应其查询意向且系统具有最佳反馈结果的查询串。
(二)技术方案
为解决上述问题,一方面,本发明提供了一种基于用户日志进行查询推荐的方法,包括以下步骤:
S1:对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,得到有效查询日志集合,作为第一数据集;
S2:提取第一数据集中每一个查询串的支持度、流行度和推荐度指标,选择满足这三个特征指标最小阈值的查询串与用户记录,作为第二数据集;
S3:选择多个典型查询串作为训练数据,作为第一训练样本集;
S4:对第一训练样本集中的每一查询串,在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串,然后标注所述候选相关查询串与给定查询串的相关性,作为第二训练样本集;
S5:构建预测模型,基于所述第二训练样本集,学习获得所述预测模型的参数取值;
S6:对用户输入的查询串,在第二数据集中找到与用户输入的查询串具有设定阈值以上相似度、共现度和关联度的查询串,作为候选查询集;
S7:将所述候选查询集中每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标作为变量输入到所述预测模型中,计算每一候选查询串与给定查询串的相关性大小,输出排序靠前的n个查询串。
优选地,所述步骤S1根据时间对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,具体步骤为:
S11:选择一个确定时间段内的用户日志数据;
S12:提取所述确定时间段内用户日志数据中与用户查询与点击的相关信息;
S13:删除所述用户日志数据中异常查询和查询为空的数据。
S14:去掉过长或者过短的无效查询;
S15:将查询中的英文字母全部转化为小写,并去除查询串中的多余空格以及乱码;
S16:进行用户会话的划分。
优选地,在所述步骤S2和S5之间还包括对第二数据集的查询串提取的支持度、流行度、以及推荐度进行归一化处理的步骤;
在所述步骤S4和S5之间还包括对相关查询串提取的共现度、相似度以及关联度指标进行归一化处理的步骤;
所述步骤S7还包括将所述第二候选集合中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理的步骤。
优选地,通过下面的公式对所述提取的支持度、流行度、推荐度指标进行归一化处理:
x j ‾ = log ( x j ) / max { log ( x j ) } , ( j = 1,2,3 )
其中,x1、x2和x3分别表示提取的支持度、流行度和推荐度数值;分别表示归一化处理后的支持度、流行度和推荐度数值。
优选地,通过下面的公式对所述提取的共现度和关联度进行归一化处理:
x j ‾ = L ( q 0 , q i ) / max ( L ( q 0 ) , L ( q i ) ) , ( j = 4,6 )
其中,
Figure GDA0000150067970000044
Figure GDA0000150067970000045
分别表示归一化处理后的共现度和关联度数值。就共现度而言,L(q0)和L(qi)分别表示查询串q0和qi含有词项的个数,用L(q0,qi)表示q0与qi含有的公共词项的个数。就关联度而言,L(q0)和L(qi)分别表示在长度大于1的用户会话中查询串q0和qi各自出现的频次,用L(q0,qi)表示q0和qi在同一会话中共同出现的频次。
优选地,通过下面的公式对所述提取的相似度进行归一化处理:
x 5 ‾ = N ( q 0 , q i ) / max ( N ( q 0 ) , N ( q i ) )
其中N(qi)表示查询串为qi时点击所有URL的多重集合的大小,N(q0)表示查询串为q0时点击所有URL的多重集合的大小,N(q0,qi)表示查询串q0与qi共同点击的URL多重集合的大小。
优选地,通过下面的公式对所述提取的相似度进行归一化处理:
x 5 ‾ = Σ k = 1 s ( p k * w ok * w ik ) / ( | | q 0 | | | | * | | | | q i | | )
这里设查询串q0与qi所对应点击的所有不同URL的集合为Qi,按一定序排列组成向量
Figure GDA0000150067970000053
查询串q0的点击次数分别为{w01,...,w0s},查询串qi的点击次数分别为{wi1,...,wis};则查询串q0和qi可分别表示为两个向量:q0=(w01,...,w0s)和qi=(wi1,...,wis),并定义基于“查询串q0与qi点击相同URL数量”的相似度为向量加权夹角的余弦;
Figure GDA0000150067970000054
分别表示归一化处理后的相似度数值,范数
Figure GDA0000150067970000056
范数
Figure GDA0000150067970000057
其中(q0·q0)和(qi·qi)为标准向量内积。
优选地,步骤S5中构建的预测模型包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型,基于所述第二训练样本集,分别学习获得所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型的参数取值。
优选地,所述步骤S5还包括通过投票策略将所述包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型进行组合,得到复合预测模型;
所述步骤S7分别通过所述包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型,得到每个预测模型的推荐结果,再通过所述复合预测模型,得到最终的推荐结果。
优选地,所述步骤S6中还包括对用户输入的任意查询串进行包括多余空格的删除、字符串的分词以及大小写字母转换的预处理步骤。
另一方面,本发明还提供了一种用于实现上述方法的基于用户日志进行查询推荐的系统,包括:数据准备模块,用于对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,得到有效查询日志集合,作为第一数据集;并提取第一数据集中每一个查询串的支持度、流行度和推荐度指标,选择满足这三个特征指标最小阈值的查询串与用户记录,作为第二数据集;
预测模型构建模块,用于选择多个典型查询串作为训练数据,作为第一训练样本集;对第一训练样本集中的每一查询串,在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串,然后标注与给定查询串的相关性,作为第二训练样本集;构建复合预测模型,基于所述第二训练样本集,学习获得所述预测模型的参数取值;
处理输出模块,用于对用户输入的查询串,在第二数据集中找到与具有设定阈值以上相似度、共现度和关联度的查询串,作为候选查询集;并将所述候选查询集中每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标作为变量输入到所述复合预测模型中,计算每一候选查询串与给定查询串的相关性大小,输出排序靠前的n个查询串。
(三)有益效果
本发明充分利用了海量用户日志中的查询串被查询的次数、用户的数量、URL点击次数,搜索词之间共有词项的数量、点击相同URL数量、同一会话中不同查询串的共现次数等,可以更好的发现查询意图之间的语义相关,对新词和热词的反应也更加敏锐,进而有效提高查询推荐的质量。
本发明从语法和语义两个层面度量了推荐查询的相关性,其中,语法层面重点考察了不同查询串之间的字面匹配程度,而语义的相关性则通过用户共同点击和关联等特征指标而得以反映。此外,由于在训练的过程中,训练样本的标记也同样考虑了语义和语法两个层面,故模型具有很好的适应性。
附图说明
图1为根据本发明实施例查询推荐方法的步骤流程图;
图2为根据本发明实施例查询推荐方法步骤1的具体步骤流程图;
图3为根据本发明实施例查询推荐方法步骤S6和S7的流程示意图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明如下。
实施例一:
本实施例记载了一种基于用户日志进行查询推荐的方法,即对一个用户任意给定的查询串q,从某一时间段的用户(查询与点击)日志中,找到具有较好反馈结果且与所述给定的查询串较相关的若干个查询串{q1,q2,..qn}并推荐给用户。
如图1所示,所述查询推荐的方法包括以下步骤:
S1:对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,得到有效查询日志集合,作为第一数据集;
用户日志是指用户与系统交互的记录,通常,它包括用户查询时提交给系统的查询串、提交时间、用户IP地址、用户点击的URL等信息,表1为系统查询用户日志的一条记录中的主要信息内容。
表1.系统查询用户日志的内容和说明
  目志内容   说明
  Fri May 23 18:43:59 2011   点击的时间
  162.105.146.*   用户IP
  专利申请   输入的查询串
  http://www.sipo.gov.cn/sipo/zlsq/   点击的URL
  2   点击页面的排序
  5   点击页面中的第几条结果
由于日志记录的海量性,故需要首先对数据集进行缩减,包括选择特定时间段的日志和去掉无关行为分析。对一个大规模Web搜索引擎系统而言,短期内用户提交不同查询串的数量服从重尾分布,并且用户的查询及点击行为具有自相似性的特征,所以我们只需选择一个确定时间段(如一周、两周或一个月)内的日志数据即可;在给定的时间段内,提取与用户查询与点击的相关信息,过滤掉与本方法无关的用户行为信息(点击如页面排序),可以缩减数据集的大小。
如图2所示,所述步骤S1的具体步骤为:
S11:选择一个确定时间段内的用户日志数据;
S12:提取所述确定时间段内用户日志数据中与用户查询与点击的相关信息;
S13:删除所述用户日志数据中异常查询和查询为空的数据:
其中,异常查询是指一个查询的查询量很高但是来自于个别用户,这通常是由元搜索引擎中爬取器的频繁访问或其它的恶意攻击所导致。例如,删除一天内来自同一IP地址且查询次数超过300次的用户记录,因为正常情况下单个用户进行如此多查询的可能性不大,由于存在多个用户共用一个IP地址的情况,所以这样做可能会导致一些记录的误删除,但这一比例并不高,大致有2%左右。
查询为空的记录通常是由误操作引起的,对推荐相关查询没有帮助。
S14:去掉过长或者过短的无效查询;对于候选查询串的长度,限制在4到20个字节之间,即不考虑过短(如一个汉字)或者过长的查询,这是由于已有的研究表明:中文搜索引擎用户的查询一般为2到4个汉字。
S15:将查询中的英文字母全部转化为小写,并去除查询串中的多余空格以及乱码;
S16:根据IP+cookie+15分钟的通用规则,进行用户会话的划分。
经过步骤1对所述用户日志作上述预处理,将极大地提高本实施例查询推荐方法发现相近查询的效率和精度。
S2:提取第一数据集中每一个查询串的支持度、流行度和推荐度指标,选择满足这三个特征指标最小阈值的查询串与用户记录,作为第二数据集;
即从经过预处理的搜索引擎日志文件中抽取每个查询串的:支持度:向系统提交查询串的总次数;流行度:统计向系统提交查询串的不同用户的数量;推荐度:查询为本查询串时,用户点击URL的总次数(重复的URL,按重数计)。
设定各指标的最小阈值;过滤掉一部分查询串及其用户记录。
S3:选择多个典型的查询串作为训练数据,作为第一训练样本集;
本实施例中,选择几十个典型的查询串作为模型的训练数据,具体选择时可以根据需求做适当调整,如要做综合搜索引擎的查询推荐,训练集应尽量涉及大众搜索的各个领域;对于某垂直搜索引擎,如图片搜索、音乐搜索、甚至专利搜索和某些网站的站内搜索,可以抽取该垂直领域或具体领域中具有代表性和普适性的搜索词汇;如果任务是关于广告的优化和不同时间内热点查询的推荐,也可以把该时段的搜索词作为训练数据,如在春节期间的推荐,我们可以抽取历年春节前后的搜索查询串,以便推荐结果具有时间的特性。
一般来说,用户查询可以粗分为3类:信息型(Informational)、导航型(Navigational)和事务型(Transactional)。其中,信息型查询表示用户想要查找主题相关的Web页面,即所查找的页面内容可以满足用户的信息需求,如某一事件的报道、影视介绍、小说、人名等;导航型查询表示用户想要查找一个指定名称的站点或主页,如某一机构、公司的网站名称等;事务型查询表示用户想要查找一个服务入口,以便进行下一步的访问,如软件、图片、音乐等资源的下载。通常,用户进行信息型、导航型与事务型查询的数量之比约为5∶2∶3。
S4:对第一训练样本集中的每一查询串,在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串,然后标注所述候选相关查询串与给定查询串的相关性,作为第二训练样本集;
其中,共现度是指两个查询串共有词项的数量,如查询串“专利申请”和“专利查询”;这两个查询串分词后分别为“专利”、“申请”和“专利”、“查询”,则两者共有一个词项“专利”。这里需要说明的是,中文搜索引擎系统在对文档和用户提交的查询进行预处理时要进行分词操作,将查询转化为词项的集合,对一个中文字串,不同分词系统的切分结果可能存在一定的差异,这主要是与分词系统的词典大小与选用的算法有关。
相似度是指两个查询串点击相同URL的数量;例如查询串“人工智能”和“机器学习”均点击了同一URL:http://product.china-pub.com/15,那么这两个查询串可能具有语义上的相似性。
关联度是指两个查询串在同一用户会话中的共现次数,在一次查询中,若有很多用户将两个不同的查询串关联起来,则两者可能是语义相关的。
对给定的每一用户查询,分别提取候选相关查询的支持度、流行度、推荐度、共现度、相似度和关联度指标,然后进行数据的归一化处理;
其中:
1)对某一查询串而言,由于用户的查询次数(支持度)、不同用户的数量(流行度)、用户的点击次数(推荐度)通常服从重尾分布(或类Zipf分布),因此可以将指标数据按比例缩放,使之落入一个小的特定区间,如[0,1]内,本实施例通过下面的公式对所述提取的支持度、流行度、推荐度指标进行归一化处理:
x j ‾ = log ( x j ) / max { log ( x j ) } , ( j = 1,2,3 )
其中,x1、x2和x3分别表示提取的支持度、流行度和推荐度数值;
Figure GDA0000150067970000112
分别表示归一化处理后的支持度、流行度和推荐度数值。
2)通过下面的公式对所述提取的共现度和关联度进行归一化处理:
x j ‾ = L ( q 0 , q i ) / max ( L ( q 0 ) , L ( q i ) ) , ( j = 4,6 )
其中,
Figure GDA0000150067970000114
Figure GDA0000150067970000115
分别表示归一化处理后的共现度和关联度数值。就共现度而言,L(q0)和L(qi)分别表示查询串q0和qi含有词项的个数,用L(q0,qi)表示q0与qi含有的公共词项的个数。就关联度而言,L(q0)和L(qi)分别表示在长度大于1的用户会话中查询串q0和qi各自出现的频次,用L(q0,qi)表示q0和qi在同一会话中共同出现的频次。
3)对于相似度这一特征指标,有两种方法可以用于对其进行归一化处理:
第一种方法是通过下面的公式进行:
x 5 ‾ = N ( q 0 , q i ) / max ( N ( q 0 ) , N ( q i ) )
其中N(qi)表示查询串为qi时点击所有URL的多重集合的大小,N(q0)表示查询串为q0时点击所有URL的多重集合的大小,N(q0,qi)表示查询串q0与qi共同点击的URL多重集合的大小。
第二种方法是通过下面的公式进行:
x 5 ‾ = Σ k = 1 s ( p k * w ok * w ik ) / ( | | q 0 | | | | * | | | | q i | | )
这里设查询串q0与qi所对应点击的所有不同URL的集合为Qi,按一定序排列组成向量
Figure GDA0000150067970000118
查询串q0的点击次数分别为{w01,...,w0s},查询串qi的点击次数分别为{wi1,...,wis};将q0和qi分别表示为两个向量:q0=(w01,...,w0s)和qi=(wi1,...,wis),并定义基于“查询串q0与qi点击相同URL数量”的相似度为向量加权夹角的余弦;
Figure GDA0000150067970000121
分别表示归一化处理后的相似度数值,
Figure GDA0000150067970000122
范数
Figure GDA0000150067970000123
范数
Figure GDA0000150067970000124
其中(q0·q0)和(qi·qi)为标准向量内积。
其中,第二种方法不仅考虑了q0和qi对应共同点击URL的数量,也可反映不同URL对q0的重要度。
对第一训练样本集中的每一查询串,在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串(本实施例中依情况限定在30-50个为宜),并结合其字符串的语义与语法相似性,标注其二者之间的相关性,并根据相关性程度进行分类,例如将相关性的数值可标为三级:0-不相关,1-有点相关,2-非常相关。由此,构成第二训练样本集;
S5:构建预测模型,基于所述第二训练样本集,学习获得所述预测模型的参数取值;
在本实施例中,所使用的预测模型包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型,其中:
1)多元线性回归模型M1:将一个查询串与给定查询q0的相关性简单看作是由上述六个指标(解释变量)的一个线性函数,可用最小二乘法求解参数。
2)Logistic回归模型M2:用于因变量为二分类(或多分类)取值与自变量之间关系的一种多变量分析方法,属于概率型非线性回归模型。
3)支持向量回归模型M3:基于结构风险最小化准则,具有较好推广能力,且适应于小样本回归分析,对文本信息处理有较好的预测结果。
4)BP神经网络模型M4:具有很强的自学习和非线性逼近能力,以及较好的容错性,是目前应用最广泛的神经网络模型之一。它使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。
基于所述第二训练样本集,分别学习获得所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型的参数取值。
然后通过投票策略将所述包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型进行组合,得到复合预测模型;目前使用较多的投票组合方法是装袋(Bagging)和提升(Boosting)方法,两者皆可显著提高模型预测的准确率。这如同一个病人,很多医生的诊断通常会比单个医生的诊断结果更可靠。
下面根据上面步骤得到的预测模型,对用户输入的任意查询串,获得前n个与该查询串相关的查询串推荐给用户,如图3所示,具体包括步骤S6-S7:
S6:对用户输入的查询串,在第二数据集中找到与用户输入的查询串具有设定阈值以上相似度、共现度和关联度的查询串,作为候选查询集;通常截取50个左右为宜;
其中,对于用户输入的任意查询串,本实施例还进行包括多余空格的删除、字符串的分词以及大小写字母转换的预处理步骤。
S7:将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理之后作为变量分别输入所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型中,得到每个预测模型的推荐结果,再通过所述复合预测模型M,得到最终的推荐结果。根据需要,可以将所述最终的推荐结果按相关性大小进行排序,最后输出前n个结果作为用户输入的任意查询串的相关查询,反馈给用户。
实施例二:
本实施例记载了一种用于实现上述方法的基于用户日志进行查询推荐的系统,包括:
数据准备模块,用于对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,得到有效查询日志集合,作为第一数据集;并提取第一数据集中每一个查询串的支持度、流行度和推荐度指标,选择满足这三个特征指标最小阈值的查询串与用户记录,作为第二数据集;
预测模型构建模块,用于选择多个典型查询串作为训练数据,作为第一训练样本集;对第一训练样本集中的每一查询串,在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串,然后标注与给定查询串的相关性,作为第二训练样本集;构建复合预测模型,基于所述第二训练样本集,学习获得所述预测模型的参数取值;
处理输出模块,用于对用户输入的查询串,在第二数据集中找到与具有设定阈值以上相似度、共现度和关联度的查询串,作为候选查询集;并将所述候选查询集中每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标作为变量输入到所述复合预测模型中,计算每一候选查询串与给定查询串的相关性大小,输出排序靠前的n个查询串。
本发明充分利用搜索引擎用户日志,为用户推荐更加优质的查询串。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (8)

1.一种基于用户日志进行查询推荐的方法,其特征在于,包括以下步骤: 
S1:对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,得到有效查询日志集合,作为第一数据集; 
S2:提取第一数据集中每一个查询串的支持度、流行度和推荐度指标,选择满足这三个特征指标最小阈值的查询串与用户记录,作为第二数据集; 
S3:选择多个典型查询串作为训练数据,作为第一训练样本集; 
S4:对第一训练样本集中的每一查询串,在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串,然后标注所述候选相关查询串与给定查询串的相关性,作为第二训练样本集; 
S5:构建预测模型,基于所述第二训练样本集,分别学习获得多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型的参数取值;通过投票策略将包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型进行组合,得到复合预测模型; 
S6:对用户输入的查询串,在第二数据集中找到与用户输入的查询串具有设定阈值以上相似度、共现度和关联度的查询串,作为候选查询集; 
S7:将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理之后作为变量分别输入所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型中,得到每个预测模型的推荐结果,再通过所述复合预测模型M,得到最终的推荐结果;将所述最终的推荐结果 按相关性大小进行排序,最后输出前n个结果作为用户输入的任意查询串的相关查询,反馈给用户; 
其中,在所述步骤S2和S5之间还包括对第二数据集的查询串提取的支持度、流行度、以及推荐度进行归一化处理的步骤; 
在所述步骤S4和S5之间还包括对相关查询串提取的共现度、相似度以及关联度指标进行归一化处理的步骤; 
所述步骤S7还包括将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理的步骤。 
2.如权利要求1所述的基于用户日志进行查询推荐的方法,其特征在于,所述步骤S1根据时间对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,具体步骤为: 
S11:选择一个确定时间段内的用户日志数据; 
S12:提取所述确定时间段内用户日志数据中与用户查询与点击的相关信息; 
S13:删除所述用户日志数据中异常查询和查询为空的数据; 
S14:去掉过长或者过短的无效查询; 
S15:将查询中的英文字母全部转化为小写,并去除查询串中的多余空格以及乱码; 
S16:进行用户会话的划分。 
3.如权利要求1所述的基于用户日志进行查询推荐的方法,其特征在于,通过下面的公式对所述提取的支持度、流行度、推荐度指标进行归一化处理: 
Figure FDA00003394134000021
其中,x1、x2和x3分别表示提取的支持度、流行度和推荐度数值; 
Figure FDA00003394134000022
分别表示归一化处理后的支持度、流行度和推荐度数值。 
4.如权利要求1所述的基于用户日志进行查询推荐的方法,其 特征在于,通过下面的公式对所述提取的共现度和关联度进行归一化处理: 
Figure FDA00003394134000031
其中,
Figure FDA00003394134000032
Figure FDA00003394134000033
分别表示归一化处理后的共现度和关联度数值,L(q0)和L(qi)分别表示查询串q0和qi含有词项的个数,用L(q0,qi)表示q0与qi含有的公共词项的个数。 
5.如权利要求1所述的基于用户日志进行查询推荐的方法,其特征在于,通过下面的公式对所述提取的相似度进行归一化处理: 
Figure FDA00003394134000034
其中N(qi)表示查询串为qi时点击所有URL的多重集合的大小,N(q0)表示查询串为q0时点击所有URL的多重集合的大小,N(q0,qi)表示查询串q0与qi共同点击的URL多重集合的大小。 
6.如权利要求1所述的基于用户日志进行查询推荐的方法,其特征在于,通过下面的公式对所述提取的相似度进行归一化处理: 
Figure FDA00003394134000035
这里设查询串q0与qi所对应点击的所有不同URL的集合为Qi,按一定序排列组成向量
Figure FDA000033941340000310
,查询串q0的点击次数分别为{w01,...,w0s},查询串qi的点击次数分别为{wi1,...,wis};则查询串q0和qi分别表示为两个向量:q0=(w01,...,w0s)和qi=(wi1,...,wis),并定义基于“查询串q0与qi点击相同URL数量”的相似度为向量加权夹角的余弦; 
分别表示归一化处理后的相似度数值,
Figure FDA00003394134000037
范数 范数
Figure FDA00003394134000039
其中(q0·q0)和(qi·qi)为标准向量内积。 
7.如权利要求1所述的基于用户日志进行查询推荐的方法,其特征在于,所述步骤S6中还包括对用户输入的任意查询串进行包括多余空格的删除、字符串的分词以及大小写字母转换的预处理步骤。 
8.一种用于实现权利要求1-7所述方法的基于用户日志进行查询推荐的系统,其特征在于,包括: 
数据准备模块,用于对搜索引擎用户日志中的数据集进行选择,并对所述选择的数据集进行预处理,得到有效查询日志集合,作为第一数据集;并提取第一数据集中每一个查询串的支持度、流行度和推荐度指标,选择满足这三个特征指标最小阈值的查询串与用户记录,作为第二数据集; 
预测模型构建模块,用于选择多个典型查询串作为训练数据,作为第一训练样本集;对第一训练样本集中的每一查询串,在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串,然后标注与给定查询串的相关性,作为第二训练样本集;构建复合预测模型,基于所述第二训练样本集,分别学习获得多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型的参数取值;通过投票策略将包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型进行组合,得到复合预测模型; 
处理输出模块,用于对用户输入的查询串,在第二数据集中找到与具有设定阈值以上相似度、共现度和关联度的查询串,作为候选查询集;将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理之后作为变量分别输入所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型中,得到每个预测模型的推荐结果,再通过所述复合预测模型M,得到最终的推荐结果;将所述最终的推荐结果按相关性大小进行排序,最后输出前n个结果作为用户输入的任意查询串的相关查询,反馈给用户; 
其中,还包括对第二数据集的查询串提取的支持度、流行度、以及推荐度进行归一化处理; 
对相关查询串提取的共现度、相似度以及关联度指标进行归一化处理; 
将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理。 
CN2011104225621A 2011-12-16 2011-12-16 基于用户日志进行查询推荐的方法及系统 Expired - Fee Related CN102609433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104225621A CN102609433B (zh) 2011-12-16 2011-12-16 基于用户日志进行查询推荐的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104225621A CN102609433B (zh) 2011-12-16 2011-12-16 基于用户日志进行查询推荐的方法及系统

Publications (2)

Publication Number Publication Date
CN102609433A CN102609433A (zh) 2012-07-25
CN102609433B true CN102609433B (zh) 2013-11-20

Family

ID=46526810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104225621A Expired - Fee Related CN102609433B (zh) 2011-12-16 2011-12-16 基于用户日志进行查询推荐的方法及系统

Country Status (1)

Country Link
CN (1) CN102609433B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914743B (zh) * 2014-04-21 2017-01-25 中国科学技术大学先进技术研究院 一种基于自回归模型的在线连载内容流行度预测方法

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729351B (zh) * 2012-10-10 2017-10-03 阿里巴巴集团控股有限公司 查询词推荐方法及装置
CN102999589B (zh) * 2012-11-15 2017-04-19 Tcl集团股份有限公司 一种推荐排序的方法及系统
CN103914492B (zh) * 2013-01-09 2018-02-27 阿里巴巴集团控股有限公司 查询词融合方法、商品信息发布方法和搜索方法及系统
CN103150409B (zh) * 2013-04-08 2017-04-12 深圳市宜搜科技发展有限公司 一种用户检索词推荐的方法及系统
CN103164537B (zh) * 2013-04-09 2016-01-13 浙江鸿程计算机系统有限公司 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN103279486B (zh) * 2013-04-24 2019-03-08 百度在线网络技术(北京)有限公司 一种提供相关搜索的方法和装置
CN103700003A (zh) * 2013-12-30 2014-04-02 陶鹏 基于意愿符合度匹配的房屋网上直租方法和系统
CN105335391B (zh) * 2014-07-09 2019-02-15 阿里巴巴集团控股有限公司 基于搜索引擎的搜索请求的处理方法和装置
CN105376506A (zh) * 2014-08-27 2016-03-02 江南大学 图像模式噪声相关性预测器的设计
CN104331459B (zh) * 2014-10-31 2018-07-06 百度在线网络技术(北京)有限公司 一种基于在线学习的网络资源推荐方法及装置
CN104572836A (zh) * 2014-12-10 2015-04-29 百度在线网络技术(北京)有限公司 一种确定候选查询序列的综合相关度的方法与装置
CN104679858B (zh) * 2015-02-16 2018-10-09 华为技术有限公司 一种查询数据的方法和装置
CN104615790B (zh) * 2015-03-09 2018-05-04 百度在线网络技术(北京)有限公司 特征推荐方法和装置
CN106372956B (zh) * 2015-07-23 2020-03-24 苏宁云计算有限公司 一种基于用户搜索日志进行意图实体识别的方法和系统
CN106372090B (zh) * 2015-07-23 2021-02-09 江苏苏宁云计算有限公司 一种查询聚类方法及装置
CN105512178B (zh) * 2015-11-25 2019-02-05 百度在线网络技术(北京)有限公司 一种实体推荐方法及装置
CN106803092B (zh) * 2015-11-26 2020-07-10 阿里巴巴集团控股有限公司 一种标准问题数据的确定方法及装置
CN105718444B (zh) * 2016-01-26 2018-05-11 中国人民解放军国防科学技术大学 基于新闻语料的金融概念对应股票关联方法及其装置
CN105956204B (zh) * 2016-07-01 2019-08-02 北京奇虎科技有限公司 会话Session满意度评估的方法及装置
CN107767152B (zh) * 2016-08-16 2020-11-20 平安科技(深圳)有限公司 产品购买倾向分析方法及服务器
CN106383917A (zh) * 2016-11-11 2017-02-08 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理方法
CN106528798A (zh) * 2016-11-11 2017-03-22 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理系统
CN106557563B (zh) * 2016-11-15 2020-09-25 北京百度网讯科技有限公司 基于人工智能的查询语句推荐方法及装置
CN108170693B (zh) * 2016-12-07 2020-07-31 北京国双科技有限公司 推送热词的方法及装置
CN106846064B (zh) * 2017-02-04 2021-04-06 苏州大数聚信息技术有限公司 基于共现关系的软件潜力排序方法
CN108664508B (zh) * 2017-03-31 2021-12-24 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN107273436A (zh) * 2017-05-24 2017-10-20 北京京东尚科信息技术有限公司 一种推荐模型的训练方法和训练装置
CN107301208A (zh) * 2017-06-02 2017-10-27 北京奇虎科技有限公司 一种数据表处理方法和装置
CN107330672B (zh) * 2017-07-03 2021-02-26 北京拉勾科技有限公司 一种基于相似度的信息处理方法、装置及计算设备
CN107357919A (zh) * 2017-07-21 2017-11-17 携程旅游网络技术(上海)有限公司 行为日志查询系统及方法
CN107679211B (zh) * 2017-10-17 2021-12-28 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107885875B (zh) * 2017-11-28 2022-07-08 北京百度网讯科技有限公司 检索词的同义变换方法、装置及服务器
CN108566434B (zh) * 2018-05-03 2020-04-17 北京邮电大学 一种基于流行度与节点重要度的缓存方法及装置
CN109637651A (zh) * 2018-10-31 2019-04-16 北京春雨天下软件有限公司 多医生推荐方法及装置、在线会诊系统
CN110188261A (zh) * 2019-05-30 2019-08-30 江苏神州信源系统工程有限公司 一种热点对象确定方法及装置
CN110555165B (zh) * 2019-07-23 2023-04-07 平安科技(深圳)有限公司 信息识别方法、装置、计算机设备和存储介质
CN110414591B (zh) * 2019-07-24 2022-07-12 腾讯科技(武汉)有限公司 一种数据处理方法以及设备
CN111274359B (zh) * 2020-01-20 2022-06-14 福州大学 基于改进vhred与强化学习的查询推荐方法及系统
CN111666308B (zh) * 2020-06-03 2022-09-30 国家计算机网络与信息安全管理中心 一种基于行为分析的大数据智能推荐查询方法和系统
CN112182193B (zh) * 2020-10-19 2023-01-13 山东旗帜信息有限公司 一种交通行业中日志获取方法、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996316A (zh) * 2007-01-09 2007-07-11 天津大学 基于网页相关性的搜索引擎搜索方法
CN101520785A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息检索方法和系统
CN102253982A (zh) * 2011-06-24 2011-11-23 北京理工大学 一种基于查询语义和点击流数据的查询建议方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996316A (zh) * 2007-01-09 2007-07-11 天津大学 基于网页相关性的搜索引擎搜索方法
CN101520785A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息检索方法和系统
CN102253982A (zh) * 2011-06-24 2011-11-23 北京理工大学 一种基于查询语义和点击流数据的查询建议方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914743B (zh) * 2014-04-21 2017-01-25 中国科学技术大学先进技术研究院 一种基于自回归模型的在线连载内容流行度预测方法

Also Published As

Publication number Publication date
CN102609433A (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN102609433B (zh) 基于用户日志进行查询推荐的方法及系统
EP3819792A2 (en) Method, apparatus, device, and storage medium for intention recommendation
Eke et al. Sarcasm identification in textual data: systematic review, research challenges and open directions
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
US20160070731A1 (en) Analytics based on scalable hierarchical categorization of web content
CN104885081A (zh) 搜索系统和相应方法
CN103902652A (zh) 自动问答系统
Van de Camp et al. The socialist network
CN103886099B (zh) 一种模糊概念的语义检索系统及方法
CN102622450A (zh) 用户的浏览器历史的相关性排序
US20110072025A1 (en) Ranking entity relations using external corpus
CN102722501A (zh) 搜索引擎及其实现方法
CN103455487A (zh) 一种搜索词的提取方法及装置
CN101916294A (zh) 一种利用语义分析实现精确搜索的方法
KR102107474B1 (ko) 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법
Asgari-Bidhendi et al. Farsbase: The persian knowledge graph
Hu et al. Embracing information explosion without choking: Clustering and labeling in microblogging
Jin et al. Tise: A temporal search engine for web contents
Wang et al. A government policy analysis platform based on knowledge graph
CN112231547A (zh) 一种基于知识图谱的内容推荐方法和系统
Ahamed et al. Deduce user search progression with feedback session
KR102454261B1 (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법
Samarawickrama et al. Focused web crawling using named entity recognition for narrow domains
Dufour et al. LIA@ CLEF 2018: Mining events opinion argumentation from raw unlabeled Twitter data using convolutional neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131120