CN102609433B

CN102609433B - 基于用户日志进行查询推荐的方法及系统

Info

Publication number: CN102609433B
Application number: CN2011104225621A
Authority: CN
Inventors: 王继民; 李雷明子; 王建冬
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2013-11-20
Anticipated expiration: 2031-12-16
Also published as: CN102609433A

Abstract

本发明公开了一种基于用户日志进行查询推荐的方法及系统，所述方法包括：根据用户日志中的数据集得到有效查询日志集合；选择典型查询串作为训练集，在有效查询日志集合中提取每个查询串的支持度、流行度、推荐度、共现度、相似度和关联度等六个特征指标，构建基于训练集的复合预测模型；对用户输入的查询串，提取候选查询串的六个特征指标，并将其作为变量输入到复合预测模型中，计算每一候选查询串与给定查询串的相关性大小，输出排序靠前的n个查询串；所述系统包括实现上述方法的数据准备模块、预测模型构建模块和处理输出模块。本发明充分利用搜索引擎用户日志，为用户推荐更加优质的查询串。

Description

基于用户日志进行查询推荐的方法及系统

技术领域

本发明涉及搜索引擎技术领域，尤其涉及一种基于用户日志进行查询推荐的方法及系统。

背景技术

随着万维网上信息数量的快速增长，越来越多的人使用搜索引擎去查找Web上的有用信息。2011年中国互联网络信息中心(CNNIC)的统计报告显示，在各种网络应用服务中搜索引擎的使用率已排名第一，并成为网民进入互联网的最主要入口。使用搜索引擎时，用户只需在搜索框中输入一个查询串(或称查询短语，query)，检索系统就会根据用户输入的内容提供检索结果列表(result list)，用户点击相应结果的URL到达相应网页。

虽然搜索引擎的技术在不断改进和提升，但仍旧存在如下问题：一方面，统计表明，用户输入的查询串普遍较短，平均只有2-4个汉字，在这种情况下，短语所表达的主题比较宽泛，容易产生歧义，从而不一定能确切反映用户的搜索意图；另一方面，即使用户提出的关键词是准确的，搜索引擎也仅仅是把与关键词匹配的结果返回给用户，结果具有通用性，不能很好的满足用户的个性化信息需求。因此，查询推荐(query suggestion)技术被广泛应用于各大主流的搜索引擎，即在系统返回结果的页面中包含了一个相关查询列表，从而为用户明确搜索意图提供思路、为修改查询提供参考，同时也能帮助搜索引擎进行更精确的定位，提高搜索结果的质量。

目前，根据推荐内容的来源，查询推荐方法可分为两类：基于文档的方法和基于用户日志的方法。由于搜索引擎日志本身包含了大量构造完整的查询，故比较容易发现查询之间的各种联系，因此基于搜索引擎日志的方法成为查询推荐的主流。

根据所利用日志的内容，基于日志的查询推荐方法可分为三类：基于查询串、基于点击网页地址(URL)、基于用户会话(Session)。基于查询串的方法利用输入的查询内容之间的相似度计算查询相关度，查询内容可以包括查询所对应用户点击结果的锚文本、摘要等信息；基于点击URL的方法利用两查询中相同或相似的点击URL作为特征，计算两查询间的相关度；基于用户会话的方法则根据两查询在同一搜索过程(Session)中共现的次数计算相关度。

根据所使用的技术方法，基于日志的查询推荐可分为如下几类：基于聚类方法的推荐、基于关联规则的推荐、基于时间分布的推荐等。基于聚类的方法试图对查询串进行聚类发现相关查询，也可构造由查询串和点击URL组成的二部图来寻找相关查询串，该方法存在数据稀疏问题，需要丰富的日志数据做支撑。基于关联规则的方法中，把查询短语视为关联规则的项，把查询日志看作会话的集合，从而推荐统会话中共同出现的高频词汇，该方法需要准确划分session；基于时间分布的推荐，则考虑到相似查询的搜索频率在时间分布上应该是相似的，特殊的时间点通常有特殊的查询和推荐，这类方法可以作为其他方法的一种补充应用在查询推荐系统中。

传统的查询推荐，很多是基于文档的推荐，或者利用大量的文档信息，或者利用人工编辑的语义资源，但通常计算量大，尤其不再适合网络内容更新频繁、新事物层出不穷、搜索意图多元化的Web检索系统推荐。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：提供一种基于用户日志进行查询推荐的方法及系统，以充分利用搜索引擎用户日志，为用户提供最可能反应其查询意向且系统具有最佳反馈结果的查询串。

(二)技术方案

为解决上述问题，一方面，本发明提供了一种基于用户日志进行查询推荐的方法，包括以下步骤：

S1：对搜索引擎用户日志中的数据集进行选择，并对所述选择的数据集进行预处理，得到有效查询日志集合，作为第一数据集；

S2：提取第一数据集中每一个查询串的支持度、流行度和推荐度指标，选择满足这三个特征指标最小阈值的查询串与用户记录，作为第二数据集；

S3：选择多个典型查询串作为训练数据，作为第一训练样本集；

S4：对第一训练样本集中的每一查询串，在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串，然后标注所述候选相关查询串与给定查询串的相关性，作为第二训练样本集；

S5：构建预测模型，基于所述第二训练样本集，学习获得所述预测模型的参数取值；

S6：对用户输入的查询串，在第二数据集中找到与用户输入的查询串具有设定阈值以上相似度、共现度和关联度的查询串，作为候选查询集；

S7：将所述候选查询集中每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标作为变量输入到所述预测模型中，计算每一候选查询串与给定查询串的相关性大小，输出排序靠前的n个查询串。

优选地，所述步骤S1根据时间对搜索引擎用户日志中的数据集进行选择，并对所述选择的数据集进行预处理，具体步骤为：

S11：选择一个确定时间段内的用户日志数据；

S12：提取所述确定时间段内用户日志数据中与用户查询与点击的相关信息；

S13：删除所述用户日志数据中异常查询和查询为空的数据。

S14：去掉过长或者过短的无效查询；

S15：将查询中的英文字母全部转化为小写，并去除查询串中的多余空格以及乱码；

S16：进行用户会话的划分。

优选地，在所述步骤S2和S5之间还包括对第二数据集的查询串提取的支持度、流行度、以及推荐度进行归一化处理的步骤；

在所述步骤S4和S5之间还包括对相关查询串提取的共现度、相似度以及关联度指标进行归一化处理的步骤；

所述步骤S7还包括将所述第二候选集合中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理的步骤。

优选地，通过下面的公式对所述提取的支持度、流行度、推荐度指标进行归一化处理：

\overset{&OverBar;}{x_{j}} = \log (x_{j}) / \max {\log (x_{j})}, (j = 1,2,3)

其中，x₁、x₂和x₃分别表示提取的支持度、流行度和推荐度数值；分别表示归一化处理后的支持度、流行度和推荐度数值。

优选地，通过下面的公式对所述提取的共现度和关联度进行归一化处理：

\overset{&OverBar;}{x_{j}} = L (q_{0}, q_{i}) / \max (L (q_{0}), L (q_{i})), (j = 4,6)

其中，

和

分别表示归一化处理后的共现度和关联度数值。就共现度而言，L(q₀)和L(q_i)分别表示查询串q₀和q_i含有词项的个数，用L(q₀，q_i)表示q₀与q_i含有的公共词项的个数。就关联度而言，L(q₀)和L(q_i)分别表示在长度大于1的用户会话中查询串q₀和q_i各自出现的频次，用L(q₀，q_i)表示q₀和q_i在同一会话中共同出现的频次。

优选地，通过下面的公式对所述提取的相似度进行归一化处理：

\overset{&OverBar;}{x_{5}} = N (q_{0}, q_{i}) / \max (N (q_{0}), N (q_{i}))

其中N(q_i)表示查询串为q_i时点击所有URL的多重集合的大小，N(q₀)表示查询串为q₀时点击所有URL的多重集合的大小，N(q₀，q_i)表示查询串q₀与q_i共同点击的URL多重集合的大小。

\overset{&OverBar;}{x_{5}} = Σ_{k = 1}^{s} (p_{k} * w_{ok} * w_{ik}) / (| | q_{0} | | | | * | | | | q_{i} | |)

这里设查询串q₀与q_i所对应点击的所有不同URL的集合为Q_i，按一定序排列组成向量

查询串q₀的点击次数分别为{w₀₁，...，w_0s}，查询串q_i的点击次数分别为{w_i1，...，w_is}；则查询串q₀和q_i可分别表示为两个向量：q₀＝(w₀₁，...，w_0s)和q_i＝(w_i1，...，w_is)，并定义基于“查询串q₀与q_i点击相同URL数量”的相似度为向量加权夹角的余弦；

分别表示归一化处理后的相似度数值，范数

范数

其中(q₀·q₀)和(q_i·q_i)为标准向量内积。

优选地，步骤S5中构建的预测模型包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型，基于所述第二训练样本集，分别学习获得所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型的参数取值。

优选地，所述步骤S5还包括通过投票策略将所述包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型进行组合，得到复合预测模型；

所述步骤S7分别通过所述包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型，得到每个预测模型的推荐结果，再通过所述复合预测模型，得到最终的推荐结果。

优选地，所述步骤S6中还包括对用户输入的任意查询串进行包括多余空格的删除、字符串的分词以及大小写字母转换的预处理步骤。

另一方面，本发明还提供了一种用于实现上述方法的基于用户日志进行查询推荐的系统，包括：数据准备模块，用于对搜索引擎用户日志中的数据集进行选择，并对所述选择的数据集进行预处理，得到有效查询日志集合，作为第一数据集；并提取第一数据集中每一个查询串的支持度、流行度和推荐度指标，选择满足这三个特征指标最小阈值的查询串与用户记录，作为第二数据集；

预测模型构建模块，用于选择多个典型查询串作为训练数据，作为第一训练样本集；对第一训练样本集中的每一查询串，在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串，然后标注与给定查询串的相关性，作为第二训练样本集；构建复合预测模型，基于所述第二训练样本集，学习获得所述预测模型的参数取值；

处理输出模块，用于对用户输入的查询串，在第二数据集中找到与具有设定阈值以上相似度、共现度和关联度的查询串，作为候选查询集；并将所述候选查询集中每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标作为变量输入到所述复合预测模型中，计算每一候选查询串与给定查询串的相关性大小，输出排序靠前的n个查询串。

(三)有益效果

本发明充分利用了海量用户日志中的查询串被查询的次数、用户的数量、URL点击次数，搜索词之间共有词项的数量、点击相同URL数量、同一会话中不同查询串的共现次数等，可以更好的发现查询意图之间的语义相关，对新词和热词的反应也更加敏锐，进而有效提高查询推荐的质量。

本发明从语法和语义两个层面度量了推荐查询的相关性，其中，语法层面重点考察了不同查询串之间的字面匹配程度，而语义的相关性则通过用户共同点击和关联等特征指标而得以反映。此外，由于在训练的过程中，训练样本的标记也同样考虑了语义和语法两个层面，故模型具有很好的适应性。

附图说明

图1为根据本发明实施例查询推荐方法的步骤流程图；

图2为根据本发明实施例查询推荐方法步骤1的具体步骤流程图；

图3为根据本发明实施例查询推荐方法步骤S6和S7的流程示意图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明如下。

实施例一：

本实施例记载了一种基于用户日志进行查询推荐的方法，即对一个用户任意给定的查询串q，从某一时间段的用户(查询与点击)日志中，找到具有较好反馈结果且与所述给定的查询串较相关的若干个查询串{q₁，q₂，..q_n}并推荐给用户。

如图1所示，所述查询推荐的方法包括以下步骤：

用户日志是指用户与系统交互的记录，通常，它包括用户查询时提交给系统的查询串、提交时间、用户IP地址、用户点击的URL等信息，表1为系统查询用户日志的一条记录中的主要信息内容。

表1.系统查询用户日志的内容和说明

目志内容	说明
		Fri May 23 18:43:59 2011	点击的时间
162.105.146.*	用户IP
		专利申请	输入的查询串

http://www.sipo.gov.cn/sipo/zlsq/	点击的URL
		2	点击页面的排序
5	点击页面中的第几条结果

由于日志记录的海量性，故需要首先对数据集进行缩减，包括选择特定时间段的日志和去掉无关行为分析。对一个大规模Web搜索引擎系统而言，短期内用户提交不同查询串的数量服从重尾分布，并且用户的查询及点击行为具有自相似性的特征，所以我们只需选择一个确定时间段(如一周、两周或一个月)内的日志数据即可；在给定的时间段内，提取与用户查询与点击的相关信息，过滤掉与本方法无关的用户行为信息(点击如页面排序)，可以缩减数据集的大小。

如图2所示，所述步骤S1的具体步骤为：

S11：选择一个确定时间段内的用户日志数据；

S13：删除所述用户日志数据中异常查询和查询为空的数据：

其中，异常查询是指一个查询的查询量很高但是来自于个别用户，这通常是由元搜索引擎中爬取器的频繁访问或其它的恶意攻击所导致。例如，删除一天内来自同一IP地址且查询次数超过300次的用户记录，因为正常情况下单个用户进行如此多查询的可能性不大，由于存在多个用户共用一个IP地址的情况，所以这样做可能会导致一些记录的误删除，但这一比例并不高，大致有2％左右。

查询为空的记录通常是由误操作引起的，对推荐相关查询没有帮助。

S14：去掉过长或者过短的无效查询；对于候选查询串的长度，限制在4到20个字节之间，即不考虑过短(如一个汉字)或者过长的查询，这是由于已有的研究表明：中文搜索引擎用户的查询一般为2到4个汉字。

S16：根据IP+cookie+15分钟的通用规则，进行用户会话的划分。

经过步骤1对所述用户日志作上述预处理，将极大地提高本实施例查询推荐方法发现相近查询的效率和精度。

即从经过预处理的搜索引擎日志文件中抽取每个查询串的：支持度：向系统提交查询串的总次数；流行度：统计向系统提交查询串的不同用户的数量；推荐度：查询为本查询串时，用户点击URL的总次数(重复的URL，按重数计)。

设定各指标的最小阈值；过滤掉一部分查询串及其用户记录。

S3：选择多个典型的查询串作为训练数据，作为第一训练样本集；

本实施例中，选择几十个典型的查询串作为模型的训练数据，具体选择时可以根据需求做适当调整，如要做综合搜索引擎的查询推荐，训练集应尽量涉及大众搜索的各个领域；对于某垂直搜索引擎，如图片搜索、音乐搜索、甚至专利搜索和某些网站的站内搜索，可以抽取该垂直领域或具体领域中具有代表性和普适性的搜索词汇；如果任务是关于广告的优化和不同时间内热点查询的推荐，也可以把该时段的搜索词作为训练数据，如在春节期间的推荐，我们可以抽取历年春节前后的搜索查询串，以便推荐结果具有时间的特性。

一般来说，用户查询可以粗分为3类：信息型(Informational)、导航型(Navigational)和事务型(Transactional)。其中，信息型查询表示用户想要查找主题相关的Web页面，即所查找的页面内容可以满足用户的信息需求，如某一事件的报道、影视介绍、小说、人名等；导航型查询表示用户想要查找一个指定名称的站点或主页，如某一机构、公司的网站名称等；事务型查询表示用户想要查找一个服务入口，以便进行下一步的访问，如软件、图片、音乐等资源的下载。通常，用户进行信息型、导航型与事务型查询的数量之比约为5∶2∶3。

其中，共现度是指两个查询串共有词项的数量，如查询串“专利申请”和“专利查询”；这两个查询串分词后分别为“专利”、“申请”和“专利”、“查询”，则两者共有一个词项“专利”。这里需要说明的是，中文搜索引擎系统在对文档和用户提交的查询进行预处理时要进行分词操作，将查询转化为词项的集合，对一个中文字串，不同分词系统的切分结果可能存在一定的差异，这主要是与分词系统的词典大小与选用的算法有关。

相似度是指两个查询串点击相同URL的数量；例如查询串“人工智能”和“机器学习”均点击了同一URL：http://product.china-pub.com/15，那么这两个查询串可能具有语义上的相似性。

关联度是指两个查询串在同一用户会话中的共现次数，在一次查询中，若有很多用户将两个不同的查询串关联起来，则两者可能是语义相关的。

对给定的每一用户查询，分别提取候选相关查询的支持度、流行度、推荐度、共现度、相似度和关联度指标，然后进行数据的归一化处理；

其中：

1)对某一查询串而言，由于用户的查询次数(支持度)、不同用户的数量(流行度)、用户的点击次数(推荐度)通常服从重尾分布(或类Zipf分布)，因此可以将指标数据按比例缩放，使之落入一个小的特定区间，如[0，1]内，本实施例通过下面的公式对所述提取的支持度、流行度、推荐度指标进行归一化处理：

\overset{&OverBar;}{x_{j}} = \log (x_{j}) / \max {\log (x_{j})}, (j = 1,2,3)

其中，x₁、x₂和x₃分别表示提取的支持度、流行度和推荐度数值；

分别表示归一化处理后的支持度、流行度和推荐度数值。

2)通过下面的公式对所述提取的共现度和关联度进行归一化处理：

\overset{&OverBar;}{x_{j}} = L (q_{0}, q_{i}) / \max (L (q_{0}), L (q_{i})), (j = 4,6)

其中，

和

3)对于相似度这一特征指标，有两种方法可以用于对其进行归一化处理：

第一种方法是通过下面的公式进行：

\overset{&OverBar;}{x_{5}} = N (q_{0}, q_{i}) / \max (N (q_{0}), N (q_{i}))

第二种方法是通过下面的公式进行：

\overset{&OverBar;}{x_{5}} = Σ_{k = 1}^{s} (p_{k} * w_{ok} * w_{ik}) / (| | q_{0} | | | | * | | | | q_{i} | |)

查询串q₀的点击次数分别为{w₀₁，...，w_0s}，查询串q_i的点击次数分别为{w_i1，...，w_is}；将q₀和q_i分别表示为两个向量：q₀＝(w₀₁，...，w_0s)和q_i＝(w_i1，...，w_is)，并定义基于“查询串q₀与q_i点击相同URL数量”的相似度为向量加权夹角的余弦；

分别表示归一化处理后的相似度数值，

范数

范数

其中(q₀·q₀)和(q_i·q_i)为标准向量内积。

其中，第二种方法不仅考虑了q₀和q_i对应共同点击URL的数量，也可反映不同URL对q₀的重要度。

对第一训练样本集中的每一查询串，在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串(本实施例中依情况限定在30-50个为宜)，并结合其字符串的语义与语法相似性，标注其二者之间的相关性，并根据相关性程度进行分类，例如将相关性的数值可标为三级：0-不相关，1-有点相关，2-非常相关。由此，构成第二训练样本集；

在本实施例中，所使用的预测模型包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型，其中：

1)多元线性回归模型M1：将一个查询串与给定查询q₀的相关性简单看作是由上述六个指标(解释变量)的一个线性函数，可用最小二乘法求解参数。

2)Logistic回归模型M2：用于因变量为二分类(或多分类)取值与自变量之间关系的一种多变量分析方法，属于概率型非线性回归模型。

3)支持向量回归模型M3：基于结构风险最小化准则，具有较好推广能力，且适应于小样本回归分析，对文本信息处理有较好的预测结果。

4)BP神经网络模型M4：具有很强的自学习和非线性逼近能力，以及较好的容错性，是目前应用最广泛的神经网络模型之一。它使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。

基于所述第二训练样本集，分别学习获得所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型的参数取值。

然后通过投票策略将所述包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型进行组合，得到复合预测模型；目前使用较多的投票组合方法是装袋(Bagging)和提升(Boosting)方法，两者皆可显著提高模型预测的准确率。这如同一个病人，很多医生的诊断通常会比单个医生的诊断结果更可靠。

下面根据上面步骤得到的预测模型，对用户输入的任意查询串，获得前n个与该查询串相关的查询串推荐给用户，如图3所示，具体包括步骤S6-S7：

S6：对用户输入的查询串，在第二数据集中找到与用户输入的查询串具有设定阈值以上相似度、共现度和关联度的查询串，作为候选查询集；通常截取50个左右为宜；

其中，对于用户输入的任意查询串，本实施例还进行包括多余空格的删除、字符串的分词以及大小写字母转换的预处理步骤。

S7：将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理之后作为变量分别输入所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型中，得到每个预测模型的推荐结果，再通过所述复合预测模型M，得到最终的推荐结果。根据需要，可以将所述最终的推荐结果按相关性大小进行排序，最后输出前n个结果作为用户输入的任意查询串的相关查询，反馈给用户。

实施例二：

本实施例记载了一种用于实现上述方法的基于用户日志进行查询推荐的系统，包括：

数据准备模块，用于对搜索引擎用户日志中的数据集进行选择，并对所述选择的数据集进行预处理，得到有效查询日志集合，作为第一数据集；并提取第一数据集中每一个查询串的支持度、流行度和推荐度指标，选择满足这三个特征指标最小阈值的查询串与用户记录，作为第二数据集；

本发明充分利用搜索引擎用户日志，为用户推荐更加优质的查询串。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于用户日志进行查询推荐的方法，其特征在于，包括以下步骤：

S5：构建预测模型，基于所述第二训练样本集，分别学习获得多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型的参数取值；通过投票策略将包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型进行组合，得到复合预测模型；

S7：将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理之后作为变量分别输入所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型中，得到每个预测模型的推荐结果，再通过所述复合预测模型M，得到最终的推荐结果；将所述最终的推荐结果按相关性大小进行排序，最后输出前n个结果作为用户输入的任意查询串的相关查询，反馈给用户；

其中，在所述步骤S2和S5之间还包括对第二数据集的查询串提取的支持度、流行度、以及推荐度进行归一化处理的步骤；

所述步骤S7还包括将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理的步骤。

2.如权利要求1所述的基于用户日志进行查询推荐的方法，其特征在于，所述步骤S1根据时间对搜索引擎用户日志中的数据集进行选择，并对所述选择的数据集进行预处理，具体步骤为：

S11：选择一个确定时间段内的用户日志数据；

S13：删除所述用户日志数据中异常查询和查询为空的数据；

S14：去掉过长或者过短的无效查询；

S16：进行用户会话的划分。

3.如权利要求1所述的基于用户日志进行查询推荐的方法，其特征在于，通过下面的公式对所述提取的支持度、流行度、推荐度指标进行归一化处理：

分别表示归一化处理后的支持度、流行度和推荐度数值。

4.如权利要求1所述的基于用户日志进行查询推荐的方法，其特征在于，通过下面的公式对所述提取的共现度和关联度进行归一化处理：

其中，

和

分别表示归一化处理后的共现度和关联度数值，L(q₀)和L(q_i)分别表示查询串q₀和q_i含有词项的个数，用L(q₀,q_i)表示q₀与q_i含有的公共词项的个数。

5.如权利要求1所述的基于用户日志进行查询推荐的方法，其特征在于，通过下面的公式对所述提取的相似度进行归一化处理：

其中N(q_i)表示查询串为q_i时点击所有URL的多重集合的大小，N(q₀)表示查询串为q₀时点击所有URL的多重集合的大小，N(q₀,q_i)表示查询串q₀与q_i共同点击的URL多重集合的大小。

6.如权利要求1所述的基于用户日志进行查询推荐的方法，其特征在于，通过下面的公式对所述提取的相似度进行归一化处理：

这里设查询串q₀与q_i所对应点击的所有不同URL的集合为Q_i,按一定序排列组成向量

，查询串q₀的点击次数分别为{w₀₁,...,w_0s},查询串q_i的点击次数分别为{w_i1,...,w_is}；则查询串q₀和q_i分别表示为两个向量：q₀=(w₀₁,...,w_0s)和q_i=(w_i1,...,w_is)，并定义基于“查询串q₀与q_i点击相同URL数量”的相似度为向量加权夹角的余弦；

分别表示归一化处理后的相似度数值，

范数范数

其中(q₀·q₀)和(q_i·q_i)为标准向量内积。

7.如权利要求1所述的基于用户日志进行查询推荐的方法，其特征在于，所述步骤S6中还包括对用户输入的任意查询串进行包括多余空格的删除、字符串的分词以及大小写字母转换的预处理步骤。

8.一种用于实现权利要求1-7所述方法的基于用户日志进行查询推荐的系统，其特征在于，包括：

预测模型构建模块，用于选择多个典型查询串作为训练数据，作为第一训练样本集；对第一训练样本集中的每一查询串，在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串，然后标注与给定查询串的相关性，作为第二训练样本集；构建复合预测模型，基于所述第二训练样本集，分别学习获得多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型的参数取值；通过投票策略将包括多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型在内的预测模型进行组合，得到复合预测模型；

处理输出模块，用于对用户输入的查询串，在第二数据集中找到与具有设定阈值以上相似度、共现度和关联度的查询串，作为候选查询集；将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理之后作为变量分别输入所述多元线性回归模型、Logistic回归模型、支持向量回归模型以及BP神经网络模型中，得到每个预测模型的推荐结果，再通过所述复合预测模型M，得到最终的推荐结果；将所述最终的推荐结果按相关性大小进行排序，最后输出前n个结果作为用户输入的任意查询串的相关查询，反馈给用户；

其中，还包括对第二数据集的查询串提取的支持度、流行度、以及推荐度进行归一化处理；

对相关查询串提取的共现度、相似度以及关联度指标进行归一化处理；

将所述候选查询集中的每个查询串的支持度、流行度、推荐度、共现度、相似度以及关联度指标进行归一化处理。