CN103020289B

CN103020289B - 一种基于日志挖掘的搜索引擎用户个性化需求提供方法

Info

Publication number: CN103020289B
Application number: CN201210583024.5A
Authority: CN
Inventors: 陈益; 解正宇; 陈岭; 刘荣游
Original assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Current assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2015-08-05
Anticipated expiration: 2032-12-25
Also published as: CN103020289A

Abstract

本发明涉及互联网信息技术领域，尤其涉及一种基于日志挖掘的搜索引擎用户个性化需求提供方法，该方法采用马尔可夫模型来对用户的搜索行为进行建模，包括表示用户满意和不满意的行为模型；用最大似然估计来计算用户的搜索行为分别从满意和不满意行为模型中生成的最大似然估计；最后用最大似然估计比来评估用户的满意程度，在复杂、模糊的搜索引擎用户行为信息日志中来评估用户满意度，分析出用户的个性化需求，并通过搜索引擎提供给用户个性化需求的结果，从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。

Description

一种基于日志挖掘的搜索引擎用户个性化需求提供方法

技术领域

本发明涉及互联网信息技术领域，尤其涉及一种基于日志挖掘的搜索引擎用户个性化需求提供方法。

背景技术

随着互联网信息的迅速膨胀，搜索引擎成为引导用户获得信息的主要途径，尽管以百度、Google为代表的搜索引擎取得了巨大的成功，但其仍然无法满足日益增长的用户信息需求和高效方便获取信息资源的要求。如何向网络用户提供优质的检索服务，如何从用户的角度出发给出用户满意的结果，从而吸引更多客户使用，一直是商用搜索引擎所关注的重点。

传统的搜索引擎质量评价方法一般仅考虑单个查询返回结果页面的质量，如相关性、准确性、时效性、权威性、满意度等，其中满意度给出的是主观的综合评价。然而，用户使用搜索引擎时的信息需求有时会是复杂和模糊的，搜索过程中可能出现关键词的修改和重查询。因此，单个查询返回结果页面的质量并不能代表用户信息需求的满意程度，以单个查询返回结果页面的质量作为评价搜索引擎质量的指标也不能很好的促进搜索引擎的性能优化。

发明内容

为了解决上述问题，本发明使用用户满意度作为搜索引擎的评价指标，即用户信息需求满意度，本发明采用马尔可夫模型来对用户的搜索行为进行建模，包括表示用户满意和不满意的行为模型；用最大似然估计来计算用户的搜索行为分别从满意和不满意行为模型中生成的最大似然估计；最后用最大似然估计比来评估用户的满意程度，在复杂、模糊的搜索引擎用户行为信息日志中来评估用户满意度，分析出用户的个性化需求，并通过搜索引擎提供给用户个性化需求的结果。

本发明是通过以下技术方案达到上述目的：一种基于日志挖掘的搜索引擎用户个性化需求提供方法，包括数据预处理阶段、训练阶段和评估阶段，数据预处理阶段包括以下步骤：

1)基于搜索引擎日志数据分析将用户行为数据按类型归类为查询、搜索结果列表翻页、相关搜索点击、快捷方式点击、拼写建议点击、算法搜索点击、算法搜索分享点击、算法搜索预览点击、其他类型的点击和信息需求的结束；

2)将归类的用户行为数据选取一部分作为训练样本数据，按照人工标注的结果分为满意样本数据和不满意样本数据两部分，并包括用户、信息需求、用户满意度、用户搜索类型和用户点击类型五类信息。

3)将上述训练样本数据规范化处理为包括用户、信息需求和用户行为类型三类信息；

训练阶段包括训练满意行为模型和训练不满意行为模型两个子阶段，训练满意行为模型包括以下步骤：

1)读取经过数据预处理的满意用户行为训练样本数据；

2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数；

3)统计已读数据出现的行为转移的类型及该行为转移出现的次数；

4)根据马尔可夫模型，用最大似然估计来计算满意行为模型的概率转移矩阵；

训练不满意行为模型包括以下步骤：

1)读取经过数据预处理的不满意用户行为训练样本数据；

4)根据马尔可夫模型，用最大似然估计来计算不满意行为模型的概率转移矩阵；

评估阶段包括以下步骤：

1)输入用户行为数据并将其经规范化处理为包括用户、信息需求和用户行为类型三类信息的用户规范化行为数据；

2)输入从上述训练阶段得到的满意和不满意行为模型的概率转移矩阵；

3)以一个信息需求为单位计算当前的用户规范化行为数据从满意和不满意行为模型中生成的最大似然估计；

4)计算从满意和不满意行为模型中生成的最大似然估计的比值，将比值与设定的阈值比较判断用户行为的满意度；

5)根据判断得出用户行为的满意度分析出用户的个性化需求，并通过搜索引擎提供给用户个性化需求的结果。

本发明的有益效果在于：本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷，提出了基于行为日志的搜索引擎用户信息需求满意度评估方法，以用户信息需求为单位，通过分析搜索引擎日志中用户的搜索行为来评估用户满意度，分析出用户的个性化需求，并通过搜索引擎提供给用户个性化需求的结果，从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。

附图说明

图1：基于行为日志数据挖掘的搜索引擎用户个性化需求提供方法流程图；

图2：训练样本数据分类图；

图3：数据规范化流程图；

图4：训练用户满意度模型流程图；

图5：评估用户满意度流程图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

一种基于日志挖掘的搜索引擎用户个性化需求提供方法，流程图如图1所示，该方法分为数据预处理、训练和评估三个阶段；数据预处理阶段的主要步骤包括：

步骤1，基于搜索引擎日志数据分析用户在使用搜索引擎过程中可能出现的行为：

a)查询：

表示用户向搜索引擎提交查询关键词(一次查询可能会提交多个关键词)的行为；包括各种类型引导区内的点击查询、查询关键词推荐、搜索框改词、查询关键词来源筛选等；

b)搜索结果列表翻页：

表示用户对提交的查询返回的结果列表做翻页的行为；包括翻页-上一页、翻页-下一页、翻页-点击某个页号等；

c)相关搜索点击：

表示用户对与自己信息需求接近的搜索目标推荐进行点击的行为；

d)快捷方式点击：

快捷方式点击能使用户快速的得到所需信息，当其与用户的搜索相关时会自动出现；

e)拼写建议点击：

表示对用户提交查询词可能出现的错误进行纠错的点击建议，包括对常用名词、专用术语、特殊网址等所有类型的查询词的纠错；

f)算法搜索点击：

表示对返回结果列表中某个结果的点击；

g)算法搜索分享点击：

表示对返回结果列表中某个结果进行分享型的点击；

h)算法搜索预览点击：

表示对返回结果列表中某个结果进行预览型的点击；

i)其他类型的点击：

除以上八种行为外的其他行为类型；

j)表示用户一个信息需求的结束：

为了更详细的描述用户行为以及更准确的搭建用户满意度模型，用一个特殊的行为“END”来标记用户一个信息需求的结束；

步骤2，如图2所示，将归类的用户行为数据选取一部分作为训练样本数据，训练样本数据包括用户UID、信息需求GID、用户满意度GS、用户搜索类型SF和用户点击类型CF五列数据；按照人工标注的结果分为满意样本数据和不满意样本数据两部分，满意用户行为数据用来训练满意行为模型，不满意用户行为数据用来训练不满意行为模型；

步骤3，数据规范化。将不规则的搜索引擎日志数据转化成规范的可用于训练搜索引擎用户满意度模型的数据，流程如图3所示：

a)读取搜索引擎日志数据；

b)判断用户搜索类型SF是否为空，如果SF为空，则用户点击类型CF必不为空，说明用户的行为是点击类型的行为；如果SF不为空，则用户点击类型CF必为空，说明用户的行为是搜索类型的行为；

c)用户搜索类型SF不为空，则在步骤1中找到符合当前用户点击类型CF的行为作为规范行为来替换CF，并把CF移动到SF列；

d)用户搜索类型SF为空，则在步骤1中找到符合当前用户搜索类型SF的行为作为规范行为来替换SF；

e)在每个信息需求的结束部分多添加一个“END”行来标志用户当前信息需求的结束；

经过数据规范化后得到的数据包括用户UID、信息需求GID和用户行为SF/CF/END三列；

训练阶段包括训练满意行为模型和训练不满意行为模型两个子阶段：

训练满意行为模型的流程图如图4所示，主要步骤包括：

步骤1，读取经过数据预处理的满意用户行为数据；

步骤2，以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求，则继续下一步；如果所读数据不是一个完整的信息需求，则继续读取数据；

步骤3，统计已读数据出现的行为的类型s_i及该类型行为出现的次数

步骤4，统计已读数据出现的行为转移的类型(s_i，s_j)及该行为转移出现的次数

步骤5，计算转移概率矩阵。每个行为序列都可以表示成一个图中的链或路径，那么一个信息需求就可以简单的表示成一个基于用户行为的马尔可夫模型；马尔可夫模型的状态空间是用户在搜索过程中可能出现的多种行为的集合；用最大似然估计来计算两个行为s_i和s_j之间的转移概率：

p_{r} = (s_{i}, s_{j}) = \frac{N_{s_{i}, s_{j}}}{N_{s_{i}}} - - - (1)

步骤6，输出满意行为模型的概率转移矩阵；

如图4所示，训练不满意行为模型与训练满意行为模型类似，具体包括以下步骤：

步骤1，读取经过数据预处理的不满意用户行为数据；

步骤5，计算转移概率矩阵；

步骤6，输出不满意行为模型的概率转移矩阵；

评估阶段的流程图如图5所示，主要包括以下步骤：

步骤1，输入经过数据规范化的评估数据；

步骤2，输入从训练阶段得到的满意和不满意行为模型的概率转移矩阵；

步骤3，计算最大似然估计。给定一个模型M和一个包含n个行为的行为序列S＝(S₁，S₂，...，S_n)，则从M中生成这个行为序列的概率是：

P_{rM} (S) = Π_{i = 2}^{n} P_{r} (S_{i} | S_{1}, . . ., S_{i - 1}) = Π_{i = 2}^{n} W (S_{i - 1}, S_{i}) - - - (2)

式中：W是概率转移函数；

则最大似然估计为：

L_{M} (S) = \underset{c &Element; {c_{y} c_{f}}}{Σ} P (c) Π_{i = 2}^{n} W (S_{i - 1}, S_{i}) - - - (3)

步骤4，计算最大似然估计比；用最大似然估计比来评估用户对当前信息需求是否满意；

最大似然估计比为：

f = \frac{L_{M_{s}} (s)}{L_{M_{f}}} - - - (4)

S是goal的行为序列，是从满意模型中得到的行为序列的最大似然估计，是从不满意模型中得到的行为序列的最大似然估计；

步骤5，如果f大于最优参数λ，则评估用户对当前信息需求是满意的，否则就是不满意的，最优参数λ可以使用参数优化的方法来取得；

步骤6，根据判断得出用户行为的满意度分析出用户的个性化需求，并通过搜索引擎提供给用户个性化需求的结果。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于日志挖掘的搜索引擎用户个性化需求提供方法，其特征在于包括数据预处理阶段、训练阶段和评估阶段；数据预处理阶段包括以下步骤：

1)基于搜索引擎日志数据分析将用户行为数据按类型归类；

2)将归类的用户行为数据选取一部分作为训练样本数据，按照人工标注的结果分为满意样本数据和不满意样本数据两部分，并包括用户、信息需求、用户满意度、用户搜索类型和用户点击类型五类信息；

3)将训练样本数据规范化处理为包括用户、信息需求和用户行为类型三类信息；

1)读取经过数据预处理的满意用户行为训练样本数据；

训练不满意行为模型包括以下步骤：

1)读取经过数据预处理的不满意用户行为训练样本数据；

评估阶段包括以下步骤：

2.根据权利要求1所述的一种基于日志挖掘的搜索引擎用户个性化需求提供方法，其特征在于，数据预处理阶段步骤1)所述的基于搜索引擎日志数据分析将用户行为数据按类型归类为查询、搜索结果列表翻页、相关搜索点击、快捷方式点击、拼写建议点击、算法搜索点击、算法搜索分享点击、算法搜索预览点击、其他类型的点击和信息需求的结束。