CN103164537B

CN103164537B - 一种面向用户信息需求的搜索引擎日志数据挖掘的方法

Info

Publication number: CN103164537B
Application number: CN201310125029.8A
Authority: CN
Inventors: 吴勇; 王敬昌; 陈岭; 邵维
Original assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Current assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Priority date: 2013-04-09
Filing date: 2013-04-09
Publication date: 2016-01-13
Anticipated expiration: 2033-04-09
Also published as: CN103164537A

Abstract

本发明涉及互联网搜索引擎日志划分领域，尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法，包括：查询日志块归类、查询相似度计算和用户信息需求提供，综合计算查询词相似度和查询结果相似度作为查询相似度，以此为依据判断了两个查询是否具有相同的信息需求，有效快速的对搜索日志进行划分。本发明的有益效果在于：本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷，提出了基于行为日志的搜索引擎用户信息需求满意度评估方法，以用户信息需求为单位，通过分析搜索引擎日志中用户的搜索行为来评估用户满意度，分析出用户的个性化需求，并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。

Description

一种面向用户信息需求的搜索引擎日志数据挖掘的方法

技术领域

本发明涉及互联网搜索引擎日志划分领域，尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法。

背景技术

搜索引擎日志的研究是互联网不可缺少的一个环节，尤其是对优化网站来说，SEO业务需要做好，都必须进行科学的日志分析。搜索引擎日志包含的用户活动信息，如用户的使用时间、点击文档位置、搜索次数等，能够为用户行为分析提供依据，指导搜索引擎的技术改进。搜索引擎日志划分，是搜索引擎日志研究的基础。目前对搜索引擎日志划分，主要有两种方法：人工划分和自动划分，其中人工划分的方法又可以分为用户自报告和评估员人工标注。

用户自报告是指用户在搜索的时候就标注出自己使用的情况，这样得到的是真实准确的数据，但自报告的方法需要大量的人力，可行性低。

评估员人工标注是指评估员根据自己理解对日志标注数据，重现用户使用搜索引擎的情况，这样做比自报告需要的人力略少，但是准确度没有用户自报告高。

自动划分是提取搜索引擎日志中的特征，根据特征对日志进行划分，最普遍的方法是根据时间进行划分，将搜索引擎记录下来的数据视为连续的序列，判断两次用户搜索的时间间隔是否大于时间阈值，将小于时间阈值的用户搜索划分入同一个数据块。这类方法首先要确定一个合适的时间阈值，但是不同情况下用户搜索的情况千变万化，准确的时间阈值难以确定。其他的自动划分方法提取的特征有用户IP、Cookie、搜索语句等。自动划分和和人工划分相比，胜在简单快速，劣势在于准确度不高。

但是前面所提到的方法都忽略了一个事实，用户在使用搜索引擎时经常在同一时间进行多个信息需求的搜索活动，在搜索日志上表现为带有多个搜索目的的搜索行为同时进行，一个完整的查询活动会被分成几个小块记录在搜索引擎日志中。传统的方法往往将这类同一个信息需求的几个小块划分成多个不同信息需求的搜索记录，不能有效识别这种带有多信息需求的用户活动搜索引擎日志。

发明内容

本发明为克服上述的不足之处，目的在于提供面向用户信息需求的搜索引擎日志划分方法，解决多用户信息需求并存的搜索引擎日志中，对一个用户单一信息需求搜索的记录的识别和划分，统计用户查询相似度得出用户信息需求，并通过搜索引擎提供给用户个性化需求的结果。

本发明是通过以下技术方案达到上述目的：

一种面向用户信息需求的搜索引擎日志数据挖掘的方法，包括查询日志块归类、查询相似度计算和用户信息需求提供，查询日志块归类包括以下步骤：

1)根据日志信息标志每个用户查询的查询时间和IP；

2)根据用户IP对搜索日志进行划分，默认IP相同的搜索日志为一个用户的查询日志块；

3)对相同用户的查询日志块用时间划分，将查询时间间隔大于时间阈值的查询划分成不同查询块。

查询相似度计算包括查询词相似度计算、查询结果相似度计算及查询相似度输出，查询词相似度计算包括以下步骤：

1)输入用户查询块中的查询语句，将查询语句的词进行分词，去掉停用词；

2)在经过分词的查询语句中提取查询关键词；

3)计算查询关键词中相同的词和不同的词；

4)输出相同的词和查询关键词的比值作为查询词相似度。

查询结果相似度计算包括以下步骤：

1)提取查询返回的结果网页作为输入；

2)提取网页进行文本化，对文本进行分词；

3)计算每个单词的TF-IDF值，将文本向量化；

4)通过比较两个查询的距离计算出查询结果相似度；

根据查询词相似度和查询结果相似度，输出查询相似度。

用户信息需求提供包括以下步骤：

1)输入经过时间和用户IP划分的用户搜索日志；

2)在划分好的查询块内，计算第一个查询和其他查询的相似度，将相似度高的所有查询归为同一个用户信息需求的搜索任务查询并标记；

3)统计用户查询相似度得出用户信息需求，并通过搜索引擎提供给用户个性化需求的结果。

作为优选，查询词相似度计算的步骤2)所述的查询语句的分词的词为中文。

本发明的有益效果在于：

本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷，提出了基于行为日志的搜索引擎用户信息需求满意度评估方法，以用户信息需求为单位，通过分析搜索引擎日志中用户的搜索行为来评估用户满意度，分析出用户的个性化需求，并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。

本发明综合计算了查询词相似度和查询结果相似度作为查询相似度，以此为依据判断了两个查询是否具有相同的信息需求，能够更加有效快速的对搜索日志进行划分，为用户搜索行为分析提供更加准确的依据，通过搜索引擎提供给用户个性化需求的结果，为搜索引擎的改善提供更加准确的指导。

附图说明

图1：面向用户信息需求的搜索引擎日志数据挖掘的方法流程图；

图2：查询日志块归类流程图；

图3：查询相似度计算流程图；

图4：用户信息需求提供流程图。

具体实施方式

本发明提出了面向用户信息需求的搜索引擎日志数据挖掘的方法，流程图如图1所示，本方法可以分为三个阶段：查询日志块归类、查询相似度计算和用户信息需求提供。

查询日志块归类：

根据用户IP和时间对用户搜索日志的划分和传统方法一致，主要是为了简化多任务划分，缩小用户信息需求细划分循环的范围。

方法如图2所示：

1)根据日志信息标志每个用户查询的查询时间和IP；

2)对于得到的数据，先对两两相邻的查询(记为查询Q_i和Q_i+1)的用户IP进行比较，IP不同则将查询标注为不同的块；

3)对IP相同的相邻的两个查询，判断两个查询相隔时间是否大于时间阈值，大于时间阈值则将两个划分为不同的块。

查询相似度计算：

包括查询词相似度计算、查询结果相似度计算及查询相似度输出，查询词相似度计算包括以下步骤，如图3所示：

由于搜索引擎的用户大部分都是中文用户，在输入关键词查询信息时使用的都是中文。这里采用了计算查询语句之间的相同关键词的方法，首先对查询语句进行中文分词，分出的关键词再计算有多少个是相同的。

将第i个查询Q_i分词后的结果记为集合R(Q_i)，将第j个查询Q_j分词后的结果记为集合R(Q_j)，记Q_i和Q_j的查询词相似度为K_ij，则查询Q_i和查询Q_j的查询词相似度可以计算为：

K_{ij} = \frac{R (Q_{i}) \cap R (Q_{j})}{R (Q_{i}) \cup R (Q_{j})} - - - (1)

步骤2：查询结果相似度计算：

返回结果的相似度是指，用户搜索后，搜索引擎返回的结果之间的相似度。这里的结果主要是指网页结果。为了能定量地计算查询结果相似度，首先，要将两张网页都向量化。

引入TF-IDF(termfrequency-inversedocumentfrequency)来表示一个词的权重。TF指的是某一个给定的词语在该文件中出现的次数，IDF是一个词语普遍重要性的度量。TF和IDF的乘积(记为TF-IDF值)可以作为一个词在文档中的权重的参考。

查询返回结果相似度是指两个查询的搜索引擎返回结果的相似度比较。为此，提取得所有查询的快照中的正文内容，并进行了分词，去掉了停用词，存入文档中。基于这个文档，可以计算每个单词的TF-IDF值。将第i个查询的返回结果向量化为：P_i{<X_{pi_1}，W_{pi_1}>，<X_{pi_2}，W_{pi_2}>,......，<X_{pi_n}，W_{pi_n}>}

其中，X_{pi_k}(k＝1…n)指在所有返回结果组成的文档集中一条查询返回结果经过中文分词之后的单词；W_{pi_k}指X_{pi_k}在这个查询中的权重，在本发明中为W_{pi_k}的TF-IDF值。

通过余弦值来比较两个查询的距离，记查询结果相似度为R_ij，则：

R_{ij} = \frac{Σ_{k = 1}^{n} W_{p_{i_k}} \times W_{p_{j_k}}}{\sqrt{Σ_{k = 1}^{n} W_{p_{i_k}}^{2}} \times \sqrt{Σ_{k = 1}^{n} W_{p_{j_k}}^{2}}} - - - (2)

步骤3：综合查询词相似度和查询结果相似度，输出查询相似度：

综合查询词相似度和查询结果相似度，计算查询相似度，记为S_ij，则：

S_ij＝αK_ij+(1-α)R_ij(3)

通过对人工标注的数据进行研究，这里取α＝0.4作为参考数值，使得计算出的相似度最能代表查询之间的关系。

用户信息需求提供包括以下步骤：

根据查询相似度将同一用户相同信息需求的查询聚合到一起，如图4所示：

1)输入经过时间和用户IP划分的用户搜索日志数据；

2)在划分好的块内，计算第一个查询和其他查询的相似度，将相似度高的所有查询归为同一个目的的搜索任务查询并标记；

3)重复步骤2直到所有查询都已被标记；

4)统计用户查询相似度得出用户信息需求，输出已划分的数据，并通过搜索引擎提供给用户个性化需求的结果。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种面向用户信息需求的搜索引擎日志数据挖掘的方法，其特征在于包括查询日志块归类、查询相似度计算和用户信息需求提供，查询日志块归类包括以下步骤：

1)根据日志信息标志每个用户查询的查询时间和IP；

3)对相同用户的查询日志块用时间划分，将查询时间间隔大于时间阈值的查询划分成不同查询块；

2)在经过分词的查询语句中提取查询关键词；

3)计算查询关键词中相同的词和不同的词；

4)输出相同的词和查询关键词的比值作为查询词相似度；

查询结果相似度计算包括以下步骤：

1)提取查询返回的结果网页作为输入；

2)提取网页进行文本化，对文本进行分词；

3)计算每个单词的TF-IDF值，将文本向量化；

所述TF-IDF值表示一个词的权重；TF为某一个给定的词语在文件中出现的次数，IDF为一个词语普遍重要性的度量，TF和IDF的乘积记为TF-IDF值；

4)通过比较两个查询的距离计算出查询结果相似度；

R_{ij} = \frac{Σ_{k = 1}^{n} W_{p_{i_k}} \times W_{p_{j_k}}}{\sqrt{Σ_{k = 1}^{n} W_{p_{i_k}}^{2}} \times \sqrt{Σ_{k = 1}^{n} W_{p_{j_k}}^{2}}}

其中，为在第i条查询中的权重，即的TF-IDF值；(k＝1…n)指在所有返回结果组成的文档集中第i条查询返回结果经过中文分词之后的单词；同理，下标带j的参数为在第j条查询中的权重与单词；

S_ij＝αK_ij+(1-α)R_ij

其中，α＝0.4，R_ij为查询结果相似度，K_ij为查询词相似度；

用户信息需求提供包括以下步骤：

1)输入经过时间和用户IP划分的用户搜索日志；

2.根据权利要求1所述的一种面向用户信息需求的搜索引擎日志数据挖掘的方法，其特征在于，查询词相似度计算的步骤2)所述的查询语句的分词的词为中文。