CN103020289B - 一种基于日志挖掘的搜索引擎用户个性化需求提供方法 - Google Patents
一种基于日志挖掘的搜索引擎用户个性化需求提供方法 Download PDFInfo
- Publication number
- CN103020289B CN103020289B CN201210583024.5A CN201210583024A CN103020289B CN 103020289 B CN103020289 B CN 103020289B CN 201210583024 A CN201210583024 A CN 201210583024A CN 103020289 B CN103020289 B CN 103020289B
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- data
- type
- search engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及互联网信息技术领域,尤其涉及一种基于日志挖掘的搜索引擎用户个性化需求提供方法,该方法采用马尔可夫模型来对用户的搜索行为进行建模,包括表示用户满意和不满意的行为模型;用最大似然估计来计算用户的搜索行为分别从满意和不满意行为模型中生成的最大似然估计;最后用最大似然估计比来评估用户的满意程度,在复杂、模糊的搜索引擎用户行为信息日志中来评估用户满意度,分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果,从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。
Description
技术领域
本发明涉及互联网信息技术领域,尤其涉及一种基于日志挖掘的搜索引擎用户个性化需求提供方法。
背景技术
随着互联网信息的迅速膨胀,搜索引擎成为引导用户获得信息的主要途径,尽管以百度、Google为代表的搜索引擎取得了巨大的成功,但其仍然无法满足日益增长的用户信息需求和高效方便获取信息资源的要求。如何向网络用户提供优质的检索服务,如何从用户的角度出发给出用户满意的结果,从而吸引更多客户使用,一直是商用搜索引擎所关注的重点。
传统的搜索引擎质量评价方法一般仅考虑单个查询返回结果页面的质量,如相关性、准确性、时效性、权威性、满意度等,其中满意度给出的是主观的综合评价。然而,用户使用搜索引擎时的信息需求有时会是复杂和模糊的,搜索过程中可能出现关键词的修改和重查询。因此,单个查询返回结果页面的质量并不能代表用户信息需求的满意程度,以单个查询返回结果页面的质量作为评价搜索引擎质量的指标也不能很好的促进搜索引擎的性能优化。
发明内容
为了解决上述问题,本发明使用用户满意度作为搜索引擎的评价指标,即用户信息需求满意度,本发明采用马尔可夫模型来对用户的搜索行为进行建模,包括表示用户满意和不满意的行为模型;用最大似然估计来计算用户的搜索行为分别从满意和不满意行为模型中生成的最大似然估计;最后用最大似然估计比来评估用户的满意程度,在复杂、模糊的搜索引擎用户行为信息日志中来评估用户满意度,分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果。
本发明是通过以下技术方案达到上述目的:一种基于日志挖掘的搜索引擎用户个性化需求提供方法,包括数据预处理阶段、训练阶段和评估阶段,数据预处理阶段包括以下步骤:
1)基于搜索引擎日志数据分析将用户行为数据按类型归类为查询、搜索结果列表翻页、相关搜索点击、快捷方式点击、拼写建议点击、算法搜索点击、算法搜索分享点击、算法搜索预览点击、其他类型的点击和信息需求的结束;
2)将归类的用户行为数据选取一部分作为训练样本数据,按照人工标注的结果分为满意样本数据和不满意样本数据两部分,并包括用户、信息需求、用户满意度、用户搜索类型和用户点击类型五类信息。
3)将上述训练样本数据规范化处理为包括用户、信息需求和用户行为类型三类信息;
训练阶段包括训练满意行为模型和训练不满意行为模型两个子阶段,训练满意行为模型包括以下步骤:
1)读取经过数据预处理的满意用户行为训练样本数据;
2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数;
3)统计已读数据出现的行为转移的类型及该行为转移出现的次数;
4)根据马尔可夫模型,用最大似然估计来计算满意行为模型的概率转移矩阵;
训练不满意行为模型包括以下步骤:
1)读取经过数据预处理的不满意用户行为训练样本数据;
2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数;
3)统计已读数据出现的行为转移的类型及该行为转移出现的次数;
4)根据马尔可夫模型,用最大似然估计来计算不满意行为模型的概率转移矩阵;
评估阶段包括以下步骤:
1)输入用户行为数据并将其经规范化处理为包括用户、信息需求和用户行为类型三类信息的用户规范化行为数据;
2)输入从上述训练阶段得到的满意和不满意行为模型的概率转移矩阵;
3)以一个信息需求为单位计算当前的用户规范化行为数据从满意和不满意行为模型中生成的最大似然估计;
4)计算从满意和不满意行为模型中生成的最大似然估计的比值,将比值与设定的阈值比较判断用户行为的满意度;
5)根据判断得出用户行为的满意度分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果。
本发明的有益效果在于:本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷,提出了基于行为日志的搜索引擎用户信息需求满意度评估方法,以用户信息需求为单位,通过分析搜索引擎日志中用户的搜索行为来评估用户满意度,分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果,从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。
附图说明
图1:基于行为日志数据挖掘的搜索引擎用户个性化需求提供方法流程图;
图2:训练样本数据分类图;
图3:数据规范化流程图;
图4:训练用户满意度模型流程图;
图5:评估用户满意度流程图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
一种基于日志挖掘的搜索引擎用户个性化需求提供方法,流程图如图1所示,该方法分为数据预处理、训练和评估三个阶段;数据预处理阶段的主要步骤包括:
步骤1,基于搜索引擎日志数据分析用户在使用搜索引擎过程中可能出现的行为:
a)查询:
表示用户向搜索引擎提交查询关键词(一次查询可能会提交多个关键词)的行为;包括各种类型引导区内的点击查询、查询关键词推荐、搜索框改词、查询关键词来源筛选等;
b)搜索结果列表翻页:
表示用户对提交的查询返回的结果列表做翻页的行为;包括翻页-上一页、翻页-下一页、翻页-点击某个页号等;
c)相关搜索点击:
表示用户对与自己信息需求接近的搜索目标推荐进行点击的行为;
d)快捷方式点击:
快捷方式点击能使用户快速的得到所需信息,当其与用户的搜索相关时会自动出现;
e)拼写建议点击:
表示对用户提交查询词可能出现的错误进行纠错的点击建议,包括对常用名词、专用术语、特殊网址等所有类型的查询词的纠错;
f)算法搜索点击:
表示对返回结果列表中某个结果的点击;
g)算法搜索分享点击:
表示对返回结果列表中某个结果进行分享型的点击;
h)算法搜索预览点击:
表示对返回结果列表中某个结果进行预览型的点击;
i)其他类型的点击:
除以上八种行为外的其他行为类型;
j)表示用户一个信息需求的结束:
为了更详细的描述用户行为以及更准确的搭建用户满意度模型,用一个特殊的行为“END”来标记用户一个信息需求的结束;
步骤2,如图2所示,将归类的用户行为数据选取一部分作为训练样本数据,训练样本数据包括用户UID、信息需求GID、用户满意度GS、用户搜索类型SF和用户点击类型CF五列数据;按照人工标注的结果分为满意样本数据和不满意样本数据两部分,满意用户行为数据用来训练满意行为模型,不满意用户行为数据用来训练不满意行为模型;
步骤3,数据规范化。将不规则的搜索引擎日志数据转化成规范的可用于训练搜索引擎用户满意度模型的数据,流程如图3所示:
a)读取搜索引擎日志数据;
b)判断用户搜索类型SF是否为空,如果SF为空,则用户点击类型CF必不为空,说明用户的行为是点击类型的行为;如果SF不为空,则用户点击类型CF必为空,说明用户的行为是搜索类型的行为;
c)用户搜索类型SF不为空,则在步骤1中找到符合当前用户点击类型CF的行为作为规范行为来替换CF,并把CF移动到SF列;
d)用户搜索类型SF为空,则在步骤1中找到符合当前用户搜索类型SF的行为作为规范行为来替换SF;
e)在每个信息需求的结束部分多添加一个“END”行来标志用户当前信息需求的结束;
经过数据规范化后得到的数据包括用户UID、信息需求GID和用户行为SF/CF/END三列;
训练阶段包括训练满意行为模型和训练不满意行为模型两个子阶段:
训练满意行为模型的流程图如图4所示,主要步骤包括:
步骤1,读取经过数据预处理的满意用户行为数据;
步骤2,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤3,统计已读数据出现的行为的类型si及该类型行为出现的次数
步骤4,统计已读数据出现的行为转移的类型(si,sj)及该行为转移出现的次数
步骤5,计算转移概率矩阵。每个行为序列都可以表示成一个图中的链或路径,那么一个信息需求就可以简单的表示成一个基于用户行为的马尔可夫模型;马尔可夫模型的状态空间是用户在搜索过程中可能出现的多种行为的集合;用最大似然估计来计算两个行为si和sj之间的转移概率:
步骤6,输出满意行为模型的概率转移矩阵;
如图4所示,训练不满意行为模型与训练满意行为模型类似,具体包括以下步骤:
步骤1,读取经过数据预处理的不满意用户行为数据;
步骤2,以一个信息需求为单位来读取数据。如果所读数据是一个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信息需求,则继续读取数据;
步骤3,统计已读数据出现的行为的类型si及该类型行为出现的次数
步骤4,统计已读数据出现的行为转移的类型(si,sj)及该行为转移出现的次数
步骤5,计算转移概率矩阵;
步骤6,输出不满意行为模型的概率转移矩阵;
评估阶段的流程图如图5所示,主要包括以下步骤:
步骤1,输入经过数据规范化的评估数据;
步骤2,输入从训练阶段得到的满意和不满意行为模型的概率转移矩阵;
步骤3,计算最大似然估计。给定一个模型M和一个包含n个行为的行为序列S=(S1,S2,...,Sn),则从M中生成这个行为序列的概率是:
式中:W是概率转移函数;
则最大似然估计为:
步骤4,计算最大似然估计比;用最大似然估计比来评估用户对当前信息需求是否满意;
最大似然估计比为:
S是goal的行为序列,是从满意模型中得到的行为序列的最大似然估计,是从不满意模型中得到的行为序列的最大似然估计;
步骤5,如果f大于最优参数λ,则评估用户对当前信息需求是满意的,否则就是不满意的,最优参数λ可以使用参数优化的方法来取得;
步骤6,根据判断得出用户行为的满意度分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (2)
1.一种基于日志挖掘的搜索引擎用户个性化需求提供方法,其特征在于包括数据预处理阶段、训练阶段和评估阶段;数据预处理阶段包括以下步骤:
1)基于搜索引擎日志数据分析将用户行为数据按类型归类;
2)将归类的用户行为数据选取一部分作为训练样本数据,按照人工标注的结果分为满意样本数据和不满意样本数据两部分,并包括用户、信息需求、用户满意度、用户搜索类型和用户点击类型五类信息;
3)将训练样本数据规范化处理为包括用户、信息需求和用户行为类型三类信息;
训练阶段包括训练满意行为模型和训练不满意行为模型两个子阶段,训练满意行为模型包括以下步骤:
1)读取经过数据预处理的满意用户行为训练样本数据;
2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数;
3)统计已读数据出现的行为转移的类型及该行为转移出现的次数;
4)根据马尔可夫模型,用最大似然估计来计算满意行为模型的概率转移矩阵;
训练不满意行为模型包括以下步骤:
1)读取经过数据预处理的不满意用户行为训练样本数据;
2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数;
3)统计已读数据出现的行为转移的类型及该行为转移出现的次数;
4)根据马尔可夫模型,用最大似然估计来计算不满意行为模型的概率转移矩阵;
评估阶段包括以下步骤:
1)输入用户行为数据并将其经规范化处理为包括用户、信息需求和用户行为类型三类信息的用户规范化行为数据;
2)输入从上述训练阶段得到的满意和不满意行为模型的概率转移矩阵;
3)以一个信息需求为单位计算当前的用户规范化行为数据从满意和不满意行为模型中生成的最大似然估计;
4)计算从满意和不满意行为模型中生成的最大似然估计的比值,将比值与设定的阈值比较判断用户行为的满意度;
5)根据判断得出用户行为的满意度分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果。
2.根据权利要求1所述的一种基于日志挖掘的搜索引擎用户个性化需求提供方法,其特征在于,数据预处理阶段步骤1)所述的基于搜索引擎日志数据分析将用户行为数据按类型归类为查询、搜索结果列表翻页、相关搜索点击、快捷方式点击、拼写建议点击、算法搜索点击、算法搜索分享点击、算法搜索预览点击、其他类型的点击和信息需求的结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210583024.5A CN103020289B (zh) | 2012-12-25 | 2012-12-25 | 一种基于日志挖掘的搜索引擎用户个性化需求提供方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210583024.5A CN103020289B (zh) | 2012-12-25 | 2012-12-25 | 一种基于日志挖掘的搜索引擎用户个性化需求提供方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103020289A CN103020289A (zh) | 2013-04-03 |
CN103020289B true CN103020289B (zh) | 2015-08-05 |
Family
ID=47968892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210583024.5A Active CN103020289B (zh) | 2012-12-25 | 2012-12-25 | 一种基于日志挖掘的搜索引擎用户个性化需求提供方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103020289B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679771B (zh) * | 2013-11-29 | 2018-09-18 | 阿里巴巴集团控股有限公司 | 一种个性化数据搜索方法和装置 |
CN104573312A (zh) * | 2014-10-22 | 2015-04-29 | 浙江中烟工业有限责任公司 | 一种基于日志的移动应用用户满意度评测方法 |
CN105069077A (zh) * | 2015-07-31 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN106547816B (zh) * | 2016-09-27 | 2019-10-18 | 河海大学 | 一种基于负相关反馈的时间序列相似性搜索方法 |
CN111311309A (zh) * | 2020-01-19 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 用户满意度确定方法、装置、设备和介质 |
CN114090663B (zh) * | 2021-12-08 | 2022-06-21 | 青山信息技术开发(深圳)有限公司 | 应用人工智能的用户需求预测方法及大数据优化系统 |
CN114201412B (zh) * | 2022-02-16 | 2022-05-06 | 广东数源智汇科技有限公司 | 一种搜索引擎的千人千面程度测评方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156746A (zh) * | 2011-04-19 | 2011-08-17 | 清华大学 | 搜索引擎的性能评价方法 |
CN102270212A (zh) * | 2011-04-07 | 2011-12-07 | 浙江工商大学 | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2363834A1 (en) * | 1999-02-19 | 2001-01-25 | The Trustees Of Columbia University In The City Of New York | Cut and paste document summarization system and method |
-
2012
- 2012-12-25 CN CN201210583024.5A patent/CN103020289B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270212A (zh) * | 2011-04-07 | 2011-12-07 | 浙江工商大学 | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 |
CN102156746A (zh) * | 2011-04-19 | 2011-08-17 | 清华大学 | 搜索引擎的性能评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103020289A (zh) | 2013-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020289B (zh) | 一种基于日志挖掘的搜索引擎用户个性化需求提供方法 | |
US7747641B2 (en) | Modeling sequence and time series data in predictive analytics | |
US8160977B2 (en) | Collaborative predictive model building | |
Soibelman et al. | Management and analysis of unstructured construction data types | |
EP2289007B1 (en) | Search results ranking using editing distance and document information | |
US7730023B2 (en) | Apparatus and method for strategy map validation and visualization | |
US20140279753A1 (en) | Methods and system for providing simultaneous multi-task ensemble learning | |
US20110313844A1 (en) | Real-time-ready behavioral targeting in a large-scale advertisement system | |
US20140149429A1 (en) | Web search ranking | |
CN103310003A (zh) | 一种基于点击日志的新广告点击率预测方法及系统 | |
CN104933239A (zh) | 一种基于混合模型的个性化职位信息推荐系统及实现方法 | |
CA3179300C (en) | Domain-specific language interpreter and interactive visual interface for rapid screening | |
CN108027814A (zh) | 停用词识别方法与装置 | |
CN111190968A (zh) | 基于知识图谱的数据预处理和内容推荐方法 | |
US9740986B2 (en) | System and method for deducing user interaction patterns based on limited activities | |
CA2894106C (en) | Automated predictive tag management system | |
Li | A study on the influence of non-intelligence factors on college students’ English learning achievement based on C4. 5 algorithm of decision tree | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
Hamad et al. | Knowledge-driven decision support system based on knowledge warehouse and data mining for market management | |
CN112115264B (zh) | 面向数据分布变化的文本分类模型调整方法 | |
CN113570348A (zh) | 一种简历筛选方法 | |
Dupret et al. | Model based comparison of discounted cumulative gain and average precision | |
de S. Ribeiro et al. | Complementing data in the ETL process | |
Ustinovskiy et al. | An optimization framework for weighting implicit relevance labels for personalized web search | |
CN111753151A (zh) | 一种基于互联网用户行为的服务推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent for invention or patent application | ||
CB02 | Change of applicant information |
Address after: Hangzhou City, Zhejiang Province, Binjiang District Puyan street 310053 Albert Road No. 1 Building 2 Zhejiang Hongcheng computer system Co. Ltd. Applicant after: Zhejiang Hongcheng Computer Systems Co., Ltd. Address before: 1, building 11, building 1, No. 310012, staff Road, Hangzhou, Zhejiang Applicant before: Zhejiang Hongcheng Computer Systems Co., Ltd. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |