CN103164537B - 一种面向用户信息需求的搜索引擎日志数据挖掘的方法 - Google Patents

一种面向用户信息需求的搜索引擎日志数据挖掘的方法 Download PDF

Info

Publication number
CN103164537B
CN103164537B CN201310125029.8A CN201310125029A CN103164537B CN 103164537 B CN103164537 B CN 103164537B CN 201310125029 A CN201310125029 A CN 201310125029A CN 103164537 B CN103164537 B CN 103164537B
Authority
CN
China
Prior art keywords
query
similarity
user
search engine
information requirement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310125029.8A
Other languages
English (en)
Other versions
CN103164537A (zh
Inventor
吴勇
王敬昌
陈岭
邵维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Hongcheng Computer Systems Co Ltd
Original Assignee
Zhejiang Hongcheng Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Hongcheng Computer Systems Co Ltd filed Critical Zhejiang Hongcheng Computer Systems Co Ltd
Priority to CN201310125029.8A priority Critical patent/CN103164537B/zh
Publication of CN103164537A publication Critical patent/CN103164537A/zh
Application granted granted Critical
Publication of CN103164537B publication Critical patent/CN103164537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网搜索引擎日志划分领域,尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法,包括:查询日志块归类、查询相似度计算和用户信息需求提供,综合计算查询词相似度和查询结果相似度作为查询相似度,以此为依据判断了两个查询是否具有相同的信息需求,有效快速的对搜索日志进行划分。本发明的有益效果在于:本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷,提出了基于行为日志的搜索引擎用户信息需求满意度评估方法,以用户信息需求为单位,通过分析搜索引擎日志中用户的搜索行为来评估用户满意度,分析出用户的个性化需求,并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。

Description

一种面向用户信息需求的搜索引擎日志数据挖掘的方法
技术领域
本发明涉及互联网搜索引擎日志划分领域,尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法。
背景技术
搜索引擎日志的研究是互联网不可缺少的一个环节,尤其是对优化网站来说,SEO业务需要做好,都必须进行科学的日志分析。搜索引擎日志包含的用户活动信息,如用户的使用时间、点击文档位置、搜索次数等,能够为用户行为分析提供依据,指导搜索引擎的技术改进。搜索引擎日志划分,是搜索引擎日志研究的基础。目前对搜索引擎日志划分,主要有两种方法:人工划分和自动划分,其中人工划分的方法又可以分为用户自报告和评估员人工标注。
用户自报告是指用户在搜索的时候就标注出自己使用的情况,这样得到的是真实准确的数据,但自报告的方法需要大量的人力,可行性低。
评估员人工标注是指评估员根据自己理解对日志标注数据,重现用户使用搜索引擎的情况,这样做比自报告需要的人力略少,但是准确度没有用户自报告高。
自动划分是提取搜索引擎日志中的特征,根据特征对日志进行划分,最普遍的方法是根据时间进行划分,将搜索引擎记录下来的数据视为连续的序列,判断两次用户搜索的时间间隔是否大于时间阈值,将小于时间阈值的用户搜索划分入同一个数据块。这类方法首先要确定一个合适的时间阈值,但是不同情况下用户搜索的情况千变万化,准确的时间阈值难以确定。其他的自动划分方法提取的特征有用户IP、Cookie、搜索语句等。自动划分和和人工划分相比,胜在简单快速,劣势在于准确度不高。
但是前面所提到的方法都忽略了一个事实,用户在使用搜索引擎时经常在同一时间进行多个信息需求的搜索活动,在搜索日志上表现为带有多个搜索目的的搜索行为同时进行,一个完整的查询活动会被分成几个小块记录在搜索引擎日志中。传统的方法往往将这类同一个信息需求的几个小块划分成多个不同信息需求的搜索记录,不能有效识别这种带有多信息需求的用户活动搜索引擎日志。
发明内容
本发明为克服上述的不足之处,目的在于提供面向用户信息需求的搜索引擎日志划分方法,解决多用户信息需求并存的搜索引擎日志中,对一个用户单一信息需求搜索的记录的识别和划分,统计用户查询相似度得出用户信息需求,并通过搜索引擎提供给用户个性化需求的结果。
本发明是通过以下技术方案达到上述目的:
一种面向用户信息需求的搜索引擎日志数据挖掘的方法,包括查询日志块归类、查询相似度计算和用户信息需求提供,查询日志块归类包括以下步骤:
1)根据日志信息标志每个用户查询的查询时间和IP;
2)根据用户IP对搜索日志进行划分,默认IP相同的搜索日志为一个用户的查询日志块;
3)对相同用户的查询日志块用时间划分,将查询时间间隔大于时间阈值的查询划分成不同查询块。
查询相似度计算包括查询词相似度计算、查询结果相似度计算及查询相似度输出,查询词相似度计算包括以下步骤:
1)输入用户查询块中的查询语句,将查询语句的词进行分词,去掉停用词;
2)在经过分词的查询语句中提取查询关键词;
3)计算查询关键词中相同的词和不同的词;
4)输出相同的词和查询关键词的比值作为查询词相似度。
查询结果相似度计算包括以下步骤:
1)提取查询返回的结果网页作为输入;
2)提取网页进行文本化,对文本进行分词;
3)计算每个单词的TF-IDF值,将文本向量化;
4)通过比较两个查询的距离计算出查询结果相似度;
根据查询词相似度和查询结果相似度,输出查询相似度。
用户信息需求提供包括以下步骤:
1)输入经过时间和用户IP划分的用户搜索日志;
2)在划分好的查询块内,计算第一个查询和其他查询的相似度,将相似度高的所有查询归为同一个用户信息需求的搜索任务查询并标记;
3)统计用户查询相似度得出用户信息需求,并通过搜索引擎提供给用户个性化需求的结果。
作为优选,查询词相似度计算的步骤2)所述的查询语句的分词的词为中文。
本发明的有益效果在于:
本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷,提出了基于行为日志的搜索引擎用户信息需求满意度评估方法,以用户信息需求为单位,通过分析搜索引擎日志中用户的搜索行为来评估用户满意度,分析出用户的个性化需求,并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。
本发明综合计算了查询词相似度和查询结果相似度作为查询相似度,以此为依据判断了两个查询是否具有相同的信息需求,能够更加有效快速的对搜索日志进行划分,为用户搜索行为分析提供更加准确的依据,通过搜索引擎提供给用户个性化需求的结果,为搜索引擎的改善提供更加准确的指导。
附图说明
图1:面向用户信息需求的搜索引擎日志数据挖掘的方法流程图;
图2:查询日志块归类流程图;
图3:查询相似度计算流程图;
图4:用户信息需求提供流程图。
具体实施方式
本发明提出了面向用户信息需求的搜索引擎日志数据挖掘的方法,流程图如图1所示,本方法可以分为三个阶段:查询日志块归类、查询相似度计算和用户信息需求提供。
查询日志块归类:
根据用户IP和时间对用户搜索日志的划分和传统方法一致,主要是为了简化多任务划分,缩小用户信息需求细划分循环的范围。
方法如图2所示:
1)根据日志信息标志每个用户查询的查询时间和IP;
2)对于得到的数据,先对两两相邻的查询(记为查询Qi和Qi+1)的用户IP进行比较,IP不同则将查询标注为不同的块;
3)对IP相同的相邻的两个查询,判断两个查询相隔时间是否大于时间阈值,大于时间阈值则将两个划分为不同的块。
查询相似度计算:
包括查询词相似度计算、查询结果相似度计算及查询相似度输出,查询词相似度计算包括以下步骤,如图3所示:
由于搜索引擎的用户大部分都是中文用户,在输入关键词查询信息时使用的都是中文。这里采用了计算查询语句之间的相同关键词的方法,首先对查询语句进行中文分词,分出的关键词再计算有多少个是相同的。
将第i个查询Qi分词后的结果记为集合R(Qi),将第j个查询Qj分词后的结果记为集合R(Qj),记Qi和Qj的查询词相似度为Kij,则查询Qi和查询Qj的查询词相似度可以计算为:
K ij = R ( Q i ) ∩ R ( Q j ) R ( Q i ) ∪ R ( Q j ) - - - ( 1 )
步骤2:查询结果相似度计算:
返回结果的相似度是指,用户搜索后,搜索引擎返回的结果之间的相似度。这里的结果主要是指网页结果。为了能定量地计算查询结果相似度,首先,要将两张网页都向量化。
引入TF-IDF(termfrequency-inversedocumentfrequency)来表示一个词的权重。TF指的是某一个给定的词语在该文件中出现的次数,IDF是一个词语普遍重要性的度量。TF和IDF的乘积(记为TF-IDF值)可以作为一个词在文档中的权重的参考。
查询返回结果相似度是指两个查询的搜索引擎返回结果的相似度比较。为此,提取得所有查询的快照中的正文内容,并进行了分词,去掉了停用词,存入文档中。基于这个文档,可以计算每个单词的TF-IDF值。将第i个查询的返回结果向量化为:Pi{<Xpi_1,Wpi_1>,<Xpi_2,Wpi_2>,......,<Xpi_n,Wpi_n>}
其中,Xpi_k(k=1…n)指在所有返回结果组成的文档集中一条查询返回结果经过中文分词之后的单词;Wpi_k指Xpi_k在这个查询中的权重,在本发明中为Wpi_k的TF-IDF值。
通过余弦值来比较两个查询的距离,记查询结果相似度为Rij,则:
R ij = &Sigma; k = 1 n W p i _ k &times; W p j _ k &Sigma; k = 1 n W p i _ k 2 &times; &Sigma; k = 1 n W p j _ k 2 - - - ( 2 )
步骤3:综合查询词相似度和查询结果相似度,输出查询相似度:
综合查询词相似度和查询结果相似度,计算查询相似度,记为Sij,则:
Sij=αKij+(1-α)Rij(3)
通过对人工标注的数据进行研究,这里取α=0.4作为参考数值,使得计算出的相似度最能代表查询之间的关系。
用户信息需求提供包括以下步骤:
根据查询相似度将同一用户相同信息需求的查询聚合到一起,如图4所示:
1)输入经过时间和用户IP划分的用户搜索日志数据;
2)在划分好的块内,计算第一个查询和其他查询的相似度,将相似度高的所有查询归为同一个目的的搜索任务查询并标记;
3)重复步骤2直到所有查询都已被标记;
4)统计用户查询相似度得出用户信息需求,输出已划分的数据,并通过搜索引擎提供给用户个性化需求的结果。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (2)

1.一种面向用户信息需求的搜索引擎日志数据挖掘的方法,其特征在于包括查询日志块归类、查询相似度计算和用户信息需求提供,查询日志块归类包括以下步骤:
1)根据日志信息标志每个用户查询的查询时间和IP;
2)根据用户IP对搜索日志进行划分,默认IP相同的搜索日志为一个用户的查询日志块;
3)对相同用户的查询日志块用时间划分,将查询时间间隔大于时间阈值的查询划分成不同查询块;
查询相似度计算包括查询词相似度计算、查询结果相似度计算及查询相似度输出,查询词相似度计算包括以下步骤:
1)输入用户查询块中的查询语句,将查询语句的词进行分词,去掉停用词;
2)在经过分词的查询语句中提取查询关键词;
3)计算查询关键词中相同的词和不同的词;
4)输出相同的词和查询关键词的比值作为查询词相似度;
查询结果相似度计算包括以下步骤:
1)提取查询返回的结果网页作为输入;
2)提取网页进行文本化,对文本进行分词;
3)计算每个单词的TF-IDF值,将文本向量化;
所述TF-IDF值表示一个词的权重;TF为某一个给定的词语在文件中出现的次数,IDF为一个词语普遍重要性的度量,TF和IDF的乘积记为TF-IDF值;
4)通过比较两个查询的距离计算出查询结果相似度;
通过余弦值来比较两个查询的距离,记查询结果相似度为Rij,则:
R ij = &Sigma; k = 1 n W p i _ k &times; W p j _ k &Sigma; k = 1 n W p i _ k 2 &times; &Sigma; k = 1 n W p j _ k 2
其中,在第i条查询中的权重,即的TF-IDF值;(k=1…n)指在所有返回结果组成的文档集中第i条查询返回结果经过中文分词之后的单词;同理,下标带j的参数为在第j条查询中的权重与单词;
综合查询词相似度和查询结果相似度,计算查询相似度,记为Sij,则:
Sij=αKij+(1-α)Rij
其中,α=0.4,Rij为查询结果相似度,Kij为查询词相似度;
用户信息需求提供包括以下步骤:
1)输入经过时间和用户IP划分的用户搜索日志;
2)在划分好的查询块内,计算第一个查询和其他查询的相似度,将相似度高的所有查询归为同一个用户信息需求的搜索任务查询并标记;
3)统计用户查询相似度得出用户信息需求,并通过搜索引擎提供给用户个性化需求的结果。
2.根据权利要求1所述的一种面向用户信息需求的搜索引擎日志数据挖掘的方法,其特征在于,查询词相似度计算的步骤2)所述的查询语句的分词的词为中文。
CN201310125029.8A 2013-04-09 2013-04-09 一种面向用户信息需求的搜索引擎日志数据挖掘的方法 Active CN103164537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310125029.8A CN103164537B (zh) 2013-04-09 2013-04-09 一种面向用户信息需求的搜索引擎日志数据挖掘的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310125029.8A CN103164537B (zh) 2013-04-09 2013-04-09 一种面向用户信息需求的搜索引擎日志数据挖掘的方法

Publications (2)

Publication Number Publication Date
CN103164537A CN103164537A (zh) 2013-06-19
CN103164537B true CN103164537B (zh) 2016-01-13

Family

ID=48587624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310125029.8A Active CN103164537B (zh) 2013-04-09 2013-04-09 一种面向用户信息需求的搜索引擎日志数据挖掘的方法

Country Status (1)

Country Link
CN (1) CN103164537B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573312A (zh) * 2014-10-22 2015-04-29 浙江中烟工业有限责任公司 一种基于日志的移动应用用户满意度评测方法
CN105488522B (zh) * 2015-11-23 2018-09-07 浙江鸿程计算机系统有限公司 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法
CN105573887B (zh) * 2015-12-14 2018-07-13 合一网络技术(北京)有限公司 搜索引擎的质量评估方法和装置
CN105677888A (zh) * 2016-01-25 2016-06-15 中兴软创科技股份有限公司 一种基于用户时间碎片的业务偏好识别方法
CN105956204B (zh) * 2016-07-01 2019-08-02 北京奇虎科技有限公司 会话Session满意度评估的方法及装置
CN106202312B (zh) * 2016-07-01 2019-10-18 天翼智慧家庭科技有限公司 一种用于移动互联网的兴趣点搜索方法和系统
CN109582744B (zh) * 2017-09-29 2021-08-10 阿里巴巴(中国)有限公司 一种用户满意度评分方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254039A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种基于搜索引擎的网络搜索方法
CN102339322A (zh) * 2011-11-10 2012-02-01 武汉大学 基于搜索交互信息和用户搜索意图的词义提取方法
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101078864B1 (ko) * 2009-03-26 2011-11-02 한국과학기술원 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254039A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种基于搜索引擎的网络搜索方法
CN102339322A (zh) * 2011-11-10 2012-02-01 武汉大学 基于搜索交互信息和用户搜索意图的词义提取方法
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于Ant_Tree算法的短文本聚类研究";吴勇等;《软件》;20111231;第32卷(第4期);第84-86、90页 *

Also Published As

Publication number Publication date
CN103164537A (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN103164537B (zh) 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
CN102982153B (zh) 一种信息检索方法及其装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
US9317550B2 (en) Query expansion
CN103176983B (zh) 一种基于互联网信息的事件预警方法
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
CN103593425B (zh) 基于偏好的智能检索方法及系统
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN103473317A (zh) 提取关键词的方法和设备
CN101127042A (zh) 一种基于语言模型的情感分类方法
US10387805B2 (en) System and method for ranking news feeds
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN103853738A (zh) 一种网页信息相关地域的识别方法
CN113312474A (zh) 一种基于深度学习的法律文书的相似案件智能检索系统
CN106776672A (zh) 技术发展脉络图确定方法
CN104965931A (zh) 一种基于大数据的舆情分析方法
CN113378565A (zh) 多源数据融合的事件分析方法、装置、设备及存储介质
CN110543595A (zh) 一种站内搜索系统及方法
CN103020289A (zh) 一种基于日志挖掘的搜索引擎用户个性化需求提供方法
US20130052619A1 (en) Method for building information on emotion lexicon and apparatus for the same
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: Hangzhou City, Zhejiang Province, Binjiang District Puyan street 310053 Albert Road No. 1 Building 2 Zhejiang Hongcheng computer system Co. Ltd.

Applicant after: Zhejiang Hongcheng Computer Systems Co., Ltd.

Address before: 1, building 11, building 1, No. 310012, staff Road, Hangzhou, Zhejiang

Applicant before: Zhejiang Hongcheng Computer Systems Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant