CN100507918C - 一种网络关键资源页面的自动定位方法 - Google Patents
一种网络关键资源页面的自动定位方法 Download PDFInfo
- Publication number
- CN100507918C CN100507918C CNB2007100985319A CN200710098531A CN100507918C CN 100507918 C CN100507918 C CN 100507918C CN B2007100985319 A CNB2007100985319 A CN B2007100985319A CN 200710098531 A CN200710098531 A CN 200710098531A CN 100507918 C CN100507918 C CN 100507918C
- Authority
- CN
- China
- Prior art keywords
- user
- inquiry
- page
- search engine
- clicking rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000009826 distribution Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 2
- 230000002354 daily effect Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000004807 localization Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 230000032683 aging Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 244000089409 Erythrina poeppigiana Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种网络关键资源页面的自动定位方法,属于互联网信息处理领域,其特征在于:它首先从多家搜索引擎用户查询点击信息记录中筛选出具有时效性和代表性的查询主题词,提取出其对应的用户点击结果页面和结果页面的“用户点击率”,得到查询主题集合、关键资源页面候选集和“用户点击分布”;随后对多家搜索引擎的用户查询点击信息记录上得到的“用户点击分布”进行融合,利用“查询可信度”信息得到融合后的“用户点击分布”;最后根据融合后的“用户点击分布”对关键资源页面候选集中的页面进行判定,得到主题相关的关键资源页面。该方法具有计算机自动,准确客观和迅速定位的优点。
Description
技术领域
本发明属于互联网信息处理领域,特别是涉及一种基于用户行为分析、挖掘的网络关键资源页面定位的自动化处理方法。
背景技术
搜索引擎是以一定的策略搜集互联网上的信息,在对信息进行组织和处理后为用户提供网络信息服务的计算机系统,它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。
目前,通用搜索引擎包含信息搜集、信息整理和用户查询三部分。搜索引擎通过被称为网络爬行器的工具进行信息搜索,用索引器对抓取的信息进行整理,进而使用查询器进行用户查询,并返回相关结果列表,提供相关信息以满足用户的查询需求。
从使用者的角度看,搜索引擎提供一个包含搜索框的页面,用户在搜索框输入能反映自己查询需求的关键词,通过浏览器提交给搜索引擎后,搜索引擎返回和用户输入的内容相关的搜索结果信息列表,用户进行点击查找所需要的信息。
网络关键资源页面可以理解为是关于查询主题权威可信,且对用户获取信息最有用的页面。根据文本检索会议TREC(Text Retrieval Conference)网络信息检索部分的权威定义,关键资源页面应当是某个关键站点的入口页面,此站点提供了关于某个主题的可靠信息(这里的入口页面不一定是通常意义上的“主页”,它可能是大规模站点的接入页面,也可能是某个子站点或者某一类页面集合的接入页面)。因此,关键资源页面之所以关键,是因为它提供给用户一个源于某个主题的可靠信息入口。用户通过关键资源页面,可以比较快捷的查找到所需要的信息。同时,某个主题的关键资源页面数要比其相关页面数少得多(相关页面动辄成百上千,而关键资源页面往往只有几个到十几个),这也方便用户将注意力集中到少数一些与自己的查询主题最贴切的页面上。
当前网络信息检索中超过80%的检索需求可以用关键资源查找技术加以实现,在这一大部分检索需求中,只有关键资源页面是查询用户所需要的结果。因此,自动准确地查找某一查询主题下的关键资源对于网络信息检索工具提高其信息收集的有效性十分重要,其定位技术也成为了网络信息检索研究和应用中的重点考察问题之一。反映在国际信息检索研究最高水平的美国计算机学会情报检索专业组SIGIR(International ACM SIGIR Conference onResearch and Development in Information Retrieval)会议上,关键资源查找技术无论从论文数目还是质量来看,一直都是近年讨论的热点。查找关键资源,是当前网络信息检索的发展热点,也已经获得了一些卓有成效的理论研究和实验结果。但总的来说,关键资源定位技术研究的发展还停留在一个比较低的水平上,作为评价标准的前十位结果检索精度(Precision at 10documents,P@10)一直在20%左右徘徊,而表现网络数据不同于普通数据的许多查询无关特征也没有得到充分的考察。
关键资源定位技术按照出发点不同,通常可分为两大类,第一类是从页面角度出发,根据页面特征判断该页面是否为关键资源,如文本内容、超链接关系等。这一类关键资源页面也通常也被称为高质量页面,若其与某查询主题相关时,也被称为检索目标页面;另一类是从需求出发,根据给定的查询主题,从大量的页面中,筛选出该主题相关的页面。两类不同的定位方式有着不同定位方法和应用环境。
第一类主题无关的关键资源定位技术可以通过相关的页面质量评估方式来对页面进行评级,判定是否为关键资源页面,现有的技术主要基于页面之间的超链接关系以及一些页面自身的特征来实现页面的质量评估,已有的技术主要有PageRank、Hits等算法技术。该类技术可应用于搜索引擎的分级索引,检索结果排序等相关环境中,用来提高搜索引擎的检索速度和精确性。
另一类主题相关的定位技术由于直接从用户需求出发,关键资源页面和主题相关联,能大量减少和给定主题无关的页面,大幅度的提高存储页面的有效性和存储资源的利用率。主题相关的关键资源定位技术有很多需求强烈的实际应用,如根据查询主题和关键资源页面架构Web的目录式搜索;对查询主题进行答案标注,进而实现对搜索引擎的评价;应用于返回的查询结果中,提高查询精度等,这些需求和应用都无法通过第一类技术来完成和实现,其关键资源页面必须和特定的主题相关联。
已有的主题相关的网络关键资源页面判定基本上都是对给定的主题,用人工的方式去判断某一个页面是否是该主题下的关键资源,需要大量的人力劳动。美国国家技术研究所(NIST)组织的文本检索会议(TREC)经过多年积累,提出了能减少人力劳动的技术,其核心被称为结果池过滤技术(Pooling)。但无论怎样,已有主题相关的网络关键资源定位技术其缺点是明显的,尽管手工标注的工作量被大大减少,但大规模的主题相关的关键资源页面的定位仍然难以操作和实现,而且手工标注带来的员工主观影响也很难避免。特别对于大规模、实时(语料规模超过10亿页面,每天或每几天都有大量的查询主题)的网络信息检索的应用和分析是远远不够的。另外,一般的搜索过程本身可以看作一种定位方式,但搜索引擎返回的结果页面过多,检索精度低,用户满意度不高。
在实际商用搜索引擎中,用户对查询返回结果会按照自己的理解和满意程度进行点击,很容易对用户的该点击行为进行记录,该用户查询点击信息记录通常也被称为搜索引擎日志。查询记录点击信息不但体现了用户的查询兴趣,也包含了用户对查询结果挑选和判断。因此,从用户的查询点击信息中筛选相关的查询主题是可行的,已有统计研究表明,在日常的用户搜索中,查询最频繁的1%的查询词占了70%以上的查询次数,因此只要对用户点击信息进行统计,找出那些常用的用户查询,则能代表大多数用户查询需求,分析其相关用户点击行为就能对该主题下的关键资源页面进行有效的自动定位。
发明内容
本发明的目的是针对已有方法的不足,提出了基于用户行为分析的网络关键资源定位方法。该方法利用已有的在多家搜索引擎上的用户查询及其点击行为,从宏观统计角度出发,提取用户关心的查询主题,并分析关键资源页面的用户点击分布特征,挑选出对应的关键资源页面。由于分析过程融合了多家搜索引擎的用户行为,能够避免因单个搜索引擎索引数据规模和检索策略给关键资源定位时所带来的偏向性和不足,在一定程度上保证了网络关键资源定位的查全率和准确性。另外,由于挑选查询主题和关键资源页面的定位过程是由计算机自动完成,因此可以及时、准确、客观的反映查询主题和关键资源页面的时效性和准确性。
该方法的具体内容描述如下:
1.利用用户的查询频率、结果点击等信息,自动筛选出具有时效性,能够反映大部分用户的查询需求,且能够被较准确标注的查询主题;
2.根据不同搜索引擎上的用户行为,分别计算各个查询主题对应的被点击页面及其点击率,得到该查询主题下所有被点击页面及其点击率所组成的关键资源页面候选集和查询用户点击分布;
3.利用融合方法,由多个搜索引擎上的用户点击分布得到各查询主题的整体查询用户点击分布特征;
4.根据融合后各个主题的查询点击分布特征,筛选对应的关键资源页面。
本发明的特征在于:
它是在计算机上完成的,依次含有如下步骤(步骤1和2分别在各个搜索引擎日志上独立操作):
步骤1.查询主题的筛选
步骤1.1 数据预处理
网络关键资源页面定位所使用的查询主题、关键资源页面以及定位过程中所使用到的相关信息来源于多个搜索引擎的用户日志,对于这些搜索引擎用户日志,它至少需要包含以下内容信息才能用于网络关键资源页面的自动定位:
表1 供关键资源定位使用的搜索引擎用户日志需包含的内容
名称 | 记录内容 | 记录位数(Bit) |
Query | 用户提交的查询 | 256 |
URL | 对应这个查询用户点击的结果地址 | 256 |
Id | 由系统自动分配的用户标识号,某个用户某次使用搜索引擎时即会被自动分配一个不同的标识号。 | 32 |
一般搜索引擎服务提供商都可以很容易的通过搜索引擎网络服务器得到以上信息,从而保证了本方法的可行性。由于各个搜索引擎对其用户日志存储格式和表现形式上有所差别,具体处理过程略有差别,但基本上都需要如下步骤对用户日志进行预处理:
步骤1.1.1 进行用户日志编码转换,将服务器记录的编码格式转换成国家标准汉字编码的GBK格式。
步骤1.1.2 利用表1中列出的内容项对用户日志进行整理,去除表1内容项之外的信息,并将日志整理成以上内容项字符串的形式。
步骤1.1.3 利用字符串匹配技术(如改进的字符串模式匹配算法KMP)过滤用户查询中的噪声信息,包括违禁查询问、某些在线商品推广使用的查询词等,仅保留直接反映搜索引擎普通用户查询需求与行为的内容项。
经过数据预处理过程,我们可以从中提取表1中列举的内容,并应用于方法的以下步骤。
步骤1.2 查询主题挑选
按照以下规则挑选所需要的查询主题集合S:
若:某个查询Q在搜索引擎日志中被不同的用户查询的次数小于20次,则排除在S之外;
否则:把该查询Q放入查询集合S中。
用查询的用户数对查询主题进行一定的筛选,保证所选择的查询能够反应当前用户的查询趋势,保证时效性和关注度,有一定的代表性。另外,挑选那些用户数较多的查询,能减少在关键资源定位过程中,因个别用户的点击行为,而带来的较大的波动性。
步骤2.基于单搜索引擎日志的查询用户点击率特征提取
步骤2.1提取各页面的“用户点击率”信息
对于查询集合S中的每个查询Q,都有一系列被点击的结果页面,通过表1提供的用户查询和点击信息,我们可以得到这一系列被点击的结果页面地址URL,并针对该查询计算每个页面URL的“用户点击率”,即用户对该页面点击次数的比例。对于该查询Q,每个页面的“用户点击率”的计算公式是:
其中,“查询结果URL用户的点击次数”可以通过对查询Q而被用户点击的URL计数得到,而“查询Q用户的总点击数”可以通过对查询Q的用户点击计数得到。
按照其定义,由于“查询结果URL用户的点击次数”必然小于等于“查询Q用户的总点击数”,因此“用户点击率”的取值范围在0和1之间。对查询Q,其各用户点击的结果页面URL的“用户点击率”和为1。
步骤2.2 生成查询的关键资源页面候选集
对于查询Q的所有用户点击页面及其对应的“用户点击率”,按如下规则生成查询Q对应的关键资源页面候选集:
若:某页面对应的“用户点击率”小于0.05,则剔除该页面;
否则:把该页面加入该查询对应的关键资源页面候选集。
对于查询Q,步骤2.1确定了其对应的用户点击过的页面的“用户点击率”。对于“用户点击率”大的页面,表示对于该查询主题和页面的相关性,用户有比较一致的认可。相反,“用户点击率”小的页面,用户的认可度低,查询和页面之间相关的可能性较小。对于查询Q,“用户点击率”小的页面一方面有很多,另一方面和给定的主题相关性很弱,因此事先把这类页面从候选集合中去除,减少后续无用的处理。
步骤2.3 生成查询的“用户点击分布”
对于查询Q,统计其页面候选集中的页面和对应的“用户点击率”,即得到该查询对应的“用户点击分布”。
查询Q的“用户点击分布”描述了和查询主题Q相关的关键资源页面候选集,以及每个页面作为该查询Q的关键资源页面的可信度和支持度,其对应的“用户点击率”值越大表示该点击结果页面越可能成为该查询的关键资源页面。
步骤3.多搜索引擎日志的查询用户点击分布融合
步骤3.1 提取单搜索引擎用户日志对查询主题的“查询可信度”信息
根据查询主题Q在各个搜索引擎用户日志SE中的查询用户数信息,我们可以计算得到不同搜索引擎日志SE对于该查询主题Q的“查询可信度”,其主要量化了该查询主题在不同搜索引擎日志上得到的“用户点击分布”的可靠程度。对于查询Q,每个搜索引擎日志SEj的“查询可信度”的计算公式是:
其中,“搜索引擎日志SEj中查询Q的总用户数”可以对搜索引擎日志SEj中查询Q的不同Id计数得到,分母是各个搜索引擎日志上用户数取对数的和,对“查询可信度”值进行归一化处理。
按照其定义,由于分子“log(搜索引擎日志SEj中查询Q的总用户数)”必然小于或者等于分母,因此“查询可信度”的取值范围必然在0至1之间。
查询可信度计算公式反映了对于查询Q和搜索引擎日志SE,当用户数比较少时,其“查询可信度”对查询Q的用户数比较敏感;当用户数比较大时,用户数对“查询可信度”的影响就相对减弱。
步骤3.2 多搜索引擎用户日志融合
用P(CRP|查询Q)表示融合后的对于查询Q的点击结果页面CRP的“用户点击率”信息,用条件分布的全概率公式计算公式是:
其中,P(SEi|查询Q)表示对于查询Q,搜索引擎用户日志SEi给出的支持度,用(2)式的“查询可信度”计算得到,P(CRP|SEi,查询Q)表示在搜索引擎日志SEi中,对于查询Q,点击结果页面CRP的点击率,用(1)式的该结果页面在该搜索引擎上的“用户点击率”计算得到。由概率的相关概念可以知道P(CRP|查询Q)的取值范围必然在0至1之间。
同步骤2.2,根据融合后的“用户点击率”P(CRP|查询Q),我们可以得到该查询Q融合多家搜索引擎日志信息后的“用户点击分布”。
融合后查询的“用户点击分布”排除了单个搜索引擎日志上得到的“用户点击分布”存在的偏向性。
步骤4.查询相关的关键资源页面判定
对步骤1挑选得到的查询集合S中的每个查询Q及其对应的关键资源页面候选集,根据步骤3得到该查询Q融合后的“用户点击分布”信息,按照如下规则来对该查询主题Q进行关键资源页面的筛选:
对于每个查询Q,其融合后“用户点击率”最大的连续前M个页面即是其对应搜索引擎用户日志的关键资源页面,其中M满足:从融合后“用户点击率”最大的页面开始,连续前M个页面的融合后“用户点击率”之和大于0.9,但连续前M-1个页面的融合后“用户点击率”之和小于0.9。
根据步骤1至步骤4,我们就可以自动得到查询主题,以及该主题下对应的关键资源页面,实现主题相关的关键资源页面的自动定位。
为了验证本发明的有效性、可靠性和应用性,我们设计和测试了相关的实验。
首先对关键资源页面定位的正确性进行测试。
从数据源上,我们使用了4个常用搜索引擎的用户查询点击信息记录。另外,选择了314个查询主题,并使用Pooling的方式,对这些查询进行了人工标注主题相关页面。Pooling池包括国内Sogou,Baidu,Google,Zhongsou,Yisou,Sina等各大著名搜索引擎,每个搜索引擎返回前20个结果作为池中的备选答案。自动定位关键资源页面的平均正确率为0.661,非错误率为0.885(正确率为对于某个主题,主题相关的页面占整个被自动标注的页面比例,非错误率是指除去不相关的页面后的页面占整个被自动标注的页面的比例,因为这里有一些页面没有出现在pooling池,因此没法对其进行判断)。表2列出了部分查询主题相关的关键资源页面:
表2:部分查询主题及其对应的关键资源页面定位结果
查询词 | 自动标注结果页面URL |
独自等待 | http://www.mtime.com/movie/17683<u>http://www.colordance.com/dzdd.html</u><u>http://ent.sina.com.cn/m/c/f/waitingalone/index.html</u> |
中央电视台 | http://www.cctv.com |
该关键资源定位方法可以用于考察不同主题领域下,各搜索引擎的检索性能。我们利用查询日志分别对百度风云榜和雅虎风向标TOP榜中各不同领域的不同查询主题进行关键资源页面定位,得到不同领域中当前用户所关心的查询主题和关键资源页面,并利用定位结果对国内各大搜索引擎在不同的领域检索效果进行考察。表3列出了关于软件和体育领域各大搜索引擎的检索效果排名(分别对应百度风云榜和雅虎风向标,使用常用的检索评价指标MAP)。
表3 软件领域检索效果排名
搜索引擎 | 百度风云榜top查询(MAP/名次) | 雅虎风向标top查询(MAP/名次) |
百度 | 0.8120/1 | 0.7667/1 |
0.7072/3 | 0.6979/2 | |
Yahoo | 0.7234/2 | 0.6786/3 |
搜狗 | 0.6632/4 | 0.6241/4 |
中搜 | 0.6538/5 | 0.6023/5 |
新浪 | 0.5171/6 | 0.4934/6 |
表3 体育领域检索领域效果排名
搜索引擎 | 百度风云榜top查询 | 雅虎风向标top查询 |
百度 | 0.7488/1 | 0.3132/2 |
0.7242/2 | 0.4715/1 | |
Yahoo | 0.6281/3 | 0.3078/3 |
搜狗 | 0.6144/4 | 0.2901/4 |
中搜 | 0.5033/6 | 0.2724/6 |
新浪 | 0.5907/5 | 0.2763/5 |
本发明能够自动地从多个搜索引擎的用户行为日志数据中自动发现表现用户兴趣的搜索主题,并对各个主题进行关键资源页面的自动定位。该方法能很好的避免单个搜索引擎日志引来的偏向性,实现一定程度的公平公正,并把网络关键资源页面的自动定位方法应用到实际的很多对于现在信息检索研究和应用有很大困难的环境中去,如我们在这里举例的用网络关键资源定位方法实现对搜索引擎的自动评价。
附图说明
图1.网络关键资源页面定位方法流程;
图2.预处理后单搜索引擎信息组织结构图;
图3.融合算法描述;
图4.关键资源页面判定流程。
具体实施方式
附图1描述了本方法的流程。本方法对于网络关键资源页面定位具有广泛的适应性和应用性。下面利用搜狗搜索引擎网站提供的关于四个常用搜索引擎日志进行查询主题的筛选和关键资源页面定位,就以上方法发明进行详细的流程说明。
1.数据预处理
所使用的日志包括在2006年11月8号至2006年11月28号的28天时间内的搜狗搜索引擎公司收集到的四个常用搜索引擎的用户查询点击信息记录,共有非空查询点击信息55,647,885条(四个搜索引擎分别有32,184,307条,9,105,887条,4,766,920条,9,590,771条)。记录中的包括的信息有:
表4:Sogou搜索引擎提供的4个常用搜索引擎用户日志包含信息项:
名称 | 记录内容 |
FromURL | 用户点击的检索结果列表地址URL |
ToUrl | 用户点击的结果地址URL |
Time | 用户点击发生的日期、时间 |
Id | 由系统自动分配的用户标识号 |
FromUrl信息中包含了该日志所属的搜索引擎。通常,该地址的变量中包含了相关的查询关键词。ToUrl即用户点击结果页面。因此,这些日志包含了表1所对应的数据信息项,可以用于关键资源页面的定位。
日志的预处理包括:过滤非搜索引擎日志记录(如搜索引擎的站内互相跳转等);对搜索引擎日志按搜索引擎进行分类,得到四大常用搜索引擎各自的用户查询点击信息记录;从FromUrl的变量中提取相关的查询关键词部分,进行URL转码,并最终统一转码成GBK编码;过滤记录中非表1所需要的无用信息以及相关噪音信息,统一计算查询的用户数,“用户点击率”等信息。
2.查询主题集合筛选
搜索引擎的用户查询有一定的重复性和密集性,对于用户关心的主题,其查询主题则会经常被查询用户提交查询。查询主题的密集性也被我们用于对查询关键资源页面定位的宏观分析。以下为查询主题集合的筛选过程,该过程在各个搜索引擎的查询日志上独立进行考察和筛选。
单个搜索引擎日志上的查询主题集合筛选流程:
对每个搜索引擎日志中出现的查询,根据其用户查询量进行筛选,如果总查询次数少于20,则认为这个查询没有足够的宏观用户点击行为信息,无法进行有效的分析,同时该主题也缺少足够的代表性用来描述查询用户所关心的话题,剔除该查询主题。否则,将该查询进行保留。根据以前我们对Sogou日志进行分析后发现,用户查询次数大于100的查询超过3万个,而用户在这部分查询上的总点击次数占到全部点击次数的70%左右,这与前人的一些研究结果相同,即搜索引擎中,较少数量的查询被反复查询,占据大多数的搜索引擎服务。用查询的用户数对对查询主题进行筛选,保证所选择的查询能够反应用户的查询趋势和热点,保证时效性和关注度,有一定的代表性。另外,挑选那些用户数较多的查询,能控制关键资源定位过程中,因个别用户的点击行为,而带来的较大的不确定性。
3.多搜索引擎日志信息融合
图3的融合算法描述了对多个搜索引擎日志进行信息融合,并最终得到每个查询主题所对应的关键资源页面集合的查询分布。这里首先利用各搜索引擎日志信息计算各搜索引擎的查询主题对应的局部查询分布和查询可信度。然后利用(3)式计算多日志情况下每个查询主题的对应的关键资源页面集的整体查询分布,也即融合后的查询分布。
使用融合后的查询分布,而不是每个搜索引擎日志自己的查询分布,可以较好的避免因单个搜索引擎日志所带来的检索列表排序的偏向和单个搜索引擎因资源有限而带来的数据集的偏向。
4.主题相关的关键资源页面判定
主题相关的关键资源页面判定可以参见图4所示的流程。该定位流程就是从查询关键资源候选集合中,挑选出用户点击率大的页面。这里的用户点击率是根据多个搜索引擎查询日志信息融合得到的。由图中的筛选流程可知,只有融合后“用户点击率”大于0.1,且该主题相关的所有关键资源页面的“用户点击率”之和大于0.9时,该主题的关键资源页面判定过程才结束。
该判定过程把用户认可度高的用户点击结果页面判定为该查询主题的关键资源页面,而不是把所有的用户点击页面判定为关键资源页面,剔除了因用户误点击,或者因搜索结果页面的误导等原因而点击的页面,能很大程度地保证所定位的网络关键资源页面的质量以及和主题的相关性。
按照以上步骤,就可以实现对网络关键资源页面的自动定位,利用宏观搜索引擎用户的行为查找用户关注的查询主题,并对其进行网络关键资源页面的有效定位。
Claims (1)
1.一种网络关键资源页面的自动定位方法,其特征在于该方法依次含有以下内容:
步骤(1).计算机按以下步骤在各个搜索引擎系统的搜索引擎用户日志上筛选查询主题:步骤(1.1).数据预处理,其步骤如下:
步骤(1.1.1).计算机通过搜索引擎网络服务器搜索用户日志,并把该服务器记录的编码格式转换成国家标准汉字编码GBK格式;
步骤(1.1.2).去除步骤(1.1.1)所述用户日志中除了下述内容项之外的信息,所述下述内容项包括:用户提交的查询Q、对应于这个查询用户点击的结果地址URL、以及由搜索引擎系统自动分配的用户标识号ID,并把得到的日志整理成包含以上内容项的字符串形式;
步骤(1.1.3).利用字符串匹配方法过滤步骤(1.1.2)得到的用户查询中的噪声信息,仅保留直接反映搜索引擎普通用户查询需求与行为的内容项;
步骤(1.2).挑选查询主题集合S,
若:某个查询Q在用户日志中被不同的用户来查询的次数小于20次,则排除在集合S之外;否则,把该查询主题放入该查询主题集合S中;
步骤(2).对每个查询Q,按以下步骤提取查询用户点击率:
步骤(2.1).按以下公式计算各查询Q的查询用户点击率:
该查询用户点击率在0到1之间;对查询Q,其各用户点击的结果页面URL的用户点击率之总和为1;
步骤(2.2).生成查询Q的关键资源页面候选集:
若:某页面对应的用户点击率小于0.05,则剔除该页面;否则,把该页面加入到该查询Q对应的关键资源页面候选集中;
步骤(2.3).生成查询Q的用户点击率分布:
对于查询Q,统计其页面候选集中的页面和对应的用户点击率,得到与该查询Q对应的用户点击率分布;
步骤(3).多搜索引擎日志的查询Q的用户点击率分布的融合,其步骤如下:
步骤(3.1).按下式计算单搜索引擎用户日志对查询Q的查询可信度信息:
搜索引擎用户日志SEj上的查询可信度为:
其中i为各搜索引擎编号,j为当前搜索引擎的编号,I为总搜索引擎数;
该SEj查询可信度在0到1之间;
步骤(3.2).多搜索引擎用户日志的融合:
融合后的对于查询Q的点击结果页面CRP的用户点击率信息用P(CRP|查询Q)表示:
其中,P(SEi|查询Q)表示对于查询Q,SEi给出的支持度,用步骤(3.1)得到的查询可信度表示,
P(CRP|SEi,查询Q)表示在搜索引擎日志SEi中,对于查询Q,点击结果页面的点击率,用步骤(2.1)得到的用户点击率表示,
步骤(3.3).根据步骤(3.2)得到的融合后的用户点击率P(CRP|查询Q),对于查询Q,得到对应于各个搜索引擎用户日志SEi的融合后的用户点击分布;
步骤(4).判定与查询Q相关的关键资源页面:
对于步骤(1)中挑选得到的每个查询Q及步骤(2)得到的与其对应的关键资源页面候选集,用步骤(3)得到每个查询Q在融合后的用户点击分布信息,再按以下规则来对查询Q进行关键资源页面的筛选:
从各查询Q中挑选各自融合后用户点击率最大的连续前M个页面就是各搜索引擎用户日志对应的查询Q的关键资源页面,其中M满足:从融合后用户点击率最大的页面开始,连续前M个页面的融合后的用户点击点击率之和大于0.9,但连续前M-1个页面的融合后用户点击率之和小于0.9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100985319A CN100507918C (zh) | 2007-04-20 | 2007-04-20 | 一种网络关键资源页面的自动定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100985319A CN100507918C (zh) | 2007-04-20 | 2007-04-20 | 一种网络关键资源页面的自动定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101105801A CN101105801A (zh) | 2008-01-16 |
CN100507918C true CN100507918C (zh) | 2009-07-01 |
Family
ID=38999699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007100985319A Active CN100507918C (zh) | 2007-04-20 | 2007-04-20 | 一种网络关键资源页面的自动定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100507918C (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241512B (zh) * | 2008-03-10 | 2012-01-11 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN101887437B (zh) | 2009-05-12 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 一种搜索结果生成方法及信息搜索系统 |
CN102043705A (zh) * | 2009-10-19 | 2011-05-04 | 阿里巴巴集团控股有限公司 | 一种统计输入行为的方法及装置 |
CN103136210A (zh) * | 2011-11-23 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种挖掘具有相似需求的查询的方法及装置 |
CN102364475A (zh) * | 2011-11-24 | 2012-02-29 | 迈普通信技术股份有限公司 | 基于身份识别对检索结果排序的系统及方法 |
CN102609439A (zh) * | 2011-12-23 | 2012-07-25 | 浙江大学 | 一种高维环境中模糊数据的概率窗口查询方法 |
CN103544169B (zh) * | 2012-07-12 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 页面调整方法及装置 |
CN104699705B (zh) * | 2013-12-06 | 2018-09-04 | 腾讯科技(深圳)有限公司 | 信息推送方法、服务器及系统 |
CN104298785B (zh) * | 2014-11-12 | 2017-05-03 | 中南大学 | 一种众搜资源搜索方法 |
CN104408175B (zh) * | 2014-12-12 | 2017-11-10 | 北京奇虎科技有限公司 | 识别网页类型的方法和装置 |
CN110209764B (zh) * | 2018-09-10 | 2023-04-07 | 腾讯科技(北京)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN112749333B (zh) * | 2020-07-24 | 2024-01-16 | 腾讯科技(深圳)有限公司 | 资源搜索方法、装置、计算机设备和存储介质 |
-
2007
- 2007-04-20 CN CNB2007100985319A patent/CN100507918C/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101105801A (zh) | 2008-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100507918C (zh) | 一种网络关键资源页面的自动定位方法 | |
CN100507920C (zh) | 一种基于用户行为信息的搜索引擎检索结果重排序方法 | |
CN100440224C (zh) | 一种搜索引擎性能评价的自动化处理方法 | |
US6640218B1 (en) | Estimating the usefulness of an item in a collection of information | |
US7831474B2 (en) | System and method for associating an unvalued search term with a valued search term | |
US8380693B1 (en) | System and method for automatically identifying classified websites | |
CN101382954B (zh) | 提供网址收藏名称的方法及系统 | |
US20020042784A1 (en) | System and method for automatically searching and analyzing intellectual property-related materials | |
US8898130B1 (en) | Organizing search results | |
Garcillán et al. | Sampling procedures and species estimation: testing the effectiveness of herbarium data against vegetation sampling in an oceanic island | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
US9864768B2 (en) | Surfacing actions from social data | |
CN101452453A (zh) | 一种输入法网址导航的方法和一种输入法系统 | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
US20130031078A1 (en) | Context-aware parameterized action links for search results | |
CN102722498A (zh) | 搜索引擎及其实现方法 | |
CN101782998A (zh) | 一种违规在线产品信息的智能判断方法与系统 | |
US20110184815A1 (en) | System and method for sharing profits with one or more content providers | |
CN101576891A (zh) | 一种解析网页表格对象节点的方法 | |
CN1996316A (zh) | 基于网页相关性的搜索引擎搜索方法 | |
CN101145231A (zh) | 基于搜索引擎的定向广告推送方法 | |
KR20020025142A (ko) | 키워드 광고 서비스를 위한 키워드 추천 시스템 및 방법 | |
CN102214183A (zh) | 按页面反馈内容与固定排名相结合的搜索引擎查询方法 | |
CN102314443A (zh) | 搜索引擎的修正方法和系统 | |
CN112269816A (zh) | 一种政务预约事项相关性检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP03 | Change of name, title or address |
Address after: Beijing 100084 mailbox 82 cent box Tsinghua University Patent Office postcode: 100084 Co-patentee after: Sogo Science-Technology Development Co., Ltd., Beijing Patentee after: Tsinghua University Address before: Beijing 100084 mailbox 82 cent box Tsinghua University Patent Office Patentee before: Tsinghua University |