CN101551806B - 一种个性化网址导航的方法和系统 - Google Patents

一种个性化网址导航的方法和系统 Download PDF

Info

Publication number
CN101551806B
CN101551806B CN2008101034279A CN200810103427A CN101551806B CN 101551806 B CN101551806 B CN 101551806B CN 2008101034279 A CN2008101034279 A CN 2008101034279A CN 200810103427 A CN200810103427 A CN 200810103427A CN 101551806 B CN101551806 B CN 101551806B
Authority
CN
China
Prior art keywords
user
query word
network address
webpage
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101034279A
Other languages
English (en)
Other versions
CN101551806A (zh
Inventor
余浩
张智敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2008101034279A priority Critical patent/CN101551806B/zh
Publication of CN101551806A publication Critical patent/CN101551806A/zh
Application granted granted Critical
Publication of CN101551806B publication Critical patent/CN101551806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种生成用户特征数据库的方法和一种个性化网址导航的方法,其中所述生成特征库的方法包括:获取搜索日志,所述搜索日志包括查询词和相应点击的网页;依据所点击网页的分类信息,对搜索日志中的查询词进行分类;汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;存储用户标识及其特征参数,形成用户特征数据库。本发明考虑到了用户需求的差异性,将用户的兴趣特征加入到所推荐的网址排序或筛选计算中,从而使得最符合当前用户个性化需求的网址被优先推荐出来,以满足当前用户的个性化需求。

Description

一种个性化网址导航的方法和系统
技术领域
本发明涉及互联网信息处理技术领域,特别是涉及一种针对用户的个性化网址导航的方法和系统。
背景技术
目前随着互联网技术应用的越来越广泛,人们很多的日常工作和娱乐都在网络上进行,从而产生了众多的互联网网页和海量的网络资源信息,以及提供各种信息服务的网站,用户一般需要通过网址找到这些信息,但是人们是无法记忆或者知悉成千上万的网址的,并且,网址也没有很好的规律便于用户记忆,因此,现有技术提出了网址导航的解决方案,例如,hao123网址之家这样的网址导航网站。
hao123作为网址导航网站,其向用户呈现了数千个常用的网址,并进行了分类排序等便于用户查找的进一步处理,从而可以方便用户进入自己所需的网站。但是类似上述解决方案的现有技术无法针对当前用户提供个性化的网址导航或者推荐服务,即针对各个用户所提供的网址导航服务都是一样的,而尽管各个用户具有不同的个性化需求。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供一种能够满足当前用户个性化需求的网址导航技术解决方案。
发明内容
本发明所要解决的技术问题是提供一种自动生成用户特征数据库的方法和系统,能够依据该用户的查询日志和相关网页信息提取该用户的兴趣特征,从而使得为该用户提供个性化网址导航服务成为可能。
相应的,本发明还提供了一种利用上述用户特征数据库从而实现个性化网址导航的解决方案,能够满足当前用户的个性化导航需求。
为了解决上述问题,本发明公开了一种生成用户特征数据库的方法,包括:获取搜索日志,所述搜索日志包括查询词和查询词指向的各个网页中被用户点击的网页;依据查询词对应的所述被用户点击网页的分类信息,对搜索日志中的查询词进行分类;汇总一用户所输入的各个查询词,依据各个查询词的分类结果以及各个类别所占比例,确定该用户的特征参数;存储用户标识及其特征参数,形成用户特征数据库。
优选的,可以通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正该查询词的分类结果。
优选的,可以通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
依据本发明的另一实施例,还公开了一种生成用户特征数据库的系统,包括:
搜索日志数据库,用于记录查询词和查询词指向的各个网页中被用户点击的网页;
查询词分类单元,用于依据查询词对应的所述被用户点击网页的分类信息,对搜索日志中的查询词进行分类;
用户特征获取单元,用于汇总一用户所输入的各个查询词,依据各个查询词的分类结果以及各个类别所占比例,确定该用户的特征参数;
特征库生成单元,用于存储用户标识及其特征参数,形成用户特征数据库。
优选的,所述查询词分类单元可以通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正该查询词的分类结果。
优选的,所述用户特征获取单元可以通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
依据本发明的另一实施例,还公开了一种个性化网址导航的方法,包括:获取搜索日志,所述搜索日志包括查询词和查询词指向的各个网页中被用户点击的网页;依据查询词对应的所述被用户点击网页的分类信息,对搜索日志中的查询词进行分类;汇总一用户所输入的各个查询词,依据各个查询词的分类结果以及各个类别所占比例,确定该用户的特征参数;接收用户输入的网址关键词,在预置的网址导航数据库中进行检索,匹配获得检索结果;所述网址导航数据库包括网址与其描述信息的对应关系;依据当前用户的特征参数和所述检索结果中的描述信息,对所述检索结果进行调整,返回针对该当前用户的个性化网址导航结果集。
优选的,可以通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正该查询词的分类结果。
优选的,可以通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
优选的,可以通过以下方式预置所述网址导航数据库:分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;获取针对所述网址的描述信息;依据所获得的网址和相应的描述信息,建立网址导航数据库。
优选的,所述获取针对所述网址的描述信息的步骤进一步包括:通过分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
优选的,当所述个性化网址导航结果集包括多个网址时,还可以包括:记录用户的选择信息,并对该用户的特征参数进行相应调整。
依据本发明的另一实施例,还公开了一种个性化网址导航的系统,包括:
搜索日志数据库,用于记录查询词和查询词指向的各个网页中被用户点击的网页;
查询词分类单元,用于依据查询词对应的所述被用户点击网页的分类信息,对搜索日志中的查询词进行分类;
用户特征获取单元,用于汇总一用户所输入的各个查询词,依据各个查询词的分类结果以及各个类别所占比例,确定该用户的特征参数;
检索单元,用于接收用户输入的网址关键词,在预置的网址导航数据库中进行检索,匹配获得检索结果;所述网址导航数据库包括网址与其描述信息的对应关系;
结果输出单元,用于依据当前用户的特征参数和所述检索结果中的描述信息,对所述检索结果进行调整,返回针对该当前用户的个性化网址导航结果集。
优选的,所述查询词分类单元可以通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正该查询词的分类结果。
优选的,所述用户特征获取单元可以通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
优选的,该系统还可以包括导航数据库生成单元,其进一步包括:
日志分析模块,用于分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;
描述信息获取模块,用于获取针对所述网址的描述信息;
数据库生成模块,用于依据所获得的网址和相应的描述信息,建立网址导航数据库。
优选的,所述描述信息获取模块通过分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
优选的,当所述个性化网址导航结果集包括多个网址时,还包括:反馈单元,用于记录用户的选择信息,并对该用户的特征参数进行相应调整。
与现有技术相比,本发明具有以下优点:
本发明依据用户的查询日志和相关网页信息,得到针对该用户的特征数据库,从而可以针对不同用户的特征而推荐不同的网址,以实现个性化的网址导航服务,即本发明充分考虑到了用户个体的差异性。例如,对于同一个关键词,喜欢玩游戏的用户和喜欢阅读的用户所需要的网址很可能是不一样的,本发明正是考虑到了这些用户的需求差异性,将用户的兴趣特征加入到所推荐的网址排序或筛选计算中,从而使得最符合当前用户个性化需求的网址被优先推荐出来,以满足当前用户的个性化需求。
附图说明
图1是本发明一种生成用户特征数据库的方法实施例的步骤流程图;
图2是本发明一种生成用户特征数据库的系统实施例的结构框图;
图3是本发明一种个性化网址导航的方法实施例的步骤流程图;
图4是本发明一种建立网址导航数据库实施例的步骤流程图;
图5是本发明一种个性化网址导航系统的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统以及包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
参照图1,示出了本发明一种生成用户特征数据库的方法实施例,包括以下步骤:
步骤101、获取搜索日志,所述搜索日志包括查询词和相应点击的网页;
其中,可以通过自行记录查询词和相应点击的网页至搜索日志的方式获取所需信息;实际上,还可以直接从搜索引擎服务商处购买获得搜索日志数据库,即可获得所需的信息:查询词和相应点击的网页。
步骤102、依据所点击网页的分类信息,对搜索日志中的查询词进行分类;
步骤103、汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;
步骤104、存储用户标识及其特征参数,形成用户特征数据库。
为了实现针对当前用户提供个性化网址导航服务,需要事先获取各个用户的兴趣特征,以便区分各个用户;而本实施例就提供了一种获取用户特征参数的解决方案。
现有技术也提出了很多基于用户网络行为(例如,网页浏览行为、电子杂志在线阅读行为等等)而获取用户特征参数,以实现针对用户的个性化服务。但是本发明与之相比,明显存在以下的优点:首先,本发明基于用户主动的查询行为历史记录挖掘得到用户的兴趣特征,其噪音较小,准确度较高,尤其适用于在针对用户提供个性化探询服务(如网址导航或者搜索服务)的场景;其次,本实施例可以直接以现有的搜索日志为数据源进行分析,而不需要额外增加对用户网络行为的监控,实现方式简单易行,不会额外增加网络的传输资源。
下面简单描述步骤102中的网页分类信息。
由于步骤102需要依据相应的网页分类信息对查询词进行分类,所以需要预先设置网页分类信息。但是本发明不需要限定具体采用何种方案获得网页分类信息,现有技术也提供了不少的网页分类解决方案。下面给出本发明的几个优选例子进行简单说明。
例1
直接采用人工分类,或者对网页内容分词处理后进行人工分类;
例2
分词+自动分类
首先,对所述文档进行分词等预处理,并根据分词结果以一个词元作为一个属性,基于传统的TF/IDF(term frequency/inverse document frequency,单文本词汇频率/逆文本频率)模型生成一个代表所述网站的特征向量;其中,向量的每一维是所述属性词,每一维的值是属性词出现的次数。
然后,利用机器学习的方法或基于规则的方法,对每个网站向量进行分类处理,得到一个网站的类别。
一种分类效果较好的方法是使用
Figure GDA0000087940730000061
Bayes(简单贝叶斯)分类法,所述分类法计算出每个维度不同取值下对于不同分类类别的概率,然后利用所有维度的取值计算出一个整体的属于某一个类别的概率,然后将概率最高的类别作为分类类别。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是已知类条件概率密度参数表达式和先验概率;利用贝叶斯公式转换成后验概率;根据后验概率大小进行决策分类。它对统计推理的主要贡献是使用了″逆概率″这个概念,并把它作为一种普遍的推理方法。
另一种分类效果较好的方法是采用SVM分类算法。SVM分类法是一种支持向量机方法,对线性分类器提出了另一种设计最佳准则,从线性可分的情况扩展到线性不可分的情况,甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(Support Vector Machine,简称SVM)。
例3
首先以树型结构建立网页信息的初始分类;然后执行动态监控,如果任一类别下的信息数目达到预设值,则对该类别进行分裂,所述分裂包括:按照网页间的相似度执行聚类操作,将相似度达到预设量级值的网页聚为一个类别;剩下的网页设为一个孤立网页类。当然,还可以标注所述聚类后的类别名称。本例所提供的基于动态分类的信息索引方式,比静态分类的结果在分类广度和深度上更加全面、深入。
本例通过动态分类过程建立起来的分类体系,是一种层次性的多级索引存储方式,其顶层分类(不限于一层)按照人工预定的分类体系进行一次性的分类,然后随着各个类别中网页信息的不断添加,当任一类别下的信息数目达到预设值,则对该类别进行分裂,按照网页间的相似度执行聚类操作,将相似度达到预设量级值的网页聚为一个类别,剩下的网页设为一个孤立网页类。孤立网页类中的网页信息,当满足聚类条件时,将分裂为各个分类。其中,所述顶层分类并不限于一层,初始建立的分类体系可能已经包含多层分类。总之,所述分裂、聚类的过程循环进行,随着网页信息的不断变化而生成新的分类,所述分类体系一直处于动态变化的过程中。
下面简单描述步骤102对查询词的分类。
由于搜索日志中记录了一查询词与各用户相应点击的各个网页,所以依据这些被点击网页的分类信息就可以确定该查询词的分类情况。当然,本发明并不需要具体的确定方案,因为依据上述原理可能存在很多的、难以列举的实现方式。下面简单介绍几个本发明的优选例子。
例1
假设,针对查询词“苹果”,相应点击的网页包括www.a.com和www.b.com,而前者属于科技IT类,后者属于水果农业类,则简单的,查询词“苹果”的分类情况可以为(50%科技IT类,50%水果农业类)。
例2
采用一查询词指向各个网页的点击次数或者点击比例修正各个网页的分类信息,进而得到对该查询词的分类结果。
假设,针对查询词“苹果”,相应点击的网页包括www.a.com和www.b.com,而前者属于科技IT类,点击次数为M,后者属于水果农业类,点击次数为N。
则可以在查询词的分类中引入点击次数,以获得更为准确的分类效果。简单的,查询词“苹果”的分类情况可以为:M/(M+N)科技IT类,N/(M+N)水果农业类。
例3
前面例子中的网页分类属于简单分类,本例中的网页分类具有比例参数。
假如:针对查询词“太阳”,记录用户点击的网页和每个网页访问的次数,例如用户点击http://sun.sohu.com/M次,点击http://zhidao.baidu.com/question/ 16657628N次,其中http://sun.sohu.com/在网页分类库中的分类属于影视娱乐类的概率为A%,那么“太阳”这个查询词属于影视娱乐类的概率为M÷(M+N)×A%;网页http://zhidao.baidu.com/question/16657628在网页分类库中的分类属于科技类的概率为B%,那么“太阳”这个查询词属于科技类的概率为N÷(M+N)×B%。
下面简单描述步骤103用户特征参数的获取。
基于以上的描述可以得知,各个查询词具有了自己的分类情况,而将一用户所输入的各个查询词汇总起来,就可以得到针对该用户的分类情况,即得到该用户的兴趣特征。基于查询词的各种分类情况,可能存在很多的具体方案以获取用户的兴趣特征,本发明并不需要加以限定。下面简单介绍几个本发明的优选例子。
例1
假设,用户A的查询词为“古龙小说下载”、“金庸小说下载”、“士兵突击电视剧”,其中,查询词“古龙小说下载”和“金庸小说下载”属于小说类,查询词“士兵突击电视剧”属于影视类,则该用户的兴趣特征参数为(67%小说,33%影视)。
例2
在例1的基础上,采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
假设,用户A针对上述三个查询词的权重是不同的(如通过查询次数、点击相关网页次数等确定权重参数),如查询词“古龙小说下载”、“金庸小说下载”、“士兵突击电视剧”的权重参数分别为1.5∶1.5∶1,则该用户的兴趣特征参数为(75%小说,25%影视)。
例3
前面例子中的查询词分类属于简单分类,本例中的查询词分类具有比例参数。
假设,查询词“苹果”的分类情况为(60%科技IT类,20%水果类),查询词“太阳”的分类情况为(60%影视类,20%科技IT类)。由于查询词还可能有部分比例属于其他分类,但是由于比例较小,所以忽略不计。并且查询词的权重参数分别为1.5∶1,则该用户的兴趣特征参数为:
(1.5/2.5×60%+1/2.5×20%)科技IT类;
(1.5/2.5×20%)水果类;
(1/2.5×60%)影视类。
参照图2,示出了本发明一种生成用户特征数据库的系统实施例,可以包括:
搜索日志数据库201,用于记录查询词和相应点击的网页;
查询词分类单元202,用于依据所点击网页的分类信息,对搜索日志中的查询词进行分类;
用户特征获取单元203,用于汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;
特征库生成单元204,用于存储用户标识及其特征参数,形成用户特征数据库。
在本发明的优选实施例中,所述查询词分类单元可以通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正各个网页的分类信息,进而得到对该查询词的分类结果。
在本发明的另一优选实施例中,所述用户特征获取单元可以通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
上面图1和图2所示的实施例,可以得到针对用户的兴趣特征参数,进而为用户提供个性化服务,所述个性化服务可以包括搜索结果的个性化排序(如将相适应类别的网页搜索结果排序在前),所述个性化服务也可以包括个性化的网址导航。
参照图3,示出了本发明一种个性化网址导航的方法实施例,可以包括:
步骤301、获取搜索日志,所述搜索日志包括查询词和相应点击的网页;
步骤302、依据所点击网页的分类信息,对搜索日志中的查询词进行分类;
步骤303、汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;
步骤304、接收用户输入的网址关键词,在预置的网址导航数据库中进行检索,匹配获得检索结果;所述网址导航数据库包括网址与其描述信息的对应关系;
步骤305、依据当前用户的特征参数和所述检索结果中网址网页的分类信息,对所述检索结果进行调整,返回针对该当前用户的个性化网址导航结果集。优选的,在向用户返回相应的网址结果集的同时,还可以展示相关的介绍信息,以便用户提前了解该网址的大致情况。如果用户对推荐的网址感兴趣的话可以直接点击网址,进行跳转(通过链接打开该网址网页)。
对于当前用户的特征参数,可以通过获取该用户的唯一性标识,进而从用户特征数据库中查询得到该用户的特征参数。具体的,可以通过用户ID和密码或者cookie等方式来识别该用户的唯一性标识。
优选的,可以通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正各个网页的分类信息,进而得到对该查询词的分类结果。
优选的,可以通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
优选的,当所述个性化网址导航结果集包括多个网址时,还可以包括:记录用户的选择信息,并对该用户的特征参数进行相应调整。即通过用户的反馈信息以进一步提高特征参数的准确度。
步骤305所述的对所述检索结果进行调整可以包括排序操作,也可以包括筛选等操作,优选的,所述个性化网址导航结果集仅仅包括少数的几个最佳推荐项。
对于本实施例,用于接收用户网址关键词和展示网址导航结果集的用户界面,可以是多种多样的,本领域技术人员可以设计出各种贴近用户需要的界面接口。
例如,建立一个导航网站,通过设置在该导航网站主页上的网址查询词输入框以及页面信息展示,而完成针对当前用户的个性化网址导航。
再例如,还可以在搜索引擎输入框中集成相应的导航数据和导航形式。具体而言,如,当用户输入查询词时,在点击搜索命令之前,可以先以浮动窗口或者下拉菜单等方式展现依据本发明导航得到的网址结果集,以实现网址导航。如果用户需要继续搜索,则点击搜索命令按钮,完成通常的网页搜索即可。采用浮动窗口,可以让用户实时预览所提示的网址,从而使得用户不必输入整个查询词就可以完成导航,并且可以随着用户的输入动态改变所提示的网址,使得用户能够修正网址关键词。
再例如,对于通常的网页搜索,在网页搜索结果集的前面先展示几项网址导航的结果。具体而言,如,当用户输入查询词时,在点击搜索命令之后,返回的结果页面中,前两项是依据本发明得到的网址导航的结果,而后面的才是依据通过搜索过程得到的网页搜索结果。
再例如,以各种客户端软件形式独立出现或者结合出现的网址导航界面。
实际上,采用各种用户界面完成网址导航和结果展示,对于本发明都是可行的,因为本发明的核心并不在于导航界面的创新,在此本发明就不一一详述了。
由于本实施例的很多细节在前面的实施例中已经被详细描述,因此在此主要描述一下网址导航数据库。对于所述网址导航数据库,可以直接采用人工整理的方式获取。也可以采用其他可行的方式进行收集获取,参照图4,下面给出本发明的一种实现方式,具体可以包括:
步骤401、分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括查询词及被用户点击的网址。
例如,针对同一个查询词,如果用户的点击集中在一个或者几个网址上,则该网址就是针对该查询词的点击焦点,本发明的导航重点;
步骤402、获取针对所述网址的描述信息;
步骤403、依据所获得的网址和相应的描述信息,建立网址导航数据库。所生成的网址导航数据库,其包含了网址描述信息(如关键词)、网址信息以及二者之间的联系。当然,所述导航数据库中还可以包括其他的相关信息,例如与该网址相关的信息介绍等等,以便于用户了解该网址所拥有的资源内容,方便导航。
为了检索方便,一般的,针对上述信息建立倒排表,可以形成如下的一个数据结构——“关键词:网址1,网址2......”。
步骤402所述的描述信息可以为人工添加的,也可以为从指向该网址的各个查询词中挑选出来的。优选的,也可以通过下面的步骤获取:获取所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。该实现方式可以获得更为准确、丰富的描述信息。针对用户的网址关键词,在所述描述信息中进行匹配即可获得所需的检索结果。
因为一个网址的锚文本(Anchor,或者叫链接文本)和该网页的主题名称也能够在一定程度上起到导航的作用,所以实施例2引入这些辅助信息,以优化本发明的导航数据。所谓Anchor信息是指,一个网页通过超链接引用另一个网页时的一段文字描述,Anchor信息和主题名称是对一网页的描述。
优选的,针对上述网址导航数据库还可以包括依据所述搜索日志信息对所述描述信息和网址进行校验的步骤,其中,所述校验可以包括:去除针对描述信息中关键词的点击频率小于或等于一定阈值的网址;和/或,从描述信息中去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
当然,对于一些知名网站或者网址,也可以通过人工添加的方式存储到所述导航数据库中,上述实现方式并不排斥其他的获取导航数据的方式;即上述实现方式可以和人工整理方式或者其他可行方式组合应用。由于网址导航数据库生成之后,其中的数据就处于相对静态中,为了满足用户不断变化的需求,则本发明优选的,还需要依据实际应用情况更新所述网址导航数据库。
参照图5,示出了本发明一种个性化网址导航的系统,其特征在于,包括:
搜索日志数据库501,用于记录查询词和相应点击的网页;
查询词分类单元502,用于依据所点击网页的分类信息,对搜索日志中的查询词进行分类;
用户特征获取单元503,用于汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;存储用户标识和特征参数,形成用户特征库507;
检索单元504,用于接收用户输入的网址关键词,在预置的网址导航数据库508中进行检索,匹配获得检索结果;所述网址导航数据库508包括网址与其描述信息的对应关系;
结果输出单元505,用于依据当前用户的特征参数和所述检索结果中网址网页的分类信息,对所述检索结果进行调整,返回针对该当前用户的个性化网址导航结果集。
优选的,所述查询词分类单元502通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正各个网页的分类信息,进而得到对该查询词的分类结果。
优选的,所述用户特征获取单元503通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
优选的,还可以包括导航数据库生成单元506,其进一步包括:
日志分析模块,用于分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;
描述信息获取模块,用于获取针对所述网址的描述信息;
数据库生成模块,用于依据所获得的网址和相应的描述信息,建立网址导航数据库。
在本发明的一个优选实施例中,所述描述信息获取模块可以通过分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
当所述个性化网址导航结果集包括多个网址时,在本发明的一个优选实施例中,图5所示系统还可以包括:反馈单元,用于记录用户的选择信息,并对该用户的特征参数进行相应调整。
下面给出本发明一个具体的例子。
生成导航数据库。例如通过分析搜索日志,发现对于查询词“天龙八部”,有50%的用户最后点击的网页是tl.sohu.com,有20%的用户点击的是www.xxsy.net/wx/1_1_3.html  ,有10%的用户点击的是ent.sina.com.cn/f/tlbb/index.html。这三个网页经过分类后,分别属于游戏类、小说类、影视类。同时点击频率超过了所设定的阈值(即可以用于导航),则这3条网址都被选出。那么导航数据库中针对“天龙八部”这个查询词,存有3条候选网址:tl.sohu.com(游戏类)、www.xxsy.net/wx/1_1_3.html(小说类)、ent.sina.com.cn/f/tlbb/index.html(影视类)。
生成用户兴趣数据库。如果用户A喜欢看小说,那么从搜索日志中选出用户A的所有查询词。例如A的查询词是“古龙小说下载”、“金庸小说下载”、“士兵突击电视剧”,前两个查询词是小说类,后一个查询词是影视类。于是用户的兴趣是(67%小说,33%影视)。而用户B的查询词经过同样分析后发现用户兴趣是(5%小说,10%影视,85%游戏),这些兴趣特征存入用户特征数据库中。
当用户A输入“天龙八部”查询词后,首先去导航数据库中查询,发现“天龙八部”这个查询词可能的导航网址包括:tl.sohu.com、www.xxsy.net/wx/1_1_3.html、ent.sina.com.cn/f/tlbb/index.html。再去用户特征数据库中提取A的特征(67%小说,33%影视),那么优先推荐小说和影视类网址给用户A,返回的结果是:
www.xxsy.net/wx/1_1_3.html;ent.sina.com.cn/f/tlbb/index.html
当用户B输入“天龙八部”查询词后,首先去导航数据库中查询,发现“天龙八部”这个查询词可能的导航网址包括:tl.sohu.com、www.xxsy.net/wx/1_1_3.html、ent.sina.com.cn/f/tlbb/index.html。再去用户特征数据库中提取B的特征(5%小说,10%影视,85%游戏),那么优先推荐游戏和影视类网址给用户B,返回的结果是:
tl.sohu.com;ent.sina.com.cn/f/tlbb/index.html
从上述返回的结果,可以看出针对用户A和B分别返回了不同的导航网址,从而做到了个性化的网址导航。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种生成用户特征数据库的方法和系统,以及一种个性化网址导航的方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种生成用户特征数据库的方法,其特征在于,包括:
获取搜索日志,所述搜索日志包括查询词和查询词指向的各个网页中被用户点击的网页;
依据查询词对应的所述被用户点击网页的分类信息,对搜索日志中的查询词进行分类;
汇总一用户所输入的各个查询词,依据各个查询词的分类结果以及各个类别所占比例,确定该用户的特征参数;
存储用户标识及其特征参数,形成用户特征数据库。
2.如权利要求1所述的方法,其特征在于,通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正该查询词的分类结果。
3.如权利要求1所述的方法,其特征在于,通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
4.一种生成用户特征数据库的系统,其特征在于,包括:
搜索日志数据库,用于记录查询词和查询词指向的各个网页中被用户点击的网页;
查询词分类单元,用于依据查询词对应的所述被用户点击网页的分类信息,对搜索日志中的查询词进行分类;
用户特征获取单元,用于汇总一用户所输入的各个查询词,依据各个查询词的分类结果以及各个类别所占比例,确定该用户的特征参数;
特征库生成单元,用于存储用户标识及其特征参数,形成用户特征数据库。
5.如权利要求4所述的系统,其特征在于,所述查询词分类单元通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正该查询词的分类结果。
6.如权利要求4所述的系统,其特征在于,所述用户特征获取单元通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
7.一种个性化网址导航的方法,其特征在于,包括:
获取搜索日志,所述搜索日志包括查询词和查询词指向的各个网页中被用户点击的网页;
依据查询词对应的所述被用户点击网页的分类信息,对搜索日志中的查询词进行分类;
汇总一用户所输入的各个查询词,依据各个查询词的分类结果以及各个类别所占比例,确定该用户的特征参数;
接收用户输入的网址关键词,在预置的网址导航数据库中进行检索,匹配获得检索结果;所述网址导航数据库包括网址与其描述信息的对应关系;
依据当前用户的特征参数和所述检索结果中的描述信息,对所述检索结果进行调整,返回针对该当前用户的个性化网址导航结果集。
8.如权利要求7所述的方法,其特征在于,通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正该查询词的分类结果。
9.如权利要求7所述的方法,其特征在于,通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
10.如权利要求7所述的方法,其特征在于,通过以下方式预置所述网址导航数据库:
分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;
获取针对所述网址的描述信息;
依据所获得的网址和相应的描述信息,建立网址导航数据库。
11.如权利要求10所述的方法,其特征在于,所述获取针对所述网址的描述信息的步骤进一步包括:
通过分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
12.如权利要求7所述的方法,其特征在于,当所述个性化网址导航结果集包括多个网址时,还包括:
记录用户的选择信息,并对该用户的特征参数进行相应调整。
13.一种个性化网址导航的系统,其特征在于,包括:
搜索日志数据库,用于记录查询词和查询词指向的各个网页中被用户点击的网页;
查询词分类单元,用于依据查询词对应的所述被用户点击网页的分类信息,对搜索日志中的查询词进行分类;
用户特征获取单元,用于汇总一用户所输入的各个查询词,依据各个查询词的分类结果以及各个类别所占比例,确定该用户的特征参数;
检索单元,用于接收用户输入的网址关键词,在预置的网址导航数据库中进行检索,匹配获得检索结果;所述网址导航数据库包括网址与其描述信息的对应关系;
结果输出单元,用于依据当前用户的特征参数和所述检索结果中的描述信息,对所述检索结果进行调整,返回针对该当前用户的个性化网址导航结果集。
14.如权利要求13所述的系统,其特征在于,所述查询词分类单元通过以下方式完成对查询词的分类:采用一查询词指向各个网页的点击次数或者点击比例修正该查询词的分类结果。
15.如权利要求13所述的系统,其特征在于,所述用户特征获取单元通过以下方式获取用户特征参数:采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征参数。
16.如权利要求13所述的系统,其特征在于,还包括导航数据库生成单元,其进一步包括:
日志分析模块,用于分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;
描述信息获取模块,用于获取针对所述网址的描述信息;
数据库生成模块,用于依据所获得的网址和相应的描述信息,建立网址导航数据库。
17.如权利要求16所述的系统,其特征在于,所述描述信息获取模块通过分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
18.如权利要求13所述的系统,其特征在于,当所述个性化网址导航结果集包括多个网址时,还包括:
反馈单元,用于记录用户的选择信息,并对该用户的特征参数进行相应调整。
CN2008101034279A 2008-04-03 2008-04-03 一种个性化网址导航的方法和系统 Active CN101551806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101034279A CN101551806B (zh) 2008-04-03 2008-04-03 一种个性化网址导航的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101034279A CN101551806B (zh) 2008-04-03 2008-04-03 一种个性化网址导航的方法和系统

Publications (2)

Publication Number Publication Date
CN101551806A CN101551806A (zh) 2009-10-07
CN101551806B true CN101551806B (zh) 2012-04-18

Family

ID=41156053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101034279A Active CN101551806B (zh) 2008-04-03 2008-04-03 一种个性化网址导航的方法和系统

Country Status (1)

Country Link
CN (1) CN101551806B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577441A (zh) * 2012-07-30 2014-02-12 腾讯科技(深圳)有限公司 用户操作数据存储方法及装置

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043985A (zh) * 2009-10-13 2011-05-04 无锡华润上华半导体有限公司 数据处理系统
US8244766B2 (en) * 2010-04-13 2012-08-14 Microsoft Corporation Applying a model of a persona to search results
CN102737037A (zh) * 2011-04-07 2012-10-17 北京搜狗科技发展有限公司 一种网页预读取的方法、装置及一种浏览器
CN102737044B (zh) * 2011-04-08 2015-01-28 阿里巴巴集团控股有限公司 一种投放网页信息的方法及装置
CN102810104B (zh) * 2011-06-03 2015-05-20 阿里巴巴集团控股有限公司 信息调整方法及装置
CN102937951B (zh) * 2011-08-15 2016-11-02 北京百度网讯科技有限公司 建立ip地址分类模型的方法、对用户分类的方法及装置
CN102354315B (zh) * 2011-09-22 2015-06-10 奇智软件(北京)有限公司 一种网址导航页面生成方法和装置
US9667505B2 (en) 2011-09-22 2017-05-30 Beijing Qihoo Technology Company Limited URL navigation page generation method, device and program
CN104715058B (zh) * 2011-09-22 2019-06-04 北京奇虎科技有限公司 一种网址导航页面生成方法和装置
CN102316166B (zh) * 2011-09-26 2015-07-08 中国科学院计算机网络信息中心 网站推荐方法和系统以及网络服务器
CN102419771A (zh) * 2011-11-30 2012-04-18 华为技术有限公司 一种用户访问网站的推荐方法、装置和系统
CN103186571A (zh) * 2011-12-28 2013-07-03 腾讯科技(深圳)有限公司 在移动搜索系统中展示移动媒介信息的方法和装置
CN102622445B (zh) * 2012-03-15 2014-05-07 华南理工大学 一种基于用户兴趣感知的网页推送系统及方法
CN103324645B (zh) * 2012-03-23 2018-10-09 深圳市世纪光速信息技术有限公司 一种网页推荐方法和装置
CN103365844B (zh) * 2012-03-26 2016-05-11 阿里巴巴集团控股有限公司 一种提供搜索路径的方法及装置
CN103167115B (zh) * 2012-05-25 2015-01-07 深圳市金立通信设备有限公司 基于人脑记忆特点的手机浏览器辅助搜索系统及方法
CN103455485A (zh) * 2012-05-28 2013-12-18 中兴通讯股份有限公司 自动更新用户兴趣模型方法及装置
CN102761627B (zh) 2012-06-27 2015-12-09 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及系统及相关设备
CN103678312B (zh) * 2012-08-31 2018-06-05 腾讯科技(深圳)有限公司 一种推荐网址的方法与客户端
CN102867056A (zh) * 2012-09-18 2013-01-09 王楚云 关键词搜索方法及系统
CN102929939B (zh) * 2012-09-28 2016-11-16 北京奇虎科技有限公司 个性化信息的提供方法及装置
CN102937983A (zh) * 2012-10-19 2013-02-20 北京奇虎科技有限公司 个性化网址导航系统
CN102929990A (zh) * 2012-10-19 2013-02-13 北京奇虎科技有限公司 网址导航的方法、装置及系统
CN102930009B (zh) * 2012-10-30 2015-11-25 北京奇虎科技有限公司 个性化网址导航系统
CN102982079B (zh) * 2012-10-30 2017-03-15 北京奇虎科技有限公司 个性化网址导航方法和装置
CN102982134A (zh) * 2012-11-16 2013-03-20 北京奇虎科技有限公司 在浏览器地址栏中显示推荐网址信息的系统
CN103914490B (zh) * 2013-01-08 2018-06-12 北京京东尚科信息技术有限公司 网页运行方法和系统
CN103944935A (zh) * 2013-01-21 2014-07-23 深圳市世纪光速信息技术有限公司 一种网址信息投放方法和装置
CN104123125A (zh) 2013-04-26 2014-10-29 腾讯科技(深圳)有限公司 网页资源的获取方法及装置
CN104156356B (zh) * 2013-05-13 2019-08-23 腾讯科技(深圳)有限公司 个性化导航页面生成方法及装置
CN103324675A (zh) * 2013-05-24 2013-09-25 崔吉平 互联网个性化精确信息搜索及算法
CN103678479A (zh) * 2013-09-30 2014-03-26 北京搜狗科技发展有限公司 浏览器预读取加速方法、装置及浏览器
CN104063445B (zh) * 2014-06-16 2017-04-26 百度移信网络技术(北京)有限公司 一种相似性度量的方法以及系统
CN104331429B (zh) * 2014-10-21 2018-04-27 北京奇虎科技有限公司 对网络对象进行多特征维度量化的方法及装置
CN106156023B (zh) * 2015-03-23 2020-02-21 华为技术有限公司 语义匹配的方法、装置和系统
CN104965905B (zh) * 2015-06-30 2018-05-04 北京奇虎科技有限公司 一种网页分类的方法和装置
CN105162822A (zh) * 2015-06-30 2015-12-16 浪潮(北京)电子信息产业有限公司 一种网站日志数据处理方法及装置
CN105095187A (zh) * 2015-08-07 2015-11-25 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
CN105045781B (zh) * 2015-08-27 2020-06-23 广州神马移动信息科技有限公司 查询词相似度计算方法及装置、查询词搜索方法及装置
CN106649312B (zh) * 2015-10-29 2019-10-29 北京北方华创微电子装备有限公司 日志文件的分析方法和系统
CN105574176A (zh) * 2015-12-21 2016-05-11 北京奇虎科技有限公司 结合多数据源的热词推荐方法和装置
CN107423304A (zh) * 2016-05-24 2017-12-01 百度在线网络技术(北京)有限公司 检索词分类方法及装置
CN107463573B (zh) * 2016-06-02 2020-10-13 阿里巴巴(中国)有限公司 内容信息提供方法、设备、浏览器、电子设备和服务器
CN106293119A (zh) * 2016-07-29 2017-01-04 百度在线网络技术(北京)有限公司 一种在输入法中进行信息推荐的方法与装置
CN108073588B (zh) * 2016-11-09 2021-07-30 北京国双科技有限公司 栏目信息提取方法和装置
CN108268552B (zh) * 2016-12-30 2020-08-11 北京国双科技有限公司 网站信息的处理方法及装置
CN108280200B (zh) * 2018-01-29 2021-11-09 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN110889050B (zh) * 2018-09-07 2024-07-30 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN112417248B (zh) * 2020-11-24 2024-08-13 百度在线网络技术(北京)有限公司 寻址关键词的推荐方法、装置、模型、设备和存储介质
CN117725314B (zh) * 2023-12-18 2024-06-07 无锡市泛亚资讯网络有限公司 一种基于关键字的网站管理推广方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴晓等.个性化搜索引擎中用户兴趣模型的研究.《第三届全国信息检索与内容安全学术会议论文集》.2007,828-832. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577441A (zh) * 2012-07-30 2014-02-12 腾讯科技(深圳)有限公司 用户操作数据存储方法及装置
CN103577441B (zh) * 2012-07-30 2017-07-21 腾讯科技(深圳)有限公司 用户操作数据存储方法及装置

Also Published As

Publication number Publication date
CN101551806A (zh) 2009-10-07

Similar Documents

Publication Publication Date Title
CN101551806B (zh) 一种个性化网址导航的方法和系统
US7672943B2 (en) Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling
US10102307B2 (en) Method and system for multi-phase ranking for content personalization
CN103339623B (zh) 涉及因特网搜索的方法和设备
US10528907B2 (en) Automated categorization of products in a merchant catalog
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN101641697B (zh) 对网页的相关搜索查询及其应用
CN102831199B (zh) 建立兴趣模型的方法及装置
CN109684538A (zh) 一种基于用户个人特征的推荐方法及推荐系统
US20110213761A1 (en) Searchable web site discovery and recommendation
WO2018040069A1 (zh) 信息推荐系统及方法
CN104679771A (zh) 一种个性化数据搜索方法和装置
CN104216881A (zh) 一种个性化标签的推荐方法及装置
CN102063453A (zh) 一种用于基于用户的需求进行搜索的方法和设备
Kumar et al. A study on different aspects of web mining and research issues
CN116401459A (zh) 一种互联网信息处理方法、系统及记录介质
Liu et al. Recent advances in personal recommender systems
Jalal Big data and intelligent software systems
Nawazish et al. Integrating “random forest” with indexing and query processing for personalized search
Jian et al. Multi-task gnn for substitute identification
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
JP6960361B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Venugopal et al. Web Recommendations Systems
Gudla et al. Enhanced service recommender and ranking system using browsing patterns of users

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant