CN105117482B - 一种实现网站导航的方法和装置 - Google Patents
一种实现网站导航的方法和装置 Download PDFInfo
- Publication number
- CN105117482B CN105117482B CN201510591176.3A CN201510591176A CN105117482B CN 105117482 B CN105117482 B CN 105117482B CN 201510591176 A CN201510591176 A CN 201510591176A CN 105117482 B CN105117482 B CN 105117482B
- Authority
- CN
- China
- Prior art keywords
- website
- client
- side visitor
- description information
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种实现网站导航的方法和装置,属于互联网技术领域。所述方法包括:对网站列表中的每个网站,生成该网站的描述信息,将其作为训练数据输入概率潜在语义分析PLSA模型,获取该网站所属的话题分类数据;综合每个网站所属的话题分类数据,得到每个话题分类数据所对应的网站;生成客户端方访问者的描述信息,将其作为预测数据输入PLSA模型,启动PLSA模型的预测过程,获取该客户端方访问者倾向访问的话题分类数据;根据该客户端方访问者倾向访问的话题分类数据和每个话题分类数据所对应的网站,确定该客户端方访问者倾向访问的网站,并显示输出。本发明的技术方案能够向客户端方访问者推荐其感兴趣的倾向访问的网站。
Description
本发明专利申请是申请日为2012年10月16日、申请号为201210392619.2、名称为“一种实现网站导航的方法和装置”的中国发明专利申请的分案申请。
技术领域
本发明涉及互联网技术领域,具体涉及一种实现网站导航的方法和装置。
背景技术
随着互联网上的网页站点不断增加,人们获取网页站点链接的方式除了传统的通过搜索获取外,也可以通过导航网站的导航网页获取。
导航网页作为许多客户端方访问者(即用户)使用互联网网站的主要入口,推荐模块对于导航网页的重要性越来越大。
现有的导航网站中,导航网页的推荐模块一般选取客户端方访问者浏览历史中的高频出现的网站,例如通过对日志信息的分析,统计出客户端方访问者在历史一段时间内最常访问的网站,把这些网站推荐给客户端方访问者,实现网站导航。
但现有的这种实现网站导航的方式中,推荐的网站都是客户端方访问者过去访问过的网站,对客户端方访问者来说缺乏新颖性,且不能向客户端方访问者推荐其可能倾向访问的网站。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的实现网站导航的方法和装置。
依据本发明的一个方面,提供了一种实现网站导航的方法,包括:
对网站列表中的每个网站,生成该网站的描述信息,将该网站的描述信息作为训练数据输入概率潜在语义分析PLSA模型,启动PLSA模型的训练过程,获取该网站所属的话题分类数据;其中,所述网站列表包括至少一个网站;
综合所述网站列表中的每个网站所属的话题分类数据,得到每个话题分类数据所对应的网站;
生成客户端方访问者的描述信息,将该客户端方访问者的描述信息作为预测数据输入PLSA模型,启动PLSA模型的预测过程,获取该客户端方访问者倾向访问的话题分类数据;
根据该客户端方访问者倾向访问的话题分类数据和所述每个话题分类数据所对应的网站,确定该客户端方访问者倾向访问的目标网站,将客户端方访问者倾向访问的目标网站显示输出。
可选地,在所述确定该客户端方访问者倾向访问的目标网站之后,并在所述将客户端方访问者倾向访问的目标网站显示输出之前,该方法进一步包括:
对该客户端方访问者倾向访问的每个网站,计算该网站的描述信息与该用户的描述信息之间的相似度值;
根据计算出的相似度值,从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择一个或多个网站作为最终选择的目标网站;
则所述将客户端方访问者倾向访问的目标网站显示输出为:将最终选择的目标网站通过客户端的导航网页显示输出,其中,如果最终选择的目标网站为多个,则在客户端的导航网页中将该多个最终选择的目标网站按相似度值进行排序显示输出。
可选地,所述根据计算出的相似度值,从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择一个或多个网站作为最终选择的目标网站包括:
从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择对应相似度值最大的一个网站或者按相似度值排序后选择排序在前的多个网站作为最终选择的目标网站。
可选地,所述对网站列表中的每个网站,生成该网站的描述信息包括:收集该网站的相关信息,对收集到的该网站的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该网站的描述信息;
所述生成客户端方访问者的描述信息包括:收集该客户端方访问者的相关信息,对收集到的该客户端方访问者的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该客户端方访问者的描述信息。
可选地,所述收集该网站的相关信息包括:收集该网站的网页的标题信息和收集指向该网站的网页的查询关键字信息;
所述收集该客户端方访问者的相关信息包括:收集该客户端方访问者所浏览网页的标题信息和收集该客户端方访问者搜索网页所使用的查询关键字信息。
根据本发明的另一方面,提供了一种实现网站导航的装置,包括:网站描述信息生成单元、客户端方访问者描述信息生成单元、概率潜在语义分析PLSA单元、综合处理单元和显示输出单元,其中,
网站描述信息生成单元,适于对网站列表中的每个网站,生成该网站的描述信息,将该网站的描述信息作为训练数据发送给PLSA单元;其中,所述网站列表包括至少一个网站;
客户端方访问者描述信息生成单元,适于生成客户端方访问者的描述信息,将该客户端方访问者的描述信息作为预测数据发送给PLSA单元;
PLSA单元,适于在接收到网站描述信息生成单元发送的每个网站的描述信息时,启动PLSA的训练过程,获取该网站所属的话题分类数据并发送给综合处理单元;并适于在接收到客户端方访问者描述信息生成单元发送的客户端方访问者描述信息时,启动PLSA的预测过程,获取该客户端方访问者倾向访问话题分类数据并发送给综合处理单元;
综合处理单元,适于综合PLSA单元发送的每个网站所属的话题分类数据,得到每个话题分类数据所对应的网站;并适于根据所述每个话题分类数据所对应的网站和PLSA单元发送的客户端方访问者倾向访问的话题分类数据,确定该客户端方访问者倾向访问的网站,将所确定的该客户端方访问者倾向访问的网站通知给显示输出单元;
显示输出单元,适于将综合处理单元通知的网站进行显示输出。
可选地,该装置进一步包括:相似度值计算单元;
综合处理单元,进一步适于在确定该客户端方访问者倾向访问的网站之后,先将该客户端方访问者和该客户端方访问者倾向访问的网站通知给相似度值计算单元,并接收相似度值计算单元反馈的对应相似度值,根据该返回的对应相似度值,从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择一个或多个网站作为最终选择的目标网站通知给显示输出单元;
相似度值计算单元,适于在收到综合处理单元通知的该客户端方访问者和该客户端方访问者倾向访问的网站后,从客户端方访问者描述信息生成单元获取该客户端方访问者的描述信息,从网站描述信息生成单元获取该客户端方访问者倾向访问的每个网站的描述信息,对该客户端方访问者倾向访问的每个网站,计算该网站的描述信息与该客户端方访问者的描述信息之间的相似度值并反馈给综合处理单元;
显示输出单元,适于将综合处理单元通知的网站通过客户端的导航网页显示输出,其中,如果综合处理单元通知的网站为多个,则在客户端的导航网页中将该多个最终选择的目标网站按相似度值进行排序显示输出。
可选地,综合处理单元,适于从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择对应相似度值最大的一个网站或者按相似度值排序后选择排序在前的多个网站作为最终选择的目标网站。
可选地,该装置进一步包括:收集单元,适于对网站列表中的每个网站,收集该网站的相关信息并发送给网站描述信息生成单元,还适于收集客户端方访问者的相关信息并发送给客户端方访问者描述信息生成单元;
网站描述信息生成单元,适于对所述网站列表中的每个网站,从收集单元接收该网站的相关信息,对该网站的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该网站的描述信息;
客户端方访问者描述信息生成单元,适于从收集单元接收客户端方访问者的相关信息,对该客户端方访问者的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该客户端方访问者的描述信息。
可选地,收集单元,适于对网站列表中的每个网站,收集该网站的网页的标题信息和指向该网站的网页的查询关键字信息作为该网站的相关信息;并适于收集客户端方访问者所浏览网页的标题信息和该客户端方访问者搜索网页所使用的查询关键字信息作为该客户端方访问者的相关信息。
根据本发明的这种对网站列表中的每个网站,生成该网站的描述信息,将该网站的描述信息作为训练数据输入概率潜在语义分析PLSA模型,启动PLSA模型的训练过程,训练结束后得到该网站所属的话题分类数据,然后综合所述网站列表中的每个网站所属的话题分类数据,得到每个话题分类数据所对应的网站;生成客户端方访问者的描述信息,将该客户端方访问者的描述信息作为预测数据输入PLSA模型,启动PLSA模型的预测过程,预测结束后得到该客户端方访问者倾向访问的话题分类数据;根据该客户端方访问者倾向访问的话题分类数据和所述每个话题分类数据所对应的网站,确定该客户端方访问者倾向访问的目标网站,将客户端方访问者倾向访问的目标网站显示输出的技术方案,可以将客户端方访问者倾向访问的目标网站推荐给客户端方访问者,由此解决了现有的导航网站只能向客户端方访问者推荐其过去访问过的网站的问题,取得了能够向客户端方访问者推荐其感兴趣的新颖的倾向访问的网站的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种实现网站导航的方法的流程图;
图2示出了根据本发明一个实施例的生成一个网站的描述信息的流程图;
图3示出了根据本发明一个实施例的生成一个客户端方访问者的描述信息的流程图;
图4示出了根据本发明一个实施例的一种实现网站导航的装置的第一例结构图;
图5示出了根据本发明一个实施例的一种实现网站导航的装置的第二例结构图。
具体实施方式
本发明的核心思想是:首先抽取网站和客户端方访问者的描述信息,把网站的描述信息作为PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析)模型的训练数据启动其训练过程,训练完成后,可以得到每个网站对应的话题分类数据,基于该数据可以得到每个话题分类下有哪些网站;把客户端方访问者的描述信息作为PLSA模型的预测数据启动其预测过程,预测完成后,可以得到每个客户端方访问者感兴趣的话题,结合训练后得到的话题和网站的对应关系,可以得到客户端方访问者潜在感兴趣(即倾向访问)的网站列表。
这里,PLSA是现有技术中的一种基于概率的有效的语义识别技术,本文中直接利用现有的PLSA模型对本文所涉及的信息进行分析,具体涉及PLSA模型的训练过程和PLSA模型的预测过程。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种实现网站导航的方法的流程图。如图1所示,包括:
步骤S110,对网站列表中的每个网站,生成该网站的描述信息,将该网站的描述信息作为训练数据输入概率潜在语义分析PLSA模型,启动PLSA模型的训练过程,训练结束后得到该网站所属的话题分类数据。
其中,网站列表包括至少一个网站。网站列表即为导航网站可推荐的网站的集合。
在本步骤中,PLSA模型的训练过程的具体实现属于现有技术,这里不再复述。
步骤S120,综合所述网站列表中的每个网站所属的话题分类数据,得到每个话题分类数据所对应的网站。
步骤S130,生成客户端方访问者的描述信息,将该客户端方访问者的描述信息作为预测数据输入PLSA模型,启动PLSA模型的预测过程,预测结束后得到该客户端方访问者倾向访问的话题分类数据。
在本步骤中,PLSA模型的预测过程的具体实现属于现有技术,这里不再复述。
步骤S140,根据该客户端方访问者倾向访问的话题分类数据和所述每个话题分类数据所对应的网站,确定该客户端方访问者倾向访问的目标网站,将客户端方访问者倾向访问的目标网站显示输出。
图1所示的方法,可以将客户端方访问者倾向访问的目标网站推荐给客户端方访问者,由此解决了现有的导航网站只能向客户端方访问者推荐其过去访问过的网站的问题,取得了能够向客户端方访问者推荐其感兴趣的倾向访问的新颖的网站的有益效果。
图2示出了根据本发明一个实施例的生成一个网站的描述信息的流程图。如图2所述,包括:
步骤S210,收集该网站的相关信息。
本步骤中,为了识别出网页的相关话题,需要收集网站的相关信息,具体可以收集该网站的全部网页的正文信息、标题信息和指向该网站的网页的查询关键字信息等。
在本发明的一个实施例中,收集该网站的网页的标题信息和指向该网站的网页的查询关键字信息作为该网站的相关信息。在该实施例中没有收集网页正文信息的原因是:一方面,网页规模庞大,如果对每一篇网页都做正文分析,需要大量的网页抓取,网页解析等工作,解析完成后,还需要庞大的存储空间来存放这些网页信息;另一方面,每篇网页的标题都是网页信息的概括,抽样发现网站下网页的标题信息的集合可以很好的刻画该网站的信息分类。
步骤S220,进行规则化处理。
本步骤中,将所收集的网站的相关信息文本进行规范化处理,具体包括:英文字母的大写转小写、全角符号转半角以及中文字符的繁体转简体等。
步骤S230,进行分词处理。
本步骤中,将进行规则化处理后的文本进行分词处理,具体使用分词工具对文本进行分词,得到词或单字序列。
步骤S240,过滤无意义的词。
本步骤中,从分词器输出的词语中过滤掉无意义的词,如过滤掉疑问词、连词、叹词、助词、语气词等。
步骤S250,对剩余词统计词频,得到该网站的描述信息。
本步骤中,对过滤掉无意义的词后词语进行词频统计,即统计每个词的出现次数。
在图2所示的方法中,对收集到的该网站的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该网站的描述信息。然后将该网站的描述信息作为训练数据输入PLSA模型,启动PLSA模型的训练过程,训练结束后就会得到该网站所属的话题分类数据。
例如,某一网页的标题是:体育—NBA频道姚明的復仇
规则化处理后:体育—nba频道 姚明的复仇
分词处理后:体育—nba频道 姚明 的 复仇
滤无意义词后:体育 nba 频道 姚明 复仇
统计词频后:体育 1 nba 1 频道 1 姚明 1 复仇 1
有例如,在本发明的一个实施例中,针对某篮球网站进行如图2所示的处理所得到的该网站的描述信息为:
竞技 5480259 篮球 3676433 视频 2152292 直播 1611202 网站 1611180 NBA直播 1611159 官方授权 1611138 湖人 949672 火箭 438067 冠军 375639 霍华德349256 图集 333208 高清 333129 鲨鱼 317790 雷霆 293986 图 290131 卡戴珊271075 科比 270137 马刺 262879
为了识别客户端方访问者倾向访问的目标网站,同样需要建立客户端方访问者的描述信息。图3示出了根据本发明一个实施例的生成一个客户端方访问者的描述信息的流程图。如图3所述,包括:
步骤S310,收集该客户端方访问者的相关信息。
本步骤中,为了识别出客户端方访问者所感兴趣的相关话题,需要收集其的相关信息,具体可以收集该客户端方访问者所访问网站的全部网页的正文信息、标题信息和指向该网站的网页的查询关键字信息等。
在本发明的一个实施例中,如果收集网站的网页的标题信息和指向该网站的网页的查询关键字信息作为网站的相关信息,则为了和网站的描述信息一致,收集该客户端方访问者所浏览网页的标题信息和该客户端方访问者搜索网页所使用的查询关键字信息作为该客户端方访问者的相关信息。
步骤S320,进行规则化处理。
本步骤中,将所收集的网站的相关信息文本进行规范化处理,具体包括:英文字母的大写转小写、全角符号转半角以及中文字符的繁体转简体等。
步骤S330,进行分词处理。
本步骤中,将步骤S320中进行规则化处理后的文本进行分词处理,具体使用分词工具对文本进行分词,得到词或单字序列。
步骤S340,过滤无意义的词。
本步骤中,将步骤S330中从分词器输出的词语中过滤掉无意义的词,如过滤掉疑问词、连词、叹词、助词、语气词等。
步骤S350,对剩余词统计词频,得到该网站的描述信息。
本步骤中,对步骤S340中过滤掉无意义的词后词语进行词频统计,即统计每个词的出现次数。
在图3所示的方法中,对收集到的该客户端方访问者的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该客户端方访问者的描述信息。然后将该客户端方访问者的描述信息作为预测数据输入PLSA模型,启动PLSA模型的预测过程,预测结束后就会得到该客户端方访问者倾向访问的话题分类数据。
根据客户端方访问者倾向访问的话题分类数据和每个话题分类数据所对应的网站,可以确定该客户端方访问者倾向访问的目标网站列表。例如,某个客户端方访问者倾向访问的话题分类数据为“篮球”和“娱乐”,而话题分类数据“篮球”所对应的网站为网站A、网站E、网站X和网站Y,话题分类数据“娱乐”所对应的网站为网站D、网站C和网站F,则可以确定该客户端方访问者倾向访问的目标网站列表为:网站A、网站E、网站X、网站Y、网站D、网站C和网站F。
但该目标网站列表通常仍包括较多的网站,不能全部在导航网站的推荐显示位置上进行显示,因此需要进一步精简该列表。
在本发明的一个实施例中,采用网站的描述信息和客户端方访问者的描述信息的相似度来度量客户端方访问者对网站的感兴趣程度。
即在根据客户端方访问者倾向访问的话题分类数据和每个话题分类数据所对应的网站,确定该客户端方访问者倾向访问的目标网站列表之后:
(1)对该客户端方访问者倾向访问的每个网站,计算该网站的描述信息与该客户端方访问者的描述信息之间的相似度值。相似度值越大客户端方访问者对网站话题的感兴趣程度越高。
(2)根据计算出的相似度值,从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择一个或多个网站作为最终选择的目标网站。具体可以从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择对应相似度值最大的一个网站作为最终选择的目标网站,或者对该客户端方访问者倾向访问的每个话题分类数据所对应网站按相似度值进行排序,按相似度值排序后选择排序在前的多个网站作为最终选择的目标网站。
然后,将最终选择的目标网站通过客户端的导航网页显示输出,其中,如果最终选择的目标网站为多个,则在客户端的导航网页中将该多个最终选择的目标网站按相似度值进行排序显示输出。
计算网站的描述信息与该用户的描述信息之间的相似度值,可以采用现有的可以度量两个分布相似度的算法,如采用Jaccard算法、KL算法或计算余弦距离的算法。以计算余弦距离为例:计算网站的描述信息与客户端方访问者的描述信息之间的余弦距离值,余弦距离值越大客户端方访问者对网站话题的感兴趣程度越高。
图4示出了根据本发明一个实施例的一种实现网站导航的装置的第一例结构图。如图4所示,包括:网站描述信息生成单元410、客户端方访问者描述信息生成单元420、PLSA单元430、综合处理单元440和显示输出单元450,其中,
网站描述信息生成单元410,适于对网站列表中的每个网站,生成该网站的描述信息,将该网站的描述信息作为训练数据发送给PLSA单元430;其中,所述网站列表包括至少一个网站;
客户端方访问者描述信息生成单元420,适于生成客户端方访问者的描述信息,将该客户端方访问者的描述信息作为预测数据发送给PLSA单元430;
PLSA单元430,适于在接收到网站描述信息生成单元410发送的每个网站的描述信息时,启动PLSA的训练过程,训练结束后得到该网站所属的话题分类数据并发送给综合处理单元440;并适于在接收到客户端方访问者描述信息生成单元420发送的客户端方访问者描述信息时,启动PLSA的预测过程,预测结束后得到该客户端方访问者倾向访问话题分类数据并发送给综合处理单440元;
综合处理单元440,适于综合PLSA单元430发送的每个网站所属的话题分类数据,得到每个话题分类数据所对应的网站;并适于根据所述每个话题分类数据所对应的网站和PLSA单元430发送的客户端方访问者倾向访问的话题分类数据,确定该客户端方访问者倾向访问的网站,将所确定的该客户端方访问者倾向访问的网站通知给显示输出单元450;
显示输出单元450,适于将综合处理单元通知的网站进行显示输出。
图4所示的装置,可以将客户端方访问者倾向访问的目标网站推荐给客户端方访问者,由此解决了现有的导航网站只能向客户端方访问者推荐其过去访问过的网站的问题,取得了能够向客户端方访问者推荐其感兴趣的倾向访问的网站的有益效果。
图5示出了根据本发明一个实施例的一种实现网站导航的装置的第二例结构图。如图5所示,包括:网站描述信息生成单元510、客户端方访问者描述信息生成单元520、PLSA单元530、综合处理单元540、显示输出单元550、收集单元560和相似度值计算单元570。其中,网站描述信息生成单元510、客户端方访问者描述信息生成单元520、PLSA单元530和综合处理单元540具备图4所示相应单元所具备的功能。在此基础上:
综合处理单元540,进一步适于在确定客户端方访问者倾向访问的网站之后,先将该客户端方访问者和该客户端方访问者倾向访问的网站通知给相似度值计算单元570,并接收相似度值计算单570元反馈的对应相似度值,根据该返回的对应相似度值,从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择一个或多个网站作为最终选择的目标网站通知给显示输出单元550;
综合处理单元540,具体适于从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择对应相似度值最大的一个网站或者按相似度值排序后选择排序在前的多个网站作为最终选择的目标网站;
相似度值计算单元570,适于在收到综合处理单元540通知的该客户端方访问者和该客户端方访问者倾向访问的网站后,从客户端方访问者描述信息生成单元520获取该客户端方访问者的描述信息,从网站描述信息生成单元510获取该客户端方访问者倾向访问的每个网站的描述信息,对该客户端方访问者倾向访问的每个网站,计算该网站的描述信息与该客户端方访问者的描述信息之间的相似度值并反馈给综合处理单元540;
显示输出单元550,适于将综合处理单元540通知的网站通过客户端的导航网页显示输出,其中,如果综合处理单元540通知的网站为多个,则在客户端的导航网页中将该多个最终选择的目标网站按相似度值进行排序显示输出。
在本发明的一个实施例中,相似度值计算单元570,可以采用现有的可以度量两个分布相似度的算法,如采用Jaccard算法、KL算法或计算余弦距离的算法。以计算余弦距离为例:相似度值计算单元570计算网站的描述信息与该客户端方访问者的描述信息之间的余弦距离值,余弦距离值越大客户端方访问者对网站话题的感兴趣程度越高。
在图5中,收集单元560,适于对网站列表中的每个网站,收集该网站的相关信息并发送给网站描述信息生成单元,还适于收集客户端方访问者的相关信息并发送给客户端方访问者描述信息生成单元;
网站描述信息生成单元510,适于对所述网站列表中的每个网站,从收集单元560接收该网站的相关信息,对该网站的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该网站的描述信息;
客户端方访问者描述信息生成单元520,适于从收集单元560接收客户端方访问者的相关信息,对该客户端方访问者的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该客户端方访问者的描述信息。
在本发明的一个实施例中,收集单元560,适于对网站列表中的每个网站,收集该网站的网页的标题信息和指向该网站的网页的查询关键字信息作为该网站的相关信息;并适于收集客户端方访问者所浏览网页的标题信息和该客户端方访问者搜索网页所使用的查询关键字信息作为该客户端方访问者的相关信息。在该实施例中收集单元560没有收集网页正文信息的原因是:一方面,网页规模庞大,如果对每一篇网页都做正文分析,需要大量的网页抓取,网页解析等工作,解析完成后,还需要庞大的存储空间来存放这些网页信息;另一方面,每篇网页的标题都是网页信息的概括,抽样发现网站下网页的标题信息的集合可以很好的刻画该网站的信息分类。
本发明的技术方案可以作为导航网页的推荐模块的实现方案,为导航网页的客户端方访问者推荐优质的网站站点。具体可以为客户端方访问者推荐新颖的(不在历史访问记录中)、多样的和其感兴趣的网站。另外,还可以将客户端方访问者引导到指定的网站,实现导航网站的运营,例如,导航网站的运营人员为了网站的发展,需要在不影响用户体验的情况下,把用户引导到指定的网站,比如把对“篮球”感兴趣的用户引导到某个与篮球相关的网站,而本发明可以很好的解决这个问题。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种实现网站导航的方法,包括:
对网站列表中的每个网站,生成该网站的描述信息,将该网站的描述信息作为训练数据输入概率潜在语义分析PLSA模型,启动PLSA模型的训练过程,获取该网站所属的话题分类数据;其中,所述网站列表包括至少一个网站;网站列表为导航网站可推荐的网站的集合;
综合所述网站列表中的每个网站所属的话题分类数据,得到每个话题分类数据所对应的网站;
生成客户端方访问者的描述信息,将该客户端方访问者的描述信息作为预测数据输入PLSA模型,启动PLSA模型的预测过程,获取该客户端方访问者倾向访问的话题分类数据;
根据该客户端方访问者倾向访问的话题分类数据和所述每个话题分类数据所对应的网站,确定该客户端方访问者倾向访问的目标网站,将客户端方访问者倾向访问的目标网站显示输出。
2.如权利要求1所述的方法,其中,在所述确定该客户端方访问者倾向访问的目标网站之后,并在所述将客户端方访问者倾向访问的目标网站显示输出之前,该方法进一步包括:
对该客户端方访问者倾向访问的每个网站,计算该网站的描述信息与该客户端方访问者的描述信息之间的相似度值;
根据计算出的相似度值,从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择一个或多个网站作为最终选择的目标网站;
则所述将客户端方访问者倾向访问的目标网站显示输出为:将最终选择的目标网站通过客户端的导航网页显示输出,其中,如果最终选择的目标网站为多个,则在客户端的导航网页中将该多个最终选择的目标网站按相似度值进行排序显示输出。
3.如权利要求2所述的方法,其中,所述根据计算出的相似度值,从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择一个或多个网站作为最终选择的目标网站包括:
从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择对应相似度值最大的一个网站或者按相似度值排序后选择排序在前的多个网站作为最终选择的目标网站。
4.如权利要求1至3中任一项所述的方法,其中,
所述对网站列表中的每个网站,生成该网站的描述信息包括:收集该网站的相关信息,对收集到的该网站的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该网站的描述信息;
所述生成客户端方访问者的描述信息包括:收集该客户端方访问者的相关信息,对收集到的该客户端方访问者的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该客户端方访问者的描述信息。
5.如权利要求4所述的方法,其中,
所述收集该网站的相关信息包括:收集该网站的网页的标题信息和收集指向该网站的网页的查询关键字信息;
所述收集该客户端方访问者的相关信息包括:收集该客户端方访问者所浏览网页的标题信息和收集该客户端方访问者搜索网页所使用的查询关键字信息。
6.一种实现网站导航的装置,包括:网站描述信息生成单元、客户端方访问者描述信息生成单元、概率潜在语义分析PLSA单元、综合处理单元和显示输出单元,其中,
网站描述信息生成单元,适于对网站列表中的每个网站,生成该网站的描述信息,将该网站的描述信息作为训练数据发送给PLSA单元;其中,所述网站列表包括至少一个网站;网站列表为导航网站可推荐的网站的集合;
客户端方访问者描述信息生成单元,适于生成客户端方访问者的描述信息,将该客户端方访问者的描述信息作为预测数据发送给PLSA单元;
PLSA单元,适于在接收到网站描述信息生成单元发送的每个网站的描述信息时,启动PLSA的训练过程,获取该网站所属的话题分类数据并发送给综合处理单元;并适于在接收到客户端方访问者描述信息生成单元发送的客户端方访问者描述信息时,启动PLSA的预测过程,获取该客户端方访问者倾向访问话题分类数据并发送给综合处理单元;
综合处理单元,适于综合PLSA单元发送的每个网站所属的话题分类数据,得到每个话题分类数据所对应的网站;并适于根据所述每个话题分类数据所对应的网站和PLSA单元发送的客户端方访问者倾向访问的话题分类数据,确定该客户端方访问者倾向访问的网站,将所确定的该客户端方访问者倾向访问的网站通知给显示输出单元;
显示输出单元,适于将综合处理单元通知的网站进行显示输出。
7.如权利要求6所述的装置,其中,该装置进一步包括:相似度值计算单元;
综合处理单元,进一步适于在确定该客户端方访问者倾向访问的网站之后,先将该客户端方访问者和该客户端方访问者倾向访问的网站通知给相似度值计算单元,并接收相似度值计算单元反馈的对应相似度值,根据该反馈的对应相似度值,从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择一个或多个网站作为最终选择的目标网站通知给显示输出单元;
相似度值计算单元,适于在收到综合处理单元通知的该客户端方访问者和该客户端方访问者倾向访问的网站后,从客户端方访问者描述信息生成单元获取该客户端方访问者的描述信息,从网站描述信息生成单元获取该客户端方访问者倾向访问的每个网站的描述信息,对该客户端方访问者倾向访问的每个网站,计算该网站的描述信息与该客户端方访问者的描述信息之间的相似度值并反馈给综合处理单元;
显示输出单元,适于将综合处理单元通知的网站通过客户端的导航网页显示输出,其中,如果综合处理单元通知的网站为多个,则在客户端的导航网页中将该多个最终选择的目标网站按相似度值进行排序显示输出。
8.如权利要求7所述的装置,其中,
综合处理单元,适于从该客户端方访问者倾向访问的每个话题分类数据所对应网站中选择对应相似度值最大的一个网站或者按相似度值排序后选择排序在前的多个网站作为最终选择的目标网站。
9.如权利要求6至8中任一项所述的装置,其中,
该装置进一步包括:收集单元,适于对网站列表中的每个网站,收集该网站的相关信息并发送给网站描述信息生成单元,还适于收集客户端方访问者的相关信息并发送给客户端方访问者描述信息生成单元;
网站描述信息生成单元,适于对所述网站列表中的每个网站,从收集单元接收该网站的相关信息,对该网站的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该网站的描述信息;
客户端方访问者描述信息生成单元,适于从收集单元接收客户端方访问者的相关信息,对该客户端方访问者的相关信息依次进行规则化处理、分词处理、过滤无意义词的处理、对剩余词统计词频的处理,得到该客户端方访问者的描述信息。
10.如权利要求9所述的装置,其中,
收集单元,适于对网站列表中的每个网站,收集该网站的网页的标题信息和指向该网站的网页的查询关键字信息作为该网站的相关信息;并适于收集客户端方访问者所浏览网页的标题信息和该客户端方访问者搜索网页所使用的查询关键字信息作为该客户端方访问者的相关信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510591176.3A CN105117482B (zh) | 2012-10-16 | 2012-10-16 | 一种实现网站导航的方法和装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510591176.3A CN105117482B (zh) | 2012-10-16 | 2012-10-16 | 一种实现网站导航的方法和装置 |
CN201210392619.2A CN102915358B (zh) | 2012-10-16 | 2012-10-16 | 导航网站实现方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210392619.2A Division CN102915358B (zh) | 2012-10-16 | 2012-10-16 | 导航网站实现方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105117482A CN105117482A (zh) | 2015-12-02 |
CN105117482B true CN105117482B (zh) | 2019-05-31 |
Family
ID=47613724
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510591176.3A Expired - Fee Related CN105117482B (zh) | 2012-10-16 | 2012-10-16 | 一种实现网站导航的方法和装置 |
CN201210392619.2A Expired - Fee Related CN102915358B (zh) | 2012-10-16 | 2012-10-16 | 导航网站实现方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210392619.2A Expired - Fee Related CN102915358B (zh) | 2012-10-16 | 2012-10-16 | 导航网站实现方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN105117482B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915357B (zh) * | 2012-10-16 | 2016-06-29 | 北京奇虎科技有限公司 | 一种实现网站导航的方法和装置 |
CN105117482B (zh) * | 2012-10-16 | 2019-05-31 | 北京奇虎科技有限公司 | 一种实现网站导航的方法和装置 |
CN104156378A (zh) * | 2013-10-08 | 2014-11-19 | 吕群英 | 一种一键精准打开所有官方网站方法 |
CN104537552B (zh) * | 2014-12-23 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 通过计算机实现的信息推荐方法及装置 |
CN111931040B (zh) * | 2020-06-30 | 2024-01-12 | 深圳市世强元件网络有限公司 | 一种网络平台内部服务实体服务入口的推荐方法 |
US12034819B2 (en) | 2020-06-30 | 2024-07-09 | Shenzhen Sekorm Component Network Co., Ltd | Recommendation method for an internal service entity service entrance of network platform |
CN114398555A (zh) * | 2022-01-18 | 2022-04-26 | 平安国际智慧城市科技股份有限公司 | 医疗网站推送方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655853A (zh) * | 2008-08-21 | 2010-02-24 | 国际商业机器公司 | 建立模型的装置和方法 |
CN102004774A (zh) * | 2010-11-16 | 2011-04-06 | 清华大学 | 基于统一概率模型的个性化用户标签建模与推荐方法 |
CN102915358A (zh) * | 2012-10-16 | 2013-02-06 | 北京奇虎科技有限公司 | 导航网站实现方法和装置 |
CN102915357A (zh) * | 2012-10-16 | 2013-02-06 | 北京奇虎科技有限公司 | 一种实现网站导航的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7529765B2 (en) * | 2004-11-23 | 2009-05-05 | Palo Alto Research Center Incorporated | Methods, apparatus, and program products for performing incremental probabilistic latent semantic analysis |
-
2012
- 2012-10-16 CN CN201510591176.3A patent/CN105117482B/zh not_active Expired - Fee Related
- 2012-10-16 CN CN201210392619.2A patent/CN102915358B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655853A (zh) * | 2008-08-21 | 2010-02-24 | 国际商业机器公司 | 建立模型的装置和方法 |
CN102004774A (zh) * | 2010-11-16 | 2011-04-06 | 清华大学 | 基于统一概率模型的个性化用户标签建模与推荐方法 |
CN102915358A (zh) * | 2012-10-16 | 2013-02-06 | 北京奇虎科技有限公司 | 导航网站实现方法和装置 |
CN102915357A (zh) * | 2012-10-16 | 2013-02-06 | 北京奇虎科技有限公司 | 一种实现网站导航的方法和装置 |
Non-Patent Citations (2)
Title |
---|
《基于概率潜在语义分析模型的自动答案选择》;张成等;《计算机工程》;20110731;第37卷(第14期);第70-72页 |
《搜索引擎中一种基于PLSA的用户模型》;于芳等;《计算机科学》;20061231;第33卷(第11期);第123-125页 |
Also Published As
Publication number | Publication date |
---|---|
CN102915358A (zh) | 2013-02-06 |
CN102915358B (zh) | 2015-11-25 |
CN105117482A (zh) | 2015-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105117482B (zh) | 一种实现网站导航的方法和装置 | |
Walter et al. | News frame analysis: An inductive mixed-method computational approach | |
CN102119385B (zh) | 用于在内容检索服务系统内检索媒体内容的方法和子系统 | |
Lin et al. | Voices of victory: A computational focus group framework for tracking opinion shift in real time | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN104809108B (zh) | 信息监测分析系统 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109214002A (zh) | 一种文本对比方法、装置及其计算机存储介质 | |
CN108959329B (zh) | 一种文本分类方法、装置、介质及设备 | |
US9501580B2 (en) | Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website | |
CN103455522A (zh) | 应用程序扩展工具推荐方法及系统 | |
CN112257452B (zh) | 情感识别模型的训练方法、装置、设备和存储介质 | |
CN107330627A (zh) | 一种创新创意的大数据处理方法、服务器及系统 | |
CN108681749B (zh) | 基于网络社交平台的隐私信息甄别方法 | |
KR102407057B1 (ko) | Sns 사용자 채널에 대한 공개 데이터를 분석하여 영향력 리포트를 제공하는 시스템 및 방법 | |
McKelvey et al. | Visualizing communication on social media: Making big data accessible | |
CN102915357B (zh) | 一种实现网站导航的方法和装置 | |
CN114037545A (zh) | 客户推荐方法、装置、设备及存储介质 | |
CN114201516B (zh) | 一种用户画像构建的方法、信息推荐的方法以及相关装置 | |
CN112232933A (zh) | 房源信息的推荐方法、装置、设备及可读存储介质 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN104731937B (zh) | 用户行为数据的处理方法及装置 | |
Jiang et al. | Understanding Chinese online users and their visits to websites: Application of Zipf's law | |
CN109739976A (zh) | 网络社交平台隐私甄别方法、系统、存储介质和计算机 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190531 Termination date: 20211016 |
|
CF01 | Termination of patent right due to non-payment of annual fee |