CN102054003B - 网络信息推荐、建立网络资源索引的方法及系统 - Google Patents
网络信息推荐、建立网络资源索引的方法及系统 Download PDFInfo
- Publication number
- CN102054003B CN102054003B CN200910236867.6A CN200910236867A CN102054003B CN 102054003 B CN102054003 B CN 102054003B CN 200910236867 A CN200910236867 A CN 200910236867A CN 102054003 B CN102054003 B CN 102054003B
- Authority
- CN
- China
- Prior art keywords
- user
- network resource
- network
- correlation
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 239000013598 vector Substances 0.000 claims description 357
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000012163 sequencing technique Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013398 bayesian method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了网络信息推荐、建立网络资源索引的方法及系统,其中,所述网络信息推荐方法包括:获得用户访问网络资源的资源访问记录;将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;汇集各用户的网络资源对,获得网络资源二维关系;当需要为用户进行推荐时,根据所述网络资源二维关系为用户推荐相关的网络资源。通过本发明,能够扩大用户获得信息的范围,提高信息的利用率,降低了用户获得有用信息的难度。
Description
技术领域
本发明涉及浏览器技术领域,特别是涉及网络信息推荐、建立网络资源索引的方法及系统。
背景技术
现在网络技术飞速发展,互联网上的信息量非常大,因此如何让用户快速找到自己想要或者适合自己的网络信息则成为技术人员迫切需要解决的技术问题。
为了解决上述技术问题,出现了一种网络信息推荐系统(Recommendersystem),该系统是信息过滤系统的一种。以网页推荐为例,通常需要预先建立网页索引,在需要给用户进行推荐时,在网页索引中检索出可以推荐的网页。现有技术中的网页索引通常是基于关键词建立的,例如,可以预先提取各个网页中具有代表性的关键词,然后按照关键词建立网页索引;当需要进行网页推荐时,提取当前网页中具有代表性的关键词作为检索词,然后在预先建立的索引中检索具有该检索词的网页,然后将检索到的网页推荐给相关用户。
但是在基于这种索引方式的网络信息推荐系统下,对于不包含检索词的网页,就无法推荐给用户,使得用户获得信息的范围比较狭窄,既限制了信息的利用率,也增加了用户获得有用信息的难度。
发明内容
本发明提供了网络信息推荐、建立网络资源索引的方法及系统,能够提高网络信息的利用率。
本发明提供了如下方案:
一种网络信息推荐的方法,包括:
获得用户访问网络资源的资源访问记录;
将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;所述资源访问记录中记录了用户访问过的网络资源集合,所述拆分的方式为:将所述网络资源集合中的网络资源两两组成网络资源访问对;
对各用户拆分后产生的网络资源访问对进行聚类以汇集各用户的网络资源访问对,获得网络资源二维关系,所述网络资源二维关系表示网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页;
当需要为用户进行推荐时,根据所述网络资源二维关系所体现的网络资源相关性为用户推荐相关的网络资源。
优选的,所述根据所述网络资源二维关系为用户推荐相关的网络资源包括:根据所述网络资源二维关系为用户推荐与当前访问的网络资源相关的网络资源。
优选的,所述根据所述网络资源二维关系为用户推荐相关的网络资源包括:
根据所述网络资源二维关系获得相关的网络资源集合,根据所述网络资源集合向用户推荐网络资源。
优选的:获得各网络资源对中两网络资源的相关度;在所述根据所述网络资源二维关系获得相关的网络资源集合之后还包括:
根据各网络资源对中两网络资源的相关度,对所述集合中的网络资源进行排序。
优选的,通过以下方式获得各网络资源对中两网络资源的相关度:
将相同的网络资源对进行合并;根据网络资源对的合并次数,获得各网络资源对中两网络资源的相关度;
和/或,
根据网络资源对中两网络资源之间的间隔时间,获得各网络资源对中两网络资源的相关度;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
优选的,通过以下方式对所述相关度进行修正:
将相同的网络资源对进行合并;根据网络资源对的合并次数,对所述相关度进行修正;
和/或,
根据网络资源对中两网络资源之间的间隔时间,对所述相关度进行修正;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;利用各用户的兴趣向量对所述相关度进行修正;所述兴趣向量用于描述用户对各类别的感兴趣程度。
优选的,所述网络资源二维关系为核心索引,还包括:
根据辅助索引对所述集合中的网络资源进行排序。
优选的,所述根据辅助索引对所述集合中的网络资源进行排序包括:
通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;分别将各所述相关网络资源的特征向量与用户当前访问的网络资源的特征向量进行内积计算,并根据内积计算的结果对各网络资源进行排序;
或者,
通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;所述兴趣向量用于描述用户对各类别的感兴趣程度;分别将各所述相关网络资源的特征向量与该用户的兴趣向量进行内积计算,并根据内积计算的结果对各网络资源进行排序。
优选的,所述资源访问记录为资源访问序列。
一种网络信息推荐的系统,包括:
资源访问记录获得单元,用于获得用户访问网络资源的资源访问记录;
网络资源拆分单元,用于将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;所述资源访问记录中记录了用户访问过的网络资源集合,所述拆分的方式为:将所述网络资源集合中的网络资源两两组成网络资源访问对;
网络资源对汇集单元,用于对各用户拆分后产生的网络资源访问对进行聚类以汇集各用户的网络资源访问对,获得网络资源二维关系,所述网络资源二维关系表示网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页;
网络资源推荐单元,用于当需要为用户进行推荐时,根据所述网络资源二维关系所体现的网络资源相关性为用户推荐相关的网络资源。
优选的,所述网络资源推荐单元包括:
第一网络资源推荐子单元,用于根据所述网络资源二维关系为用户推荐与当前访问的网络资源相关的网络资源。
优选的,所述网络资源推荐单元包括:
网络资源集合获得子单元,用于根据所述网络资源二维关系获得与当前访问的网络资源相关的网络资源集合;
第二网络资源推荐子单元,用于根据所述集合向用户推荐网络资源。
优选的,还包括:
网络资源相关度获得单元,用于获得各网络资源对中两网络资源的相关度;
所述网络资源推荐单元还包括:
第一排序子单元,用于根据所述网络资源二维关系获得与当前访问的网络资源相关的网络资源集合之后,根据各网络资源对中两网络资源的相关度,对所述集合中的网络资源进行排序。
优选的,所述网络资源相关度获得单元包括:
第一网络资源相关度获得子单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,为各个网络资源对进行评分,得到各网络资源对中两网络资源的相关度;
和/或,
第二网络资源相关度获得子单元,用于根据网络资源对中两网络资源之间的间隔时间,为各个网络资源对进行评分,得到各网络资源对中两网络资源的相关度;
和/或,
第三网络资源相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
优选的,所述网络资源二维关系为核心索引,所述网络资源推荐单元还包括:
第二排序子单元,用于根据辅助索引对所述集合中的网络资源进行排序。
优选的:
所述第二排序子单元包括:
特征向量生成子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;第一计算子单元,用于分别将各所述相关网络资源的特征向量与用户当前访问的网络资源的特征向量进行内积计算,并根据内积计算的结果对各网络资源进行排序;
或者,
所述第二排序子单元包括:
兴趣向量生成子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;所述兴趣向量用于描述用户对各类别的感兴趣程度;第二计算子单元,用于分别将各所述相关网络资源的特征向量与该用户的兴趣向量进行内积计算,并根据内积计算的结果对各网络资源进行排序。
优选的,还包括:
过滤单元,用于过滤掉无效的网络资源对,所述无效的网络资源对包括:内容不相关的网络资源对、访问时间间隔超过预置阈值的网络资源对或者包含有广告导航页的网络资源对。
一种建立网络资源索引的方法,包括:
获得用户访问网络资源的资源访问记录;
将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;所述资源访问记录中记录了用户访问过的网络资源集合,所述拆分的方式为:将所述网络资源集合中的网络资源两两组成网络资源访问对;
对各用户拆分后产生的网络资源访问对进行聚类以汇集各用户的网络资源访问对,获得网络资源二维关系,建立起网络资源索引;所述网络资源二维关系表示网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页。
优选的,还包括:获得各网络资源对中两网络资源的相关度,以便根据所述相关度对所述网络资源进行排序。
优选的,通过以下方式获得各网络资源对中两网络资源的相关度:
将相同的网络资源对进行合并;根据网络资源对的合并次数,获得各网络资源对中两网络资源的相关度;
和/或,
根据网络资源对中两网络资源之间的间隔时间,获得各网络资源对中两网络资源的相关度;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
一种建立网络资源索引的系统,包括:
资源访问记录获得单元,用于获得用户访问网络资源的资源访问记录;
网络资源拆分单元,用于将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;所述资源访问记录中记录了用户访问过的网络资源集合,所述拆分的方式为:将所述网络资源集合中的网络资源两两组成网络资源访问对;
网络资源对汇集单元,用于对各用户拆分后产生的网络资源访问对进行聚类以汇集各用户的网络资源对,获得网络资源二维关系,建立起网络资源索引,所述网络资源二维关系表示网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页。
优选的,还包括:
网络资源相关度获得单元,用于获得各网络资源对中两网络资源的相关度,以便根据所述相关度对所述网络资源进行排序。
优选的,所述网络资源相关度获得单元包括:
第一网络资源相关度获得子单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,获得各网络资源对中两网络资源的相关度;
和/或,
第二网络资源相关度获得子单元,用于根据网络资源对中两网络资源之间的间隔时间,获得各网络资源对中两网络资源的相关度;
和/或,
第三网络资源相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
优选的,还包括:
第一网络资源相关度修正单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,对所述相关度进行修正;
和/或,
第二网络资源相关度修正单元,用于根据网络资源对中两网络资源之间的间隔时间,对所述相关度进行修正;
和/或,
第三网络资源相关度修正单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;
和/或,
第四网络资源相关度修正单元,通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;利用各用户的兴趣向量对所述相关度进行修正;所述兴趣向量用于描述用户对各类别的感兴趣程度。
一种网络信息推荐的方法,包括:
获得访问同一网络资源的用户记录;
将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;所述拆分的方式为:将所述各用户信息两两组成用户对;
对所述用户对进行聚类以汇集各个网络资源的用户对,建立用户二维关系,所述用户二维关系表示用户两两之间的关系,所述二维中的一维是用户,另一维也是用户;
当需要为用户进行推荐时,根据所述用户二维关系所体现的用户相关性推荐相关的用户信息。
优选的,所述根据所述用户二维关系推荐相关的用户信息包括:
根据所述用户二维关系推荐与当前访问的用户相关的用户信息。
优选的,所述根据所述用户二维关系推荐相关的用户信息包括:根据所述用户二维关系获得相关的用户集合,根据所述集合向用户推荐相关的用户信息;
所述方法还包括:获得各用户对中两用户的相关度,在所述根据所述用户二维关系获得相关的用户集合之后还包括:根据各用户对中两用户的相关度,对所述集合中的用户进行排序。
优选的,所述用户二维关系为核心索引,还包括:
根据辅助索引对所述集合中的用户进行排序。
一种网络信息推荐的系统,包括:
用户记录获得单元,用于获得访问同一网络资源的用户记录;
用户拆分单元,用于将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;所述拆分的方式为:将所述各用户信息两两组成用户对;
用户对汇集单元,用于对所述用户对进行聚类以汇集各个网络资源的用户对,获得用户二维关系,所述用户二维关系表示用户两两之间的关系,所述二维中的一维是用户,另一维也是用户;
用户信息推荐单元,用于当需要为用户进行推荐时,根据所述用户二维关系所体现的用户相关性推荐相关的用户信息。
优选的,所述用户信息推荐单元包括:
第一用户信息推荐子单元,用于根据所述用户二维关系推荐与当前访问的用户相关的用户信息。
优选的,所述用户信息推荐单元包括:用户信息集合生成子单元,用于根据所述用户二维关系获得相关的用户集合;第二用户信息推荐子单元,用于根据所述集合向用户推荐相关的用户信息;
或者,
所述系统还包括:用户相关度获得单元,用于获得各用户对中两用户的相关度;所述用户信息推荐单元还包括:第一用户排序子单元,用于根据各用户对中两用户的相关度,对所述集合中的用户进行排序。
优选的,所述用户二维关系为核心索引,所述用户信息推荐单元还包括:
第二用户排序子单元,用于根据辅助索引对所述集合中的用户进行排序。
一种建立用户索引的方法,包括:
获得访问同一网络资源的用户记录;
将所述用户记录中的各用户拆分为用户对,每一用户对包含所述用户记录中的两个用户;所述拆分的方式为:将所述各用户两两组成用户对;
对所述用户对进行聚类以汇集各个网络资源的用户对,获得用户二维关系,建立起用户索引,所述用户二维关系表示用户两两之间的关系,所述二维中的一维是用户,另一维也是用户。
优选的,还包括:
获得各用户对中两用户的相关度。
优选的,通过以下方式获得各用户对中两用户的相关度:
将相同的用户对进行合并;根据用户对的合并次数,为各个用户对进行评分,得到各用户对的相关度;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量获得各用户对中两用户的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度。
一种建立用户索引的系统,包括:
用户记录获得单元,用于获得访问同一网络资源的用户记录;
用户拆分单元,用于将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;所述拆分的方式为:将所述各用户信息两两组成用户对;
用户对汇集单元,用于对所述用户对进行聚类以汇集各个网络资源的用户对,获得用户二维关系,建立起用户索引,所述用户二维关系表示用户两两之间的关系,所述二维中的一维是用户,另一维也是用户。
优选的,还包括:
用户相关度获得单元,用于获得各用户对中两用户的相关度,以便根据所述相关度对用户进行排序。
优选的,所述用户相关度获得单元包括:
第一用户相关度获得子单元,用于将相同的用户对进行合并;根据用户对的合并次数,为各个用户对进行评分,得到各用户对的相关度;
和/或,
第二用户相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量获得各用户对中两用户的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将用户的访问序列拆分为网络资源对;获得用户访问网络资源的资源访问记录;将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;汇集各用户的网络资源对,获得网络资源二维关系;当需要为用户进行推荐时,根据所述网络资源二维关系为用户推荐相关的网络资源。由于可以基于所有用户的访问序列建立网络资源二维关系,而众多用户的访问行为通常可以遍及全网,因此,不会局限在特定数据集中,而是可以在全网范围内建立二维的网络资源索引,因此,可以便于在全网范围内进行相关检索。如果推荐系统中应用本发明实施例所建立的二维索引结构,则进行信息推荐时,可以在全网范围内向用户进行推荐,因此,能够扩大用户获得信息的范围,提高信息的利用率,降低了用户获得有用信息的难度。
另外,还可以通过生成网络资源的特征向量及用户的兴趣向量,来建立辅助索引,以便于优化检索结果,还可以对二维网络资源索引进行修正。
附图说明
图1是本发明实施例提供的建立网络信息索引方法的流程图;
图2是本发明实施例提供的网络信息推荐方法的流程图;
图3是本发明实施例提供的建立用户索引方法的流程图;
图4是本发明实施例提供的另一网络信息推荐方法的流程图;
图5是本发明实施例提供的网络信息推荐系统的示意图;
图6是本发明实施例提供的另一网络信息推荐系统的示意图;
图7是本发明实施例提供的建立网络信息索引系统的示意图;
图8是本发明实施例提供的建立用户索引系统的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一、为了扩大用户获得信息的范围,提高信息的利用率,在该实施例中,首先提供了一种建立网络资源索引的方法,参见图1,本发明实施例提供的建立网络资源索引的方法包括以下步骤:
S101:获得用户访问网络资源的资源访问记录;
其中,本发明实施例中提到的网络资源可以一个网页,也可以是网络中的一个视频、音频或图片等等,只要是互联网上能够展现给用户的信息,都属于本发明限定的网络资源范畴。所述网页就是通常在网页浏览器(IE等)中打开的网页,其内容可能包括视频、音频、图片、文字、flash等多种元素;同时,所述网络资源也可以是不依附于网页而独立存在的视频、音频、图片、文字、flash等。
首先需要说明的是,本发明实施例可以由浏览器的服务器来完成建立网络资源索引的过程。由于,用户通常是通过浏览器访问网络资源,因此,浏览器能够记录大多数用户的访问日志,包括用户通过浏览器浏览所有网络资源的URL、访问时间、停留时间等等。
S102:将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;
所述资源访问记录中记录了用户访问过的网络资源集合,将该集合中的网络资源两两组成网络资源对即可。
由于用户在访问网络资源时,会有一定的时序关系,浏览器能够记录这种时序关系(根据访问时间),因此可以产生访问序列,该访问序列中的各网络资源不一定具有链接关系,但都体现着用户的兴趣,彼此之间通过用户的兴趣产生联系,因此,在本发明实施例中,所述资源访问记录可以是资源访问序列,拆分网络资源对时,可以依据资源访问序列进行拆分。例如,用户A依次访问了网络资源1、网络资源2、网络资源3、网络资源4,则可以将该用户的访问序列拆分为<网络资源1,网络资源2>、<网络资源2,网络资源3>、<网络资源1,网络资源3>、<网络资源2,网络资源4>等等。当然,在根据资源访问序列进行拆分时,不一定是序列中的每两个网络资源都拆分成网络资源对,例如,如果两个网络资源之间的时间间隔很长,则可以认为其不具有明显的相关性,因此可以把这种网络资源对过滤掉。
需要说明的是,资源访问记录中的各网络资源不一定具有链接关系是指,用户不一定是在访问网络资源1(比如是网页A)时,通过在网页A中点击某链接的方式来访问网络资源2,而是可以各种访问方式都可以。例如,用户可以首先访问网络资源1,然后在地址栏中输入网络资源2的URL,来访问网络资源2;或者,首先访问网络资源1,然后新建标签页来访问网络资源2等等。也就是说,在本发明实施例中,用户所有的访问行为都会被记录下来,用于建立索引结构。
当然,也可以根据实际情况需要,将用于建立网络资源索引的访问序列限定为内部各网络资源具有链接关系的访问序列。换而言之,就是只收集那些内部各网络资源之间具有链接关系的访问序列,利用这些访问序列建立网络资源索引。
S103:汇集各用户的网络资源对,获得网络资源二维关系,建立起网络资源索引。
可以按照用户的ID将各用户拆分后产生的网络资源对进行聚类,聚类的目的就是将所有用户的网络资源对汇集在一起,可选的,还将相同的网络资源对进行合并。例如,用户A和用户B的访问序列拆分后都包括<网络资源1,网络资源2>,则可以合并,这样,不会出现重复的网络资源对。
其中,所述网络资源二维关系就是指网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页,因此,相当于建立了网络资源相关矩阵,通过该矩阵来记录网络资源的相关性。同时,通过该网络资源二维关系就可以建立起网络资源索引。
按照实施例一的方法建立网络资源二维关系时,两个网络资源之间的相关性是非有即无的关系,因此,在矩阵中,可以用“1”表示两个网络资源之间具有相关性,用“0”表示两个网络资源之间不相关。如果在推荐系统中使用该网络资源二维关系,则推荐的各网络资源之间将是无差别的。
但实际上不同的网络资源之间的相关性有强弱之分,因此,还可以对网络资源二维关系中的各网络资源对进行评分,获得网络资源对中两网络资源之间的相关度,这样,在推荐系统中应用该二维关系时,就可以根据网络资源对中两网络资源之间的相关度进行排序,将分数高的进行优先推荐。
具体在获得网络资源对中两网络资源之间的相关度时,可以有多种方法,下面分别进行介绍:
方法1:以网络资源对的合并次数为依据获得网络资源对中两网络资源之间的相关度。即可以将相同的网络资源对进行合并,然后根据网络资源对的合并次数,为各个网络资源对进行评分,得到各网络资源对中两网络资源的相关度。具体而言,可以网络资源对进行汇集的过程中,将相同的网络资源对进行合并,记录合并网络资源对的次数,发生合并的次数越多,则证明该网络资源对之间的相关性就越大。
例如,在网络资源二维关系中,网络资源1分别与网络资源2和网络资源3相关,有100个用户的访问序列中拆分出了<网络资源1,网络资源2>,有10个用户的访问序列中拆分出了<网络资源1,网络资源3>,则<网络资源1,网络资源2>的分数将比<网络资源1,网络资源3>的分数高,当某用户正在访问网络资源1时,如果需要向用户推荐其他的网络资源,则可以优先推荐网络资源2,或者将网络资源2排在网络资源3之前推荐给用户。
方法2:可以根据网络资源对中两网络资源之间的间隔时间,为各个网络资源对进行评分,得到各网络资源对中两网络资源的相关度。由于访问日志中能够记录访问时间信息,因此,同一用户的访问记录中的各网络资源两两之间的间隔时间是可以获知的,由此也可以获知网络资源对中两网络资源之间的间隔时间。如果多个用户的资源访问记录中都拆分出了同样的网络资源对,则可以取时间间隔的平均值,然后据此确定各网络资源对的相关度。
方法3:通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。该方法主要从网页的内容角度,建立网络资源之间的相关度。关于网络资源特征向量,后文中会有更加详细的描述。
当然,也可以将上述各种方法相结合,考虑多方面因素来获得网络资源之间的相关度,这样便于提高相关度的有效性及准确性。
此外,在获得到网络资源对中两网络资源之间的相关度之后,还可以对该相关度进行修正。具体进行修正时,可以采用以下方法:
方法4:将相同的网络资源对进行合并;根据网络资源对的合并次数,对所述相关度进行修正;
方法5:根据网络资源对中两网络资源之间的间隔时间,对所述相关度进行修正;
方法6:通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;
方法7:通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;利用各用户的兴趣向量对所述相关度进行修正;所述兴趣向量用于描述用户对各类别的感兴趣程度。
上述获得相关度的方法可以与修正方法配合使用,保证获得相关度与修正相关度使用的参数不同即可,例如,如果使用方法1获得相关度,则可以利用方法5和/或方法6对相关度进行修正;如果使用方法2获得相关度,则可以利用方法4和/或方法6对相关度进行修正;如果使用方法1和方法2获得相关度,则可以使用方法6对相关度进行修正,等等。关于使用网络资源特征向量进行修正的具体方法,后文会有详细地介绍。
此外,在对相关度进行修正时,还可以考虑用户的因素。具体的,可以根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;利用各用户的兴趣向量对所述相关度进行修正;所述兴趣向量用于描述用户对各类别的感兴趣程度。使用上述任意种方法获得相关度时,都可以使用用户的兴趣向量对相关度进行修正。关于用户的兴趣向量及其修正方法,后文中会有更加详细的描述。
实施例二、当需要检索与某网络资源相关的网络资源时,利用实施例一建立的网络资源二维关系中进行查找即可。例如,在推荐系统中,本发明实施例二还提供了一种网络信息推荐的方法,参见图2,该方法包括:
S201:获得用户访问网络资源的资源访问记录;
S202:将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;
S203:汇集各用户的网络资源对,获得网络资源二维关系;
S204:当需要为用户进行推荐时,根据所述网络资源二维关系为用户推荐相关的网络资源。
例如,假设当前用户正在访问网络资源1,此时,就可以在网络资源二维关系中查找,假设发现网络资源1分别与网络资源2和网络资源3相关,则可以将网络资源2和网络资源3推荐给该用户。
其中,所述相关的网络资源可以是:与用户当前访问的网络资源相关的网络资源。具体在根据所述网络资源二维关系推荐与当前访问的网络资源相关的网络资源时,可以首先根据所述网络资源二维关系获得与当前访问的网络资源相关的网络资源集合,根据所述集合向用户推荐相关的网络资源。
如果建立的网络资源二维关系中,包括各网络资源对中两网络资源的相关度信息,则在在所述根据所述网络资源二维关系获得相关的网络资源集合之后,还可以根据各网络资源对中两网络资源的相关度,对所述集合中的网络资源进行排序。具体获取所述相关度的方法可以参见实施例一中的具体描述。
可见,在本发明实施例中,假设了访问序列中网络资源之间的传递性,如果两个网络资源出现在同一用户的访问序列中,则意味着这两个网络资源具有某种程度上的相关性,由此,建立起网络资源二维关系,用于对网络资源进行检索。由于可以基于所有用户的访问序列建立网络资源二维关系,而众多用户的访问行为通常可以遍及全网,因此,不会局限在特定数据集中,而是可以在全网范围内建立二维的网络资源索引,因此,可以便于在全网范围内进行相关检索,有利于扩大用户获得信息的范围,提高信息的利用率。
需要说明的是,由于随着用户访问行为的发生,用户的访问历史是实时更新的,因此,上述建立网络资源索引的过程可以实时进行的,当然也可以是定期更新。
另外需要说明的是,用户可能会由于误操作等原因访问了广告导航页,但是在用户的访问日志中,仍然会记载该广告导航页,而本发明实施例是根据用户的访问日志获得网络资源对的,因此,该广告导航页页会出现在网络资源对中,进行推荐时,可能会将该广告导航页推荐给用户,但是实际上这种网络资源通常是不应该向用户推荐的。因此,为了避免这种情况的出现,在本发明实施例中,还可以对网络资源对进行过滤,过滤掉无效的网络资源对,这些无效的网络资源对包括包含有广告导航页的网络资源对。
此外,所述无效的网络资源对还可以包括内容不相关的网络资源对,以及访问时间间隔超过预置阈值的网络资源对,等等。
其中,为了便于进行网络资源对的过滤,可以根据在拆分访问序列获得网络资源对时,将网络资源的一些信息作为网络资源对的属性进行保存。这些信息包括访问时间、停留时间等等。这样,由于如果用户不小心打开了广告导航页,则通常在该网页上的停留时间会非常短,因此,根据停留时间可以判断是否为广告导航页,当然还可以根据经验建立广告导航页的黑名单,根据黑名单对广告导航页进行过滤。同时,还可以根据各网络资源的访问时间,来计算网络资源之间的访问时间间隔。
由于矩阵通过使用二维数组表示,二维数组的大小与使用的存储器空间成正比,如果多数的元素没有数据,则会造成存储器空间的浪费,为此,可以设计稀疏矩阵的阵列储存方式,利用较少的存储器空间储存完整的矩阵数据。即,假设二维数组Amn中有N个非零元素,若N<<m*n,则称A为稀疏矩阵。
在本发明实施例中,由于互联网中网络资源的数目非常庞大,每个用户的访问序列仅是其中非常小的一部分,具有相关性的网络资源相对于所有的网络资源也是非常小的,因此,也可以采用稀疏矩阵的方式存储网络资源对,以节省存储空间。
由以上所述可见,本发明实施例建立了网络资源的二维索引结构,通过该索引结构能够在全网范围内进行网络资源的推荐。
以上所述建立了网络资源的二维索引结构,为了更好地实现网络资源的索引,本发明实施例可以将上述二维索引结构作为核心索引,并同时建立网络资源的辅助索引,根据辅助索引对所述集合中的网络资源进行排序。具体建立辅助索引的方法可以有多种,下面分别进行详细地描述。
(一)可以通过生成网络资源的特征向量建立辅助索引,具体的,可以通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;分别将各所述相关网络资源的特征向量与用户当前访问的网络资源的特征向量进行内积计算,并根据内积计算的结果对各网络资源进行排序。
也就是说,在建立起网络资源的二维索引结构的基础上,还可以针对网络资源自身的特性建立一维索引,这样,就可以在针对二维索引给出检索结果之后,再利用一维索引进行筛选、过滤、排序等,以便优化检索结果。
为了生成网络资源的特征向量,首先可以对网络知识进行分类,例如可以分为体育类、财经类等等,然后计算每个网络资源属于某个类别的置信度,为各网络资源生成网络资源特征向量,即,网络资源特征向量用于描述网络资源属于各类别的置信度。一个网络资源的特征向量可以是一个N维的数组,N表示总的分类数目,数组的每一维对应着该网络资源属于一个分类的置信度。例如,向量空间为<新闻类,体育类,财经类......>,则某网络资源的特征向量可以为<0.85,0.1,0.05......>,这就代表该网络资源属于新闻类的置信度为0.85,属于体育类的置信度为0.1,属于财经类的置信度为0.05,等等。
实际应用中,对网络知识的分类可能会很细,例如,可能并不会笼统地分为体育类、新闻类等,而是分为NBA、足球、体彩等等,这就使得特征向量的维度非常大,如果对于每一个网络资源,都分别计算属于各个类别的置信度,则工作量会非常大,对于系统的计算及存储性能都有较高的要求。
因此,为了便于生成网络资源的特征向量,在本发明实施例中,可以首先将网络知识分成一定数目(例如40个)的大类,再将每个大类进行细分,称为一定数目(例如400个)的小类,这样,就相当于将网络知识分成了40个一级分类,400个二级分类,在生成网络资源特征向量时,可以首先计算网络资源属于各一级分类的置信度,如果在某一级分类下的置信度较高,则分别计算属于该一级分类下各二级分类的置信度;否则,如果在某一级分类下的置信度非常低甚至为0,则不再计算属于该一级分类下各二级分类的置信度,这样可以大大降低计算的工作量。
需要说明的是,本领域技术人员可以采用现有贝叶斯的方法计算网络资源在某类别下的置信度,这里不再赘述。
生成网络资源的特征向量之后,可以有助于进行优化检索结果。例如,当推荐网页时,可以首先使用所述二维索引结构检索出与当前网页相关的所有网页,然后再利用网页的特征向量对网页进行排序,这样就可以相关度更高的网页排在更加靠前的位置推荐给用户。具体的,可以首先从数据库中取出用户当前浏览的网页的特征向量,以及与该网页相关的各网页的特征向量,然后用所述与该网页相关的各网页的特征向量分别于当前浏览的网页的特征向量做内积,所得的值越大,则证明网页的相关度越高。
当然,在获得到网络资源相关度的情况下,也可以首先使用所述二维索引结构检索出与当前网页相关的所有网页,利用网页对中两网页的相关度进行排序,然后再利用网页的特征向量对网页进行重新排序。
此外,生成的网络资源的特征向量也可以用于修正已经建立的二维索引结构,即可以结合各网络资源的特征向量及网络资源对的合并次数,为各个网络资源对进行评分,得到各网络资源对的相关度。因为网络资源对之间的相关度不仅与同时被用户访问的次数有关,还与网络资源自身的特征有关。因此,可以在根据同时被用户访问的次数计算网络资源对置信度时,用两个网络资源的特征向量做内积,用所得结果作为置信度的权重,如果所得结果非常低或者为0,则可以将该网络资源对视为无效而过滤掉。
下面对特征向量的内积进行简单的介绍。假设有特征向量<a1,a2,a3>和<b1,b2,b3>,则这两个特征向量内积为a1*b1+a2*b2+a3*b3,所得结果为一个标量,该标量值越大,则证明两个特征向量的相关度越高;体现在实际应用中,如果两个网络资源的特征向量做内积的值很大,则如果用户对其中一个网络资源感兴趣,则对另一个网络资源也敢兴趣的概率较高。
(二)可以将用户的因素考虑进来,统计用户的行为特征,生成用户的兴趣向量,将用户的兴趣向量也作为一种辅助索引,以便于实现个性化检索,从符合用户个性化需求角度优化检索结果。
具体而言,可以在生成了所述网络资源特征向量的基础上,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;所述兴趣向量用于描述用户对各类别的感兴趣程度;分别将各所述相关网络资源的特征向量与该用户的兴趣向量进行内积计算,并根据内积计算的结果对各网络资源进行排序。
在生成用户的兴趣向量时,可以利用(一)中计算得到的网络资源的特征向量。具体的,可以统计用户的访问历史,利用贝叶斯方法计算用户最可能访问的网络资源,然后将这些网络资源的特征向量合并,即可将合并后的结果作为该用户的兴趣向量。
例如,假设计算出用户最可能访问的网络资源包括网络资源1和网络资源2,其中网络资源1的特征向量为<a1,a2,a3>,网络资源2的特征向量为<b1,b2,b3>,则将特征向量<a1,a2,a3>和<b1,b2,b3>合并,就可以得到该用户的兴趣向量。其中,具体在合并时,可以直接采用向量相加的方式,或者根据用户的感兴趣程度为各网络资源赋予权重,然后根据权重将特征向量相加,得到用户的兴趣向量。
需要说明的是,由于用户的兴趣向量是由网络资源的特征向量合并而成的,因此,用户的兴趣向量与网络资源的特征向量具有相同的向量空间,因此,可以方便所述兴趣向量与特征向量之间进行内积运算。
生成用户的兴趣向量之后,可以有助于进行优化检索结果。例如,当推荐网页时,可以首先使用所述二维索引结构检索出与当前网页相关的所有网页,此时,对所有用户推荐的结果都是相同的。例如,用户A和用户B都在浏览网页1,则向用户A和用户B推荐的都是与网页1相关的网络资源,展现给用户的推荐结果是相同的。此时就可以使用用户的兴趣向量,针对不同的用户对推荐结果进行重新排序,实现对不同用户的个性化推荐。
具体的,当向用户进行网页推荐时,还需要与网页的特征向量相结合,可以包括以下步骤:
步骤1:从二维索引结构中找出与当前网页相关的相关网页集;
步骤2:获得相关网页集中各网页的特征向量以及用户的兴趣向量;具体在获得网页的特征向量及用户的兴趣向量时,可以是从预先生成的数据库中查询得到,也可以在线计算得到;
步骤3:将相关网页集中各网页的特征向量分别与用户的兴趣向量进行内积计算,所得结果越高,则证明网页与用户兴趣的相关度越高;
步骤4:利用所得结果,对相关网页集中的各网页进行排序,生成展现结果。
当然,在获得到网络资源相关度的情况下,也可以首先使用所述二维索引结构检索出与当前网页相关的所有网页,利用网页对中两网页的相关度进行排序,然后再利用用户的兴趣向量对网页进行重新排序。
这样,利用用户的兴趣向量及网络资源的特征向量,就可以实现针对不同用户的个性化推荐。例如,三个用户都在浏览某条关于巴西足球的消息,分别为足球教练、球迷及商家,则这三个用户对这条消息的关注点可能是不同的,因此向这三个用户推荐的网络资源也应有所不同。这样,利用用户的兴趣向量,推荐的结果就会具有个性化的特征。例如,向教练推荐时,某对该赛事进行分析的网页链接会排在靠前的位置;向球迷推荐时,会更多地推荐其他赛事的链接;而对于商家,可能会将关于商机的网络资源推荐给该用户。
需要说明的是,由于二维索引结构中的网络资源对是从用户的访问序列中拆分出来的,以此作为网络资源对中的两个网络资源具有一定的相关性的依据,但是从不同用户的访问序列中拆分出来的网页资源对,对网络资源相关性的贡献可能是不同的。因此,用户的因素也可能会影响到二维索引结构的建立。例如,用户A的访问序列中拆分出了<网络资源1,网络资源2>,并且用户对该网络资源1及网络资源2都感兴趣;而用户B的访问序列中也拆分出了<网络资源1,网络资源2>,但是其中的网络资源1与用户兴趣的相关度非常低;此时,用户A和用户B的访问序列中都拆分出了<网络资源1,网络资源2>,但是用户A的置信度可能高于用户2的置信度。
为此,与网络资源的特征向量类似,用户的兴趣向量也可以用于修正二维索引结构,即,可以结合各用户的兴趣向量及网络资源对的合并次数,为各个网络资源对进行评分,得到各网络资源对的相关度。
具体在利用用户的兴趣向量对相关度进行修正时,可以首先将网络资源对中的两个网络资源的特征向量相加,然后再将相加后得到的特征向量与用户的兴趣向量做内积,再根据内积所得的结果为各用户赋予相应的权重,根据用户在该网络资源对下的权重进行合并。这样,相当于使得各用户对网络资源相关性的贡献是不同的。通俗地讲,用户A的访问序列中如果拆分出了<网络资源1,网络资源2>,则相当于用户A为该网络资源对投了票;在不利用用户的兴趣向量进行修正的情况下,则直接记录为用户A为该网络资源对投票一次,其他用户也是同样,每拆分出一次,都相当于投票一次。而如果利用用户的兴趣向量进行修正,则用户拆分出一次该网络资源对时,则不一定会被记为一票,可能是多于或少于一票。
也可以直接利用用户的兴趣向量来获得网络资源之间的相关度,具体的,同样可以首先将网络资源对中的两个网络资源的特征向量相加,再将相加后得到的特征向量与用户的兴趣向量做内积,然后可以直接将该内积的结果作为所述相关度。
此外,生成二维索引结构时,还可以首先将用户的兴趣向量与访问序列中各网络资源的特征向量进行内积,将所得结果非常低的网络资源赋予较低的权重,计算网络资源对的相关度时将该权重作为一个因素进行计算;另外,还可以直接将结果为0的网络资源其从访问序列中删除。
上述各实施例介绍了如何建立网络资源的索引结构,在实际应用中,由于需要在全网范围内进行计算,因此存储量及运算量都非常大。为了解决该问题,本发明实施例可以采用集群的方法来实现。
具体的,可以将系统分为以下几个集群:
索引集群:负责存储索引信息,计算检索结果,定期的网络资源对生成计算;
Cache集群:负责结果收集计算,再排序计算,网络资源显示计算及缓存;
增量加载集群:用于实时处理用户的访问请求,对新增的访问序列进行网络资源对生成计算,插入索引集群;
网页存储集群:用于存储doc信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:获得用户访问网络资源的资源访问记录;将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;汇集各用户的网络资源对,获得网络资源二维关系;当需要为用户进行推荐时,根据所述网络资源二维关系为用户推荐相关的网络资源。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
实施例三、前文所述建立了网络资源的二维索引结构,因此,可以利用该二维索引结构向用户推荐网络资源。在本发明的实施例三中,还可以建立用户之间的二维索引结构,并利用该索引结构向用户推荐其他的相关用户,这样,可以方便用户交友、扩展圈子等。
参见图3,本发明实施例提供的建立用户索引的方法包括以下步骤:
S301:获得访问同一网络资源的用户记录;
S302:将所述用户记录中的各用户拆分为用户对,每一用户对包含所述用户记录中的两个用户;
S303:汇集各个网络资源的用户对,获得用户二维关系,建立起用户索引。
相应的,本发明实施例还提供了另一种网络信息推荐的方法,参见图4,该方法包括以下步骤:
S401:获得访问同一网络资源的用户记录;
S402:将所述用户记录中的各用户拆分为用户对,每一用户对包含所述用户记录中的两个用户;
S403:汇集各个网络资源的用户对,获得用户二维关系。
S404:当需要为用户进行推荐时,根据所述用户二维关系推荐相关的用户信息。
例如,假设用户A正在浏览用户B发表在博客上的文章,则证明用户A可能对于用户B相关的其他用户感兴趣,此时就可以根据用户二维关系,向用户A推荐与用户B相关的其他用户。
其中,所述相关的用户信息可以是与当前用户相关的用户信息,或者与当前被访问的用户相关的用户信息。具体在根据所述用户二维关系推荐与当前访问的用户相关的用户信息时,可以首先根据所述用户二维关系获得与当前访问的用户相关的用户集合,然后根据所述集合向用户推荐相关的用户信息。
与实施例一相似,该实施例中,也可以获得各用户对中两用户的相关度,所述根据所述用户二维关系获得与当前访问的用户相关的用户集合之后,还可以根据各用户对中两用户的相关度,对所述集合中的用户进行排序。
具体的获得用户对中两用户的相关度的方法可以包括:
将相同的用户对进行合并;根据用户对的合并次数,为各个用户对进行评分,得到各用户对的相关度;
或者,通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量获得各用户对中两用户的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度。
当然,也可以将上述方法向结合,综合考虑多方面因素,获得用户对中两用户的相关度。
在获得到所述相关度之后,还可以对相关度进行修正。具体的修正方法可以是将相同的用户对进行合并;根据用户对的合并次数,对所述相关度进行修正;或者,利用用户的兴趣向量进行修正。获得相关度的方法与修正的方法可以任意组合,但是要保证获得相关度与修正相关度的方法使用的参数不同。例如,可以先利用合并次数获得相关度,再用用户的兴趣向量对相关度进行修正,等等。
此外,还可以利用各网络资源的特征向量对所述相关度进行修正。该修正方法可以与前述任意种获得相关度的方法配合使用。
另外,同样可以将用户二维关系作为核心索引,然后利用辅助索引对推荐结果进行排序、筛选等。例如,可以所述根据各用户对中两用户的相关度,对所述集合中的用户进行排序之后,根据辅助索引对所述集合中的用户进行重新排序。也可以在获得到所述集合之后,直接利用辅助索引对集合中的用户进行排序。
具体的,可以分别将各所述相关用户的兴趣向量与当前用户的兴趣向量进行内积计算,并根据内积计算的结果对各用户进行排序或重新排序。
该实施例的细节部分可以参见实施例一、二,由于篇幅限制,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:获得访问同一网络资源的用户记录;将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;汇集各个网络资源的用户对,建立用户二维关系;当需要为用户进行推荐时,根据所述用户二维关系推荐相关的用户信息。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
与本发明实施例提供的第一种网络信息推荐的方法相对应,本发明实施例还提供了一种网络信息推荐的系统,参见图5,该系统包括:
资源访问记录获得单元U501,用于获得用户访问网络资源的资源访问记录;
网络资源拆分单元U502,用于将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;
网络资源对汇集单元U503,用于汇集各用户的网络资源对,获得网络资源二维关系;
网络资源推荐单元U504,用于当需要为用户进行推荐时,根据所述网络资源二维关系为用户推荐相关的网络资源。
其中,网络资源推荐单元U504包括:
第一网络资源推荐子单元,用于根据所述网络资源二维关系为用户推荐与当前访问的网络资源相关的网络资源。
具体的,网络资源推荐单元U504包括:
网络资源集合获得子单元,用于根据所述网络资源二维关系获得与当前访问的网络资源相关的网络资源集合;
第二网络资源推荐子单元,用于根据所述集合向用户推荐网络资源。
为了对推荐结果进行排序,该系统还可以包括:
网络资源相关度获得单元,用于获得各网络资源对中两网络资源的相关度;
此时,网络资源推荐单元U504还包括:
第一排序子单元,用于根据所述网络资源二维关系获得与当前访问的网络资源相关的网络资源集合之后,根据各网络资源对中两网络资源的相关度,对所述集合中的网络资源进行排序。
其中,所述网络资源相关度获得单元包括:
第一网络资源相关度获得子单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,为各个网络资源对进行评分,得到各网络资源对中两网络资源的相关度;
和/或,
第二网络资源相关度获得子单元,用于根据网络资源对中两网络资源之间的间隔时间,为各个网络资源对进行评分,得到各网络资源对中两网络资源的相关度;
和/或,
第三网络资源相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
获得到相关度之后,还可以对相关度进行修正,此时,该系统还包括:
第一网络资源相关度修正单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,对所述相关度进行修正;
和/或,
第二网络资源相关度修正单元,用于根据网络资源对中两网络资源之间的间隔时间,对所述相关度进行修正;
和/或,
第三网络资源相关度修正单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;
和/或,
第四网络资源相关度修正单元,通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;利用各用户的兴趣向量对所述相关度进行修正;所述兴趣向量用于描述用户对各类别的感兴趣程度。
具体在进行推荐时,还可以将所述网络资源二维关系为核心索引,此时,网络资源推荐单元U504还包括:
第二排序子单元,用于根据辅助索引对所述集合中的网络资源进行排序。第二排序子单元可以在根据所述网络资源二维关系获得与当前访问的网络资源相关的网络资源集合之后进行排序,也可以在根据各网络资源对中两网络资源的相关度,对所述集合中的网络资源进行排序之后,进行重新排序。
其中,所述第二排序子单元包括:
特征向量生成子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;
第一计算子单元,用于分别将各所述相关网络资源的特征向量与用户当前访问的网络资源的特征向量进行内积计算,并根据内积计算的结果对各网络资源进行排序。
或者,所述第二排序子单元也可以包括:
兴趣向量生成子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;所述兴趣向量用于描述用户对各类别的感兴趣程度;
第二计算子单元,用于分别将各所述相关网络资源的特征向量与该用户的兴趣向量进行内积计算,并根据内积计算的结果对各网络资源进行排序。
此外,该系统还可以包括:
过滤单元,用于过滤掉无效的网络资源对,所述无效的网络资源对包括:内容不相关的网络资源对、访问时间间隔超过预置阈值的网络资源对或者包含有广告导航页的网络资源对。
与本发明实施例提供的第二种网络信息推荐的方法相对应,本发明实施例还提供了另一种网络信息推荐的系统,参见图6,该系统包括:
用户记录获得单元U601,用于获得访问同一网络资源的用户记录;
用户拆分单元U602,用于将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;
用户对汇集单元U603,用于汇集各个网络资源的用户对,获得用户二维关系;
用户信息推荐单元U604,用于当需要为用户进行推荐时,根据所述用户二维关系推荐相关的用户信息。
其中,用户信息推荐单元U604包括:
第一用户信息推荐子单元,用于根据所述用户二维关系推荐与当前访问的用户相关的用户信息。
具体的,所述用户信息推荐单元U604包括:
用户信息集合生成子单元,用于根据所述用户二维关系获得相关的用户集合;
第二用户信息推荐子单元,用于根据所述集合向用户推荐相关的用户信息。
为了在推荐时能够对用户信息进行排序,该系统还可以包括:
用户相关度获得单元,用于获得各用户对中两用户的相关度;
所述用户信息推荐单元还包括:
第一用户排序子单元,用于根据各用户对中两用户的相关度,对所述集合中的用户进行排序。
其中,所述用户相关度获得单元包括:
第一用户相关度获得子单元,用于将相同的用户对进行合并;根据用户对的合并次数,为各个用户对进行评分,得到各用户对的相关度;
和/或,
第二用户相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量获得各用户对中两用户的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度。
获得到相关度之后还可以对相关度进行修正,该系统还包括:
第一用户相关度修正单元,用于将相同的用户对进行合并;根据用户对的合并次数,对所述相关度进行修正;
和/或,
第二用户相关度修正单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度;
和/或,
第三用户相关度修正单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
此外,还可以讲所述用户二维关系为核心索引,此时,用户信息推荐U604单元还包括:
第二用户排序子单元,用于根据辅助索引对所述集合中的用户进行排序。
其中,所述第二用户排序子单元包括:
兴趣向量生成子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;所述兴趣向量用于描述用户对各类别的感兴趣程度;
内积计算子单元,用于分别将各所述相关用户的兴趣向量与当前用户的兴趣向量进行内积计算,并根据内积计算的结果对各用户进行排序。
与本发明实施例提供的建立网络资源索引的方法相对应,本发明实施例还提供了一种建立网络资源索引的系统,参见图7,该系统包括:
资源访问记录获得单元U701,用于获得用户访问网络资源的资源访问记录;
网络资源拆分单元U702,用于将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;
网络资源对汇集单元U703,用于汇集各用户的网络资源对,获得网络资源二维关系,建立起网络资源索引。
其中,该系统还可以包括:
网络资源相关度获得单元,用于获得各网络资源对中两网络资源的相关度,以便根据所述相关度对所述网络资源进行排序。
具体的,所述网络资源相关度获得单元包括:
第一网络资源相关度获得子单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,为各个网络资源对进行评分,得到各网络资源对中两网络资源的相关度;
和/或,
第二网络资源相关度获得子单元,用于根据网络资源对中两网络资源之间的间隔时间,为各个网络资源对进行评分,得到各网络资源对中两网络资源的相关度;
和/或,
第三网络资源相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
获得到相关度之后还可以进行修正,此时,该系统还包括:
第一网络资源相关度修正单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,对所述相关度进行修正;
和/或,
第二网络资源相关度修正单元,用于根据网络资源对中两网络资源之间的间隔时间,对所述相关度进行修正;
和/或,
第三网络资源相关度修正单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;
和/或,
第四网络资源相关度修正单元,通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;利用各用户的兴趣向量对所述相关度进行修正;所述兴趣向量用于描述用户对各类别的感兴趣程度。
与本发明实施例提供的建立用户索引的方法相对应,本发明实施例还提供了一种建立用户索引的系统,参见图8,该系统包括:
用户记录获得单元U801,用于获得访问同一网络资源的用户记录;
用户拆分单元U802,用于将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;
用户对汇集单元U803,用于汇集各个网络资源的用户对,获得用户二维关系,建立起用户索引。
该系统还包括:
用户相关度获得单元,用于获得各用户对中两用户的相关度,以便根据所述相关度对用户进行排序。
具体的,所述用户相关度获得单元包括:
第一用户相关度获得子单元,用于将相同的用户对进行合并;根据用户对的合并次数,为各个用户对进行评分,得到各用户对的相关度;
和/或,
第二用户相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量获得各用户对中两用户的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度。
获得到相关度之后还可以进行修正,此时,该系统还包括:
第一用户相关度修正单元,用于将相同的用户对进行合并;根据用户对的合并次数,对所述相关度进行修正;
和/或,
第二用户相关度修正单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度;
和/或,
第三用户相关度修正单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
本发明中所描述的系统、装置和方法适用于各种网络或客户端环境中,其例如可以实现在诸如个人计算机设备之类的计算机设备中,或者可以实现在诸如移动电话、移动通信设备、个人数字助理(PDA)等其他电子设备中。
以上对本发明所提供的网络信息推荐、建立网络资源索引方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (38)
1.一种网络信息推荐的方法,其特征在于,包括:
获得用户访问网络资源的资源访问记录;
将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;所述资源访问记录中记录了用户访问过的网络资源集合,所述拆分的方式为:将所述网络资源集合中的网络资源两两组成网络资源访问对;
对各用户拆分后产生的网络资源访问对进行聚类以汇集各用户的网络资源访问对,获得网络资源二维关系,所述网络资源二维关系表示网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页,所述网络资源二维关系为网络资源两两之间的相关性或相关度,所述相关性是非有即无的关系,所述相关度为不同的网络资源之间的相关性的强弱;
当需要为用户进行推荐时,根据所述网络资源二维关系所体现的网络资源相关性或相关度为用户推荐相关的网络资源。
2.根据权利要求1所述的方法,其特征在于,所述根据所述网络资源二维关系所体现的网络资源相关性或相关度为用户推荐相关的网络资源包括:
根据所述网络资源二维关系所体现的网络资源相关性或相关度为用户推荐与当前访问的网络资源相关的网络资源。
3.根据权利要求1所述的方法,其特征在于,所述根据所述网络资源二维关系所体现的网络资源相关性或相关度为用户推荐相关的网络资源包括:
根据所述网络资源二维关系所体现的网络资源相关性或相关度获得相关的网络资源集合,根据所述网络资源集合向用户推荐网络资源。
4.根据权利要求3所述的方法,其特征在于,还包括:获得各网络资源对中两网络资源之间的相关度;在所述根据所述网络资源二维关系所体现的网络资源相关性或相关度获得相关的网络资源集合之后还包括:
根据各网络资源对中两网络资源之间的相关度,对所述集合中的网络资源进行排序。
5.根据权利要求4所述的方法,其特征在于,通过以下方式获得各网络资源对中两网络资源之间的相关度:
将相同的网络资源对进行合并;根据网络资源对的合并次数,获得各网络资源对中两网络资源之间的相关度;
和/或,
根据网络资源对中两网络资源之间的访问间隔时间,获得各网络资源对中两网络资源之间的相关度;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源之间的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
6.根据权利要求4所述的方法,其特征在于,还包括,通过以下方式对所述相关度进行修正:
将相同的网络资源对进行合并;根据网络资源对的合并次数,对所述相关度进行修正;
和/或,
根据网络资源对中两网络资源之间的访问间隔时间,对所述相关度进行修正;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;利用各用户的兴趣向量对所述相关度进行修正;所述兴趣向量用于描述用户对各类别的感兴趣程度。
7.根据权利要求3或4所述的方法,其特征在于,所述网络资源二维关系为核心索引,还包括:
根据辅助索引对所述集合中的网络资源进行排序,所述辅助索引包括网络资源的特征向量或用户的兴趣向量,其中,网络资源的特征向量通过如下方式获得:通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述所述网络资源属于各类别的置信度;所述用户的兴趣向量通过如下方式获得:根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量。
8.根据权利要求7所述的方法,其特征在于,所述根据辅助索引对所述集合中的网络资源进行排序包括:
通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;分别将各所述相关网络资源的特征向量与用户当前访问的网络资源的特征向量进行内积计算,并根据内积计算的结果对各网络资源进行排序;
或者,
通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;所述兴趣向量用于描述用户对各类别的感兴趣程度;分别将各所述相关网络资源的特征向量与该用户的兴趣向量进行内积计算,并根据内积计算的结果对各网络资源进行排序。
9.根据权利要求1至6、8任一项所述的方法,其特征在于,所述资源访问记录为资源访问序列。
10.一种网络信息推荐的系统,其特征在于,包括:
资源访问记录获得单元,用于获得用户访问网络资源的资源访问记录;
网络资源拆分单元,用于将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;所述资源访问记录中记录了用户访问过的网络资源集合,所述拆分的方式为:将所述网络资源集合中的网络资源两两组成网络资源访问对;
网络资源对汇集单元,用于对各用户拆分后产生的网络资源访问对进行聚类以汇集各用户的网络资源访问对,获得网络资源二维关系,所述网络资源二维关系表示网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页,所述网络资源二维关系为网络资源两两之间的相关性或相关度,所述相关性是非有即无的关系,所述相关度为不同的网络资源之间的相关性的强弱;
网络资源推荐单元,用于当需要为用户进行推荐时,根据所述网络资源二维关系所体现的网络资源相关性或相关度为用户推荐相关的网络资源。
11.根据权利要求10所述的系统,其特征在于,所述网络资源推荐单元包括:
第一网络资源推荐子单元,用于根据所述网络资源二维关系所体现的网络资源相关性或相关度为用户推荐与当前访问的网络资源相关的网络资源。
12.根据权利要求10所述的系统,其特征在于,所述网络资源推荐单元包括:
网络资源集合获得子单元,用于根据所述网络资源二维关系所体现的网络资源相关性或相关度获得与当前访问的网络资源相关的网络资源集合;
第二网络资源推荐子单元,用于根据所述集合向用户推荐网络资源。
13.根据权利要求12所述的系统,其特征在于,还包括:
网络资源相关度获得单元,用于获得各网络资源对中两网络资源之间的相关度;
所述网络资源推荐单元还包括:
第一排序子单元,用于根据所述网络资源二维关系所体现的网络资源相关性或相关度获得与当前访问的网络资源相关的网络资源集合之后,根据各网络资源对中两网络资源之间的相关度,对所述集合中的网络资源进行排序。
14.根据权利要求13所述的系统,其特征在于,所述网络资源相关度获得单元包括:
第一网络资源相关度获得子单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,为各个网络资源对进行评分,得到各网络资源对中两网络资源之间的相关度;
和/或,
第二网络资源相关度获得子单元,用于根据网络资源对中两网络资源之间的访问间隔时间,为各个网络资源对进行评分,得到各网络资源对中两网络资源之间的相关度;
和/或,
第三网络资源相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源之间的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
15.根据权利要求12或13所述的系统,其特征在于,所述网络资源二维关系为核心索引,所述网络资源推荐单元还包括:
第二排序子单元,用于根据辅助索引对所述集合中的网络资源进行排序,所述辅助索引包括网络资源的特征向量或用户的兴趣向量,其中,网络资源的特征向量通过如下方式获得:通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述所述网络资源属于各类别的置信度;所述用户的兴趣向量通过如下方式获得:根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量。
16.根据权利要求15所述的系统,其特征在于:
所述第二排序子单元包括:
特征向量生成子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;第一计算子单元,用于分别将各所述相关网络资源的特征向量与用户当前访问的网络资源的特征向量进行内积计算,并根据内积计算的结果对各网络资源进行排序;
或者,
所述第二排序子单元包括:
兴趣向量生成子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;所述兴趣向量用于描述用户对各类别的感兴趣程度;第二计算子单元,用于分别将各所述相关网络资源的特征向量与该用户的兴趣向量进行内积计算,并根据内积计算的结果对各网络资源进行排序。
17.根据权利要求10所述的系统,其特征在于,还包括:
过滤单元,用于过滤掉无效的网络资源对,所述无效的网络资源对包括:内容不相关的网络资源对、访问时间间隔超过预置阈值的网络资源对或者包含有广告导航页的网络资源对。
18.一种建立网络资源索引的方法,其特征在于,包括:
获得用户访问网络资源的资源访问记录;
将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;所述资源访问记录中记录了用户访问过的网络资源集合,所述拆分的方式为:将所述网络资源集合中的网络资源两两组成网络资源访问对;
对各用户拆分后产生的网络资源访问对进行聚类以汇集各用户的网络资源访问对,获得网络资源二维关系,建立起网络资源索引;所述网络资源二维关系表示网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页,所述网络资源二维关系为网络资源两两之间的相关性或相关度,所述相关性是非有即无的关系,所述相关度为不同的网络资源之间的相关性的强弱。
19.根据权利要求18所述的方法,其特征在于,还包括:获得各网络资源对中两网络资源之间的相关度,以便根据所述相关度对所述网络资源进行排序。
20.根据权利要求19所述的方法,其特征在于,通过以下方式获得各网络资源对中两网络资源之间的相关度:
将相同的网络资源对进行合并;根据网络资源对的合并次数,获得各网络资源对中两网络资源之间的相关度;
和/或,
根据网络资源对中两网络资源之间的访问间隔时间,获得各网络资源对中两网络资源之间的相关度;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源之间的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
21.一种建立网络资源索引的系统,其特征在于,包括:
资源访问记录获得单元,用于获得用户访问网络资源的资源访问记录;
网络资源拆分单元,用于将所述用户的资源访问记录中的网络资源拆分为网络资源访问对,每一网络资源访问对包含所述资源访问记录中的两个网络资源信息;所述资源访问记录中记录了用户访问过的网络资源集合,所述拆分的方式为:将所述网络资源集合中的网络资源两两组成网络资源访问对;
网络资源对汇集单元,用于对各用户拆分后产生的网络资源访问对进行聚类以汇集各用户的网络资源对,获得网络资源二维关系,建立起网络资源索引,所述网络资源二维关系表示网络资源两两之间的关系,所述二维中的一维是网页,另一维也是网页,所述网络资源二维关系为网络资源两两之间的相关性或相关度,所述相关性是非有即无的关系,所述相关度为不同的网络资源之间的相关性的强弱。
22.根据权利要求21所述的系统,其特征在于,还包括:
网络资源相关度获得单元,用于获得各网络资源对中两网络资源之间的相关度,以便根据所述相关度对所述网络资源进行排序。
23.根据权利要求22所述的系统,其特征在于,所述网络资源相关度获得单元包括:
第一网络资源相关度获得子单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,获得各网络资源对中两网络资源之间的相关度;
和/或,
第二网络资源相关度获得子单元,用于根据网络资源对中两网络资源之间的访问间隔时间,获得各网络资源对中两网络资源之间的相关度;
和/或,
第三网络资源相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量获得各网络资源对中两网络资源之间的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度。
24.根据权利要求22所述的系统,其特征在于,还包括:
第一网络资源相关度修正单元,用于将相同的网络资源对进行合并;根据网络资源对的合并次数,对所述相关度进行修正;
和/或,
第二网络资源相关度修正单元,用于根据网络资源对中两网络资源之间的访问间隔时间,对所述相关度进行修正;
和/或,
第三网络资源相关度修正单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,利用各网络资源的特征向量对所述相关度进行修正;所述网络资源特征向量用于描述网络资源属于各类别的置信度;
和/或,
第四网络资源相关度修正单元,通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述网络资源属于各类别的置信度;根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;利用各用户的兴趣向量对所述相关度进行修正;所述兴趣向量用于描述用户对各类别的感兴趣程度。
25.一种网络信息推荐的方法,其特征在于,包括:
获得访问同一网络资源的用户记录;
将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;所述拆分的方式为:将所述各用户信息两两组成用户对;
对所述用户对进行聚类以汇集各个网络资源的用户对,建立用户二维关系,所述用户二维关系表示用户两两之间的关系,所述二维中的一维是用户,另一维也是用户,用户二维关系为用户两两之间的相关性或相关度,所述相关性是非有即无的关系,所述相关度为不同的用户之间的相关性的强弱;
当需要为用户进行推荐时,根据所述用户二维关系所体现的用户相关性或相关度推荐相关的用户信息。
26.根据权利要求25所述的方法,其特征在于,所述根据所述用户二维关系所体现的用户相关性或相关度推荐相关的用户信息包括:
根据所述用户二维关系所体现的用户相关性或相关度推荐与当前访问的用户相关的用户信息。
27.根据权利要求25所述的方法,其特征在于,所述根据所述用户二维关系所体现的用户相关性或相关度推荐相关的用户信息包括:根据所述用户二维关系所体现的用户相关性或相关度获得相关的用户集合,根据所述集合向用户推荐相关的用户信息;
所述方法还包括:获得各用户对中两用户之间的相关度,在所述根据所述用户二维关系获得相关的用户集合之后还包括:根据各用户对中两用户之间的相关度,对所述集合中的用户进行排序。
28.根据权利要求27所述的方法,其特征在于,所述用户二维关系为核心索引,还包括:
根据辅助索引对所述集合中的用户进行排序,所述辅助索引包括网络资源的特征向量或用户的兴趣向量,其中,网络资源的特征向量通过如下方式获得:通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述所述网络资源属于各类别的置信度;所述用户的兴趣向量通过如下方式获得:根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量。
29.一种网络信息推荐的系统,其特征在于,包括:
用户记录获得单元,用于获得访问同一网络资源的用户记录;
用户拆分单元,用于将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;所述拆分的方式为:将所述各用户信息两两组成用户对;
用户对汇集单元,用于对所述用户对进行聚类以汇集各个网络资源的用户对,获得用户二维关系,所述用户二维关系表示用户两两之间的关系,所述二维中的一维是用户,另一维也是用户,用户二维关系为用户两两之间的相关性或相关度,所述相关性是非有即无的关系,所述相关度为不同的用户之间的相关性的强弱;
用户信息推荐单元,用于当需要为用户进行推荐时,根据所述用户二维关系所体现的用户相关性或相关度推荐相关的用户信息。
30.根据权利要求29所述的系统,其特征在于,所述用户信息推荐单元包括:
第一用户信息推荐子单元,用于根据所述用户二维关系所体现的用户相关性或相关度推荐与当前访问的用户相关的用户信息。
31.根据权利要求29所述的系统,其特征在于,所述用户信息推荐单元包括:用户信息集合生成子单元,用于根据所述用户二维关系所体现的用户相关性或相关度获得相关的用户集合;第二用户信息推荐子单元,用于根据所述集合向用户推荐相关的用户信息;
或者,
所述系统还包括:用户相关度获得单元,用于获得各用户对中两用户之间的相关度;所述用户信息推荐单元还包括:第一用户排序子单元,用于根据各用户对中两用户之间的相关度,对所述集合中的用户进行排序。
32.根据权利要求31所述的系统,其特征在于,所述用户二维关系为核心索引,所述用户信息推荐单元还包括:
第二用户排序子单元,用于根据辅助索引对所述集合中的用户进行排序,所述辅助索引包括网络资源的特征向量或用户的兴趣向量,其中,网络资源的特征向量通过如下方式获得:通过预置的分类信息为各网络资源生成网络资源特征向量,所述网络资源特征向量用于描述所述网络资源属于各类别的置信度;所述用户的兴趣向量通过如下方式获得:根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量。
33.一种建立用户索引的方法,其特征在于,包括:
获得访问同一网络资源的用户记录;
将所述用户记录中的各用户拆分为用户对,每一用户对包含所述用户记录中的两个用户;所述拆分的方式为:将所述各用户两两组成用户对;
对所述用户对进行聚类以汇集各个网络资源的用户对,获得用户二维关系,建立起用户索引,所述用户二维关系表示用户两两之间的关系,所述二维中的一维是用户,另一维也是用户,用户二维关系为用户两两之间的相关性或相关度,所述相关性是非有即无的关系,所述相关度为不同的用户之间的相关性的强弱。
34.根据权利要求33所述的方法,其特征在于,还包括:
获得各用户对中两用户之间的相关度。
35.根据权利要求34所述的方法,其特征在于,通过以下方式获得各用户对中两用户之间的相关度:
将相同的用户对进行合并;根据用户对的合并次数,为各个用户对进行评分,得到各用户对中两用户之间的相关度;
和/或,
通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量获得各用户对中两用户之间的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度。
36.一种建立用户索引的系统,其特征在于,包括:
用户记录获得单元,用于获得访问同一网络资源的用户记录;
用户拆分单元,用于将所述用户记录中的各用户信息拆分为用户对,每一用户对包含所述用户记录中的两个用户信息;所述拆分的方式为:将所述各用户信息两两组成用户对;
用户对汇集单元,用于对所述用户对进行聚类以汇集各个网络资源的用户对,获得用户二维关系,建立起用户索引,所述用户二维关系表示用户两两之间的关系,所述二维中的一维是用户,另一维也是用户,用户二维关系为用户两两之间的相关性或相关度,所述相关性是非有即无的关系,所述相关度为不同的用户之间的相关性的强弱。
37.根据权利要求36所述的系统,其特征在于,还包括:
用户相关度获得单元,用于获得各用户对中两用户之间的相关度,以便根据所述相关度对用户进行排序。
38.根据权利要求37所述的系统,其特征在于,所述用户相关度获得单元包括:
第一用户相关度获得子单元,用于将相同的用户对进行合并;根据用户对的合并次数,为各个用户对进行评分,得到各用户对中两用户之间的相关度;
和/或,
第二用户相关度获得子单元,用于通过预置的分类信息为各网络资源生成网络资源特征向量,根据用户的访问历史获知用户最可能访问的网络资源;将所述用户最可能访问的网络资源的特征向量合并,得到各用户的兴趣向量;根据所述用户的兴趣向量获得各用户对中两用户之间的相关度;所述网络资源特征向量用于描述网络资源属于各类别的置信度;所述兴趣向量用于描述用户对各类别的感兴趣程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236867.6A CN102054003B (zh) | 2009-11-04 | 2009-11-04 | 网络信息推荐、建立网络资源索引的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236867.6A CN102054003B (zh) | 2009-11-04 | 2009-11-04 | 网络信息推荐、建立网络资源索引的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102054003A CN102054003A (zh) | 2011-05-11 |
CN102054003B true CN102054003B (zh) | 2014-03-19 |
Family
ID=43958337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910236867.6A Active CN102054003B (zh) | 2009-11-04 | 2009-11-04 | 网络信息推荐、建立网络资源索引的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102054003B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103023747B (zh) * | 2011-09-26 | 2015-07-15 | 网秦无限(北京)科技有限公司 | 基于消息内容的信息推荐方法和系统 |
CN103064856B (zh) * | 2011-10-21 | 2016-03-30 | 中国移动通信集团重庆有限公司 | 一种基于信度网的资源推荐方法和装置 |
CN102651033B (zh) * | 2012-04-09 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 一种在线资源的推荐方法和装置 |
CN103595747A (zh) * | 2012-08-16 | 2014-02-19 | 腾讯科技(深圳)有限公司 | 用户信息推荐方法和系统 |
CN103810162B (zh) * | 2012-11-05 | 2017-12-12 | 腾讯科技(深圳)有限公司 | 推荐网络信息的方法和系统 |
CN103885976B (zh) * | 2012-12-21 | 2017-08-04 | 腾讯科技(深圳)有限公司 | 在网页中配置推荐信息的方法及索引服务器 |
CN103618774B (zh) * | 2013-11-19 | 2016-11-23 | 北京奇虎科技有限公司 | 一种基于网络行为的资源推荐方法及装置、系统 |
CN104778173B (zh) * | 2014-01-10 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 目标用户确定方法、装置及设备 |
CN104636458B (zh) * | 2015-02-04 | 2018-03-23 | 中国联合网络通信集团有限公司 | 地址信息库的更新方法和装置 |
CN104699832B (zh) * | 2015-03-31 | 2019-04-12 | 北京奇艺世纪科技有限公司 | 一种相关信息确定方法及装置 |
CN104809165B (zh) * | 2015-04-02 | 2018-09-25 | 海信集团有限公司 | 一种多媒体文件相关度的确定方法及设备 |
CN105653702A (zh) * | 2015-12-30 | 2016-06-08 | 深圳联友科技有限公司 | 一种资源导航方法及系统 |
CN108512883B (zh) * | 2017-04-10 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 一种信息推送方法、装置及可读介质 |
CN108810048A (zh) * | 2017-05-02 | 2018-11-13 | 中国移动通信集团重庆有限公司 | 资源推送方法及装置 |
CN107798072B (zh) * | 2017-09-27 | 2021-05-14 | 广州大学 | 基于用户使用情况的精品资源图谱构建方法及装置 |
CN109284436B (zh) * | 2018-10-31 | 2020-06-23 | 浙江传媒学院 | 搜索未知信息网络时的路径规划方法及网络盗版发现系统 |
CN112417216B (zh) * | 2019-08-23 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 一种对象推荐方法、装置、服务器及存储介质 |
CN112584526A (zh) * | 2020-12-08 | 2021-03-30 | 厦门诚创网络股份有限公司 | 一种资源分配方法及其系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324948A (zh) * | 2008-07-24 | 2008-12-17 | 阿里巴巴集团控股有限公司 | 一种信息推荐的方法及装置 |
-
2009
- 2009-11-04 CN CN200910236867.6A patent/CN102054003B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324948A (zh) * | 2008-07-24 | 2008-12-17 | 阿里巴巴集团控股有限公司 | 一种信息推荐的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102054003A (zh) | 2011-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102054003B (zh) | 网络信息推荐、建立网络资源索引的方法及系统 | |
US8751511B2 (en) | Ranking of search results based on microblog data | |
CN102982042B (zh) | 一种个性化内容推荐方法、平台以及系统 | |
CN103886090B (zh) | 基于用户喜好的内容推荐方法及装置 | |
JP5431727B2 (ja) | 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
KR101315554B1 (ko) | 웹 페이지에 키워드를 할당하기 위한 방법 및 장치 | |
CN102298616B (zh) | 一种用于在搜索结果中提供相关子链接的方法和设备 | |
US20100306249A1 (en) | Social network systems and methods | |
CN109684538A (zh) | 一种基于用户个人特征的推荐方法及推荐系统 | |
US8452760B2 (en) | Relevancy presentation apparatus, method, and program | |
US20060095430A1 (en) | Web page ranking with hierarchical considerations | |
CN102855309B (zh) | 一种基于用户行为关联分析的信息推荐方法及装置 | |
CN107766399B (zh) | 用于使图像与内容项目匹配的方法和系统及机器可读介质 | |
US20080215583A1 (en) | Ranking and Suggesting Candidate Objects | |
JP5147947B2 (ja) | クエリ別検索コレクション生成方法およびシステム | |
CN102364473A (zh) | 融合地理信息与视觉信息的网络新闻检索系统及方法 | |
US20170235836A1 (en) | Information identification and extraction | |
US9667505B2 (en) | URL navigation page generation method, device and program | |
CN103294692A (zh) | 一种信息推荐方法及系统 | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
CN105574030A (zh) | 一种信息搜索方法及装置 | |
JP2015106347A (ja) | レコメンド装置およびレコメンド方法 | |
Gali et al. | Extracting representative image from web page | |
CN101655853A (zh) | 建立模型的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |