CN104166722A - 一种推荐网站的方法和装置 - Google Patents

一种推荐网站的方法和装置 Download PDF

Info

Publication number
CN104166722A
CN104166722A CN201410418960.XA CN201410418960A CN104166722A CN 104166722 A CN104166722 A CN 104166722A CN 201410418960 A CN201410418960 A CN 201410418960A CN 104166722 A CN104166722 A CN 104166722A
Authority
CN
China
Prior art keywords
mobile subscriber
website
preference
recommended
special character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410418960.XA
Other languages
English (en)
Other versions
CN104166722B (zh
Inventor
李�浩
罗云彬
王志军
王伟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201410418960.XA priority Critical patent/CN104166722B/zh
Publication of CN104166722A publication Critical patent/CN104166722A/zh
Application granted granted Critical
Publication of CN104166722B publication Critical patent/CN104166722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种推荐网站的方法和装置,应用于移动终端,该方法包括:获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度;根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。本发明对用户上网行为记录中的二级域名进行归并获得移动用户对各网站的偏好度,由于二级域名能够很好的描述网站的类别,并且根据其来划分网站的类别的数量较少,因此网站推荐过程中所需要的存储量和计算量都较小。

Description

一种推荐网站的方法和装置
技术领域
本发明涉及数据挖掘技术领域,尤指一种应用于移动终端的推荐网站的方法和装置。
背景技术
随着智能移动终端的普及,3G和4G技术的广泛应用。用户通过移动终端进行上网的次数和数据量都呈现爆发型增长。通过分析用户上网记录进而挖掘用户行为,从而根据用户偏好对用户进行定向服务(如向用户推荐符合用户喜好的网站)是未来移动互联网的重要应用方向。
现有的推荐网站的方法是:根据统一资源定位器(URL,Uniform ResoureLocator)地址向用户推荐网站。由于URL地址中所包含的信息较多,如果将URL地址作为类别进行推荐,则类别数量较大,加大了存储量和计算量。
发明内容
为了解决上述问题,本发明提出了一种推荐网站的方法和装置,能够降低存储量和计算量。
为了达到上述目的,本发明提出了一种推荐网站的方法,应用于移动终端,该方法包括:
获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名,对获得的二级域名进行归并获得移动用户对各网站的偏好度;
根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
优选地,所述获取上网行为记录中URL地址中的二级域名包括:
搜索所述URL地址中的特殊字符,将搜索到的特殊字符压入队列中,继续搜索所述URL地址中的特殊字符,直到最新压入队列中的特殊字符为第一特殊字符,且前一个压入的特殊字符为第二特殊字符,取出这两个特殊字符之间的字符串,在预先保存的域名后缀表中查找取出的字符串;若查找不到,则丢弃该上网行为记录;
若查找到,则将所述前一个压入的特殊字符作为当前特殊字符,将所述最新压入队列中的特殊字符作为后一个特殊字符,获取前一个特殊字符,若所述前一个特殊字符为第二特殊字符,则获取所述前一个特殊字符和所述后一个特殊字符之间的字符串,继续在所述域名后缀表中查找获得的所述前一个特殊字符和所述后一个特殊字符之间的字符串,若查找到,则将所述前一个特殊字符和所述后一个特殊字符之间的字符串作为域名后缀;若查找不到,则将所述当前特殊字符和所述后一特殊字符之间的字符串作为域名后缀;继续往前获取所述域名后缀前面的第三个特殊字符,获取所述域名后缀前面的第三个特殊字符和所述后一个特殊字符之间的字符串即为二级域名。
优选地,所述对获得的二级域名进行归并获得移动用户对各网站的偏好度包括:
通过映射Map过程,将所述移动用户的上网行为记录转换为所述移动用户对网站的偏好度;
通过化简Reduce过程,将获得的移动用户对网站的偏好度进行统计,得到所述移动用户对各网站的偏好度。
优选地,所述根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站包括:
根据获得的移动用户对各网站的偏好度计算物品相似度矩阵;
计算所述物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积;
按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站;
其中,所述物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,所述第一条件为对该元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
优选地,所述根据获得的移动用户对各网站的偏好度计算物品相似度矩阵包括:
通过映射Map过程,将所述获得的移动用户对各网站的偏好度转换为每个移动用户的物品相似度矩阵;
通过化简Reduce过程,将所述每个移动用户的物品相似度矩阵相加得到所述物品相似度矩阵。
优选地,所述计算所述物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积,按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站包括:
通过映射Map过程,将物品相似度矩阵以列为单位进行拆分,将差分后的各列与待推荐用户对应的偏好度进行相乘,形成中间结果;
通过化简Reduce过程,对中间结果进行相加,并将相加的结果按照由大到小的顺序进行排列,将排列后的结果输出并推荐给用户。
优选地,所述根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站包括:
根据所述待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算所述待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第三条件的网站推荐给待推荐移动用户;
其中,所述第二条件为所述待推荐移动用户和其他各移动用户的偏好度为非零,所述第三条件为所述相似度最大的移动用户的偏好度较高,且所述待推荐移动用户的偏好度为0。
本发明提出了一种推荐网站的装置,至少包括:
获取模块,用于获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度;
推荐模块,用于根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
优选地,所述推荐模块具体用于:
根据获得的移动用户对各网站的偏好度计算物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积;按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站;其中,所述物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,所述第一条件为对该元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
优选地,所述推荐模块具体用于:
根据所述待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算所述待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第二条件的网站推荐给待推荐移动用户;其中,所述第二条件为所述待推荐移动用户和其他各移动用户的偏好度为非零,所述第三条件为所述相似度最大的移动用户的偏好度较高,且所述待推荐移动用户的偏好度为0。
与现有技术相比,本发明包括:获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度;根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。通过本发明的方案,对用户上网行为记录中的二级域名进行归并获得移动用户对各网站的偏好度,由于二级域名能够很好的描述网站的类别,并且根据其来划分网站的类别的数量较少,因此网站推荐过程中所需要的存储量和计算量都较小。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的推荐网站的方法流程图;
图2为本发明的推荐网站的装置的结构组成示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
参见图1,本发明提出了一种推荐网站的方法,应用于移动终端,该方法包括:
步骤100、获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名,对获得的二级域名进行归并获得移动用户对各网站的偏好度。
本步骤中,移动用户上网行为记录是原本已经存储的数据。例如,目前联通是采用Hadoop/Hbase的存储方式来保存移动用户上网行为记录的,如表1所示。
表1
表1中,数据是以<Key,Value>的格式进行存储的,Key为行主键对应的值(即用户号码|日时分秒|高精度时间戳|记录哈希值),Value为列族对应的值(即详单记录、网络类型|流量类型和总流量)。其中,详单记录中包含了URL地址(例如,http://news.uc.cn/xinwen/news/ucnews.htm?uc_param_str=cpdnbifrpfvess)和手机号码。
本步骤中,移动用户对各网站的偏好度为移动用户对各网站在预设时间内的访问次数。其中,采用二级域名来代表网站。二级域名是指顶级域名之下的域名。例如,URL地址为http://news.uc.cn/xinwen/news/ucnews.htm?uc_param_str=cpdnbifrpfvess的顶级域名为“uc.cn”,二级域名为“news.uc.cn”。
本步骤中,预设时间可以根据存储设备的存储能力进行选取,一般可以选取3个月以上。
本步骤中,获取移动用户上网行为记录中URL地址的二级域名包括:
获取移动用户上网行为记录中的URL地址;获取获得的URL地址中的二级域名。
其中,具体可以采用现有方法从表1中获取URL地址,并不用于限定本发明的保护范围,这里不再赘述。
其中,获取URL地址中的二级域名的方法包括:
搜索URL地址中的特殊字符(特殊字符包括“.”、“/”、“:”等),将搜索到的特殊字符压入队列(队列的长度可以设为2)中,继续搜索URL地址中的特殊字符,直到最新压入队列中的特殊字符为第一特殊字符(如“/”),且前一个压入的特殊字符为第二特殊字符(如“.”),取出这两个特殊字符之间的字符串,在预先保存的域名后缀表中查找取出的字符串,若查找不到,则丢弃该上网行为记录;若查找到,则将前一个压入的特殊字符(如“.”)作为当前特殊字符,将最新压入队列中的特殊字符(如“/”)作为后一个特殊字符,获取前一个特殊字符,若前一个特殊字符为第二特殊字符(如“.”),则获取前一个特殊字符和后一个特殊字符之间的字符串,继续在预先保存的域名后缀表中查找获得的前一个特殊字符和后一个特殊字符之间的字符串,若查找到,则将前一个特殊字符和后一个特殊字符之间的字符串作为域名后缀,若查找不到,则将当前特殊字符和后一特殊字符之间的字符串作为域名后缀;继续往前获取域名后缀前面的第三个特殊字符,获取域名后缀前面的第三个特殊字符和后一个特殊字符之间的字符串即为二级域名。
表2
例如,搜索URL地址“http://news.uc.cn/xinwen/news/ucnews.htm?uc_param_str=cpdnbifrpfvess”中的特殊字符(特殊字符包括“.”、“/”、“:”等),将搜索到的特殊字符压入队列(队列的长度可以设为2)中,继续搜索URL地址中的特殊字符,直到最新压入队列中的特殊字符为“/”,且前一个压入的特殊字符为“.”,取出这两个特殊字符之间的字符串,即“cn”,在预先保存的域名后缀表中查找取出的字符串,将前一个压入的特殊字符“.”作为当前特殊字符,将最新压入队列中的特殊字符“/”作为后一个特殊字符,获取前一个特殊字符,为“.”,则获取前一个特殊字符“.”和后一个特殊字符“/”之间的字符串,即“uc.cn”,继续在预先保存的域名后缀表中查找获得的前一个特殊字符“.”和后一个特殊字符“/”之间的字符串,显然在表2中查找不到,则将当前特殊字符“.”和后一特殊字符“/”之间的字符串(即cn)作为域名后缀;继续往前获取域名后缀前面的第三个特殊字符,即“/”,获取域名后缀前面的第三个特殊字符“/”和后一个特殊字符“/”之间的字符(即news.uc.cn)即为二级域名。
本步骤中,对二级域名进行归并获得移动用户对各网站的偏好度是指将移动用户访问的网站的二级域名相同的上网行为记录进行累加得到对各网站的偏好度。
本步骤中,可以采用映射/化简(MapReduce)的方式获取移动用户对各网站的偏好度。
通过映射Map过程,将移动用户上网行为记录转换为移动用户对网站的偏好度。
此过程中,移动用户对网站的偏好度以<移动用户标识(如手机号)-网站(即二级域名),偏好度>的格式输出。其中,偏好度均为1。
其中,可以采用现有方法从表1中获取手机号,并不用于限定本发明的保护范围,这里不再赘述。
通过化简Reduce过程,将获得的移动用户对网站的偏好度进行统计,得到移动用户对各网站的偏好度。
此过程中,将相同移动用户标识-网站对应的偏好度进行累加,即可得到移动用户对各网站的偏好度。
移动用户对各网站的偏好度可以以<移动用户标识(如手机号)-网站(即二级域名),偏好度>的格式输出,也可以以<移动用户标识(如手机号码),数组(即[网站,偏好度])>的格式输出。
步骤101、根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
本步骤中,可以采用改进的基于项目的推荐方法、或改进的基于用户的推荐方法向待推荐移动用户推荐网站。
其中,采用改进的基于项目的推荐方法向待推荐移动用户推荐网站包括:
根据获得的移动用户对各网站的偏好度计算物品相似度矩阵;计算物品相似度矩阵和待推荐移动用户的历史偏好度的乘积;按照计算得到的乘积中积值由大到小的顺序向待推荐移动用户推荐网站。
其中,物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,第一条件为对该元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。其中,预设阈值可以是0.2。
其中,可以在步骤100中的输出结果中遍历每一个移动用户,如果移动用户对物品相似度矩阵中的某一元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值,则将该元素的取值加1,否则不加1。
可以根据待推荐移动用户的移动用户标识在步骤100中的输出结果中查找对应的偏好度,将查找到的偏好度转换成列向量,即得到待推荐移动用户的历史偏好度。
例如,二级域名归并后用户A对网站1、网站2、网站3、网站4和网站5的偏好度如下:
<用户A-网站1,4>,<用户A-网站2,1>,<用户A-网站3,5>,<用户A-网站4,0>,<用户A-网站5,0>;
将其进行归一化后用户A对网站1、网站2、网站3、网站4和网站5的偏好度如下:
<用户A-网站1,0.4>,<用户A-网站2,0.1>,<用户A-网站3,0.5>,<用户A-网站4,0>,<用户A-网站5,0>。
比较可以看出,用户A对网站1与网站2之间偏好度的差值、对网站2与网站3之间偏好度之间的差值都超过了0.2,因此网站1-网站2,网站2-网站3不能累计到物品相似度矩阵对应的元素的取值当中,而网站1-网站3可以累计到物品相似度矩阵对应的元素的取值当中。
其中,采用改进的基于用户的推荐方法向待推荐移动用户推荐网站包括:
根据待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第三条件的网站推荐给待推荐移动用户,其中,第二条件为待推荐移动用户和其他各移动用户的偏好度为非零,第三条件为相似度最大的移动用户的偏好度较高,且待推荐移动用户的偏好度为0。
其中,可以采用余弦夹角、或欧氏距离来计算待推荐移动用户与其他各移动用户的相似度。
例如,表3为用户A、用户B和用户C在预设时间内统计得到的对各网站的偏好度。
1 2 3 4 5 6 7
用户A 4 0 0 5 1 0 0
用户B 5 5 5 0 0 0 0
用户C 0 0 0 2 4 5 0
表3
当计算用户A与用户B相似度时,先对用户A和用户B非0位置取交集,则用户A和用户B的偏好度向量的非零位置为第1位,用户A和用户C的偏好度向量的非零位置为第4位和第5位。此时计算余弦夹角后得到用户A和用户B之间的余弦值为1。用户A和用户C之间的余弦值为0.61。说明用户A与用户B更相近。判断出相似用户后,从用户B中挑选出用户A中偏好度为0但是在用户B中偏好度较高的网站2,网站3,推荐给用户A。
本步骤中,可以采用MapReduce或分布式流式计算的方法向待推荐移动用户推荐网站。MapReduce的方式一般用于对批量静态用户的推荐,分布式流式计算的方法一般用于对动态用户的推荐。
对于批量的静态用户场景,如对一个号段186011所有用户进行网站推荐(约1万个号码)进行推荐,批量用户数据量大且属于连续号段用户,不需要对用户作出即时推荐响应。因此适合采用Hadoop框架下MapReduce方式进行处理。以基于项目的推荐方法为例,具体可以采用两个MapReduce任务来实现。
任务1、计算物品相似度矩阵:通过Map过程,将获得的移动用户对各网站的偏好度转换为每个移动用户的物品相似度矩阵(即两个网站同时被访问的用户数均为1),转换过程中,如果移动用户不满足第一条件,则对应的元素取值为0;通过Reduce过程,将每个移动用户的物品相似度矩阵相加得到物品相似度矩阵。
任务2、实现基于项目的推荐算法:通过Map过程,将物品相似度矩阵以列为单位进行拆分,将拆分后的各列与待推荐用户对应的偏好度进行相乘(例如,将物品相似度矩阵的第一列与待推荐用户的第一个偏好度进行相乘,以此类推),形成中间结果;通过Reduce过程,对中间结果进行相加,并将相加的结果按照由大到小的顺序进行排列,将排列后的结果输出并推荐给用户。
例如,当网站1、网站2和网站3对应的物品相似度矩阵为 3 2 1 2 3 3 1 3 3 , 待推荐用户的历史偏好度为 0.1 0.2 0.3 , 时,通过Map过程,将物品相似度矩阵拆分为3列,即 3 2 1 , 2 3 3 1 3 3 , 拆分后,将 3 2 1 与0.1相乘得到 0.3 0.2 0.1 , 2 3 3 和0.2相乘得到 0.4 0.6 0.6 , 和0.3相乘得到 0.3 0.9 0.9 , 形成的中间结果为 0.3 0.2 0.1 , 0 . 4 0.6 0.6 0.3 0 . 9 0 . 9 ; 通过Reduce过程,对中间结果进行相加得到 1 1.7 1.6 , 1 1.7 1.6 按照由大到小的顺序进行排列即网站2、网站3、网站1。
对于需要实时、并发处理的动态用户推荐,如3G网络的多个用户正在访问互联网,系统已经有用户的信息,需要对用户预测其感兴趣网站,并即时推荐给该用户,不能等用户离开互联网再推荐。对于实时性和并发要求比较高的系统,适合用流式计算系统进行推荐。以基于用户的推荐方法为例,具体应用方法如下:
流式计算系统预先将用户的偏好度进行均匀划分并发送给各第一类逻辑处理节点进行保存,并将待推荐用户的历史偏好度发送给各第一类逻辑处理节点,这样每个第一类逻辑处理节点保存有部分用户对各网站的偏好度。
第一类逻辑处理节点待推荐移动用户和自身保存的用户之间的相似度,并将相似度较高的移动用户的偏好度和计算得到的相似度发送给第二类逻辑处理节点,第二类逻辑处理节点计算接收到的用户和待推荐移动用户之间的相似度,将相似度较高的移动用户中满足第二条件的网站推荐给待推荐移动用户。
参见图2,本发明还提出了一种推荐网站的装置,至少包括:
获取模块,用于获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度;
推荐模块,用于根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
本发明的装置中,推荐模块具体用于:
根据获得的移动用户对各网站的偏好度计算物品相似度矩阵和待推荐移动用户的历史偏好度的乘积;按照计算得到的乘积中积值由大到小的顺序向待推荐移动用户推荐网站;其中,物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,第一条件为对该元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
本发明的装置中,推荐模块具体用于:
根据待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第二条件的网站推荐给待推荐移动用户;其中,第二条件为待推荐移动用户和其他各移动用户的偏好度为非零,第三条件为相似度最大的移动用户的偏好度较高,且待推荐移动用户的偏好度为0。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (10)

1.一种推荐网站的方法,其特征在于,应用于移动终端,该方法包括:
获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名,对获得的二级域名进行归并获得移动用户对各网站的偏好度;
根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
2.根据权利要求1所述的方法,其特征在于,所述获取上网行为记录中URL地址中的二级域名包括:
搜索所述URL地址中的特殊字符,将搜索到的特殊字符压入队列中,继续搜索所述URL地址中的特殊字符,直到最新压入队列中的特殊字符为第一特殊字符,且前一个压入的特殊字符为第二特殊字符,取出这两个特殊字符之间的字符串,在预先保存的域名后缀表中查找取出的字符串;若查找不到,则丢弃该上网行为记录;
若查找到,则将所述前一个压入的特殊字符作为当前特殊字符,将所述最新压入队列中的特殊字符作为后一个特殊字符,获取前一个特殊字符,若所述前一个特殊字符为第二特殊字符,则获取所述前一个特殊字符和所述后一个特殊字符之间的字符串,继续在所述域名后缀表中查找获得的所述前一个特殊字符和所述后一个特殊字符之间的字符串,若查找到,则将所述前一个特殊字符和所述后一个特殊字符之间的字符串作为域名后缀;若查找不到,则将所述当前特殊字符和所述后一特殊字符之间的字符串作为域名后缀;继续往前获取所述域名后缀前面的第三个特殊字符,获取所述域名后缀前面的第三个特殊字符和所述后一个特殊字符之间的字符串即为二级域名。
3.根据权利要求1所述的方法,其特征在于,所述对获得的二级域名进行归并获得移动用户对各网站的偏好度包括:
通过映射Map过程,将所述移动用户的上网行为记录转换为所述移动用户对网站的偏好度;
通过化简Reduce过程,将获得的移动用户对网站的偏好度进行统计,得到所述移动用户对各网站的偏好度。
4.根据权利要求1所述的方法,其特征在于,所述根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站包括:
根据获得的移动用户对各网站的偏好度计算物品相似度矩阵;
计算所述物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积;
按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站;
其中,所述物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,所述第一条件为对该元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
5.根据权利要求4所述的方法,其特征在于,所述根据获得的移动用户对各网站的偏好度计算物品相似度矩阵包括:
通过映射Map过程,将所述获得的移动用户对各网站的偏好度转换为每个移动用户的物品相似度矩阵;
通过化简Reduce过程,将所述每个移动用户的物品相似度矩阵相加得到所述物品相似度矩阵。
6.根据权利要求4所述的方法,其特征在于,所述计算所述物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积,按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站包括:
通过映射Map过程,将物品相似度矩阵以列为单位进行拆分,将差分后的各列与待推荐用户对应的偏好度进行相乘,形成中间结果;
通过化简Reduce过程,对中间结果进行相加,并将相加的结果按照由大到小的顺序进行排列,将排列后的结果输出并推荐给用户。
7.根据权利要求1所述的方法,其特征在于,所述根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站包括:
根据所述待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算所述待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第三条件的网站推荐给待推荐移动用户;
其中,所述第二条件为所述待推荐移动用户和其他各移动用户的偏好度为非零,所述第三条件为所述相似度最大的移动用户的偏好度较高,且所述待推荐移动用户的偏好度为0。
8.一种推荐网站的装置,其特征在于,至少包括:
获取模块,用于获取移动用户的上网行为记录中统一资源定位器URL地址的二级域名;对获得的二级域名进行归并获得移动用户对各网站的偏好度;
推荐模块,用于根据获得的移动用户对各网站的偏好度向待推荐移动用户推荐网站。
9.根据权利要求8所述的装置,其特征在于,所述推荐模块具体用于:
根据获得的移动用户对各网站的偏好度计算物品相似度矩阵和所述待推荐移动用户的历史偏好度的乘积;按照计算得到的乘积中积值由大到小的顺序向所述待推荐移动用户推荐网站;其中,所述物品相似度矩阵中每一个元素的取值为满足第一条件的用户数,所述第一条件为对该元素对应的两个网站的偏好度均为非0,且对该元素对应的两个网站的偏好度之间的差值小于或等于预设阈值。
10.根据权利要求8所述的装置,其特征在于,所述推荐模块具体用于:
根据所述待推荐移动用户和其他各移动用户对满足第二条件的网站的偏好度,计算所述待推荐移动用户与其他各移动用户的相似度;将相似度最大的移动用户中满足第二条件的网站推荐给待推荐移动用户;其中,所述第二条件为所述待推荐移动用户和其他各移动用户的偏好度为非零,所述第三条件为所述相似度最大的移动用户的偏好度较高,且所述待推荐移动用户的偏好度为0。
CN201410418960.XA 2014-08-22 2014-08-22 一种推荐网站的方法和装置 Active CN104166722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410418960.XA CN104166722B (zh) 2014-08-22 2014-08-22 一种推荐网站的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410418960.XA CN104166722B (zh) 2014-08-22 2014-08-22 一种推荐网站的方法和装置

Publications (2)

Publication Number Publication Date
CN104166722A true CN104166722A (zh) 2014-11-26
CN104166722B CN104166722B (zh) 2018-09-11

Family

ID=51910535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410418960.XA Active CN104166722B (zh) 2014-08-22 2014-08-22 一种推荐网站的方法和装置

Country Status (1)

Country Link
CN (1) CN104166722B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095363A (zh) * 2015-06-26 2015-11-25 百度在线网络技术(北京)有限公司 网站的邀请点评方法和装置
CN109325186A (zh) * 2018-08-11 2019-02-12 桂林理工大学 一种用户偏好特征与地理特征融合的行为动机推断方法
CN110995824A (zh) * 2019-11-29 2020-04-10 北京工业大学 一种dns解析负载均衡方法
CN111028044A (zh) * 2019-10-22 2020-04-17 贝壳技术有限公司 一种拼租方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968451A (zh) * 2012-10-25 2013-03-13 北京奇虎科技有限公司 浏览器格式页面中加载网址数据的方法和客户端
CN103455613A (zh) * 2013-09-06 2013-12-18 南京大学 基于MapReduce模型的兴趣感知服务推荐方法
CN103886487A (zh) * 2014-03-28 2014-06-25 焦点科技股份有限公司 基于分布式的b2b平台的个性化推荐方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968451A (zh) * 2012-10-25 2013-03-13 北京奇虎科技有限公司 浏览器格式页面中加载网址数据的方法和客户端
CN103455613A (zh) * 2013-09-06 2013-12-18 南京大学 基于MapReduce模型的兴趣感知服务推荐方法
CN103886487A (zh) * 2014-03-28 2014-06-25 焦点科技股份有限公司 基于分布式的b2b平台的个性化推荐方法与系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095363A (zh) * 2015-06-26 2015-11-25 百度在线网络技术(北京)有限公司 网站的邀请点评方法和装置
CN109325186A (zh) * 2018-08-11 2019-02-12 桂林理工大学 一种用户偏好特征与地理特征融合的行为动机推断方法
CN109325186B (zh) * 2018-08-11 2021-08-17 桂林理工大学 一种用户偏好与地理特征融合的行为动机推断算法
CN111028044A (zh) * 2019-10-22 2020-04-17 贝壳技术有限公司 一种拼租方法、装置、电子设备和存储介质
CN111028044B (zh) * 2019-10-22 2023-10-27 贝壳技术有限公司 一种拼租方法、装置、电子设备和存储介质
CN110995824A (zh) * 2019-11-29 2020-04-10 北京工业大学 一种dns解析负载均衡方法

Also Published As

Publication number Publication date
CN104166722B (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
US10726446B2 (en) Method and apparatus for pushing information
CN102789462B (zh) 一种项目推荐方法及系统
CN104077714B (zh) 访问网站的用户的偏好获取、广告推送方法和系统
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
CN101256596B (zh) 一种站内导航的方法及系统
CN105005582A (zh) 多媒体信息的推荐方法及装置
WO2013106595A2 (en) Processing store visiting data
US10860478B2 (en) Method and device for storing data
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN104166722A (zh) 一种推荐网站的方法和装置
CN103605848A (zh) 路径分析方法和装置
CN105279206A (zh) 一种智能推荐方法和系统
CN109977135A (zh) 一种数据查询方法、装置及服务器
CN104899236A (zh) 一种评论信息显示方法、装置及系统
CN110609946A (zh) 一种信息推荐方法及装置
CN105718951A (zh) 用户相似度的估算方法及估算系统
CN107239542A (zh) 一种数据统计方法、装置、服务器及存储介质
CN105224555A (zh) 一种搜索的方法、装置和系统
CN107844536B (zh) 应用程序选择的方法、装置和系统
CN104123321A (zh) 一种确定推荐图片的方法及装置
CN110955855A (zh) 一种信息拦截的方法、装置及终端
CN106294417A (zh) 一种数据排序方法、装置及电子设备
CN114938668A (zh) 数据分发限制的安全管理
CN112184370A (zh) 一种推送产品的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant