CN105589917B - 浏览器日志信息的分析方法和装置 - Google Patents

浏览器日志信息的分析方法和装置 Download PDF

Info

Publication number
CN105589917B
CN105589917B CN201510593846.5A CN201510593846A CN105589917B CN 105589917 B CN105589917 B CN 105589917B CN 201510593846 A CN201510593846 A CN 201510593846A CN 105589917 B CN105589917 B CN 105589917B
Authority
CN
China
Prior art keywords
interest
day
same day
weight
tags
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510593846.5A
Other languages
English (en)
Other versions
CN105589917A (zh
Inventor
邹红才
郑海洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201510593846.5A priority Critical patent/CN105589917B/zh
Publication of CN105589917A publication Critical patent/CN105589917A/zh
Application granted granted Critical
Publication of CN105589917B publication Critical patent/CN105589917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种浏览器日志信息的分析方法和装置。该方法包括:根据预定周期内用户访问网页的日志信息,获得预定周期内每天的当日兴趣多元组,其包括兴趣标签和当日兴趣比重,分别表示用户当日访问的网页各自的类别和被访问的该类别的网页数量占当日被访问的全部网页数量的比例;基于预定周期内每一天的当日兴趣多元组获得一个或多个基准兴趣元组,每个基准兴趣元组包括兴趣标签和累计兴趣权重,其中,累加预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。通过本发明提供的技术方案,能够获得更准确的关于用户使用浏览器兴趣的信息。

Description

浏览器日志信息的分析方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种浏览器日志信息的分析方法和装置。
背景技术
随着互联网技术的不断发展,越来越多的用户使用浏览器访问互联网。了解用户对于访问互联网的兴趣将有助于企业向用户推送更准确的产品信息以及展开市场活动。现有的用户兴趣计算方法通常利用用户的浏览记录,通过获得用户访问的网页来确定用户的兴趣。通过一定时间内例如单日哪种类型的网页被访问的次数最多,来确定该类型为用户的兴趣所在,即简单的由网页访问数量多少来确定用户的访问兴趣。
然而,简单的通过某种类型网页被访问次数的多少并不一定能准确反映出用户访问网页的真实兴趣。例如用户某日因为特定工作或任务仅仅在某日访问了某特定网站,并且访问次数数量巨大,然而却并未在其它日期内访问该网站,通过简单的计算被访问网页的次数,可能得出结论为该用户对该特定网站具有较大兴趣,然而事实切并非如此。可见,简单通过计算访问网页次数并不能反映用户使用互联网的真实兴趣。
为了更准确的反映出用户访问互联网的真实兴趣,需要一种用户兴趣模型及兴趣模型的更新机制来实现上述目的。
发明内容
本申请提供了一种浏览器日志信息的分析方法和装置,以提供一种更加准确获取和描述用户访问互联网兴趣的技术方案。
根据本申请的一个方面,提供来一种浏览器日志信息的分析方法。该浏览器日志信息的分析方法,包括:
根据预定周期内用户访问网页的日志信息,获得预定周期内每一天的当日兴趣多元组,当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,该兴趣标签表示用户当日访问的网页各自的类别,当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例;
基于预定周期内每一天的当日兴趣多元组,获得一个或多个基准兴趣元组,每个基准兴趣元组包括兴趣标签和累计兴趣权重,其中,累加预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。
通过本发明的上述实施例,基于用户访问网页的日志信息,为建立用户的兴趣多元组提供了真实可靠的数据基础。对预定周期内当日兴趣多元组进行合并操作体现了预定周期内持续跟踪用户的浏览行为,所获得的累计兴趣权重则体现了该预定周期内用户访问网页的兴趣的累加结果,从而减少了偶然网页访问带来干扰,能掌握更为稳定和准确的用户访问网页的兴趣所在。
在一种方法实施例中,累加预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重的步骤包括:
对于每个兴趣标签,以该预定周期内存在日志信息的第一天的当日兴趣比重作为初始累计兴趣权重,按时间顺序逐日将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重,
其中,将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重的步骤包括:
根据该兴趣标签在下一天的当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;以及
将该兴趣标签在下一天的当日兴趣多元组中对应的当日兴趣比重与调整后的累计兴趣权重相加,得到新累计兴趣权重。
在上述实施例中,按照时间顺序逐日累加当日兴趣多元组中对应的当日兴趣比重,同时根据兴趣在后续日期中是否出现,在累加之前对原累计兴趣权重进行增大或减小调整,从而减少早起数据的影响,体现了用户访问兴趣按照日期的动态变化,使得调整后的累计兴趣权重包含访问兴趣的动态因素,更准确地反映用户的访问兴趣情况。
同时,在本实施例中,对于每个兴趣标签,在预定周期内按时间顺序逐日将下一天的当日兴趣比重累加到基准兴趣元组中对应的累计兴趣权重,由于按照顺序进行累加,因此对于获得最新的累计兴趣权重,只需要将之前的累计兴趣权重和下一天的当日兴趣比重进行累加,即只需要进行一次计算即可,而不需要每次从预定周期内第一日开始计算,大大减少了计算量。
在一种方法实施例中,基准兴趣元组还包括其兴趣标签对应的活跃度信息,活跃度信息表示该兴趣标签在预定周期内每一天出现或不出现的情况,其中,将下一天的当日兴趣多元组中对应的当日兴趣比重累加到累计兴趣权重的步骤还包括:查询兴趣标签的活跃度信息,以确定该兴趣标签在下一天的当日兴趣多元组中是否出现。
在上述方法实施例中,通过在基准兴趣元组中包含活跃度信息可以方便地查询基准兴趣元组中各个兴趣标签的活跃度,从而便于确定该兴趣标签在下一天的当日兴趣多元组中是否出现,以进行相应的增强或减弱调整。
在一种方法实施例中,活跃度信息由二进制数表示,二进制数的位数与预定周期的天数相对应,二进制数每一个位的取值分别表示该兴趣标签在预定周期内对应的那一天是否出现。
在上述方法实施例中,通过将二进制数的位数与预定周期的天数相对应可以获得预定周期内某种兴趣活跃度的比特位图,方便表示和查询该兴趣在某日是否出现,并且二进制的比特位图占用存储空间小。
在一种方法实施例中,该方法还包括基于预定周期之后新的一天的日志信息来更新一个或多个基准兴趣元组,其中,更新一个或多个基准兴趣元组的步骤包括:根据新的一天的日志信息,建立新当日兴趣多元组;对于每个兴趣标签,将新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重。
在上述实施例中,在完成初次建模之后即完成预定周期内对用户兴趣的计算之后,可以继续基于更多的日志信息对预定周期之后用户的兴趣进行分析,从而获得更多的用户访问网页的兴趣,并且计算量小。
在一种方法实施例中,将新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重的步骤包括:
根据该兴趣标签在新当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;以及将该兴趣标签在新当日兴趣多元组中对应的当日兴趣比重与调整后的累计兴趣权重相加,得到新累计兴趣权重。
在该实施例中,可以在后续基于日志信息对预定周期之后用户的兴趣继续进行分析中,体现用户兴趣的动态变化因素,从而获得更准确的用户兴趣信息。
在一种方法实施例中,增大累计兴趣权重的步骤包括:按照预定的比例或数值增大兴趣标签对应的累计兴趣权重;
减小累计兴趣权重的步骤包括:按照预定的比例或数值减小兴趣标签对应的累计兴趣权重。
通过预定的比例或数值作为兴趣增强因子或兴趣衰减因子,进行增加或这减小累计兴趣权重的计算,能够方便地表示用户各类兴趣的更新情况。
通过预定的比例或数值作为兴趣增强因子或兴趣衰减因子,进行增加或这减小累计兴趣权重的计算,能够方便地表示用户各类兴趣的动态变化情况,减少早期数据的干扰。
在一种方法实施例中,基准兴趣元组还包括其兴趣标签对应的活跃度信息,活跃度信息表示该兴趣标签在预定周期内每一天出现或不出现的情况,活跃度信息由二进制数表示,二进制数的位数与预定周期的天数相对应,二进制数每一个位的取值分别表示该兴趣标签在预定周期内对应的那一天是否出现,
更新一个或多个基准兴趣元组的步骤还包括:
对于每个基准兴趣元组,对表示兴趣标签对应的活跃度信息的二进制数进行移位,使其中对应于最早一天的位溢出,并以表示新当日兴趣多元组中是否出现该兴趣标签的取值作为二进制数中对应于最后一天的位。
通过上述实施例,在完成初次建模之后,可以通过二进制移位,更新新基准兴趣元组中所记录的兴趣的活跃度信息,从而方便更急活跃度信息进行调整计算。
在一种方法实施例中,还包括:根据二进制数中“0”和“1”的分布,对该二进制数所对应的兴趣标签进行分类。
在一些实施例中,通过兴趣标签对应的二进制数的“0”、“1”个数和分布情况,能够方便地将用户的兴趣进行分类。
在一种方法实施例中,根据预定周期内用户访问网页的日志信息获得预定周期内每一天的当日兴趣多元组的步骤包括:
通过分别分析用户每一天访问过的网页,确定每一天涉及的兴趣标签和对应的当日兴趣权重;将每一天的所有兴趣标签对应的兴趣权重按比例统一化,得到每个兴趣标签对应的兴趣比重,使得每一天的所有兴趣标签对应的兴趣比重之和为预定的常数。
在上述实施例中,通过将每一天的所有兴趣标签对应的兴趣权重按比例统一化,而非简单地统计访问网页的数量,从而更能够体现不同兴趣的相对重要程度。
根据本申请的另一个方面,还提供了一种浏览器日志信息的分析装置,包括:
当日兴趣获取单元,用于根据预定周期内用户访问网页的日志信息,获得预定周期内每一天的当日兴趣多元组,当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,兴趣标签表示用户当日访问的网页各自的类别,当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例;
兴趣多元组合并单元,用于基于预定周期内每一天的当日兴趣多元组,获得一个或多个基准兴趣元组,每个基准兴趣元组包括兴趣标签和累计兴趣权重,其中,累加预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。
通过本发明的上述实施例,基于用户访问网页的日志信息,为建立用户的兴趣多元组提供了真实可靠的数据基础。对预定周期内当日兴趣多元组进行合并操作体现了预定周期内持续跟踪用户的浏览行为,所获得的累计兴趣权重则体现了该预定周期内用户访问网页的兴趣的累加结果,从而减少了偶然网页访问带来干扰,能掌握更为稳定和准确的用户访问网页的兴趣所在。
在一种装置实施例中,兴趣多元组合并单元,用于对于每个兴趣标签,以预定周期内存在日志信息的第一天的当日兴趣比重作为初始累计兴趣权重,按时间顺序逐日将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重,
其中,兴趣多元组合并单元包括:
兴趣权重调整模块,用于根据该兴趣标签在下一天的当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;以及
兴趣权重累加模块,用于将该兴趣标签在下一天的当日兴趣多元组中对应的当日兴趣比重与调整后的累计兴趣权重相加,得到新累计兴趣权重。
在上述实施例中,按照时间顺序逐日累加当日兴趣多元组中对应的当日兴趣比重,同时根据兴趣在后续日期中是否出现,在累加之前对原累计兴趣权重进行增大或减小调整,从而减少早起数据的影响,体现了用户访问兴趣按照日期的动态变化,使得调整后的累计兴趣权重包含访问兴趣的动态因素,更准确地反映用户的访问兴趣情况。
同时,在本实施例中,对于每个兴趣标签,在预定周期内按时间顺序逐日将下一天的当日兴趣比重累加到对应的累计兴趣权重,由于按照顺序进行累加,因此对于获得最新的累计兴趣权重,只需要将之前的累计兴趣权重和下一天的当日兴趣比重进行累加,即只需要进行一次计算即可,而不需要每次从预定周期内第一日开始计算,大大减少了计算量。
在一种装置实施例中,基准兴趣元组还包括其兴趣标签对应的活跃度信息,活跃度信息表示该兴趣标签在预定周期内每一天出现或不出现的情况,
兴趣多元组合并单元还包括:活跃度查询模块,用于查询兴趣标签的活跃度信息,以便兴趣权重调整模块确定该兴趣标签在下一天的当日兴趣多元组中是否出现。
在上述方法实施例中,通过在基准兴趣元组中包含活跃度信息可以方便地查询基准兴趣元组中各个兴趣标签的活跃度,从而便于确定该兴趣标签在下一天的当日兴趣多元组中是否出现,以进行相应的增强或减弱调整。
在一种装置实施例中,活跃度信息由二进制数表示,二进制数的位数与预定周期的天数相对应,二进制数每一个位的取值分别表示该兴趣标签在预定周期内对应的那一天是否出现。
在上述方法实施例中,通过将二进制数的位数与预定周期的天数相对应可以获得预定周期内某种兴趣活跃度的比特位图,方便表示和查询该兴趣在某日是否出现,并且二进制的比特位图占用存储空间小。
在一种装置实施例中,兴趣权重累加模块还用于基于预定周期之后新的一天的日志信息来更新一个或多个基准兴趣元组,其中,兴趣权重累加模块根据新的一天的日志信息,建立新当日兴趣多元组;对于每个兴趣标签,将新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重。
在上述实施例中,在完成初次建模之后即完成预定周期内对用户兴趣的计算之后,可以继续基于更多的日志信息对预定周期之后用户的兴趣进行分析,从而获得更多的用户访问网页的兴趣,并且计算量小。
在一种装置实施例中,兴趣权重调整模块,用于根据该兴趣标签在新当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;
兴趣权重累加模块用于将该兴趣标签在新当日兴趣多元组中对应的当日兴趣比重与调整后的累计兴趣权重相加,得到新累计兴趣权重。
在该实施例中,可以在后续基于日志信息对预定周期之后用户的兴趣继续进行分析中,体现用户兴趣的动态变化因素,从而获得更准确的用户兴趣信息。
在一种装置实施例中,兴趣权重调整模块用于按照预定的比例或数值增大兴趣标签对应的累计兴趣权重;按照预定的比例或数值减小兴趣标签对应的累计兴趣权重。
通过预定的比例或数值作为兴趣增强因子或兴趣衰减因子,进行增加或这减小累计兴趣权重的计算,能够方便地表示用户各类兴趣的动态变化情况,减少早期数据的干扰。
在一种装置实施例中,基准兴趣元组还包括其兴趣标签对应的活跃度信息,活跃度信息表示该兴趣标签在预定周期内每一天出现或不出现的情况,活跃度信息由二进制数表示,二进制数的位数与预定周期的天数相对应,二进制数每一个位的取值分别表示该兴趣标签在预定周期内对应的那一天是否出现,装置还包括:活跃度更新单元,用于
对于每个基准兴趣元组,对表示兴趣标签对应的活跃度信息的二进制数进位,使其中对应于最早一天的位溢出,并以表示新当日兴趣多元组中是否出现该兴趣标签的取值作为二进制数中对应于最后一天的位。
通过上述实施例,在完成初次建模之后,可以通过二进制移位,更新新基准兴趣元组中所记录的兴趣的活跃度信息,从而方便更急活跃度信息进行调整计算。
在一种装置实施例中,该装置还包括:
分类单元,用于根据二进制数中“0”和“1”的分布,对该二进制数所对应的兴趣标签进行分类。
在上述实施例中,通过兴趣标签对应的二进制数的“0”、“1”个数和分布情况,能够方便地将用户的兴趣进行分类。
在一种装置实施例中,当日兴趣获取单元包括:
分析模块,用于通过分别分析用户每一天访问过的网页,确定每一天涉及的兴趣标签和对应的当日兴趣权重;
统一化模块,用于将每一天的所有兴趣标签对应的兴趣权重按比例统一化,得到每个兴趣标签对应的兴趣比重,使得每一天的所有兴趣标签对应的兴趣比重之和为预定的常数。
在上述实施例中,通过将每一天的所有兴趣标签对应的兴趣权重按比例统一化,而非简单地统计访问网页的数量,从而更能够体现不同兴趣的相对重要程度。
根据本发明的一个方面,还提供了一种一种浏览器日志信息的分析装置,包括:
存储器,用于存储用户访问网页的日志信息;以及
处理器,连接到存储器,用于根据预定周期内用户访问网页的日志信息,获得预定周期内每一天的当日兴趣多元组,并基于预定周期内每一天的当日兴趣多元组,获得一个或多个基准兴趣元组,并将一个或多个基准兴趣元组保存到存储器中,
其中,当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,兴趣标签表示用户当日访问的网页各自的类别,当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例,
每个基准兴趣元组包括兴趣标签和累计兴趣权重,
其中,处理器累加预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。
在一种实施例中,该分析装置,还包括:
日志信息获取装置,用于从客户端获取日志信息,并将日志信息保存在存储器中,
处理器根据日志信息获取装置获取的预定周期之后新的一天的日志信息,建立新当日兴趣多元组,并且对于每个兴趣标签,将新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重,从而更新基准兴趣元组,并将更新后的基准兴趣元组保存到存储器中。
通过根据本发明的浏览器日志信息分析方法和分析装置,可以基于用户访问网页的日志信息,为建立用户的兴趣多元组提供了真实可靠的数据基础。对预定周期内当日兴趣多元组进行合并操作体现了预定周期内持续跟踪用户的浏览行为,所获得的累计兴趣权重则体现了该预定周期内用户访问网页的兴趣的累加结果,从而减少了偶然网页访问带来干扰,能掌握更为稳定和准确的用户访问网页的兴趣所在。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出本发明提供的浏览器日志信息的分析方法一种实施例的流程示意图。
图2示出本发明提供的浏览器日志信息的分析方法另一种实施例的流程示意图。
图3示出本发明提供的浏览器日志信息的分析装置一种实施例的结构示意图。
图4示出本发明提供的浏览器日志信息的分析装置另一种实施例的结构示意图。
图5示出本发明提供的浏览器日志信息的分析装置还一种实施例的结构示意图。
图6示出本发明提供的浏览器日志信息的分析装置再一种实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
参见图1所示,该图示出本发明提供的浏览器日志信息的分析方法一种实施例的流程示意图。该实施例中的浏览器日志信息的分析方法包括以下步骤:
S101,根据预定周期内用户访问网页的日志信息,获得预定周期内每一天的当日兴趣多元组,当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,该兴趣标签表示用户当日访问的网页各自的类别,当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例;
S102,基于预定周期内每一天的当日兴趣多元组获得一个或多个基准兴趣元组,每个基准兴趣元组包括兴趣标签和累计兴趣权重,其中,累加该预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。也可以将包含基准兴趣元组的结构视为基准兴趣多元组,即基准兴趣多元组可以包括一个或多个基准兴趣元组。
在上述S101的操作中,可以收集预定周期内每一天用户访问网页的日志信息,例如手机浏览器客户端或者中间件的浏览日志,然后对所访问的网页地址进行分类,例如按照统一资源定位器(URL,Uniform Resource Locator)进行分类,不同分类可以对应不同的兴趣标签,再根据被访问的该类别的网页数量占当日被访问的全部网页数量的比例获得该兴趣标签的当日兴趣比重。示例性地,当日兴趣元组可以如(兴趣标签:当日兴趣比重),而一日的当日兴趣多元组则包含一个或多个当日兴趣元组,例如Interest{(小说:80),(游戏:20)},其中,“小说”、“游戏”分别表示兴趣标签,“80”、“20”分别表示当日兴趣比重。
在上述方法实施例中,基于用户访问网页的日志信息,为建立用户的兴趣多元组提供了真实可靠的数据基础。对预定周期内的多个当日兴趣多元组进行合并操作体现实现了对一定周期内用户浏览行为的持续跟踪分析,所获得的累计兴趣权重则体现了该预定周期内用户访问网页的兴趣的累加结果,从而减少了偶然网页访问带来干扰,能掌握更为稳定和准确的用户访问网页的兴趣所在从而减少了偶然网页访问带来干扰,提供了更为完整和准确的反映出用户稳定的兴趣情况。
其中,在S101的操作中,若根据日志信息的记录,具有日志信息的天数少于预定周期的天数,则预定周期可以转化为具有日志信息的时期。示例性地,预定的周期长度可以为60天、90天或180天等。
另外,由于累计兴趣权重反映了用户的兴趣强烈程度,也可以通过累计兴趣权重的数值推测用户的兴趣规律,例如可以推测累计兴趣权重数值从大到小到的兴趣分别为:长期兴趣(稳定兴趣)、高频兴趣、周期兴趣、即时兴趣、新兴趣。
在一种方法实施例中,S101步骤根据预定周期内用户访问网页的日志信息获得预定周期内每一天的当日兴趣多元组的步骤包括还可以包括:通过分别分析用户每一天访问过的网页,确定每一天涉及的兴趣标签和对应的当日兴趣权重;将每一天的所有兴趣标签对应的兴趣权重按比例统一化,得到每个兴趣标签对应的兴趣比重,使得每一天的所有兴趣标签对应的兴趣比重之和为预定的常数。例如,利用以下W(xi)函数将每一天的所有兴趣标签对应的兴趣权重进行统一化获得兴趣比重,使所有兴趣标签对应的兴趣比重之和相加等于常数,如100:
i为用户的第i个兴趣标签,xi为第i个兴趣标签对应的当日兴趣权重,n为兴趣标签个数之和。
通过将每一天的所有兴趣标签对应的兴趣权重按比例统一化,而非简单的访问网页数量,从而更能够体现不同兴趣的相对重要程度。另外,还可以对统一化后的当日兴趣多元组中的兴趣比重进行排序,以方便获取每日当日兴趣多元组的用户兴趣的高低顺序。
图2示出本发明提供的浏览器日志信息的分析方法另一种实施例的流程示意图。在该方法实施例中,相对于S102,在图2实施例中累加预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重的步骤包括:
对于每个兴趣标签,以该预定周期内存在日志信息的第一天的当日兴趣比重作为初始累计兴趣权重,按时间顺序逐日将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重。
例如,以下G(xi)表示基准兴趣元组中将下一天的当日兴趣多元组中相同兴趣的当日兴趣比重累加到原累计兴趣权重,得到新基准兴趣元组:
G(xi)=(xb)i+(xd)i
i为用户的第i个兴趣标签,xb为基准兴趣元组中的累计兴趣权重,xd为下一天的当日兴趣多元组中对应的当日兴趣比重。
其中,将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重的步骤包括:
S202,根据该兴趣标签在下一天的当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;
S203将该兴趣标签在下一天的当日兴趣多元组中对应的当日兴趣比重与调整后的累计兴趣权重相加,得到新累计兴趣权重。在上述公式中,xb为已经进行了兴趣衰减及增强调整计算后的原累计兴趣权重。
在上述实施例中,从具有日志信息的第一天开始按照时间顺序逐日累加当日兴趣多元组中对应的当日兴趣比重,同时根据该兴趣在后续日期中是否出现,在累加之前对原始数即原累计兴趣权重进行增大或减小调整。如果一个兴趣很久没有出现,则累计兴趣权重因为不断地减小调整而衰减得很小。后续即使在更新基准兴趣元组时,实际累加的当日兴趣数据超过预定周期,但是预定周期之前或早期的数据影响已经减弱,从而不会对当前的兴趣计算带来大的干扰。相反,如果某兴趣持续出现,在增强调整计算后将持续增强,即使累加的当日兴趣数据超过预定周期,其兴趣比重依然较大。
可见,上述实施例中的调整计算可以根据实际情况减少早起数据的影响,符合用户兴趣动态变化的规律,使得调整后的累计兴趣权重包含该兴趣的动态更新因素,更准确地反映用户访问网页的兴趣所在。
同时,在本实施例中,对于每个兴趣标签,在预定周期内按时间顺序逐日将下一天的当日兴趣比重累加到对应的累计兴趣权重,由于按照顺序进行累加,因此对于获得最新的累计兴趣权重,只需要将之前的累计兴趣权重和下一天的当日兴趣比重进行累加,即只需要进行一次计算即可,而不需要每次从预定周期内第一日开始计算,从而大大减少了计算量。
在一种方法实施例中,基准兴趣元组还包括其兴趣标签对应的活跃度信息,活跃度信息表示该兴趣标签在预定周期内每一天出现或不出现的情况,其中,将下一天的当日兴趣多元组中对应的当日兴趣比重累加到累计兴趣权重的步骤还包括:查询兴趣标签的活跃度信息,以确定该兴趣标签在下一天的当日兴趣多元组中是否出现。
在该实施例中,基准兴趣元组基于当日兴趣多元组计算而来的,然而基准兴趣元组的每个元组有三部分组成,如:(兴趣标签:累计兴趣权重:活跃度信息)。例如,若预定周期为180天,活跃度信息则表示在180天内该兴趣出现或不出现的情况。通过在基准兴趣元组包含活跃度信息,从而可以方便地查询基准兴趣元组中兴趣标签的活跃度信息,以确定该兴趣标签在下一天的当日兴趣多元组中是否出现,从而进行相应的增强或减弱调整。
在一种方法实施例中,活跃度信息由二进制数表示,二进制数的位数与预定周期的天数相对应,二进制数每一个位的取值分别表示该兴趣标签在预定周期内对应的那一天是否出现。
例如,180天的活跃度信息为180位的比特图(bitmap),记录了用户的某个兴趣在过去180天内哪些天出现了该兴趣。也可以采用十六进制的数来表示,例如,单个基准兴趣元组格式为:(兴趣标签:累计兴趣权重:180位bitmap)。如:(小说:80:AE00ABF570055FAB)。
在该实施例中,通过将二进制数的位数与预定周期的天数相对应可以获得预定周期内某种兴趣活跃度的比特位图,方便表示和查询该兴趣是否出现,并且二进制的比特位图占用存储空间小。
在一种方法实施例中,该方法还包括基于预定周期之后新的一天的日志信息来更新一个或多个基准兴趣元组,其中,更新一个或多个基准兴趣元组的步骤包括:根据新的一天的日志信息,建立新当日兴趣多元组;对于每个兴趣标签,将新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重。通过上述实施例,在完成初次建模之后,即完成预定周期内对用户兴趣的计算之后,可以继续基于日志信息对预定周期之后用户的兴趣进行分析,从而获得更多的用户访问网页的兴趣,并且计算量小。
在一种方法实施例中,将新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重的步骤包括:根据该兴趣标签在新当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;以及将该兴趣标签在新当日兴趣多元组中对应的当日兴趣比重与调整后的累计兴趣权重相加,得到新累计兴趣权重。
通过上述实施例,可以在后续基于日志信息对预定周期之后用户的兴趣进行分析中,体现用户兴趣的动态变化因素,从而获得更准确的用户访问网页的兴趣所在。
在一种方法实施例中,增大累计兴趣权重的步骤包括:按照预定的比例或数值增大兴趣标签对应的累计兴趣权重;减小累计兴趣权重的步骤包括:按照预定的比例或数值减小兴趣标签对应的累计兴趣权重。通过预定的比例或数值作为兴趣增强因子或兴趣衰减因子,进行增加或这减小累计兴趣权重的计算,能够方便地表示用户各类兴趣的动态变化情况,减少早期数据的干扰。
在一种方法实施例中,基准兴趣元组还包括其兴趣标签对应的活跃度信息,活跃度信息表示该兴趣标签在预定周期内每一天出现或不出现的情况。活跃度信息由二进制数表示,二进制数的位数与预定周期的天数相对应,二进制数每一个位的取值分别表示该兴趣标签在预定周期内对应的那一天是否出现。更新一个或多个基准兴趣元组的步骤还包括:对于每个基准兴趣元组,对表示兴趣标签对应的活跃度信息的二进制数进行移位,使其中对应于最早一天的位溢出,并以表示新当日兴趣多元组中是否出现该兴趣标签的取值作为二进制数中对应于最后一天的位。
通过上述实施例,在完成初次建模之后,可以通过二进制移位,更新新基准兴趣元组中所记录的兴趣的活跃度信息。
在一种方法实施例中,还包括:根据二进制数中“0”和“1”的分布,对该二进制数所对应的兴趣标签进行分类。通过兴趣标签对应的二进制数的0、1个数和分布情况,能够方便地将用户的兴趣进行分类。例如,1表示出现,0表示未出现。
以180天为预定周期的活跃度信息为例,根据该兴趣是否出现可以将用户兴趣分为长期兴趣或稳定兴趣、高频兴趣、周期兴趣、短期兴趣、新兴趣及潜在兴趣。示例性的定义如下:
长期兴趣(稳定兴趣):在180天出现此兴趣次数大于等于120,且以30天为时间窗口,在6个时间窗口(例如,6天)中此兴趣连续出现;
高频兴趣:在180天中出现此兴趣次数大于等于90,小于120,且以30天为时间窗口,在6个时间窗口中此兴趣连续出现;
周期兴趣:在180天中出现此兴趣次数大于等于90,小于120,且以30天为时间窗口,在6个时间窗口中此兴趣不连续出现;
短期兴趣:在180天中出现此兴趣次数大于等于30,小于90;
新兴趣:在180天中,30天为时间窗口,只在最近的一个时间窗口出此兴趣,且出现的兴趣次数大于10。
基于以上分析,还可以通过关联分析,分析获得用户的潜在兴趣。例如,使用180天预定周期计算出来用户的具有高频兴趣为小说玄幻、小说灵异,可通过关联分析获得该用户的潜在兴趣为玄幻类主题的游戏和玄幻类的动漫。另外,通过以上分析,也可以分析用户的兴趣转移。如用户因工作内容的发生变化,在预定周期的前部分为某种高频兴趣,而后部分则为另外一种高频兴趣。
获到最新的基准兴趣元组即最新的用户兴趣总表数据中详细记录了用户的各类兴趣及各类兴趣的累计兴趣权重,在包含兴趣活跃度信息的还包含了兴趣发生的频次。例如,其中一个元组为(小说:80:AE00ABF570055FAB),由此可知该用户在过去180天中有84天看小说,且看小说的行为具有周期性的,从而可基于该基准兴趣元组进行多种应用。
通过最新的基准兴趣元组,可以应用于基于用户兴趣的精准推送,例如业务拉新、拉活、灰度新功能,具体如下:
拉新精准推送:通过选择用户兴趣与本业务相关的用户群,并去除已经实用本业务的用户进行推送,可获取新用户;
交叉拉新精准推送:选择用户潜在兴趣与本业务相关的用户群,并去除已经实用本业务的用户进行推送,同样可获取新用户;
拉活推送:圈出本业务不活跃的用户群,根据用户的兴趣,主要考虑用户兴趣的累计兴趣权重,有针对性的给用户推送用户最感兴趣的内容,提高用户的活跃度;
灰度新功能:当本业务上线新功能时,对此功能最感兴趣的用户进行推送,检验新功能效果。
还可以实现基于用户兴趣的用户行为监控统计。最新的基准兴趣元组即最新的用户兴趣总表数据记录了用户访问兴趣,通过对用户兴趣行为的监控统计,可以直观了解到用户的兴趣走向、及兴趣的周期变化,有助于设计人员进行产品规划、设计和开展市场活动。
根据本申请的另一个方面,本申请还提供了一种浏览器日志信息的分析装置。图3示出本发明提供的浏览器日志信息的分析装置一种实施例的结构示意图。该实施例中的装置包括:
当日兴趣获取单元301,用于根据预定周期内用户访问网页的日志信息,获得预定周期内每一天的当日兴趣多元组,当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,兴趣标签表示用户当日访问的网页各自的类别,当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例;
兴趣多元组合并单元302,用于基于预定周期内每一天的当日兴趣多元组,获得一个或多个基准兴趣元组,每个基准兴趣元组包括兴趣标签和累计兴趣权重,其中,累加预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。
图4示出本发明提供的浏览器日志信息的分析装置一种实施例的结构示意图。在一种装置实施例中,兴趣多元组合并单元402用于对于每个兴趣标签,以预定周期内存在日志信息的第一天的当日兴趣比重作为初始累计兴趣权重,按时间顺序逐日将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重,其中,兴趣多元组合并单元402包括:
兴趣权重调整模块4021,用于根据该兴趣标签在下一天的当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;以及
兴趣权重累加模块4022,用于将该兴趣标签在下一天的当日兴趣多元组中对应的当日兴趣比重与调整后的累计兴趣权重相加,得到新累计兴趣权重。
在一种装置实施例中,基准兴趣元组还包括其兴趣标签对应的活跃度信息,活跃度信息表示该兴趣标签在预定周期内每一天出现或不出现的情况,兴趣多元组合并单元402还包括:
活跃度查询模块4023,用于查询兴趣标签的活跃度信息,以便兴趣权重调整模块确定该兴趣标签在下一天的当日兴趣多元组中是否出现。
在一种装置实施例中,活跃度信息由二进制数表示,二进制数的位数与预定周期的天数相对应,二进制数每一个位的取值分别表示该兴趣标签在预定周期内对应的那一天是否出现。
该在一种装置实施例中,兴趣权重累加模块4022还用于基于预定周期之后新的一天的日志信息来更新一个或多个基准兴趣元组,其中,兴趣权重累加模块4022用于根据新的一天的日志信息,建立新当日兴趣多元组;对于每个兴趣标签,将新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重。
在一种装置实施例中,兴趣权重调整模块4021用于根据该兴趣标签在新当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;
兴趣权重累加模块4022用于将该兴趣标签在新当日兴趣多元组中对应的当日兴趣比重与调整后的累计兴趣权重相加,得到新累计兴趣权重。
在一种装置实施例中,兴趣权重调整模块4021用于:按照预定的比例或数值增大兴趣标签对应的累计兴趣权重;按照预定的比例或数值减小兴趣标签对应的累计兴趣权重。
图5示出本发明提供的浏览器日志信息的分析装置再一种实施例的结构示意图。在该装置实施例中,基准兴趣元组还包括其兴趣标签对应的活跃度信息,活跃度信息表示该兴趣标签在预定周期内每一天出现或不出现的情况,活跃度信息由二进制数表示,二进制数的位数与预定周期的天数相对应,二进制数每一个位的取值分别表示该兴趣标签在预定周期内对应的那一天是否出现。该装置还包括:活跃度更新单元501,还用于对于每个基准兴趣元组,对表示兴趣标签对应的活跃度信息的二进制数进位,使其中对应于最早一天的位溢出,并以表示新当日兴趣多元组中是否出现该兴趣标签的取值作为二进制数中对应于最后一天的位。
在一种装置实施例中,该装置还包括:分类单元,用于根据二进制数中“0”和“1”的分布,对该二进制数所对应的兴趣标签进行分类。
图6示出本发明提供的浏览器日志信息的分析装置再一种实施例的结构示意图。在该装置实施例中,该当日兴趣获取单元301包括:
分析模块3011,用于通过分别分析用户每一天访问过的网页,确定每一天涉及的兴趣标签和对应的当日兴趣权重;
统一化模块3012,用于将每一天的所有兴趣标签对应的兴趣权重按比例统一化,得到每个兴趣标签对应的兴趣比重,使得每一天的所有兴趣标签对应的兴趣比重之和为预定的常数。
通过本申请提供用户兴趣模型,即兴趣当日兴趣多元组和基准兴趣元组的建立及更新方法,可以较为准确的表示用户一定时期内的各类兴趣的强烈程度,发现和表示用户的兴趣分类,如长期兴趣(稳定兴趣)、高频兴趣、周期兴趣、即时兴趣、新兴趣,同时也为发现用户潜在兴趣,提取提供了分析基础和条件。
在此基础上,可以根据不同的业务需求通过不同的兴趣范围选择不同的用户群进行推广使用。在用户兴趣模型中记录用户兴趣的活跃度,可大大减小用户兴趣模型的计算量,每日只需使用最新的用户基准兴趣元组与当日兴趣多元组进行计算,而不用每次使用整个预定周期的用户兴趣元组进行计算,大大减少了计算量。
本发明还提供了一种浏览器日志信息的分析装置,包括:存储器和处理器。存储器用于存储用户访问网页的日志信息。处理器,连接到存储器,用于根据预定周期内用户访问网页的日志信息,获得预定周期内每一天的当日兴趣多元组,并基于预定周期内每一天的当日兴趣多元组,获得一个或多个基准兴趣元组,并将一个或多个基准兴趣元组保存到存储器中。当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,兴趣标签表示用户当日访问的网页各自的类别,当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例,每个基准兴趣元组包括兴趣标签和累计兴趣权重,其中,处理器累加预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。
在一种分析装置实施例中,该分析装置实施例还包括:日志信息获取装置,用于从客户端获取日志信息,并将日志信息保存在存储器中。处理器根据日志信息获取装置获取的预定周期之后新的一天的日志信息,建立新当日兴趣多元组,并且对于每个兴趣标签,将新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重,从而更新基准兴趣元组,并将更新后的基准兴趣元组保存到存储器中。
上文中已经参考附图详细描述了根据本发明的浏览器日志信息的分析方法和装置。
此外,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明浏览器日志信息的分析方法和装置的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (22)

1.一种浏览器日志信息的分析方法,其特征在于,包括:
根据预定周期内用户访问网页的日志信息,获得所述预定周期内每一天的当日兴趣多元组,所述当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,所述兴趣标签表示用户当日访问的网页各自的类别,所述当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例,每一天的所有兴趣标签对应的当日兴趣比重之和为预定的常数;
基于所述预定周期内每一天的当日兴趣多元组,获得一个或多个基准兴趣元组,每个基准兴趣元组包括兴趣标签和累计兴趣权重,其中,累加所述预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。
2.根据权利要求1所述的方法,其特征在于,累加所述预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重的步骤包括:
对于每个兴趣标签,以所述预定周期内存在日志信息的第一天的当日兴趣比重作为初始累计兴趣权重,按时间顺序逐日将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重,
其中,所述将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重的步骤包括:
根据该兴趣标签在所述下一天的当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;以及
将该兴趣标签在所述下一天的当日兴趣多元组中对应的当日兴趣比重与所述调整后的累计兴趣权重相加,得到新累计兴趣权重。
3.根据权利要求2所述的方法,其特征在于,所述基准兴趣元组还包括其兴趣标签对应的活跃度信息,所述活跃度信息表示该兴趣标签在所述预定周期内每一天出现或不出现的情况,
其中,所述将下一天的当日兴趣多元组中对应的当日兴趣比重累加到累计兴趣权重的步骤还包括:
查询兴趣标签的所述活跃度信息,以确定该兴趣标签在下一天的当日兴趣多元组中是否出现。
4.根据权利要求3所述的方法,其特征在于,所述活跃度信息由二进制数表示,所述二进制数的位数与所述预定周期的天数相对应,所述二进制数每一个位的取值分别表示该兴趣标签在所述预定周期内对应的那一天是否出现。
5.根据权利要求1所述的方法,其特征在于,还包括基于所述预定周期之后新的一天的日志信息来更新所述一个或多个基准兴趣元组,其中,更新所述一个或多个基准兴趣元组的步骤包括:
根据所述新的一天的日志信息,建立新当日兴趣多元组;
对于每个兴趣标签,将所述新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重。
6.根据权利要求5所述的方法,其特征在于,将所述新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重的步骤包括:
根据该兴趣标签在所述新当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;以及
将该兴趣标签在所述新当日兴趣多元组中对应的当日兴趣比重与所述调整后的累计兴趣权重相加,得到新累计兴趣权重。
7.根据权利要求2或6所述的方法,其特征在于,
增大所述累计兴趣权重的步骤包括:按照预定的比例或数值增大所述兴趣标签对应的累计兴趣权重;
减小所述累计兴趣权重的步骤包括:按照预定的比例或数值减小所述兴趣标签对应的累计兴趣权重。
8.根据权利要求5所述的方法,其特征在于,
所述基准兴趣元组还包括其兴趣标签对应的活跃度信息,所述活跃度信息表示该兴趣标签在所述预定周期内每一天出现或不出现的情况,
所述活跃度信息由二进制数表示,所述二进制数的位数与所述预定周期的天数相对应,所述二进制数每一个位的取值分别表示该兴趣标签在所述预定周期内对应的那一天是否出现,
更新所述一个或多个基准兴趣元组的步骤还包括:
对于每个基准兴趣元组,对表示兴趣标签对应的活跃度信息的二进制数进行移位,使其中对应于最早一天的位溢出,并以表示所述新当日兴趣多元组中是否出现该兴趣标签的取值作为所述二进制数中对应于最后一天的位。
9.根据权利要求4所述的方法,其特征在于,还包括:
根据所述二进制数中“0”和“1”的分布,对该二进制数所对应的兴趣标签进行分类。
10.根据权利要求1所述的方法,其特征在于,根据预定周期内用户访问网页的日志信息获得所述预定周期内每一天的当日兴趣多元组的步骤包括:
通过分别分析用户每一天访问过的网页,确定每一天涉及的兴趣标签和对应的当日兴趣权重;
将每一天的所有兴趣标签对应的兴趣权重按比例统一化,得到每个兴趣标签对应的所述兴趣比重,使得每一天的所有兴趣标签对应的兴趣比重之和为预定的常数。
11.一种浏览器日志信息的分析装置,其特征在于,包括:
当日兴趣获取单元,用于根据预定周期内用户访问网页的日志信息,获得所述预定周期内每一天的当日兴趣多元组,所述当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,所述兴趣标签表示用户当日访问的网页各自的类别,所述当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例,每一天的所有兴趣标签对应的当日兴趣比重之和为预定的常数;
兴趣多元组合并单元,用于基于所述预定周期内每一天的当日兴趣多元组,获得一个或多个基准兴趣元组,每个基准兴趣元组包括兴趣标签和累计兴趣权重,其中,累加所述预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。
12.根据权利要求11所述的装置,其特征在于,所述兴趣多元组合并单元,用于对于每个兴趣标签,以所述预定周期内存在日志信息的第一天的当日兴趣比重作为初始累计兴趣权重,按时间顺序逐日将下一天的当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重,
其中,所述兴趣多元组合并单元包括:
兴趣权重调整模块,用于根据该兴趣标签在所述下一天的当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;以及
兴趣权重累加模块,用于将该兴趣标签在所述下一天的当日兴趣多元组中对应的当日兴趣比重与所述调整后的累计兴趣权重相加,得到新累计兴趣权重。
13.根据权利要求12所述的装置,其特征在于,所述基准兴趣元组还包括其兴趣标签对应的活跃度信息,所述活跃度信息表示该兴趣标签在所述预定周期内每一天出现或不出现的情况,
所述兴趣多元组合并单元还包括:活跃度查询模块,用于查询兴趣标签的所述活跃度信息,以便所述兴趣权重调整模块确定该兴趣标签在下一天的当日兴趣多元组中是否出现。
14.根据权利要求13所述的装置,其特征在于,所述活跃度信息由二进制数表示,所述二进制数的位数与所述预定周期的天数相对应,所述二进制数每一个位的取值分别表示该兴趣标签在所述预定周期内对应的那一天是否出现。
15.根据权利要求11所述的装置,其特征在于,所述兴趣权重累加模块还用于基于所述预定周期之后新的一天的日志信息来更新所述一个或多个基准兴趣元组,
其中,所述兴趣权重累加模块根据所述新的一天的日志信息,建立新当日兴趣多元组;对于每个兴趣标签,将所述新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重。
16.根据权利要求15所述的装置,其特征在于,所述兴趣权重调整模块用于根据该兴趣标签在所述新当日兴趣多元组中是否出现,增大或减小原累计兴趣权重,得到调整后的累计兴趣权重;
所述兴趣权重累加模块用于将该兴趣标签在所述新当日兴趣多元组中对应的当日兴趣比重与所述调整后的累计兴趣权重相加,得到新累计兴趣权重。
17.根据权利要求12或16所述的装置,其特征在于,
所述兴趣权重调整模块用于按照预定的比例或数值增大所述兴趣标签对应的累计兴趣权重;按照预定的比例或数值减小所述兴趣标签对应的累计兴趣权重。
18.根据权利要求15所述的装置,其特征在于,所述基准兴趣元组还包括其兴趣标签对应的活跃度信息,所述活跃度信息表示该兴趣标签在所述预定周期内每一天出现或不出现的情况,
所述活跃度信息由二进制数表示,所述二进制数的位数与所述预定周期的天数相对应,所述二进制数每一个位的取值分别表示该兴趣标签在所述预定周期内对应的那一天是否出现,
所述装置还包括:
活跃度更新单元,用于对于每个基准兴趣元组,对表示兴趣标签对应的活跃度信息的二进制数进位,使其中对应于最早一天的位溢出,并以表示所述新当日兴趣多元组中是否出现该兴趣标签的取值作为所述二进制数中对应于最后一天的位。
19.根据权利要求14所述的装置,其特征在于,还包括:
分类单元,用于根据所述二进制数中“0”和“1”的分布,对该二进制数所对应的兴趣标签进行分类。
20.根据权利要求11所述的装置,其特征在于,所述当日兴趣获取单元包括:
分析模块,用于通过分别分析用户每一天访问过的网页,确定每一天涉及的兴趣标签和对应的当日兴趣权重;
统一化模块,用于将每一天的所有兴趣标签对应的兴趣权重按比例统一化,得到每个兴趣标签对应的所述兴趣比重,使得每一天的所有兴趣标签对应的兴趣比重之和为预定的常数。
21.一种浏览器日志信息的分析装置,其特征在于,包括:
存储器,用于存储用户访问网页的日志信息;以及
处理器,连接到所述存储器,用于根据预定周期内用户访问网页的日志信息,获得所述预定周期内每一天的当日兴趣多元组,并基于所述预定周期内每一天的当日兴趣多元组,获得一个或多个基准兴趣元组,并将所述一个或多个基准兴趣元组保存到所述存储器中,
其中,所述当日兴趣多元组包括一个或多个当日兴趣元组,每个当日兴趣元组包括兴趣标签和当日兴趣比重,所述兴趣标签表示用户当日访问的网页各自的类别,所述当日兴趣比重表示被访问的该类别的网页数量占当日被访问的全部网页数量的比例,每一天的所有兴趣标签对应的当日兴趣比重之和为预定的常数,
每个所述基准兴趣元组包括兴趣标签和累计兴趣权重,
其中,所述处理器累加所述预定周期内每一天的当日兴趣多元组中具有相同兴趣标签的当日兴趣元组中的当日兴趣比重,作为具有该兴趣标签的基准兴趣元组中对应的累计兴趣权重。
22.根据权利要求21所述的分析装置,其特征在于,还包括:
日志信息获取装置,用于从客户端获取日志信息,并将所述日志信息保存在所述存储器中,
所述处理器根据所述日志信息获取装置获取的所述预定周期之后新的一天的日志信息,建立新当日兴趣多元组,并且对于每个兴趣标签,将所述新当日兴趣多元组中对应的当日兴趣比重累加到对应的累计兴趣权重,从而更新所述基准兴趣元组,并将更新后的基准兴趣元组保存到所述存储器中。
CN201510593846.5A 2015-09-17 2015-09-17 浏览器日志信息的分析方法和装置 Active CN105589917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510593846.5A CN105589917B (zh) 2015-09-17 2015-09-17 浏览器日志信息的分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510593846.5A CN105589917B (zh) 2015-09-17 2015-09-17 浏览器日志信息的分析方法和装置

Publications (2)

Publication Number Publication Date
CN105589917A CN105589917A (zh) 2016-05-18
CN105589917B true CN105589917B (zh) 2017-05-03

Family

ID=55929498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510593846.5A Active CN105589917B (zh) 2015-09-17 2015-09-17 浏览器日志信息的分析方法和装置

Country Status (1)

Country Link
CN (1) CN105589917B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161206B (zh) * 2016-06-30 2020-01-21 网易传媒科技(北京)有限公司 一种用户信息显示方法、提供方法和装置
CN106339421B (zh) * 2016-08-15 2019-08-13 北京集奥聚合科技有限公司 一种用户浏览行为的兴趣挖掘方法
CN108287831B (zh) * 2017-01-09 2022-08-05 阿里巴巴集团控股有限公司 一种url分类方法和系统、数据处理方法和系统
CN108228804B (zh) * 2017-12-29 2020-12-11 北京奇元科技有限公司 一种更新资源文件标签权重值的方法及装置
CN110737822B (zh) * 2018-07-03 2022-07-26 百度在线网络技术(北京)有限公司 用户兴趣挖掘方法、装置、设备和存储介质
CN109033468B (zh) * 2018-08-31 2022-09-16 创新先进技术有限公司 资源变动的处理方法及装置
CN110995524B (zh) * 2019-10-28 2022-06-14 北京三快在线科技有限公司 流量数据监控方法、装置、电子设备和计算机可读介质
CN111444419B (zh) * 2020-03-02 2024-07-05 平安国际智慧城市科技股份有限公司 资源推荐方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010116371A1 (en) * 2009-04-06 2010-10-14 Tracx Systems Ltd. Method and system for tracking online social interactions
CN101655856A (zh) * 2009-09-15 2010-02-24 西安交通大学 一种获取用户特定知识元兴趣度的方法
CN102831199B (zh) * 2012-08-07 2015-07-08 北京奇虎科技有限公司 建立兴趣模型的方法及装置
CN103678652B (zh) * 2013-12-23 2017-02-01 山东大学 一种基于Web日志数据的信息个性化推荐方法

Also Published As

Publication number Publication date
CN105589917A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN105589917B (zh) 浏览器日志信息的分析方法和装置
CN108363602B (zh) 智能ui界面布局方法、装置、终端设备及存储介质
CN109684575A (zh) 网页数据的处理方法及装置、存储介质、计算机设备
US7779360B1 (en) Map user interface
US20070271519A1 (en) System and Method for Collecting User Interest Data
CN102262661B (zh) 一种基于k阶混合马尔可夫模型的Web页面访问预测方法
CN106295832A (zh) 产品信息推送方法及装置
CN106503015A (zh) 一种构建用户画像的方法
CN104052809B (zh) 一种网站测试的分流控制方法和装置
CN106251174A (zh) 信息推荐方法及装置
CN106850750B (zh) 一种实时推送信息的方法和装置
CN110753920A (zh) 用于优化和模拟网页排序和流量的系统和方法
US8566332B2 (en) Populating variable content slots on web pages
CN109711887A (zh) 商城推荐列表的生成方法、装置、电子设备及计算机介质
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN104574124A (zh) 确定广告数据的展示效果的方法及装置
CN104850627A (zh) 进行分页展示的方法及装置
CN103678325A (zh) 一种用于提供与初始页面相对应的浏览页面的方法和设备
CN109493136A (zh) 一种基于Xgboost算法的点击率预估方法及系统
CN104063431A (zh) 处理静态资源的方法及设备
CN105488163A (zh) 信息推送方法和装置
CN103699614B (zh) 一种确定下载资源时的默认保存路径的方法和装置
CN109543092A (zh) 金融产品推荐方法、装置、存储介质及计算机设备
CN104424325A (zh) 数据查询方法和装置
CN105488161A (zh) 信息推送方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200709

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping B radio 14 floor tower square

Patentee before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right