CN104462156A - 一种基于用户行为的特征提取、个性化推荐方法和系统 - Google Patents

一种基于用户行为的特征提取、个性化推荐方法和系统 Download PDF

Info

Publication number
CN104462156A
CN104462156A CN201310447654.4A CN201310447654A CN104462156A CN 104462156 A CN104462156 A CN 104462156A CN 201310447654 A CN201310447654 A CN 201310447654A CN 104462156 A CN104462156 A CN 104462156A
Authority
CN
China
Prior art keywords
user
web page
path
weight
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310447654.4A
Other languages
English (en)
Other versions
CN104462156B (zh
Inventor
乔平
吴鸣刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310447654.4A priority Critical patent/CN104462156B/zh
Priority to TW102145369A priority patent/TW201513019A/zh
Priority to ES14790816T priority patent/ES2811704T3/es
Priority to US14/495,749 priority patent/US10178190B2/en
Priority to EP14790816.4A priority patent/EP3049912B1/en
Priority to PCT/US2014/057279 priority patent/WO2015048171A2/en
Priority to JP2016545218A priority patent/JP6511455B2/ja
Publication of CN104462156A publication Critical patent/CN104462156A/zh
Application granted granted Critical
Publication of CN104462156B publication Critical patent/CN104462156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供了一种基于用户行为的特征提取方法,包括:获取用户访问网页的点击流数据;依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;针对所述前X个用户访问的网页的预置标签配置综合权重;采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。本申请基于点击流数据,构建用户访问网页的点击路径的带权重的有向图模型,将用户的相关度计算首先转换为带权重有向图的相似度计算,并引入网页标签库,融合网页标签内容的相关度计算,从中挖掘用户的点击习惯与个性化行为偏好,从而提高用户聚类准确率与效率。

Description

一种基于用户行为的特征提取、个性化推荐方法和系统
技术领域
本申请实施例涉及数据处理技术领域,特别是涉及一种基于用户行为的特征提取方法、一种基于用户行为特征提取的系统、一种基于用户行为的个性化推荐方法和一种基于用户行为的个性化推荐系统。
背景技术
因特网Internet的迅猛发展将人们带入了信息社会和网络经济时代,对企业的发展和个人生活都产生了深刻的影响。同时,过量的信息使得人们无法高效地从中获取自己需要的部分,信息的使用效率反而降低。
以电子商务(ElectronicCommerce)为例,电子商务是在Internet开放的网络环境下,基于浏览器/服务器应用方式,实现消费者的网上购物、商户之间的网上交易和在线电子支付的一种新型的商业运营模式。随着Internet的爆发式发展,电子商务越加繁荣。由于供应链和物流的发展,商家能够在网上提供的商品种类和数量非常多,反而大大增加了消费者购物的时间成本,降低了电子商务平台的商品购买率。显然,用户既不愿意花费太多时间在漫无边际的网上寻找商品,也不可能像在现实生活中那样检查商品的质量。而是希望根据自身的兴趣爱好自动获取系统推荐的而且会感到满意的商品。因此根据不同的用户特征,进行个性化推荐,或者把用户划分为不同的群组,进行有针对性的服务,是当前的应用热点之一。
现有技术中,用户聚类多是基于网页点击序列距离的用户访问路径或者用户搜索关键词,用户访问一般是多次的、间断的,每一次访问的点击路径不可能完全一样,现有技术并不能很好地综合衡量用户的多次访问带来的差异,用户聚类的效果差,从而导致服务效率低下。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提供一种用户个性化服务推荐机制,可以准确地度量用户之间的相关性,形成一个有效准确的用户群,分别进行针对性的服务,提高服务的效率。
发明内容
本申请实施例所要解决的技术问题是提供一种基于用户行为的特征提取方法和一种基于用户行为的个性化推荐方法,用以准确地度量用户之间的相关性,形成一个有效准确的用户群,分别进行针对性的服务,提高服务的效率。
相应的,本申请实施例还提供了一种基于用户行为的特征提取系统和一种基于用户行为的个性化推荐系统,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种基于用户行为的特征提取方法,包括:
获取用户访问网页的点击流数据;
依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
针对所述前X个用户访问的网页的预置标签配置综合权重;
采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
优选地,所述点击流数据具有多条,每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间;所述依据所述点击流数据计算当前用户与其他用户访问所述网站的路径相关度的步骤包括:
将所述用户的多条点击流数据划分为一个或多个会话;所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值;
在每个会话中,采用所述当前网页及其来源网页建立点击流路径树;所述点击流路径树包括节点和路径,所述节点为当前网页,所述路径指示所述当前网页及其来源网页;
合并点击流路径树,以及,按照平均停留时间为合并后的节点配置分级权重,按照浏览量pυ数为合并后的路径配置比例权重,生成权重-有向图;其中,所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比;所述比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比;
提取与当前用户的公共路径最多的前Y个用户;其中,Y为正整数,所述公共路径为当前网页及其来源网页相同的路径;
采用所述权重-有向图,计算当前用户与所述前Y个用户访问网页的路径相关度。
优选地,所述节点包括根节点和子节点,所述在每个会话中,采用所述当前网页及其来源网页建立点击流路径树的步骤包括:
采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页,直至满足预设条件;
当匹配成功时,将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点;
当匹配失败时,以当前点击流数据的当前网页作为根节点建立新的点击流路径树;
其中,所述预设条件包括:
匹配次数大于预设匹配阈值;
和/或,
当前点击流数据与匹配的点击流数据的点击时间之差大于第二预设时间阈值。
优选地,所述在每个会话中,采用所述当前网页及其来源网页建立点击流路径树的步骤还包括:
去除孤点;所述孤点为只有一个节点的点击流路径树。
优选地,所述按照平均停留时间为合并后的节点配置访问分级权重的步骤包括:
将所述节点按照平均停留时间排序后划分多个区间;
为每个区间配置对应的访问分级权重。
优选地,所述权重-有向图包括:
U={...,<uii>,...,<ujj>,...}
其中,<uii>为用户对网页ui的点击情况,ui为当前访问网页,λi为分级权重;
和,
T={...,<ui,ujij>,...,<ui,ukik>,...}
其中,<ui,ujij>为用户从网页uj点击到网页ui的一个点击流向,ui为当前网页,uj为来源网页,δij为比例权重。
优选地,通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度:
其中,所述公共路径的最小权值=所述公共路径的比例权重的最小值×所述公共路径指示的当前网页的分级权重的最小值×所述公共路径指示的来源网页的分级权重的最小值;
所述公共路径的最大权值=所述公共路径的比例权重的最大值×所述公共路径指示的当前网页的分级权重的最大值×所述公共路径指示的来源网页的分级权重的最大值;
所述非公共路径的权值=所述非公共路径的比例权重×所述非公共路径指示的当前网页的分级权重×所述非公共路径指示的来源网页的分级权重。
优选地,所述网页具有网页权重,所述预置标签具有原始权重,所述综合权重通过以下公式获取:
w → = Σ i = 0 σk ( w i × pυ i wp i ) / Σ i = 0 σk pυ i
其中,为所述预置标签的综合权重,σk为出现所述预置标签的网页的数量,wi为所述网页的网页权重,pυi为所述网页的总浏览量,wpi为所述预置标签在所述网页中的原始权重。
优选地,所述当前用户与所述前X个用户之间的相关度通过以下公式获取:
其中,Sim(i,j)为用户i和用户j的相关度,σ为标签,为所述标签的综合权重。
本申请实施例还公开了一种基于用户行为的个性化推荐方法,包括:
获取用户信息,所述用户信息包括用户标识;
根据所述用户标识确定与当前用户的相似度最高的Z个用户;其中,所述Z为正整数;
针对所述Z个用户向当前用户进行推荐;
其中,所述相似度通过如下方式生成:
获取用户访问网页的点击流数据;
依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
针对所述前X个用户访问的网页的预置标签配置综合权重;
采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
本申请实施例还公开了一种基于用户行为的特征提取系统,包括:
点击流数据获取模块,用于获取用户访问网页的点击流数据;
路径相关度计算模块,用于依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
第一提取模块,用于提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
综合权重配置模块,用于针对所述前X个用户访问的网页的预置标签配置综合权重;
用户相关度计算模块,用于采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
优选地,所述点击流数据具有多条,每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间;所述路径相关度计算模块包括:
会话划分子模块,用于将所述用户的多条点击流数据划分为一个或多个会话;所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值;
点击流路径树建立子模块,用于在每个会话中,采用所述当前网页及其来源网页建立点击流路径树;所述点击流路径树包括节点和路径,所述节点为当前网页,所述路径指示所述当前网页及其来源网页;
点击流路路径树合并子模块,用于合并点击流路径树;
分级权重配置子模块,用于按照平均停留时间为合并后的节点配置分级权重;
比例权重配置子模块,用于为合并后的路径配置比例权重;
权重-有向图生成子模块,用于生成权重-有向图;其中,所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比;所述访问比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比;
第二提取子模块,用于提取与当前用户的公共路径最多的前Y个用户;其中,Y为正整数,所述公共路径为当前网页及其来源网页相同的路径;
计算子模块,用于采用所述权重-有向图,计算当前用户与所述前Y个用户访问网页的路径相关度。
优选地,所述节点包括根节点和子节点,所述点击流路径树建立子模块包括:
匹配子模块,用于采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页,直至满足预设条件;
当匹配成功时,调用子节点连接子模块;当匹配失败时,调用根节点建立子模块;
子节点连接子模块,用于将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点;
根节点建立子模块,用于以当前点击流数据的当前网页作为根节点建立新的点击流路径树;
其中,所述预设条件包括:
匹配次数大于预设匹配阈值;
和/或,
当前点击流数据与匹配的点击流数据的点击时间之差大于第二预设时间阈值。
优选地,所述点击流路径树建立子模块还包括:
孤点去除子模块,用于去除孤点;所述孤点为只有一个节点的点击流路径树。
优选地,所述分级权重配置子模块包括:
区间划分子模块,用于将所述节点按照平均停留时间排序后划分多个区间;
区间配置子模块,为每个区间配置对应的访问分级权重。
优选地,所述权重-有向图包括:
U={...,<uii>,...,<ujj>,...}
其中,<uii>为用户对网页ui的点击情况,ui为访问网页,λi为分级权重;
和,
T={...,<ui,ujij>,...,<ui,ukik>,...}
其中,<ui,ujij>为用户从网页uj点击到网页ui的一个点击流向,ui为访问网页,uj为来源网页,δij为比例权重。
优选地,通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度:
其中,所述公共路径的最小权值=所述公共路径的比例权重的最小值×所述公共路径指示的当前网页的分级权重的最小值×所述公共路径指示的来源网页的分级权重的最小值;
所述公共路径的最大权值=所述公共路径的比例权重的最大值×所述公共路径指示的当前网页的分级权重的最大值×所述公共路径指示的来源网页的分级权重的最大值;
所述非公共路径的权值=所述非公共路径的比例权重×所述非公共路径指示的当前网页的分级权重×所述非公共路径指示的来源网页的分级权重。
优选地,所述标签具有原始权重,所述综合权重通过以下公式获取:
w → = Σ i = 0 σk ( w i × pυ i wp i ) / Σ i = 0 σk pυ i
其中,为所述预置标签的综合权重,σk为出现所述预置标签的网页的数量,wi为所述网页的网页权重,pυi为所述网页的总浏览量,wpi为所述预置标签在所述网页中的原始权重。
优选地,所述当前用户与所述前X个用户之间的相关度通过以下公式获取:
其中,Sim(i,j)为用户i和用户j的相关度σ为标签,为所述标签的综合权重。
本申请实施例还公开了一种基于用户行为的个性化推荐系统,包括:
用户信息获取模块,用于获取用户信息,所述用户信息包括用户标识;
用户确定模块,用于根据所述用户标识确定与当前用户的相似度最高的Z个用户;其中,所述Z为正整数;
推荐模块,用于针对所述Z个用户向当前用户进行推荐;
其中,所述相似度通过如下方式生成:
获取用户访问网页的点击流数据;
依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
针对所述前X个用户访问的网页的预置标签配置综合权重;
采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
与背景技术相比,本申请实施例包括以下优点:
本申请基于点击流数据,构建用户访问网页的点击路径的带权重的有向图模型,将用户的相关度计算首先转换为带权重有向图的相似度计算,并引入网页标签库,融合网页标签内容的相关度计算,从中挖掘用户的点击习惯与个性化行为偏好,从而提高用户聚类准确率与效率。基于此用户聚类进行推荐,提高了推荐的成功率与效率。
本申请通过为点击流路径树的节点配置分级权重,减少了阅读差异的影响,通过为点击流路径树的路径配置比例权重和通过为网页标签配置综合权重,提高了表达用户个性化的准确性。
本申请提取公共路径最多的前Y个用户计算用户的访问网页相关度,在提取访问网页相关度最高的前X个用户计算用户的相关度,最后提取用户相关度最高的前Z个用户进行推荐,通过层级选取具有代表性的数据作为候选集进行计算,提高了计算的准确性,减少了数据处理量,减少了系统资源的占用。
本申请将用户聚类群体事先配置到用户信息中,当用户进行访问的时候,获取用户标识后可以直接获取用户对应的推荐信息,节省了系统资源和提高了个性化推荐的效率。
附图说明
图1是本申请的一种基于用户行为的特征提取方法实施例的步骤流程图;
图2是本申请中会话S1的一种点击流路径树示例图;
图3是本申请中会话S2的一种点击流路径树合并示例图;
图4是本申请中会话S1的一种有向-权重图;
图5是本申请中会话S3的一种有向-权重图;
图6是本申请的一种基于用户行为的个性化推荐方法实施例的步骤流程图;
图7是本申请的一种基于用户行为的特征提取系统实施例的结构框图;
图8是本申请的一种基于用户行为的个性化推荐系统实施例的结构框图。
具体实施方式
为使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
参照图1,示出了本申请的一种基于用户行为的特征提取方法实施例的步骤流程图,本申请实施例可以包括如下步骤:
步骤101,获取用户访问网页的点击流数据;
需要说明的是,点击流数据(clickstream data)可以来源于网站日志,网站日志可以记录用户浏览网页的行为信息,而点击流则可以用于表达用户浏览网页的轨迹。当然,用户访问的网页可以是同一个网站的,也可以是不同网站的,例如不同网站进行跨平台服务,本申请实施例对此不加以限制。
在具体应用中,点击流数据可以为Apache服务器产生的网站日志,可以抓取一段或多段时间的原始点击流数据。具体可以包括用户访问的IP地址、当前网页ENTRY、当前网页的来源网页REFERER、访问当前网页的点击时间、HTTP代码、HTTP流量、HTTP响应时间、浏览器特征AGENT、用户访问唯一标识COOKIE ID等信息。
具体示例如下:
服务器负责收集用户访问网站点击的日志记录,可以以一定间隔周期从日志采集服务器获取用户的点击流日志,例如间隔周期可以是实时、按小时或者按天计算等等。
很多情况下,用户在访问网站时可能会使用后退、页面切换、返回主页或者直接点击某个链接等操作,即用户的访问路径可以是随意的、无序的。
获取用户访问网页的原始点击流数据后,可以进行预处理,输出每个用户的结构化的点击流数据Ψ={V1,V2,...,Vi...,VΨn}。其中,当前共有Ψn个用户,Vi为第i个用户的点击流数据。
预处理可以包括对原始点击流数据进行清洗,过滤乱码、公司内部访问等无效日志等等。
结构化的点击流数据可以包括,用户标识、当前网页、来源网页、点击时间和停留时间等等。
具体示例如下:
需要说明的是,用户标识可以为用户的IP地址,和/或,COOKIE ID,和/或,AGENT等等,只要能标识用户即可,本申请实施例对此不加以限制。当前网页为用户在某次访问中访问的网页,来源网页为该当前网页的来源,例如用户从A网页点击一个链接跳转到B网页,对于访问B网页此次访问而言,B网页为当前网页,A网页为来源网页,特别地,当用户直接输入链接访问网页时,该当前网页的来源网页可以为空。点击时间为访问当前网页的时间。停留时间为访问当前网页的浏览时长。
步骤102,依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
需要说明的是,访问网页的路径,即用户浏览网页的轨迹,可以在一定程度反映用户的行为偏好;相关度,即相关性或相似度,表达相关程度;访问网页的路径相关度高的用户具有相同的兴趣爱好的几率相对较高。
在实际应用中,所述点击流数据可以具有多条,每一条点击流数据可以包括用户标识、当前网页、来源网页、点击时间和停留时间。
步骤102具体可以包括如下子步骤:
子步骤S11,将所述用户的多条点击流数据划分为一个或多个会话;所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值;
在具体实现中,可以将点击流数据按照点击时间排序,当连续两条点击流数据之间的点击时间之差小于或等于第一预设时间阈值时,可以认为归属于同一个会话。
划分会话后的点击流数据的表达可以为:
ζ={l1,l2,...,li...,lζn}
其中,用户ζ的点击流数据划分为ζn个会话,li为第i个会话,其中,ζn和i均为正整数。
在本申请实施例的一种优选示例中,第一预设时间阈值为30分钟。
子步骤S12,在每个会话中,采用所述当前网页及其来源网页建立点击流路径树;所述点击流路径树包括节点和路径,所述节点为当前网页,所述路径指示所述当前网页及其来源网页;
点击流路径树,可以是对用户访问网页轨迹的表达。
在本申请实施例的一种优选示例中,所述节点可以包括根节点和子节点,子步骤S12进一步可以包括如下子步骤:
子步骤S121,采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页,直至满足预设条件;当匹配成功时,执行子步骤S122;当匹配失败时,执行子步骤S123;
需要说明的是,匹配需要遵循两个原则,其中一个是:用户当前点击的来源网页REFERRER等于上一次浏览点击的当前网页ENTRY的匹配原则。
在实际应用中,可以将多条点击流数据按照点击时间顺序排序,从首条点击流数据(即点击时间最早的点击流数据)开始,往上匹配其他点击流数据(即点击时间更早的点击流数据),直至匹配到会话的第一条点击流数据为止。
当前网页和来源网页均可以为URL(Universal Resource Locator,统一资源定位符),URL的长度不一,在匹配时可以通过生成特征串进行匹配的方式提升匹配过程的性能,减少常驻内存。
具体而言,当URL的长度小于或等于16个字符时,可以直接采用URL进行匹配;
当URL的长度大于16个字符时,可以采用MD5(Message-DigestAlgorithm5,消息摘要算法第五版)算法,针对该URL生成16个字符的特征串,再采用特征串进行匹配。
例如,URL为:
http://sale.suning.com/images/advertise/zyn/130722jiuyang/index.html?utm_source=union&utm_medium=C&utm_campaign=1028&utm_content=1027
通过MD5算法,生成16位特征串:B11A4C0B627B8FE4。
当然,上述特征串生成的方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它特征串生成的方式,本申请实施例对此不加以限制。
另外一个原则是:匹配就近原则,按时间排序,取回溯遍历中最近的一次成功匹配;
例如,在会话S1中,用户访问网页A,停留5秒钟,接着从网页A点击到网页B,停留2秒钟,再从网页B点击到网页C,停留3秒钟,接着从网页C点击到网页E,停留7秒钟,后又从网页B点击到网页D,停留3秒钟,再从网页D点击到网页C,停留1秒钟,再从网页C点击到网页E,停留5秒钟。
上述点击流数据均在同一个会话中,按照用户实际的点击轨迹可以表示为:A→B→C①→E①→D→C②→E②。其中,C①、C②分别指示第一次、第二次访问网页C,E①、E②分别指示第一次、第二次访问网页E。
采用E②向上匹配,可以匹配到C①和C②,但是C②的点击时间离E②最近的,那么,C②才是匹配成功的。
子步骤S122,将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点;
相对而言,可以称匹配成功的当前网页为该子节点的父节点。
在匹配成功父节点和子节点的同时,指示所述当前网页(子节点)及其来源网页(父节点),即指示访问轨迹的路径,也会出现。
子步骤S123,以当前点击流数据的当前网页作为根节点建立新的点击流路径树;
例如在会话S1中,当以A的点击流数据进行匹配时,匹配失败,以A为父节点建立新的点击流路径树。
其中,所述预设条件为子步骤S121中匹配停止的条件,可以包括:
匹配次数大于预设匹配阈值;
预设匹配阈值可以由本领域技术人员根据实际情况进行设定,本申请实施例对此不加以限制。在本申请实施例的一种优选示例中,预设匹配阈值为5000,当匹配次数大于5000时,可以认为是机械访问,即出于增加网站点击流量等原因而人为通过特定软件设定访问等方式机械地访问某个网站,是不正常的访问。
和/或,
当前点击流数据与匹配的点击流数据的点击时间之差大于第二预设时间阈值。其中,第二预设时间阈值用于判断子步骤S121中的匹配是否停止。
同样,第二预设时间阈值可以由本领域技术人员根据实际情况进行设定,本申请实施例对此不加以限制。在本申请实施例的一种优选示例中,第二预设时间阈值为30分钟。
在本申请实施例的另一种优选示例中,子步骤S12进一步还可以包括如下子步骤:
子步骤S124,去除孤点;所述孤点为只有一个节点的点击流路径树。
点击流路径树在会话中的匹配完成后才确定。孤点为只有一个节点的点击流路径树,即该节点即是该点击流路径树的父节点,又是该点击流路径树的子节点。
对于会话S1,点击流路径树的一种表达方式如图2所示。
需要说明的是,点击流路径树也可以采用其他表示。
例如,点击流路径树的表示(前序遍历输出)可以为:
l={<v1,p1,t1>...,<vi,pi,ti>,...,<vln,pln,tln>}            公式①
其中,l为点击流路径树,该点击流路径树共有ln个节点,其中<vi,pi,ti>为第i条点击流数据,1≤i≤ln,ln和i均是正整数,vi为当前网页,pi为访问vi的来源网页,ti为访问vi的停留时间。特别地,i=1时的节点为l的根节点,其无来源网页(即父节点),可以用“-”表示来源网页,即p1="-"。
此时,点击流路径树的路径并不是直观的表达。
对于会话S1的公式①表达可以为:
l={<A,-,5>,<B,A,2>,<C,B,3>,<E,C,7>,<D,B,3>,<C,D,1>,<E,C,5>}
子步骤S13,合并点击流路径树;
合并点击流路径树,再配置权重,构建用户访问网页的点击路径的带权重的有向图模型。
需要说明的是,合并点击流路径树是针对所有节点而言的,具有相同节点的点击流路径树,可以按照相同节点进行合并,没有相同节点的点击流路径树,合并更加简单,不需要考虑树与树之间的关系,是合并点击流路径树的特例。
例如,在会话S2,有三棵点击流路径树,分别是A→B→C→D、A→C→D和H→J,其中,A-D、H、J分别代表不同的网页,箭头代表路径。
对于A→B→C→D和A→C→D可以合并,而H→J则在合并前后的形式是一样的,合并结果如图3所示。
对于点击流路径树的分析统计可以从两个角度出发,一是用户网页的点击情况,一是用户网页的点击流向,前者为点,后者为边。
用户网页的点击情况一般统计用户在某一网页的pυ(Page View,网页浏览量)数,以及该网页的平均停留时间。直观上,用户访问网页的pυ数与停留时间的时长都可以直接反应用户对该网页的兴趣程度。pυ数越大,网页停留时间越长,可以说明用户对该网页越感兴趣。
用户网页的点击流向可以用于描述用户的点击趋势以及比重。而用户可能在浏览该网页之后直接关闭,也有可能点击到这个页面或者那个页面。
子步骤S14,按照平均停留时间为合并后的节点配置分级权重;其中,所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比;
子步骤S15,按照浏览量pυ数为合并后的路径配置比例权重;其中,所述访问比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比;
例如,网页N的总浏览pυ量为10,用户从网页N(当前网页M的来源网页)点击链接跳转到网页M的次数为5次,即点击到当前网页M的浏览pυ量为5次,则指示来源网页N到当前网页M的路径的比例权重为5/10=0.5。
需要说明的是,当前网页的来源网页可以有多个,但是每个来源网站与当前网站的路径分别只有一条,即每条路径对应一个确定的当前网页及其来源网页。
对用户的网页点击情况可以描述为:
U = { . . . , < u i , pv i , t &OverBar; i > , . . . , < u j , pv j t &OverBar; j > , . . . }              公式②
其中,ui为第i个当前访问网页,ui和i均为正整数,pvi为ui的总浏览量,为访问ui的平均停留时间。
和,
T={...,<ui,uj,pvij>,...,<ui,uk,pvik>,...,<uj,uk,pvjk>,....}          公式③
其中,<ui,uj,pvij>表示从来源网页uj点击到当前网页ui的pυ数为pvij
对于会话S1,采用公式②进行表达,可以为:
U={<uA,1,5>,<uB,1,2>,<uC,2,2>,<uD,1,3>,<uE,2,6>}
采用公式③进行表达,可以为:
T={<uA,uB,1>,<uB,uC,1>,<uC,uE,2>,<uD,uC,1>}
考虑到每一个用户的阅读速度不同,有一些用户阅读的快,有一些用户阅读的慢。因此按平均停留时间的加权按用户进行分级,分K个级别(K为正整数),优选地,K的取值为7或者13。
则可以将公式②转换表达为:
U={...,<ui,pvii>,...,<uj,pvjj>,...}         公式④
其中,ui为第i个当前访问网页,pvi为ui的总浏览量,λi为ui的分级权重。
在本申请实施例的一种优选示例中,所述子步骤S14进一步可以包括如下子步骤:
子步骤S141,将所述节点按照平均停留时间排序后划分多个区间;
子步骤S142,为每个区间配置对应的访问分级权重。
对于会话S1生成的点击流路径树,可以分成K个级别,其中,K取值为5。分别配置分级权重:λ1=1.02,λ2=1.01,λ3=1,λ4=0.99,λ5=0.98。
在具体实现中,将点击流数据按照平均停留时间进行从大到小排序,并等分为5个区块,第一区块的网页停留级别为λ1,第二区块的网页停留级别为λ2,以此类推。
此时,会话S1采用公式④表达,可以为:
U={<uA,1,1.01>,<uB,1,0.99>,<uC,2,0.99>,<uD,1,1>,<uE,2,1.02>}
在配置比例权重时,考虑当前访问网页ui可能是点击流路径树的子节点,存在直接访问的情形,所以Σpvij≤pvj。pvij/pvj即为uj点击分流到ui的比例,记为δij,即比例权重。其中,pvj为uj的总浏览量,则δij≤1。特殊的,当i=j时,为ui跳转到自身ui的比重,记为δii
子步骤S16,生成权重-有向图;
在本申请实施例的一种优选示例中,可以结合公式③和公式④转换对用户网页点击情况的表达:
U={...,<uii>,...,<ujj>,...}             公式⑤
其中,<uii>为用户对网页ui的点击情况,ui为当前访问网页,λ为分级权重,ui是第i个当前访问网页,λi为ui的分级权重;
和,
T={...,<ui,ujij>,...,<ui,ukik>,...}             公式⑥
其中,<ui,ujij>为用户从网页uj点击到网页ui的一个点击流向,ui为当前网页,uj为来源网页,δij为比例权重,δij表示从来源网页uj的点击中有δij的比例访问了当前网页ui
由公式⑤和公式⑥可以绘制出用户-网页权重有向图;例如,会话S1采用公式⑤进行表达,可以为:
U={<uA,1.01>,<uB,0.99>,<uC,0.99>,<uD,1>,<uE,1.02>}
会话S1采用公式⑥进行表达,可以为:
T={<uA,-,1>,<uB,uA,1>,<uC,uB,0.5>,<uD,uB,0.5>,<uC,uD,1>,<uE,uC,1>}
会话S1配置了分级权重和比例权重,即网页权重有向图如图4所示。
用户的点击流数据可以转换为公式⑤与公式⑤描述的带权重的有向图模型。对于不同的用户,可以得到不同的带权重的有向图。所以,计算用户的相关度,可以转换为带权重的有向图的相关度。
子步骤S17,提取与当前用户的公共路径最多的前Y个用户;其中,Y为正整数,所述公共路径为当前网页及其来源网页相同的路径;
在本申请实施例的一种优选示例中,Y=3N,其中,N为正整数。
参照图5,对会话S3的点击流路径树配置分级权重与比例权重,即为权重-有向图。与会话S1对比,会话S3与会话S1的权重-有向图存在三条公共路径:A→B、B→D和D→C。
子步骤S18,采用所述权重-有向图,计算当前用户与所述前Y个用户访问网页的路径相关度。
对于带权重的有向图的相关度的计算,可以首先转换为公共路径的个数的求值。对于不同用户而言,公共路径越多,权重-有向图的重叠部分越多,也就意味着用户的相关度越高;同样,公共路径的权重以及公共路径节点的权重越高,相关度越高。
在本申请实施例的一种优选示例中,可以通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度:
其中,所述公共路径的最小权值=所述公共路径的比例权重的最小值×所述公共路径指示的当前网页的分级权重的最小值×所述公共路径指示的来源网页的分级权重的最小值;
所述公共路径的最大权值=所述公共路径的比例权重的最大值×所述公共路径指示的当前网页的分级权重的最大值×所述公共路径指示的来源网页的分级权重的最大值;
所述非公共路径的权值=所述非公共路径的比例权重×所述非公共路径指示的当前网页的分级权重×所述非公共路径指示的来源网页的分级权重。
需要说明的是,公共路径在两个用户中可以具有不同的比例权重,公共路径指示的当前网页和来源网页在两个用户中也可以具有不同的分级权重。在计算时,可以按照比例权重和分级权重的值的大小计算即可,不必关注该值在哪个用户的权重-有向图中。
参照图4和图5,此两个用户的访问网页的路径相关度计算如下:
公共路径为:A→B、B→D和D→C
公共路径的最小权值计算为:0.5×1×0.99+0.5×0.99×1+0.5×1×0.99=1.485
公共路径的最小权值计算为:1×1.01×0.99+1×0.99×1.02+1×1.02×1.01=3.05
非公共路径为:图4上有B→C、C→E,图5上有D→A、A→C
图4上的非公共路径权值计算为:0.5×0.99×0.99+1×0.99×1.02=1.500
图5上的非公共路径权值计算为:0.5×1.02×1+0.5×1×1.01=1.015
所以图4与图5的相关度计算的结果为:
1.485/(1.500+1.015+3.05)=0.267
当然,上述用户访问路径的相似度计算方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它用户访问路径的相似度计算方法,例如余弦相关性计算、皮尔森相关性计算等等,本申请实施例对此不加以限制。
步骤103,提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
在本申请实施例的一种优选示例中,X=2N,其中,N为正整数。
步骤104,针对所述前X个用户访问的网页的预置标签配置综合权重;
在具体实现中,可以设置网页标签库收集不同网页的标签信息,一个网页由一个或者多个标签组成,所述预置标签可以具有原始权重;
对其中某一个网页可以描述为标签项列表:
             公式⑦
其中,网页共有个标签,σi为第i个标签,和i均为正整数,wpi为σi的原始权重。
一个标签项可以由标签及标签权重两部分构成,其中,标签可以为网页类型、网页关键词、网页类目、ID等等,网页类型可以为首页、导航页、搜索页、产品首页、公司首页、产品页、订单页、登录页等;ID可以是产品ID,公司ID等,网页类目可以是产品类目、公司类目、OFFER类目,比如所问的化妆品类目等。
当然,上述标签只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它标签,只要能够标识网页的特性即可,本申请实施例对此不加以限制。
以某一个出售路由器产品的电子商务的网页为例,对其可以引入标签为:
产品型号=DIR-616
产品品牌=D-Link
网页类目=路由器
产品ID=22540068533
卖家名称=dlink流翔专卖店
其中,等号左边为标签名称,等号右边为标签内容。
则该网页可以表示为:
其中,标签为产品ID与产品型号的原始权重为1,标签为产品品牌的原始权重为0.5,标签为路由器的原始权重为0.3,标签为卖家名称的原始权重为0.7。
当然,原始权重可以由本领域技术人员根据实际情况设定,本申请实施例对此不加以限制。
所述网页可以具有网页权重;
每一个ui对应的一个网页,该网页可以由网页权重与网页标签项列表标识:
          公式⑧
其中,wi为该网页的网页权重, i为该网页的标签项列表。
所述综合权重可以通过以下公式获取:
w &RightArrow; = &Sigma; i = 0 &sigma;k ( w i &times; p&upsi; i wp i ) / &Sigma; i = 0 &sigma;k p&upsi; i
其中,为所述预置标签的综合权重,σk为出现所述预置标签的网页的数量,wi为所述网页的网页权重,pυi为所述网页的总浏览量,wpi为所述预置标签在所述网页中的原始权重。
步骤105,采用所述标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
将公式⑧代入公式⑦中,并结合公式②可以得到k维标签权重向量空间:
其中,k为正整数,σ为某一标签,为该标签的综合权重。
k维标签权重向量空间可以为标签空间以权重为坐标的向量表述,不同用户的相关度计算可以换算为标签权重向量空间的距离。
在本申请的一种优选实施例中,当前用户与所述前X个用户之间的相关度可以通过以下公式获取:
其中,Sim(i,j)为用户i和用户j的相关度,σ为标签,为所述标签的综合权重。
当然,上述用户的相似度计算方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它用户的相似度计算方法,例如余弦相关性计算、皮尔森相关性计算等等,本申请实施例对此不加以限制。
用户相关度在一定程度上表达了用户之间兴趣爱好的相似程度,用户之间的相关度越大,其兴趣爱好相似程度越高。
本申请基于点击流数据,构建用户访问网页的点击路径的带权重的有向图模型,将用户的相关度计算首先转换为带权重有向图的相似度计算,并引入网页标签库,融合网页标签内容的相关度计算,从中挖掘用户的点击习惯与个性化行为偏好,从而提高用户聚类准确率与效率。基于此用户聚类进行推荐,提高了推荐的成功率与效率。
本申请通过为点击流路径树的节点配置分级权重,减少了阅读差异的影响,通过为点击流路径树的路径配置比例权重和通过为网页标签配置综合权重,提高了表达用户个性化的准确性。
参照图6,示出了本申请的一种基于用户行为信息的个性化推荐方法实施例的步骤流程图,具体可以包括如下步骤:
步骤601,获取用户信息,所述用户信息包括用户标识;
步骤602,根据所述用户标识确定与当前用户的相似度最高的Z个用户;其中,所述Z为正整数;
步骤603,针对所述Z个用户向当前用户进行推荐;
其中,所述相似度通过如下方式生成:
获取用户访问网页的点击流数据;所述点击流数据中包括当前网页的标签;
依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
针对所述前X个用户的点击流数据中当前网页的标签配置综合权重;
采用所述标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
本申请将用户聚类群体事先配置到用户信息中,当用户进行访问的时候,获取用户标识后可以直接获取用户对应的推荐信息,节省了系统资源和提高了个性化推荐的效率。
在本申请实施例的一种优选示例中,Z=N,N为正整数。
本申请提取公共路径最多的前Y个用户计算用户的访问网页相关度,在提取访问网页相关度最高的前X个用户计算用户的相关度,最后提取用户相关度最高的前Z个用户进行推荐,通过层级选取具有代表性的数据进行计算,提高了计算的准确性,减少了数据处理量,减少了系统资源的占用。
在具体实现中,可以依据与当前用户相关度最高的X个用户,进行好友推荐、博客推荐、产品推荐等等。
本申请实施例可以依据预设的时间规则对收集到的用户的点击流数据计算用户之间的相关度,再将结果配置到相应的用户标识上。
其中,所述时间规则可由本领域技术人员根据实际情况进行设定,例如,可以是定期或不定期采用全部或部分用户的点击流数据计算用户之间的相关度,部分用户的点击流数据可以是一段或多段时间内收集的用户的点击流数据,本申请实施例对此不加以限制。
本申请实施例还可以设置黑名单和白名单,黑名单为当前用户设置的信任名单,白名单为当前用户设置的不信任名单,可以包括推荐的用户、推荐的博客、推荐的产品等等。
本申请实施例还可以采用用户针对对该用户进行推荐的反馈信息调整标签的原始权重,和/或,网页权重,和/或,分级权重。
对于本申请实施例而言,由于提取聚类空间特征维度的方法实施例与基于用户行为的特征提取的方法实施例基本相似,本申请实施例在此不再详述,相关之处参见同基于用户行为的特征提取的方法实施例的部分说明即可。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图7,示出了本申请的一种基于用户行为的特征提取系统实施例的结构框图,在本实施例中,所述系统可以包括如下模块:
点击流数据获取模块701,用于获取用户访问网页的点击流数据;
路径相关度计算模块702,用于依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
第一提取模块703,用于提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
综合权重配置模块704,用于针对所述前X个用户访问的网页的预置标签配置综合权重;
用户相关度计算模块705,用于采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
在本申请的一种优选实施例中,所述点击流数据具有多条,每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间;所述路径相关度计算模块可以包括如下子模块:
会话划分子模块,用于将所述用户的多条点击流数据划分为一个或多个会话;所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值;
点击流路径树建立子模块,用于在每个会话中,采用所述当前网页及其来源网页建立点击流路径树;所述点击流路径树包括节点和路径,所述节点为当前网页,所述路径指示所述当前网页及其来源网页;
点击流路路径树合并子模块,用于合并点击流路径树
分级权重配置子模块,用于按照平均停留时间为合并后的节点配置分级权重;
比例权重配置子模块,用于为合并后的路径配置比例权重;
权重-有向图生成子模块,用于生成权重-有向图;其中,所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比;所述访问比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比;
第二提取子模块,用于提取与当前用户的公共路径最多的前Y个用户;其中,Y为正整数,所述公共路径为当前网页及其来源网页相同的路径;
计算子模块,用于采用所述权重-有向图,计算当前用户与所述前Y个用户访问网页的路径相关度。
在本申请的一种优选实施例中,所述节点包括根节点和子节点,所述点击流路径树建立子模块可以进一步包括如下子模块:
匹配子模块,用于采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页,直至满足预设条件;
当匹配成功时,调用子节点连接子模块;当匹配失败时,调用根节点建立子模块;
子节点连接子模块,用于将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点;
根节点建立子模块,用于以当前点击流数据的当前网页作为根节点建立新的点击流路径树;
其中,所述预设条件包括:
匹配次数大于预设匹配阈值;
和/或,
当前点击流数据与匹配的点击流数据的点击时间之差大于第二预设时间阈值。
在本申请的一种优选实施例中,所述点击流路径树建立子模块进一步还可以包括如下子模块:
孤点去除子模块,用于去除孤点;所述孤点为只有一个节点的点击流路径树。
在本申请的一种优选实施例中,所述分级权重配置子模块进一步可以包括如下子模块:
区间划分子模块,用于将所述节点按照平均停留时间排序后划分多个区间;
区间配置子模块,为每个区间配置对应的访问分级权重。
在本申请实施例的一种优选示例中,所述权重-有向图可以包括:
U={...,<uii>,...,<ujj>,...}
其中,<uii>为用户对网页ui的点击情况,ui为当前访问网页,λ为分级权重;
和,
T={...,<ui,uj,δij>,...,<ui,ukik>,...}
其中,<ui,ujij>为用户从网页uj点击到网页ui的一个点击流向,ui为当前网页,uj为来源网页,δij为比例权重。
在本申请实施例的一种优选示例中,可以通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度:
其中,所述公共路径的最小权值=所述公共路径的比例权重的最小值×所述公共路径指示的当前网页的分级权重的最小值×所述公共路径指示的来源网页的分级权重的最小值;
所述公共路径的最大权值=所述公共路径的比例权重的最大值×所述公共路径指示的当前网页的分级权重的最大值×所述公共路径指示的来源网页的分级权重的最大值;
所述非公共路径的权值=所述非公共路径的比例权重×所述非公共路径指示的当前网页的分级权重×所述非公共路径指示的来源网页的分级权重。
在本申请的一种优选实施例中,所述标签具有原始权重,所述综合权重可以通过以下公式获取:
w &RightArrow; = &Sigma; i = 0 &sigma;k ( w i &times; p&upsi; i wp i ) / &Sigma; i = 0 &sigma;k p&upsi; i
其中,为所述预置标签的综合权重,σk为出现所述预置标签的网页的数量,wi为所述网页的网页权重,pυi为所述网页的总浏览量,wpi为所述预置标签在所述网页中的原始权重。
在本申请的一种优选实施例中,所述当前用户与所述前X个用户之间的相关度可以通过以下公式获取:
其中,Sim(i,j)为用户i和用户j的相关度,σ为标签,为所述标签的综合权重。
参照图8,示出了本申请的一种基于用户行为的个性化推荐系统实施例的结构框图,在本实施例中,所述系统可以包括如下模块:
用户信息获取模块801,用于获取用户信息,所述用户信息包括用户标识;
用户确定模块802,用于根据所述用户标识确定与当前用户的相似度最高的Z个用户;其中,所述Z为正整数;
推荐模块803,用于针对所述Z个用户向当前用户进行推荐;
其中,所述相似度通过如下方式生成:
获取用户访问网页的点击流数据;
依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
针对所述前X个用户访问的网页的预置标签配置综合权重;
采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、移动设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理移动设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理移动设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理移动设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理移动设备上,使得在计算机或其他可编程移动设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程移动设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者移动设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者移动设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者移动设备中还存在另外的相同要素。
以上对本申请实施例所提供的一种基于用户行为的特征提取方法、一种基于用户行为特征提取的系统、一种基于用户行为的个性化推荐方法和一种基于用户行为的个性化推荐系统,进行了详细介绍,本文中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (20)

1.一种基于用户行为的特征提取方法,其特征在于,包括:
获取用户访问网页的点击流数据;
依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
针对所述前X个用户访问的网页的预置标签配置综合权重;
采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
2.根据权利要求1所述的方法,其特征在于,所述点击流数据具有多条,每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间;所述依据所述点击流数据计算当前用户与其他用户访问所述网站的路径相关度的步骤包括:
将所述用户的多条点击流数据划分为一个或多个会话;所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值;
在每个会话中,采用所述当前网页及其来源网页建立点击流路径树;所述点击流路径树包括节点和路径,所述节点为当前网页,所述路径指示所述当前网页及其来源网页;
合并点击流路径树,以及,按照平均停留时间为合并后的节点配置分级权重,按照浏览量pυ数为合并后的路径配置比例权重,生成权重-有向图;其中,所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比;所述比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比;
提取与当前用户的公共路径最多的前Y个用户;其中,Y为正整数,所述公共路径为当前网页及其来源网页相同的路径;
采用所述权重-有向图,计算当前用户与所述前Y个用户访问网页的路径相关度。
3.根据权利要求2所述的方法,其特征在于,所述节点包括根节点和子节点,所述在每个会话中,采用所述当前网页及其来源网页建立点击流路径树的步骤包括:
采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页,直至满足预设条件;
当匹配成功时,将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点;
当匹配失败时,以当前点击流数据的当前网页作为根节点建立新的点击流路径树;
其中,所述预设条件包括:
匹配次数大于预设匹配阈值;
和/或,
当前点击流数据与匹配的点击流数据的点击时间之差大于第二预设时间阈值。
4.根据权利要求3所述的方法,其特征在于,所述在每个会话中,采用所述当前网页及其来源网页建立点击流路径树的步骤还包括:
去除孤点;所述孤点为只有一个节点的点击流路径树。
5.根据权利要求2所述的方法,其特征在于,所述按照平均停留时间为合并后的节点配置访问分级权重的步骤包括:
将所述节点按照平均停留时间排序后划分多个区间;
为每个区间配置对应的访问分级权重。
6.根据权利要求2所述的方法,其特征在于,所述权重-有向图包括:
U={...,<uii>,...,<ujj>,...}
其中,<uii>为用户对网页ui的点击情况,ui为当前访问网页,λi为分级权重;
和,
T={...<ui,uj,δij>,...,<ui,ukik>,...}
其中,<ui,ujij>为用户从网页uj点击到网页ui的一个点击流向,ui为当前网页,uj为来源网页,δij为比例权重。
7.根据权利要求2所述的方法,其特征在于,通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度:
其中,所述公共路径的最小权值=所述公共路径的比例权重的最小值×所述公共路径指示的当前网页的分级权重的最小值×所述公共路径指示的来源网页的分级权重的最小值;
所述公共路径的最大权值=所述公共路径的比例权重的最大值×所述公共路径指示的当前网页的分级权重的最大值×所述公共路径指示的来源网页的分级权重的最大值;
所述非公共路径的权值=所述非公共路径的比例权重×所述非公共路径指示的当前网页的分级权重×所述非公共路径指示的来源网页的分级权重。
8.根据权利要求1所述的方法,其特征在于,所述网页具有网页权重,所述预置标签具有原始权重,所述综合权重通过以下公式获取:
w &RightArrow; = &Sigma; i = 0 &sigma;k ( w i &times; p&upsi; i wp i ) / &Sigma; i = 0 &sigma;k p&upsi; i
其中,为所述预置标签的综合权重,σk为出现所述预置标签的网页的数量,wi为所述网页的网页权重,pυi为所述网页的总浏览量,wpi为所述预置标签在所述网页中的原始权重。
9.根据权利要求8所述的方法,其特征在于,所述当前用户与所述前X个用户之间的相关度通过以下公式获取:
其中,Sim(i,j)为用户i和用户j的相关度,σ为标签,为所述标签的综合权重。
10.一种基于用户行为的个性化推荐方法,其特征在于,包括:
获取用户信息,所述用户信息包括用户标识;
根据所述用户标识确定与当前用户的相似度最高的Z个用户;其中,所述Z为正整数;
针对所述Z个用户向当前用户进行推荐;
其中,所述相似度通过如下方式生成:
获取用户访问网页的点击流数据;
依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
针对所述前X个用户访问的网页的预置标签配置综合权重;
采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
11.一种基于用户行为的特征提取系统,其特征在于,包括:
点击流数据获取模块,用于获取用户访问网页的点击流数据;
路径相关度计算模块,用于依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
第一提取模块,用于提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
综合权重配置模块,用于针对所述前X个用户访问的网页的预置标签配置综合权重;
用户相关度计算模块,用于采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
12.根据权利要求11所述的系统,其特征在于,所述点击流数据具有多条,每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间;所述路径相关度计算模块包括:
会话划分子模块,用于将所述用户的多条点击流数据划分为一个或多个会话;所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值;
点击流路径树建立子模块,用于在每个会话中,采用所述当前网页及其来源网页建立点击流路径树;所述点击流路径树包括节点和路径,所述节点为当前网页,所述路径指示所述当前网页及其来源网页;
点击流路路径树合并子模块,用于合并点击流路径树;
分级权重配置子模块,用于按照平均停留时间为合并后的节点配置分级权重;
比例权重配置子模块,用于为合并后的路径配置比例权重;
权重-有向图生成子模块,用于生成权重-有向图;其中,所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比;所述访问比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比;
第二提取子模块,用于提取与当前用户的公共路径最多的前Y个用户;其中,Y为正整数,所述公共路径为当前网页及其来源网页相同的路径;
计算子模块,用于采用所述权重-有向图,计算当前用户与所述前Y个用户访问网页的路径相关度。
13.根据权利要求12所述的系统,其特征在于,所述节点包括根节点和子节点,所述点击流路径树建立子模块包括:
匹配子模块,用于采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页,直至满足预设条件;
当匹配成功时,调用子节点连接子模块;当匹配失败时,调用根节点建立子模块;
子节点连接子模块,用于将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点;
根节点建立子模块,用于以当前点击流数据的当前网页作为根节点建立新的点击流路径树;
其中,所述预设条件包括:
匹配次数大于预设匹配阈值;
和/或,
当前点击流数据与匹配的点击流数据的点击时间之差大于第二预设时间阈值。
14.根据权利要求13所述的系统,其特征在于,所述点击流路径树建立子模块还包括:
孤点去除子模块,用于去除孤点;所述孤点为只有一个节点的点击流路径树。
15.根据权利要求12所述的系统,其特征在于,所述分级权重配置子模块包括:
区间划分子模块,用于将所述节点按照平均停留时间排序后划分多个区间;
区间配置子模块,为每个区间配置对应的访问分级权重。
16.根据权利要求12所述的系统,其特征在于,所述权重-有向图包括:
U={...,<uii>,...,<ujj>,...}
其中,<uii>为用户对网页ui的点击情况,ui为访问网页,λi为分级权重;
和,
T={...,<ui,uj,δij>,...,<ui,ukik>,...}
其中,<ui,ujij>为用户从网页uj点击到网页ui的一个点击流向,ui为访问网页,uj为来源网页,δij为比例权重。
17.根据权利要求12所述的系统,其特征在于,通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度:
其中,所述公共路径的最小权值=所述公共路径的比例权重的最小值×所述公共路径指示的当前网页的分级权重的最小值×所述公共路径指示的来源网页的分级权重的最小值;
所述公共路径的最大权值=所述公共路径的比例权重的最大值×所述公共路径指示的当前网页的分级权重的最大值×所述公共路径指示的来源网页的分级权重的最大值;
所述非公共路径的权值=所述非公共路径的比例权重×所述非公共路径指示的当前网页的分级权重×所述非公共路径指示的来源网页的分级权重。
18.根据权利要求11所述的系统,其特征在于,所述标签具有原始权重,所述综合权重通过以下公式获取:
w &RightArrow; = &Sigma; i = 0 &sigma;k ( w i &times; p&upsi; i &times; wp i ) / &Sigma; i = 0 &sigma;k p&upsi; i
其中,为所述预置标签的综合权重,σk为出现所述预置标签的网页的数量,wi为所述网页的网页权重,pυi为所述网页的总浏览量,wpi为所述预置标签在所述网页中的原始权重。
19.根据权利要求18所述的系统,其特征在于,所述当前用户与所述前X个用户之间的相关度通过以下公式获取:
其中,Sim(i,j)为用户i和用户j的相关度,σ为标签,为所述标签的综合权重。
20.一种基于用户行为的个性化推荐系统,其特征在于,包括:
用户信息获取模块,用于获取用户信息,所述用户信息包括用户标识;
用户确定模块,用于根据所述用户标识确定与当前用户的相似度最高的Z个用户;其中,所述Z为正整数;
推荐模块,用于针对所述Z个用户向当前用户进行推荐;
其中,所述相似度通过如下方式生成:
获取用户访问网页的点击流数据;
依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度;
提取与当前用户访问网页的路径相关度最高的前X个用户;其中,所述X为正整数;
针对所述前X个用户访问的网页的预置标签配置综合权重;
采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。
CN201310447654.4A 2013-09-25 2013-09-25 一种基于用户行为的特征提取、个性化推荐方法和系统 Active CN104462156B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201310447654.4A CN104462156B (zh) 2013-09-25 2013-09-25 一种基于用户行为的特征提取、个性化推荐方法和系统
TW102145369A TW201513019A (zh) 2013-09-25 2013-12-10 基於用戶行爲的特徵提取、個性化推薦方法和系統
US14/495,749 US10178190B2 (en) 2013-09-25 2014-09-24 Method and system for extracting user behavior features to personalize recommendations
EP14790816.4A EP3049912B1 (en) 2013-09-25 2014-09-24 Method and system for extracting user behavior features to personalize recommendations
ES14790816T ES2811704T3 (es) 2013-09-25 2014-09-24 Método y sistema para extraer funciones de comportamiento del usuario para personalizar recomendaciones
PCT/US2014/057279 WO2015048171A2 (en) 2013-09-25 2014-09-24 Method and system for extracting user behavior features to personalize recommendations
JP2016545218A JP6511455B2 (ja) 2013-09-25 2014-09-24 ユーザ行動の特徴を抽出して推奨を個人化する方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310447654.4A CN104462156B (zh) 2013-09-25 2013-09-25 一种基于用户行为的特征提取、个性化推荐方法和系统

Publications (2)

Publication Number Publication Date
CN104462156A true CN104462156A (zh) 2015-03-25
CN104462156B CN104462156B (zh) 2018-12-28

Family

ID=51842765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310447654.4A Active CN104462156B (zh) 2013-09-25 2013-09-25 一种基于用户行为的特征提取、个性化推荐方法和系统

Country Status (7)

Country Link
US (1) US10178190B2 (zh)
EP (1) EP3049912B1 (zh)
JP (1) JP6511455B2 (zh)
CN (1) CN104462156B (zh)
ES (1) ES2811704T3 (zh)
TW (1) TW201513019A (zh)
WO (1) WO2015048171A2 (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105141771A (zh) * 2015-09-08 2015-12-09 北京网诺星云科技有限公司 一种用户的系统级行为偏好的确定方法及装置
CN105224699A (zh) * 2015-11-17 2016-01-06 Tcl集团股份有限公司 一种新闻推荐方法及装置
CN106326318A (zh) * 2015-07-10 2017-01-11 阿里巴巴集团控股有限公司 搜索方法及装置
CN106547761A (zh) * 2015-09-18 2017-03-29 北京国双科技有限公司 数据处理方法及装置
CN106815322A (zh) * 2016-12-27 2017-06-09 东软集团股份有限公司 一种数据处理的方法和装置
CN106844458A (zh) * 2016-12-20 2017-06-13 北京华宇信息技术有限公司 展示用户网上行为轨迹的方法、计算装置及存储介质
CN107066554A (zh) * 2017-03-24 2017-08-18 国家计算机网络与信息安全管理中心 微博相关人物推荐方法
CN107092620A (zh) * 2016-02-18 2017-08-25 奥多比公司 基于最大依序模式的点击流可视分析
CN107194215A (zh) * 2017-05-05 2017-09-22 北京神州新桥科技有限公司 用户行为分析方法、装置、系统及机器可读存储介质
CN107277118A (zh) * 2017-05-31 2017-10-20 北京京东尚科信息技术有限公司 生成节点的常用访问路径的方法和装置
CN107306259A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 网页页面访问中的攻击检测方法和装置
CN107316250A (zh) * 2017-07-20 2017-11-03 佛山潮伊汇服装有限公司 社交推荐方法及移动终端
CN107609890A (zh) * 2017-08-03 2018-01-19 北京京东尚科信息技术有限公司 一种订单跟踪的方法和装置
WO2018040997A1 (zh) * 2016-08-31 2018-03-08 阿里巴巴集团控股有限公司 漏斗模型的节点的评估系统、方法和装置
CN107943679A (zh) * 2017-11-24 2018-04-20 广州优视网络科技有限公司 路径漏斗的生成方法、装置和服务器
CN108241630A (zh) * 2016-12-23 2018-07-03 武汉四维图新科技有限公司 一种行车目的地推荐方法及装置
CN108322355A (zh) * 2017-01-18 2018-07-24 北京京东尚科信息技术有限公司 用户流量数据处理方法、处理装置、电子设备和存储介质
CN108363815A (zh) * 2015-07-20 2018-08-03 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备
CN108446359A (zh) * 2018-03-12 2018-08-24 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN108512674A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 用于输出信息的方法、装置和设备
CN108509806A (zh) * 2018-04-09 2018-09-07 北京东方网润科技有限公司 一种具有隐私保护的大数据精准营销系统及设备
CN108632050A (zh) * 2017-03-15 2018-10-09 阿里巴巴集团控股有限公司 一种记录网站访问日志的方法和装置
CN109165974A (zh) * 2018-08-06 2019-01-08 深圳乐信软件技术有限公司 一种商品推荐模型训练方法、装置、设备及存储介质
CN110825943A (zh) * 2019-10-23 2020-02-21 支付宝(杭州)信息技术有限公司 一种生成用户访问路径树数据的方法、系统及设备
CN110827044A (zh) * 2018-08-07 2020-02-21 北京京东尚科信息技术有限公司 提取用户兴趣模式的方法和装置
CN111159519A (zh) * 2019-12-26 2020-05-15 北京工业大学 一种基于网站点击流的公共安全舆情分析方法
CN111247779A (zh) * 2017-10-19 2020-06-05 克利克塔莱有限公司 用于分析网站访客的实际行为的系统和方法
CN111753208A (zh) * 2020-06-30 2020-10-09 贝壳技术有限公司 确定用户可比属性收敛度的方法、装置、介质和电子设备
CN112487301A (zh) * 2020-12-21 2021-03-12 北京云思畅想科技有限公司 一种基于用户角色和行为自动生成应用模型的方法
CN112559889A (zh) * 2020-12-25 2021-03-26 青岛海尔科技有限公司 用户操作推荐方法、装置、电子设备及存储介质
CN113364773A (zh) * 2021-06-04 2021-09-07 中国工商银行股份有限公司 安全性识别方法、装置和电子设备
CN113689246A (zh) * 2021-08-31 2021-11-23 中国平安人寿保险股份有限公司 基于人工智能的网站监控方法、装置、电子设备及介质
CN115658993A (zh) * 2022-09-27 2023-01-31 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及系统
CN116167829A (zh) * 2023-04-26 2023-05-26 湖南惟客科技集团有限公司 一种多维多粒度用户行为分析方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348148B2 (en) 2010-05-26 2022-05-31 Userzoom Technologies, Inc. Systems and methods for an intelligent sourcing engine for study participants
US11068374B2 (en) 2010-05-26 2021-07-20 Userzoom Technologies, Inc. Generation, administration and analysis of user experience testing
US9928302B2 (en) * 2014-11-10 2018-03-27 International Business Machines Corporation Merging data analysis paths
US10255358B2 (en) * 2014-12-30 2019-04-09 Facebook, Inc. Systems and methods for clustering items associated with interactions
US10210143B2 (en) * 2015-05-05 2019-02-19 International Business Machines Corporation Analyzing a click path in a spherical landscape viewport
US10210453B2 (en) * 2015-08-17 2019-02-19 Adobe Inc. Behavioral prediction for targeted end users
CN106503014B (zh) 2015-09-08 2020-08-07 腾讯科技(深圳)有限公司 一种实时信息的推荐方法、装置和系统
US10122646B2 (en) * 2015-11-06 2018-11-06 Oath Inc. Resource placement via a web page
US10846748B2 (en) * 2015-11-30 2020-11-24 Oath Inc. Onboarding feature cues
CN107025228B (zh) * 2016-01-29 2021-01-26 阿里巴巴集团控股有限公司 一种问题推荐方法及设备
CN106372158A (zh) * 2016-08-30 2017-02-01 百度在线网络技术(北京)有限公司 用户行为数据的处理方法及装置
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质
CN107517203B (zh) * 2017-08-08 2020-07-14 奇安信科技集团股份有限公司 一种用户行为基线建立方法及装置
CN109428928B (zh) * 2017-08-31 2021-01-05 腾讯科技(深圳)有限公司 信息推送对象的选择方法、装置及设备
CN108039952B (zh) * 2017-11-15 2020-07-21 黄敬易 资源传播方法、装置、服务器及计算机可读存储介质
US11188965B2 (en) 2017-12-29 2021-11-30 Samsung Electronics Co., Ltd. Method and apparatus for recommending customer item based on visual information
CN110020377B (zh) * 2018-01-02 2021-02-09 北大方正集团有限公司 网络阅读活动互动方法、装置、服务器、终端和存储介质
CN108388911A (zh) * 2018-01-30 2018-08-10 重庆邮电大学 一种面向混合属性的移动用户动态模糊聚类方法
US20190289085A1 (en) * 2018-03-13 2019-09-19 Indigenous Software, Inc. System and method for tracking online user behavior across browsers or devices
CN108776679B (zh) * 2018-05-30 2021-12-07 百度在线网络技术(北京)有限公司 一种搜索词的分类方法、装置、服务器及存储介质
US11250347B2 (en) 2018-06-27 2022-02-15 Microsoft Technology Licensing, Llc Personalization enhanced recommendation models
CN109325115B (zh) * 2018-08-16 2021-03-09 中国传媒大学 一种角色分析方法及分析系统
CN109523301B (zh) * 2018-10-19 2023-11-07 中国平安人寿保险股份有限公司 产品交易数据处理方法、装置、计算机设备和存储介质
US11323526B2 (en) * 2019-01-24 2022-05-03 Dell Products L.P. Analysis and visualization of session paths
US11909100B2 (en) 2019-01-31 2024-02-20 Userzoom Technologies, Inc. Systems and methods for the analysis of user experience testing with AI acceleration
CN111651336B (zh) * 2019-03-04 2022-02-18 腾讯科技(深圳)有限公司 一种数据上报方法及装置
US11507554B2 (en) 2019-12-26 2022-11-22 Yahoo Assets Llc Tree-like metadata structure for composite datasets
KR102289014B1 (ko) * 2019-12-31 2021-08-11 연세대학교 산학협력단 클릭스트림 데이터를 사용하여 각각의 유저 유형별 웹사이트 사용 패턴이 반영된 각각의 유형별 퍼소나를 생성함으로써 특정 웹사이트의 유저들을 유형화하는 방법 및 장치
CN111242239B (zh) * 2020-01-21 2023-05-30 腾讯科技(深圳)有限公司 一种训练样本选取方法、装置、以及计算机存储介质
EP3916585A4 (en) 2020-03-31 2022-04-13 Baidu Online Network Technology (Beijing) Co., Ltd INFORMATION OUTPUT METHOD AND DEVICE, DEVICE AND STORAGE MEDIUM
CN111475721B (zh) * 2020-03-31 2023-12-29 百度在线网络技术(北京)有限公司 信息推送方法、装置、设备及存储介质
CN112150307B (zh) * 2020-09-18 2024-03-26 浙江大学 供热系统在线映射模型参数估计方法与系统
US11729247B2 (en) * 2020-09-24 2023-08-15 Capital One Services, Llc Systems and methods for decentralized detection of software platforms operating on website pages
CN112966199B (zh) * 2021-03-03 2023-08-04 北京百度网讯科技有限公司 一种页面调整收益的确定方法、装置、电子设备和介质
CN115033801B (zh) * 2022-08-10 2022-12-30 中国科学技术大学 物品推荐方法、模型训练方法及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164395A1 (en) * 2007-12-21 2009-06-25 Heck Larry P Modeling, detecting, and predicting user behavior with hidden markov models
US20100030766A1 (en) * 2008-07-31 2010-02-04 Yahoo! Inc. Systems and methods for determining a tag match ratio
WO2010059978A2 (en) * 2008-11-22 2010-05-27 Marketforceone Inc. System and methods for inferring intent of website visitors and generating and packaging visitor information for distribution as sales leads or market intelligence
US20110029505A1 (en) * 2009-07-31 2011-02-03 Scholz Martin B Method and system for characterizing web content
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
US7962929B1 (en) * 2002-10-03 2011-06-14 Comcast Ip Holdings I, Llc Using relevance to parse clickstreams and make recommendations
CN102567511A (zh) * 2011-12-27 2012-07-11 奇智软件(北京)有限公司 一种应用自动推荐的方法及装置
US20120290575A1 (en) * 2011-05-09 2012-11-15 Microsoft Corporation Mining intent of queries from search log data
US20130044053A1 (en) * 2011-08-15 2013-02-21 Primesense Ltd. Combining Explicit Select Gestures And Timeclick In A Non-Tactile Three Dimensional User Interface
CN103052964A (zh) * 2010-08-04 2013-04-17 日本电气株式会社 行为特征提取设备、行为特征提取系统、行为特征提取方法以及行为特征提取程序
US20130198030A1 (en) * 1998-09-18 2013-08-01 Amazon.Com, Inc. Recommendations based on items viewed during a current browsing session

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850988B1 (en) * 2000-09-15 2005-02-01 Oracle International Corporation System and method for dynamically evaluating an electronic commerce business model through click stream analysis
JP3799022B2 (ja) 2003-02-24 2006-07-19 酒井重工業株式会社 振動機構及び振動ローラ
JP2006524009A (ja) * 2003-03-25 2006-10-19 セドナ・パテント・サービシズ・エルエルシー 視聴者分析結果の生成
US8600920B2 (en) 2003-11-28 2013-12-03 World Assets Consulting Ag, Llc Affinity propagation in adaptive network-based systems
JP4629463B2 (ja) 2005-03-10 2011-02-09 富士フイルム株式会社 色変換定義表示装置、色変換定義表示プログラム、および色変換定義表示方法
JP2006331014A (ja) * 2005-05-25 2006-12-07 Oki Electric Ind Co Ltd 情報提供装置、情報提供方法及び情報提供プログラム
US7921069B2 (en) 2007-06-28 2011-04-05 Yahoo! Inc. Granular data for behavioral targeting using predictive models
US20090171763A1 (en) 2007-12-31 2009-07-02 Yahoo! Inc. System and method for online advertising driven by predicting user interest
JP2009193465A (ja) * 2008-02-15 2009-08-27 Ntt Communications Kk 情報処理装置、情報提供システム、情報処理方法、およびプログラム
US8615442B1 (en) * 2009-12-15 2013-12-24 Project Rover, Inc. Personalized content delivery system
US20120059707A1 (en) 2010-09-01 2012-03-08 Google Inc. Methods and apparatus to cluster user data
US8719213B2 (en) 2011-03-29 2014-05-06 Manyworlds, Inc. Contextually transformed learning layer
US20130124298A1 (en) 2011-11-15 2013-05-16 Huajing Li Generating clusters of similar users for advertisement targeting

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130198030A1 (en) * 1998-09-18 2013-08-01 Amazon.Com, Inc. Recommendations based on items viewed during a current browsing session
US7962929B1 (en) * 2002-10-03 2011-06-14 Comcast Ip Holdings I, Llc Using relevance to parse clickstreams and make recommendations
US20090164395A1 (en) * 2007-12-21 2009-06-25 Heck Larry P Modeling, detecting, and predicting user behavior with hidden markov models
US20100030766A1 (en) * 2008-07-31 2010-02-04 Yahoo! Inc. Systems and methods for determining a tag match ratio
WO2010059978A2 (en) * 2008-11-22 2010-05-27 Marketforceone Inc. System and methods for inferring intent of website visitors and generating and packaging visitor information for distribution as sales leads or market intelligence
US20100131835A1 (en) * 2008-11-22 2010-05-27 Srihari Kumar System and methods for inferring intent of website visitors and generating and packaging visitor information for distribution as sales leads or market intelligence
US20110029505A1 (en) * 2009-07-31 2011-02-03 Scholz Martin B Method and system for characterizing web content
CN103052964A (zh) * 2010-08-04 2013-04-17 日本电气株式会社 行为特征提取设备、行为特征提取系统、行为特征提取方法以及行为特征提取程序
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
US20120290575A1 (en) * 2011-05-09 2012-11-15 Microsoft Corporation Mining intent of queries from search log data
US20130044053A1 (en) * 2011-08-15 2013-02-21 Primesense Ltd. Combining Explicit Select Gestures And Timeclick In A Non-Tactile Three Dimensional User Interface
CN102567511A (zh) * 2011-12-27 2012-07-11 奇智软件(北京)有限公司 一种应用自动推荐的方法及装置

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326318A (zh) * 2015-07-10 2017-01-11 阿里巴巴集团控股有限公司 搜索方法及装置
CN106326318B (zh) * 2015-07-10 2019-07-09 阿里巴巴集团控股有限公司 搜索方法及装置
CN108363815B (zh) * 2015-07-20 2021-08-24 阿里巴巴(中国)有限公司 一种网页页面的预读取方法、装置及智能终端设备
CN108363815A (zh) * 2015-07-20 2018-08-03 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备
CN105141771A (zh) * 2015-09-08 2015-12-09 北京网诺星云科技有限公司 一种用户的系统级行为偏好的确定方法及装置
CN106547761A (zh) * 2015-09-18 2017-03-29 北京国双科技有限公司 数据处理方法及装置
CN106547761B (zh) * 2015-09-18 2020-01-07 北京国双科技有限公司 数据处理方法及装置
CN105224699A (zh) * 2015-11-17 2016-01-06 Tcl集团股份有限公司 一种新闻推荐方法及装置
CN105224699B (zh) * 2015-11-17 2020-01-03 Tcl集团股份有限公司 一种新闻推荐方法及装置
CN107092620B (zh) * 2016-02-18 2021-11-16 奥多比公司 基于最大依序模式的点击流可视分析
CN107092620A (zh) * 2016-02-18 2017-08-25 奥多比公司 基于最大依序模式的点击流可视分析
CN107306259A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 网页页面访问中的攻击检测方法和装置
CN107784035A (zh) * 2016-08-31 2018-03-09 阿里巴巴集团控股有限公司 漏斗模型的节点的评估系统、方法和装置
CN107784035B (zh) * 2016-08-31 2019-11-26 阿里巴巴集团控股有限公司 漏斗模型的节点的评估系统、方法和装置
WO2018040997A1 (zh) * 2016-08-31 2018-03-08 阿里巴巴集团控股有限公司 漏斗模型的节点的评估系统、方法和装置
CN106844458A (zh) * 2016-12-20 2017-06-13 北京华宇信息技术有限公司 展示用户网上行为轨迹的方法、计算装置及存储介质
CN108241630A (zh) * 2016-12-23 2018-07-03 武汉四维图新科技有限公司 一种行车目的地推荐方法及装置
CN106815322A (zh) * 2016-12-27 2017-06-09 东软集团股份有限公司 一种数据处理的方法和装置
CN108322355A (zh) * 2017-01-18 2018-07-24 北京京东尚科信息技术有限公司 用户流量数据处理方法、处理装置、电子设备和存储介质
CN108512674A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 用于输出信息的方法、装置和设备
CN108632050A (zh) * 2017-03-15 2018-10-09 阿里巴巴集团控股有限公司 一种记录网站访问日志的方法和装置
TWI750252B (zh) * 2017-03-15 2021-12-21 香港商阿里巴巴集團服務有限公司 記錄網站存取日誌的方法和裝置
CN108632050B (zh) * 2017-03-15 2021-03-02 阿里巴巴集团控股有限公司 一种记录网站访问日志的方法和装置
CN107066554B (zh) * 2017-03-24 2020-12-15 国家计算机网络与信息安全管理中心 微博相关人物推荐方法
CN107066554A (zh) * 2017-03-24 2017-08-18 国家计算机网络与信息安全管理中心 微博相关人物推荐方法
CN107194215A (zh) * 2017-05-05 2017-09-22 北京神州新桥科技有限公司 用户行为分析方法、装置、系统及机器可读存储介质
CN107194215B (zh) * 2017-05-05 2020-06-26 北京神州新桥科技有限公司 用户行为分析方法、装置、系统及机器可读存储介质
CN107277118A (zh) * 2017-05-31 2017-10-20 北京京东尚科信息技术有限公司 生成节点的常用访问路径的方法和装置
CN107316250A (zh) * 2017-07-20 2017-11-03 佛山潮伊汇服装有限公司 社交推荐方法及移动终端
CN107609890A (zh) * 2017-08-03 2018-01-19 北京京东尚科信息技术有限公司 一种订单跟踪的方法和装置
CN111247779A (zh) * 2017-10-19 2020-06-05 克利克塔莱有限公司 用于分析网站访客的实际行为的系统和方法
CN107943679A (zh) * 2017-11-24 2018-04-20 广州优视网络科技有限公司 路径漏斗的生成方法、装置和服务器
CN107943679B (zh) * 2017-11-24 2021-02-26 阿里巴巴(中国)有限公司 路径漏斗的生成方法、装置和服务器
CN108446359B (zh) * 2018-03-12 2021-11-02 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN108446359A (zh) * 2018-03-12 2018-08-24 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN108509806A (zh) * 2018-04-09 2018-09-07 北京东方网润科技有限公司 一种具有隐私保护的大数据精准营销系统及设备
CN109165974A (zh) * 2018-08-06 2019-01-08 深圳乐信软件技术有限公司 一种商品推荐模型训练方法、装置、设备及存储介质
CN110827044A (zh) * 2018-08-07 2020-02-21 北京京东尚科信息技术有限公司 提取用户兴趣模式的方法和装置
CN110825943A (zh) * 2019-10-23 2020-02-21 支付宝(杭州)信息技术有限公司 一种生成用户访问路径树数据的方法、系统及设备
CN110825943B (zh) * 2019-10-23 2023-10-10 支付宝(杭州)信息技术有限公司 一种生成用户访问路径树数据的方法、系统及设备
CN111159519A (zh) * 2019-12-26 2020-05-15 北京工业大学 一种基于网站点击流的公共安全舆情分析方法
CN111159519B (zh) * 2019-12-26 2021-07-23 北京工业大学 一种基于网站点击流的公共安全舆情分析方法
CN111753208A (zh) * 2020-06-30 2020-10-09 贝壳技术有限公司 确定用户可比属性收敛度的方法、装置、介质和电子设备
CN112487301A (zh) * 2020-12-21 2021-03-12 北京云思畅想科技有限公司 一种基于用户角色和行为自动生成应用模型的方法
CN112559889A (zh) * 2020-12-25 2021-03-26 青岛海尔科技有限公司 用户操作推荐方法、装置、电子设备及存储介质
CN112559889B (zh) * 2020-12-25 2023-02-28 青岛海尔科技有限公司 用户操作推荐方法、装置、电子设备及存储介质
CN113364773A (zh) * 2021-06-04 2021-09-07 中国工商银行股份有限公司 安全性识别方法、装置和电子设备
CN113689246A (zh) * 2021-08-31 2021-11-23 中国平安人寿保险股份有限公司 基于人工智能的网站监控方法、装置、电子设备及介质
CN113689246B (zh) * 2021-08-31 2023-09-12 中国平安人寿保险股份有限公司 基于人工智能的网站监控方法、装置、电子设备及介质
CN115658993A (zh) * 2022-09-27 2023-01-31 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及系统
CN116167829A (zh) * 2023-04-26 2023-05-26 湖南惟客科技集团有限公司 一种多维多粒度用户行为分析方法
CN116167829B (zh) * 2023-04-26 2023-08-29 湖南惟客科技集团有限公司 一种多维多粒度用户行为分析方法

Also Published As

Publication number Publication date
ES2811704T3 (es) 2021-03-15
JP6511455B2 (ja) 2019-05-15
TW201513019A (zh) 2015-04-01
EP3049912B1 (en) 2020-06-17
US20150088911A1 (en) 2015-03-26
EP3049912A2 (en) 2016-08-03
JP2016536725A (ja) 2016-11-24
EP3049912A4 (en) 2017-04-26
US10178190B2 (en) 2019-01-08
CN104462156B (zh) 2018-12-28
WO2015048171A2 (en) 2015-04-02
WO2015048171A3 (en) 2015-06-11

Similar Documents

Publication Publication Date Title
CN104462156A (zh) 一种基于用户行为的特征提取、个性化推荐方法和系统
US11157926B2 (en) Digital content prioritization to accelerate hyper-targeting
CN109934721A (zh) 理财产品推荐方法、装置、设备及存储介质
US20140068407A1 (en) Identifying web pages that are likely to guide browsing viewers to improve conversion rate
CN104239324A (zh) 一种基于用户行为的特征提取、个性化推荐的方法和系统
CA3116778A1 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
CN105389329A (zh) 一种基于群体评论的开源软件推荐方法
CN101957968A (zh) 基于Hadoop的网上交易服务聚合方法
CN103530416A (zh) 项目数据预测评分库的生成、项目数据的推送方法和系统
He et al. Mining exploratory behavior to improve mobile app recommendations
Dias et al. Automating the extraction of static content and dynamic behaviour from e-commerce websites
CN109977312A (zh) 一种基于内容标签的知识库推荐系统
Lin et al. A consumer review-driven recommender service for web e-commerce
Liu Analysis of cross-border e-commerce commodities in internet of things based on semantic traceability algorithm
Balaraman et al. E-commerce trends and future analytics tools
Zhang et al. Discovering consumers’ purchase intentions based on mobile search behaviors
ur Rehman et al. Frequency-based similarity measure for multimedia recommender systems
Padigela et al. A survey on analysis of user behavior on digital market by mining clickstream data
Chu et al. Personalized e-commerce website construction based on data mining
Bharathi et al. Click Stream Analysis in E-Commerce Websites-a Framework
Zhu Research on multi‐source mobile commerce service recommendation model of data fusion based on tree network
Wang et al. A time and sentiment unification model for personalized recommendation
Yan et al. The performance evaluation of recommendation algorithm using mahout framework
Choudhary et al. An Empirical Comparison of Community Detection Techniques for Amazon Dataset
Ma et al. The design and implementation of distributed mobile points of interest (POI) based on Mahout

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant