CN105589905A - 用户兴趣数据分析和收集系统及其方法 - Google Patents

用户兴趣数据分析和收集系统及其方法 Download PDF

Info

Publication number
CN105589905A
CN105589905A CN201410823475.0A CN201410823475A CN105589905A CN 105589905 A CN105589905 A CN 105589905A CN 201410823475 A CN201410823475 A CN 201410823475A CN 105589905 A CN105589905 A CN 105589905A
Authority
CN
China
Prior art keywords
sequence
commodity
user
weight
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410823475.0A
Other languages
English (en)
Other versions
CN105589905B (zh
Inventor
冯亮
尹亚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201410823475.0A priority Critical patent/CN105589905B/zh
Priority to US15/536,960 priority patent/US10762549B2/en
Priority to EP15871846.0A priority patent/EP3239855A4/en
Priority to PCT/CN2015/096217 priority patent/WO2016101777A1/zh
Priority to TW104140938A priority patent/TW201626310A/zh
Publication of CN105589905A publication Critical patent/CN105589905A/zh
Application granted granted Critical
Publication of CN105589905B publication Critical patent/CN105589905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<b>本申请公开了一种用户兴趣数据分析和收集系统,所述系统包括:会话识别模块,用于从</b><b>web</b><b>服务器抽取日志数据以及与所述日志数据对应的商品购买历史记录,并对所述日志数据进行处理,从而生成页面浏览序列参照集合;推荐服务控制器,用于实时收集用户的浏览记录;日志数据预处理模块,用于在满足预定条件下,从所述推荐服务控制器接收所述用户在本次会话中的浏览日志数据,并对该日志数据进行预处理;以及匹配分析模块,用于将经过预处理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根据匹配结果来确定所述用户潜在感兴趣的商品集合。本申请还公开了一种用户兴趣数据分析和收集方法。</b>

Description

用户兴趣数据分析和收集系统及其方法
技术领域
本发明涉及电子信息技术领域,具体来说,涉及一种用户兴趣数据分析和收集系统以及其方法。
背景技术
随着互联网的迅猛发展,中国网络购物的用户规模不断上升。2010年中国网络购物市场交易规模接近5000亿,达4980.0亿元,占到社会消费品零售总额的3.2%;同时,网络购物用户规模达到1.48亿,在网民中的渗透率达30.8%。对于一些传统企业而言,通过一些传统的营销手段已经很难对现今的市场形成什么重大的改变了。如果想将企业的销售渠道完全打开,企业就必需引进新的思维和新的方法。而网络购物正好为现今的传统企业提供了一个很好的机会与平台,传统企业通过借助第三方平台和建立自有平台纷纷试水网络购物,构建合理的网络购物平台、整合渠道、完善产业布局成为传统企业未来发展重心和出路。
随着网络购物平台的蜂拥崛起,如何基于大数据来分析和收集用户兴趣数据,以便更好地向该用户提供推荐从而提升用户体验成为了研究重点。
在申请号为201310717507.4的中国专利(发明名称为“一种基于Web日志数据的信息个性化推荐方法”)中介绍了一种通过分析日志的Web推荐技术。在该专利中,通过对服务器中Web日志文件的数据进行分析和预处理,提取出干净、规则、准确的数据源;使用协同过滤技术建立用户兴趣矩阵,计算各用户间的相似度,选较大相似度的用户作为相似用户;对相似用户的兴趣爱好建立推荐资源池;服务器选推荐资源池中推荐值大于阈值的页面推荐给用户。
但是,在该专利中,度量用户兴趣方法为用户浏览某一资源类别的时间。而分析获得的兴趣粒度很大程度上取决于资源分类的粗细粒度。如果粒度较粗,较难精确判断兴趣细微倾向。另外,用户浏览过的页面通常会涵盖多个类别主题。多个主题的页面数据源会导致最后分析结果的不精确。
发明内容
为了解决上述问题,本申请提供了一种基于用户页面浏览序列的商品推荐方法。当新的用户访问电商网站时,通过将用户当前会话中的浏览记录序列拆分为多个浏览子序列,分析和匹配子序列和Web日志中其他用户的浏览记录,找到类似页面浏览记录的历史会话,最后根据类似会话的最终实际购买商品,实施相关的商品推荐。
根据本申请的一个方面,提供了一种用户兴趣数据分析和收集系统。该系统包括会话识别模块、推荐服务控制器、日志数据预处理模块以及匹配分析模块。其中,会话识别模块用于在线下从web服务器抽取日志数据以及与所述日志数据对应的商品购买历史记录,并对所述日志数据进行处理,从而生成页面浏览序列参照集合。推荐服务控制器用于实时收集用户的浏览记录。日志数据预处理模块用于在满足预定条件下,从所述推荐服务控制器接收所述用户在本次会话中的浏览日志数据,并对该日志数据进行预处理。匹配分析模块用于将经过预处理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根据匹配结果来确定所述用户潜在感兴趣的商品集合。
上述系统还可包括:候选结果过滤排序模块,用于从所述匹配分析模块接收所确定的商品集合,并根据预设定的推荐规则,对所述商品集合中的商品进行排序,并将排序的结果发送给所述推荐服务控制器。
在上述系统中,所述推荐服务控制器还配置成根据所述候选结果过滤排序模块所发送的排序结果,选择出最终的推荐商品并发送给所述用户。
在上述系统中,所述会话识别模块配置成执行如下步骤:通过核对请求资源URI的后缀名,剔除请求资源为非页面的日志条目;剔除状态响应码为错误的日志条目;汇总同一个会话标识符的所有日志记录,形成属于该会话标识符的会话日志记录集合;以及判断会话中是否包含购买页面和支付页面,以便筛选出最终完成购物的会话。
在上述系统中,当用户访问的页面数量超过预先设定的数目N时,所述推荐服务控制器从所述web服务器的日志中抽取该用户的当前会话中所有的日志条目序列,从而启动推荐服务。
在上述系统中,所述日志数据预处理模块配置成执行如下步骤:从所述日志条目序列中剔除非页面的以及响应码为错误的日志条目,以便形成精化日志条目序列Lp;根据所述精化日志条目序列Lp,产生多个预定长度的连续日志条目子序列;以及通过如下公式将所述连续日志条目子序列中的每条子序列转换为m维的权重向量:
其中,wl,i表示某一子序列l的第i维权重,f(l,i)表示第i维日志条目的URL出现在子序列l的次数,Count(i)表示第i维URL在所述页面浏览序列参照集合中出现的次数,t(l,i)表示本次客户端浏览该页面的时间长度,λ是Count函数的权重因子。
在上述系统中,所述匹配分析模块通过如下公式计算匹配度:
其中l1和l2表示两个给定序列,w1i是序列l1中的第i维的权重,w2i是序列l2中的第i维的权重,函数min返回两个数值中的较小值。
在上述系统中,所述匹配分析模块进一步配置成:根据经过预处理的日志数据与所生成的页面浏览序列参照集合的匹配结果,对于所述页面浏览序列参照集合中的每个参照浏览序列,选取其与经过预处理的日志数据中每个子序列的匹配度最大值来作为该参照浏览序列的权重;挑选权重最大的前n个参照浏览序列,从而生成参照序列集合SeC;以及对于所述参照序列集合SeC中每条候选参照浏览序列,找出与序列相关的购买商品集合来作为所述用户潜在感兴趣的商品集合。
在上述系统中,所述候选结果过滤排序模块配置成:根据所述匹配分析模块所确定的商品集合,累加所述商品集合中每个商品对应的候选参照序列的权重来作为该商品的权重,根据所述商品的权重来对所述商品集合中的商品排序,以及将权重较大的一定数量的商品作为最终推荐商品告知所述推荐服务控制器。
根据本申请的另一个方面,提供了一种用户兴趣数据分析和收集方法。该方法包括步骤A:从web服务器抽取日志数据以及与所述日志数据对应的商品购买历史记录,并对所述日志数据进行处理,从而生成页面浏览序列参照集合;步骤B:实时收集用户的日志数据;步骤C:在满足预定条件下,对该用户的日志数据进行预处理;以及步骤D:将经过预处理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根据匹配结果来确定所述用户潜在感兴趣的商品集合。
本申请技术方案的分析数据源为当前会话的页面浏览记录,数据依赖性低、方便采集,操作流程直接明了。同时,会话页面浏览记录隐含用户潜在的兴趣倾向和购物习惯,有助于提升推荐服务的准确性和个性化。
附图说明
在参照附图阅读了本发明的具体实施方式以后,本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是:这些附图仅仅用于配合具体实施方式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。
图1是根据本申请的一个实施例、基于页面浏览序列来对用户兴趣数据进行分析、收集以及商品推荐的流程图。
具体实施方式
下面介绍的是本发明的多个可能实施例中的一些,旨在提供对本发明的基本了解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解,根据本发明的技术方案,在不变更本发明的实质精神下,本领域的一般技术人员可以提出可相互替换的其它实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
在日志文件中,每条记录被称为日志项或是条目,表示客户端对服务器的一次资源请求。目前,许多主流的日志格式(例如公共日志格式(CLF)和扩展公共日志格式(ECLF))一般都会包括客户端请求的IP地址、请求时间、请求资源的路径名称、状态响应码、用户操作系统、浏览器类型这几个重要字段,以标示客户端对Web服务器请求的情况。用户浏览网站会话是指用户在连续一段时间内访问网站历史记录集合。通常来说,在一个用户会话,代表了一次用户的完整浏览记录。
整个反馈交互式的用户兴趣数据分析收集方案总体流程由“用户页面浏览序列参照数据集生成”和“商品推荐服务实施”两部分组成,如图1所示,整个过程如下:
1)系统从web服务器中,抽取部分日志,以及对应的商品购买历史记录(见方框a1);
2)对日志数据做预处理,识别会话,筛选出用户最后形成购买的会话记录,生成页面浏览序列参照集合(见方框a2);
3)当用户登录网站,推荐服务控制器实时收集用户的浏览记录(见方框b1),并在符合特定条件情况下,启动推荐服务,并将用户本会话中的浏览日志数据发送至日志数据预处理模块(见方框b2);
4)对用户的浏览数据做预处理,发送至匹配分析模块(见方框b3);
5)匹配分析模块分析和匹配子序列和Web日志中其他用户的历史浏览记录,找到类似页面浏览记录的历史会话,生成候选推荐商品集合,发送至“候选结果过滤排序”模块(见方框b4);
6)根据预设定的推荐规则,结合相似度,对推荐商品进行排序,并发送至推荐服务控制器(见方框b5),随后发送给用户(见方框b6)。
其中第1、2步负责生成用户页面浏览序列参照数据集,后续步骤负责实施推荐服务。以下内容将详细介绍本方案工作步骤:
1、生成用户页面浏览序列的参照数据集
在进行Web服务器日志分析前,需要抽取出对分析有价值的日志条目,并汇总形成会话。为了识别用户会话,网站的服务器使用并保存会话ID(SessionID),服务器日志中日志条目保留SessionID字段,以保存该次请求的SessionID值。一般来说,SessionID是一种唯一标识当前访问服务器的客户的只读值。
具体的步骤如下:
1)通过核对请求资源URI的后缀名,剔除请求资源为图片、视频、脚本等非页面的日志条目;
2)剔除状态响应码为错误(例如400、404、505)的日志条目;
3)通过核实日志条目中SessionID方式,判断为同一个会话的请求操作。SessionID相同并且服务请求时间差小于服务器设置值的日志条目,判断属于同一个会话;
4)汇总同一个SessionID的所有日志记录,形成属于该SessionID的会话日志记录集合;
5)如果用户端的浏览器不支持cookie存储,会采用URL复写的方式保存SessionID。这时,需要在日志条目中URL项中,删除URL中SessionID参数;
6)判断会话中是否包含购买页面和支付页面,筛选出最终完成购物的会话,作为协同过滤的参照记录。
在一个实施例中,一条参照的用户会话日志记录包括:用户在会话中浏览页面序列L,以及最终购买的商品列表P。
2、商品推荐服务实施
在线下完成参照用户页面浏览序列数据集生成后,在线上,推荐系统实时跟踪用户在电商网站的访问记录,根据这些记录实施推荐服务。具体的步骤如下:
1)推荐系统通过访问电商网站的web服务器日志(或是其他方法),跟踪用户在当前会话中访问页面记录。当访问的页面数量超过固定数目N时(N为预先设定的),推荐服务控制器从web服务器日志中抽取该用户的当前会话中所有的日志条目序列Lr,启动推荐服务。
2)采用于第一章相类似的方法,从用户当前会话日志条目序列Lr中,剔除非页面的、以及响应码为错误的日志条目。如果URL中包含SessionID项,并修剪URL中SessionID项。最后,形成属于本次会话的精化日志条目序列Lp。
3)根据精化日志条目序列Lp,产生多个长度为w的连续日志条目子序列l1,l2…ln。n为子序列的个数,子序列的集合表示为Sub(Lp)。例如,日志条目序列Lp={a1,a2,a3,a4,a5},生成的长度为3的连续日志条目子序列有l1={a1,a2,a3}、l2={a2,a3,a4}和l3={a3,a4,a5}。w的数值为预先设定。如果Lp的长度小于等于w,则Sub(Lp)={Lp}。
4)将每条子序列l={a1,a2,…,an}表示为m维的权重向量w(l)={w1,w2,…,wm}。其中wi为对应日志条目在第i维的权重,m是参照集中所有日志条目中出现的URL的总数。wi的计算方式如下:
其中,f(l,i)表示第i维日志条目的URL出现在子序列l的次数。如果l中不存在第i维URL,f(l,i)等于0。Count(i)表示第i维URL在参照集中出现的次数。t(l,i)表示本次客户端浏览该页面的时间长度,通过该日志条目与下一条日志条目的时间差计算而得,单位为秒。参数λ是Count函数权重因子,λ数值越大,Count函数的影响越小,反之亦然。
5)逐一计算Sub(Lp)中子序列与参照集中各个会话浏览页面序列的相似度,给定序列l1和l2,两者之间相似度计算公式Sim(l1,l2)计算方式如下:
其中,w1i是序列l1中的第i维的权重。函数min返回两个数值中的较小值。
6)根据Sub(Lp)中子序列与参照数据中各个浏览序列的相似度的结果。对于每个参照浏览序列来说,选取参照序列与Sub(Lp)中子序列的相似度最大的值,作为该参照序列的权重w_l。挑选出权重最大的前n个参照序列,生成参照序列集合SeC={l1,l2…ln}。
7)对于集合SeC中每条候选参照浏览页面序列,找出与序列相关的购买商品集合作为候选推荐商品。对于每个候选推荐商品,累加商品对应的候选参照序列的权重w_l,作为候选推荐商品的权重w_p。
8)挑选出权重w_p最大的前m个候选推荐商品作为最终推荐商品,推荐控制服务器将推荐商品传送给用户。
综上,本申请的技术方案具有以下优点:首先,本方案过比较会话页面浏览记录,找到相关购买商品。方法流程直接明了,避免了内容分析不完全或不精确问题。其次,相比其他通过商品购买,商品打分等数据分析的推荐方法,本方案分析的数据源为用户当前会话的页面浏览记录,数据依赖性低、方便采集、服务对象门槛低。最后,会话页面浏览记录隐含用户潜在的兴趣倾向和购物习惯,有助于提升推荐服务的准确性和个性化。
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims (18)

1.一种用户兴趣数据分析和收集系统,其特征在于,所述系统包括:
会话识别模块,用于从web服务器抽取日志数据以及与所述日志数据对应的商品购买历史记录,并对所述日志数据进行处理,从而生成页面浏览序列参照集合;
推荐服务控制器,用于实时收集用户的浏览记录;
日志数据预处理模块,用于在满足预定条件下,从所述推荐服务控制器接收所述用户在本次会话中的浏览日志数据,并对该日志数据进行预处理;以及
匹配分析模块,用于将经过预处理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根据匹配结果来确定所述用户潜在感兴趣的商品集合。
2.如权利要求1所述的系统,还包括:
候选结果过滤排序模块,用于从所述匹配分析模块接收所确定的商品集合,并根据预设定的推荐规则,对所述商品集合中的商品进行排序,并将排序的结果发送给所述推荐服务控制器。
3.如权利要求2所述的系统,其中,所述推荐服务控制器还配置成根据所述候选结果过滤排序模块所发送的排序结果,选择出最终的推荐商品并发送给所述用户。
4.如权利要求1所述的系统,其中,所述会话识别模块配置成执行如下步骤:
通过核对请求资源URI的后缀名,剔除请求资源为非页面的日志条目;
剔除状态响应码为错误的日志条目;
汇总同一个会话标识符的所有日志记录,形成属于该会话标识符的会话日志记录集合;以及
判断会话中是否包含购买页面和支付页面,以便筛选出最终完成购物的会话。
5.如权利要求1所述的系统,其中,当用户访问的页面数量超过预先设定的数目N时,所述推荐服务控制器从所述web服务器的日志中抽取该用户的当前会话中所有的日志条目序列,从而启动推荐服务。
6.如权利要求5所述的系统,其中,所述日志数据预处理模块配置成执行如下步骤:
从所述日志条目序列中剔除非页面的以及响应码为错误的日志条目,以便形成精化日志条目序列Lp;
根据所述精化日志条目序列Lp,产生多个预定长度的连续日志条目子序列;以及
通过如下公式将所述连续日志条目子序列中的每条子序列转换为m维的权重向量:
其中,wl,i表示某一子序列l的第i维权重,f(l,i)表示第i维日志条目的URL出现在子序列l的次数,Count(i)表示第i维URL在所述页面浏览序列参照集合中出现的次数,t(l,i)表示本次客户端浏览该页面的时间长度,λ是Count函数的权重因子。
7.如权利要求1或6所述的系统,其中,所述匹配分析模块通过如下公式计算匹配度:
其中l1和l2表示两个给定序列,w1i是序列l1中的第i维的权重,w2i是序列l2中的第i维的权重,函数min返回两个数值中的较小值。
8.如权利要求1所述的系统,其中,所述匹配分析模块进一步配置成:
根据经过预处理的日志数据与所生成的页面浏览序列参照集合的匹配结果,对于所述页面浏览序列参照集合中的每个参照浏览序列,选取其与经过预处理的日志数据中每个子序列的匹配度最大值来作为该参照浏览序列的权重;
挑选权重最大的前n个参照浏览序列,从而生成参照序列集合SeC;以及
对于所述参照序列集合SeC中每条候选参照浏览序列,找出与序列相关的购买商品集合来作为所述用户潜在感兴趣的商品集合。
9.如权利要求2所述的系统,其中,所述候选结果过滤排序模块配置成:
根据所述匹配分析模块所确定的商品集合,累加所述商品集合中每个商品对应的候选参照序列的权重来作为该商品的权重,
根据所述商品的权重来对所述商品集合中的商品排序,以及
将权重较大的一定数量的商品作为最终推荐商品告知所述推荐服务控制器。
10.一种用户兴趣数据分析和收集方法,其特征在于,所述方法包括:
步骤A:从web服务器抽取日志数据以及与所述日志数据对应的商品购买历史记录,并对所述日志数据进行处理,从而生成页面浏览序列参照集合;
步骤B:实时收集用户的日志数据;
步骤C:在满足预定条件下,对该用户的日志数据进行预处理;以及
步骤D:将经过预处理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根据匹配结果来确定所述用户潜在感兴趣的商品集合。
11.如权利要求10所述的方法,还包括:
步骤E:根据预设定的推荐规则,对所述商品集合中的商品进行排序。
12.如权利要求11所述的方法,还包括:
步骤F:根据所述排序结果,选择出最终的推荐商品并发送给所述用户。
13.如权利要求10所述的方法,其中,步骤A进一步包括:
通过核对请求资源URI的后缀名,剔除请求资源为非页面的日志条目;
剔除状态响应码为错误的日志条目;
汇总同一个会话标识符的所有日志记录,形成属于该会话标识符的会话日志记录集合;以及
判断会话中是否包含购买页面和支付页面,以便筛选出最终完成购物的会话。
14.如权利要求10所述的方法,其中,步骤C进一步包括:
当用户访问的页面数量超过预先设定的数目N时,从所述web服务器的日志中抽取该用户的当前会话中所有的日志条目序列,从而启动推荐服务。
15.如权利要求14所述的方法,其中,步骤C进一步包括:
从所述日志条目序列中剔除非页面的以及响应码为错误的日志条目,以便形成精化日志条目序列Lp;
根据所述精化日志条目序列Lp,产生多个预定长度的连续日志条目子序列;以及
通过如下公式将所述连续日志条目子序列中的每条子序列转换为m维的权重向量:
其中,wl,i表示某一子序列l的第i维权重,f(l,i)表示第i维日志条目的URL出现在子序列l的次数,Count(i)表示第i维URL在所述页面浏览序列参照集合中出现的次数,t(l,i)表示本次客户端浏览该页面的时间长度,λ是Count函数的权重因子。
16.如权利要求10或15所述的方法,其中,步骤D通过如下公式计算匹配度:
其中l1和l2表示两个给定序列,w1i是序列l1中的第i维的权重,w2i是序列l2中的第i维的权重,函数min返回两个数值中的较小值。
17.如权利要求10所述的方法,其中,步骤D进一步包括:
根据经过预处理的日志数据与所生成的页面浏览序列参照集合的匹配结果,对于所述页面浏览序列参照集合中的每个参照浏览序列,选取其与经过预处理的日志数据中每个子序列的匹配度最大值来作为该参照浏览序列的权重;
挑选权重最大的前n个参照浏览序列,从而生成参照序列集合SeC;以及
对于所述参照序列集合SeC中每条候选参照浏览序列,找出与序列相关的购买商品集合来作为所述用户潜在感兴趣的商品集合。
18.如权利要求11所述的方法,其中,步骤E进一步包括:
根据所述匹配分析模块所确定的商品集合,累加所述商品集合中每个商品对应的候选参照序列的权重来作为该商品的权重,
根据所述商品的权重来对所述商品集合中的商品排序,以及
将权重较大的一定数量的商品作为最终推荐商品告知所述推荐服务控制器。
CN201410823475.0A 2014-12-26 2014-12-26 用户兴趣数据分析和收集系统及其方法 Active CN105589905B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410823475.0A CN105589905B (zh) 2014-12-26 2014-12-26 用户兴趣数据分析和收集系统及其方法
US15/536,960 US10762549B2 (en) 2014-12-26 2015-12-02 Analysis and collection system for user interest data and method therefor
EP15871846.0A EP3239855A4 (en) 2014-12-26 2015-12-02 Analysis and collection system for user interest data and method therefor
PCT/CN2015/096217 WO2016101777A1 (zh) 2014-12-26 2015-12-02 用户兴趣数据分析和收集系统及其方法
TW104140938A TW201626310A (zh) 2014-12-26 2015-12-07 用戶興趣資料分析和收集系統及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410823475.0A CN105589905B (zh) 2014-12-26 2014-12-26 用户兴趣数据分析和收集系统及其方法

Publications (2)

Publication Number Publication Date
CN105589905A true CN105589905A (zh) 2016-05-18
CN105589905B CN105589905B (zh) 2019-06-18

Family

ID=55929487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410823475.0A Active CN105589905B (zh) 2014-12-26 2014-12-26 用户兴趣数据分析和收集系统及其方法

Country Status (5)

Country Link
US (1) US10762549B2 (zh)
EP (1) EP3239855A4 (zh)
CN (1) CN105589905B (zh)
TW (1) TW201626310A (zh)
WO (1) WO2016101777A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447464A (zh) * 2016-10-22 2017-02-22 肇庆市联高电子商务有限公司 电子商务数据处理系统
CN107317873A (zh) * 2017-07-21 2017-11-03 曙光信息产业(北京)有限公司 一种会话处理方法和装置
CN107545450A (zh) * 2016-06-27 2018-01-05 百度在线网络技术(北京)有限公司 一种交易信息推送方法和装置
CN107682385A (zh) * 2017-05-10 2018-02-09 平安科技(深圳)有限公司 基于线上线下一体化服务的方法及设备、存储介质
TWI635451B (zh) * 2017-07-06 2018-09-11 雲義科技股份有限公司 運用虛擬商品於推薦系統影響相似度分析方法及其系統
CN108647284A (zh) * 2018-05-03 2018-10-12 网易宝有限公司 记录用户行为的方法及装置、介质和计算设备
CN108665333A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 商品推荐方法、装置、电子设备和存储介质
CN108876526A (zh) * 2018-06-06 2018-11-23 北京京东尚科信息技术有限公司 商品推荐方法、装置和计算机可读存储介质
CN108874813A (zh) * 2017-05-10 2018-11-23 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN108932640A (zh) * 2017-05-18 2018-12-04 北京京东尚科信息技术有限公司 用于处理订单的方法和装置
CN109359263A (zh) * 2018-10-16 2019-02-19 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统
CN109767278A (zh) * 2017-11-09 2019-05-17 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN110414824A (zh) * 2019-07-23 2019-11-05 复旦大学 一种基于社群系统的服务管理系统
CN110544140A (zh) * 2018-05-29 2019-12-06 北京京东尚科信息技术有限公司 一种处理浏览数据的方法和装置
CN110827044A (zh) * 2018-08-07 2020-02-21 北京京东尚科信息技术有限公司 提取用户兴趣模式的方法和装置
CN111582985A (zh) * 2020-05-09 2020-08-25 北京首汽智行科技有限公司 一种基于用户推荐的共享出行服务网点确定方法和装置
CN111639989A (zh) * 2020-04-28 2020-09-08 上海风秩科技有限公司 商品推荐方法和可读存储介质
CN112115169A (zh) * 2020-09-17 2020-12-22 北京奇艺世纪科技有限公司 用户画像生成、对象分发、内容推荐方法、装置及介质
CN112486935A (zh) * 2019-09-12 2021-03-12 阿里巴巴集团控股有限公司 日志记录处理方法、装置、设备及机器可读存储介质
CN113538110A (zh) * 2021-08-13 2021-10-22 苏州工业职业技术学院 一种基于浏览序列的相似物品推荐方法
CN113761308A (zh) * 2021-01-28 2021-12-07 北京沃东天骏信息技术有限公司 物品标识的特征提取方法、装置、设备及存储介质
WO2022021395A1 (zh) * 2020-07-31 2022-02-03 深圳齐心集团股份有限公司 一种电子商务商品推荐系统
TWI827029B (zh) * 2022-04-29 2023-12-21 台灣伽瑪移動數位股份有限公司 用於推薦商品之方法及其相關電子裝置

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763502B (zh) * 2018-05-30 2022-03-25 腾讯科技(深圳)有限公司 信息推荐方法和系统
CN109271588A (zh) * 2018-09-06 2019-01-25 北京摩迅筑路机械有限公司 数据处理方法和装置
CN109102342A (zh) * 2018-09-17 2018-12-28 广东成高成数据集成有限公司 基于区块链及人工智能的数据集成即应用系统、服务方法
CN109685128A (zh) * 2018-12-18 2019-04-26 电子科技大学 一种MB-kmeans++聚类方法及基于其的用户会话聚类方法
CN109859004A (zh) * 2019-01-10 2019-06-07 珠海金山网络游戏科技有限公司 一种基于历史数据的商品推荐方法及系统
CN109886772A (zh) * 2019-01-16 2019-06-14 深圳壹账通智能科技有限公司 产品推荐方法、装置、计算机设备和存储介质
CN110032546A (zh) * 2019-04-18 2019-07-19 厦门大学嘉庚学院 一种快速满足临时性日志分析系统及其方法
CN110516184B (zh) * 2019-05-27 2023-03-24 广州起妙科技有限公司 一种统计uv数量的模拟运算方法
CN111767457B (zh) * 2019-08-29 2024-04-09 北京沃东天骏信息技术有限公司 推荐方法及装置
CN111078994B (zh) * 2019-11-06 2023-04-18 珠海健康云科技有限公司 基于画像的医学科普文章推荐方法及系统
CN110852852A (zh) * 2019-11-15 2020-02-28 成都航天科工大数据研究院有限公司 一种工业互联网产品推荐系统及方法
CN111080448B (zh) * 2019-12-02 2024-03-26 深圳索信达数据技术有限公司 一种基于会话的意图分析方法
CN110929160B (zh) * 2019-12-02 2024-05-10 上海麦克风文化传媒有限公司 一种系统排序结果的优化方法
CN112232915B (zh) * 2019-12-23 2024-07-23 北京来也网络科技有限公司 结合rpa与ai的商品推荐方法和装置
CN111080325A (zh) * 2019-12-31 2020-04-28 科技谷(厦门)信息技术有限公司 一种民航客户关系关系分析系统及方法
CN111221953B (zh) * 2020-01-08 2024-03-08 南京新贝金服科技有限公司 一种在线售前客服效果评价方法
CN111597451B (zh) * 2020-05-21 2024-03-08 北京明略昭辉科技有限公司 一种目标用户的确定方法、确定装置及可读存储介质
CN113724026B (zh) * 2020-05-25 2024-06-18 北京沃东天骏信息技术有限公司 一种订单来源的分析方法和装置
CN111815351B (zh) * 2020-05-29 2024-06-21 杭州览众数据科技有限公司 一种基于协同过滤与关联规则的服装推荐方法
CN111767201B (zh) * 2020-06-29 2023-08-29 百度在线网络技术(北京)有限公司 用户行为分析方法、终端设备、服务器及存储介质
CN112036988B (zh) * 2020-09-24 2023-04-07 上海风秩科技有限公司 标签生成方法和装置、存储介质及电子设备
CN112256958A (zh) * 2020-09-27 2021-01-22 中智关爱通(上海)科技股份有限公司 一种商品推荐方法
CN112435134A (zh) * 2020-11-23 2021-03-02 泰康保险集团股份有限公司 信息列表生成方法及装置、可读存储介质以及电子设备
CN112818217B (zh) * 2021-01-13 2022-03-01 安徽省信盾科技有限公司 一种基于区块链分片的Web服务推荐方法及系统
CN113761002A (zh) * 2021-03-25 2021-12-07 北京沃东天骏信息技术有限公司 信息推送方法、装置、设备和计算机可读存储介质
CN113382309A (zh) * 2021-06-02 2021-09-10 南拳互娱(武汉)文化传媒有限公司 游戏达人直播的导流算法与推荐采购平台
CN113643033B (zh) * 2021-09-02 2022-04-19 厦门蝉羽网络科技有限公司 一种用于大数据风控分析的信息处理方法及服务器
CN113590974B (zh) * 2021-09-29 2022-01-28 北京每日优鲜电子商务有限公司 推荐页面配置方法、装置、电子设备和计算机可读介质
CN114374595B (zh) * 2022-01-13 2024-03-15 平安普惠企业管理有限公司 事件节点归因分析方法、装置、电子设备及存储介质
CN114971805A (zh) * 2022-06-07 2022-08-30 武汉洋洪电子商务有限公司 一种基于深度学习的电子商务平台商品智能分析推荐系统
CN115022098B (zh) * 2022-08-09 2022-11-18 北京瑞莱智慧科技有限公司 人工智能安全靶场内容推荐方法、装置及存储介质
CN115345656A (zh) * 2022-08-10 2022-11-15 江西省众灿互动科技股份有限公司 一种用于精细化营销的行为数据分析方法
CN115935068B (zh) * 2022-12-12 2023-09-05 杭州洋驼网络科技有限公司 互联网平台的商品推荐方法以及装置
CN116089733B (zh) * 2023-04-12 2023-06-16 悦享星光(北京)科技有限公司 一种基于大数据的数据分析方法
CN116644945B (zh) * 2023-07-27 2023-10-13 济南六度网络技术有限公司 一种基于数据匹配分析的装修派单管理系统
CN116894713A (zh) * 2023-09-07 2023-10-17 酒仙网络科技股份有限公司 一种基于电商平台的酒类销售管理系统
CN117194804B (zh) * 2023-11-08 2024-01-26 上海银行股份有限公司 一种适用于经营管理系统的引导性推荐方法及系统
CN117235396B (zh) * 2023-11-13 2024-03-22 广州品唯软件有限公司 一种精选楼层入参的校验方法、装置、设备及存储介质
CN117708863B (zh) * 2024-02-05 2024-04-19 四川集鲜数智供应链科技有限公司 一种基于物联网的设备数据加密处理方法
CN118096312B (zh) * 2024-03-05 2024-07-23 太一云境技术有限公司 一种基于序列帧的产品展示方法及系统
CN118485501B (zh) * 2024-07-16 2024-10-01 成都市思博睿科技有限公司 应用于数字化零售平台的数据分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071424A (zh) * 2006-06-23 2007-11-14 腾讯科技(深圳)有限公司 一种个性化信息推送系统和方法
US20120271805A1 (en) * 2011-04-19 2012-10-25 Microsoft Corporation Predictively suggesting websites
CN103577544A (zh) * 2013-10-11 2014-02-12 北京百度网讯科技有限公司 一种用于提供待发送信息的方法及装置
CN103839169A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种基于频率矩阵和文本相似度的个性化商品推荐方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040070606A1 (en) 2002-09-27 2004-04-15 Dan Yang Method, system and computer product for performing e-channel analytics
US8370203B2 (en) * 2002-10-07 2013-02-05 Amazon Technologies, Inc. User interface and methods for recommending items to users
WO2006061797A2 (en) 2004-12-10 2006-06-15 Koninklijke Philips Electronics N.V. Dynamic internet shopping method and system
US20080103907A1 (en) * 2006-10-25 2008-05-01 Pudding Ltd. Apparatus and computer code for providing social-network dependent information retrieval services
CN101324948B (zh) * 2008-07-24 2015-11-25 阿里巴巴集团控股有限公司 一种信息推荐的方法及装置
US20110173098A1 (en) 2010-01-12 2011-07-14 Lee Chun-Yi System, method, computer readable medium and computer program product for managing electronic commerce
TWI490710B (zh) 2010-02-10 2015-07-01 Alibaba Group Holding Ltd 向用戶推薦網路目標資訊的方法及向用戶推薦網路目標資訊的伺服器
TWI433042B (zh) 2010-10-06 2014-04-01 Chunghwa Telecom Co Ltd Multi - product recommendation method and system
CN103812683B (zh) 2012-11-15 2015-07-15 腾讯科技(深圳)有限公司 一种用户行为数据的处理方法、装置和系统
CN103885968B (zh) 2012-12-20 2019-04-12 北京百度网讯科技有限公司 一种用于提供推荐信息的方法和装置
CN103294800B (zh) 2013-05-27 2016-12-28 华为技术有限公司 一种信息推送方法及装置
US11061973B2 (en) * 2013-06-14 2021-07-13 Microsoft Technology Licensing, Llc Incorporating user usage of consumable content into recommendations
US20150169744A1 (en) * 2013-12-12 2015-06-18 Flipboard, Inc. Selecting Diverse, Relevant Content From Multiple Content Feeds
CN103678652B (zh) * 2013-12-23 2017-02-01 山东大学 一种基于Web日志数据的信息个性化推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071424A (zh) * 2006-06-23 2007-11-14 腾讯科技(深圳)有限公司 一种个性化信息推送系统和方法
US20120271805A1 (en) * 2011-04-19 2012-10-25 Microsoft Corporation Predictively suggesting websites
CN103839169A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种基于频率矩阵和文本相似度的个性化商品推荐方法
CN103577544A (zh) * 2013-10-11 2014-02-12 北京百度网讯科技有限公司 一种用于提供待发送信息的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李朋轩: ""基于Web挖掘的电子商务推荐技术的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545450A (zh) * 2016-06-27 2018-01-05 百度在线网络技术(北京)有限公司 一种交易信息推送方法和装置
CN106447464A (zh) * 2016-10-22 2017-02-22 肇庆市联高电子商务有限公司 电子商务数据处理系统
CN108665333A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 商品推荐方法、装置、电子设备和存储介质
CN107682385A (zh) * 2017-05-10 2018-02-09 平安科技(深圳)有限公司 基于线上线下一体化服务的方法及设备、存储介质
CN108874813A (zh) * 2017-05-10 2018-11-23 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN108874813B (zh) * 2017-05-10 2022-07-29 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN108932640B (zh) * 2017-05-18 2022-03-04 北京京东尚科信息技术有限公司 用于处理订单的方法和装置
CN108932640A (zh) * 2017-05-18 2018-12-04 北京京东尚科信息技术有限公司 用于处理订单的方法和装置
TWI635451B (zh) * 2017-07-06 2018-09-11 雲義科技股份有限公司 運用虛擬商品於推薦系統影響相似度分析方法及其系統
CN107317873B (zh) * 2017-07-21 2020-08-11 曙光信息产业(北京)有限公司 一种会话处理方法和装置
CN107317873A (zh) * 2017-07-21 2017-11-03 曙光信息产业(北京)有限公司 一种会话处理方法和装置
CN109767278A (zh) * 2017-11-09 2019-05-17 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109767278B (zh) * 2017-11-09 2021-03-30 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN108647284A (zh) * 2018-05-03 2018-10-12 网易宝有限公司 记录用户行为的方法及装置、介质和计算设备
CN108647284B (zh) * 2018-05-03 2021-07-23 网易宝有限公司 记录用户行为的方法及装置、介质和计算设备
CN110544140B (zh) * 2018-05-29 2024-08-20 北京京东尚科信息技术有限公司 一种处理浏览数据的方法和装置
CN110544140A (zh) * 2018-05-29 2019-12-06 北京京东尚科信息技术有限公司 一种处理浏览数据的方法和装置
CN108876526A (zh) * 2018-06-06 2018-11-23 北京京东尚科信息技术有限公司 商品推荐方法、装置和计算机可读存储介质
CN110827044A (zh) * 2018-08-07 2020-02-21 北京京东尚科信息技术有限公司 提取用户兴趣模式的方法和装置
CN109359263A (zh) * 2018-10-16 2019-02-19 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统
CN110414824A (zh) * 2019-07-23 2019-11-05 复旦大学 一种基于社群系统的服务管理系统
CN110414824B (zh) * 2019-07-23 2023-04-07 复旦大学 一种基于社群系统的服务管理系统
CN112486935A (zh) * 2019-09-12 2021-03-12 阿里巴巴集团控股有限公司 日志记录处理方法、装置、设备及机器可读存储介质
WO2021047576A1 (zh) * 2019-09-12 2021-03-18 阿里巴巴集团控股有限公司 日志记录处理方法、装置、设备及机器可读存储介质
CN112486935B (zh) * 2019-09-12 2024-01-30 阿里巴巴集团控股有限公司 日志记录处理方法、装置、设备及机器可读存储介质
CN111639989A (zh) * 2020-04-28 2020-09-08 上海风秩科技有限公司 商品推荐方法和可读存储介质
CN111639989B (zh) * 2020-04-28 2024-02-02 上海秒针网络科技有限公司 商品推荐方法和可读存储介质
CN111582985A (zh) * 2020-05-09 2020-08-25 北京首汽智行科技有限公司 一种基于用户推荐的共享出行服务网点确定方法和装置
WO2022021395A1 (zh) * 2020-07-31 2022-02-03 深圳齐心集团股份有限公司 一种电子商务商品推荐系统
CN112115169B (zh) * 2020-09-17 2023-09-08 北京奇艺世纪科技有限公司 用户画像生成、对象分发、内容推荐方法、装置及介质
CN112115169A (zh) * 2020-09-17 2020-12-22 北京奇艺世纪科技有限公司 用户画像生成、对象分发、内容推荐方法、装置及介质
CN113761308A (zh) * 2021-01-28 2021-12-07 北京沃东天骏信息技术有限公司 物品标识的特征提取方法、装置、设备及存储介质
CN113538110B (zh) * 2021-08-13 2023-08-11 苏州工业职业技术学院 一种基于浏览序列的相似物品推荐方法
CN113538110A (zh) * 2021-08-13 2021-10-22 苏州工业职业技术学院 一种基于浏览序列的相似物品推荐方法
TWI827029B (zh) * 2022-04-29 2023-12-21 台灣伽瑪移動數位股份有限公司 用於推薦商品之方法及其相關電子裝置

Also Published As

Publication number Publication date
TW201626310A (zh) 2016-07-16
US20180005297A1 (en) 2018-01-04
EP3239855A1 (en) 2017-11-01
EP3239855A4 (en) 2018-07-04
US10762549B2 (en) 2020-09-01
CN105589905B (zh) 2019-06-18
WO2016101777A1 (zh) 2016-06-30

Similar Documents

Publication Publication Date Title
CN105589905B (zh) 用户兴趣数据分析和收集系统及其方法
CN109685631B (zh) 一种基于大数据用户行为分析的个性化推荐方法
CN107944913B (zh) 基于大数据用户行为分析的高潜在用户购买意向预测方法
JP6356744B2 (ja) ウェブサイト横断情報を表示する方法およびシステム
CN105183727A (zh) 一种图书推荐方法及其系统
CN106604066B (zh) 改进的视频app中个性化推荐方法及系统
CN102789462A (zh) 一种项目推荐方法及系统
CN101482884A (zh) 一种基于用户偏好评分分布的协作推荐系统
CN101271559A (zh) 一种基于用户局部兴趣挖掘的协作推荐系统
CN105975472A (zh) 一种推荐方法和装置
US20120066087A1 (en) Generating product recommendations
CN103886487A (zh) 基于分布式的b2b平台的个性化推荐方法与系统
CN103886074A (zh) 基于社交媒体的商品推荐系统
CN107193831A (zh) 信息推荐方法及装置
CN112085549A (zh) 一种基于数据处理技术的电商平台用商品推荐方法
CN108876536A (zh) 基于最近邻信息的协同过滤推荐方法
CN109670909A (zh) 一种基于概率矩阵分解和特征融合的旅游产品推荐方法
Almaghrabi et al. A deep learning based collaborative neural network framework for recommender system
CN110347923B (zh) 一种可回溯的快速裂变式构建用户画像的方法
Sneha et al. An online recommendation system based on web usage mining and semantic web using LCS algorithm
CN109062945B (zh) 一种社交网络的信息推荐方法、装置及系统
CN112801803B (zh) 一种理财产品推荐方法和装置
CN110209944A (zh) 一种股票分析师推荐方法、装置、计算机设备和存储介质
CN104298702A (zh) 基于社交网络信息进行电子阅读读物推荐的方法及系统
CN112581281A (zh) 产品推荐方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1224767

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant