CN105022830A - 一种基于用户行为的加权轨迹数据集构建方法 - Google Patents

一种基于用户行为的加权轨迹数据集构建方法 Download PDF

Info

Publication number
CN105022830A
CN105022830A CN201510475380.9A CN201510475380A CN105022830A CN 105022830 A CN105022830 A CN 105022830A CN 201510475380 A CN201510475380 A CN 201510475380A CN 105022830 A CN105022830 A CN 105022830A
Authority
CN
China
Prior art keywords
commodity
product
weighting
search
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510475380.9A
Other languages
English (en)
Other versions
CN105022830B (zh
Inventor
倪巍伟
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Focus Technology Co Ltd
Original Assignee
Southeast University
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, Focus Technology Co Ltd filed Critical Southeast University
Priority to CN201510475380.9A priority Critical patent/CN105022830B/zh
Publication of CN105022830A publication Critical patent/CN105022830A/zh
Application granted granted Critical
Publication of CN105022830B publication Critical patent/CN105022830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于用户行为的加权轨迹数据集构建方法,包括以下步骤:(1)根据电商网站平台访问日志数据中包含的产品信息、用户访问信息、商品交易信息,结合产品发布方所发布的产品类别,生成对应各产品类别访问记录数据集;(2)根据用户浏览网站商品信息页面产生的停留时间、同次会话中点击网页次序、是否交易特征属性,生成访问记录数据集中每条访问记录的权值,得到加权访问记录集;(3)对加权访问记录集,按商品标识符id进行分组,选取权值最大的k个记录,提取这k个记录的搜索关键字,生成该商品的搜索关键词组;(4)用这k条记录的平均权值作为该商品对应访问轨迹的权值,生成该商品的加权轨迹,构建加权轨迹数据集。

Description

一种基于用户行为的加权轨迹数据集构建方法
技术领域
本发明涉及的是一种数据集构建方法,具体涉及的是一种基于用户行为的加权轨迹数据集构建方法。
背景技术
随着电子商务的快速发展和普及,电商平台成为现代产品生产方与采购方的重要媒介,越来越多的企业用户将产品信息(诸如产品名称、描述、关键词等信息)通过电商平台进行发布展示,采购用户通过电商平台提供的查询接口,查找感兴趣的产品。在这一过程中,采购者希望快速、准确地搜索到与所输入查询信息最为相关的产品;而产品发布者希望自己的产品能以较高的概率被采购者关注。两类需求的实现依赖于产品发布者在平台上所标注的产品名称及关键词与采购者查询时所输入的检索词具有良好的匹配度,然而不同的采购者在利用电商平台查询目标产品时,往往有不同的习惯(包括检索词的组织形式、描述方式等),采购者搜索行为的这种多样性使得产品信息发布者固化的产品描述信息难以满足需求,可能出现产品关键词等描述信息不当导致的匹配度降低。
大数据时代的来临,各行业的分析人员开始关注各类业务数据对业务活动可能有的促进作用,电子商务平台业务数据的持续积累,平台中存储了大量用户查询相关信息,诸如用户查询主题、感兴趣的查询主题词、打开的链接页面,在各个页面的停留时间等,这些信息蕴含着查询用户的搜索行为模式,若能对这些数据处理,构建体现搜索用户查询内容与页面访问关联性的加权轨迹数据集,然后对加权轨迹数据集进行挖掘分析,提取出各领域查询者的搜索行为模式,将能为用户发布产品信息提供辅助决策信息,帮助用户合理地制定产品名称及关键词等信息,提高其产品的受关注度,提高交易率,实现电子商务平台服务的个性化和定制化,提升服务质量。
加权轨迹数据集作为后续数据挖掘的数据源,因此构建加权轨迹数据集的方法直接影响到数据挖掘的质量,构建时需要紧紧联系体现用户搜索关键词与打开页面的产品关键词之间关联性强弱这一准则。用户在平台上的搜索等访问操作等产生的日志信息具有数据量大、模式复杂等特点,需要结合挖掘搜索行为模式这一挖掘主题,确定目标数据源的范围与组成,进一步提取相关数据进行预处理集成为挖掘数据集。
发明内容
本发明目的是,针对目前利用电商平台日志信息挖掘用户搜索行为模式过程中构建轨迹数据集方面存在的不足,提供一种基于用户行为的、主客观相结合的构建加权轨迹数据集方法。
为了实现上述目的,本发明是通过如下的技术方案来实现:基于用户行为的加权轨迹数据集构建方法,包括以下步骤:
(1)根据电商网站平台访问日志数据中包含的产品信息、用户访问信息、商品交易信息,结合产品发布方所发布的产品类别(包括但不限于电子类、机械类等),分别生成对应各产品类别的访问记录数据集,访问记录数据集的数据模式如下,访问记录数据集visited_id,search_word,product_id,prod_keyword,visit_time,visit_seq,browse_time,enquiry,分别表示访问记录标志符、查询用户输入的检索关键词、产品标志符、产品的描述关键词组、访问时间、访问者在一次会话打开一系列页面过程中打开该页面的次序,查询者打开某产品页面后在该页面的停留时间,是否联系产品发布者;
(2)根据用户浏览网站商品信息页面产生的停留时间、同次会话中点击网页次序、是否交易特征属性,生成访问记录数据集中每条访问记录的权值,得到加权访问记录集,其模式如下:加权访问记录数据visited_id,search_word,product_id,prod_keyword,visit_time,weight;
其中,weight表示查询者用关键词search_word查找目标商品时,对商品号为product_id的商品对应页面表现出的兴趣度,计算方法为:
W e i g h t = aw 1 + bw 2 + cw 3 w 1 + w 2 + w 3
其中a+b+c=1,且0<a,b,c<1,分别对应分析者对visit_seq,browse_time以及enquiry属性的重视程度。
visit_seqmax与visit_seqmin分别为访问记录数据表中visit_seq属性取值的最大值和最小值,vseq为某条访问记录在visit_seq属性上的值。
browse_timemax与browse_timemin分别为访问记录数据表中browse_time属性取值的最大值和最小值,vtime为某条访问记录在browse_time属性上的值。
分enquiry属性为True对应查询者联系该记录所描述商品的发布方;
(3)对加权访问记录集,按商品标识符id进行分组,在每个商品对应分组记录中,选取权值最大的k个记录,提取这k个记录的搜索关键字,生成该商品的搜索关键词组,由商品关键词、搜索关键词组、商品描述关键词组成该商品的访问轨迹,轨迹数据集模式为product_id,search_word1,search_word2,……,search_wordk,prod_keyword;
(4)用这k条记录的平均权值作为该商品对应访问轨迹的权值,生成该商品的加权轨迹,构建电商平台所展示商品的加权轨迹数据集。加权轨迹数据集的模式如下:
加权轨迹数据集product_id,search_word1,search_word2,……,search_wordk,prod_keyword,weight。
本发明的有益效果:本发明结合电商平台大量用户通过平台所提供检索接口输入关键词查找目标商品过程生成的大量访问日志信息,提出基于用户行为的轨迹数据集构建方法。从大量零散繁杂的用户访问信息中提取出包含用户访问行为模式的关键信息,组成轨迹数据集,可供后续挖掘分析使用。本发明所生成加权轨迹数据集,能够作为挖掘数据源供电商平台进行基于用户交易模式的用户搜索关键词与商品描述关键词关联制约关系挖掘。本发明所提出轨迹数据集构建方法具有轨迹数据集规模与访问记录规模无关的优点,由于将对每件商品的所有访问信息提炼为一条轨迹数据记录,因此轨迹数据集的规模上限为点上平台所展示的商品数量,与查询者访问次数无关,从而保证轨迹数据集作为后续挖掘数据源具有规模有限的优点,为后续挖掘分析过程挖掘结果有效性和挖掘的高效性提供保障。
附图说明
图1为本发明处理流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例和说明书附图,进一步阐述本发明。
表1为本发明实例的初始访问记录集;
表2为本发明实例的加权访问记录集;
表3为本发明实例的轨迹数据集;
表4为本发明实例生成的加权轨迹数据集;
如表1所示实例初始访问记录集,共有9条记录,属性Visit_seq的最小值为1,最大值为3;Browse_time属性的最小值为5,最大值为60秒:
权值a=b=0.3,c=0.4,计算各条记录的权值过程如下:
第1条记录: w 1 = 1 - 1 - 1 3 - 1 = 1 , w 2 = 20 - 5 60 - 5 = 0.273 , w 3 = 1
W e i g h t = 0.3 &times; 1 + 0.3 &times; 0.273 + 0.4 &times; 1 0.3 + 0.3 + 0.4 = 0.782
第2条记录: w 1 = 1 - 2 - 1 3 - 1 = 0.5 , w 2 = 15 - 5 60 - 5 = 0.182 , w 3 = 0
W e i g h t = 0.3 &times; 0.5 + 0.3 &times; 0.182 + 0.4 &times; 0 0.3 + 0.3 + 0.4 = 0.205
第3条记录: w 1 = 1 - 1 - 1 3 - 1 = 1 , w 2 = 5 - 5 60 - 5 = 0 , w 3 = 0
W e i g h t = 0.3 &times; 1 + 0.3 &times; 0 + 0.4 &times; 0 0.3 + 0.3 + 0.4 = 0.3
第4条记录: w 1 = 1 - 3 - 1 3 - 1 = 0 , w 2 = 10 - 5 60 - 5 = 0.091 , w 3 = 0
W e i g h t = 0.3 &times; 0 + 0.3 &times; 0.091 + 0.4 &times; 0 0.3 + 0.3 + 0.4 = 0.027
第5条记录: w 1 = 1 - 1 - 1 3 - 1 = 1 , w 2 = 30 - 5 60 - 5 = 0.455 , w 3 = 1
W e i g h t = 0.3 &times; 1 + 0.3 &times; 0.455 + 0.4 &times; 1 0.3 + 0.3 + 0.4 = 0.837
第6条记录: w 1 = 1 - 2 - 1 3 - 1 = 0.5 , w 2 = 10 - 5 60 - 5 = 0.091 , w 3 = 0
W e i g h t = 0.3 &times; 0.5 + 0.3 &times; 0.091 + 0.4 &times; 0 0.3 + 0.3 + 0.4 = 0.177
第7条记录: w 1 = 1 - 1 - 1 3 - 1 = 1 , w 2 = 60 - 5 60 - 5 = 1 , w 3 = 0
W e i g h t = 0.3 &times; 1 + 0.3 &times; 1 + 0.4 &times; 0 0.3 + 0.3 + 0.4 = 0.6
第8条记录: w 1 = 1 - 2 - 1 3 - 1 = 0.5 , w 2 = 50 - 5 60 - 5 = 0.818 , w 3 = 1
W e i g h t = 0.3 &times; 0.5 + 0.3 &times; 0.818 + 0.4 &times; 1 0.3 + 0.3 + 0.4 = 0.795
第9条记录: w 1 = 1 - 1 - 1 3 - 1 = 1 , w 2 = 20 - 5 60 - 5 = 0.273 , w 3 = 0
W e i g h t = 0.3 &times; 1 + 0.3 &times; 0.273 + 0.4 &times; 0 0.3 + 0.3 + 0.4 = 0.382
生成如表2所示的实例的加权访问记录表。
访问记录集包括对3件商品的访问信息,因此根据product_id属性值,将9条记录分为3组:visit_id为1,4,9的三条记录为一组,对应product_id为p01商品的访问记录子集;visit_id为2,6,7的三条记录为一组,对应product_id为p02商品的访问记录子集;visit_id为3,5,8的三条记录为一组,对应product_id为p01商品的访问记录子集;假设k取2,即每组记录取权值最大的两条记录构建轨迹数据集。
第1组记录子集权值最大的两条访问记录对应visit_id为1,9的两条记录,其权值分别为0.782和0.382,生成如下轨迹:
(s1,s9,p01,key1)
第2组记录子集权值最大的两条访问记录对应visit_id为2,7的两条记录,其权值分别为0.205和0.6,生成如下轨迹:
(s2,s7,p02,key2)
第3组记录子集权值最大的两条访问记录对应visit_id为5,8的两条记录,其权值分别为0.837和0.795,生成如下轨迹:
(s5,s8,p03,key3)
组成表3所示访问轨迹数据集;
表3:
表4:
最后将每个记录组所选记录的权值的均值作为各组代表轨迹的权重,各轨迹权重分别为:
(0.782+0.382)/2=0.582
(0.205+0.6)/2=0.403
(0.837+0.795)/2=0.816
生成如上表4所示加权轨迹数据集(注:所有计算数值保留小数点后3位)。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.基于用户行为的加权轨迹数据集构建方法,其特征是包括以下步骤:
(1)根据电商网站平台访问日志数据中包含的产品信息、用户访问信息、商品交易信息,结合产品发布方所发布的产品类别,分别生成对应各产品类别的访问记录数据集,访问记录数据集的数据模式如下:访问记录数据集visited_id,search_word,product_id,prod_keyword,visit_time,visit_seq,browse_time,enquiry,分别表示访问记录标志符、查询用户输入的检索关键词、产品标志符、产品的描述关键词组、访问时间、访问者在一次会话打开一系列页面过程中打开该页面的次序,查询者打开某产品页面后在该页面的停留时间,是否联系产品发布者;
(2)根据用户浏览网站商品信息页面产生的停留时间、同次会话中点击网页次序、是否交易特征属性,生成访问记录数据集中每条访问记录的权值,得到加权访问记录集,其模式如下:加权访问记录数据visited_id,search_word,product_id,prod_keyword,visit_time,weight;
其中,weight表示查询者用检索关键词search_word查找目标商品时,对商品号为product_id的商品对应页面表现出的兴趣度,计算方法为:
W e i g h t = aw 1 + bw 2 + cw 3 w 1 + w 2 + w 3
其中a+b+c=1,且0<a,b,c<1,分别对应分析者对visit_seq,browse_time以及enquiry属性的重视程度。
visit_seqmax与visit_seqmin分别为访问记录数据表中visit_seq属性取值的最大值和最小值,vseq为某条访问记录在visit_seq属性上的值;
w 2 = v t i m e - b r o w s e _ time m i n b r o w s e _ time m a x - b r o w s e _ time min , browse_timemax与browse_timemin分别为访问记录数据表中browse_time属性取值的最大值和最小值,vtime为某条访问记录在browse_time属性上的值;
分enquiry属性为True对应查询者联系该记录所描述商品的发布方;
(3)对加权访问记录集,按商品标识符id进行分组,在每个商品对应分组记录中,选取权值最大的k个记录,提取这k个记录的搜索关键字,生成该商品的搜索关键词组,由商品关键词、搜索关键词组、商品描述关键词组成该商品的访问轨迹,轨迹数据集模式为product_id,search_word1,search_word2,……,search_wordk,prod_keyword;
(4)用这k条记录的平均权值作为该商品对应访问轨迹的权值,生成该商品的加权轨迹,构建电商平台所展示商品的加权轨迹数据集;
加权轨迹数据集的模式如下:加权轨迹数据集product_id,search_word1,search_word2,……,search_wordk,prod_keyword,weigh。
CN201510475380.9A 2015-08-05 2015-08-05 一种基于用户行为的加权轨迹数据集构建方法 Active CN105022830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510475380.9A CN105022830B (zh) 2015-08-05 2015-08-05 一种基于用户行为的加权轨迹数据集构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510475380.9A CN105022830B (zh) 2015-08-05 2015-08-05 一种基于用户行为的加权轨迹数据集构建方法

Publications (2)

Publication Number Publication Date
CN105022830A true CN105022830A (zh) 2015-11-04
CN105022830B CN105022830B (zh) 2018-05-04

Family

ID=54412799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510475380.9A Active CN105022830B (zh) 2015-08-05 2015-08-05 一种基于用户行为的加权轨迹数据集构建方法

Country Status (1)

Country Link
CN (1) CN105022830B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609871A (zh) * 2017-09-07 2018-01-19 携程旅游网络技术(上海)有限公司 支付轨迹重现方法、装置、系统、电子设备、存储介质
CN108305197A (zh) * 2018-01-29 2018-07-20 广州源创网络科技有限公司 一种数据统计方法及系统
CN108932640A (zh) * 2017-05-18 2018-12-04 北京京东尚科信息技术有限公司 用于处理订单的方法和装置
CN109684373A (zh) * 2018-11-26 2019-04-26 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于出行和话单数据分析的重点关系人发现方法
CN112613951A (zh) * 2020-12-28 2021-04-06 赛尔网络有限公司 商品页面展示方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012165924A2 (ko) * 2011-06-03 2012-12-06 Jung Jin-Woo 인터넷 검색의 키워드 광고를 이용하는 유효 키워드 선정 시스템 및 그 유효 키워드 선정 방법
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012165924A2 (ko) * 2011-06-03 2012-12-06 Jung Jin-Woo 인터넷 검색의 키워드 광고를 이용하는 유효 키워드 선정 시스템 및 그 유효 키워드 선정 방법
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹毅等: "基于用户兴趣的混合推荐模型", 《系统工程》 *
郭岩等: "网络日志规模分析和用户兴趣挖掘", 《计算机学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932640A (zh) * 2017-05-18 2018-12-04 北京京东尚科信息技术有限公司 用于处理订单的方法和装置
CN108932640B (zh) * 2017-05-18 2022-03-04 北京京东尚科信息技术有限公司 用于处理订单的方法和装置
CN107609871A (zh) * 2017-09-07 2018-01-19 携程旅游网络技术(上海)有限公司 支付轨迹重现方法、装置、系统、电子设备、存储介质
CN107609871B (zh) * 2017-09-07 2021-05-28 携程旅游网络技术(上海)有限公司 支付轨迹重现方法、装置、系统、电子设备、存储介质
CN108305197A (zh) * 2018-01-29 2018-07-20 广州源创网络科技有限公司 一种数据统计方法及系统
CN109684373A (zh) * 2018-11-26 2019-04-26 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于出行和话单数据分析的重点关系人发现方法
CN109684373B (zh) * 2018-11-26 2023-07-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于出行和话单数据分析的重点关系人发现方法
CN112613951A (zh) * 2020-12-28 2021-04-06 赛尔网络有限公司 商品页面展示方法、装置、设备及介质

Also Published As

Publication number Publication date
CN105022830B (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN102722481B (zh) 一种用户收藏夹数据的处理方法及搜索方法
CN107391687B (zh) 一种面向地方志网站的混合推荐系统
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
KR101168705B1 (ko) 이동통신 단말기와 아이피 기반 정보 단말기를 이용한 맞춤, 지능형 심볼, 아이콘 인터넷 정보 검색시스템
CN101185074B (zh) 用于事实查询引擎的带有来自信息源的包含查询词语和回答词语的片段的用户界面
CA2848593C (en) Information processing apparatus, information processing method, and information processing program
CN101283353B (zh) 通过分析标签找到相关文档的系统和方法
US20090240638A1 (en) Syntactic and/or semantic analysis of uniform resource identifiers
CN105022830A (zh) 一种基于用户行为的加权轨迹数据集构建方法
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN103577549A (zh) 一种基于微博标签的人群画像系统和方法
JP2013531289A (ja) 検索におけるモデル情報群の使用
TW201401088A (zh) 搜索方法和裝置
CN103400286A (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
WO2017121272A1 (zh) 用户行为数据的处理方法及装置
CN104899229A (zh) 基于群体智能的行为聚类系统
CN102129431A (zh) 应用于网上交易平台的检索方法和系统
CN104965863A (zh) 一种对象聚类方法和装置
Han et al. Study on web mining algorithm based on usage mining
JP5492160B2 (ja) 関連付け装置、関連付け方法及び関連付けプログラム
US7359898B1 (en) Scoring mechanism selection along multiple dimensions
CN105224555A (zh) 一种搜索的方法、装置和系统
Karpischek et al. Detecting incorrect product names in online sources for product master data
Osial et al. Smartphone recommendation system using web data integration techniques
TW201901493A (zh) 資料搜尋方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant