CN105022830B - 一种基于用户行为的加权轨迹数据集构建方法 - Google Patents

一种基于用户行为的加权轨迹数据集构建方法 Download PDF

Info

Publication number
CN105022830B
CN105022830B CN201510475380.9A CN201510475380A CN105022830B CN 105022830 B CN105022830 B CN 105022830B CN 201510475380 A CN201510475380 A CN 201510475380A CN 105022830 B CN105022830 B CN 105022830B
Authority
CN
China
Prior art keywords
record
product
weighting
commodity
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510475380.9A
Other languages
English (en)
Other versions
CN105022830A (zh
Inventor
倪巍伟
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Focus Technology Co Ltd
Original Assignee
Southeast University
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, Focus Technology Co Ltd filed Critical Southeast University
Priority to CN201510475380.9A priority Critical patent/CN105022830B/zh
Publication of CN105022830A publication Critical patent/CN105022830A/zh
Application granted granted Critical
Publication of CN105022830B publication Critical patent/CN105022830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于用户行为的加权轨迹数据集构建方法,包括以下步骤:(1)根据电商网站平台访问日志数据中包含的产品信息、用户访问信息、商品交易信息,结合产品发布方所发布的产品类别,生成对应各产品类别访问记录数据集;(2)根据用户浏览网站商品信息页面产生的停留时间、同次会话中点击网页次序、是否交易特征属性,生成访问记录数据集中每条访问记录的权值,得到加权访问记录集;(3)对加权访问记录集,按商品标识符id进行分组,选取权值最大的k个记录,提取这k个记录的搜索关键字,生成该商品的搜索关键词组;(4)用这k条记录的平均权值作为该商品对应访问轨迹的权值,生成该商品的加权轨迹,构建加权轨迹数据集。

Description

一种基于用户行为的加权轨迹数据集构建方法
技术领域
本发明涉及的是一种数据集构建方法,具体涉及的是一种基于用户行为的加权轨迹数据集构建方法。
背景技术
随着电子商务的快速发展和普及,电商平台成为现代产品生产方与采购方的重要媒介,越来越多的企业用户将产品信息(诸如产品名称、描述、关键词等信息)通过电商平台进行发布展示,采购用户通过电商平台提供的查询接口,查找感兴趣的产品。在这一过程中,采购者希望快速、准确地搜索到与所输入查询信息最为相关的产品;而产品发布者希望自己的产品能以较高的概率被采购者关注。两类需求的实现依赖于产品发布者在平台上所标注的产品名称及关键词与采购者查询时所输入的检索词具有良好的匹配度,然而不同的采购者在利用电商平台查询目标产品时,往往有不同的习惯(包括检索词的组织形式、描述方式等),采购者搜索行为的这种多样性使得产品信息发布者固化的产品描述信息难以满足需求,可能出现产品关键词等描述信息不当导致的匹配度降低。
大数据时代的来临,各行业的分析人员开始关注各类业务数据对业务活动可能有的促进作用,电子商务平台业务数据的持续积累,平台中存储了大量用户查询相关信息,诸如用户查询主题、感兴趣的查询主题词、打开的链接页面,在各个页面的停留时间等,这些信息蕴含着查询用户的搜索行为模式,若能对这些数据处理,构建体现搜索用户查询内容与页面访问关联性的加权轨迹数据集,然后对加权轨迹数据集进行挖掘分析,提取出各领域查询者的搜索行为模式,将能为用户发布产品信息提供辅助决策信息,帮助用户合理地制定产品名称及关键词等信息,提高其产品的受关注度,提高交易率,实现电子商务平台服务的个性化和定制化,提升服务质量。
加权轨迹数据集作为后续数据挖掘的数据源,因此构建加权轨迹数据集的方法直接影响到数据挖掘的质量,构建时需要紧紧联系体现用户搜索关键词与打开页面的产品关键词之间关联性强弱这一准则。用户在平台上的搜索等访问操作等产生的日志信息具有数据量大、模式复杂等特点,需要结合挖掘搜索行为模式这一挖掘主题,确定目标数据源的范围与组成,进一步提取相关数据进行预处理集成为挖掘数据集。
发明内容
本发明目的是,针对目前利用电商平台日志信息挖掘用户搜索行为模式过程中构建轨迹数据集方面存在的不足,提供一种基于用户行为的、主客观相结合的构建加权轨迹数据集方法。
为了实现上述目的,本发明是通过如下的技术方案来实现:基于用户行为的加权轨迹数据集构建方法,包括以下步骤:
(1)根据电商网站平台访问日志数据中包含的产品信息、用户访问信息、商品交易信息,结合产品发布方所发布的产品类别(包括但不限于电子类、机械类等),分别生成对应各产品类别的访问记录数据集,访问记录数据集的数据模式如下,访问记录数据集visited_id,search_word,product_id,prod_keyword,visit_time,visit_seq,browse_time,enquiry,分别表示访问记录标志符、查询用户输入的检索关键词、产品标志符、产品的描述关键词组、访问时间、访问者在一次会话打开一系列页面过程中打开该页面的次序,查询者打开某产品页面后在该页面的停留时间,是否查询联系该记录所描述商品的发布方;
(2)根据用户浏览网站商品信息页面产生的停留时间、同次会话中点击网页次序、是否交易特征属性,生成访问记录数据集中每条访问记录的权值,得到加权访问记录集,其模式如下:加权访问记录数据visited_id,search_word,product_id,prod_keyword,visit_time,weight;
其中,weight表示查询者用关键词search_word查找目标商品时,对商品号为product_id的商品对应页面表现出的兴趣度,计算方法为:
其中a+b+c=1,且0<a,b,c<1,分别对应分析者对visit_seq,browse_time以及enquiry属性的重视程度。
visit_seqmax与visit_seqmin分别为访问记录数据表中visit_seq属性取值的最大值和最小值,vseq为某条访问记录在visit_seq属性上的值。
browse_timemax与browse_timemin分别为访问记录数据表中browse_time属性取值的最大值和最小值,vtime为某条访问记录在browse_time属性上的值。
分enquiry属性为True对应查询者联系该记录所描述商品的发布方;
(3)对加权访问记录集,按商品标识符id进行分组,在每个商品对应分组记录中,选取权值最大的k个记录,提取这k个记录的搜索关键字,生成该商品的搜索关键词组,由产品标志符、搜索关键词组、商品描述关键词组成该商品的访问轨迹,轨迹数据集模式为product_id,search_word1,search_word2,……,search_wordk,prod_keyword;
(4)用这k条记录的平均权值作为该商品对应访问轨迹的权值,生成该商品的加权轨迹,构建电商平台所展示商品的加权轨迹数据集。加权轨迹数据集的模式如下:
加权轨迹数据集product_id,search_word1,search_word2,……,search_wordk,prod_keyword,weight。
本发明的有益效果:本发明结合电商平台大量用户通过平台所提供检索接口输入关键词查找目标商品过程生成的大量访问日志信息,提出基于用户行为的轨迹数据集构建方法。从大量零散繁杂的用户访问信息中提取出包含用户访问行为模式的关键信息,组成轨迹数据集,可供后续挖掘分析使用。本发明所生成加权轨迹数据集,能够作为挖掘数据源供电商平台进行基于用户交易模式的用户搜索关键词与商品描述关键词关联制约关系挖掘。本发明所提出轨迹数据集构建方法具有轨迹数据集规模与访问记录规模无关的优点,由于将对每件商品的所有访问信息提炼为一条轨迹数据记录,因此轨迹数据集的规模上限为点上平台所展示的商品数量,与查询者访问次数无关,从而保证轨迹数据集作为后续挖掘数据源具有规模有限的优点,为后续挖掘分析过程挖掘结果有效性和挖掘的高效性提供保障。
附图说明
图1为本发明处理流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例和说明书附图,进一步阐述本发明。
表1为本发明实例的初始访问记录集;
表2为本发明实例的加权访问记录集;
表3为本发明实例的轨迹数据集;
表4为本发明实例生成的加权轨迹数据集;
如表1所示实例初始访问记录集,共有9条记录,属性Visit_seq的最小值为1,最大值为3;Browse_time属性的最小值为5,最大值为60秒:
表1:
权值a=b=0.3,c=0.4,计算各条记录的权值过程如下:
第1条记录:
第2条记录:
第3条记录:
第4条记录:
第5条记录:
第6条记录:
第7条记录:
第8条记录:
第9条记录:
生成如表2所示的实例的加权访问记录表。
表2:
访问记录集包括对3件商品的访问信息,因此根据product_id属性值,将9条记录分为3组:visit_id为1,4,9的三条记录为一组,对应product_id为p01商品的访问记录子集;visit_id为2,6,7的三条记录为一组,对应product_id为p02商品的访问记录子集;visit_id为3,5,8的三条记录为一组,对应product_id为p03商品的访问记录子集;假设k取2,即每组记录取权值最大的两条记录构建轨迹数据集。
第1组记录子集权值最大的两条访问记录对应visit_id为1,9的两条记录,其权值分别为0.782和0.382,生成如下轨迹:
(s1,s9,p01,key1)
第2组记录子集权值最大的两条访问记录对应visit_id为2,7的两条记录,其权值分别为0.205和0.6,生成如下轨迹:
(s2,s7,p02,key2)
第3组记录子集权值最大的两条访问记录对应visit_id为5,8的两条记录,其权值分别为0.837和0.795,生成如下轨迹:
(s5,s8,p03,key3)
组成表3所示访问轨迹数据集;
表3:
表4:
最后将每个记录组所选记录的权值的均值作为各组代表轨迹的权重,各轨迹权重分别为:
(0.782+0.382)/2=0.582
(0.205+0.6)/2=0.403
(0.837+0.795)/2=0.816
生成如上表4所示加权轨迹数据集(注:所有计算数值保留小数点后3位)。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.基于用户行为的加权轨迹数据集构建方法,其特征是包括以下步骤:
(1)根据电商网站平台访问日志数据中包含的产品信息、用户访问信息、商品交易信息,结合产品发布方所发布的产品类别,分别生成对应各产品类别的访问记录数据集,访问记录数据集的数据模式如下:访问记录数据集visited_id,search_word,product_id,prod_keyword,visit_time,visit_seq,browse_time,enquiry,分别表示访问记录标志符、查询用户输入的检索关键词、产品标志符、产品的描述关键词组、访问时间、访问者在一次会话打开一系列页面过程中打开该页面的次序,查询者打开某产品页面后在该页面的停留时间,是否查询者联系该记录所描述商品的发布方;
(2)根据用户浏览网站商品信息页面产生的停留时间、同次会话中点击网页次序、是否联系产品发布者,生成访问记录数据集中每条访问记录的权值,得到加权访问记录集,加权访问记录数据的模式如下:加权访问记录数据visited_id,search_word,product_id,prod_keyword,visit_time,weight;
其中,weight表示查询者用检索关键词search_word查找目标商品时,对商品号为product_id的商品对应页面表现出的兴趣度,计算方法为:
<mrow> <mi>w</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>aw</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>bw</mi> <mn>2</mn> </msub> <mo>+</mo> <msub> <mi>cw</mi> <mn>3</mn> </msub> </mrow> <mrow> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>3</mn> </msub> </mrow> </mfrac> </mrow>
其中a+b+c=1,且0<a,b,c<1,分别对应分析者对visit_seq,browse_time以及enquiry属性的重视程度;
visit_seqmax与visit_seqmin分别为访问记录数据表中visit_seq属性取值的最大值和最小值,vseq为某条访问记录在visit_seq属性上的值;
rowse_timemax与browse_timemin分别为访问记录数据表中browse_time属性取值的最大值和最小值,vtime为某条访问记录在browse_time属性上的值;
分enquiry属性为true对应查询者联系该记录所描述商品的发布方;
(3)对加权访问记录集,按商品标识符id进行分组,在每个商品对应分组记录中,选取权值最大的k个记录,提取这k个记录的搜索关键字,生成该商品的搜索关键词组,由产品标志符、搜索关键词组、商品描述关键词组成该商品的访问轨迹,轨迹数据集模式为product_id,search_word1,search_word2,……,search_wordk,prod_keyword;
(4)用这k条记录的平均权值作为该商品对应访问轨迹的权值,生成该商品的加权轨迹,构建电商平台所展示商品的加权轨迹数据集;
加权轨迹数据集的模式如下:加权轨迹数据集product_id,search_word1,search_word2,……,search_wordk,prod_keyword,weight。
CN201510475380.9A 2015-08-05 2015-08-05 一种基于用户行为的加权轨迹数据集构建方法 Active CN105022830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510475380.9A CN105022830B (zh) 2015-08-05 2015-08-05 一种基于用户行为的加权轨迹数据集构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510475380.9A CN105022830B (zh) 2015-08-05 2015-08-05 一种基于用户行为的加权轨迹数据集构建方法

Publications (2)

Publication Number Publication Date
CN105022830A CN105022830A (zh) 2015-11-04
CN105022830B true CN105022830B (zh) 2018-05-04

Family

ID=54412799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510475380.9A Active CN105022830B (zh) 2015-08-05 2015-08-05 一种基于用户行为的加权轨迹数据集构建方法

Country Status (1)

Country Link
CN (1) CN105022830B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932640B (zh) * 2017-05-18 2022-03-04 北京京东尚科信息技术有限公司 用于处理订单的方法和装置
CN107609871B (zh) * 2017-09-07 2021-05-28 携程旅游网络技术(上海)有限公司 支付轨迹重现方法、装置、系统、电子设备、存储介质
CN108305197A (zh) * 2018-01-29 2018-07-20 广州源创网络科技有限公司 一种数据统计方法及系统
CN109684373B (zh) * 2018-11-26 2023-07-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于出行和话单数据分析的重点关系人发现方法
CN112085553A (zh) * 2019-06-12 2020-12-15 阿里巴巴集团控股有限公司 一种特定商品检测方法及装置
CN112613951A (zh) * 2020-12-28 2021-04-06 赛尔网络有限公司 商品页面展示方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103582886B (zh) * 2011-06-03 2017-04-19 郑珍雨 有效关键词选择系统及有效关键词选择方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于用户兴趣的混合推荐模型;曹毅等;《系统工程》;20090630;第27卷(第6期);第1483-1496页 *
网络日志规模分析和用户兴趣挖掘;郭岩等;《计算机学报》;20050930;第28卷(第9期);第68-72页 *

Also Published As

Publication number Publication date
CN105022830A (zh) 2015-11-04

Similar Documents

Publication Publication Date Title
CN105022830B (zh) 一种基于用户行为的加权轨迹数据集构建方法
KR101168705B1 (ko) 이동통신 단말기와 아이피 기반 정보 단말기를 이용한 맞춤, 지능형 심볼, 아이콘 인터넷 정보 검색시스템
Wan et al. Aminer: Search and mining of academic social networks
CN103235776B (zh) 呈现搜索结果信息
Barbier et al. Data mining in social media
US20210279232A1 (en) Chatbot Search System, Chatbot Search Method, and Program
Xie et al. A novel text mining approach for scholar information extraction from web content in Chinese
US20010049674A1 (en) Methods and systems for enabling efficient employment recruiting
WO2011063035A1 (en) A method and system to contextualize information being displayed to a user
JP2013054755A (ja) 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
CN101916274A (zh) 对LinkUGC进行聚合显示的方法和系统
Buchner et al. An internet-enabled knowledge discovery process
Han et al. Study on web mining algorithm based on usage mining
Liao et al. PORE: a personal ontology recommender system for digital libraries
de Moura et al. Using structural information to improve search in Web collections
González‐Alcaide et al. Library and information science research areas: Analysis of journal articles in LISA
Hossain et al. A survey of E-commerce of Bangladesh
CN111339429A (zh) 一种资讯推荐方法
CN103312584A (zh) 一种在网络社区中发布信息的方法与设备
Willis et al. Finding information in books: Characteristics of full‐text searches in a collection of 10 million books
CN104715430A (zh) 新式程序切片技术的面向商业地产行业的数据收集引擎
Rana et al. Analysis of web mining technology and their impact on semantic web
JP5658939B2 (ja) 階層構造を持つ書込み記事の評価システム
Luedke Jr Numeric data bases on‐line
Mundluru et al. Experiences in crawling deep web in the context of local search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant