CN106339421B - 一种用户浏览行为的兴趣挖掘方法 - Google Patents

一种用户浏览行为的兴趣挖掘方法 Download PDF

Info

Publication number
CN106339421B
CN106339421B CN201610670147.0A CN201610670147A CN106339421B CN 106339421 B CN106339421 B CN 106339421B CN 201610670147 A CN201610670147 A CN 201610670147A CN 106339421 B CN106339421 B CN 106339421B
Authority
CN
China
Prior art keywords
user
interest
tag
user1
tag3
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610670147.0A
Other languages
English (en)
Other versions
CN106339421A (zh
Inventor
华林森
张翼
崔晶晶
林佳婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaoxiang innovation Artificial Intelligence Technology Co.,Ltd.
Original Assignee
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd filed Critical BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority to CN201610670147.0A priority Critical patent/CN106339421B/zh
Publication of CN106339421A publication Critical patent/CN106339421A/zh
Application granted granted Critical
Publication of CN106339421B publication Critical patent/CN106339421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开一种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,该方法包括步骤:(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag‑>interest对应兴趣的权重默认为1.0;(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,汇总多轮游走的结果,计算出user‑>tag的权重;(3)用步骤(2)的user‑>tag乘以步骤(1)的tag‑>interest,得到user‑>interest,user‑>interest是每个用户到所有兴趣标签的一个置信度值;(4)设置一个阈值a,当user‑>interest的置信度大于a时,作为user预测为interest兴趣标签。

Description

一种用户浏览行为的兴趣挖掘方法
技术领域
本发明属于大数据处理和分析的技术领域,具体地涉及一种用户浏览行为的兴趣挖掘方法。
背景技术
在互联网逐渐步入大数据时代后,随着大数据技术的深入研究与应用,企业的专注点日益聚焦于利用大数据来刻画“用户画像”,进而深入挖掘潜在的商业价值,用户兴趣挖掘可以挖掘出不同的兴趣人群,方便做精准营销服务。
用户上网会浏览很多网站,从这众多的网站中挖掘出用户的兴趣偏好就是兴趣挖掘,现有的技术中,方法A是对一些网站进行兴趣标注,如京东、天猫网站对应着“电商购物偏好”,爱奇艺、优酷土豆对应着“影音娱乐偏好”,设定一个阈值,当用户一定时间内访问京东、天猫网站超过这个阈值时,即判定这个用户有“电商购物偏好”。
方法B是首先有大量的标注样本,如用户A的标注兴趣是“电商购物偏好”,用户B的标注兴趣是“影音娱乐偏好”等,然后通过有监督的机器学习方法以这些标注样本做训练集,训练多分类器,来对其他未标注样本进行兴趣预测、分类;还有一种做法是类似于推荐系统里面的协同过滤,通过计算未标注用户与已标注用户的相似度,将相似度高的已标注用户的兴趣赋给未标注用户。
方法A简单有效、易实现,但是效果的好坏受限于网站标注规模的大小,如只把京东、天猫网站标注为“电商购物偏好”,那么有用户访问了“唯品会”、“国美”、“苏宁”等网站,就会被忽略,对应不到“电商购物偏好”,而人工不可能标注上所有的电商购物类网站,标注规模越大,人工成本越高。
方法B利用有监督的机器学习模型来解决兴趣挖掘问题,首先得需要大量用户的兴趣标注样本,这个在多数场景下不容易解决,面临着冷启动的问题,最初始的那一批用户兴趣标注样本不容易获得,另外标注的这批用户访问网站信息随着时间更新时,用户兴趣发生变化时,通过用户之间的相似度来给用户预测兴趣标签会存在问题。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种用户浏览行为的兴趣挖掘方法,其人工标注成本大大降低,当用户访问网站信息更新、兴趣发生变化时,只需要每周或者每月用模型重新计算一下所有用户的兴趣标签即可。
本发明的技术解决方案是:这种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,该方法包括以下步骤:
(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag->interest对应兴趣的权重默认为1.0;
(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,user1->tag1->user2->tag2->user3->tag3,汇总多轮游走的结果,计算出user->tag的权重;
(3)用步骤(2)得到的user->tag乘以步骤(1)得到的tag->interest,得到user->interest,user->interest是每个用户到所有兴趣标签的一个置信度值,介于0-n之间,n是随机游走迭代的次数;
(4)设置一个阈值a,当user->interest的置信度大于a时,作为user预测为interest兴趣标签。
本发明对用户和其访问过的网站标签进行二部图建模,通过随机游走,只需要人工标注少量的网站,即可计算出用户的兴趣标签,因此人工标注成本大大降低;因为是对网站进行标注,而不是对用户标注,所以用户访问网站信息更新,兴趣发生变化时,只需要每周或者每月用模型重新计算一下所有用户的兴趣标签即可。
附图说明
图1是根据本发明的用户浏览行为的兴趣挖掘方法的流程图。
图2示出了用户及其访问网站tag的二部图模型。
具体实施方式
如图1、2所示,这种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,该方法包括以下步骤:
(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag->interest对应兴趣的权重默认为1.0;
(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,user1->tag1->user2->tag2->user3->tag3,汇总多轮游走的结果,计算出user->tag的权重;
(3)用步骤(2)得到的user->tag乘以步骤(1)得到的tag->interest,得到user->interest,user->interest是每个用户到所有兴趣标签的一个置信度值,介于0-n之间,n是随机游走迭代的次数;
(4)设置一个阈值a,当user->interest的置信度大于a时,作为user预测为interest兴趣标签。
本发明对用户和其访问过的网站标签进行二部图建模,通过随机游走,只需要人工标注少量的网站,即可计算出用户的兴趣标签,因此人工标注成本大大降低;因为是对网站进行标注,而不是对用户标注,所以用户访问网站信息更新,兴趣发生变化时,只需要每周或者每月用模型重新计算一下所有用户的兴趣标签即可。
更进一步地,所述步骤(2)包括以下分步骤:
(2.1)通过用户user访问网站tag的次数pv和天数dv进行加权求和,然后归一化得到初始的user->tag和tag->user的权重;
(2.2)用tag->user的权重乘以user->tag的权重,得到tag->tag的权重;
(2.3)设第1轮游走迭代的user->tag的权重为步骤(2.1)中得到的user->tag的值,记为I1,那么设第n轮游走迭代的结果为In,则In+1=In*(tag->tag);
(2.4)汇总求和:tag->user=I1+I2+…..In。
更进一步地,所述步骤(2.1)中,用户访问所有网站的pv和dv都是相同的,那么user1->tag1=1/3,user1->tag2=1/3,user1->tag3=1/3,user2、user3的计算与user1的计算相同;tag3->user1=1/2,tag3->user3=1/2,tag1、tag2的计算与tag3的计算相同。
更进一步地,所述步骤(2.2)中计算结果为:
tag2->tag1=(tag2->user1)*(user1->tag1)=1/3*1=1/3,
tag2->tag3=(tag2->user1)*(user1->tag3)+(tag2->user3)*(user3->tag3)
=1/3*1/3+1/3*1/2=5/18,
tag1,tag3计算同tag2。
更进一步地,所述步骤(2.3)中第2轮随机游走:
user1->tag3=(user1->tag1)*(tag1->tag3)+(user1->tag2)*(tag2->tag3)=1*1/3+1/3*5/18=23/54。
本发明的有益效果如下:
1.人工标注量少,依赖人工少。
2.模型方便定期更新,能够及时跟踪用户兴趣变化。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (5)

1.一种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,其特征在于:该方法包括以下步骤:
(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag->interest对应兴趣的权重默认为1.0;
(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,user1->tag1->user2->tag2->user3->tag3,汇总多轮游走的结果,计算出user->tag的权重;
(3)用步骤(2)得到的user->tag乘以步骤(1)得到的tag->interest,得到user->interest,user->interest是每个用户到所有兴趣标签的一个置信度值,介于0-n之间,n是随机游走迭代的次数;
(4)设置一个阈值a,当user->interest的置信度大于a时,作为user预测为interest兴趣标签。
2.根据权利要求1所述的用户浏览行为的兴趣挖掘方法,其特征在于:
所述步骤(2)包括以下分步骤:
(2.1)通过用户user访问网站tag的次数pv和天数dv进行加权求和,然后归一化得到初始的user->tag和tag->user的权重;
(2.2)用tag->user的权重乘以user->tag的权重,得到tag->tag的权重;
(2.3)设第1轮游走迭代的user->tag的权重为步骤(2.1)中得到的user->tag的值,记为I1,那么设第n轮游走迭代的结果为In,则In+1=In*(tag->tag);
(2.4)汇总求和:tag->user=I1+I2+.....In。
3.根据权利要求1所述的用户浏览行为的兴趣挖掘方法,其特征在于:
所述步骤(2.1)中,用户访问所有网站的pv和dv都是相同的,那么user1->tag1=1/3,user1->tag2=1/3,user1->tag3=1/3,user2、user3的计算与user1的计算相同;tag3->user1=1/2,tag3->user3=1/2,tag1、tag2的计算与tag3的计算相同。
4.根据权利要求3所述的用户浏览行为的兴趣挖掘方法,其特征在于:
所述步骤(2.2)中计算结果为:
tag2->tag1=(tag2->user1)*(user1->tag1)=1/3*1=1/3,
tag2->tag3=(tag2->user1)*(user1->tag3)+(tag2->user3)*(user3->tag3)=1/3*1/3+1/3*1/2=5/18,
tag1,tag3计算同tag2。
5.根据权利要求4所述的用户浏览行为的兴趣挖掘方法,其特征在于:
所述步骤(2.3)中第2轮随机游走:
user1->tag3=(user1->tag1)*(tag1->tag3)+(user1->tag2)*(tag2->tag3)=1*1/3+1/3*5/18=23/54。
CN201610670147.0A 2016-08-15 2016-08-15 一种用户浏览行为的兴趣挖掘方法 Active CN106339421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610670147.0A CN106339421B (zh) 2016-08-15 2016-08-15 一种用户浏览行为的兴趣挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610670147.0A CN106339421B (zh) 2016-08-15 2016-08-15 一种用户浏览行为的兴趣挖掘方法

Publications (2)

Publication Number Publication Date
CN106339421A CN106339421A (zh) 2017-01-18
CN106339421B true CN106339421B (zh) 2019-08-13

Family

ID=57824196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610670147.0A Active CN106339421B (zh) 2016-08-15 2016-08-15 一种用户浏览行为的兴趣挖掘方法

Country Status (1)

Country Link
CN (1) CN106339421B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754265B (zh) * 2017-11-01 2023-04-07 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN110069669B (zh) * 2017-12-01 2021-08-24 北京搜狗科技发展有限公司 一种关键词标记方法和装置
CN110737822B (zh) * 2018-07-03 2022-07-26 百度在线网络技术(北京)有限公司 用户兴趣挖掘方法、装置、设备和存储介质
CN110580317B (zh) * 2019-08-29 2022-02-22 武汉赛可锐信息技术有限公司 社交信息分析方法、装置、终端设备及存储介质
CN111104599B (zh) * 2019-12-23 2023-08-18 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111882400A (zh) * 2020-07-31 2020-11-03 平安国际融资租赁有限公司 行为识别分析方法、装置、计算机设备及可读存储介质
CN115994267B (zh) * 2023-02-15 2023-09-05 北京欧拉认知智能科技有限公司 实时用户画像刻画方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870512A (zh) * 2012-12-18 2014-06-18 腾讯科技(深圳)有限公司 一种生成用户兴趣标签的方法及装置
CN104866540A (zh) * 2015-05-04 2015-08-26 华中科技大学 一种基于群体用户行为分析的个性化推荐方法
CN105069172A (zh) * 2015-09-09 2015-11-18 中国人民大学 兴趣标签生成方法
CN105589917A (zh) * 2015-09-17 2016-05-18 广州市动景计算机科技有限公司 浏览器日志信息的分析方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870512A (zh) * 2012-12-18 2014-06-18 腾讯科技(深圳)有限公司 一种生成用户兴趣标签的方法及装置
CN104866540A (zh) * 2015-05-04 2015-08-26 华中科技大学 一种基于群体用户行为分析的个性化推荐方法
CN105069172A (zh) * 2015-09-09 2015-11-18 中国人民大学 兴趣标签生成方法
CN105589917A (zh) * 2015-09-17 2016-05-18 广州市动景计算机科技有限公司 浏览器日志信息的分析方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户兴趣度的改进二部图随机游走推荐方法;张怡文等;《计算机应用与软件》;20150630;第32卷(第6期);第76-79页

Also Published As

Publication number Publication date
CN106339421A (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN106339421B (zh) 一种用户浏览行为的兴趣挖掘方法
CN103577549B (zh) 一种基于微博标签的人群画像系统和方法
Kong et al. Spot: Locating social media users based on social network context
CN105159930B (zh) 搜索关键词的推送方法和装置
CN102750336B (zh) 一种基于用户关联性的资源个性化推荐方法
CN107220386A (zh) 信息推送方法和装置
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN107609152A (zh) 用于扩展查询式的方法和装置
Yin et al. Improve the drilling operations efficiency by the big data mining of Real-Time logging
CN106846061A (zh) 潜在用户挖掘方法以及装置
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN103970863A (zh) 基于lda主题模型的微博用户兴趣的挖掘方法及系统
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CN105095625B (zh) 点击率预估模型建立方法、装置及信息提供方法、系统
Afshari et al. Well placement optimization using a particle swarm optimization algorithm, a novel approach
Reyes et al. Residual kriging for functional spatial prediction of salinity curves
CN106202563A (zh) 一种实时关联事件新闻推荐方法及系统
CN1845098A (zh) 仿人工细粒度网页信息采集方法
CN112527915A (zh) 线性文化遗产知识图谱构建方法、系统、计算设备和介质
CN106407381A (zh) 一种基于人工智能的推送信息的方法和装置
Li et al. A method based on an adaptive radius cylinder model for detecting pole-like objects in mobile laser scanning data
CN107783976A (zh) 用户信息挖掘方法及装置
CN104156356A (zh) 个性化导航页面生成方法及装置
Lee et al. Mining tourists’ destinations and preferences through LSTM-based text classification and spatial clustering using Flickr data
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220419

Address after: 100000 room 116, building 3, Shuangqiao (Shuangqiao dairy factory), Chaoyang District, Beijing

Patentee after: Beijing Xiaoxiang innovation Artificial Intelligence Technology Co.,Ltd.

Address before: 100085 901, 9th floor, building 5, yard 1, Shangdi East Road, Haidian District, Beijing

Patentee before: BEIJING GEO POLYMERIZATION TECHNOLOGY Co.,Ltd.