CN108073716A - 在线实时用户画像生成方法 - Google Patents

在线实时用户画像生成方法 Download PDF

Info

Publication number
CN108073716A
CN108073716A CN201711445692.0A CN201711445692A CN108073716A CN 108073716 A CN108073716 A CN 108073716A CN 201711445692 A CN201711445692 A CN 201711445692A CN 108073716 A CN108073716 A CN 108073716A
Authority
CN
China
Prior art keywords
portrait
data
user
time
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711445692.0A
Other languages
English (en)
Inventor
白峻峰
张文战
刘子曜
苏伟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhuge Zhaofang Information Technology Co Ltd
Original Assignee
Beijing Zhuge Zhaofang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhuge Zhaofang Information Technology Co Ltd filed Critical Beijing Zhuge Zhaofang Information Technology Co Ltd
Priority to CN201711445692.0A priority Critical patent/CN108073716A/zh
Publication of CN108073716A publication Critical patent/CN108073716A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及一种在线实时用户画像生成方法,包括以下步骤:(1)对用户日志流数据化,形成流数据;(2)对流数据进行处理;(3)画像的热存储。本发明的优点是:很及时的跟踪用户行为变化,时效性强,能够及时捕捉用户偏好动态,调整相应的推荐效果。

Description

在线实时用户画像生成方法
技术领域
本发明涉及一种在线实时用户画像生成方法。
背景技术
用户画像的生成是用户个性化推荐系统的第一步,现有的用户画像生成系统,多是离线处理用户行为日志,定时产生或更新用户画像。这种画像产生方式,不能及时跟踪用户的偏好变化,推荐效果不能及时跟进,给用户的感觉不够敏感,现有的用户画像生成系统,多是离线处理用户行为日志,定时产生或更新用户画像。现有画像产生方式,不能及时跟踪用户的偏好变化,推荐效果不能及时跟进,给用户的感觉不够敏感。
发明内容
为克服现有技术的缺陷,本发明提供一种在线实时用户画像生成方法,本发明的技术方案是:
在线实时用户画像生成方法,包括以下步骤:
(1)对用户日志流数据化,形成流数据;
(2)对流数据进行处理;
(3)画像的热存储。
所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:
a、实时读取日志文件产生的新数据;
b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列;
所述的步骤(2)具体为:使用流计算模式,处理流程如下:
1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;
2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;
3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像,并将历史画像作为加载对象;具体为:
a、从画像库中读取用户的历史画像数据;
b、用读出的画像信息实例画一个新的画像对象;
4)新行为日志更新;
5)更新后的画像序列化入库。
所述的步骤(3)具体为:采用了画像数据热存储的方式,即放入缓存,把画像数据同时备份的缓存中供计算使用。
所述的新行为日志更新具体包括:
a.根据历史画像的产生时间计算到此时的衰减系数,衰减系数计算方法如下:衰减系数=(当前时间-画像产生的时间)/半衰期,半衰期为180天;并对历史画像的属性值与衰减系数相乘进行衰减形成历史数据;
b.过滤掉已经衰减至0.0125的属性值;
c.根据日志时间与当前时间对需要更新的属性值进行衰减;方法同步骤a;
d.更新的属性值叠加到a步骤处理的历史数据上,产出此时的新画像。
本发明的优点是:很及时的跟踪用户行为变化,时效性强,能够及时捕捉用户偏好动态,调整相应的推荐效果。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明涉及一种在线实时用户画像生成方法,包括以下步骤:
(1)对用户日志流数据化,形成流数据;
(2)对流数据进行处理;
(3)画像的热存储。
所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:
a、实时读取日志文件产生的新数据;
b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列;
所述的步骤(2)具体为:使用流计算模式,处理流程如下:
1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;
2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;
3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像,并将历史画像作为加载对象;具体为:
a、从画像库中读取用户的历史画像数据;
b、用读出的画像信息实例画一个新的画像对象;
4)新行为日志更新;
5)更新后的画像序列化入库。
所述的步骤(3)具体为:采用了画像数据热存储的方式,即放入缓存,把画像数据同时备份的缓存中供计算使用。
所述的新行为日志更新具体包括:
a.根据历史画像的产生时间计算到此时的衰减系数,衰减系数计算方法如下:衰减系数=(当前时间-画像产生的时间)/半衰期,半衰期为180天;并对历史画像的属性值与衰减系数相乘进行衰减形成历史数据;
b.过滤掉已经衰减至0.0125的属性值;
c.根据日志时间与当前时间对需要更新的属性值进行衰减;方法同步骤a;
d.更新的属性值叠加到a步骤处理的历史数据上,产出此时的新画像。

Claims (5)

1.在线实时用户画像生成方法,其特征在于,包括以下步骤:
(1)对用户日志流数据化,形成流数据;
(2)对流数据进行处理;
(3)画像的热存储。
2.根据权利要求1所述的在线实时用户画像生成方法,其特征在于,
所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:
a、实时读取日志文件产生的新数据;
b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列。
3.根据权利要求1所述的在线实时用户画像生成方法,其特征在于,
所述的步骤(2)具体为:使用流计算模式,处理流程如下:
1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;
2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;
3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像,并将历史画像作为加载对象;具体为:
a、从画像库中读取用户的历史画像数据;
b、用读出的画像信息实例画一个新的画像对象;
4)新行为日志更新;
5)更新后的画像序列化入库。
4.根据权利要求1所述的在线实时用户画像生成方法,其特征在于,所述的步骤(3)具体为:采用了画像数据热存储的方式,即放入缓存,把画像数据同时备份的缓存中供计算使用。
5.根据权利要求2所述的在线实时用户画像生成方法,其特征在于,
所述的新行为日志更新具体包括:
a.根据历史画像的产生时间计算到此时的衰减系数,衰减系数计算方法如下:衰减系数=(当前时间-画像产生的时间)/半衰期,半衰期为180天;并对历史画像的属性值与衰减系数相乘进行衰减形成历史数据;
b.过滤掉已经衰减至0.0125的属性值;
c.根据日志时间与当前时间对需要更新的属性值进行衰减;方法同步骤a;
d.更新的属性值叠加到a步骤处理的历史数据上,产出此时的新画像。
CN201711445692.0A 2017-12-27 2017-12-27 在线实时用户画像生成方法 Pending CN108073716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711445692.0A CN108073716A (zh) 2017-12-27 2017-12-27 在线实时用户画像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711445692.0A CN108073716A (zh) 2017-12-27 2017-12-27 在线实时用户画像生成方法

Publications (1)

Publication Number Publication Date
CN108073716A true CN108073716A (zh) 2018-05-25

Family

ID=62155306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711445692.0A Pending CN108073716A (zh) 2017-12-27 2017-12-27 在线实时用户画像生成方法

Country Status (1)

Country Link
CN (1) CN108073716A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710697A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种公司用户画像的生成方法
CN112416999A (zh) * 2020-11-17 2021-02-26 单高峰 基于人工智能和大数据定位的数据分析方法及云端服务器
CN112991110A (zh) * 2021-04-25 2021-06-18 湖南知名未来科技有限公司 多维度画像标准的客户类型识别方法及知识产权监控系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014075110A2 (en) * 2012-11-09 2014-05-15 Nfluence Media, Inc. Consumer and brand owner data management tools
CN103838867A (zh) * 2014-03-20 2014-06-04 网宿科技股份有限公司 日志处理方法和装置
CN104090886A (zh) * 2013-12-09 2014-10-08 深圳市腾讯计算机系统有限公司 构建用户实时画像的方法及装置
CN105005587A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种用户画像的更新方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014075110A2 (en) * 2012-11-09 2014-05-15 Nfluence Media, Inc. Consumer and brand owner data management tools
CN104090886A (zh) * 2013-12-09 2014-10-08 深圳市腾讯计算机系统有限公司 构建用户实时画像的方法及装置
CN103838867A (zh) * 2014-03-20 2014-06-04 网宿科技股份有限公司 日志处理方法和装置
CN105005587A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种用户画像的更新方法、装置和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710697A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种公司用户画像的生成方法
CN112416999A (zh) * 2020-11-17 2021-02-26 单高峰 基于人工智能和大数据定位的数据分析方法及云端服务器
CN112991110A (zh) * 2021-04-25 2021-06-18 湖南知名未来科技有限公司 多维度画像标准的客户类型识别方法及知识产权监控系统
CN112991110B (zh) * 2021-04-25 2024-02-02 湖南知名未来科技有限公司 多维度画像标准的客户类型识别方法及知识产权监控系统

Similar Documents

Publication Publication Date Title
US9076156B2 (en) Real-time adaptive binning through partition modification
CN108073716A (zh) 在线实时用户画像生成方法
WO2020248658A1 (zh) 一种异常账户的检测方法及装置
US10169166B2 (en) Real-time fault-tolerant architecture for large-scale event processing
CN113946590B (zh) 积分数据更新方法、装置、设备及存储介质
CN106569936A (zh) 一种实时采集滚动日志的方法及系统
CN107277624B (zh) 时长计算方法及其装置
CN109656965B (zh) 一种账号清理方法及装置
CN117768870A (zh) 一种设备查询方法、电子设备及存储介质
CN106910082A (zh) 一种调取广告进行推送的方法和装置
CN110851758A (zh) 一种网页访客数量统计方法及装置
CN114205424B (zh) 账单文件解压方法、装置、计算机设备和存储介质
WO2023045378A1 (zh) 向用户推荐物品信息的方法、设备、存储介质及程序产品
CN110477866A (zh) 检测睡眠质量的方法、装置、电子设备和存储介质
TW201022974A (en) Information extraction method and extractor rebuilding method, and system and computer program product thereof
CN111258501B (zh) 一种逻辑卷删除的控制方法、装置及设备
CN112231590B (zh) 内容推荐方法、系统、计算机设备及存储介质
CN108563428A (zh) 一种大数据架构处理数据的方法、装置、设备及存储介质
CN109600639B (zh) 基于用户偏好的用户相似度计算方法、装置、设备及介质
CN106339209A (zh) 一种数据处理方法和设备
GB2608738A (en) Automated actions in a security platform
CN106681992A (zh) 管理网站登录信息的方法和装置
CN110995691A (zh) 一种获取网页数据的方法及系统
Korbicz Artificial neural networks in fault diagnosis of dynamical systems
US10177989B1 (en) Computer efficiency by predicting event occurrences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Zuochao

Inventor after: Bai Junfeng

Inventor after: Zhang Wenzhan

Inventor after: Liu Ziyao

Inventor after: Su Weijie

Inventor before: Bai Junfeng

Inventor before: Zhang Wenzhan

Inventor before: Liu Ziyao

Inventor before: Su Weijie

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180525

RJ01 Rejection of invention patent application after publication