CN108073716A - 在线实时用户画像生成方法 - Google Patents
在线实时用户画像生成方法 Download PDFInfo
- Publication number
- CN108073716A CN108073716A CN201711445692.0A CN201711445692A CN108073716A CN 108073716 A CN108073716 A CN 108073716A CN 201711445692 A CN201711445692 A CN 201711445692A CN 108073716 A CN108073716 A CN 108073716A
- Authority
- CN
- China
- Prior art keywords
- portrait
- data
- user
- time
- history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及一种在线实时用户画像生成方法,包括以下步骤:(1)对用户日志流数据化,形成流数据;(2)对流数据进行处理;(3)画像的热存储。本发明的优点是:很及时的跟踪用户行为变化,时效性强,能够及时捕捉用户偏好动态,调整相应的推荐效果。
Description
技术领域
本发明涉及一种在线实时用户画像生成方法。
背景技术
用户画像的生成是用户个性化推荐系统的第一步,现有的用户画像生成系统,多是离线处理用户行为日志,定时产生或更新用户画像。这种画像产生方式,不能及时跟踪用户的偏好变化,推荐效果不能及时跟进,给用户的感觉不够敏感,现有的用户画像生成系统,多是离线处理用户行为日志,定时产生或更新用户画像。现有画像产生方式,不能及时跟踪用户的偏好变化,推荐效果不能及时跟进,给用户的感觉不够敏感。
发明内容
为克服现有技术的缺陷,本发明提供一种在线实时用户画像生成方法,本发明的技术方案是:
在线实时用户画像生成方法,包括以下步骤:
(1)对用户日志流数据化,形成流数据;
(2)对流数据进行处理;
(3)画像的热存储。
所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:
a、实时读取日志文件产生的新数据;
b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列;
所述的步骤(2)具体为:使用流计算模式,处理流程如下:
1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;
2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;
3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像,并将历史画像作为加载对象;具体为:
a、从画像库中读取用户的历史画像数据;
b、用读出的画像信息实例画一个新的画像对象;
4)新行为日志更新;
5)更新后的画像序列化入库。
所述的步骤(3)具体为:采用了画像数据热存储的方式,即放入缓存,把画像数据同时备份的缓存中供计算使用。
所述的新行为日志更新具体包括:
a.根据历史画像的产生时间计算到此时的衰减系数,衰减系数计算方法如下:衰减系数=(当前时间-画像产生的时间)/半衰期,半衰期为180天;并对历史画像的属性值与衰减系数相乘进行衰减形成历史数据;
b.过滤掉已经衰减至0.0125的属性值;
c.根据日志时间与当前时间对需要更新的属性值进行衰减;方法同步骤a;
d.更新的属性值叠加到a步骤处理的历史数据上,产出此时的新画像。
本发明的优点是:很及时的跟踪用户行为变化,时效性强,能够及时捕捉用户偏好动态,调整相应的推荐效果。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明涉及一种在线实时用户画像生成方法,包括以下步骤:
(1)对用户日志流数据化,形成流数据;
(2)对流数据进行处理;
(3)画像的热存储。
所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:
a、实时读取日志文件产生的新数据;
b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列;
所述的步骤(2)具体为:使用流计算模式,处理流程如下:
1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;
2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;
3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像,并将历史画像作为加载对象;具体为:
a、从画像库中读取用户的历史画像数据;
b、用读出的画像信息实例画一个新的画像对象;
4)新行为日志更新;
5)更新后的画像序列化入库。
所述的步骤(3)具体为:采用了画像数据热存储的方式,即放入缓存,把画像数据同时备份的缓存中供计算使用。
所述的新行为日志更新具体包括:
a.根据历史画像的产生时间计算到此时的衰减系数,衰减系数计算方法如下:衰减系数=(当前时间-画像产生的时间)/半衰期,半衰期为180天;并对历史画像的属性值与衰减系数相乘进行衰减形成历史数据;
b.过滤掉已经衰减至0.0125的属性值;
c.根据日志时间与当前时间对需要更新的属性值进行衰减;方法同步骤a;
d.更新的属性值叠加到a步骤处理的历史数据上,产出此时的新画像。
Claims (5)
1.在线实时用户画像生成方法,其特征在于,包括以下步骤:
(1)对用户日志流数据化,形成流数据;
(2)对流数据进行处理;
(3)画像的热存储。
2.根据权利要求1所述的在线实时用户画像生成方法,其特征在于,
所述的步骤(1)具体为:把收集的用户行为日志直接存入消息队列,即把原始的用户行为日志流数据化,包括以下步骤:
a、实时读取日志文件产生的新数据;
b、将日志文件解析,将每一条日志转化成包含所有预设字段的键值对;c、把键值对序列化成json格式,存入消息队列。
3.根据权利要求1所述的在线实时用户画像生成方法,其特征在于,
所述的步骤(2)具体为:使用流计算模式,处理流程如下:
1)日志数据校验,排除不包含有效行为的垃圾数据;有效行为包括点击,订阅和收藏;
2)行为数据校验,检测行为日志的附带属性,排除不包含有效属性的日志;
3)对历史画像提取并反序列化,从存储的消息队列中提取当前用户的历史画像,并将历史画像作为加载对象;具体为:
a、从画像库中读取用户的历史画像数据;
b、用读出的画像信息实例画一个新的画像对象;
4)新行为日志更新;
5)更新后的画像序列化入库。
4.根据权利要求1所述的在线实时用户画像生成方法,其特征在于,所述的步骤(3)具体为:采用了画像数据热存储的方式,即放入缓存,把画像数据同时备份的缓存中供计算使用。
5.根据权利要求2所述的在线实时用户画像生成方法,其特征在于,
所述的新行为日志更新具体包括:
a.根据历史画像的产生时间计算到此时的衰减系数,衰减系数计算方法如下:衰减系数=(当前时间-画像产生的时间)/半衰期,半衰期为180天;并对历史画像的属性值与衰减系数相乘进行衰减形成历史数据;
b.过滤掉已经衰减至0.0125的属性值;
c.根据日志时间与当前时间对需要更新的属性值进行衰减;方法同步骤a;
d.更新的属性值叠加到a步骤处理的历史数据上,产出此时的新画像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711445692.0A CN108073716A (zh) | 2017-12-27 | 2017-12-27 | 在线实时用户画像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711445692.0A CN108073716A (zh) | 2017-12-27 | 2017-12-27 | 在线实时用户画像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108073716A true CN108073716A (zh) | 2018-05-25 |
Family
ID=62155306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711445692.0A Pending CN108073716A (zh) | 2017-12-27 | 2017-12-27 | 在线实时用户画像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073716A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710697A (zh) * | 2018-12-28 | 2019-05-03 | 厦门笨鸟电子商务有限公司 | 一种公司用户画像的生成方法 |
CN112416999A (zh) * | 2020-11-17 | 2021-02-26 | 单高峰 | 基于人工智能和大数据定位的数据分析方法及云端服务器 |
CN112991110A (zh) * | 2021-04-25 | 2021-06-18 | 湖南知名未来科技有限公司 | 多维度画像标准的客户类型识别方法及知识产权监控系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014075110A2 (en) * | 2012-11-09 | 2014-05-15 | Nfluence Media, Inc. | Consumer and brand owner data management tools |
CN103838867A (zh) * | 2014-03-20 | 2014-06-04 | 网宿科技股份有限公司 | 日志处理方法和装置 |
CN104090886A (zh) * | 2013-12-09 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
CN105005587A (zh) * | 2015-06-26 | 2015-10-28 | 深圳市腾讯计算机系统有限公司 | 一种用户画像的更新方法、装置和系统 |
-
2017
- 2017-12-27 CN CN201711445692.0A patent/CN108073716A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014075110A2 (en) * | 2012-11-09 | 2014-05-15 | Nfluence Media, Inc. | Consumer and brand owner data management tools |
CN104090886A (zh) * | 2013-12-09 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
CN103838867A (zh) * | 2014-03-20 | 2014-06-04 | 网宿科技股份有限公司 | 日志处理方法和装置 |
CN105005587A (zh) * | 2015-06-26 | 2015-10-28 | 深圳市腾讯计算机系统有限公司 | 一种用户画像的更新方法、装置和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710697A (zh) * | 2018-12-28 | 2019-05-03 | 厦门笨鸟电子商务有限公司 | 一种公司用户画像的生成方法 |
CN112416999A (zh) * | 2020-11-17 | 2021-02-26 | 单高峰 | 基于人工智能和大数据定位的数据分析方法及云端服务器 |
CN112991110A (zh) * | 2021-04-25 | 2021-06-18 | 湖南知名未来科技有限公司 | 多维度画像标准的客户类型识别方法及知识产权监控系统 |
CN112991110B (zh) * | 2021-04-25 | 2024-02-02 | 湖南知名未来科技有限公司 | 多维度画像标准的客户类型识别方法及知识产权监控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9076156B2 (en) | Real-time adaptive binning through partition modification | |
CN108073716A (zh) | 在线实时用户画像生成方法 | |
WO2020248658A1 (zh) | 一种异常账户的检测方法及装置 | |
US10169166B2 (en) | Real-time fault-tolerant architecture for large-scale event processing | |
CN113946590B (zh) | 积分数据更新方法、装置、设备及存储介质 | |
CN106569936A (zh) | 一种实时采集滚动日志的方法及系统 | |
CN107277624B (zh) | 时长计算方法及其装置 | |
CN109656965B (zh) | 一种账号清理方法及装置 | |
CN117768870A (zh) | 一种设备查询方法、电子设备及存储介质 | |
CN106910082A (zh) | 一种调取广告进行推送的方法和装置 | |
CN110851758A (zh) | 一种网页访客数量统计方法及装置 | |
CN114205424B (zh) | 账单文件解压方法、装置、计算机设备和存储介质 | |
WO2023045378A1 (zh) | 向用户推荐物品信息的方法、设备、存储介质及程序产品 | |
CN110477866A (zh) | 检测睡眠质量的方法、装置、电子设备和存储介质 | |
TW201022974A (en) | Information extraction method and extractor rebuilding method, and system and computer program product thereof | |
CN111258501B (zh) | 一种逻辑卷删除的控制方法、装置及设备 | |
CN112231590B (zh) | 内容推荐方法、系统、计算机设备及存储介质 | |
CN108563428A (zh) | 一种大数据架构处理数据的方法、装置、设备及存储介质 | |
CN109600639B (zh) | 基于用户偏好的用户相似度计算方法、装置、设备及介质 | |
CN106339209A (zh) | 一种数据处理方法和设备 | |
GB2608738A (en) | Automated actions in a security platform | |
CN106681992A (zh) | 管理网站登录信息的方法和装置 | |
CN110995691A (zh) | 一种获取网页数据的方法及系统 | |
Korbicz | Artificial neural networks in fault diagnosis of dynamical systems | |
US10177989B1 (en) | Computer efficiency by predicting event occurrences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Zuochao Inventor after: Bai Junfeng Inventor after: Zhang Wenzhan Inventor after: Liu Ziyao Inventor after: Su Weijie Inventor before: Bai Junfeng Inventor before: Zhang Wenzhan Inventor before: Liu Ziyao Inventor before: Su Weijie |
|
CB03 | Change of inventor or designer information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180525 |
|
RJ01 | Rejection of invention patent application after publication |