CN112559899A - 一种用户画像生成方法 - Google Patents
一种用户画像生成方法 Download PDFInfo
- Publication number
- CN112559899A CN112559899A CN202110207493.6A CN202110207493A CN112559899A CN 112559899 A CN112559899 A CN 112559899A CN 202110207493 A CN202110207493 A CN 202110207493A CN 112559899 A CN112559899 A CN 112559899A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- portrait
- calculation
- subscription
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种用户画像生成方法,包括数据处理方法和用户兴趣画像计算方法;数据处理方法包括:收集用户数据并上传到埋点平台进行记录;将用户数据进行预处理后得到标准用户数据,预处理包括数据清洗;用户兴趣画像计算方法包括:从标准用户数据中捞取所有的用户行为,并分类记录到文件中;将文件中的数据按照类别进行模型计算;将计算结果按照与类别相对应的维度进行分组,并按照模型打分从高到低选取若干组后,获得多维度的用户兴趣画像。可生成具有多个维度的用户画像,可使获得的用户画像能完整的表现出用户的实际需求和偏好,从而可提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
Description
技术领域
本发明涉及用户画像的技术领域,具体来说,涉及一种用户画像生成方法。
背景技术
大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术,目前已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面,成为了网络服务背后强大的后台支撑。
用户画像是大数据技术的重要应用,其目标是在很多的维度上建立针对用户的描述性标签属性,从而利用这些标签属性对用户多方面的真实个人特征进行勾勒,进而,可以利用用户画像发掘用户需求,分析用户偏好,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
传统的用户画像往往有多维度,在不同的时间段以及不同的应用内,都会有一定的差异性,传统的用户画像生成方法并不能完整的表现用户的实际需求和偏好。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种用户画像生成方法,可生成具有多个维度的用户画像,可使获得的用户画像能完整的表现出用户的实际需求和偏好,从而可提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种用户画像生成方法,包括数据处理方法和用户兴趣画像计算方法;
所述数据处理方法包括以下步骤:
S01收集用户数据并上传到埋点平台进行记录;
S02将所述用户数据进行预处理后得到标准用户数据,所述预处理包括数据清洗;
所述用户兴趣画像计算方法包括以下步骤:
S11从所述标准用户数据中捞取所有的用户行为,并分类记录到文件中;
S12将所述文件中的数据按照类别进行模型计算;
S13将计算结果按照与所述类别相对应的维度进行分组,并按照模型打分从高到低选取若干组后,获得多维度的用户兴趣画像。
进一步地,所述用户行为包括浏览、点击、收藏、搜索、打分和评论中的一种或多种。
进一步地,在S11中,按照应用、用户、类型、操作时间、当前时间和时间差值分类记录到所述文件中,所述类型包括业务类型、关键实体和向量空间,所述时间差值为所述当前时间与所述操作时间的差值。
进一步地,在S12中,所述类别包括用户、应用、类型和时间段。
进一步地,所述维度包括用户维度、应用维度、类型维度和时间段维度。
进一步地,还包括用户属性画像计算方法,所述用户属性画像计算方法包括以下步骤:
S21从所述标准用户数据中获取用户的基础信息及业务属性信息,并计算得到用户属性画像,所述基础信息包括id、手机、身份证中的一种或多种,所述业务属性信息包括警种、部门、职级中的一种或多种。
进一步地,还包括用户订阅画像计算方法,所述用户订阅画像计算方法包括以下步骤:
S31从所述标准用户数据中获取用户的显式订阅方式和/或隐式订阅方式,并计算得到用户订阅画像,所述显式订阅方式包括收集用户主动订阅的分类、标签和实体信息,所述隐式订阅方式包括按照设定规则将用户的相关操作作为订阅标识。
本发明的有益效果:可生成具有多个维度的用户画像,可使获得的用户画像能完整的表现出用户的实际需求和偏好,从而可提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例所述的一种用户画像生成方法,包括数据处理方法和用户兴趣画像计算方法;
所述数据处理方法包括以下步骤:
S01收集用户数据并上传到埋点平台进行记录;
S02将所述用户数据进行预处理后得到标准用户数据,所述预处理包括数据清洗;
所述用户兴趣画像计算方法包括以下步骤:
S11从所述标准用户数据中捞取所有的用户行为,并分类记录到文件中;
S12将所述文件中的数据按照类别进行模型计算;
S13将计算结果按照与所述类别相对应的维度进行分组,并按照模型打分从高到低选取若干组后,获得多维度的用户兴趣画像。
在本发明的一个具体实施例中,所述用户行为包括浏览、点击、收藏、搜索、打分和评论中的一种或多种。
在本发明的一个具体实施例中,在S11中,按照应用、用户、类型、操作时间、当前时间和时间差值分类记录到所述文件中,所述类型包括业务类型、关键实体和向量空间,所述时间差值为所述当前时间与所述操作时间的差值。
在本发明的一个具体实施例中,在S12中,所述类别包括用户、应用、类型和时间段。
在本发明的一个具体实施例中,所述维度包括用户维度、应用维度、类型维度和时间段维度。
在本发明的一个具体实施例中,还包括用户属性画像计算方法,所述用户属性画像计算方法包括以下步骤:
S21从所述标准用户数据中获取用户的基础信息及业务属性信息,并计算得到用户属性画像,所述基础信息包括id、手机、身份证中的一种或多种,所述业务属性信息包括警种、部门、职级中的一种或多种。
在本发明的一个具体实施例中,还包括用户订阅画像计算方法,所述用户订阅画像计算方法包括以下步骤:
S31从所述标准用户数据中获取用户的显式订阅方式和/或隐式订阅方式,并计算得到用户订阅画像,所述显式订阅方式包括收集用户主动订阅的分类、标签和实体信息,所述隐式订阅方式包括按照设定规则将用户的相关操作作为订阅标识。
为了方便理解本发明的上述技术方案,以下通过具体使用方式对本发明的上述技术方案进行详细说明。
用户画像用于刻画用户的兴趣,大概分为三类:用户属性画像、用户订阅画像和用户兴趣画像。
用户属性画像可根据用户的id、手机、身份证等基础信息以及警种、部门、职级等业务属性信息计算得到。
用户订阅画像通过显式订阅方式和/或隐式订阅方式计算得到。
显式订阅方式包括用户通过相关界面主动订阅的分类、标签、实体信息等。
隐式订阅方式包括根据一定的规则将用户的相关操作来作为订阅标识
用户兴趣画像通过用户画像记录和用户兴趣画像计算来得到。
用户画像记录为对标准用户数据中的用户行为(浏览,点击,收藏,搜索,打分,评论等)调用API进行记录得到相应的用户行为日志。
用户兴趣画像计算包括以下步骤:
1)捞取用户行为日志中的所有用户行为,按照应用、用户、类型(包括业务类型、关键实体和向量空间)、操作时间、当前时间、时间差值(为按天计算的当前时间与操作时间的差值)记录到文件中;
2)对1)中获得的文件中的数据按用户、应用、类型、时间段进行模型计算。如将7天内的记录到7天兴趣内容,将30天内的记录到30天兴趣内容,超出30天的记录到其他兴趣内容;
3)对2)中得到的计算结果,按用户维度、应用维度、类型维度、时间段维度进行分组,按照模型打分从高到低选取TOPN(N为大于0的正整数,N可以配置)后,得到某用户、某应用、某类型在不同时间段的多维度的用户兴趣画像。
用户兴趣画像计算模型可用于利用历史用户数据进行训练。
用户兴趣画像具有更多的维度和权重配比,更加智能和精细化,比如对于类型维度而言,可分为以下几类:
a. 基于警种业务(比较粗):各个警种(数据结构:分类)
b. 基于业务类型(比较细):可以借鉴警情的分类(数据结构:分类)
c. 基于关键实体(非常细):实体、事件、关键词(数据结构:struct entity)
d. 基于向量空间(非常细):(数据结构:向量空间,以及生成向量的内容列表)。
数据处理方法具体步骤如下:1)将一份用户数据进行镜像,方便后续对用户数据做跟踪,用户数据包括情报原始内容数据、微博原始内容数据和警情原始内容数据,微博原始内容数据即微博、今日头条等抓取到的数据,警情原始内容数据包括接警原始内容数据、处警原始内容数据和反馈原始内容数据;2)经过标准化、清洗步骤处理转换为标准用户数据(包括文档标准数据和标准宽表数据);3)根据业务类型需要跑相应的NLP算法(关键词算法得到相应的关键词,分类classify算法得到相应的分类);4)将标准用户数据同步为业务表,可根据算法结果和清洗后的标准宽表数据生成业务表;5)将标准用户数据同步到搜索引擎,搜索引擎分为微博ES搜索引擎、警情ES搜索引擎和情报ES搜索引擎,每个搜索引擎都具有一个属性搜索子引擎和一个文本搜索子引擎。
埋点平台用于用户数据的收集,埋点平台通信连接有推荐平台。
推荐平台可提供在线用户画像接口和在线查询推荐信息接口,用户可以通过在线用户画像接口查询用户画像信息,在线查询推荐信息接口可根据用户画像和应用映射规则,去搜索引擎中召回相应的映射信息,对召回结果融合、排序、过滤后给用户提供在线推荐服务;在线推荐服务包括内容推荐服务、TAG推荐服务和类目推荐服务。
推荐平台还可以根据用户画像提供离线推荐内容,埋点平台可生成三种离线任务,分别为内容离线推荐任务、TAG离线推荐任务和类目离线推荐任务,通过这三种离线任务可定期根据用户画像和应用映射规则,去搜索引擎中召回相应的映射信息,对召回结果融合、排序、过滤后得到离线推荐内容,并跟进标准协议(支持标准短信、Email、蓝信等)推送给用户。
推荐平台还提供了API接口,其支持配置应用信息,配置应用映射规则,配置召回结果过滤条件等。
推荐平台还可调用埋点接口将用户反馈信息同步到用户行为日志,循环进入下一次用户画像计算。
综上所述,借助于本发明的上述技术方案,可生成具有多个维度的用户画像,可使获得的用户画像能完整的表现出用户的实际需求和偏好,从而可提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种用户画像生成方法,其特征在于,包括数据处理方法和用户兴趣画像计算方法;
所述数据处理方法包括以下步骤:
S01收集用户数据并上传到埋点平台进行记录;
S02将所述用户数据进行预处理后得到标准用户数据,并将所述标准用户数据同步到搜索引擎,所述预处理包括数据清洗;
S03利用推荐平台根据用户画像和应用映射规则,去所述搜索引擎中召回相应的映射信息,对召回结果融合、排序、过滤后给用户提供在线推荐服务和离线推荐内容;
S04将用户反馈信息同步到用户行为日志,循环进入下一次用户兴趣画像计算;
所述用户兴趣画像计算方法包括以下步骤:
S11对标准用户数据中的用户行为调用API进行记录得到相应的所述用户行为日志,捞取所述用户行为日志中的所有的用户行为,并分类记录到文件中;
S12将所述文件中的数据按照类别进行模型计算;
S13将计算结果按照与所述类别相对应的维度进行分组,并按照模型打分从高到低选取若干组后,获得多维度的用户兴趣画像。
2.根据权利要求1所述的用户画像生成方法,其特征在于,所述用户行为包括浏览、点击、收藏、搜索、打分和评论中的一种或多种。
3.根据权利要求1所述的用户画像生成方法,其特征在于,在S11中,按照应用、用户、类型、操作时间、当前时间和时间差值分类记录到所述文件中,所述类型包括业务类型、关键实体和向量空间,所述时间差值为所述当前时间与所述操作时间的差值。
4.根据权利要求3所述的用户画像生成方法,其特征在于,在S12中,所述类别包括用户、应用、类型和时间段。
5.根据权利要求4所述的用户画像生成方法,其特征在于,所述维度包括用户维度、应用维度、类型维度和时间段维度。
6.根据权利要求1所述的用户画像生成方法,其特征在于,还包括用户属性画像计算方法,所述用户属性画像计算方法包括以下步骤:
S21从所述标准用户数据中获取用户的基础信息及业务属性信息,并计算得到用户属性画像,所述基础信息包括id、手机、身份证中的一种或多种,所述业务属性信息包括警种、部门、职级中的一种或多种。
7.根据权利要求1所述的用户画像生成方法,其特征在于,还包括用户订阅画像计算方法,所述用户订阅画像计算方法包括以下步骤:
S31从所述标准用户数据中获取用户的显式订阅方式和/或隐式订阅方式,并计算得到用户订阅画像,所述显式订阅方式包括收集用户主动订阅的分类、标签和实体信息,所述隐式订阅方式包括按照设定规则将用户的相关操作作为订阅标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110207493.6A CN112559899A (zh) | 2021-02-25 | 2021-02-25 | 一种用户画像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110207493.6A CN112559899A (zh) | 2021-02-25 | 2021-02-25 | 一种用户画像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112559899A true CN112559899A (zh) | 2021-03-26 |
Family
ID=75034635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110207493.6A Pending CN112559899A (zh) | 2021-02-25 | 2021-02-25 | 一种用户画像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559899A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297479A (zh) * | 2021-04-29 | 2021-08-24 | 上海淇玥信息技术有限公司 | 一种用户画像生成方法、装置及电子设备 |
CN117743848A (zh) * | 2023-12-06 | 2024-03-22 | 暗物质(北京)智能科技有限公司 | 一种用户画像生成方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045540A (zh) * | 2017-02-14 | 2017-08-15 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置、服务器和数据处理系统 |
CN110688476A (zh) * | 2019-09-23 | 2020-01-14 | 腾讯科技(北京)有限公司 | 一种基于人工智能的文本推荐方法及装置 |
CN111078994A (zh) * | 2019-11-06 | 2020-04-28 | 珠海健康云科技有限公司 | 基于画像的医学科普文章推荐方法及系统 |
CN111159534A (zh) * | 2019-12-03 | 2020-05-15 | 泰康保险集团股份有限公司 | 基于用户画像的辅助决策方法及装置、设备和介质 |
CN111191122A (zh) * | 2019-12-20 | 2020-05-22 | 重庆邮电大学 | 一种基于用户画像的学习资源推荐系统 |
CN111400599A (zh) * | 2020-03-17 | 2020-07-10 | 苏宁金融科技(南京)有限公司 | 一种用户群画像生成方法、装置及系统 |
CN111444236A (zh) * | 2020-03-23 | 2020-07-24 | 华南理工大学 | 一种基于大数据的移动终端用户画像构建方法及系统 |
-
2021
- 2021-02-25 CN CN202110207493.6A patent/CN112559899A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045540A (zh) * | 2017-02-14 | 2017-08-15 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置、服务器和数据处理系统 |
CN110688476A (zh) * | 2019-09-23 | 2020-01-14 | 腾讯科技(北京)有限公司 | 一种基于人工智能的文本推荐方法及装置 |
CN111078994A (zh) * | 2019-11-06 | 2020-04-28 | 珠海健康云科技有限公司 | 基于画像的医学科普文章推荐方法及系统 |
CN111159534A (zh) * | 2019-12-03 | 2020-05-15 | 泰康保险集团股份有限公司 | 基于用户画像的辅助决策方法及装置、设备和介质 |
CN111191122A (zh) * | 2019-12-20 | 2020-05-22 | 重庆邮电大学 | 一种基于用户画像的学习资源推荐系统 |
CN111400599A (zh) * | 2020-03-17 | 2020-07-10 | 苏宁金融科技(南京)有限公司 | 一种用户群画像生成方法、装置及系统 |
CN111444236A (zh) * | 2020-03-23 | 2020-07-24 | 华南理工大学 | 一种基于大数据的移动终端用户画像构建方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297479A (zh) * | 2021-04-29 | 2021-08-24 | 上海淇玥信息技术有限公司 | 一种用户画像生成方法、装置及电子设备 |
CN117743848A (zh) * | 2023-12-06 | 2024-03-22 | 暗物质(北京)智能科技有限公司 | 一种用户画像生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782965B (zh) | 意图推荐方法、装置、设备及存储介质 | |
CN110462604B (zh) | 基于设备使用关联互联网设备的数据处理系统和方法 | |
US11100065B2 (en) | Tools and techniques for extracting knowledge from unstructured data retrieved from personal data sources | |
US8862102B2 (en) | Method for facilitating and analyzing social interactions and context for targeted recommendations in a network of a telecom service provider | |
US8700551B2 (en) | Systems and methods for identifying provider noncustomers as likely acquisition targets | |
CN110235154B (zh) | 使用特征关键词将会议与项目进行关联 | |
CN108154425B (zh) | 一种结合社会网络和位置的线下商户推荐方法 | |
US9015244B2 (en) | Bulletin board data mapping and presentation | |
CN102150161A (zh) | 基于密切关系准则对搜索结果进行排序 | |
CN102750346B (zh) | 软件推荐方法和系统、终端设备 | |
US10374995B2 (en) | Method and apparatus for predicting unwanted electronic messages for a user | |
CN106470150B (zh) | 关系链存储方法及装置 | |
CN112559899A (zh) | 一种用户画像生成方法 | |
CN106789572B (zh) | 一种实现自适应消息过滤的即时通讯系统和即时通讯方法 | |
CN112256880A (zh) | 文本识别方法和装置、存储介质及电子设备 | |
CN102034144A (zh) | 用于在场的群组组成算法 | |
CN114663132A (zh) | 一种基于实时用户画像的智能营销方法及装置 | |
CN109145092B (zh) | 一种数据库更新、智能问答管理方法、装置及其设备 | |
JP2017091376A (ja) | 広告システム及び広告配信方法 | |
KR101646026B1 (ko) | 온라인 게시물의 알림 방법 및 시스템 | |
WO2011019731A2 (en) | Systems and methods for gererating leads in a network by predicting properties of external nodes | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN110413770A (zh) | 将群消息归类到群话题的方法及装置 | |
Liu et al. | Spam short messages detection via mining social networks | |
Al-Zeyadi et al. | User-to-user recommendation using the concept of movement patterns: A study using a dating social network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210326 |