CN113392113A - 一种云视频开放平台精细化用户画像实时推荐方法 - Google Patents
一种云视频开放平台精细化用户画像实时推荐方法 Download PDFInfo
- Publication number
- CN113392113A CN113392113A CN202110682122.3A CN202110682122A CN113392113A CN 113392113 A CN113392113 A CN 113392113A CN 202110682122 A CN202110682122 A CN 202110682122A CN 113392113 A CN113392113 A CN 113392113A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- real
- users
- open platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000003780 insertion Methods 0.000 abstract description 2
- 230000037431 insertion Effects 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种云视频开放平台精细化用户画像实时推荐方法,包括以下步骤,数据打标可以分为离线和实时两条路,离线的部分,每天凌晨从数据库拉取全量的数据到odps系统,对标签按照固定逻辑进行分类,时的部分,收集数据库变更信息binlog到datahub消息中间件,再由flink对topic的消息进行消费,通过实时Sql逻辑筛选用户,将刚才筛选归类后的用户,按照pk(app应用编码)和user_id(用户id)作为唯一索引,以当前时间数据为最新数据upsert到数据表中;该云视频开放平台精细化用户画像实时推荐方法,新型架构在T+1的基础上,增加了对当天新增数据的插入,当天新增数据的更新以及历史数据的更新操作,使标签可以实时更新,活动可以实时推送。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种云视频开放平台精细化用户画像实时推荐方法。
背景技术
随着数据量的增多,公司需要从海量的数据中提取针对每一个用户的个性数据,从而形成千人千面的活动推送营销,这是现在智能化推荐很重要的发展方向,目前主要存在的问题是如何在精准度和实时性方面有所提升,由于数据领域现在处于由离线T+1形态到实时流处理形态的发展历程之中,所以相对应的应用也在更新当中,如何将离线的打标系统变更为实时的打标系统,这是需要解决的问题。
发明内容
本发明的目的在于提供一种云视频开放平台精细化用户画像实时推荐方法,以解决如何实时产生精细化标签进行活动推荐的问题。
为了实现上述目的,本发明采用了如下技术方案:设计一种云视频开放平台精细化用户画像实时推荐方法,包括以下步骤;
步骤一:数据打标可以分为离线和实时两条路;
步骤二:离线的部分,每天凌晨从数据库拉取全量的数据到odps系统,对标签按照固定逻辑进行分类;
步骤三:时的部分,收集数据库变更信息binlog到datahub消息中间件,再由flink对topic的消息进行消费,通过实时Sql逻辑筛选用户,与此同时在标签表里面,对每条数据增加了更新时间字段,将刚才筛选归类后的用户,按照pk和user_id作为唯一索引,以当前时间数据为最新数据upsert到数据表中;
步骤四:业务方使用精细化标签数据对特定用户进活动和广告的毫秒级实时精准推荐;
步骤五:指定标签用户数量统计计算方面,在odps层面对数据进行逻辑维度上的脚本解耦;
步骤六:tags_merge这个脚本中,将上面每一个模块所打标的结果合并成宽表并插入到各自的目标字段,使用Hologres对该宽表进行加速映射,使用API网关,采用高级SQL对前端查询进行灵活响应,可以对不同纬度数据合并,毫秒级响应查询。
优选的,所述字段有tag1到tag9共9个字段。
本发明提出的一种云视频开放平台精细化用户画像实时推荐方法,有益效果在于:以往技术是采用T+1(隔天)的方式对用户标签进行分类规整,在时效性方面有所不足,新型架构在T+1的基础上,增加了对当天新增数据的插入,当天新增数据的更新以及历史数据的更新操作,使标签可以实时更新,活动可以实时推送,在第一时间可以将用户行为数据变现,在时效性上有了极大程度的提升。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种云视频开放平台精细化用户画像实时推荐方法,包括以下步骤;
步骤一:数据采集层面的设计,离线数据采集使用DTS-DataX每天凌晨定时采集到大数据系统(HDFS),实时数据采集使用DTS-Canal监控数据库的Binlog,到入到DataHub的Topic中;
步骤二:Maxcompute(离线计算)层面的设计,每天数据定时采集到的HDFS之后,首先对数据进行ETL数据清洗,接着对数据进行业务维度的打标和分类形成dwd层的明细表,接着对dwd层明细表采用row_number函数进行merge,导入到一个tag字段,由于是分区表,可以将今天计算的结果和前一天计算的结果进行left join对比,将更新的数据调用接口插入到业务数据库的数据表中。需要注意的细节是,由于每天跑脚本的时间是不固定的,需要手动将每条数据的更新时间设置到每天的0点,这样插入到数据库他只会更新前一天的数据,而不会对实时的数据产生影响;
步骤三:Flink(实时计算)层面的设计,对binlog的upsert的数据进行逻辑上的分类,这个地方有两种情况,第一种是这条记录是当天新增数据,那么只需要判断逻辑打标后调用接口插入结果数据表即可,第二种是这条记录是对前一天历史数据的更新,那么还需要将前一天的数据作为维表进行关联取出它的一些基本字段,然后合并再调用接口插入到结果数据表中。
步骤四:大数据库(odps)表的设计,现在明细表有用户注册表、付费用户表、零元领用户表、套餐状态表、自动续费状态表、套餐过期状态表、用户活跃表、用户活跃度表、绑定设备表、自定义用户表9张表,会在此基础上merge再形成两张宽表,第一张是将上面表中的结果字段合并到一个字段里面(字段只有一个tags),第二张表是将上面表中的结果字段分别插入到各自的字段里面(字段有tag1到tag9共9个字段);
步骤五:数据表的设计;采用将所有属性合并到一个字段的设计。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种云视频开放平台精细化用户画像实时推荐方法,其特征在于:包括以下步骤;
步骤一:数据打标可以分为离线和实时两条路;
步骤二:离线的部分,每天凌晨从数据库拉取全量的数据到odps系统,对标签按照固定逻辑进行分类;
步骤三:时的部分,收集数据库变更信息binlog到datahub消息中间件,再由flink对topic的消息进行消费,通过实时Sql逻辑筛选用户,与此同时在标签表里面,对每条数据增加了更新时间字段,将刚才筛选归类后的用户,按照pk和user_id作为唯一索引,以当前时间数据为最新数据upsert到数据表中;
步骤四:业务方使用精细化标签数据对特定用户进活动和广告的毫秒级实时精准推荐;
步骤五:指定标签用户数量统计计算方面,在odps层面对数据进行逻辑维度上的脚本解耦;
步骤六:tags_merge这个脚本中,将上面每一个模块所打标的结果合并成宽表并插入到各自的目标字段,使用Hologres对该宽表进行加速映射,使用API网关,采用高级SQL对前端查询进行灵活响应,可以对不同纬度数据合并,毫秒级响应查询。
2.根据权利要求1所述的一种云视频开放平台精细化用户画像实时推荐方法,其特征在于:所述字段有tag1到tag9共9个字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110682122.3A CN113392113A (zh) | 2021-06-20 | 2021-06-20 | 一种云视频开放平台精细化用户画像实时推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110682122.3A CN113392113A (zh) | 2021-06-20 | 2021-06-20 | 一种云视频开放平台精细化用户画像实时推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113392113A true CN113392113A (zh) | 2021-09-14 |
Family
ID=77623048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110682122.3A Pending CN113392113A (zh) | 2021-06-20 | 2021-06-20 | 一种云视频开放平台精细化用户画像实时推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392113A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961546A (zh) * | 2021-10-27 | 2022-01-21 | 国网江苏省电力有限公司营销服务中心 | 一种支持在线分析统计的实时查询库设计方法 |
CN114969081A (zh) * | 2022-06-21 | 2022-08-30 | 杭州登虹科技有限公司 | 一种云视频开放平台大数据实时数仓系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110263946A1 (en) * | 2010-04-22 | 2011-10-27 | Mit Media Lab | Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences |
CN108416620A (zh) * | 2018-02-08 | 2018-08-17 | 杭州浮云网络科技有限公司 | 一种基于大数据的画像数据的智能社交广告投放平台 |
CN110555076A (zh) * | 2019-08-22 | 2019-12-10 | 上海数禾信息科技有限公司 | 数据打标方法、处理方法以及装置 |
CN111209352A (zh) * | 2020-04-20 | 2020-05-29 | 北京聪明核桃教育科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN111881221A (zh) * | 2020-07-07 | 2020-11-03 | 上海中通吉网络技术有限公司 | 物流服务里客户画像的方法、装置和设备 |
CN112825178A (zh) * | 2019-11-21 | 2021-05-21 | 北京沃东天骏信息技术有限公司 | 一种预测用户性别画像的方法和装置 |
-
2021
- 2021-06-20 CN CN202110682122.3A patent/CN113392113A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110263946A1 (en) * | 2010-04-22 | 2011-10-27 | Mit Media Lab | Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences |
CN108416620A (zh) * | 2018-02-08 | 2018-08-17 | 杭州浮云网络科技有限公司 | 一种基于大数据的画像数据的智能社交广告投放平台 |
CN110555076A (zh) * | 2019-08-22 | 2019-12-10 | 上海数禾信息科技有限公司 | 数据打标方法、处理方法以及装置 |
CN112825178A (zh) * | 2019-11-21 | 2021-05-21 | 北京沃东天骏信息技术有限公司 | 一种预测用户性别画像的方法和装置 |
CN111209352A (zh) * | 2020-04-20 | 2020-05-29 | 北京聪明核桃教育科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN111881221A (zh) * | 2020-07-07 | 2020-11-03 | 上海中通吉网络技术有限公司 | 物流服务里客户画像的方法、装置和设备 |
Non-Patent Citations (1)
Title |
---|
陈新宇等: "《中台战略 中台建设与数字商业》", 31 August 2019 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961546A (zh) * | 2021-10-27 | 2022-01-21 | 国网江苏省电力有限公司营销服务中心 | 一种支持在线分析统计的实时查询库设计方法 |
CN114969081A (zh) * | 2022-06-21 | 2022-08-30 | 杭州登虹科技有限公司 | 一种云视频开放平台大数据实时数仓系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105608203A (zh) | 一种基于Hadoop平台的物联网日志处理方法和装置 | |
CN112182077B (zh) | 一种基于数据中台技术的智能运维系统 | |
CN104394118A (zh) | 一种用户身份识别方法及系统 | |
CN109254901B (zh) | 一种指标监测方法及系统 | |
CN105930446A (zh) | 一种基于Hadoop分布式技术的电信客户标签生成方法 | |
CN104899314A (zh) | 一种数据仓库的血统分析方法和装置 | |
CN113392113A (zh) | 一种云视频开放平台精细化用户画像实时推荐方法 | |
CN115038083B (zh) | 一种应用ai运营商行业的电信欺诈预警识别方法及系统 | |
CN107220389A (zh) | 一种物流知识智能问答系统及方法 | |
CN109977125A (zh) | 一种基于网络安全的大数据安全分析平台系统 | |
CN112395371B (zh) | 一种金融机构资产分类处理方法、装置及可读介质 | |
CN112860653A (zh) | 一种政务信息资源目录管理方法和系统 | |
CN114385609A (zh) | 基于标签的政务事件处理系统、方法、设备及存储介质 | |
CN108345658A (zh) | 算法计算轨迹的分解处理方法、服务器及存储介质 | |
CN114265883A (zh) | 一种实时数据治理的方法、设备、存储介质 | |
CN112733017A (zh) | 一种标签管理方法、装置、存储介质及电子装置 | |
CN105589900A (zh) | 基于多维分析的数据挖掘方法 | |
CN116629802A (zh) | 一种用于铁路港口站的大数据平台系统 | |
US20070043752A1 (en) | Disparate network model synchronization | |
CN114596046A (zh) | 一种基于业务中台及数据中台的统一数字模型的集成平台 | |
CN110134511A (zh) | 一种OpenTSDB共享存储优化方法 | |
CN102945270A (zh) | 并行化分布式网络舆情数据管理方法及系统 | |
CN104156618B (zh) | 基于地图的经济数据自动分析系统 | |
CN110532366A (zh) | 一种模板规则管理方法、语言生成方法、装置及存储设备 | |
CN106407271B (zh) | 一种智能客服系统及其智能客服知识库的更新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210914 |
|
RJ01 | Rejection of invention patent application after publication |