CN107391752A - 一种基于hadoop平台构建用户标签信息的方法 - Google Patents
一种基于hadoop平台构建用户标签信息的方法 Download PDFInfo
- Publication number
- CN107391752A CN107391752A CN201710702996.4A CN201710702996A CN107391752A CN 107391752 A CN107391752 A CN 107391752A CN 201710702996 A CN201710702996 A CN 201710702996A CN 107391752 A CN107391752 A CN 107391752A
- Authority
- CN
- China
- Prior art keywords
- user
- label
- data
- user tag
- hive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于hadoop平台构建用户标签信息的方法,包括电商网站后台、智能电视终端、kafka消息系统、hadoop平台、hive数据仓库和全文搜索引擎平台,其方法如下:a、定义用户标签,b、采集用户相关业务数据,c、加载入hive数据仓库,d、生成hive标签中间表,e、中间结构加载入hbase,f、将hbase结果加载入全文搜索引擎平台,h、开发web界面展示用户画像。本发明基于采集到用户各渠道的行为数据,定义用户完整的标签体系,完成用户全景画像的构建。
Description
技术领域
本发明涉及大数据应用技术领域,尤其涉及一种基于hadoop平台构建用户标签信息的方法。
背景技术
在互联网逐渐步入大数据时代后,不可避免的给企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是“可视化”的。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,用户画像的概念也就应运而生。
用户画像,作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。构建用户画像,不仅可以完善产品运营,提升用户体验:改变以往闭门造车的生产模式,通过事先调研用户需求,设计制造更适合用户的产品,提升用户体验;还可以对外服务,提升盈利:根据产品特点,找到目标用户,在用户偏好的渠道上与其交互,促成购买,实现精准运营和营销。
现有的用户画像构建技术无法充分体现用户的特征,或者用户全景画像,本发明解决了现有技术瓶颈,充分了解用户,为用户提供精细化服务,提高用户体验。
发明内容
针对现有技术存在的不足之处,本发明的目的在于提供一种基于hadoop平台构建用户标签信息的方法,基于采集到用户各渠道的行为数据,定义用户完整的标签体系,完成用户全景画像的构建。
本发明的目的通过下述技术方案实现:
一种基于hadoop平台构建用户标签信息的方法,包括电商网站后台、智能电视终端、kafka消息系统、hadoop平台、hive数据仓库和全文搜索引擎平台,其方法如下:
A、定义用户标签体系:根据场景描述定义如下用户标签:行政区域、价格段、直播频道、电影类型;所述行政区域为通过电商网站后台获取用户地址,所述价格段为通过电商后台获取用户购买的支付金额,所述直播频道为通过智能电视终端采集用户电视直播观看行为数据,所述电影类型为通过智能电视终端采集用户电视直播观看行为数据;
B、根据步骤A中的标签体系采集用户相关业务数据:对于用户观看直播节目及点播行为数据,通过kafka消息系统以json字符串的格式采集用户行为数据到hadoop平台,然后加载到hive数据仓库中;对于用户购买电视的交易记录,从电商后台数据库以文本的方式抽取数据到hadoop平台中,然后加载到hive数据仓库;
C、在hive数据仓库中创建标签中间表,所述标签中间表包括字段:用户ID、ID类型、标签值、更新日期、分区日期,一个标签对应一张hive中间表;
D、使用HQL开发标签,生成用户标签中间结果,并将用户标签中间结果插入到步骤C所创建的标签中间表中;
E、在hbase集群中创建hbase用户标签表,字段名:up;
F、将hive数据仓库的标签中间表的结果加载到步骤E创建的hbase用户标签表中,所述hbase用户标签表记录的是一个标签一行数据,包含内容为用户id、标签值及更新日期;
H、将hbase用户标签表中的用户标签数据加载到全文搜索引擎平台中以供后续的业务查询与搜索。
为了更好地实现本发明,本发明还包括如下步骤I:
I、在全文搜索引擎平台中开发可视化界面,便于更直观的查看用户标签。
本发明较现有技术相比,具有以下优点及有益效果:
本发明基于采集到用户各渠道的行为数据,定义用户完整的标签体系,完成用户全景画像的构建。
附图说明
图1为本发明用户标签方法的流程示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明:
实施例一
如图1所示,一种基于hadoop平台构建用户标签信息的方法,包括电商网站后台、智能电视终端、kafka消息系统、hadoop平台、hive数据仓库和全文搜索引擎平台,其方法如下:
A、定义用户标签体系:根据场景描述定义如下用户标签:行政区域、价格段、直播频道、电影类型;所述行政区域为通过电商网站后台获取用户地址,所述价格段为通过电商后台获取用户购买的支付金额,所述直播频道为通过智能电视终端采集用户电视直播观看行为数据,所述电影类型为通过智能电视终端采集用户电视直播观看行为数据;
B、根据步骤A中的标签体系采集用户相关业务数据:对于用户观看直播节目及点播行为数据,通过kafka消息系统以json字符串的格式采集用户行为数据到hadoop平台,然后加载到hive数据仓库中;对于用户购买电视的交易记录,从电商后台数据库以文本的方式抽取数据到hadoop平台中,然后加载到hive数据仓库;
C、在hive数据仓库中创建标签中间表,所述标签中间表包括字段:用户ID、ID类型、标签值、更新日期、分区日期,一个标签对应一张hive中间表;
D、使用HQL开发标签,生成用户标签中间结果,并将用户标签中间结果插入到步骤C所创建的标签中间表中;
E、在hbase集群中创建hbase用户标签表,字段名:up;
F、将hive数据仓库的标签中间表的结果加载到步骤E创建的hbase用户标签表中,所述hbase用户标签表记录的是一个标签一行数据,包含内容为用户id、标签值及更新日期;
H、将hbase用户标签表中的用户标签数据加载到全文搜索引擎平台中以供后续的业务查询与搜索。
I、在全文搜索引擎平台中开发可视化界面,便于更直观的查看用户标签。
实施例二
本实施例的场景:四川成都的用户A在电商平台买了一台4100元的50寸智能电视,买回家后联网开机,观看了CCTV5直播节目、观看了一部悬疑点播电影。
如图1所示,一种基于hadoop平台构建用户标签信息的方法,包括电商网站后台、智能电视终端、kafka消息系统、hadoop平台、hive数据仓库和全文搜索引擎平台,其方法如下:
步骤一.定义用户标签体系,根据场景描述定义如下用户标签:行政区域(每天增量获取电商网站后台的用户地址)、价格段(获取电商后台用户购买的支付金额)、直播频道(智能终端采集用户电视行为数据)、电影类型(智能终端采集用户电视行为数据);
步骤二.根据标签体系采集用户相关业务数据,对于用户A观看直播节目及点播等行为数据,通过kafka消息系统以json字符串的格式采集用户行为数据到hadoop平台,然后加载到hive数据仓库中;对于用户A购买电视的交易记录,使用etl工具kettle从电商后台数据库以文本的方式抽取数据到hadoop平台中,然后加载到hive数据仓库;
步骤三.在hive数据仓库中创建标签中间表,所述标签中间表包括字段:用户ID、ID类型、标签值、更新日期、分区日期,一个标签一张hive中间表,根据定义我们创建四张标签中间hive表,分别为标签中间表A、标签中间表B、标签中间表C、标签中间表D;
步骤四.对于行政区域标签,获取地址后即四川成都插入标签中间表A;对于价格段,获取用户支付金额后与价格段比对,最终将4000-6000段插入标签中间表B;对于直播频道,从行为数据获取频道名后即CCTV5插入标签中间表C;对于电影类型,获取电影名称后与点播资源库关联得到电影类型即悬疑插入标签中间表D;
步骤五.在hbase集群中创建hbase用户标签表F,字段名:up;
步骤六.将hive的四个标签中间表(即标签中间表A~D)的结果加载到步骤五创建的hbase用户标签表F中,这样hbase用户标签表F就包括标签中间表A~F所有信息;
步骤七.在全文搜索引擎平台(即Elasticsearch平台)创建index及type,将hbase中的用户标签数据加载到全文搜索引擎平台,供后续的业务查询与搜索;
步骤八.为了更直观的查看用户标签及单个用户的全景画像,开发可视化界面,最后用户A打上的标签为:四川成都、4000-6000、爱悬疑、爱体育频道。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于hadoop平台构建用户标签信息的方法,其特征在于:包括电商网站后台、智能电视终端、kafka消息系统、hadoop平台、hive数据仓库和全文搜索引擎平台,其方法如下:
A、定义用户标签体系:根据场景描述定义如下用户标签:行政区域、价格段、直播频道、电影类型;所述行政区域为通过电商网站后台获取用户地址,所述价格段为通过电商后台获取用户购买的支付金额,所述直播频道为通过智能电视终端采集用户电视直播观看行为数据,所述电影类型为通过智能电视终端采集用户电视直播观看行为数据;
B、根据步骤A中的标签体系采集用户相关业务数据:对于用户观看直播节目及点播行为数据,通过kafka消息系统以json字符串的格式采集用户行为数据到hadoop平台,然后加载到hive数据仓库中;对于用户购买电视的交易记录,从电商后台数据库以文本的方式抽取数据到hadoop平台中,然后加载到hive数据仓库;
C、在hive数据仓库中创建标签中间表,所述标签中间表包括字段:用户ID、ID类型、标签值、更新日期、分区日期,一个标签对应一张hive中间表;
D、使用HQL开发标签,生成用户标签中间结果,并将用户标签中间结果插入到步骤C所创建的标签中间表中;
E、在hbase集群中创建hbase用户标签表,字段名:up;
F、将hive数据仓库的标签中间表的结果加载到步骤E创建的hbase用户标签表中,所述hbase用户标签表记录的是一个标签一行数据,包含内容为用户id、标签值及更新日期;
H、将hbase用户标签表中的用户标签数据加载到全文搜索引擎平台中以供后续的业务查询与搜索。
2.按照权利要求1所述的一种基于hadoop平台构建用户标签信息的方法,其特征在于:还包括如下步骤I:
I、在全文搜索引擎平台中开发可视化界面,便于更直观的查看用户标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710702996.4A CN107391752A (zh) | 2017-08-16 | 2017-08-16 | 一种基于hadoop平台构建用户标签信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710702996.4A CN107391752A (zh) | 2017-08-16 | 2017-08-16 | 一种基于hadoop平台构建用户标签信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107391752A true CN107391752A (zh) | 2017-11-24 |
Family
ID=60353390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710702996.4A Pending CN107391752A (zh) | 2017-08-16 | 2017-08-16 | 一种基于hadoop平台构建用户标签信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391752A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145047A (zh) * | 2018-06-29 | 2019-01-04 | 深圳市彬讯科技有限公司 | 用户标签画像的配置方法、数据处理装置及存储介质 |
CN109308603A (zh) * | 2018-08-21 | 2019-02-05 | 中国平安人寿保险股份有限公司 | 管理标签的方法、装置、计算机设备和存储介质 |
CN111506621A (zh) * | 2020-03-31 | 2020-08-07 | 新华三大数据技术有限公司 | 一种数据统计方法及装置 |
CN112269933A (zh) * | 2020-11-04 | 2021-01-26 | 杭州卡欧科技有限公司 | 一种基于有效连接的潜在客户识别方法 |
CN112434096A (zh) * | 2020-11-30 | 2021-03-02 | 上海天旦网络科技发展有限公司 | 基于智能标签的业务分析系统及方法 |
CN112860899A (zh) * | 2021-03-16 | 2021-05-28 | 中化现代农业有限公司 | 标签生成方法、装置、计算机设备和计算机可读存储介质 |
CN113282393A (zh) * | 2021-06-04 | 2021-08-20 | 银盛支付服务股份有限公司 | 一种解决面向多个画像标签作业调度任务的方法 |
CN113297521A (zh) * | 2021-04-30 | 2021-08-24 | 成都东方盛行电子有限责任公司 | 一种可视化建站方法及系统 |
CN114140947A (zh) * | 2021-11-22 | 2022-03-04 | 中国建设银行股份有限公司 | 界面展示方法、装置、电子设备、存储介质和程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426478A (zh) * | 2015-11-18 | 2016-03-23 | 四川长虹电器股份有限公司 | 用户行为分析的方法 |
CN105608171A (zh) * | 2015-12-22 | 2016-05-25 | 青岛海贝易通信息技术有限公司 | 用户画像构建方法 |
CN105786864A (zh) * | 2014-12-24 | 2016-07-20 | 国家电网公司 | 一种实现海量数据离线分析的方法 |
US20160277373A1 (en) * | 2014-04-04 | 2016-09-22 | Zettaset, Inc. | Securing files under the semi-trusted user threat model using per-file key encryption |
CN106412700A (zh) * | 2016-10-26 | 2017-02-15 | 四川长虹电器股份有限公司 | 智能电视开机频道推荐的方法 |
CN106980663A (zh) * | 2017-03-21 | 2017-07-25 | 上海星红桉数据科技有限公司 | 基于海量跨屏行为数据的用户画像方法 |
CN106980662A (zh) * | 2017-03-21 | 2017-07-25 | 上海星红桉数据科技有限公司 | 基于海量跨屏收视行为数据的用户标签分类方法 |
-
2017
- 2017-08-16 CN CN201710702996.4A patent/CN107391752A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160277373A1 (en) * | 2014-04-04 | 2016-09-22 | Zettaset, Inc. | Securing files under the semi-trusted user threat model using per-file key encryption |
CN105786864A (zh) * | 2014-12-24 | 2016-07-20 | 国家电网公司 | 一种实现海量数据离线分析的方法 |
CN105426478A (zh) * | 2015-11-18 | 2016-03-23 | 四川长虹电器股份有限公司 | 用户行为分析的方法 |
CN105608171A (zh) * | 2015-12-22 | 2016-05-25 | 青岛海贝易通信息技术有限公司 | 用户画像构建方法 |
CN106412700A (zh) * | 2016-10-26 | 2017-02-15 | 四川长虹电器股份有限公司 | 智能电视开机频道推荐的方法 |
CN106980663A (zh) * | 2017-03-21 | 2017-07-25 | 上海星红桉数据科技有限公司 | 基于海量跨屏行为数据的用户画像方法 |
CN106980662A (zh) * | 2017-03-21 | 2017-07-25 | 上海星红桉数据科技有限公司 | 基于海量跨屏收视行为数据的用户标签分类方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145047A (zh) * | 2018-06-29 | 2019-01-04 | 深圳市彬讯科技有限公司 | 用户标签画像的配置方法、数据处理装置及存储介质 |
CN109145047B (zh) * | 2018-06-29 | 2023-02-03 | 土巴兔集团股份有限公司 | 用户标签画像的配置方法、数据处理装置及存储介质 |
CN109308603A (zh) * | 2018-08-21 | 2019-02-05 | 中国平安人寿保险股份有限公司 | 管理标签的方法、装置、计算机设备和存储介质 |
CN111506621A (zh) * | 2020-03-31 | 2020-08-07 | 新华三大数据技术有限公司 | 一种数据统计方法及装置 |
CN112269933A (zh) * | 2020-11-04 | 2021-01-26 | 杭州卡欧科技有限公司 | 一种基于有效连接的潜在客户识别方法 |
CN112434096A (zh) * | 2020-11-30 | 2021-03-02 | 上海天旦网络科技发展有限公司 | 基于智能标签的业务分析系统及方法 |
CN112860899A (zh) * | 2021-03-16 | 2021-05-28 | 中化现代农业有限公司 | 标签生成方法、装置、计算机设备和计算机可读存储介质 |
CN113297521A (zh) * | 2021-04-30 | 2021-08-24 | 成都东方盛行电子有限责任公司 | 一种可视化建站方法及系统 |
CN113297521B (zh) * | 2021-04-30 | 2022-10-14 | 成都东方盛行电子有限责任公司 | 一种可视化建站方法及系统 |
CN113282393A (zh) * | 2021-06-04 | 2021-08-20 | 银盛支付服务股份有限公司 | 一种解决面向多个画像标签作业调度任务的方法 |
CN114140947A (zh) * | 2021-11-22 | 2022-03-04 | 中国建设银行股份有限公司 | 界面展示方法、装置、电子设备、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391752A (zh) | 一种基于hadoop平台构建用户标签信息的方法 | |
CN107852252B (zh) | 通过自动内容辨识指纹匹配来检测频道改变 | |
CN102710773B (zh) | 一种网络信息的推荐方法及系统 | |
US9672541B2 (en) | Visual tag editor | |
CN106504025B (zh) | 一种多媒体信息处理方法及装置 | |
CN102084387A (zh) | 根据在线用户配置文件选择并使用与该配置文件有关的电视节目或频道显示的定向电视广告 | |
CN104991917A (zh) | 广告个性化推送系统及方法 | |
CN103297840A (zh) | 一种基于视频移动焦点的附加信息展现方法及系统 | |
CN106791999B (zh) | 一种基于电视直播的广告投放的方法及系统 | |
US20130211909A1 (en) | Server device and advertisment image distribution and program | |
CN104902294A (zh) | 一种用户特征信息的形成方法及其形成设备 | |
CN103024471A (zh) | 一种用于智能云电视的快捷推荐方法 | |
CN103310362A (zh) | 基于gps定位的广电智能营销辅助方法及系统 | |
WO2015151176A1 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN106097021A (zh) | 一种基于热点地图的广告投放方法和系统 | |
CN109800036A (zh) | 信息流页面展示方法、装置、系统、计算设备和存储介质 | |
Khan et al. | Harnessing IOT advantages in the disruptive era: UAE retail industry | |
CN108596661B (zh) | 广告配置方法及系统 | |
US20180012131A1 (en) | Predicting an effect of a set of modifications to an appearance of content included in a content item on a performance metric associated with the content item | |
EP3520062B1 (en) | Systems and methods for providing targeted content in an embms stream to a user device | |
CN103248915B (zh) | 一种实现个性化配置的epg系统 | |
Oh et al. | Study of profit model of web-dramas on portal sites using big data; Focused on the Web-dramas with the K-pop Singers as the Lead Casts:“EXO, Next Door” and “I Order You” | |
Luo et al. | Research on the online marketing strategy and the trend of developing of “internet celebrity live broadcast” for shoes and clothes enterprises | |
Choi et al. | Success factors for luxury e-commerce: Burberry’s digital innovation process | |
CN108769688B (zh) | 视频编解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171124 |