CN116431932A - 一种用户画像标签构建方法、系统以及应用方法、系统 - Google Patents
一种用户画像标签构建方法、系统以及应用方法、系统 Download PDFInfo
- Publication number
- CN116431932A CN116431932A CN202310177516.2A CN202310177516A CN116431932A CN 116431932 A CN116431932 A CN 116431932A CN 202310177516 A CN202310177516 A CN 202310177516A CN 116431932 A CN116431932 A CN 116431932A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- user portrait
- tag
- resource pool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000010276 construction Methods 0.000 title claims abstract description 45
- 238000003860 storage Methods 0.000 claims abstract description 14
- 239000000446 fuel Substances 0.000 claims description 53
- 230000006399 behavior Effects 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 23
- 238000012216 screening Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 238000013501 data transformation Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 239000000523 sample Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了用户画像标签构建方法、系统以及应用方法、系统,所述用户画像标签构建方法包括:基于各业务系统的原始数据构建数据资源池;基于所述数据资源池中的数据构建用户画像标签;基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引。针对不同业务系统采用对应的采集、同步和存储方式,构建数据资源池;从多层次、多维度对搭建的数据资源池中的数据进行分析,从而构建用户全方位的用户画像标签。
Description
技术领域
本发明涉及大数据、商业智能技术领域,具体涉及一种用户画像标签构建方法、系统以及应用方法、系统。
背景技术
用户画像,即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌。用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、低于、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了。
现有的用户画像技术大都应用于互联网、电商、金融领域,研究者从不同角度不同类型的数据中提出构建用户画像的方法。例如,收集用户使用网络搜索引擎时使用的连续搜索词,并对词频和词语的新鲜度进行时序建模,以生成用户的具有时效性的画像;或者根据用户在社交网络上浏览、关注和分享的图片、文字、视频等内容,提取关键语义信息构建用户画像;或者利用用户的出行轨迹信息,根据用户的家庭信息、地点信息以及在不同地点的行为频率,从频繁活动、行为规律与移动速度等方面生成基于用户位置信息的用户画像表示;或者根据用户在在线商城购买商品的类型、对购买商品的评论和打分,对于用户的特征喜好生成用户画像。
现有的用户画像系统构建采用的数据源基本是来自单一类型的业务系统,不采用多业务系统数据融合,数据基本存储在关系型数据库中,缺乏数据融合的资源池。用户画像的核心在于用户标签的构建方法,其中大部分标签需要基于业务逻辑构建,因此现有的用户画像系统无法为具有多业务系统的企业构建合适的用户标签。
发明内容
针对上述问题,本申请提出一种用户画像标签构建方法、系统以及应用方法、系统,至少解决了多业务系统的数据融合的数据资源池,且可以对多业务系统的数据构建合适的用户标签。
本申请的第一个方面,提供了一种用户画像标签构建方法,所述方法包括:
基于各业务系统的原始数据构建数据资源池;
基于所述数据资源池中的数据构建用户画像标签;
基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引。
在一些实施例中,所述基于各业务系统的原始数据构建数据资源池,包括:
采集各业务系统的原始数据;
采用与业务系统对应的数据同步方式和数据存储方式,将各业务系统的原始数据同步并存储至大数据平台的数据库中,形成所述数据资源池;
对所述数据资源池中的原始数据进行预处理,使数据资源池中的数据的质量统一。
在一些实施例中,所述对所述数据资源池中的原始数据进行预处理,包括:对所述数据资源池中的原始数据进行数据清洗处理、数据集成处理、数据规约处理和数据变换处理中的至少一种。
在一些实施例中,所述基于所述数据资源池中的数据构建用户画像标签,包括:
采用预构建的数据指标体系,对所述数据资源池中的数据进行标签维度分类,所述数据指标体系包括多个标签维度;
采用预设的标签构建方法对标签维度分类后的数据进行分析并创建对应的用户画像标签。
在一些实施例中,所述对所述数据资源池中的数据进行标签维度分类,包括:
针对所述数据指标体系中的每个标签维度,利用K-means聚类算法,或Elkan K-means距离优化算法,或Mini Batch K-means大样本优化算法对所述数据资源池中的数据进行聚类分析,确定出各数据对应的标签维度。
在一些实施例中,所述数据指标体系采用三级分类结构。
在一些实施例中,所述基于所述数据资源池中的数据构建用户画像标签,还包括:对不同业务系统的用户构建唯一的用户标识。
在一些实施例中,所述标签构建方法包括事实类标签、统计类标签、规则类标签和模型类标签中的至少一种。
在一些实施例中,所述基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引,包括:
采用Oozie调度器对所创建的用户画像标签构建工作流任务调度方案;
将所创建的用户画像标签存储在Hive数据库中,并将所创建的用户画像标签整合形成标签集存储在Hive数据库中;
将所述标签集同步至HBase数据库中,并同步至ElasticSearch检索引擎中创建用户画像标签索引。
本申请的第二个方面,提供了一种用户画像标签构建系统,所述系统包括:
第一构建模块,用于基于各业务系统的原始数据构建数据资源池;
第二构建模块,用于基于所述数据资源池中的数据构建用户画像标签;
第三构建模块,用于基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引。
本申请的第三个方面,提供了一种基于上述用户画像标签构建方法所构建的用户画像标签的应用方法,所述方法包括:
获取用户设定特征分类对应的特征数据;
基于用户的设定特征分类对应的特征数据,采用全生命周期的用户画像标签生成标准,生成关于用户全生命周期的用户画像标签,所述关于用户全生命周期的用户画像标签包括新用户、留存用户、活跃用户、沉默用户和流失用户中的一个;
根据关于用户全生命周期的用户画像标签确定对应的实施策略,所述实时策略包括稳固策略、回馈策略、促销策略、激活策略和召回策略。
在一些实施例中,所述方法还包括:根据加油卡的加油频次、高频次加油的持续天数和高频次加油的站点确定是否存在加油卡套现行为;若确定出现加油卡套现行为,则筛选出存在加油卡套现行为的加油卡。
在一些实施例中,所述方法还包括:在加油站停业时,根据对偏好到该加油站加油的用户的用户画像标签,以及在该加油站的加油量占比,确定是否需要向用户推送加油站停业消息和/或附近加油站的信息。
在一些实施例中,所述方法还包括:基于所需的业务逻辑对用户画像标签进行筛选,确定出需要开展个性化营销的目标客群。
在一些实施例中,所述方法包括:基于用户的用户画像标签,向用户推送业务服务信息。
在一些实施例中,所述方法还包括:管理用户画像标签的分类、用户画像标签间的关联关系、用户画像标签的构建规则和用户画像标签的含义。
在一些实施例中,所述方法还包括:对用户画像标签进行可视化展示,并且分析用户画像标签的构成配比和同一用户画像标签在不同标签维度下的用户分布情况。
在一些实施例中,所述方法还包括:基于用户的唯一的用户标识符抓取对应的用户画像标签,构建用户的个人画像。
在一些实施例中,所述方法还包括:基于用户画像标签对用户群体进行筛选,得到目标用户群体;
根据所述目标用户群体的标签维度,可视化展示所述目标用户群体的数据分布情况。
本申请的第四个方面,提供了一种基于上述用户画像标签构建方法所构建的用户画像标签的应用系统,包括:
用户群体分析模块,用于制定用户的全生命周期画像和各生命状态对应的实施策略,所述用户的全生命周期画像中的生命状态包括新用户、留存用户、活跃用户、沉默用户和流失用户;所述实施策略包括稳固策略、回馈策略、促销策略、激活策略和召回策略;
用户流失预警模块,用于对用户行为类的用户画像标签进行分析确定用户的生命状态,并根据用户的生命状态确定出对应的实施策略;
加油卡套现分析模块,用于对加油卡的加油频次、高频次加油的持续天数和高频次加油的站点进行分析确定是否存在加油卡套现行为;若确定出现加油卡套现行为,则筛选出存在加油卡套现行为的加油卡;
加油站停业分流模块,用于在加油站停业时,通过对偏好到该加油站加油的用户的用户画像标签,以及在该加油站的加油量占比进行分析,确定是否需要向用户推送加油站停业消息和附近加油站的信息;
个性化精准营销模块,用于基于所需的业务逻辑对用户画像标签进行筛选,确定出需要开展个性化营销的目标客群;
业务推送模块,用于基于用户的用户画像标签,向用户推送业务服务信息。
本申请的第五个方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储的计算机程序,可被一个或多个处理器执行,用以实现如上所述的方法。
本申请的第六个方面,提供了一种电子设备,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述存储器和所述一个或多个处理器之间互相通信连接,该计算机程序被所述一个或多个处理器执行时,实现如上所述的方法。
与现有技术相比,本申请的技术方案具有以下优点或有益效果:
本申请技术方案针对不同业务系统采用对应的采集、同步和存储方式,构建数据资源池;从多层次、多维度对搭建的数据资源池中的数据进行分析,从而构建用户全方位的用户画像标签。
基于用户画像标签,预测用户群体的市场需求,从而实现智能化决策分析和精准化的个性化用户服务。
采集多个业务系统的原始数据,并统一进行数据存储和处理,利用数据分析和机器学习的方式自动开发用户画像标签,解决数据标签维度优先的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于所属领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种用户画像标签构建方法的流程图;
图2为本申请实施例提供的用户画像标签架构图;
图3为本申请实施例提供的数据采集架构图;
图4为本申请实施提供的用户画像标签构建图例;
图5为本申请实施例提供的采用Mini Batch K-means算法自动开发用户画像标签的流程图;
图6为本申请实施例提供的一种用户画像标签构建系统的结构示意图;
图7为本申请实施例提供的一种用户画像标签的应用方法的流程图;
图8为本申请实施例提供的用户全生命周期的用户画像标签和实施策略的对照图;
图9为本申请实施例一种用户画像标签的应用系统的结构示意图;
图10为本申请实施例提供的一种电子设备的连接框图。
具体实施方式
以下将结合附图及实施例来详细说明本申请的实施方式,借此对本申请如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突的前提下可以相互结合,所形成的技术方案均在本申请的保护范围之内。
为了使本申请实施例的目的、技术方案和有益效果更加清楚,下面将结合说明书附图以及具体的实施方式对本申请实施例中的技术方案进行详细的说明。
以下,先对本申请实施例和现有技术中的部分技术用语进行解释说明,以便于所属领域技术人员理解本申请的技术方案。
MQ:即Message Queue,指信息队列。
RocketMQ:一款高性能、高吞吐量的分布式消息中间件。
HBase:一个分布式的、面向列的开源数据库。
RDS:即Relational Database Service的简称,指关系型数据库服务,是一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。
DTS:即Data Transformation Service的简称,在SQL中也叫数据转换服务,可以从不同的源将数据抽取、转换和合并到一个或多个目标位置。
Sqoop:一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql等)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Hive库:基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
Oracle Database:又名Oracle RDBMS,或简称Oracle,是一种关系数据库管理系统。
ETL:即Extract-Transform-Load的简称,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
shell脚本:用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。
算法jar包:封装了一些算法中常用的功能函数。
ZooKeeper:一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
FTP:即File Transfer Protocol的简称,指文件传输协议,是用于在网络上进行文件传输的一套标准协议,它工作在OSI模型的第七层,TCP模型的第四层,即应用层,使用TCP传输而不是UDP,客户在和服务器建立连接前要经过一个“三次握手”的过程,保证客户与服务器之间的连接是可靠的,而且是面向连接,为数据传输提供可靠保证。
MySQL:一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。
Elasticsearch:一个开源的分布式全文检索引擎,可以近乎实时地存储、检索数据。而且可扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。对于用户标签查询、用户人群计算、用户群多维透视分析这类对响应时间要求较高的场景,也可以考虑选用Elasticsearch进行存储。
Kafka:一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
Flume:一种日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据。
Storm:一种实时的、分布式的、可靠的流式数据处理系统。
Spark:指Apache Spark,是专为大规模数据处理而设计的快速通用的计算引擎。
实施例一
本实施例提供一种用户画像标签构建方法,图1为本申请实施例提供的一种用户画像标签构建方法的流程图,图2为本实施例提供的用户画像标签架构图,如图1和图2所示,本实施例提供的方法包括:
步骤S1,基于各业务系统的原始数据构建数据资源池。
步骤S2,基于所述数据资源池中的数据构建用户画像标签。
步骤S3,基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引。
进一步,所述步骤S1包括以下步骤:
步骤S11,采集各业务系统的原始数据。
步骤S12,采用与业务系统对应的数据同步方式和数据存储方式,将采集到的各业务系统的原始数据同步并存储至大数据平台的数据库中,形成所述数据资源池。
示例地,以石油石化行业的业务系统为例。图3为本申请实施例提供的数据采集架构图,如图3所示,石油石化行业的业务系统包括:加油卡系统、便利店系统、车牌识别系统、加油站的WiFi探针系统、会员管理系统和电商平台系统。
采集加油卡系统、便利店系统、车牌识别系统的数据,通过订阅对应的MQ接收业务系统的实时的原始数据,通过RocketMQ集群把原始数据传输到HBase库进行存储。
采集加油站的WiFi探针系统的原始数据,并将采集到的原始数据存储在Oracle库中,通过Sqoop进行数据抽取,将数据同步到Hive库中。
采集电商平台系统的原始数据,所述电商平台系统的原始数据包括客户消费数据、行为轨迹数据、日志数据等,将采集到的原始数据存储在Oracle库中,通过Sqoop进行数据抽取,将数据同步到Hive库中。
所有采集的原始数据均存储在大数据平台中的HBase库和Hive库中,形成大数据资源池。考虑原始数据是日增量同步或日全量同步,后续的原始数据ETL均在大数据平台的数据资源池中开展,以此作为用户画像构建的基础数据源。
步骤S13,对所述数据资源池中的原始数据进行预处理,以解决原始数据质量参差不齐的问题。
值得说明的是,由于用户相关数据较为分散,各个系统的技术架构、数据字段也有所区别,因此存在采集到的原始数据质量参差不齐的问题。
进一步,所述对所述数据资源池中的原始数据进行预处理,包括:对所述数据资源池中的原始数据进行数据清洗处理、数据集成处理、数据规约处理和数据变换处理中的至少一种。
数据清洗处理:针对关键字段的缺失值,可采用均值、中位值或预测值进行填充;针对异常值,可通过聚类分析归入最近的簇。
数据集成处理:通过身份证号、手机号、会员号等对不同来源的数据进行唯一检索和集成,常会出现冗余和冲突问题。例如,不同系统中的同一用户,身份证号、年龄、出生年月等信息冗余,手机号、注册地等可能会冲突。
数据规约处理:这直接关系到分析的复杂度,通过降低维度和数量,减少数据分析的属性和数目。对于数量较多的条目,可以通过两步聚类法减少数量,同时几乎不影响分析准确度。
数据变换处理:例如将用户的消费记录转换为相邻两次消费的间隔时间,便于进行后续分析。
进一步,所述步骤S2包括:
步骤S1,采用预构建的数据指标体系,对所述数据资源池中的数据进行标签维度分类,所述数据指标体系包括用户属性维度、用户消费维度、用户行为维度、风险控制维度等多个标签维度。
所述数据指标体系采用了三级分类结构。示例地,一级分类包括基础属性、终端偏好、车辆特征、位置属性、会员特征、加油偏好和购物偏好,二级分类是一级分类的类别细化,三级分类为具体的用户画像标签。
步骤S2,采用预设的标签构建方法对标签维度分类后的数据进行分析并创建对应的用户画像标签。
进一步,图4为本申请实施提供的用户画像标签构建图例,如图4所述,所述标签构建方法包括事实类标签、统计类标签、规则类标签和模型类标签中的至少一种。
事实类标签主要包括了人口属性(性别、年龄、生日、婚姻状况、职业等)、户籍地、地区、私车数量、月收入等。这类标签的构建主要基于已收集的数据,在数据库中为已记录的字段,对于用户属性这类数据缺失可以采用决策树方法进行分类预测填补。
以婚烟状况标签的填补过程为例。包括:首先依据相关性分析在所有特征中选取婚姻状况排名相关性高的前20个字段,如年龄、性别、户籍地、月均加油量等。然后对离散特征(如性别)进行独热编码处理,性别为男和女两者的相似度均转换成(0,1)的形式。再然后剔除改变量方差较小的特征、剔除相关性过高的特征(相关性超过0.9),选取剩余相关性排名前20个字段。
统计类标签是最基础也是最常用的标签类型,包括了特定时期内的加油频率、加油量、偏好加油油品、偏好加油站、充值频率、充值金额、沉淀资金、购买频率、购买次数、购买金额、进店次数等,这些标签可以通过统计分析的方法进行计算得到,重点在于细化数据指标,获得丰富的用户统计类标签。
规则类标签构建的重点在于紧密结合业务场景进行构建,根据业务中常用的场景来定义规则类标签,它是在统计类标签上的深加工得到,如高中低频加油客户,高中低频加油油品、加满非加满偏好、忠诚摇摆体验高标客户、商品偏好、促销偏好、优惠券敏感偏好等。在实际标签开发中,业务人员更熟悉业务场景,而数据人员对业务系统的数据、分布、特征更为熟悉,因此规则类标签的构建依赖于业务人员和数据人员共同协商确定。同时,在开发规则类标签时,数据人员需要分析规则类标签的分布占比情况,从而验证业务规则的有效性,标签分布的方法可以用分位数划分,也可以考虑等箱原则,或者看数据是否符合正态分布。
模型类标签主要通过数据挖掘的算法来构建,应用于对用户的某些属性或者行为进行预测判断或分类判别。如对事实类标签中的缺失值数据进行预测,根据用户的加油习惯和频率预测其下一次加油时间,对用户的流失情况进行预警分析生成不同类别的客户状态,这些类型的标签都可以通过算法挖掘构建得到。模型类标签是预测类型的标签,是一种可变性标签,随着输入数据变量的不同标签的状态有可能会改变,同时该类标签有些可以通过测试集进行验证,利用准确度和召回度验证挖掘算法的预测有效性。
进一步,所述基于所述数据资源池中的数据构建用户画像标签,还包括对不同业务系统的用户构建唯一的用户标识。
可选的,将不同业务系统的用户的用户标识符为按照优先逻辑选定一个标志字段。如加油卡系统中有加油卡号、客户编号、身份证号等;便利店系统中有会员号、电话号码等,电商平台系统中的会员号、维信号等。纯加油卡用户则选定加油卡号作为用户标识符;纯会员用户选定会员号作为用户标识符。对于绑定多个业务系统的用户,则进一步将该用户的多个标志字段进行合成,形成该用户最终的唯一的用户标识。如同时绑定加油卡的便利店和电商会员则进行加油卡号和会员号的合成,形成用户最终的唯一的用户标识符。
进一步,所述对所述数据资源池中的数据进行标签维度分类,包括:针对所述数据指标体系中的每个标签维度,利用K-means聚类分析方法,或Elkan K-means距离优化算法,或Mini Batch K-means大样本优化算法对所述数据资源池中的数据进行聚类分析,确定出各数据对应的标签维度。
针对数据维度有限的问题,采用“机器学习自动开发+人工开发”相结合的方法,充分挖掘出数据隐藏的有效信息。一位用户对应一张多维属性表,针对每一个维度,利用K-means聚类算法,或Elkan K-means距离优化算法,或Mini Batch K-means大样本优化算法对所述数据资源池中的数据进行快速高效地聚类分析,对确定出对应的标签维度。
在K-means聚类算法中,每轮迭代都需要计算所有样本点与聚类均值之间的距离,对于传统企业的大数据来说,这是非常耗时的,会极大地影响算法的应用范围。Elkan K-means距离优化算法利用“两边之和大于等于第三边,以及两边之差小于第三边”的三角形性质来减少距离的计算;Mini Batch K-means算法从原始的样本集中随机选择一部分样本做K-means聚类,可避免用户数量太大导致的计算难题,加速算法收敛。当然,Mini BatchK-means算法的代价是聚类的精度会降低。为弥补精度降低,一般会多次执行Mini BatchK-means算法,用得到的不同随机样本集来得到聚类簇,并选择最优。
图5为采用Mini Batch K-means算法自动开发用户画像标签的流程图,如图5所示,Mini Batch K-means算法从原始的样本集Sn中随机选择k个数据作为初始聚类中心,然后计算每个数据与聚类均值的聚类,并划归到距离最近的簇;重新计算到各个聚类均值的距离,判断聚类均值的距离是否收敛,若未收敛,则继续循环计算每个数据与聚类均值的聚类,并划归到距离最近的簇,重新计算到各个聚类均值的距离,判断聚类均值的聚类是否收敛,直至判断出聚类均值的聚距离收敛,得到聚类结果,即最优的聚类簇。
用户画像标签在设计并开发好后,需要进行工程化,其中最重要的部分就是工作流任务调度方案和用户画像标签的存储。工作流任务调度方案是在大数据平台对构建用户画像标签的开发脚本设定定时执行的任务,并且设定好整个工作流程的计算过程和计算逻辑。用户画像标签的存储则是在调度任务执行后存储用户画像标签,同时将用户画像标签童虎到不同的系统中便于开展业务应用。
进一步,所述步骤S3包括:
步骤S31,采用Oozie调度器对所创建的用户画像标签构建T+1的工作流任务调度方案。所述工作流任务包括数据同步节点、数据处理节点、标签开发脚本节点、shell脚本和算法jar包,通过有向无环图的形式按照处理逻辑连接。
步骤S32,将所创建的用户画像标签存储在Hive数据库中,并将所创建的用户画像标签整合形成标签集存储在Hive数据库中。
步骤S33,将所述标签集同步至HBase数据库中,并同步至ElasticSearch检索引擎中创建用户画像标签索引。后续对用户画像标签的查询即可基于ElasticSearch检索引擎创建的用户画像标签索引。
实施例二
本实施例提供了一种用户画像标签构建系统,图6为本申请实施例提供的一种用户画像标签构建系统的结构示意图,如图6所示,所述系统包括:
第一构建模块510,用于基于各业务系统的原始数据构建数据资源池;
第二构建模块520,用于基于所述数据资源池中的数据构建用户画像标签;
第三构建模块520,用于基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引。
以上本发明实施例公开的用户画像标签构建系统中的第一构建模块510、第二构建模块520和第三构建模块520的具体工作过程,可参见本发明上述实施例公开的用户画像标签构建方法中的对应内容,这里不再进行赘述。
实施例三
本实施例提供了一种基于上述用户画像标签构建方法实施例所构建的用户画像标签的应用方法,图7为本申请实施例提供的一种用户画像标签的应用方法的流程图,所述方法包括
步骤S1,获取用户设定特征分类对应的特征数据;
步骤S2,基于用户的设定特征分类对应的特征数据,采用全生命周期的用户画像标签生成标准,生成关于用户全生命周期的用户画像标签,所述关于用户全生命周期的用户画像标签包括新用户、留存用户、活跃用户、沉默用户和流失用户中的一个;
步骤S3,根据关于用户全生命周期的用户画像标签确定对应的实施策略,所述实时策略包括稳固策略、回馈策略、促销策略、激活策略和召回策略。
示例的,表一为用户的全生命周期画像的生成标准示例,如表一所示。
表1用户画像的生成标准示例
所述全生命周期的用户画像标签生成标准为:
若注册日期小于1个月则用户全生命周期的用户画像标签为新用户;
若注册日期大于或等于1个月,且最近一次消费日期小于一个平均消费周期,平均消费周期小于2周,且平均消费金额大于200元,则用户全生命周期的用户画像标签为活跃用户;
若注册日期大于或等于1个月,且最近一次消费日期小于一个平均消费周期,且平均消费周期小于2周,平均消费金额小于或等于200元,或者平均消费周期为2-3周,则用户全生命周期的用户画像标签为留存用户;
若注册日期大于或等于1个月,且最近一次消费日期小于一个平均消费周期,平均消费周期大于3周;或者最近一次消费日期在1到3个平均消费周期内,则用户全生命周期的用户画像标签为沉默用户;
若注册日期大于或等于1个月,且最近一次消费日期大于3个平均消费周期,则用户全生命周期的用户画像标签为流失用户。
图8为本申请实施例提供的用户全生命周期的用户画像标签和实施策略的对照图,如图8所示,对于新用户采用稳固策略;对于留存用户采用回馈策略;对于活跃用户采用促销策略;对于沉默用户采用激活策略;对于流失用户采用召回策略。
根据分析确定出的用户全生命周期的用户画像标签,针对性地对该用户可采取的稳固、回馈、促销、激活和召回的实施策略,从而增强用户的粘性和忠诚度。
在一些实施例中,所述方法还包括:根据加油卡的加油频次、高频次加油的持续天数和高频次加油的站点确定是否存在加油卡套现行为;若确定出现加油卡套现行为,则筛选出存在加油卡套现行为的加油卡。通过该方法可以精准定位加油卡套现行为,还可以将存在加油卡套现行为的加油卡筛选出来上报相关部门进行排查,减少加油卡套现带来的风险。
在一些实施例中,所述方法还包括:在加油站停业时,根据对偏好到该加油站加油的用户的用户画像标签,以及在该加油站的加油量占比,确定是否需要向用户推送加油站停业消息和/或附近加油站的信息。可以提升用户体验,同时减少用户流失的风险。
在一些实施例中,所述方法还包括:基于所需的业务逻辑对用户画像标签进行筛选,确定出需要开展个性化营销的目标客群。
在一些实施例中,所述方法还包括:基于用户的用户画像标签,向用户推送业务服务信息。
在一些实施例中,所述方法还包括:管理用户画像标签的分类、用户画像标签间的关联关系、用户画像标签的构建规则和用户画像标签的含义。
在一些实施例中,所述方法还包括:对用户画像标签进行可视化展示,并且分析用户画像标签的构成配比和同一用户画像标签在不同标签维度下的用户分布情况;从而可以便于快速了解用户画像标签的数据分布情况,以及可以为用户分析报告提供用户分析基础数据源。
在一些实施例中,所述方法还包括:基于用户的唯一的用户标识符抓取对应的用户画像标签,构建用户的个人画像。从而根据用户的个人画像可以全方位的了解单个用户的偏好和习惯。
在一些实施例中,所述方法还包括:基于用户画像标签对用户群体进行筛选,得到目标用户群体;根据所述目标用户群体的标签维度,可视化展示所述目标用户群体的数据分布情况。通过对用户画像标签进行多样化组合,加入筛选和逻辑判断,可以对用户群体进行细分,从而得到可以开展精准营销和个性化推荐的目标用户群体。标签筛选的设定时,可以先选定要筛选的范围,如全部用户、油卡用户、电商会员等,这样既可以定位用户群体的所属范围,然后可以从人群特征、加油标签和电商标签三个模块选定要选择的标题,这三个模块分别代表一种业务系统的大类标签范围,在该范围内具有二级、三级标签可以筛选,同时在多个标签间增加了逻辑判断规则并与或,这样可以增加标签筛选的灵活性。当多个标签组合后,则可以保存为一个特定的业务群体,进行命名和描述,从而该群体的数据可以通过API接口与营销系统结合开展业务营销。在进行客户的精准营销过程中,业务人员可以基于该系统得到基于业务的客户群体,从而开展精准的、个性化的营销服务。
另外针对已经分群得到的目标用户群体,可以从标签维度进行可视化展示该目标用户群体的数据分布情况,如群体中高、中、低频加油用户的分布比例等。该功能可以在开展营销之前先对用户群体进行分析,了解目标用户群体的特征,从而提供目标用户群体所需的最佳服务。同时,群体画像中提供该目标用户群体的标签明细下载,可以线下对该目标用户群体进行分析,支持自定义目标用户群体分析,也可作为用户分析报告中的一种数据源。
实施例四
本实施例提供了一种基于上述用户画像标签构建方法实施例所构建的用户画像标签的应用系统800,图9为本申请实施例一种用户画像标签的应用系统800的结构示意图,如图9所示,所述系统800包括:
用户群体分析模块910,用于制定用户的全生命周期画像和各生命状态对应的实施策略,所述用户的全生命周期画像中的生命状态包括新用户、留存用户、活跃用户、沉默用户和流失用户;所述实施策略包括稳固策略、回馈策略、促销策略、激活策略和召回策略。
用户流失预警模块920,用于对用户行为类的用户画像标签进行分析确定用户的生命状态,并根据用户的生命状态确定出对应的实施策略。
加油卡套现分析模块930,用于对加油卡的加油频次、高频次加油的持续天数和高频次加油的站点进行分析确定是否存在加油卡套现行为;若确定出现加油卡套现行为,则筛选出存在加油卡套现行为的加油卡。
加油站停业分流模块940,用于在加油站停业时,通过对偏好到该加油站加油的用户的用户画像标签,以及在该加油站的加油量占比进行分析,确定是否需要向用户推送加油站停业消息和/或附近加油站的信息。
个性化精准营销模块950,用于基于所需的业务逻辑对用户画像标签进行筛选,确定出需要开展个性化营销的目标客群;
业务推送模块960,用于基于用户的用户画像标签,向用户推送业务服务信息。
在一些实施例中,所述系统800还包括:标签管理模块970,用于管理用户画像标签的分类、用户画像标签间的关联关系、用户画像标签的构建规则和用户画像标签的含义。
标签属性分析模块980,用于对用户画像标签进行可视化展示;还用于分析用户画像标签的构成配比;还用于分析同一用户画像标签在不同标签维度下的用户分布情况。
用户个人画像模块990,用于根据不同业务系统间唯一的用户标识确定单个用户的个人画像。
在一些实施例中,所述系统800还包括:用户群体分析模块810,用于对用户群体的行为习惯和偏好进行分析,得到分析报告,所述分析报告包括用户群体的潜在价值和用户画像标签。
用户分群模块820,用于基于用户画像标签对用户群体进行筛选,得到目标用户群体。
群体画像分析模块830,用于根据所述目标用户群体的标签维度,可视化展示所述目标用户群体的数据分布情况。
在一些实施例中,所述系统800还包括:查询接口模块840,用于向需要用户画像标签的业务系统提供标签查询接口。
以上本发明实施例公开的用户画像标签的应用系统800中的各功能模块的具体工作过程,可参见本发明上述实施例公开的用户画像标签的应用方法中的对应内容,这里不再进行赘述。
实施例五
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时可以实现如前述方法实施例中的方法步骤,本实施例在此不再重复赘述。
其中,计算机可读存储介质还可单独包括计算机程序、数据文件、数据结构等,或者包括其组合。计算机可读存储介质或计算机程序可被计算机软件领域的技术人员具体设计和理解,或计算机可读存储介质对计算机软件领域的技术人员而言可以是公知和可用的。计算机可读存储介质的示例包括:磁性介质,例如硬盘、软盘和磁带;光学介质,例如,CDROM盘和DVD;磁光介质,例如,光盘;和硬件装置,具体被配置以存储和执行计算机程序,例如,只读存储器(ROM)、随机存取存储器(RAM)、闪存;或服务器、app应用商城等。计算机程序的示例包括机器代码(例如,由编译器产生的代码)和包含高级代码的文件,可由计算机通过使用解释器来执行高级代码。所描述的硬件装置可被配置为用作一个或多个软件模块,以执行以上描述的操作和方法,反之亦然。另外,计算机可读存储介质可分布在联网的计算机系统中,可以分散的方式存储和执行程序代码或计算机程序。
实施例六
本申请实施例提供一种电子设备,图10为本申请实施例提供的一种电子设备的连接框图,如图10所示,该电子设备900可以包括:一个或多个处理器901,存储器902,多媒体组件903,输入/输出(简称I/O)接口904,以及通信组件905。
其中,一个或多个处理器901用于执行如前述方法实施例中的全部或部分步骤。存储器902用于存储各种类型的数据,这些数据例如可以包括电子设备中的任何应用程序或方法的指令,以及应用程序相关的数据。
一个或多个处理器901可以是专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(ProgrammableLogic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行如前述方法实施例中的方法。
存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
多媒体组件903可以包括屏幕和音频组件,该屏幕可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器,用于输出音频信号。
I/O接口904为一个或多个处理器901和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。
通信组件905用于该电子设备900与其他设备之间进行有线或无线通信。有线通信包括通过网口、串口等进行通信;无线通信包括:Wi-Fi、蓝牙、近场通信(Near FieldCommunication,简称NFC)、2G、3G、4G、5G,或它们中的一种或几种的组合。因此相应的该通信组件905可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
另外应该理解到,在本申请所提供的实施例中所揭露的方法或系统,也可以通过其它的方式实现。以上所描述的方法或系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法和装置的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、计算机程序段或计算机程序的一部分,模块、计算机程序段或计算机程序的一部分包含一个或多个用于实现规定的逻辑功能的计算机程序。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生,实际上也可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机程序的组合来实现。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、装置或者设备中还存在另外的相同要素;如果有描述到“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系;在本申请的描述中,除非另有说明,术语“多个”、“多”的含义是指至少两个;如果有描述到服务器,需要说明的是,服务器可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是能够提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器;在本申请中如果有描述到智能终端或移动设备,需要说明的是,智能终端或移动设备可以是手机、平板电脑、智能手表、上网本、可穿戴电子设备、个人数字助理(Personal Digital Assistant,PDA)、增强现实技术设备(Augmented Reality,AR)、虚拟现实设备(Virtual Reality,VR)、智能电视、智能音响、个人计算机(Personal Computer,PC)等,但并不局限于此,本申请对智能终端或移动设备的具体形式不做特殊限定。
最后需要说明的是,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“一个示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式进行结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例都是示例性的,所述的内容只是为了便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属技术领域内的技术人员,在不脱离本申请所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本申请的保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (22)
1.一种用户画像标签构建方法,其特征在于,所述方法包括:
基于各业务系统的原始数据构建数据资源池;
基于所述数据资源池中的数据构建用户画像标签;
基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引。
2.根据权利要求1所述的方法,其特征在于,所述基于各业务系统的原始数据构建数据资源池,包括:
采集各业务系统的原始数据;
采用与业务系统对应的数据同步方式和数据存储方式,将各业务系统的原始数据同步并存储至大数据平台的数据库中,形成所述数据资源池;
对所述数据资源池中的原始数据进行预处理,使数据资源池中的数据的质量统一。
3.根据权利要求2所述的方法,其特征在于,所述对所述数据资源池中的原始数据进行预处理,包括:对所述数据资源池中的原始数据进行数据清洗处理、数据集成处理、数据规约处理和数据变换处理中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述基于所述数据资源池中的数据构建用户画像标签,包括:
采用预构建的数据指标体系,对所述数据资源池中的数据进行标签维度分类,所述数据指标体系包括多个标签维度;
采用预设的标签构建方法对标签维度分类后的数据进行分析并创建对应的用户画像标签。
5.根据权利要求4所述的方法,其特征在于,所述对所述数据资源池中的数据进行标签维度分类,包括:
针对所述数据指标体系中的每个标签维度,利用K-means聚类算法,或Elkan K-means距离优化算法,或Mini Batch K-means大样本优化算法对所述数据资源池中的数据进行聚类分析,确定出各数据对应的标签维度。
6.根据权利要求4所述的方法,其特征在于,所述数据指标体系采用三级分类结构。
7.根据权利要求4所述的方法,其特征在于,所述基于所述数据资源池中的数据构建用户画像标签,还包括:对不同业务系统的用户构建唯一的用户标识。
8.根据权利要求4所述的方法,其特征在于,所述标签构建方法包括事实类标签、统计类标签、规则类标签和模型类标签中的至少一种。
9.根据权利要求1所述的方法,其特征在于,所述基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引,包括:
采用Oozie调度器对所创建的用户画像标签构建工作流任务调度方案;
将所创建的用户画像标签存储在Hive数据库中,并将所创建的用户画像标签整合形成标签集存储在Hive数据库中;
将所述标签集同步至HBase数据库中,并同步至ElasticSearch检索引擎中创建用户画像标签索引。
10.一种用户画像标签构建系统,其特征在于,所述系统包括:
第一构建模块,用于基于各业务系统的原始数据构建数据资源池;
第二构建模块,用于基于所述数据资源池中的数据构建用户画像标签;
第三构建模块,用于基于构建的用户画像标签构建用户画像标签的工作流任务调度方案和用户画像标签索引。
11.一种基于权利要求1至9中任一项所述的用户画像标签构建方法所构建的用户画像标签的应用方法,其特征在于,所述方法包括:
获取用户设定特征分类对应的特征数据;
基于用户的设定特征分类对应的特征数据,采用全生命周期的用户画像标签生成标准,生成关于用户全生命周期的用户画像标签,所述关于用户全生命周期的用户画像标签包括新用户、留存用户、活跃用户、沉默用户和流失用户中的一个;
根据关于用户全生命周期的用户画像标签确定对应的实施策略,所述实施策略包括稳固策略、回馈策略、促销策略、激活策略和召回策略。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
根据加油卡的加油频次、高频次加油的持续天数和高频次加油的站点确定是否存在加油卡套现行为;若确定出现加油卡套现行为,则筛选出存在加油卡套现行为的加油卡。
13.根据权利要求11所述的方法,其特征在于,所述方法还包括:
在加油站停业时,根据对偏好到该加油站加油的用户的用户画像标签,以及在该加油站的加油量占比,确定是否需要向用户推送加油站停业消息和/或附近加油站的信息。
14.根据权利要求11所述的方法,其特征在于,所述方法还包括:基于所需的业务逻辑对用户画像标签进行筛选,确定出需要开展个性化营销的目标客群。
15.根据权利要求11所述的方法,其特征在于,所述方法包括:基于用户的用户画像标签,向用户推送业务服务信息。
16.根据权利要求11所述的方法,其特征在于,所述方法还包括:管理用户画像标签的分类、用户画像标签间的关联关系、用户画像标签的构建规则和用户画像标签的含义。
17.根据权利要求11所述的方法,其特征在于,所述方法还包括:对用户画像标签进行可视化展示,并且分析用户画像标签的构成配比和同一用户画像标签在不同标签维度下的用户分布情况。
18.根据权利要求11所述的方法,其特征在于,所述方法还包括:基于用户的唯一的用户标识符抓取对应的用户画像标签,构建用户的个人画像。
19.根据权利要求11所述的方法,其特征在于,所述方法还包括:基于用户画像标签对用户群体进行筛选,得到目标用户群体;
根据所述目标用户群体的标签维度,可视化展示所述目标用户群体的数据分布情况。
20.一种基于权利要求1至9中任一项所述的用户画像标签构建方法所构建的用户画像标签的应用系统,其特征在于,包括:
用户群体分析模块,用于制定用户的全生命周期画像和各生命状态对应的实施策略,所述用户的全生命周期画像中的生命状态包括新用户、留存用户、活跃用户、沉默用户和流失用户;所述实施策略包括稳固策略、回馈策略、促销策略、激活策略和召回策略;
用户流失预警模块,用于对用户行为类的用户画像标签进行分析确定用户的生命状态,并根据用户的生命状态确定出对应的实施策略;
加油卡套现分析模块,用于对加油卡的加油频次、高频次加油的持续天数和高频次加油的站点进行分析确定是否存在加油卡套现行为;若确定出现加油卡套现行为,则筛选出存在加油卡套现行为的加油卡;
加油站停业分流模块,用于在加油站停业时,通过对偏好到该加油站加油的用户的用户画像标签,以及在该加油站的加油量占比进行分析,确定是否需要向用户推送加油站停业消息和附近加油站的信息;
个性化精准营销模块,用于基于所需的业务逻辑对用户画像标签进行筛选,确定出需要开展个性化营销的目标客群;
业务推送模块,用于基于用户的用户画像标签,向用户推送业务服务信息。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储的计算机程序,当被一个或多个处理器执行时,实现如权利要求1~9或11~19中任一项所述的方法。
22.一种电子设备,其特征在于,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述存储器和所述一个或多个处理器之间互相通信连接,当所述计算机程序被所述一个或多个处理器执行时,执行如权利要求1~9或11~19任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310177516.2A CN116431932A (zh) | 2023-02-17 | 2023-02-17 | 一种用户画像标签构建方法、系统以及应用方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310177516.2A CN116431932A (zh) | 2023-02-17 | 2023-02-17 | 一种用户画像标签构建方法、系统以及应用方法、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116431932A true CN116431932A (zh) | 2023-07-14 |
Family
ID=87091487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310177516.2A Pending CN116431932A (zh) | 2023-02-17 | 2023-02-17 | 一种用户画像标签构建方法、系统以及应用方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116431932A (zh) |
-
2023
- 2023-02-17 CN CN202310177516.2A patent/CN116431932A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767255B (zh) | 一种通过大数据建模实现智能运营及精准营销的方法 | |
US20140101134A1 (en) | System and method for iterative analysis of information content | |
US9069880B2 (en) | Prediction and isolation of patterns across datasets | |
CN111159341B (zh) | 基于用户投资理财偏好的资讯推荐方法及装置 | |
CN114429364A (zh) | 业务数据管理方法和装置、存储介质及电子设备 | |
Li et al. | Customer segmentation using K-means clustering and the hybrid particle swarm optimization algorithm | |
CN113609374A (zh) | 基于内容推送的数据处理方法、装置、设备及存储介质 | |
Alexandru et al. | Big data: concepts, technologies and applications in the public sector | |
CN115422169B (zh) | 基于商业广告场景的数据仓库构建方法及装置 | |
CN112989169A (zh) | 目标对象识别方法、信息推荐方法、装置、设备及介质 | |
Cong | Personalized recommendation of film and television culture based on an intelligent classification algorithm | |
Okewu et al. | Design of a learning analytics system for academic advising in Nigerian universities | |
CN111126852A (zh) | 一种基于大数据建模的bi应用系统 | |
CN114637903A (zh) | 一种针对定向目标数据拓展的舆情数据采集系统 | |
Peng et al. | Research trends in social media/big data with the emphasis on data collection and data management: A bibliometric analysis | |
Srinivasa et al. | Network Data Analytics | |
CN110990706B (zh) | 语料推荐方法及装置 | |
Palaiokrassas et al. | An IoT architecture for personalized recommendations over big data oriented applications | |
Edosio | Big data paradigm-analysis, application, and challenges | |
CN116431932A (zh) | 一种用户画像标签构建方法、系统以及应用方法、系统 | |
Bhardwaj et al. | Systematic review of big data analytics in governance | |
CN113111244A (zh) | 基于中医药知识规模化普及的多源异构大数据融合系统 | |
Guru | Influence of big data analytics on business intelligence | |
Setiawan et al. | The use of big data technology to support the transformation of public content management towards knowledge management | |
Becha et al. | Applications of big data in tourism: a survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |