CN107526754A - 一种基于大数据的用户画像平台建立方法 - Google Patents

一种基于大数据的用户画像平台建立方法 Download PDF

Info

Publication number
CN107526754A
CN107526754A CN201610849925.2A CN201610849925A CN107526754A CN 107526754 A CN107526754 A CN 107526754A CN 201610849925 A CN201610849925 A CN 201610849925A CN 107526754 A CN107526754 A CN 107526754A
Authority
CN
China
Prior art keywords
data
user
platform
portrait
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610849925.2A
Other languages
English (en)
Inventor
陈鹏
李为
方桂芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Speed Mdt Infotech Ltd
Original Assignee
Guangzhou Speed Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Speed Mdt Infotech Ltd filed Critical Guangzhou Speed Mdt Infotech Ltd
Priority to CN201610849925.2A priority Critical patent/CN107526754A/zh
Publication of CN107526754A publication Critical patent/CN107526754A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于大数据的用户画像平台建立方法,结合企业用户日常数据,网络抓取数据,开发商数据,第三方数据等,通过数据分析去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,就形成了一个画像原型。

Description

一种基于大数据的用户画像平台建立方法
技术领域
本发明涉及一种基于大数据的用户画像平台建立方法,通过搭建一个用户画像平台,将本身拥有大量用户数据的数据平台和可视化数据工具平台连接起来,根据不同的用户交互场景,应用挖掘数据平台的价值,让研发生产,用户研究,市场营销等人员能够根据需要,随时自主地分析不同产品用户特征,快速洞察用户需求。该平台需要回答的核心问题是:用户是谁, 用户需求是什么,用户在哪里。
背景技术
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。
用户画像就是在解决把数据转化为商业价值的问题,就是从海量数据中来挖金炼银。这些以TB计的高质量多维数据记录着用户长期大量的网络行为,用户画像据此来还原用户的属性特征、社会背景、兴趣喜好,甚至还能揭示内心需求、性格特点、社交人群等潜在属性。了解了用户各种消费行为和需求,精准刻画人群特征,并针对特定业务场景进行用户特征不同维度的聚合,就可以把原本冷冰冰的数据复原成栩栩如生的用户形象,从而指导和驱动业务场景和运营,发现和把握蕴藏在细分海量用户中的巨大商机。
用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了。
发明内容
本发明提供一种基于大数据的用户画像平台建立方法,通过结合广州速鸿科技科技有限公司的数据库数据、企业用户日常数据、互联网数据、第三方数据及其他数据,结合实际需求,找出相关的数据实体,以数据实体为中心规约数据维度类型和关联关系,形成符合客户实际情况的用户画像体系。
为了实现上述目的,本发明采用的技术方案如下。
基于大数据的用户画像平台建立方法,包括以下步骤。
(1)数据源系统,解决数据从哪里来。数据源包括开发商数据、企业用户日常数据、互联网数据、第三方数据及其他数据,然后通过广东速鸿科技科技有限公司的自主研发爬虫数据抓取平台抓取数据,经过ETL工具进行清洗数据。
(2)数据存储系统,用来存储数据。数据存储系统包括SPARK数据库、ORACLE数据库、Hadoop数据库、MYSQL数据库及SQL SERVER数据库。
(3)算法平台。算法平台的算法引擎包括R算法引擎、Python算法引擎、JAVA算法引擎。
(4)可视化展示。可以通过PC端和移动端展示,并应用于个性化、精准营销、事件预警、决策支持等方面。
与现有技术相比,本发明具有以下有益效果。
(1)改变以往闭门造车的生产模式,通过事先调研用户需求,设计制造更适合用户的产品,提升用户体验。
(2) 根据产品特点,找到目标用户,在用户偏好的渠道上与其交互,促成购买,实现精准运营和营销。
附图说明
图1为本发明的流程图。
图2为本发明的爬虫引擎示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于大数据的用户画像平台建立方法,如图1所示,所构建系统的体系结构从下往上包括如下几个层级:数据源系统、数据存储系统、算法平台、可视化展示。
1、一种基于大数据的用户画像平台建立方法,其中所述数据源系统包括如下几种数据:开发商数据、企业用户日常数据、互联网数据、第三方数据、其他数据,开发商数据来自广东速鸿科技科技有限公司已有数据库,企业用户日常数据是企业自身产生的数据,如OA系统、CRM系统、客户交易数据等,互联网数据来自用户线上数据,通过广东速鸿科技科技有限公司的爬虫引擎来进行爬取,如图2所示,第三方数据是竞争对手、数据提供商等的数据;通过广东速鸿科技科技有限公司的自主研发爬虫数据抓取平台抓取数据,经过ETL工具进行清洗数据,广州速鸿科技科技有限公司的ETL清洗工具包括kettle、datastage、informatica三种工具。
2、一种基于大数据的用户画像平台建立方法,其中所述数据存储系统包括SPARK数据库、ORACLE数据库、Hadoop数据库、MYSQL数据库及SQL SERVER数据库,其中ORACLE数据库、MYSQL数据库及SQL SERVER数据库用来存储结构化的数据,SPARK和Hadoop可以用来存储结构化及非结构化的数据,Hadoop中的HDFS是Hadoop分布式文件系统(DistributedFile System),大文件被分成默认64M一块的数据块分布存储在集群机器中,HBase:类似Google BigTable的分布式NoSQL列数据库,是一个适合于非结构化数据存储的数据库,Hive是数据仓库工具,是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
3、一种基于大数据的用户画像平台建立方法,其中所述算法平台包括R算法引擎、Python算法引擎、JAVA算法引擎,算法平台中用到的算法包括重定向(Retargeting)、关联规则(Association Rule)、协作推荐CF、矩阵分解MF、图挖掘(Graph Mining)、热度推荐、规则推荐、内容推荐(Content based)、预测模型(Predict model)、混合模型(Hybridmodel)、时序分析(Time series analysis)、仿真(Simulation)、空间分析(Spatialanalysis)、信号处理(Signal processing)、回归分析(Regression)、预测模型(Predictive modeling )、模式识别(Pattern recognize)、最优化(optimization)、分类法(classification)、群集分析(cluster analysis)、众包(crowdsourcing)、数据融合&数据集成(Data fusion and data integration)、集成学习(ensemble learning)、遗传算法(genetic algorithm)、自然语言处理(natural language processing,NLP)、神经网络(neural network)、网络分析(network analysis)、最优化(Optimization)、C4.5算法、CART算法、KNN(K最近邻)算法、Naive Bayes(朴素贝叶斯)算法、.SVM(支持向量机)算法、EM(期望最大化)算法、Apriori算法、FP-Tree(频繁模式树)算法、PageRank(网页重要性/排名)算法、HITS算法、K-Means(K均值)算法、BIRCH算法、AdaBoost算法、GSP算法、PreFixSpan算法、CBA(基于关联规则分类)算法、RoughSets(粗糙集)算法、gSpan算法。
4、一种基于大数据的用户画像平台建立方法,其中所述可视化展示,可以通过PC端和移动端展示,并应用于个性化、精准营销、事件预警、决策支持等方面,比如在研发新产品前,先基于产品期望定位,在用户画像平台中分析该用户群体的偏好,有针对性的设计产品,从而改变原先新产品高失败率的窘境,增强销售表现,或针对已有产品,寻找所偏好的精准人群分类,以及这些人群在信息渠道和购买渠道上的分布比例,来决定广告投放和活动开展的位置、内容等,实现精准营销。
按照上述实施例,便可很好地实现本发明。

Claims (5)

1.一种基于大数据的用户画像平台建立方法,其特征在于:包括以下步骤:
步骤一、数据源系统,解决数据从哪里来
数据源包括开发商数据、企业用户日常数据、互联网数据、第三方数据及其他数据,然后通过广东速鸿科技科技有限公司的自主研发爬虫数据抓取平台抓取数据,经过ETL工具进行清洗数据;
步骤二、数据存储系统,用来存储数据
数据存储系统包括SPARK数据库、ORACLE数据库、Hadoop数据库、MYSQL数据库及SQLSERVER数据库;
步骤三、算法平台
算法平台的算法引擎包括R算法引擎、Python算法引擎、JAVA算法引擎;
步骤四、可视化展示
可以通过PC端和移动端展示,并应用于个性化、精准营销、事件预警、决策支持等方面。
2.如权利要求1所述,用户画像平台可以为企业提供足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
3.如权利要求1所述,用户画像平台改变以往闭门造车的生产模式,通过事先调研用户需求,设计制造更适合用户的产品,提升用户体验。
4.如权利要求1所述,用户画像平台根据产品特点,找到目标用户,在用户偏好的渠道上与其交互,促成购买,实现精准运营和营销。
5.如权利要求1所述,用户画像平台将用户信息标签化,通过收集与分析企业消费者社会属性、生活习惯、消费行为等主要信息的数据之后,能够完美地抽象出一个用户的商业全貌。
CN201610849925.2A 2016-09-26 2016-09-26 一种基于大数据的用户画像平台建立方法 Pending CN107526754A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610849925.2A CN107526754A (zh) 2016-09-26 2016-09-26 一种基于大数据的用户画像平台建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610849925.2A CN107526754A (zh) 2016-09-26 2016-09-26 一种基于大数据的用户画像平台建立方法

Publications (1)

Publication Number Publication Date
CN107526754A true CN107526754A (zh) 2017-12-29

Family

ID=60748459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610849925.2A Pending CN107526754A (zh) 2016-09-26 2016-09-26 一种基于大数据的用户画像平台建立方法

Country Status (1)

Country Link
CN (1) CN107526754A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154401A (zh) * 2018-01-15 2018-06-12 网易无尾熊(杭州)科技有限公司 用户画像刻画方法、装置、介质和计算设备
CN108521439A (zh) * 2018-03-08 2018-09-11 北京三快在线科技有限公司 一种消息推送的方法和装置
CN108647729A (zh) * 2018-05-11 2018-10-12 广东省科技基础条件平台中心 一种用户画像获取方法
CN108694606A (zh) * 2018-05-11 2018-10-23 南京邮电大学 一种基于关联规则的客户画像及服务推送方法
CN108764984A (zh) * 2018-05-17 2018-11-06 国网冀北电力有限公司电力科学研究院 一种基于大数据的电力用户画像构建方法及系统
CN108805383A (zh) * 2018-03-20 2018-11-13 东华大学 一种基于服装洗护大数据的用户画像平台及应用
CN109614509A (zh) * 2018-10-29 2019-04-12 山东中创软件工程股份有限公司 船舶画像构建方法、装置、设备及存储介质
CN110489453A (zh) * 2019-07-02 2019-11-22 广东工业大学 基于大数据日志分析的用户游戏实时推荐方法及系统
CN111723273A (zh) * 2019-03-18 2020-09-29 北京中电翔云信息技术有限公司 一种智慧云检索系统及方法
CN112163088A (zh) * 2020-09-02 2021-01-01 中国人民解放军战略支援部队信息工程大学 基于DenseNet的电信网短信用户信息挖掘方法、系统及设备
CN111861174B (zh) * 2020-07-09 2021-04-13 北京睿知图远科技有限公司 一种针对用户画像的信用评估方法
CN112988774A (zh) * 2021-03-23 2021-06-18 汪威 一种基于大数据采集的用户信息更新方法及信息服务器
CN113094498A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种产品外观设计调研报告的生成方法和系统
CN113222484A (zh) * 2021-07-09 2021-08-06 网娱互动科技(北京)股份有限公司 一种基于大数据分析生成营销任务的方法和系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154401A (zh) * 2018-01-15 2018-06-12 网易无尾熊(杭州)科技有限公司 用户画像刻画方法、装置、介质和计算设备
CN108521439B (zh) * 2018-03-08 2022-01-21 北京三快在线科技有限公司 一种消息推送的方法和装置
CN108521439A (zh) * 2018-03-08 2018-09-11 北京三快在线科技有限公司 一种消息推送的方法和装置
CN108805383A (zh) * 2018-03-20 2018-11-13 东华大学 一种基于服装洗护大数据的用户画像平台及应用
CN108647729A (zh) * 2018-05-11 2018-10-12 广东省科技基础条件平台中心 一种用户画像获取方法
CN108694606A (zh) * 2018-05-11 2018-10-23 南京邮电大学 一种基于关联规则的客户画像及服务推送方法
CN108694606B (zh) * 2018-05-11 2022-07-26 南京邮电大学 一种基于关联规则的客户画像及服务推送方法
CN108647729B (zh) * 2018-05-11 2022-03-04 广东省科技基础条件平台中心 一种用户画像获取方法
CN108764984A (zh) * 2018-05-17 2018-11-06 国网冀北电力有限公司电力科学研究院 一种基于大数据的电力用户画像构建方法及系统
CN109614509A (zh) * 2018-10-29 2019-04-12 山东中创软件工程股份有限公司 船舶画像构建方法、装置、设备及存储介质
CN111723273A (zh) * 2019-03-18 2020-09-29 北京中电翔云信息技术有限公司 一种智慧云检索系统及方法
CN110489453A (zh) * 2019-07-02 2019-11-22 广东工业大学 基于大数据日志分析的用户游戏实时推荐方法及系统
CN111861174B (zh) * 2020-07-09 2021-04-13 北京睿知图远科技有限公司 一种针对用户画像的信用评估方法
CN112163088A (zh) * 2020-09-02 2021-01-01 中国人民解放军战略支援部队信息工程大学 基于DenseNet的电信网短信用户信息挖掘方法、系统及设备
CN112988774A (zh) * 2021-03-23 2021-06-18 汪威 一种基于大数据采集的用户信息更新方法及信息服务器
CN113094498A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种产品外观设计调研报告的生成方法和系统
CN113222484A (zh) * 2021-07-09 2021-08-06 网娱互动科技(北京)股份有限公司 一种基于大数据分析生成营销任务的方法和系统

Similar Documents

Publication Publication Date Title
CN107526754A (zh) 一种基于大数据的用户画像平台建立方法
Cillo et al. Niche tourism destinations’ online reputation management and competitiveness in big data era: Evidence from three Italian cases
Phaneendra et al. Big Data-solutions for RDBMS problems-A survey
Kanavos et al. Deep learning models for forecasting aviation demand time series
CN103823844B (zh) 社区问答服务中基于主客观上下文的问题转发系统和方法
CN110942337A (zh) 一种基于互联网大数据的精准旅游营销方法
US9477973B2 (en) Visually generated consumer product presentation
Kumar Machine learning and cognition in enterprises: business intelligence transformed
Xue et al. Social media user behavior analysis applied to the fashion and apparel industry in the big data era
Lee et al. Fundamentals of big data network analysis for research and industry
US20170004403A1 (en) Systems and methods for predicting personal attributes based on public interaction data
Paidi Data mining: Future trends and applications
Arun et al. Big data: review, classification and analysis survey
Zhong et al. Design of a personalized recommendation system for learning resources based on collaborative filtering
Banica et al. Using big data analytics to improve decision-making in apparel supply chains
Hussein How many old and new big data v’s characteristics, processing technology, and applications (bd1)
Tykheev Big Data in marketing
Nandi et al. Data Science fundamentals and practical approaches: understand why data science is the next
Shorfuzzaman Leveraging cloud based big data analytics in knowledge management for enhanced decision making in organizations
Cao et al. Big data in marketing & retailing
Brandas et al. Data driven decision support systems: an application case in labour market analysis
US20170372336A1 (en) Predicting customer purchase behavior for educational technology products
Kuo et al. Integration of artificial immune system and K-means algorithm for customer clustering
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
Bonesso et al. The organizational challenges of big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171229

WD01 Invention patent application deemed withdrawn after publication