CN111444236A - 一种基于大数据的移动终端用户画像构建方法及系统 - Google Patents

一种基于大数据的移动终端用户画像构建方法及系统 Download PDF

Info

Publication number
CN111444236A
CN111444236A CN202010207233.4A CN202010207233A CN111444236A CN 111444236 A CN111444236 A CN 111444236A CN 202010207233 A CN202010207233 A CN 202010207233A CN 111444236 A CN111444236 A CN 111444236A
Authority
CN
China
Prior art keywords
user
data
label
mobile terminal
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010207233.4A
Other languages
English (en)
Other versions
CN111444236B (zh
Inventor
张星明
何伟成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010207233.4A priority Critical patent/CN111444236B/zh
Publication of CN111444236A publication Critical patent/CN111444236A/zh
Application granted granted Critical
Publication of CN111444236B publication Critical patent/CN111444236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的移动终端用户画像构建方法及系统,包括步骤:1)建立用户画像标签体系;2)梳理需要获取的用户行为信息并形成数据埋点需求,数据埋点在移动终端进行数据采集,将采集到的用户行为信息存储到分布式文件系统;3)解析存储在分布式文件系统的用户行为信息,并将处理后的用户行为信息存储到分布式数据库;4)从分布式数据库中提取用户特征,并存储到特征数据库;5)基于用户画像标签体系,对于每一个标签,在特征数据库中选择与该标签相关的用户特征,通过聚类算法与人工标签规则确定用户所属的标签,并保存到用户画像数据库。本发明解决传统方法过于依赖人工规则、在大数据情景下效率低下等问题,提升用户画像效率和准确率。

Description

一种基于大数据的移动终端用户画像构建方法及系统
技术领域
本发明涉及大数据处理与分析技术领域,尤其是指一种基于大数据的移动终端用户画像构建方法及系统。
背景技术
在手机硬件日益同质化以及硬件“军备竞赛”不赚钱的今天,国内产商正在加紧手机“软实力”的探索步伐,纷纷打造智能生态圈,软硬兼施,希望以此形成自身的竞争优势,摆脱当前的盈利困局。经过多年的发展,各手机产商积累了海量的用户行为数据,数据规模正在向TB乃至PB级别迈进。在大数据时代,海量的数据为手机厂商提供了一个通过数据理解用户的机会,谁更了解自己用户的使用习惯、浏览偏好等,谁就能够更精准地为用户提供更好的服务,改进产品设计,提升用户体验,从而在激烈的竞争中脱颖而出。
用户画像便是这样的一种技术,它通过对现实世界用户进行建模,将用户的兴趣喜好标签化,用一系列标签性的词语描述用户特点,方便理解用户。用户画像的主要工作是给用户打标签,目的是为了便于人们理解并且方便计算机处理。用户画像系统的构建从原始数据采集到最终获得分析结果一般要经过几个主要步骤,包括数据采集、数据预处理、数据存储与管理、数据挖掘等。传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多使用关系型数据库和分段数据仓库即可处置。对依赖并行计算提高数据处理速度方面而言,传统的分段数据库技术要保证高度一致性和容错性,根据CAP理论,难以确保其可用性和扩展性。手机厂商一般可以通过SDK埋点的方式,每天收集手机系统运行信息以及用户行为数据,然后以文件的形式保存到日志文件中,并按一定的策略上载到日志服务器。面对如此大规模并持续增长的非结构化数据,传统的关系型数据库是很难高效处理的,而需要设计一个具有高并发、高可用、可扩展的大数据系统。传统的用户画像构建方法一般采用基于人工规则的方式,这种方法在预测的准确度上很大程度取决于规则制定人员的对业务的理解,模型泛化性差。另外,在大数据的场景下,传统的用户画像构建方法存在效率低、扩展性差等问题,并且用户的兴趣偏好是处于一种动态改变的状态,因此用户的标签也可能改变。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于大数据的移动终端用户画像构建方法及系统,通过分布式数据采集技术将用户行为数据采集到云平台,应用分布式并行计算提取用户特征,利用聚类算法和标签规则相结合的方式将用户分群并确定用户标签,可以提高用户画像的效率和预测结果的可解释性及准确率,解决传统方法过于依赖人工规则、在大数据情景下效率低下等问题,使得用户画像的效率、准确率、可解释性在大数据情景下得到了提升。
为实现上述目的,本发明所提供的技术方案为:一种基于大数据的移动终端用户画像构建方法,包括以下步骤:
1)结合业务需求,自顶向下地建立用户画像标签体系;
2)根据用户画像标签体系,梳理需要获取的用户行为信息并形成数据埋点需求,数据埋点在移动终端进行数据采集,将采集到的用户行为信息存储到分布式文件系统;
3)解析存储在分布式文件系统的用户行为信息,并将处理后的用户行为信息存储到分布式数据库;
4)从分布式数据库中提取用户特征,包括静态特征和动态特征,并将提取的用户特征存储到特征数据库,为用户画像计算提供数据基础;
5)基于用户画像标签体系,对于每一个标签,在特征数据库中选择与该标签相关的用户特征,通过聚类算法与人工标签规则确定用户所属的标签,并保存到用户画像数据库。
在步骤1)中,在所述用户画像标签体系中,从用户的自然属性、行为属性、兴趣属性、心理属性四个方面构建用户全面的用户画像;所述自然属性包括用户性别、年龄、地域、设备品牌型号、手机设置信息;所述行为属性包括用户活跃度、用户使用习惯;所述兴趣属性包括App使用兴趣;所述心理属性包括用户心理健康状态。
在步骤2)中,在所述数据埋点中,以{key:value}键值对的格式保存用户行为数据,其中key代表移动终端的事件,value代表对应的值;移动终端用户行为数据保存到日志文件中,定时上传到日志服务器;通过在日志服务器部署数据采集代理,并行地将日志数据统一采集到分布式文件系统。
在步骤3)中,解析日志文件存储到分布式数据库中,解析过程由抽取、转换和加载模块组成,其中,所述抽取模块负责日志读取,所述转换模块负责日志解析,所述加载模块负责将解析后的日志数据写入分布式数据库。
在步骤4)中,所述静态特征是指不用经过统计计算即可得到的用户特征;所述动态特征是指用户行为特征统计量,通过分布式计算技术统计用户事实数据,得到用户的统计特征。
在步骤5)中,聚类算法和标签规则是用户画像标签计算的两个组成部分,具体包含以下步骤:
5.1)进行数据采样和特征选择,获得样本集合T1;
5.2)对样本集合T1进行特征预处理,包括标准化、归一化、离散化,得到处理后的样本集合T2;
5.3)在样本集合T2上训练K-Means聚类模型,训练得到k个聚类;
5.4)得到k个聚类后,通过分析k个聚类中心的特征,确定每个聚类中心的标签;设定距离阈值a,在每个聚簇中,当样本与聚类中心的距离小于或等于a时,该样本的标签与聚类中心一致,否则通过人工标签规则确定样本的标签;
5.5)保存上述训练得到的聚类模型,为其它样本提供标签预测服务。
本发明也提供了一种基于大数据的移动终端用户画像构建系统,包括:
数据采集模块,负责采集移动终端的埋点数据,通过分布式数据采集技术Flume将日志数据从日志服务器采集到分布式文件系统;
数据预处理模块,将分布式文件系统中的日志数据,经过分布式计算程序MapReduce预处理后保存到分布式数据库;
特征提取模块,将存储在分布式数据库的数据经过数据仓库工具Hive计算得到事实统计特征,并将统计特征保存到特征数据库;
用户画像计算模块,负责用户画像计算,从特征数据库读取用户特征向量,通过分布式计算框架Spark进行特征预处理后执行聚类算法,并根据标签规则确定用户画像标签,最后将用户所有的标签存储到用户画像标签库,通过缓存数据库Redis加快用户画像访问速度。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明通过聚类算法和人工标签规则结合的方式将用户分群并确定用户标签,相比于传统的基于人工规则方法,这种方式提高了预测的效率和预测结果的准确率。
2、本发明在大数据的情景下具有优秀的表现,相比于传统的用户画像方法在面对大数据时效率低下等问题,本发明可以很好地处理大数据的情景,通过离线计算用户特征,为用户画像计算提供在线服务。
附图说明
图1为移动终端用户画像构建的流程图。
图2为用户画像计算引擎示意图。
图3为移动终端用户画像分析平台总体方案示意图。
图4为K-Means算法流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
为了测试本发明的基于大数据的移动终端用户画像构建方法的应用效果,我们将这一技术方案应用到惠州TCL移动通信的大数据项目中。该项目的用户画像构建流程如图1所示,包括以下步骤:
1)结合业务需求,自顶向下地建立用户画像标签体系,在用户画像标签体系中,从用户的自然属性、行为属性、兴趣属性、心理属性四个方面构建用户全面的用户画像;所述自然属性包括用户性别、年龄、地域、设备品牌型号、手机设置信息;所述行为属性包括用户活跃度、用户使用习惯;所述兴趣属性包括App使用兴趣;所述心理属性包括用户心理健康状态。
2)移动终端数据采集
通过ROM埋点、App埋点以{key:value}的格式记录并收集手机系统运行信息以及用户行为数据,系统运行信息包括电量、充电时间、充电次数、系统设置等,用户行为数据包括App使用类别、App使用次数、App使用时间等。移动终端每天产生的日志文件定时上传到日志服务器,通过Flume定时将日志服务器的日志数据采集到云平台。此外,跟移动终端用户相关的应用数据也通过分布式采集系统Flume统一采集到云平台,为用户画像提供数据支撑。
3)数据预处理
通过步骤1)采集的日志数据以及业务数据是没有经过预处理的全景数据,需要经过抽取、转换并加载到分布式数据库。
4)特征提取
经过预处理存储到分布式数据库的用户行为数据,是具有表结构的整个系统的全景数据,包含了每一天收集的用户行为数据。特征提取的工作主要是构造用于表示用户特征的向量,包括静态特征和动态特征。静态特征是指不用经过复杂统计计算即可得到的用户特征,动态特征是指用户行为特征统计量,通过MapReduce、Hive等分布式计算技术统计用户事实数据,形成用户的统计特征。将提取的用户特征保存到特征数据库,为后续的统计分析以及数据分析提供数据基础。
5)用户画像计算
特征数据库保存了每个用户丰富的特征信息。基于用户画像标签体系,对于每一个标签,在特征数据库中选择与该标签相关的用户特征,通过聚类算法与标签规则确定用户所属的标签,并保存到用户画像标签数据库。用户画像标签数据库可以为其他的业务提供数据基础和用户画像服务,比如搜索、个性化推荐、广告营销等。
下面以移动终端用户性别标签识别为例,说明用户画像计算的具体过程。
1)首先是数据采样和用户特征选择。采用随机采样的方法从数据集中抽取80%的数据作为训练集。通过分析我们认为用户性别可能跟用户使用过哪些App有关,也可能跟用户设备类型有关。为此,从用户七天的用户行为数据中使用Hive统计相关指标,形成用户特征数据库如表1所示。
表1
Figure BDA0002421549440000071
2)特征预处理。但是这样的统计特征不能直接作为机器学习模型的输入,因为各个特征维度的单位不一致,需要对数值型特征处理如标准化、归一化、离散化,或者将特征映射到离散变量。而类别型特征比如设备类型则转换成二进制编码。用户原始特征经过预处理后得到如表2所示的特征向量。
表2
Figure BDA0002421549440000072
3)经过特征预处理后,执行K-Means聚类算法。图4为K-Means聚类算法的流程图,算法初始选择k个样本作为聚类中心,然后计算其余样本与当前k个聚类中心的距离并划分到距离最近的聚类中,重新计算k个聚类的中心,重复以上步骤直到聚类中心没有改变。
4)得到k个聚类后,通过分析k个聚类中心的特征,确定每个聚类中心的标签;设定距离阈值a,在每个聚簇中,当样本与聚类中心的距离小于或等于a时,该样本的标签与聚类中心一致,否则通过人工标签规则确定样本的标签,比如按照App的类别和使用频率确定用户性别。
5)保存上述训练得到的聚类模型,为其它样本提供标签预测服务。
用户画像计算引擎如图2所示,主要由事实层计算和业务层计算组成。用户的个人信息数据、日志数据、业务数据等经过数据采集以及预处理加载到HBASE后,通过Hive、MapReduce作业统计用户近期的行为,形成事实统计层,包括用户的人口属性、行为属性、兴趣属性等。其中人口属性包括自然属性如性别、年龄等以及区域属性如常驻地区等,行为属性包括用户活跃度、用户习惯等,兴趣属性用于描述用户兴趣喜好。事实层负责统计全面的用户信息,可以通过该层得到部分用户画像标签,而复杂的用户画像标签比如活跃度、兴趣喜好等,则需要通过标签规则、机器学习的计算,该层称为业务层计算。
该项目的总体方案如图3所示,其中,Flume是一种高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Kafka是一种高吞吐量的分布式发布订阅消息系统,HDFS是一种分布式文件系统,HBASE是一种分布式数据库系统,ZooKeeper是一种分布式的开源分布式应用程序协调服务,Spark和MapReduce是一种分布式计算框架,Hive是一种数据仓库,Redis是一种缓存数据库。项目从功能上可以分成以下模块:数据采集模块、数据预处理模块、特征提取模块和用户画像计算模块。数据采集模块主要负责采集移动终端相关的用户行为数据并存储到HDFS,其中用户行为数据包括ROM埋点、App埋点、业务系统、云备份系统和爬虫数据,这些数据通过分布式数据采集技术统一收集,由Flume和Kafka两个组件组成,一个Flume进程由多个读写线程和一个数据缓冲区组成,线程以事务的方式读写缓冲区,保证数据的完整性,同时,多个线程并发执行,并且数据采集配置分布式集群的运行方式,能有效应对高并发问题,提高数据采集效率。数据预处理模块负责将存储在HDFS的日志数据经过MapReduce程序预处理后存储到HBASE,其中HDFS负责存储用户画像分析平台的全景数据,包含了所有用户每天的行为数据。大数据平台建设的意义在于数据分析,因此为了便于数据挖掘和分析,所以存储在HDFS的数据都要经过数据预处理后,统一存储到HBASE。比如ROM埋点的数据主要是以日志文件的格式保存,用户行为以{“key”:“value”}的格式进行记录,那么就需要通过MapReduce做Json解析然后存储到HBASE。特征提取模块主要负责用户特征计算,用户特征包括用户的静态特征和动态特征,静态特征是指不用经过复杂的统计运算即可得到的用户特征,比如手机型号、颜色、字体大小、手机铃声、壁纸等,而动态特征一般值用户的行为统计量,比如用户每天打开某个App的次数、某个App的停留时长等。用户特征每隔一个周期就做定时更新,主要通过Hive编写HQL得到统计特征,复杂的特征则需要编写MapReduce作业执行具体运算得到。用户画像计算模块负责用户画像生成,用户画像计算具体需要根据业务确定,简单的用户画像标签可以在统计特征的基础上,通过产品经理制定人工规则确定具体指标,从而给用户打上相应标签。而复杂用户画像标签则可以通过机器学习技术,比如用户性别识别问题,在缺失用户标签的情景下通过特征选择和聚类算法将用户分群,然后根据聚簇中心的特征和人工标签规则确定用户标签。这种方法具有高效性,能应对大数据,同时也具有可解释性。得到用户的标签信息后,我们统一将用户标签信息存储到用户标签数据库,方便为更多业务提供用户画像服务。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (7)

1.一种基于大数据的移动终端用户画像构建方法,其特征在于,包括以下步骤:
1)结合业务需求,自顶向下地建立用户画像标签体系;
2)根据用户画像标签体系,梳理需要获取的用户行为信息并形成数据埋点需求,数据埋点在移动终端进行数据采集,将采集到的用户行为信息存储到分布式文件系统;
3)解析存储在分布式文件系统的用户行为信息,并将处理后的用户行为信息存储到分布式数据库;
4)从分布式数据库中提取用户特征,包括静态特征和动态特征,并将提取的用户特征存储到特征数据库,为用户画像计算提供数据基础;
5)基于用户画像标签体系,对于每一个标签,在特征数据库中选择与该标签相关的用户特征,通过聚类算法与人工标签规则确定用户所属的标签,并保存到用户画像数据库。
2.根据权利要求1所述的一种基于大数据的移动终端用户画像构建方法,其特征在于:在步骤1)中,在所述用户画像标签体系中,从用户的自然属性、行为属性、兴趣属性、心理属性四个方面构建用户全面的用户画像;所述自然属性包括用户性别、年龄、地域、设备品牌型号、手机设置信息;所述行为属性包括用户活跃度、用户使用习惯;所述兴趣属性包括App使用兴趣;所述心理属性包括用户心理健康状态。
3.根据权利要求1所述的一种基于大数据的移动终端用户画像构建方法,其特征在于:在步骤2)中,在所述数据埋点中,以{key:value}键值对的格式保存用户行为数据,其中key代表移动终端的事件,value代表对应的值;移动终端用户行为数据保存到日志文件中,定时上传到日志服务器;通过在日志服务器部署数据采集代理,并行地将日志数据统一采集到分布式文件系统。
4.根据权利要求1所述的一种基于大数据的移动终端用户画像构建方法,其特征在于:在步骤3)中,解析日志文件存储到分布式数据库中,解析过程由抽取、转换和加载模块组成,其中,所述抽取模块负责日志读取,所述转换模块负责日志解析,所述加载模块负责将解析后的日志数据写入分布式数据库。
5.根据权利要求1所述的一种基于大数据的移动终端用户画像构建方法,其特征在于:在步骤4)中,所述静态特征是指不用经过统计计算即可得到的用户特征;所述动态特征是指用户行为特征统计量,通过分布式计算技术统计用户事实数据,得到用户的统计特征。
6.根据权利要求1所述的一种基于大数据的移动终端用户画像构建方法,其特征在于:在步骤5)中,聚类算法和人工标签规则是用户画像标签计算的两个组成部分,具体包含以下步骤:
5.1)进行数据采样和特征选择,获得样本集合T1;
5.2)对样本集合T1进行特征预处理,包括标准化、归一化、离散化,得到处理后的样本集合T2;
5.3)在样本集合T2上训练K-Means聚类模型,训练得到k个聚类;
5.4)得到k个聚类后,通过分析k个聚类中心的特征,确定每个聚类中心的标签;设定距离阈值a,在每个聚簇中,当样本与聚类中心的距离小于或等于a时,该样本的标签与聚类中心一致,否则通过人工制定规则来确定样本的标签;
5.5)保存上述训练得到的聚类模型,为其它样本提供标签预测服务。
7.一种基于大数据的移动终端用户画像构建系统,其特征在于,包括:
数据采集模块,负责采集移动终端的埋点数据,通过分布式数据采集技术Flume将日志数据从日志服务器采集到分布式文件系统;
数据预处理模块,将分布式文件系统中的日志数据,经过分布式计算程序MapReduce预处理后保存到分布式数据库;
特征提取模块,将存储在分布式数据库的数据经过数据仓库工具Hive计算得到事实统计特征,并将统计特征保存到特征数据库;
用户画像计算模块,负责用户画像计算,从特征数据库读取用户特征向量,通过分布式计算框架Spark进行特征预处理后执行聚类算法,并根据标签规则确定用户画像标签,最后将用户所有的标签存储到用户画像标签库,通过缓存数据库Redis加快用户画像访问速度。
CN202010207233.4A 2020-03-23 2020-03-23 一种基于大数据的移动终端用户画像构建方法及系统 Active CN111444236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010207233.4A CN111444236B (zh) 2020-03-23 2020-03-23 一种基于大数据的移动终端用户画像构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010207233.4A CN111444236B (zh) 2020-03-23 2020-03-23 一种基于大数据的移动终端用户画像构建方法及系统

Publications (2)

Publication Number Publication Date
CN111444236A true CN111444236A (zh) 2020-07-24
CN111444236B CN111444236B (zh) 2023-04-28

Family

ID=71629415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010207233.4A Active CN111444236B (zh) 2020-03-23 2020-03-23 一种基于大数据的移动终端用户画像构建方法及系统

Country Status (1)

Country Link
CN (1) CN111444236B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111953695A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 终端行为画像的构建方法及装置
CN112131475A (zh) * 2020-09-25 2020-12-25 重庆邮电大学 一种可解释、可交互的用户画像方法及装置
CN112417251A (zh) * 2020-11-30 2021-02-26 华能大理风力发电有限公司 一种基于风电竞价的交易信息检索方法及装置
CN112559899A (zh) * 2021-02-25 2021-03-26 北京睿企信息科技有限公司 一种用户画像生成方法
CN112702264A (zh) * 2020-11-27 2021-04-23 四川新网银行股份有限公司 一种分布式网络特征计算方法
CN112801821A (zh) * 2021-02-25 2021-05-14 国网山东省电力公司经济技术研究院 基于大数据分析的工程施工队伍画像方法和系统
CN112861003A (zh) * 2021-02-19 2021-05-28 杭州谐云科技有限公司 一种基于云边协同的用户画像构建方法和系统
CN112862289A (zh) * 2021-01-29 2021-05-28 上海妙一生物科技有限公司 一种临床研究从业者的信息匹配方法和装置
CN113010795A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 用户动态画像生成方法、系统、存储介质及电子设备
CN113010754A (zh) * 2021-03-18 2021-06-22 北京云真信科技有限公司 目标行为识别系统
CN113051324A (zh) * 2021-03-19 2021-06-29 南京博雅区块链研究院有限公司 基于大数据的用户画像构建方法、装置及存储介质
CN113435912A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 基于客户画像的数据分析方法、装置、设备及介质
CN113516500A (zh) * 2021-04-23 2021-10-19 深圳市威斯登信息科技有限公司 一种基于大数据商旅运营平台的实现方法和系统
CN113656485A (zh) * 2021-01-30 2021-11-16 河南信安通信技术股份有限公司 一种大数据下人物数据分析方法和系统
CN113781059A (zh) * 2021-11-12 2021-12-10 百融至信(北京)征信有限公司 一种基于智能语音的身份认证反欺诈方法及系统
CN113792086A (zh) * 2021-08-20 2021-12-14 南京博雅区块链研究院有限公司 面向防贫预警的用户画像构建方法、装置及存储介质
CN113836431A (zh) * 2021-10-19 2021-12-24 中国平安人寿保险股份有限公司 基于用户时长的用户推荐方法、装置、设备及介质
CN113961734A (zh) * 2021-12-22 2022-01-21 松立控股集团股份有限公司 基于停车数据和app操作日志的用户和车辆画像构建方法
CN117520994A (zh) * 2024-01-03 2024-02-06 深圳市活力天汇科技股份有限公司 基于用户画像和聚类技术识别机票异常搜索用户方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN108021929A (zh) * 2017-11-16 2018-05-11 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及系统
CN109492864A (zh) * 2018-09-29 2019-03-19 广东智合创享营销策划有限公司 一种营销活动管理系统及其管理分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN108021929A (zh) * 2017-11-16 2018-05-11 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及系统
CN109492864A (zh) * 2018-09-29 2019-03-19 广东智合创享营销策划有限公司 一种营销活动管理系统及其管理分析方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111953695A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 终端行为画像的构建方法及装置
CN111953695B (zh) * 2020-08-14 2022-10-28 中国工商银行股份有限公司 终端行为画像的构建方法、装置、电子设备及存储介质
CN112131475A (zh) * 2020-09-25 2020-12-25 重庆邮电大学 一种可解释、可交互的用户画像方法及装置
CN112131475B (zh) * 2020-09-25 2023-10-10 重庆邮电大学 一种可解释、可交互的用户画像方法及装置
CN112702264A (zh) * 2020-11-27 2021-04-23 四川新网银行股份有限公司 一种分布式网络特征计算方法
CN112417251A (zh) * 2020-11-30 2021-02-26 华能大理风力发电有限公司 一种基于风电竞价的交易信息检索方法及装置
CN112862289A (zh) * 2021-01-29 2021-05-28 上海妙一生物科技有限公司 一种临床研究从业者的信息匹配方法和装置
CN113656485A (zh) * 2021-01-30 2021-11-16 河南信安通信技术股份有限公司 一种大数据下人物数据分析方法和系统
CN112861003A (zh) * 2021-02-19 2021-05-28 杭州谐云科技有限公司 一种基于云边协同的用户画像构建方法和系统
CN112559899A (zh) * 2021-02-25 2021-03-26 北京睿企信息科技有限公司 一种用户画像生成方法
CN112801821A (zh) * 2021-02-25 2021-05-14 国网山东省电力公司经济技术研究院 基于大数据分析的工程施工队伍画像方法和系统
CN113010754A (zh) * 2021-03-18 2021-06-22 北京云真信科技有限公司 目标行为识别系统
CN113010754B (zh) * 2021-03-18 2023-06-23 北京云真信科技有限公司 目标行为识别系统
CN113051324A (zh) * 2021-03-19 2021-06-29 南京博雅区块链研究院有限公司 基于大数据的用户画像构建方法、装置及存储介质
CN113010795A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 用户动态画像生成方法、系统、存储介质及电子设备
CN113516500A (zh) * 2021-04-23 2021-10-19 深圳市威斯登信息科技有限公司 一种基于大数据商旅运营平台的实现方法和系统
CN113435912A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 基于客户画像的数据分析方法、装置、设备及介质
CN113792086A (zh) * 2021-08-20 2021-12-14 南京博雅区块链研究院有限公司 面向防贫预警的用户画像构建方法、装置及存储介质
CN113836431A (zh) * 2021-10-19 2021-12-24 中国平安人寿保险股份有限公司 基于用户时长的用户推荐方法、装置、设备及介质
CN113781059A (zh) * 2021-11-12 2021-12-10 百融至信(北京)征信有限公司 一种基于智能语音的身份认证反欺诈方法及系统
CN113961734A (zh) * 2021-12-22 2022-01-21 松立控股集团股份有限公司 基于停车数据和app操作日志的用户和车辆画像构建方法
CN117520994A (zh) * 2024-01-03 2024-02-06 深圳市活力天汇科技股份有限公司 基于用户画像和聚类技术识别机票异常搜索用户方法及系统
CN117520994B (zh) * 2024-01-03 2024-04-19 深圳市活力天汇科技股份有限公司 基于用户画像和聚类技术识别机票异常搜索用户方法及系统

Also Published As

Publication number Publication date
CN111444236B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111444236B (zh) 一种基于大数据的移动终端用户画像构建方法及系统
May Petry et al. MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings
CN112785397A (zh) 一种产品推荐方法、装置及存储介质
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN103970891A (zh) 一种基于情境的用户兴趣信息查询方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN112231563A (zh) 一种内容推荐方法、装置及存储介质
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
CN114818710A (zh) 表格信息提取方法、装置、设备及介质
CN112165639A (zh) 内容分发方法、装置、电子设备以及存储介质
CN114510923B (zh) 基于人工智能的文本主题生成方法、装置、设备及介质
CN110543594B (zh) 一种基于知识库的服刑人员个性化循证矫正推荐方法
CN115905528A (zh) 具有时序特征的事件多标签分类方法、装置及电子设备
CN115131052A (zh) 一种数据处理方法、计算机设备和存储介质
CN111046059B (zh) 基于分布式数据库集群的低效sql语句分析方法及系统
CN112883066A (zh) 一种数据库上的多维范围查询基数估计方法
CN116596412A (zh) 人才类型画像的实现方法及系统
CN116049434A (zh) 电力施工安全知识图谱的构建方法、装置及电子设备
CN116151235A (zh) 文章生成方法、文章生成模型训练方法及相关设备
CN115687788A (zh) 一种智能化商机推荐方法和系统
Sharma et al. Deep learning in big data and data mining
CN114495137A (zh) 票据异常检测模型生成方法与票据异常检测方法
CN116776160B (zh) 一种数据处理方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant