CN112861003A - 一种基于云边协同的用户画像构建方法和系统 - Google Patents
一种基于云边协同的用户画像构建方法和系统 Download PDFInfo
- Publication number
- CN112861003A CN112861003A CN202110192119.3A CN202110192119A CN112861003A CN 112861003 A CN112861003 A CN 112861003A CN 202110192119 A CN202110192119 A CN 202110192119A CN 112861003 A CN112861003 A CN 112861003A
- Authority
- CN
- China
- Prior art keywords
- data
- cloud
- model
- algorithm
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012216 screening Methods 0.000 claims abstract description 44
- 230000003068 static effect Effects 0.000 claims abstract description 36
- 230000005540 biological transmission Effects 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 69
- 238000007635 classification algorithm Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000012954 risk control Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012407 engineering method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Abstract
本发明公开了一种基于云边协同的用户画像构建方法和系统,所述方法包括:从源数据中筛选出静态数据和动态数据;根据静态数据,通过云端构建静态标签;从动态数据中筛选建模数据,通过云端构建模型;将云端的模型下发到边端;根据动态数据和所述模型,通过边端构建动态标签;将动态标签传输到云端存储。一方面避免将动态数据发送给云端,降低了用户信息在传输过程中泄漏的风险,使用户的隐私和数据的安全性得到保障;另一方面通过云边协同的方式构建用户画像的标签体系,可以提高运算效率;再一方面云端汇集了各个边端的建模数据,提高了模型的泛化能力。构建的用户画像在服务用户的时候可以精准描述用户特征,为用户提供个性化服务。
Description
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于云边协同的用户画像构建方法和系统。
背景技术
用户画像是指真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。具体指通过收集和分析用户的基本属性、社会属性、生活习惯以及行为记录等真实用户数据,提炼出用户特征,将用户信息标签化,抽象出一个虚拟的用户特征全貌,从而帮助企业等相关平台全方位、多层次地了解用户特征,还可以预测用户行为方向。
随着大数据和云计算的应用普及,可以采集到的数据也越来越容易,从电子商务到金融银行乃至各类企业,正通过数据驱动的方式革新着自身的业务体系,用户画像得到广泛的应用。对于当今的大多数企业以及政府平台,庞大的用户群体必定产生海量的数据,如何合理的运用这些数据来为用户提供更好的服务是当前亟待解决的问题。调研显示,目前国内除互联网行业外的中小型企业以及很多政府机构基于大数据分析的用户画像及行为分析研究与应用的成果较少,基本不具备为用户提供个性化服务的能力,当前许多平台通过用户画像进行服务水平的提升迫在眉睫。
发明内容
针对现有技术中存在的技术问题,本发明提供一种基于云边协同的用户画像构建方法和系统,利用云计算和边缘技术进行协同来构建用户画像可以提高运算效率,并使用户的隐私和数据的安全性得到保障。
本发明公开了一种基于云边协同的用户画像构建方法,所述方法包括:从源数据中筛选出静态数据和动态数据;根据所述静态数据,通过云端构建静态标签;从所述动态数据中筛选建模数据,通过云端构建模型;将云端的模型下发到边端;根据所述动态数据和所述模型,通过边端构建动态标签;将所述动态标签传输到所述云端的用户画像标签库存储。
优选的,所述方法还包括构建行为标签或协查标签的方法:从源数据中筛选出行为数据或外部协查数据;根据所述行为数据构建行为标签,并将所述行为标签传输到云端存储;根据所述外部协查数据构建协查标签,并将所述协查标签传输到云端存储。
优选的,通过云端建模构建标签的方法:从所述边端的源数据中筛选出建模数据,所述建模数据包括以下数据之一或它们的组合:动态数据、行为数据和外部协查数据;从所述建模数据中提取特征数据,并将特征数据发送给云端;所述云端根据所述特征数据建立特征集;在云端中选用建模算法,利用所述特征集进行训练,获得模型;将所述模型发送给边端;边端通过所述模型对所述特征数据进行分析,获得标签,并将标签及其标签值发送给云端。
优选的,所述边端提取特征的方法包括:对建模数据中的缺失值和异常值进行处理;将处理后的建模数据进行特征工程处理,所述特征工程处理包括以下任一操作或它们的组合:特征筛选、特征衍生、特征无量纲化和特征降维。
优选的,所述建模算法包括分类算法、聚类算法或自然语言算法:
所述分类算法包括以下算法之一:决策树分类算法、神经网络分类算法、支持向量机分类算法(SVM)、随机森林算法、逻辑回归算法(Logistic Regression,LR)和XGBoost算法;
所述聚类算法包括以下算法之一:K-means聚类算法和DBSCAN聚类算法;
所述自然语言算法包括以下算法之一:LDA算法、TF-IDF和TEXT-RANK算法。
优选的,通过分类算法构建模型的方法包括:
步骤301:从所述特征集的建模数据中筛选特征;
步骤302:采用主观分析和客观评价相结合的分析方法,确定特征的权重,并根据所述权重对所筛选的特征进行选择;
步骤303:根据所选择的特征,为建模数据打标签;
步骤304:判断所述建模数据是否为离散型;
若否,执行步骤305:将建模数据离散化,并为数据映射离散值,执行步骤306;
若是,执行步骤306:将离散型建模数据或离散化的建模数据向量化,获得数据集;
步骤307:将数据集拆分为训练集和测试集;
步骤308:基于分类算法,利用训练集进行训练,获得分类模型;
步骤309:利用测试集对分类模型进行验证、评估和迭代。
优选的,通过自然语言算法构建模型的方法包括:
从源数据中筛选出文本信息,获得文本特征集;
基于自然语言算法,利用文本特征集进行训练,获得主题模型和关键词模型结合的两层模型,所述主题模型采用LDA算法,所述关键词模型采用TF-IDF或TEXT-RANK算法。
优选的,通过聚类算法构建模型的方法包括:
从所述特征集的建模数据中筛选特征;
将所筛选的特征进行降维和标准化,获得聚类数据集;
选择聚类算法,利用聚类数据集进行训练和评估,获得聚类模型。
优选的,本发明的用户画像构建方法构建的用户画像,用于用户画像可视化、潜在用户挖掘、个性化推荐、辅助决策管理或风险控制。
本发明还提供一种用于实现上述用户画像构建方法的系统,所述系统包括:第一筛选模块、第二筛选模块、静态标签模块、动态标签模块、模型构建模块和传输模块;所述第一筛选模块用于从源数据中筛选出静态数据和动态数据;所述静态标签模块用于根据所述静态数据,通过云端构建静态标签;所述第二筛选模块用于从动态数据中筛选建模数据,并通过所述传输模块将建模数据传输给云端;所述模型构建模块用于通过云端构建模型;所述传输模块还用于将云端的模型下发到边端;所述动态标签模块用于根据所述动态数据和所述模型,通过边端构建动态标签;所述传输模块还用于将所述动态标签传输到云端的用户画像标签库存储。
与现有技术相比,本发明的有益效果为:在边端,根据动态数据构建动态标签,一方面避免将动态数据发送给云端,降低了用户信息在传输过程中泄漏的风险,使用户的隐私和数据的安全性得到保障;另一方面通过云边协同的方式构建用户画像的标签体系,可以提高运算效率;再一方面云端汇集了各个边端的建模数据,提高了模型的泛化能力。构建的用户画像在服务用户的时候可以精准描述用户特征,为用户提供个性化服务,同时在企业主页以及应用程序等渠道根据用户当前需求对用户提供个性化推荐,提升平台管理水平并且优化人工客服、和线上渠道的客户服务体验,同时利用用户画像对存在风险的业务进行有效的控制与规避。
附图说明
图1是本发明的用户画像构建方法流程图;
图2是云端建模的方法流程图;
图3是通过分类算法构建模型的方法流程图;
图4是一个具体实施例中的流程图;
图5是本发明的系统逻辑框图;
图6是本发明中云边协同架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
一种基于云边协同的用户画像构建方法,如图1所示,所述方法包括:
步骤101:从源数据中筛选出静态数据和动态数据。
其中,静态数据是指一般不随时间变化或变化较少的数据,通常在用户注册时提供,例如出生日期、账号、手机号、身份信息或验证信息等基础属性数据;动态数据是指根据业务的需要,及时更新或更新频繁的业务数据,例如账户余额、贷款总额和办理业务记录等。应当指出的是,本发明中涉及用户信息的源数据,应当在用户许可和合法的前提下获得。
步骤102:根据所述静态数据,通过云端构建静态标签。
静态数据的变化较少,同时数据量也较少,通常保存在云端,云端可以通过定义的规则构建静态标签,通过标签将用户信息进行标签化,抽象出用户的特征全貌。
步骤103:从所述动态数据中筛选建模数据,通过云端构建模型。建模数据在云端汇集,并通过云端构建模型,其中模型用于对动态数据进行预测或分析,获得动态标签。
步骤104:将云端的模型下发到边端。
步骤105:根据所述动态数据和所述模型,通过边端构建动态标签。动态数据通常保存在边端。
步骤106:将所述动态标签传输到所述云端的用户画像标签库存储。云端的用户画像标签库用于保存静态标签和动态标签等用户标签。
在边端,根据动态数据构建动态标签,一方面避免将动态数据发送给云端,降低了用户信息在传输过程中泄漏的风险,使用户的隐私和数据的安全性得到保障;另一方面通过云边协同的方式构建用户画像的标签体系,可以提高运算效率;再一方面云端汇集了各个边端的建模数据,提高了模型的泛化能力。
构建的用户画像在服务用户的时候可以精准描述用户特征,为用户提供个性化服务,同时在企业主页以及应用程序等渠道根据用户当前需求对用户提供个性化推荐,提升平台管理水平并且优化人工客服、和线上渠道的客户服务体验,同时利用用户画像对存在风险的业务进行有效的控制与规避。
但不限于此,所述源数据包括静态数据(基本数据)、动态数据(业务数据)、行为数据和外部协查数据。其中,基本数据包括用户的个人基本信息,如姓名、年龄、性别等,通常在采集后传输到云端保存;业务数据在创建账户时采集,以企业或平台的具体业务有关,比如电商平台的用户购买总额或者银行平台的个人账户余额、个人贷款总额等,这部分数据作为业务信息指标需要及时更新,属于动态数据;行为数据是指用户行为事件产生的数据,通过事件名称来进行区分,可以包括进入、离开应用,进入、离开页面,业务的访问和办结以及工单提交等事件,每个事件可以包含多个字段,比如页面名称,访问时长等;根据所述行为数据构建行为标签,并将所述行为标签传输到云端保存。外部协查数据指的是通过数据共享与第三方部门或企业合作获取的数据,例如向房管部门、不动产登记中心、社保部门、向民政部门、公安部门、银行以及征信部门等部门进行协查得到的数据,同时还可以向其他同类型或其他类型的企业共享信息作为辅助,可以根据所述外部协查数据构建协查标签,并将所述协查标签传输到云端存储。其中行为标签和外部协查标签也可以根据模型构建。
其中,源数据生成标签过程中,可以进行预处理,例如数据清洗、缺失值处理和异常值处理,例如去除出生年月在1930年之前的数据。预处理后的数据利于通过预设规则生成标签。其中,预设规则根据实际情况和数据含义进行设定。因此,在预处理后,还可以从业务角度和数据本身出发对源数据进行分析和梳理,包括数据的意义、包含的信息量以及相关性。
根据实际情况的需要,生成标签的方法,可以是通过统计的方法或预设规则获得,还可以通过云端建模的方法获得,如图2所示,云端建模的方法包括:
步骤201:从所述边端的源数据中筛选出建模数据。其中建模数据可以是以下数据之一或它们的组合:业务数据、行为数据或协查数据,根据实际需要进行建模。
步骤202:从所述建模数据中提取特征数据,并将特征数据发送给云端。可以通过特征工程的方法提取特征数据。
步骤203:所述云端保存所述特征数据,并根据所述特征数据建立特征集。
步骤204:在云端中选用建模算法,并利用所述特征集进行训练,获得模型。
步骤205:将所述模型发送给边端。
步骤206:所述边端通过所述模型对所述特征数据进行分析,获得标签,并将标签及其标签值发送给云端。
边端仅向云端传输特征数据和标签值,云端通过特征集构建模型,模型将下发给边端,实现云连协同,同时避免将源数据发送给云端,减轻云端计算压力的同时,提高数据的敏感数据的安全性。
在步骤202中,提取特征数据的方法可以包括:
对建模数据进行预处理后,进行特征工程处理,所述特征工程处理包括以下任一操作或它们的组合:特征筛选、特征衍生、特征无量纲化和特征降维。
特征工程,是指用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效果。特征衍生也叫特征构建,是指从原始数据中构建新的特征,也属于特征选择的一种手段。特征构建工作并不完全依赖于技术,它要求我们具备相关领域丰富的知识或者实践经验,基于业务,花时间去观察和分析原始数据,思考问题的潜在形式和数据结构,从原始数据中找出一些具有物理意义的特征。无量纲化是指通过一个合适的变量替代,将一个涉及物理量的方程的部分或全部的单位移除,以求简化实验或者计算的目的,通过特征无量纲化对特征进行标准化处理。特征降维是指把原始高维空间的特征投影到低维度的空间,进行特征的重组,以减少数据的维度。降维与特征选择最大的不同在于,特征选择是进行特征的剔除、删减,而降维是做特征的重组构成新的特征,原始特征全部“消失”了,性质发生了根本的变化。常见的降维方法有:主成分分析法和线性判别分析法。
所述建模算法包括分类算法、聚类算法或自然语言算法:
所述分类算法包括以下算法之一:决策树分类算法、神经网络分类算法、支持向量机分类算法(SVM)、随机森林算法、逻辑回归算法(Logistic Regression,LR)和XGBoost算法;
所述聚类算法包括以下算法之一:K-means聚类算法和DBSCAN聚类算法;
所述自然语言算法包括以下算法之一:LDA算法、TF-IDF和TEXT-RANK算法。
其中,所列举的建模算法为现有技术,本发明中不再赘述。
在一个具体实施例中,采用开源的边缘计算框架搭建用户画像云边协同整体框架,比如EdgeX Foundry、K3S和KubeEdge等。在用户终端(手机APP、微信公众号、微信小程序、网站主页等)采集用户数据,包括基本数据(静态数据)、业务数据(动态数据)、行为数据、第三方数据四类信息指标,将这部分数据传输到边缘端计算平台。采集用户原始数据具体包括:用户本身使用系统的一些基础数据和业务数据;利用埋点、探针等方式采集用户的行为数据,通过与第三方商家合作实现用户在第三方系统数据的获取,但不限于此。
实施例1
本实施例中,通过分类算法构建模型,如图3所示,构建方法包括:
步骤301:从所述特征集的建模数据中筛选特征。可以采用特征工程的方法筛选特征。特征的选取尤为重要,数据和特征将直接决定分类模型的性能。可以需要结合业务经验以及标签应用场景对特征进行初步筛选。
步骤302:采用主观分析和客观评价相结合的分析方法,确定特征的权重,并根据权重对所筛选的特征进行选择。权重越大,说明特征越重要。
主观分析法考虑:层次分析法和专家评分法等方法,客观评价法考虑:相关系数法、信息熵法和CRITIC法等方法。层次分析法根据问题的性质和要达到的总目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系将因素按不同层次聚集组合,形成一个多层次的分析结构模型,从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。相对于层次分析法,专家打分等偏于主观的确定权重,信息熵法是偏向于客观的确定权重的方法,借用信息论中熵的概念,熵是信息轮中衡量不确定性的指标,信息量(概率)的分布越超于一致,不确定性越大。CRITIC(Criteria Importance Though Intercrieria Correlation)法是一种比熵权法和标准离差法更好的客观赋权法。基于评价指标的对比强度和指标之间的冲突性来综合衡量指标的客观权重。考虑指标变异性大小的同时兼顾指标之间的相关性,并非数字越大就说明越重要,完全利用数据自身的客观属性进行科学评价。对比强度是指同一个指标各个评价方案之间取值差距的大小,以标准差的形式来表现。标准差越大,说明波动越大,即各方案之间的取值差距越大,权重会越高;指标之间的冲突性,用相关系数进行表示,若两个指标之间具有较强的正相关,说明其冲突性越小,权重会越低。
步骤303:根据所选择的特征,为建模数据打标签。将所有建模数据分类到具体的标签类别中,可以通过原始数据中某个属性来打标签。如通过用户是否有过违约记录将用户分为违约用户和正常用户;再如为消费者的性别为特征,为消费者打标签,并赋予标签值。打标之后的数据可以分为自变量数据集X和Label数据集y。
步骤304:判断所述建模数据是否为离散型。
若否,执行步骤305:将建模数据离散化,并为数据映射离散值,执行步骤306。对于连续型数据,需要通过对数据的分布进行分析,确定特征分段的临界点,然后对连续数值型特征做离散化处理,转化为固定个数的离散值,如根据年龄,将用户分为不同的年龄段。
若是,执行步骤306:将离散型建模数据或离散化的建模数据向量化,获得数据集。对于离散型建模数据或离散化后的数据,将离散型数据映射到用于训练的离散值,向量化之后便可以得到最终的数据集。
步骤307:将数据集拆分为训练集和测试集。
步骤308:基于分类算法,利用训练集进行训练,获得分类模型。
步骤309:利用测试集对分类模型进行验证、评估和迭代。可以使用Accuracy、Recall、AUC等分类性能性能评价指标,通过分类效果来对模型参数进行调整,可以使用网格交叉验证等方法,调整后再次训练并进行效果评估,重复这一过程知道选取到合适的参数,使得分类模型达到预期的效果。
分类模型构成完成后,将结果进行保存,包括保存分类模型,模型说明文档,以便后续使用。分类模型输出的标签及其标签值保存在云端的标签库中。
实施例2
本实施例中,通过自然语言算法构建模型,构建方法包括:
从源数据中筛选出文本信息,获得文本特征集;
基于自然语言算法,利用文本特征集进行训练,获得主题模型和关键词模型结合的两层模型,所述主题模型采用LDA算法,所述关键词模型采用TF-IDF或TEXT-RANK算法。
例如,获取用户的浏览记录,将获得浏览文章或信息,获得文本信息;通过所述两层模型生成用户浏览的关键词和主题,建立关键词-主题两层词云。
实施例3
本实施例中,通过聚类算法构建模型的方法包括:
步骤601:从所述特征集的建模数据中筛选特征。筛选出聚类问题相关的特征。
步骤602:将所筛选的特征进行降维和标准化,获得聚类数据集。可以采用特征工程的方法进行降维和标准化。
步骤603:选择聚类算法,利用聚类数据集进行训练和评估,获得聚类模型。
在实际应用中,可以采用实施例1-3中模型的一种或它们的组合。在一个具体实施例中,采用如图4所示的流程图,获取数据的类型,并根据数据类型采用相应的方法构建模型。同时,可以采用如图6所示的云边协同架构图,静态数据保存在云端或云平台的用户基本信息库中,云平台根据设置的静态标签规则建模,最终将构建的静态标签保存在云端的用户画像标签库中;云端将建模特征保存在用户特征库中,并选择算法建模后,将模型保存在算法模型库中,再将算法模型库中的模型下发到边端(边缘端);边端可以根据云端下发的模型和保存在边端的源数据生成用户标签,也可以根据边端预设的规则建模,最终将边端生成的用户标签传输到云端的用户画像标签库中保存。边缘端还根据特征工程的方法对建模数据进行处理,以提取特征,并将特征传输到云端的用户特征库中保存。而源数据可以从终端中获得,包括手机APP、公众号、小程序或网页中获取。
本发明的用户画像构建方法用于用户画像可视化、潜在用户挖掘、个性化推荐、辅助决策管理或风险控制。
根据本发明提供的标签还可以构建标签体系:预测标签、模型标签和事实标签,标签体系用于标签的分类管理。如预测标签可以包括购买能力、货款需求、还贷行为相关的标签,主要用于预测用户的行为;模型标签可以包括浏览兴趣、活跃度、用户偏好相关的标签,主要通过模型分析获得的标签;事实标签可以年龄、收入、职业相关的标签。大多数标签适用于全体用户,比如年龄、婚姻状况等,少量标签仅适用于部分用户,如金融领域相关平台的还贷行为标签适合于正在还贷中的用户。
本发明还可以包括定期更新标签的方法:在预设时间内,对用户标签重新计算生成标签和标签值,以保证标签值的实效性和准确性。
在用户画像可视化应用中,以客服热线渠道和线上客服为例,客服人员可以通过用户标签,快速了解当前用户,提升客服效率和客户体验。此外,用户画像中的标签能够增强智能客服的逻辑推理能力,在用户通过线上智能客服咨询问题时,客服可以通过用户的关键词标签迅速明确用户当前的需求并匹配最佳答案来反馈用户。
在个性化推荐中,根据关于用户基础属性、业务办理、历史行为偏好、近期访问行为的标签,预测用户计划办理的业务或者当前需求。以帮助用户快速进入相关业务的界面,同时推荐用户希望获得的信息。同时结合渠道偏好、时间段偏好、用户关注点相关的标签,为用户定时推送符合用户需求的内容消息。
在潜在用户挖掘中,业务人员可以按标签进行筛选,快速圈定目标用户特征和需求,根据业务需求快速寻找目标群体进行内容推荐或管理,帮助企业或机构高效地锁定目标客户,可以提高商品或业务推荐的效率和业绩。
在辅助决策管理中,通过用户画像中的标签对用户在各种渠道上的行为习惯、用户活跃度等进行分析,帮助监控渠道运营,优化渠道内容和体验。通过关注点、需求等相关的标签,分析用户关注热点、群众诉求,针对用户痛点、难点及时调整政策和服务,助力新政策的出台。
在风险控制中,对于银行、公积金中心、网贷企业等金融相关的平台,可以通过用户征信和还贷行为等相关的标签,挖掘客户贷款偿还能力和用户画像标签值之间的联系,对用户做出合理的信用评估,金融平台可以据此调整贷款发放政策和额度,提高识别风险的能力、规避潜在风险。
本发明还提供一种用于实现上述方法的系统,如图5所示,所述系统包括:第一筛选模块1、第二筛选模块6、静态标签模块2、动态标签模块3、模型构建模块5和传输模块4;
第一筛选模块1用于从源数据中筛选出静态数据和动态数据;
静态标签模块2用于根据所述静态数据,通过云端构建静态标签;
第二筛选模块6用于从动态数据中筛选建模数据,并通过传输模块4将建模数据传输给云端;
模型构建模5块用于通过云端构建模型;
传输模块4还用于将云端的模型下发到边端;
动态标签模块3用于根据所述动态数据,通过边端构建动态标签;
传输模块4还用于将所述动态标签传输到所述云端的用户画像标签库存储。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于云边协同的用户画像构建方法,其特征在于,所述方法包括:
从源数据中筛选出静态数据和动态数据;
根据所述静态数据,通过云端构建静态标签;
从所述动态数据中筛选建模数据,通过云端构建模型;
将云端的模型下发到边端;
根据所述动态数据和所述模型,通过边端构建动态标签;
将所述动态标签传输到所述云端的用户画像标签库存储。
2.根据权利要求1所述的用户画像构建方法,其特征在于,所述方法还包括构建行为标签和协查标签的方法:
从源数据中筛选出行为数据和外部协查数据;
根据所述行为数据构建行为标签,并将所述行为标签传输到云端存储;
根据所述外部协查数据构建协查标签,并将所述协查标签传输到云端存储。
3.根据权利要求2所述的用户画像构建方法,其特征在于,通过云端建模构建标签的方法:
从所述边端的源数据中筛选出建模数据,所述建模数据包括以下数据之一或它们的组合:动态数据、行为数据和外部协查数据;
从所述建模数据中提取特征数据,并将特征数据发送给云端;
所述云端根据所述特征数据建立特征集;
在云端中选用建模算法,利用所述特征集进行训练,获得模型;
将所述模型发送给边端;
边端通过所述模型对所述特征数据进行分析,获得标签,并将标签及其标签值发送给云端。
4.根据权利要求3所述的用户画像构建方法,其特征在于,所述边端提取特征的方法包括:
对建模数据中的缺失值和异常值进行处理;
将处理后的建模数据进行特征工程处理,所述特征工程处理包括以下任一操作或它们的组合:
特征筛选、特征衍生、特征无量纲化和特征降维。
5.根据权利要求3所述的用户画像构建方法,其特征在于,所述建模算法包括分类算法、聚类算法或自然语言算法:
所述分类算法包括以下算法之一:决策树分类算法、神经网络分类算法、支持向量机分类算法、随机森林算法、逻辑回归算法和XGBoost算法;
所述聚类算法包括以下算法之一:K-means聚类算法和DBSCAN聚类算法;
所述自然语言算法包括以下算法之一:LDA算法、TF-IDF和TEXT-RANK算法。
6.根据权利要求5所述的用户画像构建方法,其特征在于,通过分类算法构建模型的方法包括:
步骤301:从所述特征集的建模数据中筛选特征;
步骤302:采用主观分析和客观评价相结合的分析方法,确定特征的权重,并根据所述权重对所筛选的特征进行选择;
步骤303:根据所选择的特征,为建模数据打标签;
步骤304:判断所述建模数据是否为离散型;
若否,执行步骤305:将建模数据离散化,并为数据映射离散值,执行步骤306;
若是,执行步骤306:将离散型建模数据或离散化的建模数据向量化,获得数据集;
步骤307:将数据集拆分为训练集和测试集;
步骤308:基于分类算法,利用训练集进行训练,获得分类模型;
步骤309:利用测试集对分类模型进行验证、评估和迭代。
7.根据权利要求5所述的用户画像构建方法,其特征在于,通过自然语言算法构建模型的方法包括:
从源数据中筛选出文本信息,获得文本特征集;
基于自然语言算法,利用文本特征集进行训练,获得主题模型和关键词模型结合的两层模型,所述主题模型采用LDA算法,所述关键词模型采用TF-IDF或TEXT-RANK算法。
8.根据权利要求5所述的用户画像构建方法,其特征在于,通过聚类算法构建模型的方法包括:
从所述特征集的建模数据中筛选特征;
将所筛选的特征进行降维和标准化,获得聚类数据集;
选择聚类算法,利用聚类数据集进行训练和评估,获得聚类模型。
9.根据权利要求1所述的用户画像构建方法,其特征在于,构建的用户画像用于用户画像可视化、潜在用户挖掘、个性化推荐、辅助决策管理或风险控制。
10.一种用于实现权利要求1-8任一项所述用户画像构建方法的系统,其特征在于,所述系统包括:第一筛选模块、第二筛选模块、静态标签模块、动态标签模块、模型构建模块和传输模块;
所述第一筛选模块用于从源数据中筛选出静态数据和动态数据;
所述静态标签模块用于根据所述静态数据,通过云端构建静态标签;
所述第二筛选模块用于从动态数据中筛选建模数据,并通过所述传输模块将建模数据传输给云端;
所述模型构建模块用于通过云端构建模型;
所述传输模块还用于将云端的模型下发到边端;
所述动态标签模块用于根据所述动态数据和所述模型,通过边端构建动态标签;
所述传输模块还用于将所述动态标签传输到云端的用户画像标签库存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110192119.3A CN112861003A (zh) | 2021-02-19 | 2021-02-19 | 一种基于云边协同的用户画像构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110192119.3A CN112861003A (zh) | 2021-02-19 | 2021-02-19 | 一种基于云边协同的用户画像构建方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861003A true CN112861003A (zh) | 2021-05-28 |
Family
ID=75988307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110192119.3A Pending CN112861003A (zh) | 2021-02-19 | 2021-02-19 | 一种基于云边协同的用户画像构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861003A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435505A (zh) * | 2021-06-28 | 2021-09-24 | 中电积至(海南)信息技术有限公司 | 一种安全用户画像的构建方法与装置 |
CN114119058A (zh) * | 2021-08-10 | 2022-03-01 | 国家电网有限公司 | 用户画像模型的构建方法、设备及存储介质 |
CN114979144A (zh) * | 2022-05-19 | 2022-08-30 | 中国电信股份有限公司 | 云边通信方法、装置及电子设备 |
CN116418881A (zh) * | 2023-04-18 | 2023-07-11 | 吉林省禹语网络科技有限公司 | 用于电商大数据云边协同传输的数据智能处理方法 |
CN116468460A (zh) * | 2023-04-27 | 2023-07-21 | 苏银凯基消费金融有限公司 | 基于人工智能的消费金融客户画像识别系统及其方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354755A (zh) * | 2016-08-17 | 2017-01-25 | 洑云龙 | 一种用户画像优化处理方法 |
CN108764663A (zh) * | 2018-05-15 | 2018-11-06 | 广东电网有限责任公司信息中心 | 一种电力客户画像生成管理的方法及系统 |
CN109978630A (zh) * | 2019-04-02 | 2019-07-05 | 安徽筋斗云机器人科技股份有限公司 | 一种基于大数据建立用户画像的精准营销方法和系统 |
CN110009401A (zh) * | 2019-03-18 | 2019-07-12 | 康美药业股份有限公司 | 基于用户画像的广告投放方法、装置和存储介质 |
CN111210326A (zh) * | 2019-12-27 | 2020-05-29 | 大象慧云信息技术有限公司 | 一种用于构建用户画像的方法及系统 |
CN111309936A (zh) * | 2019-12-27 | 2020-06-19 | 上海大学 | 一种电影用户画像的构建方法 |
CN111444236A (zh) * | 2020-03-23 | 2020-07-24 | 华南理工大学 | 一种基于大数据的移动终端用户画像构建方法及系统 |
-
2021
- 2021-02-19 CN CN202110192119.3A patent/CN112861003A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354755A (zh) * | 2016-08-17 | 2017-01-25 | 洑云龙 | 一种用户画像优化处理方法 |
CN108764663A (zh) * | 2018-05-15 | 2018-11-06 | 广东电网有限责任公司信息中心 | 一种电力客户画像生成管理的方法及系统 |
CN110009401A (zh) * | 2019-03-18 | 2019-07-12 | 康美药业股份有限公司 | 基于用户画像的广告投放方法、装置和存储介质 |
CN109978630A (zh) * | 2019-04-02 | 2019-07-05 | 安徽筋斗云机器人科技股份有限公司 | 一种基于大数据建立用户画像的精准营销方法和系统 |
CN111210326A (zh) * | 2019-12-27 | 2020-05-29 | 大象慧云信息技术有限公司 | 一种用于构建用户画像的方法及系统 |
CN111309936A (zh) * | 2019-12-27 | 2020-06-19 | 上海大学 | 一种电影用户画像的构建方法 |
CN111444236A (zh) * | 2020-03-23 | 2020-07-24 | 华南理工大学 | 一种基于大数据的移动终端用户画像构建方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435505A (zh) * | 2021-06-28 | 2021-09-24 | 中电积至(海南)信息技术有限公司 | 一种安全用户画像的构建方法与装置 |
CN114119058A (zh) * | 2021-08-10 | 2022-03-01 | 国家电网有限公司 | 用户画像模型的构建方法、设备及存储介质 |
CN114119058B (zh) * | 2021-08-10 | 2023-09-26 | 国家电网有限公司 | 用户画像模型的构建方法、设备及存储介质 |
CN114979144A (zh) * | 2022-05-19 | 2022-08-30 | 中国电信股份有限公司 | 云边通信方法、装置及电子设备 |
CN114979144B (zh) * | 2022-05-19 | 2023-10-31 | 中国电信股份有限公司 | 云边通信方法、装置及电子设备 |
CN116418881A (zh) * | 2023-04-18 | 2023-07-11 | 吉林省禹语网络科技有限公司 | 用于电商大数据云边协同传输的数据智能处理方法 |
CN116468460A (zh) * | 2023-04-27 | 2023-07-21 | 苏银凯基消费金融有限公司 | 基于人工智能的消费金融客户画像识别系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rao et al. | Design of comprehensive evaluation index system for P2P credit risk of “three rural” borrowers | |
CN112861003A (zh) | 一种基于云边协同的用户画像构建方法和系统 | |
US20210383308A1 (en) | Machine learning systems for remote role evaluation and methods for using same | |
Thorleuchter et al. | Analyzing existing customers’ websites to improve the customer acquisition process as well as the profitability prediction in B-to-B marketing | |
JP5960887B1 (ja) | 算出装置、算出方法及び算出プログラム | |
Zhang et al. | An information granulation entropy-based model for third-party logistics providers evaluation | |
US20210383229A1 (en) | Machine learning systems for location classification and methods for using same | |
US20220343433A1 (en) | System and method that rank businesses in environmental, social and governance (esg) | |
Mansingh et al. | Profiling internet banking users: A knowledge discovery in data mining process model based approach | |
US20210383261A1 (en) | Machine learning systems for collaboration prediction and methods for using same | |
Wu | Using machine learning approach to evaluate the excessive financialization risks of trading enterprises | |
Khedmatgozar | The impact of perceived risks on internet banking adoption in Iran: A longitudinal survey | |
CN115080868A (zh) | 产品推送方法、装置、计算机设备、存储介质和程序产品 | |
Zhang et al. | To be forgotten or to be fair: Unveiling fairness implications of machine unlearning methods | |
CN115204881A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN112288279A (zh) | 基于自然语言处理和线性回归的业务风险评估方法和装置 | |
CN115630221A (zh) | 终端应用界面展示数据处理方法、装置及计算机设备 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
Moslehi et al. | Investigation of effective factors in expanding electronic payment in Iran using datamining techniques | |
Vasudevan et al. | Estimating fungibility between skills by combining skill similarities obtained from multiple data sources | |
JP6152215B2 (ja) | 算出装置、算出方法及び算出プログラム | |
Devda et al. | Analytical Crm for Google Edge-Data Mining Framework With Reference To Pharmaceuticals Industry in India | |
Lee et al. | Application of machine learning in credit risk scorecard | |
JP6067169B2 (ja) | 算出装置、算出方法及び算出プログラム | |
EP4354340A1 (en) | Translation decision assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210528 |