CN114119058A - 用户画像模型的构建方法、设备及存储介质 - Google Patents

用户画像模型的构建方法、设备及存储介质 Download PDF

Info

Publication number
CN114119058A
CN114119058A CN202110915488.0A CN202110915488A CN114119058A CN 114119058 A CN114119058 A CN 114119058A CN 202110915488 A CN202110915488 A CN 202110915488A CN 114119058 A CN114119058 A CN 114119058A
Authority
CN
China
Prior art keywords
data
user
training
feature
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110915488.0A
Other languages
English (en)
Other versions
CN114119058B (zh
Inventor
侯本忠
张永强
唐戈燕
刘甜甜
张帆
田桂申
宋猛
白雪娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
State Grid Corp of China SGCC
State Grid Eastern Inner Mongolia Power Co Ltd
Original Assignee
Big Data Center Of State Grid Corp Of China
State Grid Corp of China SGCC
State Grid Eastern Inner Mongolia Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China, State Grid Corp of China SGCC, State Grid Eastern Inner Mongolia Power Co Ltd filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN202110915488.0A priority Critical patent/CN114119058B/zh
Publication of CN114119058A publication Critical patent/CN114119058A/zh
Application granted granted Critical
Publication of CN114119058B publication Critical patent/CN114119058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Abstract

本发明公开了一种用户画像模型的构建方法、设备及存储介质,包括获取待分析用户的原始系统数据;基于原始系统数据构建用户特征数据集;对用户特征数据集进行特征提取得到用户特征数据子集;对用户特征数据子集进行特征筛选并确定其索引标签,生成用户画像数据集;基于机器学习技术对用户画像数据集进行训练;对训练数据进行归一化,并根据多类型的训练数据的权重值,对每一类型的训练数据的索引标签进行训练,得到用户画像模型。本发明通过在多个数据维度方面对特殊领域用户进行画像,构建可标签化的模型,使用户画像更具立体化,对于异构数据源可以快速形成智能画像生成模型,识别异常用户。

Description

用户画像模型的构建方法、设备及存储介质
技术领域
本发明属于机器学习技术领域,特别涉及一种用户画像模型的构建方法、系统、设备及存储介质。
背景技术
机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一,用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。传统的用户画像技术主要依靠大数据及数据挖掘技术处理,例如,传统的用户画像技术主要是通过大数据进行画像,一般针对个人用户的历史数据,抽象出个人的偏好,活跃时间,活动范围等,通过标签的精细化处理,可以满足精准推送,但针对企业用户,基础数据来源广泛,结构差异性较大,内容也没有统一的规范,而是复杂多样。企业用户除了个人因素外,还有需要考虑环境、组织、个体间等影响因素,因此需要用户画像更具立体化,而传统的用户画像无法满足企业用户的需求。此外,虽然近年来在构建用户画像上已经出现了多种技术,但目前已有技术还具有一定的局限性,如数据碎片化、数据封闭、算法效率低等原因造成用户画像不够精准的问题,训练效率低,同时还没有完善的机制配合对实时用户做出反馈,因此存在实际转化率低等问题。
发明内容
为了解决上述问题,本发明提供一种用户画像模型的构建方法。该方法包括以下步骤:
获取待分析用户的原始系统数据;
基于所述原始系统数据构建用户特征数据集;
对所述用户特征数据集进行特征提取,得到用户特征数据子集;
对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集;
基于机器学习技术对所述用户画像数据集进行训练;
对训练数据进行归一化,并根据多个类型的训练数据的权重值,对每一类型的训练数据的索引标签进行训练,得到用户画像模型。
优选地,所述获取待分析用户的原始系统数据包括:
利用词袋模型从所述原始系统数据中获取待分析用户的原始文本数据。
优选地,基于所述原始系统数据构建用户特征数据集包括:
从所述原始系统数据中选取多个用户特征数据;
将多个所述用户特征数据基于数据分类创建用户特征数据集。
优选地,所述对所述用户特征数据集进行特征提取,得到用户特征数据子集包括:
采用主成分分析法从所述用户特征数据集中获取每个用户的关系特征、时间特征和关联度特征;
根据所述关联度特征从所述用户特征数据集中选取多个关键特征数据,并基于多个所述关键特征数据创建用户特征数据子集。
优选地,所述对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集,包括:
采用信息增益方法计算所述用户特征数据子集中的属性特征数据信息增益;
基于所述信息增益选取多个用户特征数据;
通过调用逻辑回归算法生成每个用户特征数据的键值对,形成索引标签;
基于所述用户特征数据以及索引标签确定用户画像数据集。
优选地,所述基于所述信息增益选取多个用户特征数据,进一步包括:
给定数据集D,对属性子集A,根据其取值将数据集D分成了V个子集:D1,D2,…,Dv,计算属性子集A的信息增益,其计算公式如下:
Figure BDA0003205452050000031
式中,g(D,A)为最符合子集A的特征信息,H(D)为数据集D的特征信息,H(D|A)为数据集D与属性子集A关联性较小的特征信息,H(Dv)为数据集中每个子集的特征信息,∣·∣表示集合大小,H(·)表示熵。
优选地,所述基于机器学习技术对所述用户画像数据集进行训练,得到用户画像模型包括:
将所述数据集进行标准化处理,并划分为训练数据和测试数据;
基于所述训练数据采用机器学习技术进行训练得到预测模型;
利用所述测试数据与预测模型进行匹配确定用户画像模型。
优选地,所述每一类型的训练数据的索引标签进行训练,进一步包括:
获取第ω类特征数据Πω,将Πω投影到内积空间
Figure BDA0003205452050000041
设置
Figure BDA0003205452050000042
的训练的目标函数:
Figure BDA0003205452050000043
式中,U为稀疏项约束参数,λ为索引标签Πω中聚类约束参数,Sω为第ω类内积空间训练数据向量的评价矩阵,其第k行
Figure BDA0003205452050000044
表示内积空间训练数据向量在构造标签中每个特征数据的权重值,特征数据标签
Figure BDA0003205452050000045
Figure BDA0003205452050000046
对所述目标函数进行求解,即首先随机生成初始矩阵对WGTω和Sω,其中,WGTω是Nω×TY矩阵,Sω是TY×Nω矩阵,TY是标签熵值;然后,相互迭代地更新WGTω和Sω,求解最优的权重值矩阵WGTω和评价矩阵Sω,使得目标函数值最小,将每个类型的训练数据的权重值矩阵WGTω分别赋值到一个空矩阵当中,获得合成的权重值矩阵WGT,该权重值矩阵即为索引标签。
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
与现有技术相比,本发明提供的一种用户画像模型的构建方法、系统、设备及存储介质,针对工程审计用户,通过在多个数据维度方面对相关用户进行画像,通过特征工程构建了一个可标签化的模型,该模型使创建的用户画像更具立体化,通过本发明的用户画像构建方法,对于数据来源广泛,结构差异性大,内容复杂多样的异构数据源,可以快速形成智能画像生成模型,可用于快速识别异常用户。
附图说明
图1是根据本发明一实施例提供的一种用户画像模型的构建方法流程图;
图2是根据本发明一实施例提供的构建用户特征数据集的方法流程图;
图3是根据本发明一实施例提供的特征提取方法流程图;
图4是根据本发明一实施例提供的特征筛选方法流程图;
图5是根据本发明一实施例提供的生成用户画像模型方法流程图;
图6是根据本发明一实施例提供的一种构建用户画像模型的系统结构示意图。
具体实施方式
为了使本领域技术人员更加清楚地理解本发明的概念和思想,以下结合具体实施例详细描述本发明。应理解,本文给出的实施例都只是本发明可能具有的所有实施例的一部分。本领域技术人员在阅读本申请的说明书以后,有能力对下述实施例的部分或整体作出改进、改造、或替换,这些改进、改造、或替换也都包含在本发明要求保护的范围内。
在本文中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。在本文中,术语“一”、“一个”和其它类似词语并不意在表示只存在一个事物,而是表示有关描述仅仅针对事物中的一个,事物可能具有一个或多个。在本文中,术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系,而不能视作表示空间结构上的关系。例如,“A包括B”意在表示在逻辑上B属于A,而不表示在空间上B位于A的内部。另外,术语“包含”、“包括”和其它类似词语的含义应视为开放性的,而非封闭性的。例如,“A包括B”意在表示B属于A,但是B不一定构成A的全部,A还可能包括C、D、E等其它元素。
在本文中,术语“实施例”、“本实施例”、“一实施例”、“一个实施例”并不表示有关描述仅仅适用于一个特定的实施例,而是表示这些描述还可能适用于另外一个或多个实施例中。本领域技术人员应理解,在本文中,任何针对某一个实施例所做的描述都可以与另外一个或多个实施例中的有关描述进行替代、组合、或者以其它方式结合,替代、组合、或者以其它方式结合所产生的新实施例是本领域技术人员能够容易想到的,属于本发明的保护范围。
实施例1
本发明的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施方式的实践了解到。结合图1-图5,本发明实施例提供的一种用户画像模型的构建方法,包括以下步骤:
S1:获取待分析用户的原始系统数据;
S2:基于原始系统数据构建用户特征数据集;
S3:对用户特征数据集进行特征提取,得到用户特征数据子集;
S4:对用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集;
S5:基于机器学习技术对所述用户画像数据集进行训练,得到用户画像模型。
具体的,步骤S1获取待分析用户的原始系统数据,其中原始系统数据包括用户属性数据和用户行为数据。用户属性数据为静态数据,静态数据一般是人员的基本信息,例如职员姓名、职务、任职时间、参与项目等,用户行为数据为动态数据,动态数据通常记录于参与活动的变更日志中,例如常用的后端日志数据、前端埋点数据等。本发明实施例通过词袋模型获取待分析用户的原始系统数据,词袋模型是一个在自然语言处理和信息检索下被简化的表达模型,此模型下,用一个袋子装着句子或是文件的文字这些词的方式表现,这种表现方式不考虑文法以及词的顺序,利用词袋模型将原始系统数据中的整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量的每一个维度代表一个单词,通过计算每一维度的权重来反映该单词在文章的重要程度,进而通过权重的大小来获取人员相关的标签,权重越大的标签和人员活动关系越密切,可多维度,立体化人物画像。在一个实施例中,所述原始系统数据为工程审计材料。通常采用TF-IDF算法计算单词的权重,计算公式为:
TF-IDF(t,d)=TF(t,d)×IDF(t)
Figure BDA0003205452050000081
式中,TF-IDF(t,d)为单词t在文档d中的权重,TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性,N为文章总数,N′为包含单词t的文章总数。
具体的,步骤S2基于原始系统数据构建用户特征数据集还包括:
S2-1:从原始系统数据中选取多个用户特征数据;
S2-2:对多个用户特征数据进行结构化处理,得到用户特征数据集。
在一个实施例中,当原始系统数据为工程审计材料时,步骤S2-2具体包括,将多个用户特征数据按照一个或多个数据维度进行分类,并根据分类结果创建用户特征数据集。其中一个或多个数据维度包括但不限于人物关系、参与项目、工作时间、任职部门以及人员职务和决策内容。
特征构建指的是从原始数据中自动的构建新的特征的过程,例如一组具有明显物理意义(比如Gabor、几何特征、纹理特征)或者统计意义的特征。本发明实施例在构建用户特征数据集的过程中,首先从原始系统数据中选取一个或多个用户特征数据,再将一个或多个用户特征数据按照预设维度,例如人物关系、参与项目、工作时间、任职部门以及人员职务和决策内容进行分类,得到的分类结构构成用户特征数据集。以经责审计场景为例,需要从组织机构和管理,文件审批工作流程,会议召集,决策执行程序,工作汇报关系等材料中,构建包含参与人员的职务,职责,参与范围,所属组织,参与时间以及共事人员等用户特征数据的用户特征数据集。
具体的,步骤S3对用户特征数据集进行特征提取,得到用户特征数据子集还包括:
S3-1:采用主成分分析法从用户特征数据集中获取每个用户的关系特征、时间特征和关联度特征;
S3-2:根据所述关联度特征从用户特征数据集中选取多个关键特征数据,并基于多个关键特征数据创建用户特征数据子集。
特征提取的目的是通过特征转换的方式得到一组具有明显物理或统计意义的特征,例如Gabor、几何特征[角点、不变量]、纹理[LBP HOG],主要通过对构建的特征数据集进行降维,获取关键的内容。本发明实施例采用PCA(Principal Component Analysis,主成分分析法)的降维提取方法对用户特征数据集进行特征提取。PCA的思想是通过坐标轴转换,寻找数据分布的最优子空间。例如在三维空间中有一系列数据点,它们分布在过原点的平面上,如果采用自然坐标系的x,y,z三个轴表示数据,需要三个维度,但实际上这些数据点都在同一个二维平面上,如果通过坐标轴转换使得数据所在平面和x,y平面重合,就可以通过新的x’、y’轴来表示原始数据,并且没有任何损失,因此完成了降维的目的,并且这两个新的坐标轴就是需要找的主成分。具体包括以下步骤:
步骤1:对样本数据进行中心化处理;
步骤2:求样本协方差矩阵;
步骤3:对协方差矩阵进行特征值分解,将特征值从大到小排列;
步骤4:取特征值前n个最大的对应的特征向量W1,W2,...,Wn,进而将原来m维的样本降低到n维。
本发明实施例采用主成分分析法从用户特征数据集中获取每个用户的关系特征、时间特征和关联度特征,进一步包括:采用PCA算法计算用户特征数据集中各用户特征向量的方差和特征值,由于方差越大,特征值越大,信息量也越大,因此删除方差较小的特征,保留方差较大的特征,通过关联各个表和数据结构,获取关系特征、时间特征和关联度特征,即分别为用户与其他用户之间的关系、用户活跃总时间和参与项目的关联度,再根据关联度特征从用户特征数据集中选取多个关键特征数据,并基于多个关键特征数据创建用户特征数据子集,用户特征数据子集中的数据为用户关联性最大的特征数据,是用户画像的基础,通过对用户特征数据集进行特征提取,实现了对用户特征数据集的高维特征向量进行降维的目的,生成适合训练的低维度特征向量的用户特征数据子集。
具体的,步骤S4对用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集,其中用户特征数据子集包括属性特征数据子集和行为特征数据子集,所述步骤S4还包括:
S4-1:采用信息增益方法计算用户特征数据子集中的属性特征数据信息增益,基于信息增益选取多个用户特征数据;
S4-2:通过调用逻辑回归算法生成用户画像模型中的每个用户特征数据的键值对,形成用户画像模型的索引标签;
S4-3:基于多个用户特征数据以及索引标签确定数据集。
特征筛选就是将已经结构化的数据通过特征项和类别项之间的关联性来衡量,目的是从给定的特征集合中挑选一组最具统计意义的特征子集,本发明实施例为保证模型简单,降低计算复杂度,提高计算效率,最大限度的剔除多余的特征,构建用户画像相关特征的用户画像数据集,特征筛选通常是在将特征的重要程度特征化之后再进行选择,本发明实施例采用信息增益的方法作为特征筛选的方法,在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要,代表关联性越强,该特征越应该保留。例如:给定数据集D,假设所有属性均为离散型,对属性子集A,假定根据其取值将数据集D分成了V个子集:D1,D2,…,Dv,可以计算属性子集A的信息增益,其计算公式如下:
Figure BDA0003205452050000111
式中,g(D,A)为最符合子集A的特征信息,H(D)为数据集D的特征信息,H(D|A)为数据集D与属性子集A关联性较小的特征信息,H(Dv)为数据集中每个子集的特征信息,∣·∣表示集合大小,H(·)表示熵。
信息增益越大,表明属性子集A包含的有助于分类的信息越多。对于每个候选特征子集,可以基于数据集D来计算其信息增益来获取多个用户特征数据构成用户画像数据集。通过上述特征工程中的特征构建、特征提取和特征筛选,对于数据来源广泛,结构差异性大,内容复杂多样的异构数据源,可以快速构建用户画像数据集。
在完成构建用户画像数据集后,通过recommend.scala文件对逻辑回归算法的调用,生成用户画像数据集中的每个用户特征数据的键值对,键值对是存储在数据库中的最简单的组织形式,键(key)即关键字,值(Value)即对应于键的属性值,并且每一键对应唯一值,生成的键值对形成了用户画像数据集的Key、Value形式的索引标签。例如XX人,担任职务、总经理,任职时间、2018年9月-2020年6月,参与项目、某公司招投标管理,过往经历、担任某部门经理。
具体的,步骤S5基于机器学习技术对所述用户画像数据集进行训练,得到用户画像模型还包括:
S5-1:对用户画像数据集进行标准化处理,得到标准化数据集,并将标准化数据集划分为训练数据和测试数据;
S5-2:基于训练数据采用机器学习技术进行训练得到预测模型;
S5-3:将测试数据与预测模型进行匹配和评价,当评价符合预期匹配结果时,将符合预期匹配结果的模型输出,得到用户画像模型,否则对用户画像模型进行纠正,并输出纠正后的用户画像模型。
优选地,所述步骤S5-2在所构建的索引标签的基础上,根据训练数据对测试数据进行训练时,每个训练数据对画像数据集构造的权重值,采用
Figure BDA0003205452050000131
矩阵构造新的标签,其中
Figure BDA0003205452050000132
是各类训练数据,WGTω为标签权重值矩阵;使相同类别的测试数据在总数较少的空间内进行聚类,有效挖掘复杂用户数据的隐藏特征。对所述标准化数据集进行训练的方法包含以下步骤:
步骤1:输入训练数据,采用包含Ω个类型的用户特征数据训练索引标签,训练数据空间用Π表示,表示为Π=[Π1,Π2,…,Πω,…,ΠΩ]∈RΔ×N,Δ表示训练数据的特征维度,M是训练数据总量,Πi表示第i类样本,定义Mi表示每类训练数据数量,M=M1+M2+,…+Mω+…+MΩ
步骤2:对训练数据进行归一化,得到归一化的训练数据集Π;
步骤3:对每个类型的训练数据分别训练其标签,训练标签的过程为:
3.1、获取第ω类特征数据Πω,将Πω投影到内积空间
Figure BDA0003205452050000133
3.2、
Figure BDA0003205452050000134
的训练需要满足以下约束,其目标函数为:
Figure BDA0003205452050000135
式中,U为稀疏项约束参数,λ为索引标签Πω中聚类约束参数,Sω为第ω类内积空间训练数据向量的评价矩阵,其第k行
Figure BDA0003205452050000141
表示内积空间训练数据向量在构造标签中每个特征数据的权重值,特征数据标签
Figure BDA0003205452050000142
Figure BDA0003205452050000143
Figure BDA0003205452050000144
表示训练数据向量在内积空间中的投影。
3.3、对步骤3.2中约束条件的目标函数进行求解:
首先随机生成初始矩阵对WGTω和Sω,其中,WGTω是Nω×TY矩阵,Sω是TY×Nω矩阵,TY是标签熵值;然后,相互迭代地更新WGTω和Sω,求解最优的权重值矩阵WGTω和评价矩阵Sω,使得目标函数值最小,将每个类型的训练数据的权重值矩阵WGTω分别赋值到一个空矩阵当中,获得合成的权重值矩阵WGT,该权重值矩阵即为索引标签;具体求解过程为:
(1)在给定WGTω的情况下,更新Sω;将WGTω代入约束条件的上述目标函数,即目标函数转换为:
Figure BDA0003205452050000145
对Sω矩阵中的每一个元素进行更新,定义Sω中的第k行第m列的元素,即求得OPT1最优的评价矩阵Sω
(2)在评价矩阵Sω的情况下,更新权重值矩阵WGTω,即目标函数转化为:
Figure BDA0003205452050000146
对权重值矩阵WGTω的逐行进行更新;
(3)重复上述步骤(1)和步骤(2)来更新Sω和WGTω的权重值,当上述目标函数值OPT(WGTω,Sω)不再变化时,更新完毕;
(4)依次训练每个类型的训练数据的评价矩阵Sω和权重值矩阵WGTω
(5)通过每个类型的训练数据的权重值矩阵WGTω获得合并后的权重值矩阵WGT,即为预测模型的索引标签。
最后,当有新的企业用户行为数据时,将数据代入用户画像模型中,得到表示该数据画像的标签。
本发明接下来以一个具体实例对本发明提出的方法进行详细说明,具体如下所述:
首先通过内部网络及各个业务系统,以文件传输或接口对接的方式从组织机构和管理,文件审批工作流程,会议召集,决策执行程序,工作汇报关系等材料中获取需建立用户画像人员的原始系统数据,并存储到数据库中,默认情况下数据库每晚24点以增量方式导入到hive中,主要构建三张表,用户行为表,历史操作表,项目预期表。然后在hive中通过中间表和调用python文件等一系列操作,将数据进行处理,形成算法模型的入口数据和特征构建数据,构建人物关系,参与项目,任职部门,工作时间,决策内容等特征。再通过scala文件产生所有准备数据,并直接load到hive中去进行数据处理。找到人员和项目直接或间接的关联关系,形成特征提取。如三公经费,专业资金支付等相关人员的参与情况。数据处理完后进行建模,构建特征索引,通过recommend.scala文件对逻辑回归算法的调用,产生模型子集文件,形成Key、Value标签样式。例如XX人,担任职务、总经理,任职时间、2018年9月-2020年6月,参与项目、某公司招投标管理,过往经历、担任某部门经理。最后导出数据集,对数据集进行标准化模型处理,将数据集划分为训练数据和测试数据;基于所述训练数据采用机器学习技术进行训练得到预测模型;利用所述测试数据和预测的模型进行匹配并进行评价,评价是否符合预期,例如是否可以快速从原始数据中,获取上述Key、Value标签。训练过程是通过特征工程算法获取的上述信息,和人工查询的信息是否有偏离,如果偏离,纠正上述算法。若没有偏离,则最终得到的符合预期的模型即为用户画像模型。
实施例2
如图6所示,本发明实施例提供了一种构建用户画像模型的系统,包括:
数据采集模块1,用于获取待分析用户的原始系统数据;
特征构建模块2,用于基于所述原始系统数据构建用户特征数据集;
特征提取模块3,用于对所述用户特征数据集进行特征提取,得到用户特征数据子集;
特征筛选模块4,用于对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集;
模型确定模块5,用于基于机器学习技术对用户画像数据集进行训练;对训练数据进行归一化,并根据多类型的训练数据的权重值,对每一类型的训练数据的索引标签进行训练,得到用户画像模型。
实施例3
本发明实施例还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个实施例中所述的步骤,例如图1所示的步骤S1~S5,或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如图6所示的模块1~模块5。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是终端设备的示例,并不构成对所述终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例4
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
综上所述,本发明提供的一种用户画像模型的构建方法,通过深度学习算法的训练对数据集进行抽象建模,学习,形成有效的模型。通过在各个分析维度对相关人员进行画像,通过特征分析构建了一个可标签化的模型,该模型使创建的用户画像更具立体化,通过本发明的用户画像构建方法,对于数据来源广泛,结构差异性大,内容复杂多样的异构数据源,可以快速形成用户特征分析模型,可用于快速识别异常用户。
以上结合具体实施方式(包括实施例和实例)详细描述了本发明的概念、原理和思想。本领域技术人员应理解,本发明的实施方式不止上文给出的这几种形式,本领域技术人员在阅读本申请文件以后,可以对上述实施方式中的步骤、方法、装置、部件做出任何可能的改进、替换和等同形式,这些改进、替换和等同形式应视为落入在本发明的范围内。本发明的保护范围仅以权利要求书为准。

Claims (10)

1.一种用户画像模型的构建方法,其特征在于,包括以下步骤:
获取待分析用户的原始系统数据;
基于所述原始系统数据构建用户特征数据集;
对所述用户特征数据集进行特征提取,得到用户特征数据子集;
对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集;
基于机器学习技术对所述用户画像数据集进行训练;
对训练数据进行归一化,并根据多个类型的训练数据的权重值,对每一类型的训练数据的索引标签进行训练,得到用户画像模型。
2.根据权利要求1所述的方法,其特征在于,所述获取待分析用户的原始系统数据包括:
利用词袋模型从所述原始系统数据中获取待分析用户的原始文本数据。
3.根据权利要求1所述的方法,其特征在于,所述基于所述原始系统数据构建用户特征数据集包括:
从所述原始系统数据中选取多个用户特征数据;
将多个所述用户特征数据基于数据分类创建用户特征数据集。
4.根据权利要求1所述的方法,其特征在于,所述对所述用户特征数据集进行特征提取,得到用户特征数据子集包括:
采用主成分分析法从所述用户特征数据集中获取每个用户的关系特征、时间特征和关联度特征;
根据所述关联度特征从所述用户特征数据集中选取多个关键特征数据,并基于多个所述关键特征数据创建用户特征数据子集。
5.根据权利要求1所述的方法,其特征在于,所述对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集,包括:
采用信息增益方法计算所述用户特征数据子集中的属性特征数据信息增益;
基于所述信息增益选取多个用户特征数据;
通过调用逻辑回归算法生成每个用户特征数据的键值对,形成索引标签;
基于所述用户特征数据以及索引标签确定用户画像数据集。
6.根据权利要求1所述的方法,其特征在于,所述基于所述信息增益选取多个用户特征数据,进一步包括:
给定数据集D,对属性子集A,根据其取值将数据集D分成了V个子集:D1,D2,…,Dv,计算属性子集A的信息增益,其计算公式如下:
Figure FDA0003205452040000021
式中,g(D,A)为最符合子集A的特征信息,H(D)为数据集D的特征信息,H(D|A)为数据集D与属性子集A关联性较小的特征信息,H(Dv)为数据集中每个子集的特征信息,∣·∣表示集合大小,H(·)表示熵。
7.根据权利要求1所述的方法,其特征在于,所述基于机器学习技术对所述用户画像数据集进行训练,得到用户画像模型包括:
将所述数据集进行标准化处理,并划分为训练数据和测试数据;
基于所述训练数据采用机器学习技术进行训练得到预测模型;
利用所述测试数据与预测模型进行匹配确定用户画像模型。
8.根据权利要求1所述的方法,其特征在于,所述每一类型的训练数据的索引标签进行训练,进一步包括:
获取第ω类特征数据Πω,将Πω投影到内积空间
Figure FDA0003205452040000031
设置
Figure FDA0003205452040000032
的训练的目标函数:
Figure FDA0003205452040000033
式中,U为稀疏项约束参数,λ为索引标签Πω中聚类约束参数,Sω为第ω类内积空间训练数据向量的评价矩阵,其第k行
Figure FDA0003205452040000034
表示内积空间训练数据向量在构造标签中每个特征数据的权重值,特征数据标签
Figure FDA0003205452040000035
Figure FDA0003205452040000036
对所述目标函数进行求解,即首先随机生成初始矩阵对WGTω和Sω,其中,WGTω是Nω×TY矩阵,Sω是TY×Nω矩阵,TY是标签熵值;然后,相互迭代地更新WGTω和Sω,求解最优的权重值矩阵WGTω和评价矩阵Sω,使得目标函数值最小,将每个类型的训练数据的权重值矩阵WGTω分别赋值到一个空矩阵当中,获得合成的权重值矩阵WGT,该权重值矩阵即为索引标签。
9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
CN202110915488.0A 2021-08-10 2021-08-10 用户画像模型的构建方法、设备及存储介质 Active CN114119058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110915488.0A CN114119058B (zh) 2021-08-10 2021-08-10 用户画像模型的构建方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110915488.0A CN114119058B (zh) 2021-08-10 2021-08-10 用户画像模型的构建方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114119058A true CN114119058A (zh) 2022-03-01
CN114119058B CN114119058B (zh) 2023-09-26

Family

ID=80440848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110915488.0A Active CN114119058B (zh) 2021-08-10 2021-08-10 用户画像模型的构建方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114119058B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807809A (zh) * 2021-08-24 2021-12-17 姚玲 一种基于机器学习技术构建审计用户画像的方法
CN114971744A (zh) * 2022-07-07 2022-08-30 北京淇瑀信息科技有限公司 一种依据稀疏矩阵的用户画像确定方法及装置
CN115640336A (zh) * 2022-12-06 2023-01-24 遵义钟钟网络科技有限公司 业务大数据挖掘方法、系统及云平台
CN115796607A (zh) * 2023-01-30 2023-03-14 国网山西省电力公司营销服务中心 一种基于用电信息分析的采集终端安全画像评估方法
CN116956097A (zh) * 2023-09-18 2023-10-27 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017186106A1 (zh) * 2016-04-29 2017-11-02 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统
WO2020082865A1 (zh) * 2018-10-24 2020-04-30 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备
CN111177538A (zh) * 2019-12-13 2020-05-19 杭州顺网科技股份有限公司 一种基于无监督权值计算的用户兴趣标签构建方法
WO2020098308A1 (zh) * 2018-11-12 2020-05-22 平安科技(深圳)有限公司 人群画像分类模型的建立方法、装置、设备和存储介质
CN111210326A (zh) * 2019-12-27 2020-05-29 大象慧云信息技术有限公司 一种用于构建用户画像的方法及系统
CN111723256A (zh) * 2020-06-03 2020-09-29 开普云信息科技股份有限公司 一种基于信息资源库的政务用户画像构建方法及其系统
WO2020192460A1 (zh) * 2019-03-25 2020-10-01 华为技术有限公司 数据处理的方法、端侧设备、云侧设备和端云协同系统
WO2020207196A1 (zh) * 2019-04-10 2020-10-15 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备
CN112632385A (zh) * 2020-12-29 2021-04-09 中国平安人寿保险股份有限公司 课程推荐方法、装置、计算机设备及介质
CN112861003A (zh) * 2021-02-19 2021-05-28 杭州谐云科技有限公司 一种基于云边协同的用户画像构建方法和系统
CN113077142A (zh) * 2021-03-31 2021-07-06 国家电网有限公司 智能学员画像方法、系统及终端设备
WO2021147557A1 (zh) * 2020-08-28 2021-07-29 平安科技(深圳)有限公司 客户画像方法、装置、计算机可读存储介质及终端设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378731A (zh) * 2016-04-29 2019-10-25 腾讯科技(深圳)有限公司 获取用户画像的方法、装置、服务器及存储介质
WO2017186106A1 (zh) * 2016-04-29 2017-11-02 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统
WO2020082865A1 (zh) * 2018-10-24 2020-04-30 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备
WO2020098308A1 (zh) * 2018-11-12 2020-05-22 平安科技(深圳)有限公司 人群画像分类模型的建立方法、装置、设备和存储介质
WO2020192460A1 (zh) * 2019-03-25 2020-10-01 华为技术有限公司 数据处理的方法、端侧设备、云侧设备和端云协同系统
WO2020207196A1 (zh) * 2019-04-10 2020-10-15 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备
CN111177538A (zh) * 2019-12-13 2020-05-19 杭州顺网科技股份有限公司 一种基于无监督权值计算的用户兴趣标签构建方法
CN111210326A (zh) * 2019-12-27 2020-05-29 大象慧云信息技术有限公司 一种用于构建用户画像的方法及系统
CN111723256A (zh) * 2020-06-03 2020-09-29 开普云信息科技股份有限公司 一种基于信息资源库的政务用户画像构建方法及其系统
WO2021147557A1 (zh) * 2020-08-28 2021-07-29 平安科技(深圳)有限公司 客户画像方法、装置、计算机可读存储介质及终端设备
CN112632385A (zh) * 2020-12-29 2021-04-09 中国平安人寿保险股份有限公司 课程推荐方法、装置、计算机设备及介质
CN112861003A (zh) * 2021-02-19 2021-05-28 杭州谐云科技有限公司 一种基于云边协同的用户画像构建方法和系统
CN113077142A (zh) * 2021-03-31 2021-07-06 国家电网有限公司 智能学员画像方法、系统及终端设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HAIQIAN GU1.ETC: "MODELING OF USER PORTRAIT THROUGH SOCIAL MEDIA", 2018 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), pages 156 - 6 *
孙志鹏等: "视频背景分离中一种新的非凸秩近似的RPCA模型", 山东科技大学学报(自然科学版), pages 83 - 91 *
李恒超等: "一种用于构建用户画像的二级融合算法框架", 计算机科学, pages 157 - 161 *
李雪等: "基于稀疏约束的流形正则化概念分解算法", 计算机辅助设计与图形学学报, pages 381 - 394 *
郭梁;王佳斌;马迎杰;朱新龙;: "基于模型融合的搜索引擎用户画像技术", 科技与创新, no. 07, pages 17 - 22 *
陈巧红;凌明杰;孙麒;贾宇波;: "基于集成学习框架的用户画像方法", 浙江理工大学学报(自然科学版), no. 01, pages 86 - 93 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807809A (zh) * 2021-08-24 2021-12-17 姚玲 一种基于机器学习技术构建审计用户画像的方法
CN114971744A (zh) * 2022-07-07 2022-08-30 北京淇瑀信息科技有限公司 一种依据稀疏矩阵的用户画像确定方法及装置
CN114971744B (zh) * 2022-07-07 2022-11-15 北京淇瑀信息科技有限公司 一种依据稀疏矩阵的用户画像确定方法及装置
CN115640336A (zh) * 2022-12-06 2023-01-24 遵义钟钟网络科技有限公司 业务大数据挖掘方法、系统及云平台
CN115640336B (zh) * 2022-12-06 2023-08-22 北京辰极智程信息技术股份有限公司 业务大数据挖掘方法、系统及云平台
CN115796607A (zh) * 2023-01-30 2023-03-14 国网山西省电力公司营销服务中心 一种基于用电信息分析的采集终端安全画像评估方法
CN116956097A (zh) * 2023-09-18 2023-10-27 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统
CN116956097B (zh) * 2023-09-18 2023-12-12 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统

Also Published As

Publication number Publication date
CN114119058B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Nagel Machine learning in asset pricing
Cerda et al. Similarity encoding for learning with dirty categorical variables
CN114119058B (zh) 用户画像模型的构建方法、设备及存储介质
US10783451B2 (en) Ensemble machine learning for structured and unstructured data
Kotu et al. Predictive analytics and data mining: concepts and practice with rapidminer
CN107967575B (zh) 一种人工智能保险咨询服务人工智能平台系统
CN114119057B (zh) 用户画像模型的构建系统
Liu et al. Combining enterprise knowledge graph and news sentiment analysis for stock price prediction
Kulkarni et al. Evolve systems using incremental clustering approach
CN111368096A (zh) 基于知识图谱的信息分析方法、装置、设备和存储介质
CN113807809A (zh) 一种基于机器学习技术构建审计用户画像的方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN114153995A (zh) 医学术语的处理方法、装置、计算机设备和存储介质
Fallahian et al. Gan-based tabular data generator for constructing synopsis in approximate query processing: Challenges and solutions
US20220292393A1 (en) Utilizing machine learning models to generate initiative plans
CN112988699B (zh) 模型训练方法、数据标签的生成方法及装置
Sassi et al. About database summarization
Mahalle et al. Data Acquisition and Preparation
Ghosh et al. Understanding Machine Learning
CN111626331A (zh) 一种自动化行业分类装置及其工作方法
Sumalatha et al. Rough set based decision rule generation to find behavioural patterns of customers
Li et al. A general feature abstraction method for clustering algorithm
Khoshbakht et al. Design & Develop: Data Warehouse & Data Mart for Business Organization
Lalbakhsh et al. TACD: a transportable ant colony discrimination model for corporate bankruptcy prediction
KR20200029647A (ko) 사용자 개인화에 의한 큐레이터 전자상거래 시스템의 일반화 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant