CN113761134A - 用户画像构建方法、装置、计算机设备及存储介质 - Google Patents
用户画像构建方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113761134A CN113761134A CN202111089416.1A CN202111089416A CN113761134A CN 113761134 A CN113761134 A CN 113761134A CN 202111089416 A CN202111089416 A CN 202111089416A CN 113761134 A CN113761134 A CN 113761134A
- Authority
- CN
- China
- Prior art keywords
- index value
- index
- user
- evaluation
- evaluation index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 238000011156 evaluation Methods 0.000 claims abstract description 330
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000007774 longterm Effects 0.000 claims description 123
- 230000006399 behavior Effects 0.000 claims description 43
- 238000010606 normalization Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 20
- 238000004140 cleaning Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012896 Statistical algorithm Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据分析技术领域,尤其涉及一种用户画像构建方法、装置、计算机设备及存储介质。其方法包括:设置与目标类型关联的至少两个评判指标;通过大数据平台获取目标用户在评判指标上的评判指标值;通过TF‑IDF算法对评判指标值进行计算,得到评判指标权重;对评判指标值进行归一化处理,得到归一化评判指标值;根据每个评判指标的归一化评判指标值和评判指标权重,计算目标类型的指标值;根据目标类型的指标值构建目标用户的用户画像。本发明通过评判指标的归一化评判指标值和评判指标权重计算目标类型的指标值,并根据该指标值构建用户画像,可提高用户画像的精准度。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种用户画像构建方法、装置、计算机设备及存储介质。
背景技术
随着人工智能的发展,用户画像模型被广泛应用于各个领域中。对于用户画像模型的建立,通常结合多指标进行综合评价,当选定好用来评判的指标之后,指标的权重如何设定就成为一个需要解决的问题。
目前业内针对指标的权重设计主要是分为主观赋权法和客观赋权法,其中主观赋权法主要是根据专家或者决策者的经验主观判断,这种方法较成熟,但是客观性差,主要与决策者的经验有关,而且主观看法较大,很多客观因素无法考虑全面;客观赋权法主要是根据数据统计得出的,客观性较强,虽然避免了人为主观因素的影响,但是由于缺乏全面性,有可能会出现计算出的指标权重与指标本身的重要性不一致的情况,导致构建的用户画像精准度不高。
发明内容
基于此,有必要针对上述技术问题,提供一种用户画像构建方法、装置、计算机设备及存储介质,以解决现有的指标权重难以兼顾指标的客观性和全面性的问题,提高用户画像的精准度。
一种用户画像构建方法,包括:
接收指标设置指令,根据所述指标设置指令设置用户画像的目标类型以及与所述目标类型关联的至少两个评判指标;
通过大数据平台获取目标用户在所述评判指标上的评判指标值;
通过TF-IDF算法对所述评判指标值进行计算,得到与所述评判指标对应的评判指标权重;
对所述评判指标值进行归一化处理,得到归一化评判指标值;
根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;
根据所述目标类型的指标值构建所述目标用户的用户画像。
一种用户画像构建装置,包括:
评判指标设置模块,用于接收指标设置指令,根据所述指标设置指令设置与目标类型关联的至少两个评判指标;
评判指标值模块,用于通过大数据平台获取目标用户在所述评判指标上的评判指标值;
评判指标权重模块,用于通过TF-IDF算法对所述评判指标值进行计算,得到与评判指标对应的评判指标权重;其中,一个评判指标对应一个评判指标值;
归一化评判指标值模块,用于对所述评判指标值进行归一化处理,得到归一化评判指标值;
指标值模块,用于根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;
用户画像模块,用于根据所述目标类型的指标值构建所述目标用户的用户画像。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述用户画像构建方法。
一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述用户画像构建方法。
上述用户画像构建方法、装置、计算机设备及存储介质,通过接收指标设置指令,根据所述指标设置指令设置与目标类型关联的至少两个评判指标;通过大数据平台获取目标用户在所述评判指标上的评判指标值;通过TF-IDF算法对所述评判指标值进行计算,得到与评判指标对应的评判指标权重;其中,一个评判指标对应一个评判指标值;对所述评判指标值进行归一化处理,得到归一化评判指标值;根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;根据所述目标类型的指标值构建所述目标用户的用户画像。本发明可以解决现有的指标权重难以设定难以兼顾指标的客观性和全面性的问题,提高用户画像的精准度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中用户画像构建方法的一应用环境示意图;
图2是本发明一实施例中用户画像构建方法的一流程示意图;
图3是本发明一实施例中用户画像构建装置的一结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。本实施例可以通过专用人工智能芯片采集目标用户的指标数据。
本实施例提供的用户画像构建方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一实施例中,如图2所示,提供一种用户画像构建方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、接收指标设置指令,根据所述指标设置指令设置用户画像的目标类型以及与所述目标类型关联的至少两个评判指标。
可理解的,指标设置指令可以是用户输入形成的指令。目标类型可以根据实际需要进行设置,如可以是理财、游戏、社交、购物。每个目标类型关联至少两个评判指标。例如,目标类型为理财时,关联的评判指标可以是个人资产、个人学历、理财产品购买数据、理财产品页面访问数据等。
评判指标是基于层次分析法对目标类型进行分解得到的。具体的,通过层次分析法构建层次结构,根据时间跨度将目标类型分解为用户长期属性和用户短期属性。其中,用户长期属性包括用户自身属性和用户长期行为属性。用户短期属性包括用户短期行为属性。用户自身属性包括用户性别、年龄、学历等固有属性。用户长期行为属性包括用户的长期兴趣爱好,例如,某用户近一年喜爱网剧。用户短期行为属性包括用户近期的行为活动,例如,某用户近一个月喜爱理财。根据用户长期属性和用户短期属性确定用于评判的指标。在确定用于评判的指标之后,根据指标设置指令,设置与目标类型关联的至少两个评判指标。例如,评判指标可以是用户对某理财产品的点击次数,则可以计算出点击次数这一评判指标的指标值为n次/月。其中,评判指标包括长期评判指标和短期评判指标。用户长期属性对应长期评判指标。用户短期属性对应短期评判指标。
S20、通过大数据平台获取目标用户在所述评判指标上的评判指标值。
可理解的,目标用户是指与目标类型对应的用户。例如,目标用户为喜欢理财的用户。大数据平台存储有大量用户数据的数据处理平台。该大数据平台包含spark(计算引擎)框架、sparkSQL和hadoop(分布式计算)平台,可用于对用户数据进行指定分析处理,得到相应的数据。其中,sparkSQL是一个用来处理结构化数据的spark组件。spark框架比较成熟稳定,能较快速的进行海量数据的计算,对于复杂指标也可以快速计算。
在获取与评判指标对应的评判指标值时,具体可以利用sqoop技术将评判指标值收集存储到hadoop(分布式计算)平台的hdfs(Hadoop分布式文件系统)存储介质,包括来自存储于oracle数据库的用户行为属性数据,存储于hdfs存储介质的埋点数据。其中,sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的hdfs中,也可以将hdfs的数据导进到关系型数据库中。
S30、通过TF-IDF算法对所述评判指标值进行计算,得到与所述评判指标对应的评判指标权重。
可理解的,一个评判指标对应一个评判指标值。TF-IDF算法是一种用于信息检索与数据挖掘的加权技术,通常用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF算法包括:
其中,Ti为某目标用户的所有评判指标;
Pj为所有目标用户;
W(P,T)表示一个评判指标T被用于标记用户P的数据值;
TF(P,T)表示W(P,T)在用户P所有评判指标中所占的比重;
∑∑W(Pj,Ti)表示所有用户的所有评判指标的数据值;
∑W(Pj,T)表示评判指标T的所有用户之和;
IDF(P,T)表示评判指标T在全部评判指标中的出现概率;
TF(P,T)*IDF(P,F)即为目标用户P在评判指标T上的权重值。
在一示例中,Pj∈(U1、U2、U3),Ti∈(A,B、C、D),如表1所示,用户U1评判指标A有5个,评判指标B有2个,评判指标C有1个。根据TF(P,T),可计算用户U1在评判指标A上的TF值为TF=5/(5+2+1)。进而,根据IDF(P,T),计算用户U1在评判指标A上的IDF值。在得到TF值和IDF值之后,根据TF(P,T)*IDF(P,F),计算用户U1在评判指标A上的权重值。
表1用户指标统计
A | B | C | D | |
U<sub>1</sub> | 5 | 2 | 1 | 0 |
U<sub>2</sub> | 4 | 10 | 7 | 6 |
U<sub>3</sub> | 6 | 1 | 8 | 2 |
具体的,通过大数据平台可以获取目标用户在每个评判指标上的评判指标值。一个评判指标对应一个评判指标值。在获取评判指标值之后,根据每个评判指标上的评判指标值,通过TF-IDF算法计算得到每个评判指标的评判指标权重。
S40、对所述评判指标值进行归一化处理,得到归一化评判指标值。
可理解的,评判指标值可通过大数据平台获取。归一化处理是指将数据按比例缩放,使之落入一个小的特定区间。由于各个指标的度量单位是不同的,为了能够将各个指标参与计算,需要对各个指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。
具体的,通过预设归一化模型对评判指标值进行归一化处理,得到归一化评判指标值,使评判指标值落入(0,1)的区间。其中,预设归一化模型可以是min-max模型(最小-最大标准化模型)或z-score模型(正态分布标准化模型)。归一化可以使不同量纲的指标处于同一数值量级,减少方差较大的评判指标对用户画像的影响,使用户画像更准确,还可以加快学习算法的收敛速度。
S50、根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值。
可理解的,一个评判指标对应一个归一化评判指标值,一个评判指标对应一个评判指标权重。评判指标包括长期评判指标和短期评判指标。用户长期属性对应长期评判指标。用户短期属性对应短期评判指标。
具体的,根据短期评判指标,获取与短期评判指标对应的所述归一化评判指标值和评判指标权重进行加权计算,得到与用户短期属性对应的第一指标值。根据长期评判指标,获取与长期评判指标对应的所述归一化评判指标值和评判指标权重进行加权计算,得到与用户长期属性对应的第二指标值。将第一指标值和第二指标值进行加和计算,得到目标类型的指标值。
S60、根据所述目标类型的指标值构建所述目标用户的用户画像。
可理解的,对用户长期属性和用户短期属性进行加权计算,最终得到目标类型的指标值,将指标值保存在hadoop(分布式计算)平台的hive数据表,供个性化推荐使用。其中,hive是基于Hadoop的一个数据仓库工具。
目标类型的指标值是用户画像的最终结果,例如,A用户对枪击游戏的兴趣分值是0.9,对言情小说的兴趣分值是0.6。评判指标的作用只是一个计算兴趣值的手段。
在步骤S10-S60中,接收指标设置指令,根据所述指标设置指令设置与目标类型关联的至少两个评判指标;通过大数据平台获取目标用户在所述评判指标上的评判指标值;通过TF-IDF算法对所述评判指标值进行计算,得到与评判指标对应的评判指标权重;其中,一个评判指标对应一个评判指标值;对所述评判指标值进行归一化处理,得到归一化评判指标值;根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;根据所述目标类型的指标值构建所述目标用户的用户画像。本发明通过评判指标的归一化评判指标值和评判指标权重计算目标类型的指标值,并根据该指标值构建用户画像,可提高用户画像的精准度。
可选的,所述评判指标包括短期评判指标和长期评判指标;所述目标类型按时间跨度分为用户短期属性和用户长期属性。在步骤S50中,即所述根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值,包括:
S501、获取与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重;
S502、根据所述与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户短期属性对应的第一指标值;
S503、获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,根据所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户长期属性对应的第二指标值;
S504、将所述第一指标值和所述第二指标值进行加和计算,得到所述目标类型的指标值。
可理解的,目标类型按时间跨度分为用户短期属性和用户长期属性。短期评判指标对应用户短期属性。例如,某用户近一个月喜欢理财,则短期评判指标可以是用户点击理财产品的次数或访问次数。一个短期评判指标对应一个归一化评判指标值。一个短期评判指标对应一个评判指标权重。根据多个短期评判指标对应的归一化评判指标值和评判指标权重,可计算得到用户短期属性的用户短期属性值,即第一指标值。长期评判指标对应用户长期属性。例如,某用户近一年喜欢理财,则长期评判指标可以是用户点击理财产品的次数或访问次数。一个长期评判指标对应一个归一化评判指标值。一个长期评判指标对应一个评判指标权重。根据多个长期评判指标对应的归一化评判指标值和评判指标权重,可计算得到用户长期属性的用户长期属性值,即第二指标值。将第一指标值和所述第二指标值进行加和计算,得到目标类型的指标值。其中,用户长期属性包括自身属性和用户长期行为属性。用户长期属性值包括用户自身属性值和用户长期行为属性值。
在步骤S501-S504中,通过对不同时期用户的评判指标赋予了不同的权重,完好的区分了用户在不同时期的行为,提高了用户画像的精准度。
可选的,所述用户长期属性包括用户长期行为属性和用户自身属性。在步骤S503中,即所述获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,将所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重进行加权处理,得到与所述用户长期属性对应的第二指标值;所述用户长期属性包括用户长期行为属性和用户自身属性,包括:
S5031、获取与所述用户自身属性对应的自身评判指标值和自身评判指标权重,以及与所述用户长期行为属性对应的长期行为评判指标值和长期行为评判指标权重;
S5032、将所述自身评判指标值和所述自身评判指标权重,以及所述长期行为评判指标值和所述长期行为评判指标权重进行加权计算,得到与所述用户长期属性对应的第二指标值。
可理解的,用户长期属性包括自身属性和用户长期行为属性。长期评判指标对应的归一化评判指标值包括用户自身属性对应的自身评判指标值和用户长期行为属性对应的长期行为评判指标值。用户自身属性是指用户的固有属性,比如,用户的年龄、性别、收入、学历等属性。自身评判指标值是指与用户自身属性对应的评判指标值。用户长期行为属性包含用户长期的行为活动,比如,用户近一年对理财产品的点击次数或购买次数。长期行为评判指标值是指与用户长期行为属性对应的评判指标值。例如,长期评判指标为对理财产品的月点击次数,若用户3个月内对理财产品的点击次数为30次,则该用户对理财产品的月点击次数为10次/月,10次/月即为长期行为评判指标值。
具体的,在获取用户自身属性的自身评判指标值、与用户自身属性对应的评判指标权重、用户长期行为属性的长期行为评判指标值和与用户长期行为属性对应的评判指标权重之后,根据与用户自身属性对应的评判指标权重,对多个用户自身属性的自身评判指标值进行加权计算,得到用户长期行为属性值。根据与用户长期行为属性对应的评判指标权重,对多个用户长期行为属性的长期行为评判指标值进行加权计算,得到用户自身属性值。进而,对用户自身属性值和用户长期行为属性值进行加和计算,得到与所述用户长期属性对应的第二指标值。
可选的,步骤S20,即所述通过大数据平台获取所述评判指标的评判指标值,包括:
S201、通过大数据平台获取所述评判指标的指标初始数据;
S202、通过预设清洗方法对所述指标初始数据进行清洗,获得指标清洗数据;
S203、通过预设统计算法处理所述指标清洗数据,获得所述评判指标的评判指标值。
可理解的,指标初始数据是根据评判指标直接在大数据平台获取的数据。由于这些数据可能包含异常数据和测试数据等垃圾数据,会影响分析处理结果,因此,需对这些垃圾数据进行清洗和剔除。其中,测试数据包括系统上线时期测试人员为了测试系统所产生的数据,比如点击的喜欢古典文学,但是实际并不喜欢,因为平常从来不看这类东西。异常数据包括系统或者用户操作异常产生的数据,比如,用户点击某个字条几万次。其中,预设清洗方法包括但不限于python语言技术。预设统计算法可以是利用基于spark(计算引擎)框架、sparkSQL和hadoop平台的算法。其中,sparkSQL是一个用来处理结构化数据的spark组件。
具体的,通过大数据平台获取评判指标的指标初始数据之后,根据预设清洗方法对指标初始数据进行清洗,将垃圾数据进行剔除,清洗后得到指标清洗数据。进而,通过预设统计算法处理指标清洗数据,获得与评判指标对应的评判指标值。一个评判指标对应一个评判指标值。
在步骤S201-S203中,通过对指标初始数据进行清洗,可提高评判指标值的准确性进而提高用户画像的精准度。
可选的,所述评判指标包括短期评判指标和长期评判指标;所述目标类型按时间跨度分为用户短期属性和用户长期属性。在步骤S50中,即所述根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值,还包括:
S505、获取与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重;
S506、根据所述与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户短期属性对应的第一指标值;
S507、获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重;根据所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户长期属性对应的第二指标值;
S508、从专家知识领域库中获取所述用户短期属性的第一专家评判权重,以及所述用户长期属性的第二专家评判权重;
S509、根据所述第一指标值、所述第二指标值、第一专家评判权重和所述第二专家评判权重,计算所述目标类型的指标值。
可理解的,专家知识领域库用于存储领域专家根据专业知识确定的各个领域的用户长期属性的评判权重和用户短期属的评判权重。第一专家评判权重即为用户短期属的评判权重,第二专家评判权重即为用户长期属性的评判权重。第一指标值为用户长期属性值,第二指标值为用户长期属性值。根据多个短期评判指标对应的归一化评判指标值和评判指标权重,可计算得到用户短期属性的用户短期属性值,即第一指标值。根据多个长期评判指标对应的归一化评判指标值和评判指标权重,可计算得到用户长期属性的用户长期属性值,即第二指标值。
具体的,从专家知识领域库中获取用户短期属性的第一专家评判权重,以及用户长期属性的第二专家评判权重之后,根据第一专家评判权重和第二专家评判权重,对第一指标值和第二指标值进行加权求和计算,得到目标类型的指标值。
在步骤S505-S509中,通过从专家知识领域库中获取所述用户短期属性的第一专家评判权重,以及所述用户长期属性的第二专家评判权重;根据所述第一指标值、所述第二指标值、第一专家评判权重和所述第二专家评判权重,计算所述目标类型的指标值,最终的指标值融合了专家知识领域库,提高了指标值的准确性,进而提高了用户画像的精准度。
可选的,在步骤S30中,即所述通过TF-IDF算法对所述评判指标值进行计算,得到与评判指标对应的评判指标权重,包括:
S301、根据任意一个所述目标用户的所述评判指标值和所述评判指标,确定任意一个所述评判指标在该目标用户上的所有所述评判指标中的第一占有比重;
S302、根据所有所述目标用户的所述评判指标值和所述评判指标,确定任意一个所述评判指标在所有所述目标用户上的所有所述评判指标中的第二占有比重;
S303、根据所述第一占有比重和所述第二占有比重,确定与该评判指标对应的评判指标权重。
可理解的,TF-IDF算法包括:
其中,Ti为某目标用户的所有评判指标;
Pj为所有目标用户;
W(P,T)表示一个评判指标T被用于标记用户P的数据值;
TF(P,T)表示W(P,T)在用户P所有评判指标中所占的比重;
∑∑W(Pj,Ti)表示所有用户的所有评判指标的数据值;
∑W(Pj,T)表示评判指标T的所有用户之和;
IDF(P,T)表示评判指标T在全部评判指标中的出现概率;
TF(P,T)*IDF(P,F)即为目标用户P在评判指标T上的权重值。
具体的,根据任意一个目标用户的评判指标值和评判指标,通过计算公式TF(P,T),可确定任意一个评判指标在该目标用户上的所有评判指标中出现的频率,即第一占有比重。同时,根据所有目标用户的评判指标值和评判指标,通过计算公式IDF(P,T),可确定任意一个评判指标在所有目标用户上的所有评判指标中出现的频率,即第二占有比重。在得到第一占有比重和第二占有比重之后,根据计算公式TF(P,T)*IDF(P,F),可确定与评判指标对应的评判指标权重。
在一示例中,Pj∈(U1、U2、U3),Ti∈(A,B、C、D),如表1所示,用户U1评判指标A有5个,评判指标B有2个,评判指标C有1个。根据TF(P,T),可计算用户U1在评判指标A上的TF值为TF=5/(5+2+1)。进而,根据IDF(P,T),计算用户U1在评判指标A上的IDF值。在得到TF值和IDF值之后,根据TF(P,T)*IDF(P,F),计算用户U1在评判指标A上的权重值。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种用户画像构建装置,该用户画像构建装置与上述实施例中用户画像构建方法一一对应。如图3所示,该用户画像构建装置包括评判指标设置模块10、评判指标权重模块20、归一化评判指标值模块30、指标值模块40和用户画像模块50。各功能模块详细说明如下:
评判指标设置模块10,用于接收指标设置指令,根据所述指标设置指令设置与目标类型关联的至少两个评判指标;
评判指标值模块20,用于通过大数据平台获取目标用户在所述评判指标上的评判指标值;
评判指标权重模块30,用于通过TF-IDF算法对所述评判指标值进行计算,得到与评判指标对应的评判指标权重;其中,一个评判指标对应一个评判指标值;
归一化评判指标值模块40,用于对所述评判指标值进行归一化处理,得到归一化评判指标值;
指标值模块50,用于根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;
用户画像模块60,用于根据所述目标类型的指标值构建所述目标用户的用户画像。
可选的,指标值模块50,包括:
短期评判指标数据获取单元,用于获取与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重;
第一指标值单元,用于根据所述与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户短期属性对应的第一指标值;
第二指标值单元,用于获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,根据所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户长期属性对应的第二指标值;
指标值单元,用于将所述第一指标值和所述第二指标值进行加和计算,得到所述目标类型的指标值。
可选的,所述第二指标值单元,包括:
长期评判指标数据获取单元,用于获取与所述用户自身属性对应的自身评判指标值和自身评判指标权重,以及与所述用户长期行为属性对应的长期行为评判指标值和长期行为评判指标权重;
第二指标值计算单元,用于将所述自身评判指标值和所述自身评判指标权重,以及所述长期行为评判指标值和所述长期行为评判指标权重进行加权计算,得到与所述用户长期属性对应的第二指标值。
可选的,评判指标权重模块20,包括:
指标初始数据单元,用于通过大数据平台获取所述评判指标的指标初始数据;
数据清洗单元,用于通过预设清洗方法对所述指标初始数据进行清洗,获得指标清洗数据;
评判指标值单元,用于通过预设统计算法处理所述指标清洗数据,获得所述评判指标的评判指标值。
可选的,指标值模块50,还包括:
短期评判指标数据获取单元,用于获取与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重;
第一指标值单元,用于根据所述与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户短期属性对应的第一指标值;
第二指标值单元,用于获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,根据所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户长期属性对应的第二指标值;
专家评判权重单元,用于从专家知识领域库中获取所述用户短期属性的第一专家评判权重,以及所述用户长期属性的第二专家评判权重;
指标值单元,还用于根据所述第一指标值、所述第二指标值、第一专家评判权重和所述第二专家评判权重,计算所述目标类型的指标值。
可选的,在评判指标权重模块20中,包括:
第一占有比重单元,用于根据任意一个所述目标用户的所述评判指标值和所述评判指标,确定任意一个所述评判指标在该目标用户上的所有所述评判指标中的第一占有比重;
第二占有比重单元,用于根据所有所述目标用户的所述评判指标值和所述评判指标,确定任意一个所述评判指标在所有所述目标用户上的所有所述评判指标中的第二占有比重;
评判指标权重单元,用于根据所述第一占有比重和所述第二占有比重,确定与该评判指标对应的评判指标权重。
关于用户画像构建装置的具体限定可以参见上文中对于用户画像构建方法的限定,在此不再赘述。上述用户画像构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种用户画像构建方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
接收指标设置指令,根据所述指标设置指令设置用户画像的目标类型以及与所述目标类型关联的至少两个评判指标;
通过大数据平台获取目标用户在所述评判指标上的评判指标值;
通过TF-IDF算法对所述评判指标值进行计算,得到与所述评判指标对应的评判指标权重;
对所述评判指标值进行归一化处理,得到归一化评判指标值;
根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;
根据所述目标类型的指标值构建所述目标用户的用户画像。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
接收指标设置指令,根据所述指标设置指令设置用户画像的目标类型以及与所述目标类型关联的至少两个评判指标;
通过大数据平台获取目标用户在所述评判指标上的评判指标值;
通过TF-IDF算法对所述评判指标值进行计算,得到与所述评判指标对应的评判指标权重;
对所述评判指标值进行归一化处理,得到归一化评判指标值;
根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;
根据所述目标类型的指标值构建所述目标用户的用户画像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户画像构建方法,其特征在于,包括:
接收指标设置指令,根据所述指标设置指令设置用户画像的目标类型以及与所述目标类型关联的至少两个评判指标;
通过大数据平台获取目标用户在所述评判指标上的评判指标值;
通过TF-IDF算法对所述评判指标值进行计算,得到与所述评判指标对应的评判指标权重;
对所述评判指标值进行归一化处理,得到归一化评判指标值;
根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;
根据所述目标类型的指标值构建所述目标用户的用户画像。
2.如权利要求1所述的用户画像构建方法,其特征在于,所述评判指标包括短期评判指标和长期评判指标;所述目标类型按时间跨度分为用户短期属性和用户长期属性;
所述根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值,包括:
获取与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重;
根据所述与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户短期属性对应的第一指标值;
获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重;根据所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户长期属性对应的第二指标值;
将所述第一指标值和所述第二指标值进行加和计算,得到所述目标类型的指标值。
3.如权利要求2所述的用户画像构建方法,其特征在于,所述用户长期属性包括用户长期行为属性和用户自身属性;所述获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,将所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重进行加权处理,得到与所述用户长期属性对应的第二指标值,包括:
获取与所述用户自身属性对应的自身评判指标值和自身评判指标权重,以及与所述用户长期行为属性对应的长期行为评判指标值和长期行为评判指标权重;
将所述自身评判指标值和所述自身评判指标权重,以及所述长期行为评判指标值和所述长期行为评判指标权重进行加权计算,得到与所述用户长期属性对应的第二指标值。
4.如权利要求1所述的用户画像构建方法,其特征在于,所述通过大数据平台获取所述评判指标的评判指标值,包括:
通过大数据平台获取所述评判指标的指标初始数据;
通过预设清洗方法对所述指标初始数据进行清洗,获得指标清洗数据;
通过预设统计算法处理所述指标清洗数据,获得所述评判指标的评判指标值。
5.如权利要求1所述的用户画像构建方法,其特征在于,所述评判指标包括短期评判指标和长期评判指标;所述目标类型按时间跨度分为用户短期属性和用户长期属性;
所述根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值,还包括:
获取与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重;
根据所述与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户短期属性对应的第一指标值;
获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重;根据所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户长期属性对应的第二指标值;
从专家知识领域库中获取用户短期属性的第一专家评判权重,以及用户长期属性的第二专家评判权重;
根据所述第一指标值、所述第二指标值、第一专家评判权重和所述第二专家评判权重,计算所述目标类型的指标值。
6.如权利要求1所述的用户画像构建方法,其特征在于,所述通过TF-IDF算法对所述评判指标值进行计算,得到与评判指标对应的评判指标权重,包括:
根据任意一个所述目标用户的所述评判指标值和所述评判指标,确定任意一个所述评判指标在该目标用户上的所有所述评判指标中的第一占有比重;
根据所有所述目标用户的所述评判指标值和所述评判指标,确定任意一个所述评判指标在所有所述目标用户上的所有所述评判指标中的第二占有比重;
根据所述第一占有比重和所述第二占有比重,确定与该评判指标对应的评判指标权重。
7.一种用户画像构建装置,其特征在于,包括:
评判指标设置模块,用于接收指标设置指令,根据所述指标设置指令设置与目标类型关联的至少两个评判指标;
评判指标值模块,用于通过大数据平台获取目标用户在所述评判指标上的评判指标值;
评判指标权重模块,用于通过TF-IDF算法对所述评判指标值进行计算,得到与评判指标对应的评判指标权重;其中,一个评判指标对应一个评判指标值;
归一化评判指标值模块,用于对所述评判指标值进行归一化处理,得到归一化评判指标值;
指标值模块,用于根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值;
用户画像模块,用于根据所述目标类型的指标值构建所述目标用户的用户画像。
8.如权利要求7所述的用户画像构建装置,其特征在于,所述评判指标包括短期评判指标和长期评判指标;所述目标类型按时间跨度分为用户短期属性和用户长期属性;所述根据每个所述评判指标的归一化评判指标值和评判指标权重,计算所述目标类型的指标值,包括:
短期评判指标数据获取单元,用于获取与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重;
第一指标值单元,用于根据所述与所述短期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户短期属性对应的第一指标值;
第二指标值单元,用于获取与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,根据所述与所述长期评判指标对应的所述归一化评判指标值和所述评判指标权重,计算与所述用户长期属性对应的第二指标值;
指标值单元,用于将所述第一指标值和所述第二指标值进行加和计算,得到所述目标类型的指标值。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述用户画像构建方法。
10.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至6中任一项所述用户画像构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111089416.1A CN113761134A (zh) | 2021-09-16 | 2021-09-16 | 用户画像构建方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111089416.1A CN113761134A (zh) | 2021-09-16 | 2021-09-16 | 用户画像构建方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761134A true CN113761134A (zh) | 2021-12-07 |
Family
ID=78796118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111089416.1A Pending CN113761134A (zh) | 2021-09-16 | 2021-09-16 | 用户画像构建方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761134A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190103102A1 (en) * | 2017-10-04 | 2019-04-04 | The Toronto-Dominion Bank | Persona-based conversational interface personalization using social network preferences |
CN109784671A (zh) * | 2018-12-24 | 2019-05-21 | 远光软件股份有限公司 | 一种基于用户行为分析的用户体验质量评估方法及系统 |
CN111444428A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 |
CN111723256A (zh) * | 2020-06-03 | 2020-09-29 | 开普云信息科技股份有限公司 | 一种基于信息资源库的政务用户画像构建方法及其系统 |
CN112035541A (zh) * | 2020-08-28 | 2020-12-04 | 平安科技(深圳)有限公司 | 客户画像方法、装置、计算机可读存储介质及终端设备 |
CN112308173A (zh) * | 2020-12-28 | 2021-02-02 | 平安科技(深圳)有限公司 | 基于多评价因子融合的多目标对象评价方法及其相关设备 |
-
2021
- 2021-09-16 CN CN202111089416.1A patent/CN113761134A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190103102A1 (en) * | 2017-10-04 | 2019-04-04 | The Toronto-Dominion Bank | Persona-based conversational interface personalization using social network preferences |
CN109784671A (zh) * | 2018-12-24 | 2019-05-21 | 远光软件股份有限公司 | 一种基于用户行为分析的用户体验质量评估方法及系统 |
CN111444428A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 |
CN111723256A (zh) * | 2020-06-03 | 2020-09-29 | 开普云信息科技股份有限公司 | 一种基于信息资源库的政务用户画像构建方法及其系统 |
CN112035541A (zh) * | 2020-08-28 | 2020-12-04 | 平安科技(深圳)有限公司 | 客户画像方法、装置、计算机可读存储介质及终端设备 |
CN112308173A (zh) * | 2020-12-28 | 2021-02-02 | 平安科技(深圳)有限公司 | 基于多评价因子融合的多目标对象评价方法及其相关设备 |
Non-Patent Citations (1)
Title |
---|
王洪伟;邹莉: "考虑长期与短期兴趣因素的用户偏好建模", 《同济大学学报(自然科学版)》, no. 6, 30 June 2013 (2013-06-30), pages 953 - 960 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3819821B1 (en) | User feature generating method, device, and apparatus, and computer-readable storage medium | |
US20230325691A1 (en) | Systems and methods of processing personality information | |
EP2960849A1 (en) | Method and system for recommending an item to a user | |
CN108021673A (zh) | 一种用户兴趣模型生成方法、职位推荐方法及计算设备 | |
CN112231533A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111967914A (zh) | 基于用户画像的推荐方法、装置、计算机设备和存储介质 | |
CN111695084A (zh) | 模型生成方法、信用评分生成方法、装置、设备及存储介质 | |
Saleem et al. | Personalized decision-strategy based web service selection using a learning-to-rank algorithm | |
US20230342797A1 (en) | Object processing method based on time and value factors | |
CN112184046A (zh) | 广告业务用户价值评估方法、装置、设备及存储介质 | |
CN112418978A (zh) | 产品推荐方法、装置、设备及介质 | |
CN114201626B (zh) | 多媒体推荐方法、装置、电子设备及存储介质 | |
CN113761193A (zh) | 日志分类方法、装置、计算机设备和存储介质 | |
CN111738754A (zh) | 对象推荐方法及装置、存储介质、计算机设备 | |
CN111651666A (zh) | 用户主题推荐方法、装置、计算机设备及存储介质 | |
US11977565B2 (en) | Automated data set enrichment, analysis, and visualization | |
CN112925723B (zh) | 测试服务推荐方法、装置、计算机设备及存储介质 | |
CN113761134A (zh) | 用户画像构建方法、装置、计算机设备及存储介质 | |
WO2021129368A1 (zh) | 一种客户类型的确定方法及装置 | |
CN114266625A (zh) | 基于新用户的推荐方法、装置、设备及存储介质 | |
CN110929163B (zh) | 课程推荐方法、装置、计算机设备及存储介质 | |
CN113850416A (zh) | 广告推广合作对象确定方法和装置 | |
CN114238044A (zh) | 开源项目活跃度的计算方法、装置和计算机设备 | |
CN113724044A (zh) | 基于用户画像的商品推荐、装置、计算机设备和存储介质 | |
Allanson et al. | Comparing healthcare quality: A common framework for both ordinal and cardinal data with an application to primary care variation in England |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |