CN111079056A - 提取用户画像的方法、装置、计算机设备和存储介质 - Google Patents
提取用户画像的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111079056A CN111079056A CN201910964648.3A CN201910964648A CN111079056A CN 111079056 A CN111079056 A CN 111079056A CN 201910964648 A CN201910964648 A CN 201910964648A CN 111079056 A CN111079056 A CN 111079056A
- Authority
- CN
- China
- Prior art keywords
- user
- target
- vector
- target user
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 133
- 238000012216 screening Methods 0.000 claims abstract description 20
- 230000002776 aggregation Effects 0.000 claims abstract description 14
- 238000004220 aggregation Methods 0.000 claims abstract description 14
- 230000004913 activation Effects 0.000 claims abstract description 7
- 230000008451 emotion Effects 0.000 claims description 41
- 238000004891 communication Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请揭示了一种提取用户画像的方法、装置、计算机设备和存储介质,其中方法包括:提取出目标用户的目标数据,以及与目标用户交互的其他用户的用户账号;获取所述其他用户的其他数据;将所述目标数据转换成目标向量,将所述其他数据转换成其他向量;根据画像需求,筛选出关联用户;将目标向量与关联用户的其他向量进行聚合函数运算,将聚合结果加入到卷积层,再进行激活函数运算,得到目标用户的更新向量;基于更新向量,得到目标用户的用户画像。本申请在提取目标用户的信息时,还将与目标用户交互较多的其他用户的信息提取出来,使其他用户的特征也作为其中一个参考信息来对目标用户进行画像,这样使得目标用户的画像更加准确客观。
Description
技术领域
本申请涉及到计算机技术领域,特别是涉及到一种提取用户画像的方法、装置、计算机设备和存储介质。
背景技术
目前对用户的画像进行提取时,往往会根据用户在服务器中阅读的文章记录、购买的历史记录、发表的评论等交互记录来提取分析出用户的喜好,从而对用户进行画像。这样提取出来的画像,由于只考虑用户自身的因素,所以提取出的用户画像不是很准确。
发明内容
本申请的主要目的为提供一种更加深度对用户进行画像的提取用户画像的方法、装置、计算机设备和存储介质。
为了实现上述发明目的,本申请提出一种提取用户的画像方法,包括:
提取出目标用户的目标数据,所述目标数据包括目标用户在服务器中的使用日志以及,与目标用户交互的其他用户的用户账号;
根据所述其他用户的用户账号,获取所述其他用户的其他数据,所述其他数据包括其他用户在服务器中的使用日志;
将所述目标数据转换成目标向量,将所述其他数据转换成其他向量;
读取后台发送的画像需求,在其他用户中筛选出与目标用户匹配的关联用户;
将目标向量与关联用户对应的其他向量进行聚合函数运算,然后将聚合结果加入到卷积层,再进行激活函数运算,得到目标用户的更新向量;
基于所述更新向量,得到所述目标用户的用户画像。
进一步地,所述目标数据包括目标用户发表评论的文本信息,所述将所述目标数据转换成目标向量的步骤,包括:
获取所述目标数据中的目标用户发表评论的文本信息;
将所述文本信息输入到预设的向量模型中,得到所述文本信息对应的情感特征值;
根据所述向量模型的情感类型数量,生成一个向量,所述向量的维度数与所述情感类型数量相同,然后将所述情感特征值作为向量的值填入到向量中,形成所述目标向量。
进一步地,所述读取后台发送的画像需求,在其他用户中筛选出与所述目标用户匹配的关联用户的步骤,包括:
分别获取目标用户与其他用户的交流互动信息;
根据每一个所述交流互动信息,分别计算得到目标用户与每一个其他用户的亲密值;
根据后台发送的画像需求,在亲密值超过预设的亲密阈值对应的其他用户中筛选出与目标用户匹配的关联用户。
进一步地,所述的基于所述更新向量,得到所述目标用户的用户画像的步骤,包括:
获取所述更新向量的每一个更新数值;
判断每一个更新数值是否超出所述更新数值对应的维度阈值范围;
若所述更新数值超过对应的维度阈值范围的上限阈值或低于所述维度阈值的下限阈值,将所述上限阈值对应的上限特征或所述下限阈值对应的下限特征作为所述目标用户的用户画像。
进一步地,所述基于所述更新向量,得到所述目标用户的用户画像的步骤之后,包括:
向所述目标用户发送与所述用户画像对应的推送信息。
进一步地,所述基于所述更新向量,得到所述目标用户的用户画像的步骤之后,包括:
根据所述目标用户以及所述关联用户,构建拓扑图;
将关联用户与目标用户之间的物理链路渲染成与亲密值大小对应的颜色;
将所述拓扑图发送给指定的终端。
进一步地,所述拓扑图为星型结构拓扑图,所述根据所述目标用户以及所述关联用户,构建拓扑图的步骤,包括:
根据各所述关联用户的亲密值计算各关联用户对应的物理链路的长度值,所述物理链路的长度值与所述亲密值负相关;
以所述目标数据为中心节点,根据各所述关联用户以及对应的物理链路的长度,构建星型结构拓扑图。
本申请还提供一种提取用户画像的装置,包括:
提取模块,用于提取出目标用户的目标数据,所述目标数据包括目标用户在服务器中的使用日志以及,与目标用户交互的其他用户的用户账号;
获取模块,用于根据所述其他用户的用户账号,获取所述其他用户的其他数据,所述其他数据包括其他用户在服务器中的使用日志;
转换模块,用于将所述目标数据转换成目标向量,将所述其他数据转换成其他向量;
筛选模块,用于读取后台发送的画像需求,在其他用户中筛选出与目标用户匹配的关联用户;
计算模块,用于将目标向量与关联用户对应的其他向量进行聚合函数运算,然后将聚合结果加入到卷积层,再进行激活函数运算,得到目标用户的更新向量;
得到模块,用于基于所述更新向量,得到所述目标用户的用户画像。
进一步地,所述目标数据包括目标用户发表评论的文本信息,所述转换模块包括:
第一获取单元,用于获取所述目标数据中的目标用户发表评论的文本信息;
输入单元,用于将所述文本信息输入到预设的向量模型中,得到所述文本信息对应的情感特征值;
填入单元,用于根据所述向量模型的情感类型数量,生成一个向量,所述向量的维度数与所述情感类型数量相同,然后将所述情感特征值作为向量的值填入到向量中,形成所述目标向量。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的提取用户画像的方法、装置、计算机设备和存储介质,在提取目标用户的信息时,还将与目标用户交互较多的其他用户的信息提取出来,使其他用户的特征也作为其中一个参考信息来对目标用户进行画像,这样使得目标用户的画像更加准确客观。
附图说明
图1为本申请一实施例的提取用户画像的方法的流程示意图;
图2为本申请一实施例的提取用户画像的装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种提取用户画像的方法,包括步骤:
S1、提取出目标用户的目标数据,所述目标数据包括目标用户在服务器中的使用日志以及,与目标用户交互的其他用户的用户账号;
S2、根据所述其他用户的用户账号,获取所述其他用户的其他数据,所述其他数据包括其他用户在服务器中的使用日志;
S3、将所述目标数据转换成目标向量,将所述其他数据转换成其他向量;
S4、读取后台发送的画像需求,在其他用户中筛选出与目标用户匹配的关联用户;
S5、将目标向量与关联用户对应的其他向量进行聚合函数运算,然后将聚合结果加入到卷积层,再进行激活函数运算,得到目标用户的更新向量;
S6、基于所述更新向量,得到所述目标用户的用户画像。
如上述步骤S1所述,服务器限定于应用于面向个人端的服务器,人们通过手机、电脑等终端访问服务器后注册账户。工作人员需要对某一用户建立画像时,该某一用户即为目标用户。服务器根据工作人员提出的对目标用户建立用户画像的请求,读取请求中的目标用户的用户信息,具体的,读取该目标用户在服务器注册账户时生成的用户账号,然后将该用户账号作为关键词,搜索目标用户在服务器中的所有的记录数据,得到目标用户的目标数据。目标数据包括目标用户使用账户的使用时间、使用间隔、打开网页的链接次数、登录时间、关注好友、参加的活动、有看过的文章、购买产品的次数、购买产品的金额,因此,可以得知目标数据不是单纯的指阿拉伯数字,是包括目标用户的信息的数据。同时目标数据还包括与其他用户交互的其他用户的用户账号。目标用户通过账户在服务器进行活动的记录均会产生数据,形成该目标用户的目标数据。
如上述步骤S2所述,服务器在步骤S1中获取到了与目标用户交互的其他用户,同时服务器还获取了其他用户的用户账号,然后根据其他用户的用户账号,在服务器中查找其他用户的用户账号对应的其他数据。每一个其他用户对应一个其他数据。其他用户的其他数据与目标数据的类型相同。
如上述步骤S3所述,服务器得到了目标用户的目标数据和至少一个其他用户的其他数据后,根据预设的向量模型,将目标数据中的每一个子目标数据转换成一个数字,目标数据中包含有N个维度,其中N为正整数,则服务器根据向量模型,将目标数据转换得到一个N维向量,将每一个其他数据转换得到一个N维向量。向量模型会将每一个子目标数据转换成数字,然后按照一定的规律组合形成该目标数据的向量。将子目标数据转换成数字时,首先将目标数据中的关键词提取出来,每一个子目标数据根据属性来提取出关键词,如使用时间的关键词就是使用该APP的时长,可以是以小时为单位进行提取该信息,从而直接提取出数字来,作为该子目标数据的数字;如购买产品的金额的关键词就是该用户在服务器中记录的购买金额,可以是以万元为单位进行提取该信息,从而直接提取出数字来,作为该子目标数据的数字;若有的子目标数据中不包含数字,读取该子目标数据的文本信息,将文本信息输入到与该子目标数据的属性对应的特征模型中,得到文本信息的特征,然后再根据特征与数字的对应关系,得到该子目标数据的数字,向量模型中的特征模型是工作人员根据该子目标数据对应的目标属性训练后得到的。如此,向量模型将目标数据中的每一个子目标数据转换成数字后,将每一个数字作为一个维度,并按照一定的顺序组合,得到该目标数据的向量。
如上述步骤S4所述,根据工作人员的构建需求,即需要得到用户的画像的方向,在其他用户中筛选与目标用户匹配的关联用户。工作人员的构建需求中,包含有上述拓扑的N个维度中的M个,M是小于N的正整数。匹配的过程是,M个维度中,对应的向量值高于预设的阈值,则判定该其他用户与目标用户匹配成功,是关联用户。
如上述步骤S5所述,对于目标向量x(i),需要计算与其他的关联用户的向量的x(j)的融合,由于每个邻居节点对该节点X的影响不同,所以需要进行不同的权重计算,假设邻居节点的向量为v为该节点,其中N(v)是u的所有邻居节点区间,假设的二阶邻居节点为其中t为u的邻居节点,然后通过计算
得到更新后的目标向量M(i),对于邻接点数目不足参数时,通过重复采样补齐到参数。之后加入卷积层,通过激活函数leaklyRelu运算,这一个方法能够根据不同的邻居安排不同的重要性,使得数据更加真实反映的实体的特征。
如上述步骤S6所述,得到了目标用户的更新向量后,根据更新向量中的较高的数值对应的维度,对目标用户进行画像。更新向量中同样具有N个维度,每个维度均是由一个数字来表示。其中,每个维度都具有工作人员预先设置该维度的标准数字。计算每一个维度的数字超过对应的标准数字的百分比,当某一个维度的百分比达到或超过阈值(50%),则将该维度设置为用户的标签。这样使得目标用户的画像经过了自注意力机制的计算,可以使用户的画像更加准确。
在一个实施例中,上述目标数据包括目标用户发表评论的文本信息,上述将目标数据转换成目标向量的步骤,包括:
S31、获取所述目标数据中的目标用户发表评论的文本信息;
S32、将所述文本信息输入到预设的向量模型中,得到所述文本信息对应的情感特征值;
S33、根据所述向量模型的情感类型数量,生成一个向量,所述向量的维度数与所述情感类型数量相同,然后将所述情感特征值作为向量的值填入到向量中,形成所述目标向量。
本实施例中,目标用户在使用APP时,读取了多篇文章,从而对多篇文章的评论,或者对其他用户的评论进行评论,均属于目标用户发表评论。通过目标用户的发表评论,也能体现出目标用户的喜好,从而可以作为提取目标用户的画像。此处采用LSTM神经网络模型作为计算文本信息的向量模型。LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是解决长序依赖问题的有效技术。向量模型是一个将LSTM-CNN模型经过大量训练后模型,用于将输入的文本信息经一系列计算后得出一个数据,该数据是情感特征值,即表达文章所带有的态度感情的数据。在一具体实施例中,消极和积极是两个对立面的感情。数据越大,表示越积极;数据越小,表示越消极。在其他具体实施例中,向量模型的情感特征值还可以是活泼与内向等多个对立面的感情。在对向量模型进行训练时,根据需要提取的画像类型设置多个情感维度,情感维度可以是指人的性格维度,也可以是人的喜好维度,也可以是两者的结合。在一具体实施例中,设置的画像情感维度的情感维度包括:善于思考、喜欢运动、喜欢文学这三个维度。在训练时,对测试文本信息添加这三个情感维度以及对应的情感特征系数,情感特征系数是工作人员根据测试文本信息对应的测试用户设置的,情感特征系数越高,表示越接近对应的情感维度,情感特征系数越低,表示越缺少对应的情感维度。然后将测试文本信息以及对应的情感特征系数输入到上述LSTM神经网络模型中,LSTM神经网络模型将文本信息作为输入层,情感特征系数作为输出层,进行训练。通过多次训练后,得到基于LSTM神经网络模型的向量模型。在提取目标用户的画像时,将目标用户的文本信息输出到训练后的向量模型中,向量模型读取目标用户的文本信息,输出与训练时对应的多个情感维度一一对应的情感特征值。同时,根据训练时的情感维度的数量A(A为正整数),生成一个A维向量,A维向量中有A个元素,将A个情感特征值作为A维向量的A个元素,得到目标向量。
在一个实施例中,上述读取后台发送的画像需求,在其他用户中筛选出与所述目标用户匹配的关联用户的步骤,包括:
S41、分别获取目标用户与其他用户的交流互动信息;
S42、根据每一个所述交流互动信息,分别计算得到目标用户与每一个其他用户的亲密值;
S43、根据后台发送的画像需求,在亲密值超过预设的亲密阈值对应的其他用户中筛选出与目标用户匹配的关联用户。
本实施例中,其他用户的特征会对目标用户有一定的影响,但是有的其他用户因与目标用户接触不多,从而不会产生很大的影响,因此有必要将一些与目标用户接触不多的其他用户的影响剔除。在服务器的数据库中找到目标用户与每一个其他用户的交流互动信息,包括交流的次数、交流的时间段、交流的字符数等。交流的次数越多,交流的时间长度处于预设的休闲时间段的多、交流的字符数越多,均表示目标用户与该其他用户的亲密度越高。提取出交流互动信息中的几个关键数值,然后将关键数值输入到预设的计算亲密值的公式中,得到目标用户与其他用户的亲密值。关键数值包括上述交流的次数、交流的时间长度处于预设的休闲时间段的时长、交流的字符数。每一个关键数值均有一个关键数值与分数值的对应关系,根据交流互动信息中,得到每一个关键数值对应的分数值,然后将每一个关键数值对应的分数值相加,得到亲密值。例如,交流互动信息的各个关键数值以及对应的分数值的对应关系如下表1:
表1
然后再读取后台的画像需求,看需要哪些方向的画像,从而选择亲密阈值。每一个画像需求均有一个对应的亲密阈值。然后将每一个目标用户对应的其他用户的亲密值与亲密阈值进行比较,从亲密值高于亲密阈值的其他用户中再按照上述的筛选方法,根据画像需求再筛选出与目标用户匹配的关联用户。
在一个实施例中,上述得到所述目标用户的用户画像的步骤,包括:
S61、获取所述更新向量的每一个更新数值;
S62、判断每一个更新数值是否超出所述更新数值对应的维度阈值范围;
S63、若所述更新数值超过对应的维度阈值范围的上限阈值或低于所述维度阈值的下限阈值,将所述上限阈值对应的上限特征或所述下限阈值对应的下限特征作为所述目标用户的用户画像。
本实施例中,每个更新向量均是由多个更新数值组成的,多个更新数值按照一定的顺序排列的,每个更新数值均有对应的一个维度,即该更新数值是什么属性的。例如,有一个更新向量是(5、60、89),5、60、89是三个更新数值。其中,第一个更新数值对应的是善于思考,第二个更新数值对应的维度是喜欢运动,第三个更新数值对应的维度是喜欢文学。每一个维度均有一个维度阈值范围,维度阈值范围包括一个上限阈值和一个下限阈值,对应的,每一个维度具有一个上限阈值对应的上限特征和一个下限阈值对应的下限特征。如,上述更新向量的第一个维度是善于思考,该维度的上限阈值是80,下限阈值是20,对应的维度阈值范围是20-80,上限阈值对应的上限特征是善于思考的人的特征:沉着冷静;下限特征是不喜欢思考的人的特征:头脑简单。每一个维度、在向量中的顺序、维度阈值范围、上限特征、下限特征这四者之间的对应关系均是工作人员预先设置后存储在数据库中的。服务器调用这个对应关系列表,将更新向量中的每一个更新数值与对应的维度阈值范围进行比较,如果更新数值超出维度阈值范围,说明目标用户在该维度对应的特征上是比较突出的,将该维度对应的特征作为目标用户的用户画像。突出包括向上突出和向下突出,根据更新数值超过上限阈值或低于下限阈值,将对应的上限特征或下限特征作为目标用户的用户画像,这样使刻画出来的用户画像更加准确。
在一个实施例中,上述基于所述更新向量,得到所述目标用户的用户画像的步骤之后,包括:
S7、向所述目标用户发送与所述用户画像对应的推送信息。
本实施例中,获取到目标用户的画像后,在数据库中查找与用户画像对应的文章,然后将该文章发送给目标用户,给目标用户更好的服务体验。服务器在查找与用户画像对应的文章时,首先将文章输入到上述LSTM模型中,得到文章的特征,然后看该特征是否是属于用户画像中的特征,如果是,就将该文章推送给目标用户。
在一个实施例中,上述基于所述更新向量,得到所述目标用户的用户画像的步骤之后,包括:
S8、根据所述目标用户以及所述关联用户,构建拓扑图;
S901、将关联用户与目标用户之间的物理链路渲染成与亲密值大小对应的颜色;
S9、将所述拓扑图发送给指定的终端。
本实施例中,服务器根据目标数据的类型,构建拓扑图,每一个目标数据的类型均是一个拓扑图的维度。拓扑图中有多个节点,其中以目标用户的账号为中心点,目标用户的每一个数据类型和一个关联用户的用户账号为其他节点,设置拓扑图,将目标用户的目标数据与关联用户的用户账号加载在该拓扑图中。拓扑图中目标用户与关联用户的是通过物理链路来连接,表示两者之间有关联。得到拓扑图后,再获取每一个关联用户与目标用户之间的亲密值,然后根据亲密值与颜色的对应关系,得到拓扑图中关联用户与目标用户之间的物理链路的颜色,然后将物理链路渲染成对应的颜色。可以给工作人员更加直观的感受,更清楚迅速的了解用户画像。在一具体实施例中,亲密阈值是60,亲密值为60-80对应的颜色是蓝色,亲密值为81-100对应的颜色是红色,亲密值为101以上对应的颜色是黑色。然后将该拓扑图发送给指定的终端,指定的终端是分析目标用户的画像的工作人员,将拓扑图发送给终端,便于工作人员很直观的了解目标用户的画像组成原因。
在一个实施例中,上述拓扑图为星型结构拓扑图,上述根据所述目标用户以及所述关联用户,构建拓扑图的步骤,包括:
S81、根据各所述关联用户的亲密值计算各关联用户对应的物理链路的长度值,所述物理链路的长度值与所述亲密值负相关;
S82、以所述目标数据为中心节点,根据各所述关联用户以及对应的物理链路的长度,构建星型结构拓扑图。
本实施例中,星型结构拓扑图由一个中心节点和多个目的节点。中心节点与每一个目的节点通过物理链路连接。物理链路具有长度这一属性,根据各关联用户计算物理链接的长度值,其中,物理链路的长度值与亲密值负相关,即亲密值越大,物理链路的长度值越小。在一具体实施例中,亲密值以F(a)表示,物理链路长度以G(a)表示,a表示一个关联用户。利用公式G(a)=1/F(a),来计算得到每一个关联用户对应的目的节点的物理链接的长度。然后将目标数据放入在星型结构拓扑图的中心节点位置,并根据每一个关联用户的其他数据放入到对应的目标节点位置,形成星型结构拓扑图。更进一步的,将亲密值低于预设的亲密阈值的其他用户的其他数据也加入到该星型结构拓扑图中,同时,将亲密值低于预设的亲密阈值的其他用户对应的物理链路的线采用虚线进行标示。
综上所述,本申请的提取用户画像的方法,在提取目标用户的信息时,还将与目标用户交互较多的其他用户的信息提取出来,使其他用户的特征也作为其中一个参考信息来对目标用户进行画像,这样使得目标用户的画像更加准确客观。
参照图2,本申请实施例中还提供一种提取用户画像的装置,包括:
提取模块1,用于提取出目标用户的目标数据,所述目标数据包括目标用户在服务器中的使用日志以及,与目标用户交互的其他用户的用户账号
获取模块2,用于根据所述其他用户的用户账号,获取所述其他用户的其他数据,所述其他数据包括其他用户在服务器中的使用日志;
转换模块3,用于将所述目标数据转换成目标向量,将所述其他数据转换成其他向量;
筛选模块4,用于读取后台发送的画像需求,在其他用户中筛选出与目标用户匹配的关联用户;
计算模块5,用于将目标向量与关联用户对应的其他向量进行聚合函数运算,然后将聚合结果加入到卷积层,再进行激活函数运算,得到目标用户的更新向量;
得到模块6,用于基于所述更新向量,得到所述目标用户的用户画像。
在一个实施例中,所述目标数据包括目标用户发表评论的文本信息,上述转换模块3包括:
第一获取单元,用于获取所述目标数据中的目标用户发表评论的文本信息;
输入单元,用于将所述文本信息输入到预设的向量模型中,得到所述文本信息对应的情感特征值;
填入单元,用于根据所述向量模型的情感类型数量,生成一个向量,所述向量的维度数与所述情感类型数量相同,然后将所述情感特征值作为向量的值填入到向量中,形成所述目标向量。
在一个实施例中,上述筛选模块4包括:
第二获取单元,用于分别获取目标用户与其他用户的交流互动信息;
计算单元,用于根据每一个所述交流互动信息,分别计算得到目标用户与每一个其他用户的亲密值;
筛选单元,用于根据后台发送的画像需求,在亲密值超过预设的亲密阈值对应的其他用户中筛选出与目标用户匹配的关联用户。
在一个实施例中,上述得到模块6包括:
第三获取单元,用于获取所述更新向量的每一个更新数值;
对比单元,用于判断每一个更新数值是否超出所述更新数值对应的维度阈值范围;
得到单元,用于若所述更新数值超过对应的维度阈值范围的上限阈值或低于所述维度阈值的下限阈值,将所述上限阈值对应的上限特征或所述下限阈值对应的下限特征作为所述目标用户的用户画像。
在一个实施例中,上述提取用户画像的装置还包括:
推送模块,用于向所述目标用户发送与所述用户画像对应的推送信息。
在一个实施例中,上述提取用户画像的装置还包括:
构建模块,用于根据所述目标用户以及所述关联用户,构建拓扑图;
渲染模块,用于将关联用户与目标用户之间的物理链路渲染成与亲密值大小对应的颜色。
发送模块,用于将所述拓扑图发送给指定的终端。
在一个实施例中,所述拓扑图为星型结构拓扑图,上述构建模块包括:
计算长度单元,用于根据各所述关联用户的亲密值计算各关联用户对应的物理链路的长度值,所述物理链路的长度值与所述亲密值负相关;
构建单元,用于以所述目标数据为中心节点,根据各所述关联用户以及对应的物理链路的长度,构建星型结构拓扑图。
综上所述,本申请的提取用户画像的装置,在提取目标用户的信息时,还将与目标用户交互较多的其他用户的信息提取出来,使其他用户的特征也作为其中一个参考信息来对目标用户进行画像,这样使得目标用户的画像更加准确客观。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标用户的目标数据、使用日志等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提取用户画像的方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种提取用户画像的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种提取用户画像的方法,其特征在于,包括:
提取出目标用户的目标数据,所述目标数据包括目标用户在服务器中的使用日志以及,与目标用户交互的其他用户的用户账号;
根据所述其他用户的用户账号,获取所述其他用户的其他数据,所述其他数据包括其他用户在服务器中的使用日志;
将所述目标数据转换成目标向量,将所述其他数据转换成其他向量;
读取后台发送的画像需求,在其他用户中筛选出与目标用户匹配的关联用户;
将目标向量与关联用户对应的其他向量进行聚合函数运算,然后将聚合结果加入到卷积层,再进行激活函数运算,得到目标用户的更新向量;
基于所述更新向量,得到所述目标用户的用户画像。
2.如权利要求1所述的提取用户画像的方法,其特征在于,所述目标数据包括目标用户发表评论的文本信息,所述将所述目标数据转换成目标向量的步骤,包括:
获取所述目标数据中的目标用户发表评论的文本信息;
将所述文本信息输入到预设的向量模型中,得到所述文本信息对应的情感特征值;
根据所述向量模型的情感类型数量,生成一个向量,所述向量的维度数与所述情感类型数量相同,然后将所述情感特征值作为向量的值填入到向量中,形成所述目标向量。
3.如权利要求1所述的提取用户画像的方法,其特征在于,所述读取后台发送的画像需求,在其他用户中筛选出与所述目标用户匹配的关联用户的步骤,包括:
分别获取目标用户与其他用户的交流互动信息;
根据每一个所述交流互动信息,分别计算得到目标用户与每一个其他用户的亲密值;
根据后台发送的画像需求,在亲密值超过预设的亲密阈值对应的其他用户中筛选出与目标用户匹配的关联用户。
4.如权利要求1所述的提取用户画像的方法,其特征在于,所述基于所述更新向量,得到所述目标用户的用户画像的步骤,包括:
获取所述更新向量的每一个更新数值;
判断每一个更新数值是否超出所述更新数值对应的维度阈值范围;
若所述更新数值超过对应的维度阈值范围的上限阈值或低于所述维度阈值的下限阈值,将所述上限阈值对应的上限特征或所述下限阈值对应的下限特征作为所述目标用户的用户画像。
5.如权利要求3所述的提取用户画像的方法,其特征在于,所述基于所述更新向量,得到所述目标用户的用户画像的步骤之后,包括:
根据所述目标用户以及所述关联用户,构建拓扑图;
将关联用户与目标用户之间的物理链路渲染成与亲密值大小对应的颜色;
将所述拓扑图发送给指定的终端。
6.如权利要求5所述的提取用户画像的方法,其特征在于,所述拓扑图为星型结构拓扑图,所述根据所述目标用户以及所述关联用户,构建拓扑图的步骤,包括:
根据各所述关联用户的亲密值计算各关联用户对应的物理链路的长度值,所述物理链路的长度值与所述亲密值负相关;
以所述目标数据为中心节点,根据各所述关联用户以及对应的物理链路的长度,构建星型结构拓扑图。
7.一种提取用户画像的装置,其特征在于,包括:
提取模块,用于提取出目标用户的目标数据,所述目标数据包括目标用户在服务器中的使用日志以及,与目标用户交互的其他用户的用户账号;
获取模块,用于根据所述其他用户的用户账号,获取所述其他用户的其他数据,所述其他数据包括其他用户在服务器中的使用日志;
转换模块,用于将所述目标数据转换成目标向量,将所述其他数据转换成其他向量;
筛选模块,用于读取后台发送的画像需求,在其他用户中筛选出与目标用户匹配的关联用户;
计算模块,用于将目标向量与关联用户对应的其他向量进行聚合函数运算,然后将聚合结果加入到卷积层,再进行激活函数运算,得到目标用户的更新向量;
得到模块,用于基于所述更新向量,得到所述目标用户的用户画像。
8.如权利要求7所述的提取用户画像的装置,其特征在于,所述目标数据包括目标用户发表评论的文本信息,所述转换模块包括:
第一获取单元,用于获取所述目标数据中的目标用户发表评论的文本信息;
输入单元,用于将所述文本信息输入到预设的向量模型中,得到所述文本信息对应的情感特征值;
填入单元,用于根据所述向量模型的情感类型数量,生成一个向量,所述向量的维度数与所述情感类型数量相同,然后将所述情感特征值作为向量的值填入到向量中,形成所述目标向量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964648.3A CN111079056A (zh) | 2019-10-11 | 2019-10-11 | 提取用户画像的方法、装置、计算机设备和存储介质 |
PCT/CN2020/105880 WO2021068608A1 (zh) | 2019-10-11 | 2020-07-30 | 提取用户画像的方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964648.3A CN111079056A (zh) | 2019-10-11 | 2019-10-11 | 提取用户画像的方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079056A true CN111079056A (zh) | 2020-04-28 |
Family
ID=70310294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910964648.3A Pending CN111079056A (zh) | 2019-10-11 | 2019-10-11 | 提取用户画像的方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111079056A (zh) |
WO (1) | WO2021068608A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612280A (zh) * | 2020-06-16 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种数据分析方法和装置 |
CN111639700A (zh) * | 2020-05-28 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 目标相似度识别方法、装置、计算机设备及可读存储介质 |
CN111782959A (zh) * | 2020-07-20 | 2020-10-16 | 深圳市欢太科技有限公司 | 用户画像更新方法、装置、计算机设备及存储介质 |
CN111797327A (zh) * | 2020-06-04 | 2020-10-20 | 南京擎盾信息科技有限公司 | 社交网络建模的方法及装置 |
CN112307332A (zh) * | 2020-10-16 | 2021-02-02 | 四川大学 | 基于用户画像聚类的协同过滤推荐方法、系统及存储介质 |
CN112465565A (zh) * | 2020-12-11 | 2021-03-09 | 加和(北京)信息科技有限公司 | 一种基于机器学习的用户画像预测的方法及装置 |
WO2021068608A1 (zh) * | 2019-10-11 | 2021-04-15 | 深圳壹账通智能科技有限公司 | 提取用户画像的方法、装置、计算机设备和存储介质 |
CN113344638A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种基于超图的电网用户族群画像构建方法及装置 |
CN113486250A (zh) * | 2021-07-28 | 2021-10-08 | 中移(杭州)信息技术有限公司 | 内容推荐方法、装置、设备及计算机可读存储介质 |
CN115423565A (zh) * | 2022-09-15 | 2022-12-02 | 卢施施 | 应用于云端互联网交互流程的大数据分析方法及ai系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094586A (zh) * | 2021-04-21 | 2021-07-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 推送ugc的方法、装置、设备及存储介质 |
CN113411253B (zh) * | 2021-06-30 | 2022-10-28 | 平安普惠企业管理有限公司 | 基于邮件的关系拓扑分析方法、装置、终端设备及介质 |
CN115760200B (zh) * | 2023-01-06 | 2023-07-04 | 万链指数(青岛)信息科技有限公司 | 基于金融交易数据的用户画像构建方法 |
CN115878682B (zh) * | 2023-03-08 | 2023-05-26 | 陕西云算珠网络科技有限公司 | 一种智能化数据处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110097694A1 (en) * | 2009-10-26 | 2011-04-28 | Hon Hai Precision Industry Co., Ltd. | Interpersonal relationships analysis system and method |
CN109002490A (zh) * | 2018-06-26 | 2018-12-14 | 腾讯科技(深圳)有限公司 | 用户画像生成方法、装置、服务器及存储介质 |
CN110019837A (zh) * | 2017-12-22 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 用户画像的生成方法及装置、计算机设备及可读介质 |
CN110175264A (zh) * | 2019-04-23 | 2019-08-27 | 深圳市傲天科技股份有限公司 | 视频用户画像的构建方法、服务器及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520470B (zh) * | 2017-02-28 | 2022-06-03 | 百度在线网络技术(北京)有限公司 | 用于生成用户属性信息的方法和装置 |
CN107862053A (zh) * | 2017-11-08 | 2018-03-30 | 北京奇虎科技有限公司 | 基于用户关系的用户画像构造方法、装置及计算设备 |
WO2019140703A1 (zh) * | 2018-01-22 | 2019-07-25 | 华为技术有限公司 | 一种用户画像的生成方法及装置 |
CN109858806A (zh) * | 2019-01-30 | 2019-06-07 | 网易(杭州)网络有限公司 | 数据处理的方法、装置、介质和电子设备 |
CN111079056A (zh) * | 2019-10-11 | 2020-04-28 | 深圳壹账通智能科技有限公司 | 提取用户画像的方法、装置、计算机设备和存储介质 |
-
2019
- 2019-10-11 CN CN201910964648.3A patent/CN111079056A/zh active Pending
-
2020
- 2020-07-30 WO PCT/CN2020/105880 patent/WO2021068608A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110097694A1 (en) * | 2009-10-26 | 2011-04-28 | Hon Hai Precision Industry Co., Ltd. | Interpersonal relationships analysis system and method |
CN110019837A (zh) * | 2017-12-22 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 用户画像的生成方法及装置、计算机设备及可读介质 |
CN109002490A (zh) * | 2018-06-26 | 2018-12-14 | 腾讯科技(深圳)有限公司 | 用户画像生成方法、装置、服务器及存储介质 |
CN110175264A (zh) * | 2019-04-23 | 2019-08-27 | 深圳市傲天科技股份有限公司 | 视频用户画像的构建方法、服务器及计算机可读存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021068608A1 (zh) * | 2019-10-11 | 2021-04-15 | 深圳壹账通智能科技有限公司 | 提取用户画像的方法、装置、计算机设备和存储介质 |
CN111639700A (zh) * | 2020-05-28 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 目标相似度识别方法、装置、计算机设备及可读存储介质 |
CN111797327A (zh) * | 2020-06-04 | 2020-10-20 | 南京擎盾信息科技有限公司 | 社交网络建模的方法及装置 |
CN111612280A (zh) * | 2020-06-16 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种数据分析方法和装置 |
CN111612280B (zh) * | 2020-06-16 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 一种数据分析方法和装置 |
CN111782959A (zh) * | 2020-07-20 | 2020-10-16 | 深圳市欢太科技有限公司 | 用户画像更新方法、装置、计算机设备及存储介质 |
CN111782959B (zh) * | 2020-07-20 | 2023-07-14 | 深圳市与飞科技有限公司 | 用户画像更新方法、装置、计算机设备及存储介质 |
CN112307332A (zh) * | 2020-10-16 | 2021-02-02 | 四川大学 | 基于用户画像聚类的协同过滤推荐方法、系统及存储介质 |
CN112465565A (zh) * | 2020-12-11 | 2021-03-09 | 加和(北京)信息科技有限公司 | 一种基于机器学习的用户画像预测的方法及装置 |
CN112465565B (zh) * | 2020-12-11 | 2023-09-26 | 加和(北京)信息科技有限公司 | 一种基于机器学习的用户画像预测的方法及装置 |
CN113344638A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种基于超图的电网用户族群画像构建方法及装置 |
CN113344638B (zh) * | 2021-06-29 | 2022-05-24 | 云南电网有限责任公司信息中心 | 一种基于超图的电网用户族群画像构建方法及装置 |
CN113486250A (zh) * | 2021-07-28 | 2021-10-08 | 中移(杭州)信息技术有限公司 | 内容推荐方法、装置、设备及计算机可读存储介质 |
CN113486250B (zh) * | 2021-07-28 | 2023-09-05 | 中移(杭州)信息技术有限公司 | 内容推荐方法、装置、设备及计算机可读存储介质 |
CN115423565A (zh) * | 2022-09-15 | 2022-12-02 | 卢施施 | 应用于云端互联网交互流程的大数据分析方法及ai系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021068608A1 (zh) | 2021-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079056A (zh) | 提取用户画像的方法、装置、计算机设备和存储介质 | |
Zhao et al. | Deep reinforcement learning for page-wise recommendations | |
CN111061946B (zh) | 场景化内容推荐方法、装置、电子设备及存储介质 | |
CN109582876B (zh) | 旅游行业用户画像构造方法、装置和计算机设备 | |
US20220067115A1 (en) | Information processing method, apparatus, electrical device and readable storage medium | |
CN110738545A (zh) | 基于用户意向识别的产品推荐方法、装置、计算机设备和存储介质 | |
WO2016015444A1 (zh) | 一种目标用户的确定方法、设备和网络服务器 | |
CN111506820B (zh) | 推荐模型、方法、装置、设备及存储介质 | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN110597965B (zh) | 文章的情感极性分析方法、装置、电子设备及存储介质 | |
CN109376237A (zh) | 客户稳定性的预测方法、装置、计算机设备和存储介质 | |
CN111309887B (zh) | 一种训练文本关键内容提取模型的方法和系统 | |
CN111159570B (zh) | 一种信息推荐方法及服务器 | |
Khan et al. | Collaborative filtering based online recommendation systems: A survey | |
CN112905876A (zh) | 基于深度学习的信息推送方法、装置和计算机设备 | |
CN111475628B (zh) | 会话数据处理方法、装置、计算机设备和存储介质 | |
CN113112282A (zh) | 基于客户画像处理咨诉问题的方法、装置、设备及介质 | |
CN114399396A (zh) | 保险产品推荐方法、装置、计算机设备及存储介质 | |
CN113420203A (zh) | 对象推荐方法、装置、电子设备及存储介质 | |
CN116701791B (zh) | 基于人工智能的课程推荐方法及系统 | |
CN113158057A (zh) | 佛经推荐处理、装置、计算机设备及存储介质 | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN116431912A (zh) | 用户画像推送方法及装置 | |
CN113434633B (zh) | 基于头像的社交话题推荐方法、装置、设备及存储介质 | |
CN113641897A (zh) | 基于会话文本的推荐方法和装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200428 |