CN108334519A - 一种用户画像中的用户标签获取方法及装置 - Google Patents

一种用户画像中的用户标签获取方法及装置 Download PDF

Info

Publication number
CN108334519A
CN108334519A CN201710044108.4A CN201710044108A CN108334519A CN 108334519 A CN108334519 A CN 108334519A CN 201710044108 A CN201710044108 A CN 201710044108A CN 108334519 A CN108334519 A CN 108334519A
Authority
CN
China
Prior art keywords
user
conversion
user tag
sub
confidence level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710044108.4A
Other languages
English (en)
Other versions
CN108334519B (zh
Inventor
张望
余可鸣
王冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710044108.4A priority Critical patent/CN108334519B/zh
Publication of CN108334519A publication Critical patent/CN108334519A/zh
Application granted granted Critical
Publication of CN108334519B publication Critical patent/CN108334519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Abstract

本公开揭示了一种用户画像中的用户标签获取方法及装置,该方法包括如下步骤:获取用户标签转换序列;在所述用户标签转换序列中选取符合用户标签转换规则的子转换序列;为所述子转换序列中每次用户标签转换生成相应的第一可信度权重;为所述子转换序列中的最后用户标签,生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重;获取具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签。本发明能够为用户画像获取更加准确的用户标签。

Description

一种用户画像中的用户标签获取方法及装置
技术领域
本公开涉及互联网领域,特别涉及一种用户画像中的用户标签获取方法及装置。
背景技术
用户画像,又称用户角色(Persona),用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型,也就是说,用户画像包含了多个用户标签。
目前,产品要做到精准运营需要有意识地建立用户标签库,可通过打电话给用户、面对面采访用户、问卷调查等方式获取用户信息,直接生成用户标签。对用户进行多次问卷调查不仅可以更新用户标签信息,还可以降低用户标签作弊的可能性。
现有技术中,如果获取哪个用户标签的次数最多,则将最多次数的用户标签作为该用户的用户标签。
例如,在2014.12-2016.1时间段内,共收集到同一用户13份有涉及婚恋状态的问卷(每月发放问卷一次,且问卷中涉及调查用户婚恋状态的题目一模一样),用户填答情况如下(从最早填写到最近填写):单身、备婚、新婚、新婚、新婚、新婚、新婚、新婚、新婚、新婚、新婚、新婚、已婚。根据现有技术,“新婚”这一用户标签出现的次数最多,因此得到的用户标签为“新婚”。
但是,该用户已结婚一年,并在最近一次问卷中填写“已婚”婚恋状态,因此现有技术无法得到用户的正确婚恋状态。
发明内容
为了解决相关技术中存在的无法准确获取用户标签的技术问题,本公开提供了一种用户画像中的用户标签获取方法及装置。
一种用户画像中的用户标签获取方法,包括如下步骤:
获取用户标签转换序列;
在所述用户标签转换序列中选取符合用户标签转换规则的子转换序列;
为所述子转换序列中每次用户标签转换生成相应的第一可信度权重;
为所述子转换序列中的最后用户标签,生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重;其中,所述相似子转换序列是指,具有所述最后用户标签的所有子转换序列;
获取具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签。
在一个实施例中,
所述用户标签转换序列是指,用户标签按时间顺序的转换序列;
为所述子转换序列中每次用户标签转换生成相应的第一可信度权重的步骤是:
在每次用户标签转换中获取转换后用户标签,并获取所述转换后用户标签与所述用户标签转换序列中最后用户标签之间的时间间隔;
为所述子转换序列中的每次用户标签转换,生成与所述时间间隔负相关的第一可信度权重。
在一个实施例中,
为所述子转换序列的最后用户标签生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重的步骤是:
为所述子转换序列中的最后用户标签生成与所述相似子转换序列中的每个第一可信度权重总和相等的第二可信度权重。
在一个实施例中,
为所述子转换序列中的每次用户标签转换,生成与所述时间间隔负相关的第一可信度权重的步骤为:
为所述子转换序列中的每次用户标签转换,生成随着所述时间间隔增加而指数衰减的第一可信度权重。
在一个实施例中,
为所述子转换序列中每次用户标签转换生成相应的第一可信度权重的步骤是:
在每次用户标签转换中获取转换后用户标签,与所述用户标签转换序列中最后用户标签之间的时间间隔;
获取所述时间间隔与所有时间间隔中最大时间间隔的比值,得到归一化时间间隔;
为所述子转换序列中的每次用户标签转换,生成与所述归一化时间间隔负相关的第一可信度权重。
本发明还提供了一种用户画像中的用户标签获取装置,包括:
第一获取单元,被配置为执行:获取用户标签转换序列;
选取单元,被配置为执行:在所述用户标签转换序列中选取符合用户标签转换规则的子转换序列;
第一生成单元,被配置为执行:为所述子转换序列中每次用户标签转换生成相应的第一可信度权重;
第二生成单元,被配置为执行:为所述子转换序列中的最后用户标签生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重;其中,所述相似子转换序列是指,具有所述最后用户标签的所有子转换序列;
第二获取单元,被配置为执行:获取具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签。
在一个实施例中,
所述用户标签转换序列是指,用户标签按时间顺序的转换序列;
所述第一生成单元被配置为执行:在每次用户标签转换中获取转换后用户标签,并获取所述转换后用户标签与所述用户标签转换序列中最后用户标签之间的时间间隔;
为所述子转换序列中的每次用户标签转换,生成与所述时间间隔负相关的第一可信度权重。
在一个实施例中,
所述第二生成单元被配置为执行:
为所述子转换序列中的最后用户标签,生成与所述相似子转换序列中的每个第一可信度权重总和相等的第二可信度权重。
在一个实施例中,
所述第一生成单元被配置为执行:为所述子转换序列中的每次用户标签转换,生成随着所述时间间隔增加而指数衰减的第一可信度权重。
在一个实施例中,
所述第一生成单元被配置为执行:在每次用户标签转换中获取转换后用户标签,并获取所述转换后用户标签与所述用户标签转换序列中最后用户标签之间的时间间隔;
获取所述时间间隔与所有时间间隔中最大时间间隔的比值,得到归一化时间间隔;
为所述子转换序列中的每次用户标签转换,生成与所述归一化时间间隔负相关的第一可信度权重。
本公开的实施例提供的技术方案可以包括以下有益效果:
在本实施例中,将多个用户标签组成用户标签转换序列,然后在用户标签转换序列选取出符合用户标签转换规则的子转换序列,从而可以识别出虚假的用户标签,然后为子转换序列中每次用户标签转换生成相应的第一可信度权重,为所述子转换序列中最后用户标签,与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重,最后将具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签,更加符合用户标签的转换规律,获取的用户标签能够更加准确地反映用户的真实状态,能够为用户画像获取更加准确的用户标签。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明一种实施例的用户画像中的用户标签获取方法流程图;
图2是本发明一种实施例的用户画像中的用户标签获取方法部分流程图;
图3是本发明一种实施例的用户画像中的用户标签获取装置框图;
图4是本发明另一种实施例的用户画像中的用户标签获取装置框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1所示,一种实施例的用户画像中的用户标签获取方法,包括如下步骤。
S100、获取用户标签转换序列。
可以通过多种不同的途径获取用户标签,例如通过打电话询问用户,或者面对面询问用户,或者通过问卷调查等方式。
将获取到的多个不同时期的用户标签按照时间顺序组成一个用户标签转换序列。
例如,对于婚恋状态,在2014.12-2016.1时间段内,共收集到同一用户13份有涉及婚恋状态的问卷(每月发放问卷一次,且问卷中涉及调查用户婚恋状态的题目一模一样),用户填答的婚恋状态如下(从最早填写到最近填写):单身、备婚、新婚、新婚、新婚、新婚、新婚、新婚、新婚、新婚、新婚、新婚、已婚。用户填答的婚恋状态即是每次获取的用户标签。
按照时间顺序将用户的上述用户标签组成一个用户标签转换序列:
→单身→备婚→新婚→新婚→新婚→新婚→新婚→新婚→新婚→新婚→新婚→新婚→已婚(每个箭头表示一次用户标签转换)。
S200、在所述用户标签转换序列中选取符合用户标签转换规则的子转换序列。
有些种类的用户标签,该种类的不同用户标签之间的转换具有一定的规律,或者具有一定的顺序。例如,某个用户标签A的下一个用户标签不可能是用户标签B。
基于此,对这类用户标签设置用户标签转换规则,用户标签转换规则用于评判用户标签的转换是否合法,如果用户标签的转换不符合用户标签转换规则,则表明获取的用户标签可能是虚假的。
子转换序列是指,用户标签转换序列中的某段用户标签转换序列,或者整段用户标签转换序列。值得指出的是,单个用户标签亦能构成一个子转换序列。
以婚恋状态用户标签为例,婚恋状态用户标签包括七个用户标签:单身未曾结婚、恋爱、备婚、新婚、已婚、暂时离异、离异。
七个用户标签中某些用户标签变成别的用户标签是合理的,譬如“新婚”→“已婚”;而某些用户标签变成另一个用户标签是不合理的,譬如“已婚”→“新婚”。因此,这里定下了七个婚恋状态之间的用户标签转换规则(若行选项到列选项是合理的则记为1,否则记为0)。
表1
在本实施例中,制定用户标签转换规则时,不考虑时间因素影响,即只按照婚恋状态定义制定逻辑规则。“已婚”的定义是结婚已超过一年,“新婚”的定义是领证或举办婚礼后不到1年。因此,“已婚”→“新婚”不符合本用户标签转换规则。因为既然用户已经“已婚”1年以上,那么相邻的下一阶段就不可能是处在结婚1年以内的“新婚”状态,只可能是“已婚”或者“离婚”。
例如某用户曾经填写了9份问卷,填写问卷日期和答案如表2所示。
表2
在表2中,问卷1是用户最早填写的,问卷9是用户最近填写的。
在本实施例中,用户标签转换序列为:
→“单身未曾结婚”→“备婚”→“备婚”→“备婚”→“备婚”→“新婚”→“新婚”→“已婚”→“单身未曾结婚”。
从用户标签转换序列中选取符合用户标签转换规则的子转换序列:
从“单身未曾结婚”用户标签到“备婚”用户标签是合理的,由“备婚”用户标签到“备婚”用户标签也是合理的,由“备婚”用户标签到“新婚”用户标签是合理的,由“新婚”用户标签到“已婚”用户标签时合理的,而由“已婚”用户标签到“单身未曾结婚”用户标签是不合理的。
因此,可以从用户标签转换序列中选取得到两个符合用户标签转换规则的子转换序列:
子转换序列1:→单身未曾结婚→备婚→备婚→备婚→备婚→新婚→新婚→已婚;
子转换序列2:→单身未曾结婚。
根据本实施例可知,在本发明中,子转换序列也可以只包含一个用户标签(例如子转换序列2),而只包含一个用户标签的子转换序列中的用户标签转换是指,从无用户标签(针对本子转换序列而言)到有用户标签的转换。
S300、为所述子转换序列中每次用户标签转换生成相应的第一可信度权重。
根据每次用户标签转换的可信度,生成对应的第一可信度权重。例如,某些问卷调查的可信度较高,对应的用户标签转换的可信度也越高,应生成越高的第一可信度权重。第一可信度权重反映了用户标签转换的可信度,用户标签转换的可信度越高,第一可信度权重越大,反之,用户标签转换的可信度越低,第一可信度权重越小。
例如,对于步骤S200中的子转换序列1,为每次用户标签转换生成的第一可信度权重分别为:
0.0405、0.0557、0.0557、0.0644、0.0701、0.0740、0.0993和0.2638。
S400、为所述子转换序列中的最后用户标签,生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重;其中,所述相似子转换序列是指,具有所述最后用户标签的所有子转换序列。
S500、获取具有最大第二可信度权重的最后用户标签,得到所述用户画像的用户标签。
每个子转换序列都具有一个最后用户标签(对于只包含一个用户标签的字转换序列来说,最后用户标签也是第一个用户标签),通常来说,每个子转换序列的最后用户标签最有可能是用户在对应阶段的正确用户标签。由于一个用户标签序列可能包含了多个子转换序列,且每个子转换序列的最后用户标签可能不同,因此,需要将最可能的最后用户标签,作为用户画像中的用户标签。
有些子转换序列的最后用户标签可能是相同的,这些子转换序列可以称为相似子转换序列。例如:子转换序列1为:→“已婚”,子转换序列2为:→“备婚”→“备婚”→“新婚”→“新婚”→“已婚”,子转换序列1和子转换序列2具有相同的最后用户标签,属于相似子转换序列。
对于每一个子转换序列的最后用户标签,如果每个第一可信度权重越大,该最后用户标签越能够体现用户的真实状态;而如果含有该最后用户标签的相似子转换序列越多,该最后用户标签也越能够体现用户的真实状态。
因此,为所述子转换序列中最后用户标签,生成与具有所述最后用户标签的所有子转换序列中每个第一可信度权重正相关的第二可信度权重。
在一个实施例中,分别计算每个子转换序列的每个第一可信度权重,然后对用户标签序列中的所有子转换序列进行处理:将相似子转换序列的第一可信度权重进行相加,得到该最后用户标签的第二可信度权重。
例如,子转换序列1为:→“已婚”,用户标签转换的第一可信度权重为:0.1;子转换序列2为:→“备婚”→“备婚”→“新婚”→“新婚”→“已婚”,每次用户标签转换的第一可信度分别为:0.1、0.1、0.1、0.1和0.1,那么,对于“已婚”用户标签,其第二可信度权重为:0.1+0.1+0.1+0.1+0.1+0.1+0.1=0.6。
在本实施例中,将多个用户标签组成用户标签转换序列,然后在用户标签转换序列选取出符合用户标签转换规则的子转换序列,从而可以识别出虚假的用户标签,然后为子转换序列中每次用户标签转换生成相应的第一可信度权重,为所述子转换序列中最后用户标签生成与具有所述最后用户标签的所有子转换序列中每个第一可信度权重正相关的第二可信度权重,最后将具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签。更加符合用户标签的转换规律,获取的用户标签能够更加准确地反映用户的真实状态,能够为用户画像获取更加准确的用户标签。
如图2所示,在一个实施例中,步骤S300为:
S301、在每次用户标签转换中获取转换后用户标签,并获取所述转换后用户标签与所述用户标签转换序列中最后用户标签之间的时间间隔。
以表2为例,用户标签转换序列中最后用户标签是问卷9的“单身未曾结婚”,第一次用户标签转换为:→“单身未曾结婚”,在第一次用户标签转换中获取的转换后用户标签即为:“单身未曾结婚”,因此,该转换后用户标签与最后用户标签之间的时间间隔为812天。
又如,用户标签转换序列中第二次用户标签转换为:“单身未曾结婚”→“备婚”,在第二次用户标签转换中获取的转换后用户标签即为:“备婚”,因此,该转换后的用户标签与最后用户标签之间的时间间隔为677天。
S302、为所述子转换序列中每次用户标签转换,生成与所述时间间隔负相关的第一可信度权重。
用户标签转换的可信程度是有时效性的,与用户标签转换序列中最后用户标签的时间间隔越近的用户标签转换,其第一可信度权重越高,与该最后用户标签的时间间隔越远的用户标签转换,其第一可信度权重越低。因此,生成与所述时间间隔负相关的第一可信度权重,可以使得到的第一可信度权重更加准确。
在一个实施例中,
在步骤S301之后在步骤S302之前,用户画像中的用户标签获取方法还包括如下步骤:
获取所述时间间隔与所有时间间隔中的最大时间间隔的比值,得到归一化时间间隔。
以表2为例,计算用户填写第i份问卷的日期Di距离填写第9份问卷日期D相差的天数Ti=D-Di(即从第i次用户标签转换中获取的转换后用户标签至最后用户标签的时间间隔),并进行归一化处理得到归一化时间间隔其中,max{T1,…,Tn}表示所有时间间隔中最大时间间隔,Tn指从第n次用户标签转换中获取的转换后用户标签至最后用户标签的时间间隔。
步骤S302为:
为所述子转换序列中每次用户标签转换,生成与所述归一化时间间隔负相关的第一可信度权重。
在一个实施例中,在步骤S302中,为所述子转换序列中每次用户标签转换,生成随着所述时间间隔增加而指数衰减的第一可信度权重。
例如,可以利用指数衰减函数e-λt作为时间衰减因子(其中λ为参数,t表示时间),时间衰减因子可以体现用户标签转换的第一可信度权重随着时间推移逐渐降低的过程,λ的取值范围是λ,λ值越大,时间衰减程度越明显,第一可信度权重衰减越快;λ值越小,时间衰减程度越不明显,即第一可信度权重衰减越不明显。
以表2为例,首先计算用户填写每份问卷日期距离最近填写问卷日期D相差的天数Ti=D-Di,并进行归一化处理得到归一化时间间隔其中,max{T1,…,Tn}表示所有时间间隔中最大时间间隔,Tn指从第n次用户标签转换中获取的转换后用户标签至最后用户标签的时间间隔。
然后计算第i次用户标签转换的第一可信度权重qi
取参数λ=2,根据计算第一可信度权重的公式(1),对表2的用户标签转换序列的每次用户标签转换的第一可信度权重进行计算,得到如表3的结果:
表3
婚恋状态变换过程 权重
→单身未曾结婚 0.0405
单身未曾结婚→备婚 0.0557
备婚→备婚 0.0557
备婚→备婚 0.0644
备婚→备婚 0.0701
备婚→新婚 0.0740
新婚→新婚 0.0993
新婚→已婚 0.2638
→单身未曾结婚 0.2766
最终得到表2用户标签转换序列中的每个子转换序列的最后用户标签的第二可信度权重:
子转换序列1的最后用户标签“已婚”的第二可信度权重为:0.0405+0.0557+0.0557+0.0644+0.0701+0.0740+0.0993+0.2638=0.7234。
子转换序列2的最后用户标签“单身未曾结婚”的第二可信度权重为:0.2766。
因此,在本实施例中,将用户标签“已婚”作为用户画像的用户标签。而按照现有技术,则会得到用户标签“备婚”,显然,本实施例得到的用户标签的准确率大于现有技术。
上述多个实施例的用户画像中的用户标签获取方法,可以由CPU、微处理器、FPGA、逻辑器件或者集成芯片等具有运算功能的硬件进行执行。
如图3所示,本发明实施例提供的一种计算机的结构,该计算机用于执行用户画像中的用户标签获取方法。
该计算机10可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)122(例如,一个或一个以上处理器)和存储器132,一个或一个以上存储应用程序142或数据144的存储媒体130(例如一个或一个以上海量存储设备)。其中,存储器132和存储媒体130可以是短暂存储或持久存储。执行用户画像中的用户标签获取方法的程序存储在存储媒体130。更进一步地,中央处理器110可以设置为与存储媒体130通信,在计算机10上执行存储介质130中的程序。服务器100还可以包括一个或一个以上电源126,一个或一个以上有线或无线网络接口150,一个或一个以上输入输出接口158,和/或,一个或一个以上操作系统141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
更具体的,中央处理器122从存储媒体130中读取程序运行后,开始执行步骤S100。
步骤S100得到的用户标签或用户标签转换序列被存储在存储器132中,中央处理器122从存储器132中读取用户标签或用户标签转换序列,从而获取该用户标签或用户标签转换序列。
在步骤S200中,中央处理器122在所述用户标签转换序列中选取符合用户标签转换规则的子转换序列。
在步骤S300中,中央处理器122为所述子转换序列中每次用户标签转换生成相应的第一可信度权重。
在步骤S400中,中央处理器122为所述子转换序列中的最后用户标签,生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重;其中,所述相似子转换序列是指,具有所述最后用户标签的所有子转换序列。
在步骤S500中,中央处理器122获取具有最大第二可信度权重的最后用户标签,得到所述用户画像的用户标签,并将用户画像的用户标签存入至存储器132中。
如图4所示,一种实施例的用户画像中的用户标签获取装置,包括:第一获取单元100、选取单元200、第一生成单元300、第二生成单元400和第二获取单元500。
第一获取单元100,被配置为执行:获取用户标签转换序列。
有些种类的用户标签,该种类的不同用户标签之间的转换具有一定的规律,或者具有一定的顺序。例如,某个用户标签A的下一个用户标签不可能是用户标签B。
基于此,对这类用户标签设置用户标签转换规则,用户标签转换规则用于评判用户标签的转换是否合法,如果用户标签的转换不符合用户标签转换规则,则表明获取的用户标签可能是虚假的。
子转换序列是指,用户标签转换序列中的某段用户标签转换序列,或者整段用户标签转换序列。值得指出的是,单个用户标签亦能构成一个子转换序列。以婚恋状态用户标签为例,婚恋状态用户标签包括七个用户标签:单身未曾结婚、恋爱、备婚、新婚、已婚、暂时离异、离异。
七个用户标签中某些用户标签变成别的用户标签是合理的,譬如“新婚”→“已婚”;而某些用户标签变成另一个用户标签是不合理的,譬如“已婚”→“新婚”。因此,这里定下了七个婚恋状态之间的用户标签转换规则(若行选项到列选项是合理的则记为1,否则记为0)。
在本实施例中,制定用户标签转换规则时,不考虑时间因素影响,即只按照婚恋状态定义制定逻辑规则。“已婚”的定义是结婚已超过一年,“新婚”的定义是领证或举办婚礼后不到1年。因此,“已婚”→“新婚”不符合本用户标签转换规则。因为既然用户已经“已婚”1年以上,那么相邻的下一阶段就不可能是处在结婚1年以内的“新婚”状态,只可能是“已婚”或者“离婚”。
选取单元200,被配置为执行:在所述用户标签转换序列中选取符合用户标签转换规则的子转换序列。
根据每次用户标签转换的可信度,生成对应的第一可信度权重。例如,某些问卷调查的可信度较高,对应的用户标签转换的可信度也越高,应生成越高的第一可信度权重。第一可信度权重反映了用户标签转换的可信度,用户标签转换的可信度越高,第一可信度权重越大,反之,用户标签转换的可信度越低,第一可信度权重越小。
第一生成单元300,被配置为执行:为所述子转换序列中每次用户标签转换生成相应的第一可信度权重。
根据每次用户标签转换的可信度,生成对应的第一可信度权重。例如,某些问卷调查的可信度较高,对应的用户标签转换的可信度也越高,应生成越高的第一可信度权重。第一可信度权重反映了用户标签转换的可信度,用户标签转换的可信度越高,第一可信度权重越大,反之,用户标签转换的可信度越低,第一可信度权重越小。
第二生成单元400,被配置为执行:为所述子转换序列中最后用户标签,生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重;其中,所述相似子转换序列是指,具有所述最后用户标签的所有子转换序列。
第二获取单元500,被配置为执行:获取具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签。
每个子转换序列都具有一个最后用户标签(对于只包含一个用户标签的字转换序列来说,最后用户标签也是第一个用户标签),通常来说,每个子转换序列的最后用户标签最有可能是用户在对应阶段的正确用户标签。由于一个用户标签序列可能包含了多个子转换序列,且每个子转换序列的最后用户标签可能不同,因此,需要将最可能的最后用户标签,作为用户画像中的用户标签。
有些子转换序列的最后用户标签可能是相同的,这些子转换序列可以称为相似子转换序列。例如:子转换序列1为:→“已婚”,子转换序列2为:→“备婚”→“备婚”→“新婚”→“新婚”→“已婚”,子转换序列1和子转换序列2具有相同的最后用户标签,属于相似子转换序列。
对于每一个子转换序列的最后用户标签,如果每个第一可信度权重越大,该最后用户标签越能够体现用户的真实状态;而如果含有该最后用户标签的相似子转换序列越多,该最后用户标签也越能够体现用户的真实状态。
因此,为所述子转换序列中最后用户标签,生成与相似子转换序列中每个第一可信度权重正相关的第二可信度权重。
在一个实施例中,分别计算每个子转换序列的每个第一可信度权重,然后对用户标签序列中的所有子转换序列进行处理:将相似子转换序列的第一可信度权重进行相加,得到该最后用户标签的第二可信度权重。
在本实施例中,将多个用户标签组成用户标签转换序列,然后在用户标签转换序列选取出符合用户标签转换规则的子转换序列,从而可以识别出虚假的用户标签,然后为子转换序列中每次用户标签转换生成相应的第一可信度权重,为所述子转换序列中最后用户标签生成与相似子转换序列中每个第一可信度权重正相关的第二可信度权重,最后将具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签。更加符合用户标签的转换规律,获取的用户标签能够更加准确地反映用户的真实状态,能够为用户画像获取更加准确的用户标签。
本实施例中的装置的具体执行方式已经在有关该对用户画像中的用户标签获取方法的实施例中执行了详细描述,此处将不做详细阐述说明。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种用户画像中的用户标签获取方法,其特征是,包括如下步骤:
获取用户标签转换序列;
在所述用户标签转换序列中选取符合用户标签转换规则的子转换序列;
为所述子转换序列中每次用户标签转换生成相应的第一可信度权重;
为所述子转换序列中的最后用户标签,生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重;其中,所述相似子转换序列是指,具有所述最后用户标签的所有子转换序列;
获取具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签。
2.如权利要求1所述的方法,其特征是,
所述用户标签转换序列是指,用户标签按时间顺序的转换序列;
为所述子转换序列中每次用户标签转换生成相应的第一可信度权重的步骤是:
在每次用户标签转换中获取转换后用户标签,并获取所述转换后用户标签与所述用户标签转换序列中最后用户标签之间的时间间隔;
为所述子转换序列中的每次用户标签转换,生成与所述时间间隔负相关的第一可信度权重。
3.如权利要求1所述的方法,其特征是,
为所述子转换序列的最后用户标签生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重的步骤是:
为所述子转换序列中的最后用户标签生成与所述相似子转换序列中的每个第一可信度权重总和相等的第二可信度权重。
4.如权利要求2所述的方法,其特征是,
为所述子转换序列中的每次用户标签转换,生成与所述时间间隔负相关的第一可信度权重的步骤为:
为所述子转换序列中的每次用户标签转换,生成随着所述时间间隔增加而指数衰减的第一可信度权重。
5.如权利要求2所述的方法,其特征是,
为所述子转换序列中每次用户标签转换生成相应的第一可信度权重的步骤是:
在每次用户标签转换中获取转换后用户标签,并获取所述转换后用户标签与所述用户标签转换序列中最后用户标签之间的时间间隔;
获取所述时间间隔与所有时间间隔中最大时间间隔的比值,得到归一化时间间隔;
为所述子转换序列中的每次用户标签转换,生成与所述归一化时间间隔负相关的第一可信度权重。
6.一种用户画像中的用户标签获取装置,其特征是,包括:
第一获取单元,被配置为执行:获取用户标签转换序列;
选取单元,被配置为执行:在所述用户标签转换序列中选取符合用户标签转换规则的子转换序列;
第一生成单元,被配置为执行:为所述子转换序列中每次用户标签转换生成相应的第一可信度权重;
第二生成单元,被配置为执行:为所述子转换序列中的最后用户标签生成与相似子转换序列中的每个第一可信度权重正相关的第二可信度权重;其中,所述相似子转换序列是指,具有所述最后用户标签的所有子转换序列;
第二获取单元,被配置为执行:获取具有最大第二可信度权重的最后用户标签,得到用户画像中的用户标签。
7.如权利要求6所述的装置,其特征是,
所述用户标签转换序列是指,用户标签按时间顺序的转换序列;
所述第一生成单元被配置为执行:在每次用户标签转换中获取转换后用户标签,并获取所述转换后用户标签与所述用户标签转换序列中最后用户标签之间的时间间隔;
为所述子转换序列中的每次用户标签转换,生成与所述时间间隔负相关的第一可信度权重。
8.如权利要求6所述的装置,其特征是,
所述第二生成单元被配置为执行:
为所述子转换序列中的最后用户标签,生成与所述相似子转换序列中的每个第一可信度权重总和相等的第二可信度权重。
9.如权利要求7所述的装置,其特征是,
所述第一生成单元被配置为执行:为所述子转换序列中的每次用户标签转换,生成随着所述时间间隔增加而指数衰减的第一可信度权重。
10.如权利要求7所述的装置,其特征是,
所述第一生成单元被配置为执行:在每次用户标签转换中获取转换后用户标签,并获取所述转换后用户标签与所述用户标签转换序列中最后用户标签之间的时间间隔;
获取所述时间间隔与所有时间间隔中最大时间间隔的比值,得到归一化时间间隔;
为所述子转换序列中的每次用户标签转换,生成与所述归一化时间间隔负相关的第一可信度权重。
CN201710044108.4A 2017-01-19 2017-01-19 一种用户画像中的用户标签获取方法及装置 Active CN108334519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710044108.4A CN108334519B (zh) 2017-01-19 2017-01-19 一种用户画像中的用户标签获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710044108.4A CN108334519B (zh) 2017-01-19 2017-01-19 一种用户画像中的用户标签获取方法及装置

Publications (2)

Publication Number Publication Date
CN108334519A true CN108334519A (zh) 2018-07-27
CN108334519B CN108334519B (zh) 2021-04-02

Family

ID=62922144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710044108.4A Active CN108334519B (zh) 2017-01-19 2017-01-19 一种用户画像中的用户标签获取方法及装置

Country Status (1)

Country Link
CN (1) CN108334519B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933698A (zh) * 2019-02-27 2019-06-25 腾讯科技(深圳)有限公司 一种用户画像的来源校验方法及装置
CN109992982A (zh) * 2019-04-11 2019-07-09 北京信息科技大学 大数据访问授权方法、装置和大数据平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006107799A1 (en) * 2005-04-01 2006-10-12 Motorola, Inc. Method and system for enhancing a user experience using a user's physiological state
CN101789026A (zh) * 2010-03-12 2010-07-28 曹学文 一种面向用户的网络问答搜索统计的信息处理方法
CN102122294A (zh) * 2011-01-29 2011-07-13 安徽工业大学 基于数据挖掘的大学生选课心理调查研究平台及方法
CN104182461A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种时间序列数据挖掘系统
CN105809557A (zh) * 2016-03-15 2016-07-27 微梦创科网络科技(中国)有限公司 一种挖掘社交网络中用户性别的方法和装置
CN106127515A (zh) * 2016-06-22 2016-11-16 北京网智天元科技股份有限公司 一种旅客画像及数据分析的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006107799A1 (en) * 2005-04-01 2006-10-12 Motorola, Inc. Method and system for enhancing a user experience using a user's physiological state
CN101789026A (zh) * 2010-03-12 2010-07-28 曹学文 一种面向用户的网络问答搜索统计的信息处理方法
CN102122294A (zh) * 2011-01-29 2011-07-13 安徽工业大学 基于数据挖掘的大学生选课心理调查研究平台及方法
CN104182461A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种时间序列数据挖掘系统
CN105809557A (zh) * 2016-03-15 2016-07-27 微梦创科网络科技(中国)有限公司 一种挖掘社交网络中用户性别的方法和装置
CN106127515A (zh) * 2016-06-22 2016-11-16 北京网智天元科技股份有限公司 一种旅客画像及数据分析的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933698A (zh) * 2019-02-27 2019-06-25 腾讯科技(深圳)有限公司 一种用户画像的来源校验方法及装置
CN109933698B (zh) * 2019-02-27 2021-06-08 腾讯科技(深圳)有限公司 一种用户画像的来源校验方法及装置
CN109992982A (zh) * 2019-04-11 2019-07-09 北京信息科技大学 大数据访问授权方法、装置和大数据平台

Also Published As

Publication number Publication date
CN108334519B (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
Jones et al. Age dynamics in scientific creativity
US8856229B2 (en) System and method for social networking
US11252534B2 (en) Method and apparatus for identifying types of user geographical locations
DiGrazia Using internet search data to produce state-level measures: The case of tea party mobilization
Weiß A new class of autoregressive models for time series of binomial counts
RU2013143815A (ru) Компьютерная система, база данных и использование таковых
CN111506723B (zh) 问答响应方法、装置、设备及存储介质
CN105488163B (zh) 信息推送方法和装置
US20170075896A1 (en) System and method for analyzing popularity of one or more user defined topics among the big data
CN103177066A (zh) 分析和表示人际关系
Casanovas et al. Decision making in reinsurance with induced OWA operators and Minkowski distances
CN114662696A (zh) 时间序列异常排名
Xiao et al. Ranking and selection for terminating simulation under sequential sampling
Srinivasa Rao et al. Design of multiple-deferred state sampling plans for exponentiated half logistic distribution
Munro et al. Latent dirichlet analysis of categorical survey responses
Chang et al. A hybrid Bayesian adaptive design for dose response trials
CN108334519A (zh) 一种用户画像中的用户标签获取方法及装置
Alosh The impact of missing data in a generalized integer-valued autoregression model for count data
CN113094602B (zh) 酒店推荐方法、系统、设备及介质
US10748654B2 (en) Normalizing data sets for predicting an attribute of the data sets
US20210286853A1 (en) Platform, method, and system for a search en-gine of time series data
US20170140458A1 (en) Method of estimating tenancy duration and mobility in rental properties
US10878048B2 (en) Methods and systems for generating search results and recommendations based on multi-sourced two-way correspondence and relative entity prominence
CN113822734A (zh) 用于生成信息的方法和装置
Wang et al. Backcasting Mortality in England and Wales, 1600–1840

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant