CN104090886A - 构建用户实时画像的方法及装置 - Google Patents

构建用户实时画像的方法及装置 Download PDF

Info

Publication number
CN104090886A
CN104090886A CN201310661820.0A CN201310661820A CN104090886A CN 104090886 A CN104090886 A CN 104090886A CN 201310661820 A CN201310661820 A CN 201310661820A CN 104090886 A CN104090886 A CN 104090886A
Authority
CN
China
Prior art keywords
tag identifier
label information
information
user
critical field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310661820.0A
Other languages
English (en)
Other versions
CN104090886B (zh
Inventor
张文郁
洪坤乾
宋亚娟
杜冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201310661820.0A priority Critical patent/CN104090886B/zh
Publication of CN104090886A publication Critical patent/CN104090886A/zh
Priority to US15/101,851 priority patent/US9832280B2/en
Priority to PCT/CN2015/072201 priority patent/WO2015085961A1/zh
Application granted granted Critical
Publication of CN104090886B publication Critical patent/CN104090886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Abstract

本发明公开了一种构建用户实时画像的方法及装置,属于数据处理技术领域。方法包括:获取用户的日志信息;对日志信息进行过滤,得到日志信息的关键字段;提取关键字段的标签标识;根据标签标识及关键字段,获取当前标签信息;根据标签标识确定当前标签信息对应的全部兴趣类目;根据当前标签信息获取与每个兴趣类目相对应的用户兴趣度。本发明在对日志信息进行过滤,得到关键字段后,提取关键字段的标签标识,并根据标签标识及关键字段获取当前标签信息;进而在确定当前标签信息对应的兴趣类目后,获取与每个兴趣类目相对应的用户兴趣度,实现了在获取用户的一个日志信息后,便重新构建用户实时画像,从而可根据用户实时画像向用户推荐数据信息。

Description

构建用户实时画像的方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种构建用户实时画像的方法及装置。
背景技术
随着网络技术的快速发展,互联网已成为广大用户进行信息分享的平台,因此,互联网中充斥着海量数据信息。在这种情况下,用户往往湮没在低价值的海量数据信息中。所以如何向用户推荐用户感兴趣的数据信息,成为了一个技术难题。向用户推荐数据信息时所采用的关键技术之一为建立用户画像,所谓的用户画像,是将用户的行为属性(例如浏览、购买某商品的行为记录)和基础属性(例如性别、年龄等)聚合分析(例如分析用户对不同商品类别的兴趣度),对用户进行建模,并基于用户画像为用户推荐数据信息。因此,如何构建用户画像,成为了本领域技术人员一个亟待解决的问题。
在构建用户画像的过程中,一般基于Hadoop的批处理系统进行计算,通常采用如下两种方式:第一种方式,获取并存储用户的日志信息,直至存储的该用户的日志信息数量达到阈值后,根据存储的该用户的日志信息构建用户画像;第二种方式,获取并存储用户的日志信息,每隔预设周期根据存储的该用户的日志信息构建用户画像。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
无论针对上述哪种构建用户画像的方式来说,均需等待一定时长后,才能构建用户画像,所以时效性较差,而且在根据构建的用户画像向用户推荐数据信息时精准度不高;另外,由于等待一定时长后,才构建用户画像,所以在构建用户画像时需进行日志信息的批量处理,导致处理过程耗时长、过程复杂且计算量大。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种构建用户实时画像的方法及装置。所述技术方案如下:
一方面,提供了一种构建用户实时画像的方法,所述方法包括:
获取用户的日志信息;
对所述日志信息进行过滤,得到所述日志信息的关键字段;
提取所述关键字段的标签标识;
根据所述标签标识及所述关键字段,获取当前标签信息,所述标签信息至少用于指示所述标签标识在所述日志信息的生成时间内的出现次数;
根据所述标签标识,确定所述当前标签信息对应的全部兴趣类目;
根据所述当前标签信息,获取与每个兴趣类目相对应的用户兴趣度;
其中,所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数据源标识及产品标识。
进一步地,所述提取所述关键字段的标签标识,包括:
检测所述关键字段中是否包含行为类目标识;
如果所述关键字段中包含行为类目标识,则将所述行为类目标识作为提取到的所述关键字段的标签标识。
进一步地,所述检测所述关键字段中是否包含行为类目标识之后,所述方法还包括:
如果所述关键字段中未包含行为类目标识,则根据所述关键字段中的产品标识获取与所述产品标识相对应的产品标题,并根据所述产品标题提取所述关键字段的标签标识。
进一步地,所述根据所述产品标题提取所述关键字段的标签标识,包括:
根据预设语法规则对所述产品标题进行分词处理,得到所述产品标题的多个分词结果;
根据预设过滤条件对多个分词结果进行过滤分析,如果得到过滤结果,则将所述过滤结果提取为所述关键字段的标签标识。
进一步地,所述根据所述标签标识及所述关键字段,获取当前标签信息,包括:
检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类型的标签信息;
如果已存储的多个标签信息中包括所述标签标识和所述标签标识的提取类型,则将所述包括所述标签标识和所述标签标识的提取类型的标签信息确定为匹配标签信息,并确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应;
如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段中的一个相对应,则对相对应的时间段中所述标签标识的出现次数进行更新。
进一步地,所述确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应之后,所述方法还包括:
如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段均不对应,则根据所述标签标识对应的所述日志信息的生成时间创建一条单独的存储项,并统计所述标签标识在所述标签标识对应的日志信息的生成时间内的出现次数。
进一步地,所述检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类型的标签信息之后,所述方法还包括:
如果已存储的所述用户的多个标签信息均不包括所述标签标识和所述标签标识的提取类型,则将所述用户标识及所述日志信息的数据源标识作为键,将所述标签标识、所述标签标识的提取类型及所述标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
进一步地,所述方法还包括:
对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。
进一步地,所述根据所述标签信息获取与每个兴趣类目相对应的用户兴趣度,包括:
获取每个兴趣类目对应的多个历史标签信息;
确定所述当前标签信息及所述多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子;
根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与所述每个兴趣类目对应的所述用户兴趣度。
进一步地,所述根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,应用下述公式,获取与所述每个兴趣类目对应的所述用户兴趣度,包括:
Score = 1 1 + γ * exp [ - Σ i = 0 i = m ( λ ( i ) * Σ j = 0 j = n ( w ( j ) * Σ t = 0 t = k ( weakenFactor ( t ) * count ( t ) ) ) ) / b ]
其中,Score指代兴趣度,λ(i)为每个标签信息对应的数据源的权重值,w(j)为每个标签信息对应的兴趣类目的权重值,weakenFactor(t)为时间衰减因子,count(t)为每个预设时间段内所述标签标识的出现次数,m为数据源的个数,n为不同数据源下标签信息的总数,m、n、γ和b均为常数。
另一方面,提供了一种构建用户实时画像的装置,所述装置包括:
日志信息获取模块,用于获取用户的日志信息;
过滤模块,用于对所述日志信息获取模块获取到的日志信息进行过滤,得到所述日志信息的关键字段;
提取模块,用于提取所述过滤模块过滤得到的关键字段的标签标识;
当前标签信息获取模块,用于根据所述提取模块提取的标签标识及所述过滤模块过滤得到的关键字段,获取当前标签信息,所述标签信息至少用于指示所述标签标识在所述日志信息的生成时间内的出现次数;
确定模块,用于根据所述提取模块提取的标签标识,确定所述当前标签信息对应的全部兴趣类目;
用户兴趣度获取模块,用于根据所述当前标签信息获取模块获取的当前标签信息,获取与每个兴趣类目相对应的用户兴趣度;
其中,所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数据源标识及产品标识。
进一步地,所述提取模块,包括:
检测单元,用于检测所述关键字段中是否包含行为类目标识;
确定单元,用于当所述检测单元检测到关键字段中包含行为类目标识时,将所述行为类目标识作为提取到的所述关键字段的标签标识。
进一步地,所述提取模块,还包括:
获取单元,用于当所述检测单元检测关键字段中未包含行为类目标识时,根据所述关键字段中的产品标识获取与所述产品标识相对应的产品标题;
提取单元,用于根据所述获取单元获取到的产品标题提取所述关键字段的标签标识。
进一步地,所述提取单元,包括:
分词处理子单元,用于根据预设语法规则对所述获取单元获取的产品标题进行分词处理,得到所述产品标题的多个分词结果;
过滤分析子单元,用于根据预设过滤条件对多个分词结果进行过滤分析;
提取子单元,用于当所述过滤分析子单元得到过滤结果时,将所述过滤结果提取为所述关键字段的标签标识。
进一步地,所述当前标签信息获取模块,包括:
检测单元,用于检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类型的标签信息;
确定单元,用于当已存储的多个标签信息中包括所述标签标识和所述标签标识的提取类型时,将所述包括所述标签标识和所述标签标识的提取类型的标签信息确定为匹配标签信息,并确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应;
更新单元,用于当所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段中的一个相对应时,对相对应的时间段中所述标签标识的出现次数进行更新。
进一步地,所述当前标签信息获取模块,还包括:
创建单元,用于当所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段均不对应时,根据所述标签标识对应的所述日志信息的生成时间创建一条单独的存储项,并统计所述标签标识在所述标签标识对应的日志信息的生成时间内的出现次数。
进一步地,所述当前标签信息获取模块,还包括:
生成单元,用于当已存储的多个标签信息均不包括所述标签标识和所述标签标识的提取类型时,将所述用户标识及所述日志信息的数据源标识作为键,将所述标签标识、所述标签标识的提取类型及所述标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
进一步地,所述装置还包括:
删除模块,用于对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。
进一步地,所述用户兴趣度获取模块,包括:
历史标签信息获取单元,用于获取每个兴趣类目对应的多个历史标签信息;
确定单元,用于确定所述当前标签信息及所述多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子;
用户兴趣度获取单元,用于根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与所述每个兴趣类目对应的所述用户兴趣度。
本发明实施例提供的技术方案带来的有益效果是:
在对获取的日志信息进行过滤,得到关键字段后,提取关键字段的标签标识,并根据标签标识及关键字段获取当前标签信息;进而在确定当前标签信息对应的全部兴趣类目后,根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度,因而实现了在获取到用户的一个日志信息后,便重新构建用户实时画像,从而可根据用户实时画像向用户推荐精准的数据信息,不但时效性较好,且提升了用户体验度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种Storm集群的整体框架图;
图2是本发明提供的一种Topology的结构示意图;
图3是本发明实施例一提供的一种构建用户实时画像的方法流程图;
图4是本发明实施例二提供的一种构建用户实时画像的方法流程图;
图5是本发明实施例二提供的一种标签信息的存储结构示意图;
图6是本发明实施例三提供的一种构建用户实时画像的装置结构示意图;
图7是本发明实施例三提供的另一种构建用户实时画像的装置结构示意图;
图8是本发明实施例四提供的一种构建用户实时画像的整体系统架构图;
图9是本发明实施例四提供的一种数据源节点的工作流程图;
图10是本发明实施例四提供的一种数据流的走向示意图;
图11是本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明提供的构建用户实时画像的方法,基于Storm(风暴)流式计算平台实现。在对本发明进行详细阐述之前,先对Storm流式计算平台给予如下介绍。
Storm流式计算平台是开源的实时计算平台,它具备实时、分布式、高度容错等特点。Storm流失计算平台本质上是一个由处理者和消息队列组成的消息处理网络。它提供了一系列实时计算原语,让开发人员从复杂的诸如消息队列维护、故障检测、集群管理等事务中脱离出来,而专注于业务功能的开发。
参见图1,Storm流式计算平台涵盖Storm集群。Storm集群由一个控制节点(master node)和多个工作节点(worker nodes)组成。而控制节点和工作节点之间的协调管理由管理集群(zookeeper)进行处理。其中,控制节点中运行着一个后台程序(Nimbus),该后台程序主要用于代码分发、任务分配以及对工作节点状态进行监控、故障处理等。每个工作节点中运行着一个后台程序(Supervisor),该后台程序用于监听是否有派发的任务;如果有派发的任务,则启动工作进程;如果收到关闭工作进程的任务,则关闭工作进程。管理集群中保存控制节点的后台程序的状态和每个工作节点的后台程序的状态,当控制节点的后台程序或工作节点的某一进程意外死亡时,管理集群可根据控制节点或工作节点的后台程序的状态,迅速重启该意外死亡的进程。
而为了在Storm流式计算平台上做实时计算,需要将应用程序实现的逻辑封装进Storm流式计算平台中的网络拓扑(Topology)。参见图2,Topology是一组由数据源节点(Spouts)和数据操作节点(Bolts)通过消息队列进行连接的拓扑结构。在Topology中的每个节点都包含处理逻辑,而各节点之间的连接则表示数据流动的方向。其中,数据源节点,为整个Topology的源头,是数据的生产者。它可从其它数据源(例如,数据库、文件、日志系统)获取数据,并发射到Topology中,供数据操作节点进行处理。数据源节点分为可靠和不可靠两种;对于需要保证数据可靠性的场景,数据源节点可以跟踪发射出的数据最终是否被成功处理;如果为成功失败,则数据源节点可以捕捉到这种情况,进行采取合适的处理措施,例如,重发该数据。对于数据可靠性要求不是很高、允许丢失少量数据的场景,数据源节点只是简单的将数据发射出去,不会跟踪数据后续的处理情况。数据可靠性是以牺牲更多的机器资源和性能为代价的,开发人员可以根据业务特性进行选择。进一步地,一个数据源节点可发射出多条数据流,而接收到数据流的数据操作节点可以自适应地选择数据流进行处理。针对数据操作节点来说,Topology中所有的数据处理操作都由数据操作节点完成。数据操作节点可以对数据进行过滤及聚合,且可访问文件或数据库等等。数据操作节点在接收到数据源节点发送的数据并进行数据处理的过程中,如果遇到复杂数据的处理,其也可将自身处理后的结果发送给另一个数据操作节点继续进行后续处理。一个数据操作节点同样可以发射出多条数据流,而后续的数据操作节点可仅自身感兴趣的数据流进行处理。进一步地,Storm流式计算平台的Topology中可以进行数据源节点和数据操作节点的并行度设置,在采用现有的数据源节点和数据操作节点不能正常处理数据流时,可提高并行度。
实施例一
本发明实施例提供了一种构建用户实时画像的方法,现结合上述内容,对本发明实施例提供的构建用户实时画像的方式进行解释说明。参见图3,本实施例提供的方法流程,包括:
301、获取用户的日志信息。
302、对日志信息进行过滤,得到日志信息的关键字段;其中,关键字段至少包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识。
303、提取关键字段的标签标识。
进一步地,提取关键字段的标签标识,包括但不限于:
检测关键字段中是否包含行为类目标识;
如果关键字段中包含行为类目标识,则将行为类目标识作为提取到的关键字段的标签标识。
进一步地,检测关键字段中是否包含行为类目标识之后,该方法还包括:
如果关键字段中未包含行为类目标识,则根据关键字段中的产品标识获取与产品标识相对应的产品标题,并根据产品标题提取关键字段的标签标识。
进一步地,根据产品标题提取关键字段的标签标识,包括但不限于:
根据预设语法规则对产品标题进行分词处理,得到产品标题的多个分词结果;
根据预设过滤条件对多个分词结果进行过滤分析,如果得到过滤结果,则将该过滤结果提取为关键字段的标签标识。
304、根据标签标识及关键字段,获取当前标签信息,标签信息至少用于指示标签标识在日志信息的生成时间内的出现次数。
进一步地,根据标签标识及关键字段,获取当前标签信息,包括但不限于:
检测已存储的多个标签信息中是否存在包括标签标识和标签标识的提取类型的标签信息;
如果已存储的多个标签信息中包括标签标识和标签标识的提取类型,则将包括标签标识和标签标识的提取类型的标签信息确定为匹配标签信息,并确定标签标识对应的日志信息的生成时间是否与匹配标签信息的多个预设时间段中的一个相对应;
如果标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段中的一个相对应,则对相对应的时间段中标签标识的出现次数进行更新。
进一步地,确定标签标识对应的日志信息的生成时间是否与匹配标签信息的多个预设时间段中的一个相对应之后,该方法还包括:
如果标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段均不对应,则根据标签标识对应的日志信息的生成时间创建一条单独的存储项,并统计标签标识在标签标识对应的日志信息的生成时间内的出现次数。
进一步地,检测已存储的多个标签信息中是否存在包括标签标识和标签标识的提取类型的标签信息之后,该方法还包括:
如果已存储的用户的多个标签信息均不包括标签标识和标签标识的提取类型,则将用户标识及日志信息的数据源标识作为键,将标签标识、标签标识的提取类型及标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
进一步地,该方法还包括:
对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。
305、根据标签标识,确定当前标签信息对应的全部兴趣类目。
306、根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度。
进一步地,根据标签信息获取与每个兴趣类目相对应的用户兴趣度,包括但不限于:
获取每个兴趣类目对应的多个历史标签信息;
确定当前标签信息及多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子;
根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与每个兴趣类目对应的用户兴趣度。
进一步地,根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,应用下述公式,获取与每个兴趣类目对应的用户兴趣度,包括但不限于:
Score = 1 1 + γ * exp [ - Σ i = 0 i = m ( λ ( i ) * Σ j = 0 j = n ( w ( j ) * Σ t = 0 t = k ( weakenFactor ( t ) * count ( t ) ) ) ) / b ]
其中,Score指代兴趣度,λ(i)为每个标签信息对应的数据源的权重值,w(j)为每个标签信息对应的兴趣类目的权重值,weakenFactor(t)为时间衰减因子,count(t)为每个预设时间段内标签标识的出现次数,m为数据源的个数,n为不同数据源下标签信息的总数,m、n、γ和b均为常数。
本实施例提供的方法,在对获取的日志信息进行过滤,得到关键字段后,提取关键字段的标签标识,并根据标签标识及关键字段获取当前标签信息;进而在确定当前标签信息对应的全部兴趣类目后,根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度,因而实现了在获取到用户的一个日志信息后,便重新构建用户实时画像,从而可根据用户实时画像向用户推荐精准的数据信息,不但时效性较好,且提升了用户体验度。
实施例二
本发明实施例提供了一种构建用户实时画像的方法,现结合上述对Storm流式计算平台的介绍内容及上述实施例一,对本发明提供的构建用户实时画像的方式,进行详细地解释说明。参见图4,本发明实施例提供的方法流程包括:
401、获取用户的日志信息。
为了保证能够获取到用户的日志信息,在获取用户的日志信息之前,还需进行各个数据源的数据订阅。也即,仅在订阅某个数据源的数据之后,才能从该某个数据源中获取用户的日志数据,进而对用户的日志数据进行解析,得到用户的日志信息。
可选地,获取到用户的日志信息后,还需将获取到的用户的日志信息存储在本地消息缓存队列中。本地消息缓存队列为阻塞队列,该本地消息缓存队列中仅能存放预设数目的日志信息;若当前获取到用户的日志信息后,该本地消息缓存队列中的日志信息已达到预设数目,则直至该本地缓存队列中出现空闲位置后,才将该当前获取到的用户的日志信息存储在该本地消息缓存队列中。
402、对日志信息进行过滤,得到日志信息的关键字段;其中,关键字段至少包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识。
对日志信息进行过滤的具体实现方式,包括但不限于:判断该日志信息中是否包含脏字段;如果该日志信息中不包括脏字段,则对日志信息进行过滤,得到日志信息的关键字段;如果该日志信息中包括脏字段,则直接将该日志信息弃用,处理流程结束。
需要说明的是,日志信息的多个字段中常常包含一些脏字段,也即无用字段,例如,非法格式的字段或关键字缺失的字段。由于脏字段在后续获取用户兴趣度过程中并无贡献,出于节约存储空间及去除冗余数据的目的,可将包含脏字段的日志信息弃用。
进一步地,关键字段中的用户标识用于说明该日志信息对应的用户;而由于用户在各个数据源对应的网页上执行诸如浏览产品操作、购买产品操作、关注产品操作或收藏产品操作时,均可触发日志信息的生成,所以关键字段中的日志信息的生成时间用于说明用户执行上述诸如浏览产品操作、购买产品操作、关注产品操作或收藏产品操作所对应的时间;而关键字段中的日志信息的数据源标识用于说明用户在何种数据源对应的网页上执行了上述诸如浏览产品操作、购买产品操作、关注产品操作或收藏产品操作;而关键字段中的产品标识用于说明用户浏览、购买、关注或收藏了何种产品。
此外,关键字段除包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识外,还可包含行为类目标识,本实施例对关键字段包含的内容不进行具体限定。
其中,行为类目标识用于说明产品标识对应的产品属于何种类别。以产品标识对应的产品为“毛衣”为例,则行为类目标识为可为“上衣”或“服装”。以产品标识对应的产品为“洗衣液”为例,则行为类目标识可为“日化用品”。
403、检测关键字段中是否包含行为类目标识;如果关键字段中包含行为类目标识,则执行步骤404;如果关键字段中不包含行为类目标识,则执行步骤405。
在提取关键字段的标签标识之前,需先判断关键字段中是否包含行为类目标识。其中,检测关键字段中是否包含行为类目标识的具体实现方式,包括但不限于:预先设置多种类型的行为类目标识,并将多种类型的行为类目标识进行存储;检测关键字段中是否包含存储的多种类型的行为类目标识中的任一个。其中,如果关键字段中包含存储的多种类型的行为类目标识中的任一个,则检测到关键字段中包含行为类目标识。
404、将行为类目标识作为提取到的关键字段的标签标识,执行步骤406。
针对关键字段中包含行为类目标识的情况,可直接将该行为类目标识作为提取到的关键字段的标签标识。若某一关键字段的行为类目标识为“毛衣”,则该关键字段的标签标识同样为“毛衣”。
405、根据关键字段中的产品标识获取与产品标识相对应的产品标题,并根据产品标题提取关键字段的标签标识。
针对关键字段中未包含行为类目标识的情况,根据关键字段中的产品标识获取与产品标识相对应的产品标题,并根据产品标题提取关键字段的标签标识。
其中,产品标题为产品的具体描述性信息,例如,针对一件毛衣产品来说,其产品标题可为“秋冬新款韩版毛衣”。且由于数据库中已存储了预先从各个数据源中拉取的产品标识及产品标题的对应关系表,所以在根据关键字段的产品标识获取与产品标识相对应的产品标题时,可直接根据产品标识去数据库中查询产品标识与产品标题的对应关系表,以获取该产品标识对应的产品标题。
此外,根据产品标题提取关键字段的标签标识的具体实现方式,包括但不限于:根据预设语法规则对产品标题进行分词处理,得到产品标题的多个分词结果;根据预设过滤条件对多个分词结果进行过滤分析,如果得到过滤结果,则将该过滤结果提取为关键字段的标签标识。此外,如果得不到过滤结果,则处理流程结束。
其中,预设语法规则包括但不限于中文语法规则及英文语法规则。
预设过滤条件包括但不限于:将纯数字、纯日期、连续过长的英文、中英文组合词、非名称性的单字等过滤掉;将副词、虚词、形容词等过滤掉;将词权值小的词过滤掉、将汉字内码扩展规范码表中预设范围的字过滤掉。
以某一产品标题为“秋冬新款韩版毛衣”为例,则在进行分词处理时,可将“秋冬新款韩版毛衣”的产品标题分割为“秋冬”、“新款”、“韩版”、“毛衣”四个单词,而“秋冬”、“新款”、“韩版”三个词均为形容词,仅有“毛衣”一词为名词,按照上述预设过滤条件,则将最后的标签标识确定为“毛衣”。
需要说明的是,上述步骤404和步骤405为提取关键字段的标签标识的两种不同的方式,步骤404和步骤405为提取关键字段的标签标识的具体展开说明。且在执行完步骤404和步骤405后,均执行下述步骤406。
406、检测已存储的多个标签信息中是否存在包括标签标识和标签标识的提取类型的标签信息;如果已存储的多个标签信息中包括标签标识和标签标识的提取类型,则执行步骤407;如果已存储的多个标签信息中未包括标签标识和标签标识的提取类型,则执行步骤408。
其中,标签信息的提取类型包括但不限于两种,一种为行为类目标识提取类型,另一种为产品标题提取类型。预设时间段的时长包括但不限于一天或一个小时。
407、将包括标签标识和标签标识的提取类型的标签信息确定为匹配标签信息,并确定标签标识对应的日志信息的生成时间是否与匹配标签信息的多个预设时间段中的一个相对应;如果标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段中的一个相对应,则对相对应的时间段中标签标识的出现次数进行更新,执行步骤409。
参见图5,每个标签信息中包括用户标识、数据源标识、标签标识、标签标识提取类型及标签标识在每个预设时间段中的出现次数;由于用户在各个数据源对应的网页上执行诸如浏览产品操作、购买产品操作、关注产品操作或收藏产品操作时,均可触发日志信息的生成,进而服务器可获取到该日志信息;而根据该日志信息过滤得到的关键字段又对应一个标签标识、一个用户标识、一个数据源标识,所以在提取到该用户的一个标签标识后,可检测已存储的多个标签信息中是否存在包括标签标识和标签标识的提取类型的标签信息。以提取到的标签标识为“毛衣”,且该标签标识的提取类型为产品标题提取类型,该标签信息的对应时间段为2013.10.01.0时至2013.10.01.24时为例,若已存储的多个标签信息中有一个标签信息的标签标识同样为“毛衣”,且标签标识的提取类型同样为产品标题提取类型,则直接将该标签信息作为匹配标签信息;若匹配标签信息的多个预设时间段中包括2013.10.01.0时至2013.10.01.24时这一时间段,则直接将2013.10.01.0时至2013.10.01.24时这一时间段中的标签标识出现次数加1。表明标签标识在2013.10.01.0时至2013.10.01.24时这一时间段中一共出现了多少次;也即,用户执行了几次诸如浏览产品操作、购买产品操作、关注产品操作或收藏产品操作。
进一步地,如果标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段均不对应,则根据标签标识对应的日志信息的生成时间创建一条单独的存储项,并统计标签标识在标签标识对应的日志信息的生成时间内的出现次数。
继续以上述例子为例,若匹配标签信息的多个预设时间段中均不包括2013.10.01.0时至2013.10.01.24时这一时间段,则直接根据2013.10.01.0时至2013.10.01.24时这一时间段创建一条单独的存储项,并统计标签标识在标签标识对应的日志信息的生成时间内的出现次数。表明标签标识在2013.10.01.0时至2013.10.01.24时这一时间段中一共出现了多少次;也即,用户执行了多少次诸如浏览产品操作、购买产品操作、关注产品操作或收藏产品操作。
进一步地,受限于存储空间的大小,本实施例提供的方法还包括:
对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。
其中,预设时长的大小与预设时间段存在对应关系。如果预设时间段以天为单位,那么预设时长的大小可设置为30天;如果预设时间段以小时为单位,那么预设时长的大小可设置为24小时。
通过以预设时间段为粒度,如天或小时等,对标签信息进行维护,使得所保存的标签信息可以用于指示一滑动时间窗内的该标签标识出现的次数,按照时间进行滑动更新,删除过期数据。
408、将用户标识及日志信息的数据源标识作为键,将标签标识、标签标识的提取类型及标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
其中,如果已存储的多个标签信息中均不包括标签标识和标签标识的提取类型,则表明该标签标识为全新的标签标识,需采取独立的存储方式进行存储。在进行存储时,本实施例提供的方法采取键-值(key-value)的存储形式,以用户标识及日志信息的数据源标识作为键,以标签标识、标签标识的提取类型及标签标识的出现次数作为值,从而得到当前标签信息。当前标签信息的具体存储形式可参见图5。
需要说明的是,上述步骤407和步骤408为获取当前标签信息的两种不同的方式,步骤407和步骤407为获取当前标签信息的具体展开说明。且在执行完步骤407和步骤408后,均执行下述步骤409。
409、根据标签标识,确定当前标签信息对应的全部兴趣类目。
其中,兴趣类目可有多种,兴趣类目包括但不限于电子产品、服装、母婴用品、日化用品、厨房用品、水果蔬菜等等。此外,每个兴趣类目又可对应多个标签标识。以兴趣类目为服装为例,则服装类兴趣类目对应的标签标识包括但不限于毛衣、裤子、羽绒服、内衣、风衣等等。
需要说明的是,一个标签标识可能对应多个兴趣类目。以某一标签标识为“苹果”为例,则其指代的既可能是移动终端设备,也可能是水果。因此,该标签标识对应两个兴趣类目。
此外,数据库会预先根据产品的类型设置各个兴趣类目,且设置各个兴趣类目所对应的全部标签标识,并将兴趣类目与标签标识的对应关系进行存储。所以,在根据标签标识,确定当前标签信息对应的全部兴趣类目时,可直接根据当前标签信息的标签标识在存储的兴趣类目与标签标识的对应关系中进行查找,从而确定当前标签信息所对应的至少一个兴趣类目。
410、获取每个兴趣类目对应的多个历史标签信息。
由于每个历史标签信息中均包含标签标识,而每个兴趣类目下也包含多个标签标识。所以,在获取每个兴趣类目对应的多个历史标签信息时,可采取如下方式:
针对一个兴趣类目来说,遍历用户的全部标签信息,获取标签标识包含在该兴趣类目下的各个标签信息,并将标签标识包含在该兴趣类目下的各个标签信息确定为该兴趣类目对应的多个历史标签信息。
411、确定当前标签信息及多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子。
针对一个标签信息来说,其对应的数据源的权重值及兴趣类目的权重值可分
别通过已存储的数据源权重表和标签信息的兴趣类目权重表得到;而标签标
识出现次数可通过对应的标签信息得到;而时间衰减因子weakenFactor(t)可通
过如下计算公式得到:
weakenFactor(t)=exp[-t*h/k]             (1)
其中h=2.5,以预设时间段以天为单位为例,则k值为根据过去多少天的数据来获取用户兴趣,当k=m代表使用当前天和过去m天的数据来计算;t的值为历史天距离当前天的天数;例如,昨天距离今天的天数为1。
412、根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与每个兴趣类目对应的用户兴趣度。
其中,在获取到当前标签信息后,便触发一次用户兴趣度的获取。且当前标签信息对应几个兴趣类目,便获取几个用户兴趣度,每个用户兴趣度均与一个兴趣类目相对应。
进一步地,根据当前标签信息获取与每个兴趣类目相对应的用户兴趣度,包括但不限于:
进一步地,可应用下述公式,获取与每个兴趣类目对应的用户兴趣度。
Score = 1 1 + γ * exp [ - Σ i = 0 i = m ( λ ( i ) * Σ j = 0 j = n ( w ( j ) * Σ t = 0 t = k ( weakenFactor ( t ) * count ( t ) ) ) ) / b ] - - - ( 2 )
其中,Score指代兴趣度;
λ(i)为每个数据源的权重,不同数据源权重不一样,该值可通过经验设定;
w(j)为某个标签信息属于该兴趣类目的权重值,该值通过离线模型训练得到;
count(t)为预设时间段中标签标识出现的次数。m为数据源的个数,n为不同数据源下标签信息的总数,m、n、γ和b均为常数,且γ=3,b=25,而m、n视数据源的个数及每个数据源对应的标签信息的个数而定。
需要说明的是,上述步骤410、步骤411和步骤412为根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度的具体展开说明。为了清晰地示出获取用户兴趣度的方式,本实施例将根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度的实现过程分为三个步骤进行详细说明。
进一步地,在该步骤412之后,本实施例还可以包括当检测到用户的指令操作时,根据获取的用户兴趣度向用户推荐产品信息;在推荐产品信息时可通过提供产品的数据链接、缩略图以及名称等进行。假设用户当前在网页上浏览了“毛衣”信息,其对应的兴趣类目为“上衣”为例,则触发用户对应的“上衣”兴趣类目对应的用户兴趣度的获取。之后,对可该用户的各个兴趣类目对应的兴趣度的分值进行比较;若“上衣”兴趣类目对应的用户兴趣度的分值较高,则便向用户推荐最新最流行的上衣类产品信息。
本实施例提供的方法,在对获取的日志信息进行过滤,得到关键字段后,提取关键字段的标签标识,并根据标签标识及关键字段获取当前标签信息;进而在确定当前标签信息对应的全部兴趣类目后,根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度,因而实现了在获取到用户的一个日志信息后,便重新构建用户实时画像,从而可根据用户实时画像向用户推荐精准的数据信息,不但时效性较好,且提升了用户体验度。
为了进一步说明本发明实施例的有益效果,结合图1及图2所示的网络架构,可以有以下现网数据测试结论。在以1台机器当做控制节点,3台机器当做管理集群,4台机器当做工作节点,其中机器配置为:4核64位,Intel(R)Xeon(R)CPU2.50GHz,8G内存,并行度配置在数据源节点(ECCSpout):标签标识获取数据操作节点(TagGetBolt):(用户兴趣度数据操作节点TagInterestUpdateBolt=2:2:10)的情况下,峰值处理能力达到了5.2万条日志/秒,满足现阶段的业务需求。由于Storm流式计算平台具有良好的扩展性,在业务量增长的情况下,可以通过加大并行度和机器扩容,增加系统的吞吐量。在后续过程中若系统接入更多的数据源,则每增加一种数据源,仅需新增相应的数据原节点即可,可以方便地扩展。
实施例三
本发明实施例提供了一种构建用户实时画像的装置,用于执行上述实施例一或实施例二所提供的方法,参见图6,该装置包括:
日志信息获取模块601,用于获取用户的日志信息;日志信息获取模块601与过滤模块602连接;过滤模块602,用于对日志信息获取模块601获取到的日志信息进行过滤,得到日志信息的关键字段;过滤模块602与提取模块603连接;提取模块603,用于提取过滤模块602过滤得到的关键字段的标签标识;提取模块603与当前标签信息获取模块604连接;当前标签信息获取模块604,用于根据提取模块603提取的标签标识及过滤模块602过滤得到的关键字段,获取当前标签信息,标签信息至少用于指示标签标识在日志信息的生成时间内的出现次数;当前标签信息获取模块604与确定模块605连接;确定模块605,用于根据提取模块603提取的标签标识,确定当前标签信息对应的全部兴趣类目;确定模块605与用户兴趣度获取模块606连接;用户兴趣度获取模块606,用于根据当前标签信息获取模块604获取的当前标签信息,获取与每个兴趣类目相对应的用户兴趣度;其中,关键字段至少包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识。
进一步地,提取模块,包括:
检测单元,用于检测关键字段中是否包含行为类目标识;
确定单元,用于当检测单元检测到关键字段中包含行为类目标识时,将行为类目标识作为提取到的关键字段的标签标识。
进一步地,提取模块,还包括:
获取单元,用于当检测单元检测关键字段中未包含行为类目标识时,根据关键字段中的产品标识获取与产品标识相对应的产品标题;
提取单元,用于根据获取单元获取到的产品标题提取关键字段的标签标识。
进一步地,提取单元,包括:
分词处理子单元,用于根据预设语法规则对获取单元获取的产品标题进行分词处理,得到产品标题的多个分词结果;
过滤分析子单元,用于根据预设过滤条件对多个分词结果进行过滤分析;
提取子单元,用于当过滤分析子单元得到过滤结果时,将过滤结果提取为关键字段的标签标识。
进一步地,当前标签信息获取模块,包括:
检测单元,用于检测已存储的多个标签信息中是否存在包括标签标识和标签标识的提取类型的标签信息;
确定单元,用于当已存储的多个标签信息中包括标签标识和标签标识的提取类型时,将包括标签标识和标签标识的提取类型的标签信息确定为匹配标签信息,并确定标签标识对应的日志信息的生成时间是否与匹配标签信息的多个预设时间段中的一个相对应;
更新单元,用于当标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段中的一个相对应时,对相对应的时间段中标签标识的出现次数进行更新。
进一步地,当前标签信息获取模块,还包括:
创建单元,用于当标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段均不对应时,根据标签标识对应的日志信息的生成时间创建一条单独的存储项,并统计标签标识在标签标识对应的日志信息的生成时间内的出现次数。
进一步地,当前标签信息获取模块,还包括:
生成单元,用于当已存储的多个标签信息均不包括标签标识和标签标识的提取类型时,将用户标识及日志信息的数据源标识作为键,将标签标识、标签标识的提取类型及标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
进一步地,参见图7,该装置还包括:
删除模块607,用于对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。删除模块607与当前标签信息获取模块604连接。
进一步地,用户兴趣度获取模块,包括:
历史标签信息获取单元,用于获取每个兴趣类目对应的多个历史标签信息;
确定单元,用于确定当前标签信息及多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子;
用户兴趣度获取单元,用于根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与每个兴趣类目对应的用户兴趣度。
综上,本发明实施例提供的装置,在对获取的日志信息进行过滤,得到关键字段后,提取关键字段的标签标识,并根据标签标识及关键字段获取当前标签信息;进而在确定当前标签信息对应的全部兴趣类目后,根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度,因而实现了在获取到用户的一个日志信息后,便重新构建用户实时画像,从而可根据用户实时画像向用户推荐精准的数据信息,不但时效性较好,且提升了用户体验度。
实施例四
本实施例提供了一种构建用户实时画像的整体系统架构图,现结合图8、上述实施例一及实施例二所提供的方法,对本实施例提供的构建用户实时画像的整体系统架构图进行详细地解释说明。
参见图8,整个系统总分为三大部分,分别为日志信息获取部分,标签标识提取部分及用户兴趣度计算部分。其中日志信息的获取可由数据源节点(spout)实现;标签标识的提取可由数据操作节点(Bolt)实现;用户兴趣度的获取同样可由数据操作节点(Bolt)实现。
在数据源节点(spout)获取日志信息之前,已预先与多个数据源建立了接入连接。从而可获取各个数据源的日志信息。其中,接入的数据源包括但不限于六种。在各个数据源对应的业务系统中,有专门的日志单元记录用户的行为信息,用户的行为信息包括但不限于浏览产品行为、购买产品行为、关注产品行为或收藏产品行为。例如,某个用户在某个时间购买了某个产品,那么就会生成一条新的日志信息。数据源节点(spout)可主动获取该日志信息。
参见图9,在数据源节点(spout)获取到日志信息后,可先将日志信息存储在本地缓存队列中,并按照先进先出的顺序对本地缓存队列中的各个日志信息进行解析和过滤。在对日志信息进行解析和过滤后,得到日志信息的关键字段。根据关键字段中是否包含行为类目标识,数据源节点(spout)将会对关键字段进行不同的发射处理。若关键字段中未包括行为类目标识,则将关键字段组合成原始数据流(ECC_STREAM),并将其发送至图10中的标签标识获取数据操作节点(TagGetBolt),以便从该原始数据流中提取关键字段的标签标识,并由标签标识获取数据操作节点(TagGetBolt)将提取到的标签标识发送至用户兴趣度数据操作节点(TagInterestUpdateBolt);若关键字段中包括行为类目标识,则将关键字段组合成提取数据流(ECC_STREAM),并将其发送至图10中的用户兴趣度获取数据操作节点(TagInterestUpdateBolt),以便后续根据该已提取数据流在后续过程中获取用户兴趣度。
在经过上述日志信息的获取及标签标识的提取后,便可利用用户兴趣度数据操作节点(TagInterestUpdateBolt)进行不同兴趣类目的用户兴趣度的计算。针对某一用户来说,其每一次的浏览产品行为、购买产品行为、关注产品行为或收藏产品行为都将以标签信息的方式记录在本地存储系统中。而标签信息的具体存储形式及步骤可参考上述实施例二中的步骤404,此处不再赘述。此外,本地存储系统中还存储了各个数据源的权重表及标签信息对应的各个兴趣类目的权重表。各个数据源的权重表及标签信息对应的各个兴趣类目的权重表均可通过经验值或模型训练而得到,且均可离线导入。而不同兴趣类目的用户兴趣度的获取可参考上述实施例二中的步骤406,此处不再赘述。在获取到不同兴趣类目的用户兴趣度之后,可将得到的各个用户兴趣度按照如下表格进行存储。
表1
用户标识 兴趣类目 分值(0-1)
用户1 兴趣类目1 分值1
用户1 兴趣类目2 分值2
...... ...... ......
用户1 兴趣类目N 分值N
由于用户在一次行为发生后,便可触发一次不同兴趣类目的用户兴趣度的获取;从而可实时获取到用户对不同兴趣类目的兴趣度,进而根据用户对不同兴趣类目的最新兴趣度为用户推荐相应的产品,提升了用户体验度。
实施例五
本实施例提供了一种服务器,该服务器可以用于执行上述实施例中提供的构建用户实时画像的方法。参见图11,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
具体在本实施例中,经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令:
获取用户的日志信息;
对日志信息进行过滤,得到日志信息的关键字段;
提取关键字段的标签标识;
根据标签标识及关键字段,获取当前标签信息,标签信息至少用于指示标签标识在日志信息的生成时间内的出现次数;
根据标签标识,确定当前标签信息对应的全部兴趣类目;
根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度;
其中,关键字段至少包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:
检测关键字段中是否包含行为类目标识;
如果关键字段中包含行为类目标识,则将行为类目标识作为提取到的关键字段的标签标识。
在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
如果关键字段中未包含行为类目标识,则根据关键字段中的产品标识获取与产品标识相对应的产品标题,并根据产品标题提取关键字段的标签标识。
在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据预设语法规则对产品标题进行分词处理,得到产品标题的多个分词结果;
根据预设过滤条件对多个分词结果进行过滤分析,如果得到过滤结果,则将过滤结果提取为关键字段的标签标识。
在第一种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
检测已存储的多个标签信息中是否存在包括标签标识和标签标识的提取类型的标签信息;
如果已存储的多个标签信息中包括标签标识和标签标识的提取类型,则将包括标签标识和标签标识的提取类型的标签信息确定为匹配标签信息,并确定标签标识对应的日志信息的生成时间是否与匹配标签信息的多个预设时间段中的一个相对应;
如果标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段中的一个相对应,则对相对应的时间段中标签标识的出现次数进行更新。
在第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
如果标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段均不对应,则根据标签标识对应的日志信息的生成时间创建一条单独的存储项,并统计标签标识在标签标识对应的日志信息的生成时间内的出现次数。
在第五种可能的实施方式作为基础而提供的第七种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
如果已存储的用户的多个标签信息均不包括标签标识和标签标识的提取类型,则将用户标识及日志信息的数据源标识作为键,将标签标识、标签标识的提取类型及标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
在第五种可能的实施方式或第六种可能的实施方式或第七种可能的实施方式作为基础而提供的第八种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。
在第一种可能的实施方式作为基础而提供的第九种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
获取每个兴趣类目对应的多个历史标签信息;
确定当前标签信息及多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子;
根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与每个兴趣类目对应的用户兴趣度。
在第九种可能的实施方式作为基础而提供的第十种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,应用下述公式,获取与每个兴趣类目对应的用户兴趣度,包括:
Score = 1 1 + γ * exp [ - Σ i = 0 i = m ( λ ( i ) * Σ j = 0 j = n ( w ( j ) * Σ t = 0 t = k ( weakenFactor ( t ) * count ( t ) ) ) ) / b ]
其中,Score指代兴趣度,λ(i)为每个标签信息对应的数据源的权重值,w(j)为每个标签信息对应的兴趣类目的权重值,weakenFactor(t)为时间衰减因子,count(t)为每个预设时间段内标签标识的出现次数,m为数据源的个数,n为不同数据源下标签信息的总数,m、n、γ和b均为常数。
本发明实施例提供的服务器,在对获取的日志信息进行过滤,得到关键字段后,提取关键字段的标签标识,并根据标签标识及关键字段获取当前标签信息;进而在确定当前标签信息对应的全部兴趣类目后,根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度,因而实现了在获取到用户的一个日志信息后,便重新构建用户实时画像,从而可根据用户实时画像向用户推荐精准的数据信息,不但时效性较好,且提升了用户体验度。
实施例五
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入服务器中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,一个或者一个以上程序被一个或者一个以上的处理器用来执行构建用户实时画像的方法,方法包括:
获取用户的日志信息;
对日志信息进行过滤,得到日志信息的关键字段;
提取关键字段的标签标识;
根据标签标识及关键字段,获取当前标签信息,标签信息至少用于指示标签标识在日志信息的生成时间内的出现次数;
根据标签标识,确定当前标签信息对应的全部兴趣类目;
根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度;
其中,关键字段至少包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,提取关键字段的标签标识,包括:
检测关键字段中是否包含行为类目标识;
如果关键字段中包含行为类目标识,则将行为类目标识作为提取到的关键字段的标签标识。
在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,检测关键字段中是否包含行为类目标识之后,方法还包括:
如果关键字段中未包含行为类目标识,则根据关键字段中的产品标识获取与产品标识相对应的产品标题,并根据产品标题提取关键字段的标签标识。
在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,根据产品标题提取关键字段的标签标识,包括:
根据预设语法规则对产品标题进行分词处理,得到产品标题的多个分词结果;
根据预设过滤条件对多个分词结果进行过滤分析,如果得到过滤结果,则将过滤结果提取为关键字段的标签标识。
在第一种可能的实施方式作为基础而提供的第五种可能的实施方式中,根据标签标识及关键字段,获取当前标签信息,包括:
检测已存储的多个标签信息中是否存在包括标签标识和标签标识的提取类型的标签信息;
如果已存储的多个标签信息中包括标签标识和标签标识的提取类型,则将包括标签标识和标签标识的提取类型的标签信息确定为匹配标签信息,并确定标签标识对应的日志信息的生成时间是否与匹配标签信息的多个预设时间段中的一个相对应;
如果标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段中的一个相对应,则对相对应的时间段中标签标识的出现次数进行更新。
在第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,确定标签标识对应的日志信息的生成时间是否与匹配标签信息的多个预设时间段中的一个相对应之后,方法还包括:
如果标签标识对应的日志信息的生成时间与匹配标签信息的多个预设时间段均不对应,则根据标签标识对应的日志信息的生成时间创建一条单独的存储项,并统计标签标识在标签标识对应的日志信息的生成时间内的出现次数。
在第五种可能的实施方式作为基础而提供的第七种可能的实施方式中,检测已存储的多个标签信息中是否存在包括标签标识和标签标识的提取类型的标签信息之后,方法还包括:
如果已存储的用户的多个标签信息均不包括标签标识和标签标识的提取类型,则将用户标识及日志信息的数据源标识作为键,将标签标识、标签标识的提取类型及标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
在第五种可能的实施方式或第六种可能的实施方式或第七种可能的实施方式作为基础而提供的第八种可能的实施方式中,方法还包括:
对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。
在第一种可能的实施方式作为基础而提供的第九种可能的实施方式中,根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度,包括:
获取每个兴趣类目对应的多个历史标签信息;
确定当前标签信息及多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子;
根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与每个兴趣类目对应的用户兴趣度。
在第九种可能的实施方式作为基础而提供的第十种可能的实施方式中,根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,应用下述公式,获取与每个兴趣类目对应的用户兴趣度,包括:
根据当前标签信息及多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,应用下述公式,获取与每个兴趣类目对应的用户兴趣度,包括:
Score = 1 1 + γ * exp [ - Σ i = 0 i = m ( λ ( i ) * Σ j = 0 j = n ( w ( j ) * Σ t = 0 t = k ( weakenFactor ( t ) * count ( t ) ) ) ) / b ]
其中,Score指代兴趣度,λ(i)为每个标签信息对应的数据源的权重值,w(j)为每个标签信息对应的兴趣类目的权重值,weakenFactor(t)为时间衰减因子,count(t)为每个预设时间段内标签标识的出现次数,m为数据源的个数,n为不同数据源下标签信息的总数,m、n、γ和b均为常数。
本发明实施例提供的计算机可读存储介质,在对获取的日志信息进行过滤,得到关键字段后,提取关键字段的标签标识,并根据标签标识及关键字段获取当前标签信息;进而在确定当前标签信息对应的全部兴趣类目后,根据当前标签信息,获取与每个兴趣类目相对应的用户兴趣度,因而实现了在获取到用户的一个日志信息后,便重新构建用户实时画像,从而可根据用户实时画像向用户推荐精准的数据信息,不但时效性较好,且提升了用户体验度。
需要说明的是:上述实施例提供的构建用户实时画像的装置在构建用户实时画像时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的构建用户实时画像的装置与构建用户实时画像的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (19)

1.一种构建用户实时画像的方法,其特征在于,所述方法包括:
获取用户的日志信息;
对所述日志信息进行过滤,得到所述日志信息的关键字段;
提取所述关键字段的标签标识;
根据所述标签标识及所述关键字段,获取当前标签信息,所述标签信息至少用于指示所述标签标识在所述日志信息的生成时间内的出现次数;
根据所述标签标识,确定所述当前标签信息对应的全部兴趣类目;
根据所述当前标签信息,获取与每个兴趣类目相对应的用户兴趣度;
其中,所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数据源标识及产品标识。
2.根据权利要求1所述的方法,其特征在于,所述提取所述关键字段的标签标识,包括:
检测所述关键字段中是否包含行为类目标识;
如果所述关键字段中包含行为类目标识,则将所述行为类目标识作为提取到的所述关键字段的标签标识。
3.根据权利要求2所述的方法,其特征在于,所述检测所述关键字段中是否包含行为类目标识之后,所述方法还包括:
如果所述关键字段中未包含行为类目标识,则根据所述关键字段中的产品标识获取与所述产品标识相对应的产品标题,并根据所述产品标题提取所述关键字段的标签标识。
4.根据权利要求3所述的方法,其特征在于,所述根据所述产品标题提取所述关键字段的标签标识,包括:
根据预设语法规则对所述产品标题进行分词处理,得到所述产品标题的多个分词结果;
根据预设过滤条件对多个分词结果进行过滤分析,如果得到过滤结果,则将所述过滤结果提取为所述关键字段的标签标识。
5.根据权利要求1所述的方法,其特征在于,所述根据所述标签标识及所述关键字段,获取当前标签信息,包括:
检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类型的标签信息;
如果已存储的多个标签信息中包括所述标签标识和所述标签标识的提取类型,则将所述包括所述标签标识和所述标签标识的提取类型的标签信息确定为匹配标签信息,并确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应;
如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段中的一个相对应,则对相对应的时间段中所述标签标识的出现次数进行更新。
6.根据权利要求5所述的方法,其特征在于,所述确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应之后,所述方法还包括:
如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段均不对应,则根据所述标签标识对应的所述日志信息的生成时间创建一条单独的存储项,并统计所述标签标识在所述标签标识对应的日志信息的生成时间内的出现次数。
7.根据权利要求5所述的方法,其特征在于,所述检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类型的标签信息之后,所述方法还包括:
如果已存储的所述用户的多个标签信息均不包括所述标签标识和所述标签标识的提取类型,则将所述用户标识及所述日志信息的数据源标识作为键,将所述标签标识、所述标签标识的提取类型及所述标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
8.根据权利要求5至7中任一权利要求所述的方法,其特征在于,所述方法还包括:
对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。
9.根据权利要求1所述的方法,其特征在于,所述根据所述当前标签信息,获取与每个兴趣类目相对应的用户兴趣度,包括:
获取每个兴趣类目对应的多个历史标签信息;
确定所述当前标签信息及所述多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子;
根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与所述每个兴趣类目对应的所述用户兴趣度。
10.根据权利要求9所述的方法,其特征在于,所述根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,应用下述公式,获取与所述每个兴趣类目对应的所述用户兴趣度,包括:
Score = 1 1 + γ * exp [ - Σ i = 0 i = m ( λ ( i ) * Σ j = 0 j = n ( w ( j ) * Σ t = 0 t = k ( weakenFactor ( t ) * count ( t ) ) ) ) / b ]
其中,Score指代兴趣度,λ(i)为每个标签信息对应的数据源的权重值,w(j)为每个标签信息对应的兴趣类目的权重值,weakenFactor(t)为时间衰减因子,count(t)为每个预设时间段内所述标签标识的出现次数,m为数据源的个数,n为不同数据源下标签信息的总数,m、n、γ和b均为常数。
11.一种构建用户实时画像的装置,其特征在于,所述装置包括:
日志信息获取模块,用于获取用户的日志信息;
过滤模块,用于对所述日志信息获取模块获取到的日志信息进行过滤,得到所述日志信息的关键字段;
提取模块,用于提取所述过滤模块过滤得到的关键字段的标签标识;
当前标签信息获取模块,用于根据所述提取模块提取的标签标识及所述过滤模块过滤得到的关键字段,获取当前标签信息,所述标签信息至少用于指示所述标签标识在所述日志信息的生成时间内的出现次数;
确定模块,用于根据所述提取模块提取的标签标识,确定所述当前标签信息对应的全部兴趣类目;
用户兴趣度获取模块,用于根据所述当前标签信息获取模块获取的当前标签信息,获取与每个兴趣类目相对应的用户兴趣度;
其中,所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数据源标识及产品标识。
12.根据权利要求11所述的装置,其特征在于,所述提取模块,包括:
检测单元,用于检测所述关键字段中是否包含行为类目标识;
确定单元,用于当所述检测单元检测到关键字段中包含行为类目标识时,将所述行为类目标识作为提取到的所述关键字段的标签标识。
13.根据权利要求12所述的装置,其特征在于,所述提取模块,还包括:
获取单元,用于当所述检测单元检测关键字段中未包含行为类目标识时,根据所述关键字段中的产品标识获取与所述产品标识相对应的产品标题;
提取单元,用于根据所述获取单元获取到的产品标题提取所述关键字段的标签标识。
14.根据权利要求13所述的装置,其特征在于,所述提取单元,包括:
分词处理子单元,用于根据预设语法规则对所述获取单元获取的产品标题进行分词处理,得到所述产品标题的多个分词结果;
过滤分析子单元,用于根据预设过滤条件对多个分词结果进行过滤分析;
提取子单元,用于当所述过滤分析子单元得到过滤结果时,将所述过滤结果提取为所述关键字段的标签标识。
15.根据权利要求11所述的装置,其特征在于,所述当前标签信息获取模块,包括:
检测单元,用于检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类型的标签信息;
确定单元,用于当已存储的多个标签信息中包括所述标签标识和所述标签标识的提取类型时,将所述包括所述标签标识和所述标签标识的提取类型的标签信息确定为匹配标签信息,并确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应;
更新单元,用于当所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段中的一个相对应时,对相对应的时间段中所述标签标识的出现次数进行更新。
16.根据权利要求15所述的装置,其特征在于,所述当前标签信息获取模块,还包括:
创建单元,用于当所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设时间段均不对应时,根据所述标签标识对应的所述日志信息的生成时间创建一条单独的存储项,并统计所述标签标识在所述标签标识对应的日志信息的生成时间内的出现次数。
17.根据权利要求15所述的装置,其特征在于,所述当前标签信息获取模块,还包括:
生成单元,用于当已存储的多个标签信息均不包括所述标签标识和所述标签标识的提取类型时,将所述用户标识及所述日志信息的数据源标识作为键,将所述标签标识、所述标签标识的提取类型及所述标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
18.根据权利要求15至17中任一权利要求所述的装置,其特征在于,所述装置还包括:
删除模块,用于对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进行删除。
19.根据权利要求11所述的装置,其特征在于,所述用户兴趣度获取模块,包括:
历史标签信息获取单元,用于获取每个兴趣类目对应的多个历史标签信息;
确定单元,用于确定所述当前标签信息及所述多个历史标签信息分别对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子;
用户兴趣度获取单元,用于根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与所述每个兴趣类目对应的所述用户兴趣度。
CN201310661820.0A 2013-12-09 2013-12-09 构建用户实时画像的方法及装置 Active CN104090886B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310661820.0A CN104090886B (zh) 2013-12-09 2013-12-09 构建用户实时画像的方法及装置
US15/101,851 US9832280B2 (en) 2013-12-09 2015-02-04 User profile configuring method and device
PCT/CN2015/072201 WO2015085961A1 (zh) 2013-12-09 2015-02-04 构建用户画像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310661820.0A CN104090886B (zh) 2013-12-09 2013-12-09 构建用户实时画像的方法及装置

Publications (2)

Publication Number Publication Date
CN104090886A true CN104090886A (zh) 2014-10-08
CN104090886B CN104090886B (zh) 2015-09-09

Family

ID=51638602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310661820.0A Active CN104090886B (zh) 2013-12-09 2013-12-09 构建用户实时画像的方法及装置

Country Status (3)

Country Link
US (1) US9832280B2 (zh)
CN (1) CN104090886B (zh)
WO (1) WO2015085961A1 (zh)

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015085961A1 (zh) * 2013-12-09 2015-06-18 腾讯科技(深圳)有限公司 构建用户画像的方法及装置
CN105005587A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种用户画像的更新方法、装置和系统
CN105477860A (zh) * 2015-12-22 2016-04-13 北京奇虎科技有限公司 游戏活动推荐方法及装置
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN105787071A (zh) * 2016-03-02 2016-07-20 浪潮通信信息系统有限公司 一种基于信息化标签进行手机用户行为画像的方法
CN105872731A (zh) * 2015-11-26 2016-08-17 乐视云计算有限公司 数据处理的方法和装置
CN105931068A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种持卡人消费画像的生成方法及装置
CN106407239A (zh) * 2015-08-03 2017-02-15 阿里巴巴集团控股有限公司 用于推荐及辅助推荐信息的方法及装置
CN106445934A (zh) * 2015-08-04 2017-02-22 北京奇虎科技有限公司 一种数据处理方法和装置
CN106446073A (zh) * 2016-09-07 2017-02-22 乐视控股(北京)有限公司 一种用户等级划分方法及装置
WO2017032212A1 (zh) * 2015-08-27 2017-03-02 华为技术有限公司 一种数据流处理方法和装置
CN106599060A (zh) * 2016-11-16 2017-04-26 竹间智能科技(上海)有限公司 获取用户画像的方法及系统
CN106682686A (zh) * 2016-12-09 2017-05-17 北京拓明科技有限公司 一种基于手机上网行为的用户性别预测方法
CN106776860A (zh) * 2016-11-28 2017-05-31 北京三快在线科技有限公司 一种搜索摘要生成方法及装置
CN106815738A (zh) * 2015-12-01 2017-06-09 中国电信股份有限公司 一种获取用户画像的方法和装置
CN106911739A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种信息分发方法及装置
CN106980663A (zh) * 2017-03-21 2017-07-25 上海星红桉数据科技有限公司 基于海量跨屏行为数据的用户画像方法
CN107145536A (zh) * 2017-04-19 2017-09-08 畅捷通信息技术股份有限公司 用户画像构建方法与装置及推荐方法与装置
CN107194651A (zh) * 2017-06-22 2017-09-22 成都源禾丰创科技有限公司 一种用于快递末端投递的用户画像系统
CN107203602A (zh) * 2017-05-15 2017-09-26 竹间智能科技(上海)有限公司 基于聊天记忆的用户模型信任值更新方法及装置
CN107341679A (zh) * 2016-04-29 2017-11-10 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
CN107783987A (zh) * 2016-08-25 2018-03-09 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN107844548A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据标签方法和装置
CN108073716A (zh) * 2017-12-27 2018-05-25 北京诸葛找房信息技术有限公司 在线实时用户画像生成方法
CN108108302A (zh) * 2017-12-29 2018-06-01 北京致远互联软件股份有限公司 一种基于协同管理软件的协同行为测量的方法及装置
CN108133013A (zh) * 2017-12-22 2018-06-08 平安养老保险股份有限公司 信息处理方法、装置、计算机设备和存储介质
CN108230051A (zh) * 2018-02-12 2018-06-29 昆山数泰数据技术有限公司 一种基于标签权重算法的用户对商品关注度的确定方法
CN108629608A (zh) * 2017-03-22 2018-10-09 腾讯科技(深圳)有限公司 用户数据处理方法及装置
CN108834171A (zh) * 2018-07-27 2018-11-16 新华三大数据技术有限公司 画像方法及装置
CN108920596A (zh) * 2018-06-27 2018-11-30 广东亿迅科技有限公司 一种个性化推荐算法及终端
CN108985819A (zh) * 2018-06-15 2018-12-11 天津五八到家科技有限公司 司机画像方法、系统及设备
CN109255000A (zh) * 2018-07-17 2019-01-22 深圳市彬讯科技有限公司 一种标签数据的维度管理方法及装置
CN109710836A (zh) * 2018-11-29 2019-05-03 国政通科技有限公司 一种基于追星族公会的大数据智能推荐系统及方法
CN109741629A (zh) * 2018-12-21 2019-05-10 平安科技(深圳)有限公司 用户画像实时构建方法、系统、计算机设备及存储介质
CN109815381A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 用户画像构建方法、系统、计算机设备及存储介质
CN109815386A (zh) * 2018-12-21 2019-05-28 厦门市美亚柏科信息股份有限公司 一种基于用户画像的构建方法、装置及存储介质
CN109992982A (zh) * 2019-04-11 2019-07-09 北京信息科技大学 大数据访问授权方法、装置和大数据平台
CN110019562A (zh) * 2018-06-28 2019-07-16 深圳市彬讯科技有限公司 用户画像标签的配置管理方法及配置管理设备
CN110110201A (zh) * 2018-01-09 2019-08-09 苏州跃盟信息科技有限公司 一种内容推荐方法和系统
CN110968573A (zh) * 2018-09-29 2020-04-07 北京小米移动软件有限公司 用户画像数据清洗方法及装置
CN111324724A (zh) * 2020-02-13 2020-06-23 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111475741A (zh) * 2019-01-24 2020-07-31 北京京东尚科信息技术有限公司 用于确定用户兴趣标签的方法和装置
CN111538751A (zh) * 2020-03-23 2020-08-14 重庆特斯联智慧科技股份有限公司 物联网数据的标签化用户画像生成系统及方法
CN112163897A (zh) * 2020-10-19 2021-01-01 科技谷(厦门)信息技术有限公司 一种基于Flink的电商平台用户行为分析方法
CN112416999A (zh) * 2020-11-17 2021-02-26 单高峰 基于人工智能和大数据定位的数据分析方法及云端服务器
CN112579638A (zh) * 2019-09-29 2021-03-30 北京国双科技有限公司 行为标签信息的处理方法、装置、计算机设备及存储介质
CN113297287A (zh) * 2021-04-28 2021-08-24 上海淇玥信息技术有限公司 用户策略自动部署方法、装置及电子设备
CN113344604A (zh) * 2021-04-16 2021-09-03 广州迅捷微风信息科技有限公司 一种基于用户行为数据及流计算的用户细分方法
CN113590952A (zh) * 2021-07-30 2021-11-02 上海德衡数据科技有限公司 一种数据中心构建的方法及系统
CN113836431A (zh) * 2021-10-19 2021-12-24 中国平安人寿保险股份有限公司 基于用户时长的用户推荐方法、装置、设备及介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824618A (zh) * 2016-03-10 2016-08-03 浪潮软件集团有限公司 一种关于Storm使用的实时消息处理方法
WO2020087386A1 (zh) * 2018-10-31 2020-05-07 深圳市欢太科技有限公司 内容推荐方法、装置、移动终端及服务器
CN112488742A (zh) 2019-09-12 2021-03-12 北京三星通信技术研究有限公司 用户属性信息的预测方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114739A1 (en) * 2003-11-24 2005-05-26 International Business Machines Corporation Hybrid method for event prediction and system control
CN102646132A (zh) * 2012-03-26 2012-08-22 中国联合网络通信集团有限公司 宽带用户属性识别方法和装置
CN102737120A (zh) * 2012-06-01 2012-10-17 西安交通大学 一种个性化网络学习资源推荐方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100231697B1 (ko) * 1997-09-04 2000-01-15 정선종 단일링에 기반한 댁내망 장치
US20030191720A1 (en) * 2002-04-08 2003-10-09 Himgan Wibisono Electronic tracking tag
US7162494B2 (en) * 2002-05-29 2007-01-09 Sbc Technology Resources, Inc. Method and system for distributed user profiling
US20030233336A1 (en) 2002-06-13 2003-12-18 Objectsoft, Inc. System to retate personal information to a unique identifier
US7627617B2 (en) * 2004-02-11 2009-12-01 Storage Technology Corporation Clustered hierarchical file services
US7613692B2 (en) * 2006-07-25 2009-11-03 Microsoft Corporation Persona-based application personalization
KR100911014B1 (ko) * 2007-06-05 2009-08-06 주식회사 위피아 스폰서 매치 광고 서비스 방법 및 그 시스템
US8590039B1 (en) * 2007-11-28 2013-11-19 Mcafee, Inc. System, method and computer program product for sending information extracted from a potentially unwanted data sample to generate a signature
US20090228357A1 (en) * 2008-03-05 2009-09-10 Bhavin Turakhia Method and System for Displaying Relevant Commercial Content to a User
US20100241507A1 (en) * 2008-07-02 2010-09-23 Michael Joseph Quinn System and method for searching, advertising, producing and displaying geographic territory-specific content in inter-operable co-located user-interface components
US20100185518A1 (en) * 2009-01-21 2010-07-22 Yahoo! Inc. Interest-based activity marketing
WO2010091319A1 (en) * 2009-02-06 2010-08-12 Slinker Scott W Determining relationships between individuals in a database
US20100275130A1 (en) * 2009-04-23 2010-10-28 Mcbride Patrick Thomas Application personas
US8549019B2 (en) 2009-05-26 2013-10-01 Google Inc. Dynamically generating aggregate tables
CN101655856A (zh) * 2009-09-15 2010-02-24 西安交通大学 一种获取用户特定知识元兴趣度的方法
US8751305B2 (en) * 2010-05-24 2014-06-10 140 Proof, Inc. Targeting users based on persona data
US20120042263A1 (en) * 2010-08-10 2012-02-16 Seymour Rapaport Social-topical adaptive networking (stan) system allowing for cooperative inter-coupling with external social networking systems and other content sources
US9311619B2 (en) * 2010-09-10 2016-04-12 Visible Technologies Llc Systems and methods for consumer-generated media reputation management
US8996429B1 (en) * 2011-05-06 2015-03-31 Google Inc. Methods and systems for robot personality development
WO2013026048A2 (en) * 2011-08-18 2013-02-21 Utherverse Digital, Inc. Systems and methods of virtual world interaction
US8209390B1 (en) * 2011-10-06 2012-06-26 Google Inc. Method and apparatus for providing destination-address suggestions
US8667579B2 (en) * 2011-11-29 2014-03-04 Genband Us Llc Methods, systems, and computer readable media for bridging user authentication, authorization, and access between web-based and telecom domains
CA2785205C (en) * 2012-02-24 2019-12-31 Sandvine Incorporated Ulc Systems and methods for traffic management
US20130246176A1 (en) * 2012-03-13 2013-09-19 American Express Travel Related Services Company, Inc. Systems and Methods Determining a Merchant Persona
US20140123031A1 (en) * 2012-09-25 2014-05-01 Richard Postrel Method and system for calculation and utilization of various user personas
US9207945B2 (en) * 2012-09-28 2015-12-08 Intel Corporation Multi-persona computing based on real time user recognition
US9967241B2 (en) * 2013-03-15 2018-05-08 Verizon Patent And Licensing Inc. Persona based billing
US9558270B2 (en) * 2013-04-30 2017-01-31 Microsoft Technology Licensing, Llc Search result organizing based upon tagging
US20140337112A1 (en) * 2013-05-09 2014-11-13 Qualcomm Incorporated System and method for creating and sharing product ensembles with an electronic pin board wall
US10129242B2 (en) * 2013-09-16 2018-11-13 Airwatch Llc Multi-persona devices and management
WO2015060854A1 (en) * 2013-10-24 2015-04-30 Hewlett-Packard Development Company, L.P. Real-time inter-personal communication
CN104090886B (zh) 2013-12-09 2015-09-09 深圳市腾讯计算机系统有限公司 构建用户实时画像的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114739A1 (en) * 2003-11-24 2005-05-26 International Business Machines Corporation Hybrid method for event prediction and system control
CN102646132A (zh) * 2012-03-26 2012-08-22 中国联合网络通信集团有限公司 宽带用户属性识别方法和装置
CN102737120A (zh) * 2012-06-01 2012-10-17 西安交通大学 一种个性化网络学习资源推荐方法

Cited By (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9832280B2 (en) 2013-12-09 2017-11-28 Tencent Technology (Shenzhen) Company Limited User profile configuring method and device
WO2015085961A1 (zh) * 2013-12-09 2015-06-18 腾讯科技(深圳)有限公司 构建用户画像的方法及装置
CN105005587A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种用户画像的更新方法、装置和系统
CN106407239A (zh) * 2015-08-03 2017-02-15 阿里巴巴集团控股有限公司 用于推荐及辅助推荐信息的方法及装置
CN106445934A (zh) * 2015-08-04 2017-02-22 北京奇虎科技有限公司 一种数据处理方法和装置
WO2017032212A1 (zh) * 2015-08-27 2017-03-02 华为技术有限公司 一种数据流处理方法和装置
CN106487694A (zh) * 2015-08-27 2017-03-08 华为技术有限公司 一种数据流处理方法和装置
CN106487694B (zh) * 2015-08-27 2020-03-27 华为技术有限公司 一种数据流处理方法和装置
CN105872731A (zh) * 2015-11-26 2016-08-17 乐视云计算有限公司 数据处理的方法和装置
CN106815738A (zh) * 2015-12-01 2017-06-09 中国电信股份有限公司 一种获取用户画像的方法和装置
CN105608171B (zh) * 2015-12-22 2018-12-11 青岛海贝易通信息技术有限公司 用户画像构建方法
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN105477860A (zh) * 2015-12-22 2016-04-13 北京奇虎科技有限公司 游戏活动推荐方法及装置
CN106911739A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种信息分发方法及装置
CN105931068A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种持卡人消费画像的生成方法及装置
CN105787071A (zh) * 2016-03-02 2016-07-20 浪潮通信信息系统有限公司 一种基于信息化标签进行手机用户行为画像的方法
CN110378731A (zh) * 2016-04-29 2019-10-25 腾讯科技(深圳)有限公司 获取用户画像的方法、装置、服务器及存储介质
US11394798B2 (en) 2016-04-29 2022-07-19 Tencent Technology (Shenzhen) Company Limited User portrait obtaining method, apparatus, and storage medium according to user behavior log records on features of articles
CN107341679A (zh) * 2016-04-29 2017-11-10 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
CN107783987A (zh) * 2016-08-25 2018-03-09 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN107783987B (zh) * 2016-08-25 2022-03-04 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN106446073A (zh) * 2016-09-07 2017-02-22 乐视控股(北京)有限公司 一种用户等级划分方法及装置
CN106599060B (zh) * 2016-11-16 2020-04-07 竹间智能科技(上海)有限公司 获取用户画像的方法及系统
CN106599060A (zh) * 2016-11-16 2017-04-26 竹间智能科技(上海)有限公司 获取用户画像的方法及系统
CN106776860A (zh) * 2016-11-28 2017-05-31 北京三快在线科技有限公司 一种搜索摘要生成方法及装置
CN106682686A (zh) * 2016-12-09 2017-05-17 北京拓明科技有限公司 一种基于手机上网行为的用户性别预测方法
CN106980663A (zh) * 2017-03-21 2017-07-25 上海星红桉数据科技有限公司 基于海量跨屏行为数据的用户画像方法
CN108629608B (zh) * 2017-03-22 2023-02-24 腾讯科技(深圳)有限公司 用户数据处理方法及装置
CN108629608A (zh) * 2017-03-22 2018-10-09 腾讯科技(深圳)有限公司 用户数据处理方法及装置
CN107145536A (zh) * 2017-04-19 2017-09-08 畅捷通信息技术股份有限公司 用户画像构建方法与装置及推荐方法与装置
CN107203602A (zh) * 2017-05-15 2017-09-26 竹间智能科技(上海)有限公司 基于聊天记忆的用户模型信任值更新方法及装置
CN107194651A (zh) * 2017-06-22 2017-09-22 成都源禾丰创科技有限公司 一种用于快递末端投递的用户画像系统
CN107844548A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据标签方法和装置
CN108133013A (zh) * 2017-12-22 2018-06-08 平安养老保险股份有限公司 信息处理方法、装置、计算机设备和存储介质
CN108133013B (zh) * 2017-12-22 2021-02-09 平安养老保险股份有限公司 信息处理方法、装置、计算机设备和存储介质
CN108073716A (zh) * 2017-12-27 2018-05-25 北京诸葛找房信息技术有限公司 在线实时用户画像生成方法
CN108108302A (zh) * 2017-12-29 2018-06-01 北京致远互联软件股份有限公司 一种基于协同管理软件的协同行为测量的方法及装置
CN110110201A (zh) * 2018-01-09 2019-08-09 苏州跃盟信息科技有限公司 一种内容推荐方法和系统
CN110110201B (zh) * 2018-01-09 2021-10-08 苏州跃盟信息科技有限公司 一种内容推荐方法和系统
CN108230051A (zh) * 2018-02-12 2018-06-29 昆山数泰数据技术有限公司 一种基于标签权重算法的用户对商品关注度的确定方法
CN108985819A (zh) * 2018-06-15 2018-12-11 天津五八到家科技有限公司 司机画像方法、系统及设备
CN108920596A (zh) * 2018-06-27 2018-11-30 广东亿迅科技有限公司 一种个性化推荐算法及终端
CN108920596B (zh) * 2018-06-27 2021-10-29 广东亿迅科技有限公司 一种个性化推荐算法及终端
CN110019562A (zh) * 2018-06-28 2019-07-16 深圳市彬讯科技有限公司 用户画像标签的配置管理方法及配置管理设备
CN109255000B (zh) * 2018-07-17 2022-10-11 土巴兔集团股份有限公司 一种标签数据的维度管理方法及装置
CN109255000A (zh) * 2018-07-17 2019-01-22 深圳市彬讯科技有限公司 一种标签数据的维度管理方法及装置
CN108834171A (zh) * 2018-07-27 2018-11-16 新华三大数据技术有限公司 画像方法及装置
CN110968573B (zh) * 2018-09-29 2023-03-21 北京小米移动软件有限公司 用户画像数据清洗方法及装置
CN110968573A (zh) * 2018-09-29 2020-04-07 北京小米移动软件有限公司 用户画像数据清洗方法及装置
CN109710836A (zh) * 2018-11-29 2019-05-03 国政通科技有限公司 一种基于追星族公会的大数据智能推荐系统及方法
CN109815386A (zh) * 2018-12-21 2019-05-28 厦门市美亚柏科信息股份有限公司 一种基于用户画像的构建方法、装置及存储介质
CN109815381A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 用户画像构建方法、系统、计算机设备及存储介质
CN109741629A (zh) * 2018-12-21 2019-05-10 平安科技(深圳)有限公司 用户画像实时构建方法、系统、计算机设备及存储介质
CN111475741A (zh) * 2019-01-24 2020-07-31 北京京东尚科信息技术有限公司 用于确定用户兴趣标签的方法和装置
CN109992982A (zh) * 2019-04-11 2019-07-09 北京信息科技大学 大数据访问授权方法、装置和大数据平台
CN112579638B (zh) * 2019-09-29 2024-02-13 北京国双科技有限公司 行为标签信息的处理方法、装置、计算机设备及存储介质
CN112579638A (zh) * 2019-09-29 2021-03-30 北京国双科技有限公司 行为标签信息的处理方法、装置、计算机设备及存储介质
CN111324724B (zh) * 2020-02-13 2023-04-11 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111324724A (zh) * 2020-02-13 2020-06-23 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111538751A (zh) * 2020-03-23 2020-08-14 重庆特斯联智慧科技股份有限公司 物联网数据的标签化用户画像生成系统及方法
CN112163897A (zh) * 2020-10-19 2021-01-01 科技谷(厦门)信息技术有限公司 一种基于Flink的电商平台用户行为分析方法
CN112416999A (zh) * 2020-11-17 2021-02-26 单高峰 基于人工智能和大数据定位的数据分析方法及云端服务器
CN113344604A (zh) * 2021-04-16 2021-09-03 广州迅捷微风信息科技有限公司 一种基于用户行为数据及流计算的用户细分方法
CN113297287A (zh) * 2021-04-28 2021-08-24 上海淇玥信息技术有限公司 用户策略自动部署方法、装置及电子设备
CN113590952A (zh) * 2021-07-30 2021-11-02 上海德衡数据科技有限公司 一种数据中心构建的方法及系统
CN113590952B (zh) * 2021-07-30 2023-10-24 上海德衡数据科技有限公司 一种数据中心构建的方法及系统
CN113836431A (zh) * 2021-10-19 2021-12-24 中国平安人寿保险股份有限公司 基于用户时长的用户推荐方法、装置、设备及介质

Also Published As

Publication number Publication date
CN104090886B (zh) 2015-09-09
WO2015085961A1 (zh) 2015-06-18
US9832280B2 (en) 2017-11-28
US20160308997A1 (en) 2016-10-20

Similar Documents

Publication Publication Date Title
CN104090886B (zh) 构建用户实时画像的方法及装置
US20200228392A1 (en) Method and system for clustering event messages and manage event-message clusters
CN103605662B (zh) 一种分布式计算框架参数优化方法、装置及系统
CN103870455B (zh) 一种多数据源的数据集成处理方法和装置
CN110019396A (zh) 一种基于分布式多维分析的数据分析系统及方法
US20170109676A1 (en) Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
Xhafa et al. Processing and analytics of big data streams with yahoo! s4
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
US10812551B1 (en) Dynamic detection of data correlations based on realtime data
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
CN103701906B (zh) 分布式实时计算系统及其数据处理方法
CN108900619B (zh) 一种独立访客统计方法及装置
CN110209875B (zh) 用户内容画像确定方法、访问对象推荐方法和相关装置
CN103248677B (zh) 互联网行为分析系统及其工作方法
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
CN104978314A (zh) 媒体内容推荐方法及装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN103530538B (zh) 一种基于Schema的XML安全视图查询方法
CN109815381A (zh) 用户画像构建方法、系统、计算机设备及存储介质
Zhang et al. Spatiotemporal activity modeling under data scarcity: A graph-regularized cross-modal embedding approach
Xia et al. MFAGCN: A new framework for identifying power grid branch parameters
CN103412903A (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant