CN109242553A - 一种用户行为数据推荐方法、服务器及计算机可读介质 - Google Patents

一种用户行为数据推荐方法、服务器及计算机可读介质 Download PDF

Info

Publication number
CN109242553A
CN109242553A CN201810965582.5A CN201810965582A CN109242553A CN 109242553 A CN109242553 A CN 109242553A CN 201810965582 A CN201810965582 A CN 201810965582A CN 109242553 A CN109242553 A CN 109242553A
Authority
CN
China
Prior art keywords
data
user behavior
mentioned
behavior information
rule base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810965582.5A
Other languages
English (en)
Inventor
王翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810965582.5A priority Critical patent/CN109242553A/zh
Priority to PCT/CN2018/123508 priority patent/WO2020037917A1/zh
Publication of CN109242553A publication Critical patent/CN109242553A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Abstract

本申请实施例公开了一种用户行为数据推荐方法、服务器及计算机可读介质,涉及了对用户行为数据的分析整理以及实现用户行为数据的智能推荐。其中方法包括:读取用户行为信息,对上述用户行为信息进行数据清洗以生成用户行为数据;对上述用户行为数据进行内容识别处理形成规则库,所述规则库用于将上述用户行为数据进行分类存储;根据前端推荐系统的条件从上述规则库中提取推荐数据,将上述推荐数据推送到所述前端推荐系统。通过本发明实施例,可实现在推荐用户行为数据时,能够实现实时精准推荐,且使得推荐的用户行为数据不存在脏数据。

Description

一种用户行为数据推荐方法、服务器及计算机可读介质
技术领域
本申请涉及数据分析技术领域,尤其涉及一种用户行为数据推荐方法、服务器及计算机可读介质。
背景技术
伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。例如,如果用户昨天在淘宝上买了一件衣服,而今天想买一副泳镜去游泳,但是却发现系统在不遗余力地给他推荐裤子和衣服,却根本对他今天寻找泳镜的行为视而不见。这便是因为系统推荐是按照用户昨天的行为轨迹来向用户进行推荐导致的。也就是说,现有的推荐算法是通过抓取用户的历史轨迹记录,经过算法分析,T+1天后才能分析出用户的未来趋势,从而导致推荐不准确。
发明内容
本申请实施例提供一种用户行为数据推荐方法,可实现用户行为数据的实时精准推荐,且使得推荐的用户行为数据不存在脏数据。
第一方面,本申请实施例提供了一种用户行为数据推荐方法,该方法包括:
读取用户行为信息,对所述用户行为信息进行数据清洗生成用户行为数据;
对所述用户行为数据进行内容识别处理形成规则库,所述规则库用于将上述用户行为数据进行分类存储;
根据前端推荐系统的条件从所述规则库中提取符合条件的推荐数据,将所述推荐数据推送到所述前端推荐系统。
可选的,在所述读取用户行为信息之前,所述方法还包括:
从web日志文件中读取用户行为信息,或者从用户终端直接获取所述用户行为信息;
将所述用户行为信息发送到消息队列中。
可选的,所述数据清洗包括:错误数据清洗、缺失值数据清洗、重复值数据清洗或不一致性数据清洗。
可选的,所述读取用户行为信息包括:
通过实时处理框架的数据获取组件从所述消息队列中获取所述用户行为信息;
所述对所述用户行为信息进行数据清洗包括:
将所述用户行为信息分发给所述实时处理框架的处理组件;
所述实时处理框架的处理组件对所述用户行为信息进行数据清洗得到用户行为数据。
可选的,所述对所述用户行为数据进行内容识别处理形成规则库包括:
在所述用户行为数据进行内容识别处理后,将所述用户行为数据按照浏览行为、点击行为、输入行为或搜索行为进行分类;
将分类后的所述用户行为数据结构化处理;
将结构化处理的所述用户行为数据进行存储形成所述规则库。
可选的,所述从所述规则库中提取符合条件的推荐数据,将所述推荐数据推送到前端推荐系统,包括:
利用轨迹增强算法从所述规则库中按照不同的前端推荐系统的条件从上述规则库中提取符合条件的推荐数据;
将所述推荐数据推送到对应的前端推荐系统。
可选的,在所述将所述推荐数据推送到对应的前端推荐系统之后,所述方法还包括:
将所述推荐数据存储到历史行为轨迹数据库中;
将所述规则库中的所述推荐数据删除。
第二方面,本申请实施例提供了一种服务器,该服务器包括:
数据清洗单元,用于读取用户行为信息,对所述用户行为信息进行数据清洗生成用户行为数据;
规则库生成单元,用于对所述用户行为数据进行内容识别处理形成规则库,所述规则库用于将上述用户行为数据进行分类存储;
提取单元,用于根据前端推荐系统的条件从所述规则库中提取推荐数据;
推荐单元,用于将所述推荐数据推送到前端推荐系统。
可选的,所述服务器海包括:
获取单元,用于从日志文件中获取用户行为信息,或者从用户终端直接获取所述用户行为信息;
发送单元,用于将所述用户行为信息发送到消息队列中。
可选的,所述数据清洗单元包括:
读取单元,用于通过实时处理框架的数据获取组件从所述消息队列中读取所述用户行为信息;
分发单元,用于将所述用户行为信息分发给所述实时处理框架的处理组件;
清洗单元,用于所述实时处理框架的处理组件对所述用户行为信息进行数据清洗得到用户行为数据。
可选的,所述规则库生成单元包括:
分类单元,用于在所述用户行为数据进行内容识别处理后,将所述用户行为数据按照浏览行为、点击行为、输入行为或搜索行为进行分类;
处理单元,用于将分类后的所述用户行为数据结构化处理;
第一存储单元,将结构化处理的所述用户行为数据进行存储形成所述规则库。
可选的,所述提取单元,用于利用轨迹增强算法从所述规则库中按照不同的前端推荐系统的条件从上述规则库中提取推荐数据;
所述推荐单元,用于将所述推荐数据推送到对应的前端推荐系统。
可选的,所述服务器还包括:
第二存储单元,用于将所述推荐数据存储到历史行为轨迹数据库中;
删除单元,用于将所述规则库中的所述推荐数据删除。
第三方面,本申请实施例提供了另一服务器,包括处理器、存储器和通信模块,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码来执行上述第一方面及其任一种可选方式的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面及其任一种可选方式的方法。
在本申请实施例中,通过实时获取用户的行为信息,然后对获取到的用户行为信息进行数据清洗得到没有脏数据的用户行为数据,接着对所述用户行为数据进行内容识别,并整理分类的到规则库;最后根据前端推荐系统的条件从上述规则库中提取前端推荐系统需要的推荐数据,并将所述推荐数据推送到相应的推荐系统,以使的前端推荐系统得到该推荐系统需要的且没有脏数据的推荐数据,从而使得所述前端推荐系统实现实时精准的推荐。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种用户行为数据推荐方法的示意流程图;
图2是本申请实施例提供的另一种用户行为数据推荐方法的示意流程图;
图3是本申请实施例提供的一种服务器的示意框图;
图4是本申请实施例提供的一种设备;
图5是本申请实施例提供的一种服务器结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
参见图1,图1是本申请实施例提的供一种用户行为数据推荐方法的示意流程图,如图所示该方法可包括:
101:读取用户行为信息,对上述用户行为信息进行数据清洗以生成用户行为数据。
在本申请实施例中,上述用户行为是由时间、地点、人物、交互、交互内容五个元素构成的事件,比如用户搜索是一个事件,在什么时间、什么平台上、哪一个互联网协议(Internet Protocol,IP)地址、做了搜索、搜索的内容是什么。这是一个完整的事件,也是对用户行为的一个定义;我们可以在网站或者是应用程序(Application,APP)中定义千千万万个这样的事件。有了这样的事件以后,就可以把用户行为连起来观察。用户首次进入网站后就是一个新用户,他可能要注册,因此注册行为也是一个事件。注册要填写个人信息,之后他可能开始搜索买东西,所有这些都是用户行为信息。
当需要对用户行为信息进行实时分析处理,以便得到有用的用户行为数据,并根据用户的行为数据向用户进行相应的推荐。在本申请实施例中,通过实时读取用户的用户行为信息,然后对读取到的用户行为信息进行数据清洗处理得到用户行为数据。其中,上述对读取到的用户行为信息进行数据清洗处理可以包括对上述用户行为信息进行错误数据清洗、缺失值数据清洗、重复值数据清洗或不一致性数据清洗等操作。
具体的,主要通过数据流实时处理框架storm框架的数据获取组件spout来拉取用户行为信息数据,然后由spout将拉取到的用户行为信息数据按照预设规则分发给storm中的数据处理者bolt来对用户行为数据进行各种处理,例如对用户行为信息进行过滤清洗等。由于上述spout拉取的用户行为数据中可能会存在很多脏数据,例如上述用户行为数据中可能会存在一些重复数据、错误数据、残缺数据等。因此,当获取到上述用户行为信息数据之后首先要对上述用户行为信息数据进行清洗加工处理。具体的,上述对用户行为信息数据的清洗包括错误数据清洗、缺失值清洗、重复值清洗以及不一致性数据清洗。当对上述用户行为信息数据清洗完之后,将清洗之后的用户行为信息数据传递给下一个bolt组件继续处理。
其中,上述storm是一个免费开源、分布式、高容错的实时处理框架。Storm支持创建拓扑结构来转换没有终点的数据流。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用等领域。上述spout是storm中产生源数据流的组件,通常情况下spout会从外部数据源中读取数据,然后转换为内部的源数据。上述bolt是storm中执行数据处理的组件,可以执行过滤、函数操作、合并、写数据库等任何操作。
作为一种可选的实施方式,在读取用户行为信息之前,需要对用户行为进行跟踪,即对用户的用户行为信息进行收集。其中,用户的用户行为收集可以包括:基于Web服务器日志或客户端来收集用户行为信息。其中,基于Web服务器日志来收集用户行为信息的方式比较普遍,日志文件由web服务器自动生成,花费成本小,开发基于日志文件的数据分析工具相对比较容易;客户端收集用户行为数据是指采用一定的技术方法直接从客户端获得用户与网站的交互情况的行为数据,从客户端收集用户行为信息数据可以减少人为干扰因素,获得的数据更加真实准确,解决了服务器端收集所存在的不足,降低服务器的消耗。在收集到用户行为信息后,将上述用户行为信息发送到消息队列中,以便上述实时处理框架strom从消息队列中拉取上述用户行为信息。
Tracker系统是一套专业化的工装及刀具、夹具和量具智能数据库管理系统,它能对企业生产过程中的工装、刀具、夹具和量具进行整体的流程化管理,通过实时跟踪工装及刀夹量具的采购、出入库、修磨、报废、校准等过程,帮助库管员、工艺员、制造工程师和工装及刀夹量具主管等更有效地改善刀具管理过程,降低生产成本。
作为一种可选的实施方式,可以采用Tracker系统来收集上述用户行为信息。当网站或者APP到达一定的用户量后,一般需要一套Tracker系统,收集用户行为(如用户IP地址、页面来源、城市名、浏览器版本、按钮位置等)、页面访问性能、异常出错等信息,然后根据一定的策略上报到日志服务器。搜索、推荐、广告中心等开发团队分析这些日志,可以调整和开发各种功能;产品经理、高级管理人员等通过这些日志及时优化营运并进行正确决策。Tracker系统在一个成熟的应用中扮演着重要的角色,随着业务的发展,对它的实时性要求也越来越高。
Tracker系统支持自动打点字段、自动扩展字段等,在网站或者应用的各个页面的事件中嵌入Tracker系统的应用程序编程接口(Application Programming Interface,API),设置一定的策略发送到日志服务器,然后再同步到作为数据缓冲区的消息队列。通过Storm框架从消息队列中拉取消息,完成相关的过滤和计算,最后存到数据库中(例如,Hbase、MYSQL等)。其中,Hbase是一个分布式的、面向列的开源数据库;MYSQL是一个关系型数据库。
用户访问会源源不断地产生数据,数据要么存储在本地并在需要时发送到相关的应用,要么存储到一个统一的中央存储区中。产生的数据会被Storm中的Spout抓取、过滤并进行相关处理(例如应用之间协议解析、格式分析、数据校验等),然后发送到Bolt中进行数据分析,最终形成可用数据并存储到持久化介质(如DB)中,供其他应用获取。
102:对上述用户行为数据进行内容识别处理形成规则库,所述规则库用于将上述用户行为数据进行分类存储。
在本申请实施例中,在上述用户行为信息经过清洗加工后,对上述清洗后的用户行为信息进行内容识别处理,以便根据用户行为信息的具体内容和预设规则将用户行为信息进行分类,然后将用户行为信息按照预设规则的分类存放到数据库性成规则库。
具体的,上述根据用户行为信息的具体内容和预设规则将用户行为信息进行分类可以包括:将上述清洗后的用户行为信息进行内容识别,将清洗后的用户行为信息按照浏览行为、点击行为、输入行为或搜索行为进行分类,然后将其发送到下一层相应的bolt进行处理(例如结构化处理)。当上述下一层相应的bolt对用户行为信息进行处理之后,便将处理后的用户行为信息持久化存储到一个数据库形成规则库。
例如,上述清洗后的用户行为信息中有一条浏览行为,该浏览行为为用户A浏览了一个电影相关的网页。该条浏览用户行为信息经过内容识别后,将其发送到相应的处理浏览行为的bolt中,bolt根据该条浏览行为的内容将其结构化,具体的,将上述浏览行为按照:用户、网址、主题、类别、作者、导演、主演、发行年代的格式进行结构化,然后将其存入到上述规则库中。
103:根据前端推荐系统的条件从上述规则库中提取推荐数据,将上述推荐数据推送到上述前端推荐系统。
在本申请实施例中,当大量的用户行为信息存入上述规则库之后,利用轨迹增强算法从上述规则库中按照不同的前端推荐系统的条件从上述规则库中提取符合条件的数据,然后将提取的数据推送到相应的前端推荐系统中。
其中,由于不同的前端推荐系统向用户推荐的内容不同,从而不同的前端推荐系统需要从上述规则库中提取的推荐数据也不同;因此,需要根据不同的前端推荐系统的条件来从上述规则库中提取满足该推荐系统的推荐数据。例如,某一个前端推荐系统的条件是总流量排名前10的网址,则上述推荐数据就是根据算法从规则库中统计的当前排名前十的网址信息。
具体的,上述轨迹增强算法的作用是从规则库中提取出海量的数据,其中包括了访问的统一资源定位符(Uniform Resource Locator,URL)及访问流量、访问的关键词信息等,经过轨迹增强算法处理,然后根前端推荐系统的条件,比如将相同的URL合并到一起,将访问的上行流量与下行流量合并并进行排序,然后网址按流量汇总排序出来,取总流量的前80%,因为80%的流量的URL是用户经常访问的URL,进一步将规则库中的数据进行处理后保存到数据库,前端系统从数据库中将这些数据推荐给用户。
可选的在本申请实施例中,当从上述规则库中提取出符合条件的数据,并将其推送给相应的前端系统之后,将上述已经被提取的数据存储到历史行为轨迹数据库中,并同时将上述规则库中的上述已经被提取的数据删除,以便节省上述规则库的存储空间。
可以看出,在本申请实施例中,通过实时获取用户的行为信息,然后对获取到的用户行为信息进行数据清洗得到没有脏数据的用户行为数据,接着对所述用户行为数据进行内容识别,并整理分类的到规则库;最后根据前端推荐系统的条件从上述规则库中提取前端推荐系统需要的推荐数据,并将所述推荐数据推送到相应的推荐系统,以使的前端推荐系统得到该推荐系统需要的且没有脏数据的推荐数据,从而使得所述前端推荐系统实现实时精准的推荐。
参见图2,图2是本申请实施例提供的另一种用户行为数据推荐方法的示意流程图,如图所示该方法可包括:
201:从web日志文件或者从用户终端中获取用户的用户行为信息。
202:将上述用户行为信息发送到消息队列中。
在本申请实施例中,当收集到用户的行为信息后,将上述用户行为信息发送到作为缓存区的消息队列中,例如,Kafka或MetaQ等消息队列,以便后续storm框架的spout从消息队列中获取上述用户行为信息。其中,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据;MetaQ是一款完全的队列模型消息中间件,服务器使用Java语言编写,可在多种软硬件平台上部署。
203:通过storm实时处理框架的数据获取组件spout从上述消息队列中读取上述用户行为信息,然后将上述用户行为信息分发给处理组件bolt。
在本申请实施例中,当上述获取组件spout从上述消息队列中读取上述用户行为信息后,根据获取到的用户行为信息的类型将上述用户行为信息分发到不同的bolt进行处理。
204:所述实时处理框架的上述处理组件bolt对上述用户行为信息进行错误数据清洗、缺失值数据清洗、重复值数据清洗或不一致性数据清洗得到用户行为数据。
在本申请实施例中,由于上述spout拉取的用户行为数据中可能会存在很多脏数据,例如上述用户行为数据中可能会存在一些重复数据、错误数据、残缺数据等。因此,当获取到上述用户行为信息数据之后首先要对上述用户行为信息数据进行清洗加工处理。具体的,上述对用户行为信息数据的清洗包括错误数据清洗、缺失值清洗、重复值清洗以及不一致性数据清洗。当对上述用户行为信息数据清洗完之后,将清洗之后的用户行为信息数据传递给下一个bolt继续处理。
205:在上述用户行为数据进行内容识别处理后,将上述用户行为数据按照浏览行为、点击行为、输入行为或搜索行为进行分类。
在本申请实施例中,在上述用户行为信息经过清洗加工后,对上述清洗后的用户行为信息进行内容识别处理,以便根据用户行为信息的具体内容和预设规则将用户行为信息进行分类,然后将用户行为信息按照预设规则的分类存放到数据库性成规则库。
具体的,上述根据用户行为信息的具体内容和预设规则将用户行为信息进行分类可以包括:将上述清洗后的用户行为信息进行内容识别,将清洗后的用户行为信息按照浏览行为、点击行为、输入行为(或搜索行为)进行分类,然后将其发送到下一层相应的bolt进行处理(例如结构化处理)。
206:将分类后的上述用户行为数据结构化处理后进行存储形成规则库。
在本申请实施例中,当相应的bolt对用户行为信息进行处理之后,便将处理后的用户行为信息持久化存储到一个数据库形成规则库。
例如,上述清洗后的用户行为信息中有一条浏览行为,该浏览行为为用户A浏览了一个电影相关的网页。该条浏览用户行为信息经过内容识别后,将其发送到相应的处理浏览行为的bolt中,bolt根据该条浏览行为的内容将其结构化,具体的,将上述浏览行为按照:用户、网址、主题、类别、作者、导演、主演、发行年代的格式进行结构化,然后将其存入到上述规则库中。
207:利用轨迹增强算法从上述规则库中按照不同的前端推荐系统的条件从上述规则库中提取符合条件的推荐数据,将上述推荐数据推送到对应的前端推荐系统。
在本申请实施例中,当大量的用户行为信息存入上述规则库之后,利用轨迹增强算法从上述规则库中按照不同的前端推荐系统的条件从上述规则库中提取符合条件的数据,然后将提取的数据推送到相应的前端推荐系统中。
具体的,上述轨迹增强算法的作用是从规则库中提取出海量的数据,其中包括了访问的URL及访问流量、访问的关键词信息等,经过轨迹增强算法处理,然后根据一定条件,比如将相同的URL合并到一起,将访问的上行流量与下行流量合并并进行排序,然后网址按流量汇总排序出来,取总流量的前80%,因为80%的流量的URL是用户经常访问的URL,进一步将规则库中的数据进行处理后保存到数据库,前端系统从数据库中将这些数据推荐给用户。
208:将上述推荐数据存储到历史行为轨迹数据库中。
在本申请实施例中,对于上述已经被推荐的用户行为数据,在后续可能会对用户的历史行为进行分析处理,因此,在上述将用户行为数据推荐给相应的前端推荐系统之后,将上述推荐数据存储到历史行为轨迹数据库中,以便后续从历史行为轨迹数据库中获取上述用户行为数据进行分析处理。
209:将上述规则库中的上述推荐数据删除。
在本申请实施例中,为了节省规则库的存储空间,当规则库的用户行为数据别提取后,则将已经被提取过的用户行为数据从上述规则库中删除。
可以看出,本申请实施例通过web日志文件或用户终端来收集用户的用户行为信息,然后将上述用户行为信息发送给消息队列,接着从上述消息队列中读取用户行为信息,对上述用户行为信息进行数据清洗生成用户行为数据,以便将用户行为信息中的重复数据、错误数据删除,以及将残缺数据补全;然后,对上述用户行为数据进行内容识别,以及分类排序等处理形成规则库;从上述规则库中提取符合条件的推荐数据,将上述推荐数据推送到前端推荐系统。通过本发明实施例,可实现在推荐用户行为数据时,能够实现实时精准推荐,且使得推荐的用户行为数据不存在脏数据。
本申请实施例还提供一种服务器,该服务器用于执行前述任一项上述的方法的单元。具体地,参见图3,图3是本申请实施例提供的一种服务器的示意框图。本实施例的服务器包括:数据清洗单元310、规则库生成单元320、提取单元330以及推荐单元340。
数据清洗单元310,用于读取用户行为信息,对上述用户行为信息进行数据清洗生成用户行为数据;
规则库生成单元320,用于对上述用户行为数据进行内容识别处理形成规则库,上述规则库用于将上述用户行为数据进行分类存储;
提取单元330,用于根据前端推荐系统的条件从上述规则库中提取符合条件推荐数据;
推荐单元340,用于将上述推荐数据推送到前端推荐系统。
可以看出,本申请实施例通过读取用户行为信息,对上述用户行为信息进行数据清洗生成用户行为数据,以便将用户行为信息中的重复数据、错误数据删除,以及将残缺数据补全;然后,对上述用户行为数据进行内容识别处理形成规则库;从上述规则库中提取符合条件的推荐数据,将上述推荐数据推送到前端推荐系统。通过本发明实施例,可实现在推荐用户行为数据时,能够实现实时精准推荐,且使得推荐的用户行为数据不存在脏数据。
可选的,上述服务器海包括:
获取单元350,用于从web日志文件中获取用户行为信息,或者从用户终端直接获取上述用户行为信息;
发送单元360,用于将上述用户行为信息发送到消息队列中。
可选的,上述数据清洗单元310包括:
读取单元311,用于通过storm实时处理框架的数据获取组件spout从上述消息队列中读取上述用户行为信息,然后将上述用户行为信息分发给处理组件bolt;
分发单元312,用于将上述用户行为信息分发所述给所述实时处理框架的处理组件;
清洗单元313,用于所述实时处理框架的处理组件bolt对上述用户行为信息进行错误数据清洗、缺失值数据清洗、重复值数据清洗或不一致性数据清洗得到用户行为数据。
可选的,上述规则库生成单元320包括:
分类单元321,用于在上述用户行为数据进行内容识别处理后,将上述用户行为数据按照浏览行为、点击行为、输入行为或搜索行为进行分类;
处理单元322,用于将分类后的上述用户行为数据结构化处理;
第一存储单元323,将结构化处理的上述用户行为数据进行存储形成上述规则库。
可选的,上述提取单元330,用于利用轨迹增强算法从上述规则库中按照不同的前端推荐系统的条件从上述规则库中提取符合条件的推荐数据;
上述推荐单元340,用于将上述推荐数据推送到对应的前端推荐系统。
可选的,上述服务器还包括:
第二存储单元370,用于将上述推荐数据存储到历史行为轨迹数据库中;
删除单元380,用于将上述规则库中的上述推荐数据删除。
可以看出,本申请实施例通过web日志文件或用户终端来收集用户的用户行为信息,然后将上述用户行为信息发送给消息队列,接着从上述消息队列中读取用户行为信息,对上述用户行为信息进行数据清洗生成用户行为数据,以便将用户行为信息中的重复数据、错误数据删除,以及将残缺数据补全;然后,对上述用户行为数据进行内容识别,以及分类排序等处理形成规则库;从上述规则库中提取符合条件的推荐数据,将上述推荐数据推送到前端推荐系统。通过本发明实施例,可实现在推荐用户行为数据时,能够实现实时精准推荐,且使得推荐的用户行为数据不存在脏数据。
参见图4,图4是本申请实施例提供的一种设备,该设备可以为服务器,如图4所示设备包括:一个或多个处理器401;一个或多个输入设备402,一个或多个输出设备403和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器402用于存储指令,处理器401用于执行存储器402存储的指令。
其中,该设备作为服务器使用的情况下,处理器401用于:读取用户行为信息,对上述用户行为信息进行数据清洗以生成用户行为数据;对上述用户行为数据进行内容识别处理形成规则库,上述规则库用于将上述用户行为数据进行分类存储;根据前端推荐系统的条件从上述规则库中提取推荐数据,将上述推荐数据推送到前端推荐系统。
应当理解,在本申请实施例中,所称处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备403可以包括显示器(例如,液晶显示器Liquid CrystalDisplay,LCD)等)、扬声器等。
该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器401、输入设备402、输出设备403可执行本申请实施例提供的一种用户行为数据推荐方法的第一实施例中所描述的实现方式、第二实施列以及第三实施例中的实现方式,也可执行本申请实施例所描述的服务器的实现方式,在此不再赘述。
在本申请的另一实施例中提供一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现:读取用户行为信息,对上述用户行为信息进行数据清洗以生成用户行为数据;对上述用户行为数据进行内容识别处理形成规则库,上述规则库用于将上述用户行为数据进行分类存储;根据前端推荐系统的条件从上述规则库中提取推荐数据,将上述推荐数据推送到前端推荐系统。
上述计算机可读存储介质可以是前述任一实施例上述的终端的内部存储单元,例如终端的硬盘或内存。上述计算机可读存储介质也可以是上述终端的外部存储设备,例如上述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,上述计算机可读存储介质还可以既包括上述终端的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述终端所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
图5是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图5所示的服务器结构。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、服务器、终端设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、服务器和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种用户行为数据推荐方法,其特征在于,包括:
读取用户行为信息,对所述用户行为信息进行数据清洗以生成用户行为数据;
对所述用户行为数据进行内容识别处理以形成规则库,所述规则库用于将上述用户行为数据进行分类存储;
根据前端推荐系统的条件从所述规则库中提取推荐数据,将所述推荐数据推送到所述前端推荐系统。
2.根据权利要求1所述的方法,其特征在于,在所述读取用户行为信息之前,所述方法还包括:
从日志文件中获取所述用户行为信息,或者从用户终端直接获取所述用户行为信息;
将所述用户行为信息发送到消息队列中。
3.根据权利要求2所述的方法,其特征在于,所述数据清洗包括:错误数据清洗、缺失值数据清洗、重复值数据清洗或不一致性数据清洗。
4.根据权利要求3所述的方法,其特征在于,所述读取用户行为信息包括:
通过实时处理框架的数据获取组件从所述消息队列中读取所述用户行为信息;
所述对所述用户行为信息进行数据清洗包括:
将所述用户行为信息分发给所述实时处理框架的处理组件;
所述实时处理框架的处理组件对所述用户行为信息进行数据清洗得到用户行为数据。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述用户行为数据进行内容识别处理形成规则库包括:
在所述用户行为数据进行内容识别处理后,将所述用户行为数据按照浏览行为、点击行为、输入行为或搜索行为进行分类;
将分类后的所述用户行为数据结构化处理;
将结构化处理的所述用户行为数据进行存储形成所述规则库。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述规则库中提取符合条件的推荐数据,将所述推荐数据推送到前端推荐系统,包括:
利用轨迹增强算法从所述规则库中按照不同的前端推荐系统的条件从上述规则库中提取推荐数据;
将所述推荐数据推送到对应的前端推荐系统。
7.根据权利要求6所述的方法,其特征在于,在所述将所述推荐数据推送到对应的前端推荐系统之后,所述方法还包括:
将所述推荐数据存储到历史行为轨迹数据库中;
将所述规则库中的所述推荐数据删除。
8.一种服务器,其特征在于,包括用于执行如权利要求1-7任一权利要求所述的方法的单元。
9.一种服务器,其特征在于,所述服务器包括处理器、存储器和通信模块,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码来执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN201810965582.5A 2018-08-22 2018-08-22 一种用户行为数据推荐方法、服务器及计算机可读介质 Withdrawn CN109242553A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810965582.5A CN109242553A (zh) 2018-08-22 2018-08-22 一种用户行为数据推荐方法、服务器及计算机可读介质
PCT/CN2018/123508 WO2020037917A1 (zh) 2018-08-22 2018-12-25 一种用户行为数据推荐方法、服务器及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810965582.5A CN109242553A (zh) 2018-08-22 2018-08-22 一种用户行为数据推荐方法、服务器及计算机可读介质

Publications (1)

Publication Number Publication Date
CN109242553A true CN109242553A (zh) 2019-01-18

Family

ID=65069108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810965582.5A Withdrawn CN109242553A (zh) 2018-08-22 2018-08-22 一种用户行为数据推荐方法、服务器及计算机可读介质

Country Status (2)

Country Link
CN (1) CN109242553A (zh)
WO (1) WO2020037917A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127077A (zh) * 2019-11-29 2020-05-08 中国建设银行股份有限公司 一种基于流计算的推荐方法和装置
CN111274278A (zh) * 2020-01-19 2020-06-12 托普朗宁(北京)教育科技有限公司 辅助学习的方法、装置及可读存储介质
CN111427878A (zh) * 2020-03-20 2020-07-17 深圳乐信软件技术有限公司 数据监控告警方法、装置、服务器和存储介质
CN111753214A (zh) * 2020-06-24 2020-10-09 平安科技(深圳)有限公司 基于行为轨迹的数据推送方法、系统和计算机设备
CN112579902A (zh) * 2020-12-24 2021-03-30 第四范式(北京)技术有限公司 一种支持多个智能应用场景的行为数据治理方法和装置
CN112613906A (zh) * 2020-12-18 2021-04-06 北京思特奇信息技术股份有限公司 基于移动通信网络的营销推荐评估方法、装置、计算机设备
CN112925815A (zh) * 2021-02-23 2021-06-08 四川享宇金信金融科技有限公司 一种具有跟踪功能的推送信息自动生成系统
CN113032587A (zh) * 2019-12-25 2021-06-25 北京达佳互联信息技术有限公司 多媒体信息推荐方法、系统、装置、终端和服务器
CN113626539A (zh) * 2021-08-13 2021-11-09 深圳墨世科技有限公司 一种用户行为数据统计方法、服务器和客户端
CN113938919A (zh) * 2021-09-03 2022-01-14 中国联合网络通信集团有限公司 数据分析方法和装置
CN115186770A (zh) * 2022-09-08 2022-10-14 北京邮电大学 驾驶员身份识别方法和电子设备
CN112613906B (zh) * 2020-12-18 2024-04-30 北京思特奇信息技术股份有限公司 基于移动通信网络的营销推荐评估方法、装置、计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810623A (zh) * 2014-03-04 2014-05-21 深圳市远行科技有限公司 一种实时的自动营销方法及系统
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统
CN106874522A (zh) * 2017-03-29 2017-06-20 珠海习悦信息技术有限公司 信息推荐方法、装置、存储介质及处理器
CN107451269A (zh) * 2017-07-28 2017-12-08 佛山市南方数据科学研究院 一种基于大数据的用户行为分析方法
CN107944059A (zh) * 2017-12-29 2018-04-20 深圳市中润四方信息技术有限公司西安分公司 一种基于流计算的用户行为分析方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127077A (zh) * 2019-11-29 2020-05-08 中国建设银行股份有限公司 一种基于流计算的推荐方法和装置
CN113032587B (zh) * 2019-12-25 2023-07-28 北京达佳互联信息技术有限公司 多媒体信息推荐方法、系统、装置、终端和服务器
CN113032587A (zh) * 2019-12-25 2021-06-25 北京达佳互联信息技术有限公司 多媒体信息推荐方法、系统、装置、终端和服务器
CN111274278A (zh) * 2020-01-19 2020-06-12 托普朗宁(北京)教育科技有限公司 辅助学习的方法、装置及可读存储介质
CN111427878A (zh) * 2020-03-20 2020-07-17 深圳乐信软件技术有限公司 数据监控告警方法、装置、服务器和存储介质
CN111427878B (zh) * 2020-03-20 2024-02-27 深圳乐信软件技术有限公司 数据监控告警方法、装置、服务器和存储介质
CN111753214A (zh) * 2020-06-24 2020-10-09 平安科技(深圳)有限公司 基于行为轨迹的数据推送方法、系统和计算机设备
CN112613906A (zh) * 2020-12-18 2021-04-06 北京思特奇信息技术股份有限公司 基于移动通信网络的营销推荐评估方法、装置、计算机设备
CN112613906B (zh) * 2020-12-18 2024-04-30 北京思特奇信息技术股份有限公司 基于移动通信网络的营销推荐评估方法、装置、计算机设备
CN112579902A (zh) * 2020-12-24 2021-03-30 第四范式(北京)技术有限公司 一种支持多个智能应用场景的行为数据治理方法和装置
CN112925815B (zh) * 2021-02-23 2023-08-08 四川享宇金信金融科技有限公司 一种具有跟踪功能的推送信息自动生成系统
CN112925815A (zh) * 2021-02-23 2021-06-08 四川享宇金信金融科技有限公司 一种具有跟踪功能的推送信息自动生成系统
CN113626539A (zh) * 2021-08-13 2021-11-09 深圳墨世科技有限公司 一种用户行为数据统计方法、服务器和客户端
CN113938919B (zh) * 2021-09-03 2023-07-07 中国联合网络通信集团有限公司 数据分析方法和装置
CN113938919A (zh) * 2021-09-03 2022-01-14 中国联合网络通信集团有限公司 数据分析方法和装置
CN115186770A (zh) * 2022-09-08 2022-10-14 北京邮电大学 驾驶员身份识别方法和电子设备

Also Published As

Publication number Publication date
WO2020037917A1 (zh) 2020-02-27

Similar Documents

Publication Publication Date Title
CN109242553A (zh) 一种用户行为数据推荐方法、服务器及计算机可读介质
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
WO2021025926A1 (en) Digital content prioritization to accelerate hyper-targeting
CN109559208A (zh) 一种信息推荐方法、服务器及计算机可读介质
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN108334758B (zh) 一种用户越权行为的检测方法、装置及设备
CN107077486A (zh) 情感评价系统和方法
CN108021651B (zh) 一种网络舆情风险评估方法及装置
CN110325983A (zh) 图像检索装置和图像检索方法
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
CN105005594A (zh) 异常微博用户识别方法
JP2012164318A5 (zh)
CN109325179A (zh) 一种内容推广的方法及装置
CN108153824A (zh) 目标用户群体的确定方法及装置
TWI705411B (zh) 社交業務特徵用戶的識別方法和裝置
CN107153656A (zh) 一种信息搜索方法和装置
CN104268289B (zh) 链接url的失效检测方法和装置
CN106202126B (zh) 一种用于物流监控的数据分析方法和装置
CN107977678A (zh) 用于输出信息的方法和装置
US20160364379A1 (en) Web-based influence system and method
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN110191183A (zh) 精准智能推送方法、系统、装置及计算机可读存储介质
CN114331698A (zh) 风险画像的生成方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190118

WW01 Invention patent application withdrawn after publication