CN105447186B - 一种基于大数据平台的用户行为分析系统 - Google Patents

一种基于大数据平台的用户行为分析系统 Download PDF

Info

Publication number
CN105447186B
CN105447186B CN201510942975.0A CN201510942975A CN105447186B CN 105447186 B CN105447186 B CN 105447186B CN 201510942975 A CN201510942975 A CN 201510942975A CN 105447186 B CN105447186 B CN 105447186B
Authority
CN
China
Prior art keywords
user
user behavior
behavior
value
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510942975.0A
Other languages
English (en)
Other versions
CN105447186A (zh
Inventor
厉紫阳
庄良
王智斌
沈徐兰
岳涛
岳一涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Straits innovation Internet Co.,Ltd.
Original Assignee
Handing You Yu Internet Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Handing You Yu Internet Ltd By Share Ltd filed Critical Handing You Yu Internet Ltd By Share Ltd
Priority to CN201510942975.0A priority Critical patent/CN105447186B/zh
Publication of CN105447186A publication Critical patent/CN105447186A/zh
Application granted granted Critical
Publication of CN105447186B publication Critical patent/CN105447186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于大数据平台的用户行为分析系统,包括:用户行为信息采集接口、基本数据层模块、用户行为信息解析模块、用户行为信息关联性确定模块、用户行为信息组织模块、关联数据组表征模块、用户特征分析模块、聚合模块以及应用模块。本系统利用用户行为及其行为对象的相互联系,建立用户行为信息之间(包括用户行为自身之间和/或作为行为对象的内容之间)的关联数据组,该数据组描述了在用户行为彼此之间的关系当中所包含的有效信息,可准确定位一系列相互关联的用户行为的起点与终点,基于该关联数据组能够实现对可量化的用户行为信息的准确计量,并且实现针对一系列相互关联的用户行为进行全面的统计分析。

Description

一种基于大数据平台的用户行为分析系统
技术领域
本发明涉及互联网数据分析与处理领域,尤其涉及一种基于大数据平台的用户行为分析系统。
背景技术
在互联网应用这一领域,用户行为分析指的是统计和分析用户接入网络服务全过程当中(包括访问和浏览网页、进行交互式操作、使用APP等)产生的实时性和历史性的用户行为信息。在用户接入网络服务的行为过程当中,包含着大量有价值的信息。据测算,用户在一次网上购物的过程中平均要关注3-4件商品,访问5-7个网站,浏览40个以上的页面。用户行为信息包括但不局限于以下内容:网络服务的访问次数、访问频度、访问停留时间、操作活跃时间、用户输入关键词、用户点击链接、用户交互操作(如加关注、取消关注、打分、保存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款等等)。通过对用户行为信息的研究,可以从中发现用户在接入网络服务时表现出来的规律分布,并且为提升用户体验、高效信息推送和促进目标营销提供科学、准确的客观依据。针对用户行为的研究与应用,最有效的手段是记录用户的所有行为带来的全部用户行为信息,并对全部的用户行为信息进行统计、分析。
大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术,目前已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面,成为了网络服务背后强大的后台支撑。基于大数据平台实现对全部用户行为信息的分析与利用,适应了用户行为信息自身规模庞大、数据格式复杂多元化、运算速度要求高的特点,能够满足各类型网络服务的实际需求。
在面向用户行为信息设计的大数据系统中,系统以日志文件或数据流的形式获得用户全部行为的记录;对于非实时性的应用需求,可以按日或更长的时间周期向大数据系统导入较大规模的用户行为信息日志文件,文件大小可达到数个GB量级;对于实时性应用需求,则系统以数据流的方式动态不间断采集当前正在发生的用户行为信息;而对于介于实时性和非实时性之间的应用需求,可以以较高的频率向大数据系统提供MB级别的用户行为信息日志文件,一般数分钟就向系统提供一次。大数据系统的基本数据层汇总网络服务的全部用户所产生的日志文件和数据流,获得海量的用户行为信息。进而,大数据系统的数据挖掘引擎工具面向基本数据层所汇总的海量用户行为信息,计算用户行为相似度,并且根据用户行为相似度进行归类。
在面向用户行为信息进行大数据统计、分析与应用的现有技术当中,虽然针对用户行为以及作为行为对象的内容实现了归类与识别,并且将用户行为信息的特征与推送、广告、内容提供等网络服务相互关联起来,但是,现有技术的基本模式是将每一个用户行为及作为行为对象的内容都仅当作一个孤立的数据点,这样通过汇总全部用户行为及其对象所形成的海量数据点,从中发现统计分布规律。这种模式的缺陷是不能发现和利用不同的用户行为及其行为对象之间相互的关联性。
由于忽视了用户行为及其行为对象的相互联系,会给基于用户行为信息大数据而实现的网络服务带来以下方面的问题。
首先,当用户行为信息总量较少,或者是其中特定类型用户——例如偶然用户——的行为信息比较稀疏的情况下,就不能很好实现用户行为特征的提取与归类。这是由于只孤立分析表示用户行为的数据点而忽略了其间联系,则从用户行为信息中提取出来的信息量是粗略、概括而不充分的,因而也就只能加大用户行为信息的总量,以期通过密集的数据来表现出统计规律性。
其次,无法定位用户一系列行为的起点和终点,也就不能很好地区分用户一次性行为与延续性行为,例如,用户网上经输入关键词查询、网页浏览挑选、加入购物车之后购买了一把锤子,此后就一直接收到该购物网站推送的关于各种样式、品牌的锤子的广告,但实际上对于锤子这样的耐用品,该用户未来很多年都不再存在继续购买的需要,因此该购买锤子的用户行为实际上是偶发的一次性行为,购买本身已经为这一行为过程画上了一个句号;但是购物网站显然按照与延续性行为相同的计算方式,没有正确判断这一用户行为的终点;相反,由于该用户在输入关键词、浏览、加入购物车、付款等多个连续的用户行为中所指向的对象都是锤子,因此锤子也就被识别为与该用户关联的特征,导致用户被动获得了大量与锤子相关的内容。
第三,对于用户行为信息的定量计算过度表象化,容易发生偏差。例如,用户在网上购物过程中往往都会有“比价”和“比性能”的行为,在这一过程中,某用户先后完成了输入关于A款手机的关键词、浏览关于A款手机的网页、将A款手机加入购物车(或者将关于A款手机的购买页面加为书签)这些行为之后,又接着输入了B款、C款手机的关键词查找到这两款手机的网页,以及通过A款手机网页载有的类似商品推荐链接进入D款、E款手机的网页,继续浏览了以上几款手机的相关网页。如果把以上用户行为信息按照相互孤立的数据点来看待,则用户对B款、C款、D款、E款手机网页的访问停留时长与A款手机相差并不大,甚至有可能还长于A款手机;但实际上,用户针对其它几款手机的行为是在以A款手机为购买目标基础上的比价和比性能的行为,对其它几款手机的访问停留时长也可以记入A款手机的访问停留时长,这样A款手机本应作为用户上述一系列行为中的最显著特征加以提取和利用,例如优先推送A款手机的广告和优惠信息,但现有技术并不能实现上述效果,往往是将其它几款手机的广告和优惠与A款手机不加区分地实现推送。
第四,由于切断甚至是割裂了各个用户行为之间的关联,导致基于大数据实现的服务只能聚焦在用户行为的某个或者某几个局部。例如,某用户在微博关注了某支乐队,浏览了关于该支乐队1月1日在上海举办演唱会的新闻页面,还查找了12月31日由北京前往上海的机票以及1月2日由上海返回北京的机票,把以上用户行为信息关联性地分析,很显然该用户是在规划一次以观看该支乐队演唱会为中心的旅行。但是,现有大数据系统并不能实现上述关联性分析,虽然有可能通过行为对象的相同而发现用户关注了该支乐队和浏览了关于该支乐队的新闻,但也只能以该支乐队作为用户关联的特征而进行门票、唱片、海报等相关消息的推送,却不能有效地将查找机票的行为与该支乐队之间建立联系。关于这种联系缺少的影响,举例来说,大数据系统也可以根据用户查找机票的行为而向该用户推送在上海期间的酒店折扣,但是却无法做到优先推送在演唱会举办地周边的酒店相关信息。
可见,由于不能从用户行为及其行为对象的关联性的角度实现对用户行为信息的归类、分析和应用,给现有的用户行为信息大数据平台带来了以上方面的局限性。
发明内容
鉴于上述现有技术中存在的以上缺陷,本发明提出一种基于大数据平台的用户行为分析系统。本系统利用用户行为及其行为对象的相互联系,建立用户行为信息之间(包括用户行为自身之间和/或作为行为对象的内容之间)的关联数据组,该数据组描述了在用户行为彼此之间的关系当中所包含的有效信息,可准确定位一系列相互关联的用户行为的起点与终点,基于该关联数据组能够实现对可量化的用户行为信息的准确计量,并且实现针对一系列相互关联的用户行为进行全面的统计分析。通过本发明,可以基于一系列具有相互关联性的用户行为信息(包括用户行为自身信息以及作为行为对象的内容信息),实现用户归类、相似度计算与特征提取,进而提供针对性更强、效率更高、用户体验更佳的推送、广告、提醒等网络服务。
本发明所述的基于大数据平台的用户行为分析系统,其特征在于,包括:
用户行为信息采集接口,用于通过网络连接到发生用户行为的用户设备,从用户设备实时和/或非实时地获得由用户的每一个用户行为对应产生的每一个用户行为信息,并且将所获得的全部用户行为信息提供给基本数据层模块;
基本数据层模块,用于从用户行为信息采集接口获得所述用户行为信息,汇总并存储全部用户的全部用户行为信息;
用户行为信息解析模块,用于从所述基本数据层模块抽取关于特定用户的全部用户行为信息,解析该特定用户的每个用户行为信息的行为类型值、行为属性值与行为对象内容值;
用户行为信息关联性确定模块,用于针对该特定用户的每一个用户行为信息,根据所述行为类型值与行为对象内容值,确定该用户行为信息与该特定用户的其它用户行为信息之间的关联性;
用户行为信息组织模块,用于根据所述用户行为信息关联性确定模块所确定的该特定用户的全部用户行为信息之间的关联性,将具有直接和/或间接关联性的用户行为信息按照用户行为信息产生的时间顺序组合在一起,形成一个或者多个用户行为信息的关联数据组;
关联数据组表征模块,基于所述关联数据组,生成表征每一个关联数据组的组用户行为类型值、组行为属性值与组行为对象内容值;
用户特征分析模块,针对特定用户的组用户行为类型值、组行为属性值与组行为对象内容值,提取表示该特定用户的用户行为特征参数;
聚合模块,获得全部用户的用户行为特征参数,计算用户之间的用户行为特征参数相似度,并且根据所述用户之间的用户行为特征参数相似度进行用户归类;
应用模块,针对特定用户所属于的用户归类,针对该特定用户提供与其用户归类相匹配的推送、广告、内容提供等网络服务。
优选的是,所述用户行为信息解析模块针对所抽取的特定用户的全部用户行为信息,进行用户行为信息的归并处理;在归并处理中,对于行为对象内容值全部或者部分相同并且行为之间具有触发关系的至少一个用户行为信息归并一个行为系列,并针对该行为系列生成一个新的归并后的用户行为信息。
进一步优选的是,所述用户行为信息解析模块在生成所述新的归并后的用户行为信息的过程中,按照系统预定的行为类型强度排序,选取本行为系列中强度最大的行为类型值作为该新的用户行为信息的行为类型值,并且将本行为系列中全部行为属性值和行为对象内容值的并集作为该新的用户行为信息的行为属性值和行为对象内容值。
进一步优选的是,用户行为信息解析模块为每一个归并后形成的用户行为信息赋予行为ID,并且将从同一个用户行为信息的行为类型值、行为属性值与行为对象内容值均用该行为ID予以标识。
优选的是,用户行为信息关联性确定模块针对一个用户行为信息,比较该用户行为信息的行为对象内容值与其它用户行为信息的行为对象内容值是否存在相同值和/或存在指向同一类型客体的相关值,如果存在相同值和/或存在指向同一类型客体的相关值,则认为用户行为信息具有内容关联性;进而,用户行为信息关联性确定模块根据行为类型值与行为对象内容值,判断用户行为信息之间的行为相容性;如果用户行为信息与另一个用户行为信息之间既具有内容关联性又具有行为相容性,则认为二者具有关联性。
进一步优选的是,系统预先指定并且存储行为类型值与行为相容性关系的参考表,当用户行为信息的行为类型值是加关注、加入购物车、评分、输入关键词、形成订单、付款等行为类型的情况下,则与该用户行为信息具有内容关联性的其它用户行为信息与该用户行为信息是行为相容的;如果用户行为信息的行为类型值是取消关注、取出购物车、取消订单、退款等行为类型,则与该用户行为信息具有内容关联性的其它用户行为信息与该用户行为信息是行为不相容的。
优选的是,关联数据组表征模块将组用户行为类型值选取为关联数据组中的具有最大强度的至少一个行为类型值;组行为属性确定为将关联数据组中同类型的行为属性值累加后获得的行为属性值;组行为对象内容值确定为关联数据组中全部用户行为信息的行为对象内容值的并集。
优选的是,所述用户特征分析模块根据组用户行为类型值,判断是否存在表示行为终点的组用户行为类型值,在组用户行为类型值属于表示行为终点的组用户行为类型值的情况下,该关联数据组不再用来提取用户行为特征参数。
优选的是,所述用户特征分析模块组在用户行为类型值不属于表示行为终点的组用户行为类型值的情况下,从组行为对象内容值的集合中选择至少一个内容值作为该特定用户的用户行为特征参数。
优选的是,所述用户特征分析模块组将组行为对象内容值的集合中作为组用户行为类型值的行为对象的内容值选为用户行为特征参数,或者,所述用户特征分析模块在组行为对象内容值的集合中分析内容值之间的关系,提取具有相关性的内容值,作为用户行为特征参数。
可见,本发明建立了用户行为信息之间(包括用户行为自身之间和/或作为行为对象的内容之间)的关联数据组,由于考虑了行为的相关性,明显提升了提取的信息量,在用户行为不够密集的情况下也能发挥比传统的孤立用户行为分析统计更好的效果,例如可准确定位一系列相互关联的用户行为的起点与终点,实现对用户行为的准确计量和阈值判断,并且实现针对一系列相互关联的用户行为进行全面的统计分析。本系统为提供针对性更强、效率更高、用户体验更佳的推送、广告、提醒等网络服务奠定了大数据基础。
说明书附图
图1是本发明优选实施例的系统架构示意图。
具体实施方式
下面通过实施例,对本发明的技术方案做进一步具体的说明。
图1是本发明优选实施例的系统架构示意图。用户通过图1所示的用户设备UT(如智能手机、电脑、个人数字终端)联网接入到由一个或者多个服务提供商所提供的网络服务,例如新闻客户端、微博、网上购物网站、电子机票平台、旅店预定网站、在线音乐播放器等等。在使用这些网络服务过程中,首先用户的访问就是一种用户行为,用户还会产生输入关键词和点击链接等用户行为,并且用户会通过交互界面操作实现例如加关注、取消关注、打分、保存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款等等交互操作的用户行为。而网络服务则会响应于用户的上述用户行为而向用户提供相应的功能。
与此同时,用户设备UT还可以采集和记录用户行为,不仅包括用户行为本身,也包括用户行为有关的其它信息,其中特别是记录用户行为的对象(即用户行为所针对的内容)的信息,作为用户行为信息。例如,用户对某支乐队的微博主页加关注,则该支乐队的微博ID就可以作为加关注这一用户行为所针对的内容,因为微博加关注意味着用户对该微博ID整体的内容施加了一个用户行为,而并非针对某条微博施加了用户行为,因此这一行为的用户行为信息包括加关注这一行为以及被关注的乐队微博ID。另一种情况,用户通过点击链接进入新闻客户端的某条新闻对应的页面进行了浏览,则该条新闻的内容就是点击链接这一用户行为所针对的内容;当然一般会提取该条新闻中的关键要素来代表这一用户行为针对的内容,例如,该条新闻是关于某支乐队即将在1月1日在上海某体育场举办演唱会的内容,则可以提取乐队名称、1月1日、上海、某体育场以及演唱会作为关键要素标签来代表用户行为对应的内容。如果用户在电子机票平台输入“北京”、“上海”作为往返地址关键词,并且将12月31日与1月2日作为出发和返回时间关键词,则“北京”、“上海”、“12月31日出发”和“1月2日返回“”将作为输入关键词这一用户行为对应的内容。用户在网上购物网站输入A款手机的关键词,A款手机的名称是该行为针对的内容;用户通过关键词搜索到的链接,点击某个链接进入了A款手机的商品信息页面进行了浏览,然后将A款手机加入购物车,则A款手机的名称、价格即可以作为上述点击链接和加入购物车的用户行为对应的内容,而且,购物网站还能够对商品信息页面的浏览停留时间进行计时(例如计算用户打开页面和关闭退出页面之间的时间差),从而将浏览停留时间作为点击链接这一用户行为的属性,这样形成了针对A款手机的输入关键词、点击链接以及加入购物车这些行为相关的用户行为信息。相类似的,该用户还输入了B款、C款手机的关键词查找相关链接,并点击链接浏览了B款、C款手机的页面,则可以获得这些行为的浏览停留时间属性以及相应的名称、价格等内容信息,将以上属性和内容信息作为输入关键词、点击链接这些行为对应的信息。用户还通过A款手机商品信息页面上的“类似商品推荐”链接点击浏览了D款、E款手机,则可以获得这些点击链接行为的浏览停留时间属性以及相应的名称、价格等内容信息。同样,用户输入了锤子作为关键词,点击浏览了A、B、C三款锤子的商品介绍页面之后,将C款锤子加入购物车,然后生成订单和支付,则可以获得这些行为的浏览停留时间属性以及相应的名称、价格等内容信息。总结以上内容,我们可以看到,用户设备UT可以采集和记录到一下用户行为信息:
表I
本发明所提供的是基于大数据平台对以上用户行为进行分析和应用的用户行为分析系统S。如图1所示,本发明所述的基于大数据平台的用户行为分析系统S总体上包括:用户行为信息采集接口1、基本数据层模块2、用户行为信息解析模块3、用户行为信息关联性确定模块4、用户行为信息组织模块5、关联数据组表征模块6、用户特征分析模块7、聚合模块8以及应用模块9。
用户行为信息采集接口1用于通过网络连接到发生用户行为的用户设备UT,从用户设备UT实时和/或非实时地获得由用户的每一个用户行为对应产生的每一个用户行为信息。用户行为信息采集接口1与海量的用户设备UT建立网络连接,并且,只要用户已经授权允许对其用户行为信息进行采集和分析以便提供更优质的个性化网络服务,则用户行为信息采集接口1就可以接收由该用户的用户设备UT实时和/或非实时传输的每一个用户行为对应产生的每一个用户行为信息,例如以日志或者数据流的方式实现对每一个用户行为信息的采集。由于面对的海量用户设备UT,因此用户行为信息采集接口1会将用户行为信息与表示用户身份的特定用户标识(例如用户设备UT的设备ID、固定IP地址或者用户的通用用户名)进行关联,以便表明用户行为信息的来源,然后将所获得的全部用户设备UT的全部用户行为信息提供给基本数据层模块。
基本数据层模块2用于从用户行为信息采集接口1获得所述用户行为信息,汇总并存储全部用户的全部用户行为信息。基本数据层模块2采用集中式或者分布式的数据库系统,并且按照统一的并且利于进行大数据分析的数据格式存储全部用户行为信息,例如采用Hadoop架构的HDFS格式等。基本数据层模块2对用户行为信息存储必须遵守以下原则:首先,保证基于所述特定用户标识对用户行为信息的可查找性;其次,保证针对每一个用户行为信息进行分析处理时可读取的信息完整性,即能够一次提取每一个用户行为信息所包含的全部数据进行处理。
在基本数据层模块2聚合了海量用户的全部用户行为信息的基础上,本发明首先针对其中的特定用户,实现对其用户行为特征的提取;进而,通过聚合海量用户的用户行为特征,并执行用户行为特征之间的相似度计算,实现对海量用户的归类;最后,根据特定用户所属的归类,实现与其用户归类相匹配的推送、广告、内容提供等网络服务。
在上述过程中,用户行为信息解析模块3用于从所述基本数据层模块2抽取关于特定用户的全部用户行为信息,解析该特定用户的每个用户行为信息的行为类型值、行为属性值与行为对象内容值。针对每一个用户行为信息,在行为类型值中表示该用户行为自身的类型,例如上文提到的加关注、浏览、输入关键词、加入购物车等;在行为属性值中表示该用户行为信息所包含的属性,例如上文提到的对A款至E款手机以及A款至C款锤子的浏览停留时间;在行为对象内容值中表示该用户行为所针对的内容,例如上面提到的加关注行为的行为对象内容值是乐队微博ID,新闻浏览的点击链接行为的行为对象内容值是乐队名称、1月1日、上海、某体育场以及演唱会等关键要素标签;在电子机票网站输入关键词行为的行为对象内容值是“北京”、“上海”、“12月31日出发”和“1月2日返回”等被输入的关键词;针对A款手机的输入关键词、点击链接以及加入购物车行为的行为对象内容值是A款手机的名称、价格;相类似的,对B-E款手机以及A-C款锤子的用户行为的行为对象内容值则是以上各款手机的名称、价格。
接下来,用户行为信息解析模块3执行用户行为信息的归并处理,在归并处理中,对于行为对象内容值全部或者部分相同并且行为之间具有触发关系的至少一个用户行为信息归并一个行为系列,并针对该行为系列生成一个新的用户行为信息;在生成新的用户行为信息的过程中,按照系统预定的行为类型强度排序,选取本行为系列中强度最大的行为类型值作为该新的用户行为信息的行为类型值,并且将本行为系列中全部行为属性值和行为对象内容值的并集作为该新的用户行为信息的行为属性值和行为对象内容值。例如,在上面提到的各个行为信息中,对A款手机的输入关键词、点击链接以及加入购物车是具有触发关系的,因为被点击的链接是直接由输入关键词所触发的搜索结果,而加入购物车是在点击链接所触发而打开的页面上进行的;而且,对A款手机的输入关键词、点击链接以及加入购物车三者的行为对象内容值均包括A款手机;故而,将对A款手机的输入关键词、点击链接以及加入购物车归并为一个新的用户行为信息。其中,根据行为之间的行为类型强度排序,加入购物车是比输入关键词和点击链接更强的用户行为,因此,新的用户行为信息的行为类型值是加入购物车,而新的用户行为信息的行为属性值和行为对象内容值是对A款手机的输入关键词、点击链接以及加入购物车三者的行为属性值和行为对象内容值的并集。类似的是,该用户还输入了B款、C款手机的关键词查找相关链接,并点击链接浏览了B款、C款手机的页面,根据行为之间的强度排序,输入关键词是比点击链接强度更高的用户行为,因此归并后新的用户行为信息的行为类型值是针对B款、C款手机的输入关键词。相反,用户点击D款、E款手机的页面链接虽然与对A款手机的输入关键词、点击链接也具有触发关系,但它们的行为对象内容值并不部分或全部相同,因而不能归并。同样,输入“锤子”关键词的行为与点击链接浏览A、B、C三款锤子的行为之间行为对象内容值并不部分或全部相同,因此相互之间并不能归并,但是针对C款锤子的点击链接、加入购物车、生成订单、支付的行为可以归并,其中支付订单是强度最大的行为类型值。
用户行为信息解析模块3为每一个归并后形成的用户行为信息赋予行为ID,并且将从同一个用户行为信息的行为类型值、行为属性值与行为对象内容值均用该行为ID予以标识,以便表征行为类型值、行为属性值与行为对象内容值针对的是同一用户行为。这样,用户行为信息解析模块3形成了如下表所示的解析、归并之后的用户行为信息:
表II
归并用户行为信息的目的是通过将具有相同行为对象并且具有触发关系的用户行为信息合并为一个用户行为信息,使用户行为之间的关联性链条得到充分的简化,避免后面形成的关联数据组过于庞大。当然,本领域技术人员可以想到,不进行归并处理也是可以实现后面介绍的对关联数据组的生成的,但是会增加本系统的负担。在此指出,下文中提到的用户行为信息均指的是归并之后的用户行为信息。
用户行为信息关联性确定模块4用于针对该特定用户的每一个用户行为信息,根据所述行为类型值与行为对象内容值,确定该用户行为信息与该特定用户的其它用户行为信息之间的关联性。具体来说,用户行为信息关联性确定模块4取出表II为例所示的任何一个用户行为信息,比较该用户行为信息的行为对象内容值与其它用户行为信息的行为对象内容值是否存在相同值和/或存在指向同一类型客体的相关值,如果存在相同值和/或存在指向同一类型客体的相关值,则认为用户行为信息具有内容关联性。例如,对于ID0001和ID0002的用户行为,二者的行为对象内容值虽不具有相同值,但是通过现有技术(例如搜索引擎)中常用的词相关性判断技术,可以确定二者行为对象内容值当中的乐队微博ID与乐队名称是指向同一类型客体(该乐队)的相关值;又例如,ID0002与ID0003的用户行为二者的行为对象内容值具有相同值“上海”。ID0004至ID0008的行为对象内容值具有相关值,因此具有内容关联性。ID0009-ID0012也具有内容关联性。进而,用户行为信息关联性确定模块4根据行为类型值与行为对象内容值,判断用户行为信息之间的行为相容性。例如,ID0001的用户行为信息的行为类型是“加关注”,行为对象内容值为“乐队微博ID”,则认为所有与该“乐队微博ID”具有内容关联性的用户行为信息与ID0001的用户行为信息具有行为相容性;相反,假设ID0001的行为类型是“取消关注”,则认为所有与该“乐队微博ID”具有内容关联性的用户行为信息与ID0001的用户行为信息不具有行为相容性。行为类型与行为相容性的关系可以由系统预先指定并且存储为参考表,一般某用户行为信息具有加关注、加入购物车、评分、输入关键词、形成订单、付款等行为类型的情况下,认为与该用户行为信息具有内容关联性的其它用户行为信息是行为相容的,相反,如果某用户行为信息具有取消关注、取出购物车、取消订单、退款等行为类型,则认为与该用户行为信息具有内容关联性的其它用户行为信息是行为不相容的。如果用户行为信息与另一个用户行为信息之间既具有内容关联性又具有行为相容性,则认为二者具有关联性。因而,用户行为信息关联性确定模块4可以针对表II的每一个用户行为信息,确定该用户行为信息与表II的其它用户行为信息之间的关联性。经用户行为信息关联性确定模块4,表II的用户行为信息之间存在以下关联性:
ID0001与ID0002具有关联性;
ID0002与ID0003具有关联性;
ID0004至ID0008中的任意两个用户行为信息之间具有关联性;
ID0009至ID0012中的任意两个用户行为信息之间具有关联性。
用户行为信息组织模块5用于根据所述用户行为信息关联性确定模块所确定的该特定用户的全部用户行为信息之间的关联性,将具有直接和/或间接关联性的用户行为信息按照用户行为信息产生的时间顺序组合在一起,形成一个或者多个用户行为信息的关联数据组。根据以上关联性,用户行为信息组织模块5可以生成下面的三组关联数据组:
关联数据组I:{ID0001,ID0002,ID0003}
关联数据组II:{ID0004,ID0005,ID0006,ID0007,ID0008}
关联数据组III:{ID0009,ID0010,ID0011,ID0012}
关联数据组表征模块6,基于所述关联数据组,生成表征每一个关联数据组的组用户行为类型值、组行为属性值与组行为对象内容值。其中,组用户行为类型值选取关联数据组中的具有最大强度的至少一个行为类型值;组行为属性值是将关联数据组中同类型的行为属性值累加后获得的行为属性值;组行为对象内容值是关联数据组中全部用户行为信息的行为对象内容值的并集。对于关联数据组I至III,其组用户行为类型值、组行为属性值与组行为对象内容值如下表III所示:
表III
用户特征分析模块7,针对特定用户的组用户行为类型值、组行为属性值与组行为对象内容值,提取表示该特定用户的用户行为特征参数。在提取用户行为特征参数的过程中,首先,根据组用户行为类型值,判断是否存在表示行为终点的组用户行为类型值,例如,关联数据组III的组用户行为类型值支付订单就是表示行为终点;在组用户行为类型值属于表示行为终点的组用户行为类型值的情况下,该关联数据组不再用来提取用户行为特征参数;从而,在用户购买了C款锤子之后,这一系列的行为即画上了句号,不会由之再产生用户行为特征参数,系统也不会继续向用户推送与锤子相关的内容信息。组用户行为类型值不属于表示行为终点的组用户行为类型值的情况下,从组行为对象内容值的集合中选择至少一个内容值作为该特定用户的用户行为特征参数,其中,优选将组行为对象内容值的集合中作为组用户行为类型值的行为对象的内容值选为用户行为特征参数。例如,关联数据组II中与组用户行为类型值“加入购物车”对应的内容值“A款手机的名称、价格”可以被选为用户行为特征参数。组行为属性值可以作为对该用户行为特征参数的描述信息,用于执行用户行为特征参数是否满足一定条件的判断;例如,系统设定用户针对行为对象的浏览停留时间大于30分钟的情况下,表明用户对该行为对象存在较强的购买意愿,则优先向客户推送该行为对象的优惠和广告,这样,即便用户有可能加入购物车数十种商品,但总是收到其购买意愿强的商品的推送,而不是一直收到这全部数十种商品的推送。在本例中,虽然用户单独针对A款手机的浏览停留时间并不长,但是其对A款手机与其它几款手机比价的时间计入对A款手机的浏览停留时间,使得将用户行为的联系性作为产生用户行为特征的考虑因素。在产生用户行为特征参数过程中,也可以在组行为对象内容值的集合中分析内容值之间的关系,提取具有相关性的内容值,作为用户行为特征参数。例如,关联数据组I的组行为对象内容值是表III所示的集合,其中某体育场与上海之间具有明显的地域上的相关性,因此,当系统针对用户搜索上海北京往返机票的行为执行对住宿酒店的推送时,也会将某体育场作为用户行为特征参数,在排名顺序上优先推送该体育场附近的酒店。
在用户特征分析模块7针对特定用户提取了用户行为特征参数的基础上,聚合模块8获得全部用户的用户行为特征参数,计算用户之间的用户行为特征参数相似度,并且根据所述用户之间的用户行为特征参数相似度进行用户归类。
应用模块9,针对特定用户所属于的用户归类,针对该特定用户提供与其用户归类相匹配的推送、广告、内容提供等网络服务。
可见,本发明建立了用户行为信息之间(包括用户行为自身之间和/或作为行为对象的内容之间)的关联数据组,由于考虑了行为的相关性,明显提升了提取的信息量,在用户行为不够密集的情况下也能发挥比传统的孤立用户行为分析统计更好的效果,例如可准确定位一系列相互关联的用户行为的起点与终点,实现对用户行为的准确计量和阈值判断,并且实现针对一系列相互关联的用户行为进行全面的统计分析。本系统为提供针对性更强、效率更高、用户体验更佳的推送、广告、提醒等网络服务奠定了大数据基础。
以上实施例仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种基于大数据平台的用户行为分析系统,其特征在于,包括:
用户行为信息采集接口,用于通过网络连接到发生用户行为的用户设备,从用户设备实时和/或非实时地获得由用户的每一个用户行为对应产生的每一个用户行为信息,并且将所获得的全部用户行为信息提供给基本数据层模块;
基本数据层模块,用于从用户行为信息采集接口获得所述用户行为信息,汇总并存储全部用户的全部用户行为信息;
用户行为信息解析模块,用于从所述基本数据层模块抽取关于特定用户的全部用户行为信息,解析该特定用户的每个用户行为信息的行为类型值、行为属性值与行为对象内容值;
用户行为信息关联性确定模块,用于针对该特定用户的每一个用户行为信息,根据所述行为类型值与行为对象内容值,确定该用户行为信息与该特定用户的其它用户行为信息之间的关联性;
用户行为信息组织模块,用于根据所述用户行为信息关联性确定模块所确定的该特定用户的全部用户行为信息之间的关联性,将具有直接和/或间接关联性的用户行为信息按照用户行为信息产生的时间顺序组合在一起,形成一个或者多个用户行为信息的关联数据组;
关联数据组表征模块,基于所述关联数据组,生成表征每一个关联数据组的组用户行为类型值、组行为属性值与组行为对象内容值;
用户特征分析模块,针对特定用户的组用户行为类型值、组行为属性值与组行为对象内容值,提取表示该特定用户的用户行为特征参数;
聚合模块,获得全部用户的用户行为特征参数,计算用户之间的用户行为特征参数相似度,并且根据所述用户之间的用户行为特征参数相似度进行用户归类;
应用模块,针对特定用户所属于的用户归类,针对该特定用户提供与其用户归类相匹配的网络服务。
2.根据权利要求1所述的用户行为分析系统,其特征在于,所述用户行为信息解析模块针对所抽取的特定用户的全部用户行为信息,进行用户行为信息的归并处理;在归并处理中,对于行为对象内容值全部或者部分相同并且行为之间具有触发关系的至少一个用户行为信息归并一个行为系列,并针对该行为系列生成一个新的归并后的用户行为信息。
3.根据权利要求2所述的用户行为分析系统,其特征在于,所述用户行为信息解析模块在生成所述新的归并后的用户行为信息的过程中,按照系统预定的行为类型强度排序,选取本行为系列中强度最大的行为类型值作为该新的归并后的用户行为信息的行为类型值,并且将本行为系列中全部行为属性值和行为对象内容值的并集作为该新的归并后的用户行为信息的行为属性值和行为对象内容值。
4.根据权利要求3所述的用户行为分析系统,其特征在于,用户行为信息解析模块为每一个归并后形成的用户行为信息赋予行为ID,并且将从同一个用户行为信息的行为类型值、行为属性值与行为对象内容值均用该行为ID予以标识。
5.根据权利要求1所述的用户行为分析系统,其特征在于,用户行为信息关联性确定模块针对一个用户行为信息,比较该用户行为信息的行为对象内容值与其它用户行为信息的行为对象内容值是否存在相同值和/或存在指向同一类型客体的相关值,如果存在相同值和/或存在指向同一类型客体的相关值,则认为用户行为信息具有内容关联性;进而,用户行为信息关联性确定模块根据行为类型值与行为对象内容值,判断用户行为信息之间的行为相容性;如果用户行为信息与另一个用户行为信息之间既具有内容关联性又具有行为相容性,则认为二者具有关联性。
6.根据权利要求5所述的用户行为分析系统,其特征在于,系统预先指定并且存储行为类型值与行为相容性关系的参考表,当用户行为信息的行为类型值是加关注、加入购物车、评分、输入关键词、形成订单、付款这些行为类型的情况下,则与该用户行为信息具有内容关联性的其它用户行为信息与该用户行为信息是行为相容的;如果用户行为信息的行为类型值是取消关注、取出购物车、取消订单、退款这些行为类型,则与该用户行为信息具有内容关联性的其它用户行为信息与该用户行为信息是行为不相容的。
7.根据权利要求1所述的用户行为分析系统,其特征在于,关联数据组表征模块将组用户行为类型值选取为关联数据组中的具有最大强度的至少一个行为类型值;组行为属性确定为将关联数据组中同类型的行为属性值累加后获得的行为属性值;组行为对象内容值确定为关联数据组中全部用户行为信息的行为对象内容值的并集。
8.根据权利要求1所述的用户行为分析系统,其特征在于,所述用户特征分析模块根据组用户行为类型值,判断是否存在表示行为终点的组用户行为类型值,在组用户行为类型值属于表示行为终点的组用户行为类型值的情况下,该关联数据组不再用来提取用户行为特征参数。
9.根据权利要求8所述的用户行为分析系统,其特征在于,所述用户特征分析模块组在用户行为类型值不属于表示行为终点的组用户行为类型值的情况下,从组行为对象内容值的集合中选择至少一个内容值作为该特定用户的用户行为特征参数。
10.根据权利要求8所述的用户行为分析系统,其特征在于,所述用户特征分析模块组将组行为对象内容值的集合中作为组用户行为类型值的行为对象的内容值选为用户行为特征参数,或者,所述用户特征分析模块在组行为对象内容值的集合中分析内容值之间的关系,提取具有相关性的内容值,作为用户行为特征参数。
CN201510942975.0A 2015-12-16 2015-12-16 一种基于大数据平台的用户行为分析系统 Active CN105447186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510942975.0A CN105447186B (zh) 2015-12-16 2015-12-16 一种基于大数据平台的用户行为分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510942975.0A CN105447186B (zh) 2015-12-16 2015-12-16 一种基于大数据平台的用户行为分析系统

Publications (2)

Publication Number Publication Date
CN105447186A CN105447186A (zh) 2016-03-30
CN105447186B true CN105447186B (zh) 2019-03-08

Family

ID=55557362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510942975.0A Active CN105447186B (zh) 2015-12-16 2015-12-16 一种基于大数据平台的用户行为分析系统

Country Status (1)

Country Link
CN (1) CN105447186B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570174B (zh) * 2016-11-10 2020-09-08 中广热点云科技有限公司 运行于cmmb超级热点业务平台的大数据分析方法及系统
WO2018137104A1 (zh) * 2017-01-24 2018-08-02 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及系统
CN107220745B (zh) * 2017-04-24 2021-03-09 北京红马传媒文化发展有限公司 一种意图行为数据的识别方法、系统及设备
CN108874812B (zh) * 2017-05-10 2021-12-10 腾讯科技(北京)有限公司 一种数据处理方法及服务器、计算机存储介质
CN108932826A (zh) * 2017-05-25 2018-12-04 润泽科技发展有限公司 一种基于大数据收集分析的燃气流量计量方法
CN109032538A (zh) * 2017-06-12 2018-12-18 润泽科技发展有限公司 大数据在3d打印技术中的应用方法
CN107563810A (zh) * 2017-08-31 2018-01-09 江苏省公用信息有限公司 一种基于宽带账号的广告投放方法
CN107729407B (zh) * 2017-09-26 2020-06-05 平安科技(深圳)有限公司 用户行为分析方法及服务器
CN107871211A (zh) * 2017-11-06 2018-04-03 网易乐得科技有限公司 用户成长曲线的生成方法、介质、装置和计算设备
CN109903063A (zh) * 2017-12-07 2019-06-18 北京京东尚科信息技术有限公司 数据处理方法及其系统、计算机系统和可读存储介质
CN110163703B (zh) * 2018-02-12 2022-07-29 阿里巴巴集团控股有限公司 一种分类模型建立方法、文案推送方法和服务器
WO2019227423A1 (zh) * 2018-05-31 2019-12-05 优视科技新加坡有限公司 一种用户特征信息收集方法、装置和设备/终端/服务器
CN108789436A (zh) * 2018-06-15 2018-11-13 重庆优豆商贸有限公司 智能协助式购物机器人
CN110661634B (zh) * 2018-06-29 2021-01-26 中兴通讯股份有限公司 用户信息的处理方法及装置
CN111046270A (zh) * 2018-10-15 2020-04-21 深圳市加推科技有限公司 数据处理方法和装置、计算机可读存储介质
CN112966174A (zh) * 2019-12-13 2021-06-15 北京默契破冰科技有限公司 处理数据的方法、设备和计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541886A (zh) * 2010-12-20 2012-07-04 郝敬涛 一种识别用户群和用户之间关系的系统和方法
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统
CN104750838A (zh) * 2015-04-03 2015-07-01 王娟磊 面向大数据分析的综合态势定量处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9323767B2 (en) * 2012-10-01 2016-04-26 Longsand Limited Performance and scalability in an intelligent data operating layer system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541886A (zh) * 2010-12-20 2012-07-04 郝敬涛 一种识别用户群和用户之间关系的系统和方法
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统
CN104750838A (zh) * 2015-04-03 2015-07-01 王娟磊 面向大数据分析的综合态势定量处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于云计算的移动互联网大数据用户行为分析引擎设计;陶彩霞等;《专题:大数据技术与应用》;20130320;第27-31页

Also Published As

Publication number Publication date
CN105447186A (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
CN105447186B (zh) 一种基于大数据平台的用户行为分析系统
JP5542812B2 (ja) クエリ識別および関連付け
US8886636B2 (en) Context transfer in search advertising
CN102279851B (zh) 一种智能导航方法、装置和系统
KR100786795B1 (ko) 인터넷 광고 서비스 시스템 및 방법
CN105069654A (zh) 一种基于用户识别的网站实时/非实时营销投放方法及系统
CN105488697A (zh) 一种基于客户行为特征的潜在客户挖掘方法
CN107665444A (zh) 一种基于用户在线行为的网络广告即时效应评价方法及系统
CN108960917B (zh) 网络营销推广方法及装置
CN107038237A (zh) 基于大数据的用户画像系统及画像方法
CN104462336A (zh) 信息推送方法和装置
TW201944266A (zh) 對話機器人檢索系統、對話機器人檢索方法、及程式
TW200917070A (en) System and method to facilitate matching of content to advertising information in a network
CN110147821A (zh) 目标用户群体确定方法、装置、计算机设备及存储介质
CN107220745B (zh) 一种意图行为数据的识别方法、系统及设备
KR100792700B1 (ko) 신경망을 가지는 협업 필터링 시스템을 이용하여 클릭패턴에 기초한 웹 광고 추천 방법 및 그 시스템
CN103377249A (zh) 关键词投放方法及系统
CN101145231A (zh) 基于搜索引擎的定向广告推送方法
TW201207649A (en) Search engine optimization at scale
CN105893421A (zh) Uv计算方法、装置
CN103177129A (zh) 互联网实时信息推荐预测系统
Dias et al. Automating the extraction of static content and dynamic behaviour from e-commerce websites
KR20160070282A (ko) 쇼핑몰 사이트 제공 시스템, 쇼핑몰 사이트 제공 방법, 그 프로그램 및 이를 기록한 기록매체
CN103646342A (zh) 一种搜索引擎消费数据和回报数据的拼接方法和平台
US20080097976A1 (en) Method of providing product database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310006 room 1101, South Tower, handing International Building, 5 Yongfu Road, Hangzhou, Zhejiang

Applicant after: Handing you Yu Internet Limited by Share Ltd

Address before: 310006 room 1119, Yuantong building, 511 Yanan Road, Hangzhou, Zhejiang.

Applicant before: Hakim Information Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Floor 17, building 6, jinjingwan business operation center, Pingtan Comprehensive Experimental Zone, Fuzhou City, Fujian Province 350400

Patentee after: Straits innovation Internet Co.,Ltd.

Address before: 310006 room 1101, South Tower, handing International Building, 5 Yongfu Road, Hangzhou, Zhejiang

Patentee before: HAKIM UNIQUE INTERNET Co.,Ltd.

CP03 Change of name, title or address