CN103793465A - 基于云计算的海量用户行为实时分析方法及系统 - Google Patents

基于云计算的海量用户行为实时分析方法及系统 Download PDF

Info

Publication number
CN103793465A
CN103793465A CN201310711739.9A CN201310711739A CN103793465A CN 103793465 A CN103793465 A CN 103793465A CN 201310711739 A CN201310711739 A CN 201310711739A CN 103793465 A CN103793465 A CN 103793465A
Authority
CN
China
Prior art keywords
user
user behavior
behavior
data
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310711739.9A
Other languages
English (en)
Other versions
CN103793465B (zh
Inventor
高曙
蒋子龙
徐雄威
张燃
罗正宜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201310711739.9A priority Critical patent/CN103793465B/zh
Publication of CN103793465A publication Critical patent/CN103793465A/zh
Application granted granted Critical
Publication of CN103793465B publication Critical patent/CN103793465B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云计算的海量用户行为实时分析方法与系统,通过客户端实时采集用户行为及上下文数据,基于MapReduce模型进行预处理与聚合;对本体数据推理,实时分析用户最新兴趣;提出基于用户行为上下文的轨迹重现算法,进行轨迹补全;利用余弦因子法计算用户间兴趣相似度,建立用户兴趣相似度矩阵;构建马尔科夫转移矩阵以及基于协同过滤的马尔科夫推荐模型,实现有效与精准推送。本发明采用本体,对用户行为及上下文信息建模,并使用基于HBase的本体存储模式,实现大规模行为信息的语义级共享和重用。本发明将云计算、本体及推理、知识发现等技术相结合,解决了海量用户行为分析中,实时性、高效性、大规模存储以及智能化的问题。

Description

基于云计算的海量用户行为实时分析方法及系统
技术领域
本发明涉及用户行为分析,具体地指一种基于云计算的海量用户行为实时分析方法及系统。
背景技术
用户行为分析是分析用户在使用网络资源时表现出来的规律、个性化的习惯,其目的在于监视、预测、甚至控制用户行为,而用户兴趣是用户的个性化特点针对网络资源的具体表现。在互联网飞速发展的今天,对用户行为进行分析,提取用户兴趣,了解其特点,一方面可以进行用户个性化定制与推送,为网站访问者提供更加主动的、智能化的服务;另一方面,从用户行为的不同表现,发现其兴趣和偏好,可以优化页面之间组织关系,完善网站系统架构,从而减轻用户寻找信息的负担,使其操作更加简单,节约时间和精力。
对于用户行为的分析,国内外做过很多研究,但存在一些问题:首先,大多集中于挖掘WEB日志,但这些日志并不足以及时描述用户访问网站时的情景,有必要实时搜集用户在客户端操作时行为以及上下文信息,将二者相结合,才能最大限度地重现用户浏览Web页面的真实场景,提取全面的用户行为轨迹,为分析用户行为提供有效的数据保障。其次,大型网站一般拥有庞大的在线用户,产生的实时行为和上下文信息量巨大,因此,系统的存储能力和计算速度更强,才能及时地将分析结果反馈给用户。而目前,大多数用户行为分析系统采用关系数据库技术与传统的数据处理方法,不能很好满足海量数据的高效分析。另外,对于用户行为建模,国内外学者大多采用贝叶斯网络模型、向量模型,维度单一、缺乏层次性,不利于信息的共享、重用以及语义级行为数据的推理和分析。因此,有必要研究与发明一种海量用户行为数据的实时、高效的分析方法与系统。
目前,兴起的云计算技术以其强大的处理能力、存储能力以及廉价的硬件需求在IT领域引发了一场技术革命,作为一种新兴的共享基础架构的方法,云计算以公开标准和服务为基础,提供了安全、快速、便捷的海量数据存储和高效、弹性化的计算能力:
廉价可靠的海量分布式存储服务以及数据管理技术,为大规模用户行为数据的实时采集、管理与存储降低了处理成本,提高了效率;
虚拟化技术,实现了集中管理和动态使用物理资源、自主分配和调度计算资源的目的,为数据分析提供了可伸缩的计算能力并屏蔽了各种数据平台的异构性;
发明内容
本发明目的在于克服上述现有技术的不足而提供一种基于云计算的海量用户行为实时分析方法及系统,本发明综合利用云计算、本体推理以及知识发现方法等技术,对实时采集的海量用户行为数据,提供一种高效存储、分析的方法与系统,从而,实现了有效与精准的推送。
实现本发明目的采用的技术方案是:一种基于云计算的海量用户行为实时分析方法,包括如下步骤:
(1)客户端实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存;
(2)对用户行为及上下文信息采用MapReduce并行模型进行预处理与聚合,将结果存放到HBase数据库相应表中;
(3)建立用户行为及上下文本体模型,并设计基于HBase的本体存储模式;
(4)将聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena和Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据;
(5)对(2)中所述结果,提取每个用户每一次会话内浏览的网页URL链接,采用基于用户行为上下文的轨迹重现算法进行轨迹补全,将补全后的结果存放到HBase数据库相应表中;
(6)依据(5)中所述补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据(4)中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构成兴趣相似度矩阵;结合所述马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型;
(7)针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐。
此外,本发明还提供一种基于云计算的海量用户行为实时分析系统,包括:
客户端,用于实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存;
基于MapReduce的数据预处理与聚合模块,用于对用户行为、实时上下文信息采用MapReduce并行模型进行预处理与聚合,将结果存放到HBase数据库相应表中;
用户行为本体模型建立模块,用于建立用户行为及上下文本体模型,并设计基于HBase的本体存储模式;
用户兴趣偏好分析模块,用于将所述基于MapReduce的数据预处理与聚合模块聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena和Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据;
用户浏览轨迹补全模块,用于利用基于用户行为上下文的轨迹重现算法,对基于MapReduce的数据预处理与聚合模块所得结果进行补全,将补全后的结果存放到HBase数据库相应表中;
马尔科夫推荐模型建立模块,用于依据用户浏览轨迹补全模块所述补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据用户兴趣偏好分析模块中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构成兴趣相似度矩阵;结合所述马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型;
系统推荐模块,用于针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐。
相较于现有技术,本发明基于云计算的海量用户行为实时分析方法与系统,利用本体,对用户行为建模,实现行为信息语义级的共享和重用,提高了模型互操作性和可靠性;实时采集用户行为及上下文数据进行分析,使结果更可靠;以列存储数据库Hbase对本体和行为信息进行存储,为海量数据管理奠定基础;基于MapReduce模型进行计算,为高效地、及时地数据处理提供支撑;将推理规则转化为基于Hive的查询,提高了用户兴趣分析效率;提出基于用户行为上下文的轨迹重现算法,进行轨迹补全,为马尔科夫转移矩阵以及基于协同过滤的马尔科夫推荐模型的建立提供更真实的行为数据;将云计算技术的强大处理能力和大规模数据存储能力、本体及其推理、知识发现方法相结合,实时分析海量用户行为数据,及时获取用户兴趣,从而实现有效与精准的用户推送。
附图说明
图1为本发明基于云计算的海量用户行为实时分析系统的结构框图
图2为本发明基于云计算的海量用户行为实时分析方法的流程图。
图3为用户行为本体核心类图。
图4为基于HBase的本体存储流程图。
图5为基于HBase本体存储模式结构图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图,对本发明作进一步详细说明。
如图1所示,本发明基于云计算的海量用户行为实时分析系统,包括客户端、基于MapReduce的数据预处理与聚合模块、用户浏览轨迹补全模块、本体分解与存储模块、用户兴趣偏好分析模块、系统推荐模块。同时,本系统还包括用户行为本体模型的存储、面向列的开源数据库HBase。开发时,使用的软件包括:Hadoop-0.20.2-CDH3B4、HBase-0.90.1-CDH3B4、Hive-0.10.0-cdh4.3.0,Protégé4.2,Jquery-1.6,Jena-2.6.4,Tomcat6.0等。
上述基于云计算的海量用户行为实时分析系统对海量用户行为实时分析方法如图2所示,具体包括:
S100、客户端实时采集用户行为、上下文信息,包括用户行为主体(用户帐号或SessioinID)、发生时间、发生的页面(包含页面标题和页面URL),上下滚动页面、移动或点击鼠标、页面停留时间、是否收藏,打印,保存、访问同一页面次数、复制粘贴文字操作,当前用户的搜索条件、搜索关键字对应的标题等,然后通过客户端Ajax异步上传到服务器端保存。
S200、基于MapReduce的数据预处理与聚合模对服务器端中的用户行为及上下文信息采用MapReduce并行模型进行预处理和聚合。MapReduce编程模式,将任务自动分成多个子任务,通过Map和Reduce两步,实现在大规模计算节点中的调度与分配,为实时用户行为数据预处理、融合与推理分析提供了可能性。
其中,预处理包括数据清理、数据转换、数据归约,具体步骤包括:
数据清理:去除其中不完整数据,删除重复数据、图片、页面动画等无用的数据;
数据转换:对页面进行的打印、收藏、保存、下载操作,在获取后,将其转换为对应的数据格式保存在数据库中;
数据归约:由于用户行为数据量很大,对其进行规范化处理,减少数据量,并保持数据的完整性。
数据聚合包括:对正确、但无效的用户行为信息,无法通过预处理解决,采用基于规则的用户行为聚合算法进行过滤、整合,从而保证为推理机制提供有效的行为信息。本实施例根据应用场景,可以定义以下规则,但不限于这些规则:
规则1:对实时行为中的页面分类,聚合同一个页面被访问的次数和页面总共停留时间等信息。
IF聚合后页面停留时间小于10s的信息Then删除该信息
Else将聚合结果保存到聚合表EndIf
规则2:对实时行为中的关键字分类,聚合同一关键字在不同页面停留时间,页面标题保留停留时间最长的标题,不同页面次数之和等。
IF聚合后页面停留时间小于10s的信息Then删除该信息
Else将聚合结果保存到聚合表EndIf
S300、使用OWL-DL描述语言建立用户行为、上下文本体模型,设计基于
HBase的OWL本体存储模式。具体为:
使用Protégé4.2创建用户行为及上下文本体模型,其中,本体核心类如图3所示。由于用户行为与环境状态密切相关,它或者决定一个应用行为,或者触发用户感兴趣的事件,因此,研究中加入环境上下文信息。另外,图2中每个类均有自己属性,该属性为本领域技术人员所用的常规技术手段,此处不再赘述。
设计基于HBase的OWL本体存储模式,数据库存储方式把本体描述语言中所包含的类及其之间的逻辑关系,通过映射的方式,保存到表中,并保持了原模型的语义,利用数据库系统对表的操作、管理,实现了对本体的高效管理。考虑到用户行为数据的海量性,HBase数据库比关系数据库在进行大规模数据的存储与处理方面效率更高,速度更快,因此,将用户行为及上下文本体模型分解后,使用基于HBase的方式进行存储(本体存储流程如图4所示),能更好地满足对用户行为实时分析的需要。由此,为本体的命名空间、本体的资源、本体的三元组、本体中的各种关系(包括一元关系、二元关系、隶属关系、等价关系与不等价关系等)、各种属性限制(例如:Restriction、onProperty、allValuesFrom、someValuesFrom)等,建立了相应的表,如图5所示。设计中尽可能地保留了本体模型的语义,实现了对OWL-DL语言特征的存储,因此,该模式可扩展性强,本体进化也无须改变表结构,适合于大规模本体的存储和处理。
本体(Ontology)原本是哲学的一个概念,主要描述事物的抽象本质,是对客观世界的系统解释和说明。信息技术领域的本体概念是规范化地表示一个或多个领域的概念、属性及其之间的相互关系,让其在共享范围内获得认可,从而表示该领域的基本知识。本体推理是利用本体对象之间的联系,进行语义层面的知识发现。鉴于Ontology在语义匹配上的明显优势,针对用户行为及其下文信息的零散性、随意性而又总体体现出的主题相关性,本系统创新性地采用本体建立用户行为模型,从而,实现了行为信息的共享和重用,提高了模型互操作性和可靠性。同时,利用本体推理技术,挖掘用户兴趣所在。
S400、将聚合后的用户行为、上下文信息加载到本体模型,利用Jena和Hive对存储在HBase中的本体模型数据进行推理,发现用户最新兴趣,具体包括以下步骤:
建立本体推理和Hive推理机制,其中,本实施例使用Jena2.6本体推理机,设计本体模型的推理规则,并保存到HBase数据库中。在读取本体文件后,创建本体模型,建立本体推理机,将规则读取到推理机中,设置推理的类型,Jena API的InfModel接口支持任何相关推理,可用创建的本体模型和推理机创建InfModel的对象,进行推理分析,将推理结果保存在本体存储模式表中。
Hive推理用于将本体推理规则转换为Hive查询语句,对保存在基于HBase中本体模型数据进行推理,这种Hive与HBase的结合,充分利用了云计算技术的快速存取和灵活分析的优势,改进了以往关系数据库存储本体模型时加载和推理慢的弊病;
推理得到结果主要包括:用户喜欢访问页面标题,页面URL,搜索最多的关键字,经常访问的时间段等兴趣信息。
S500、对步骤(2)中的结果文件,提取每个用户每一次会话内浏览的网页URL链接,采用基于用户行为上下文的轨迹重现算法进行轨迹补全,将结果存放到HBase数据库相应表中。
基于用户行为上下文的轨迹重现算法描述如下:
Figure BDA0000443337450000071
Figure BDA0000443337450000081
S600、依据步骤(5)中的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中。
S700、依据步骤(4)中的结果,利用余弦因子法计算出每个用户间的兴趣相似度,从而构成能体现所有用户之间兴趣相似度的矩阵,再结合(6)中的马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型,具体实现步骤为:
一阶马尔科夫模型的特征主要用“转移概率”表示,后一状态出现的概率取决于其前出现过的状态。一阶马尔科夫模型根据转移概率矩阵判断下一个要发生状态的概率分布。马尔科夫状态转移矩阵表示为A=a[i][j]且Σa[i][j]=1(从j=1到N),其中a[i][j]=P(sj|si),即:由状态i转移到状态j的概率,因为有N个可能的状态,所以a[i][j]共有N*N可能的取值。
兴趣相似度矩阵是根据用户兴趣关键词构成的向量,利用余弦因子法计算出每个用户间的兴趣相似度,从而构成能体现所有用户之间兴趣相似度的矩阵。
协同过滤是根据预定的邻居数K,在兴趣相似度矩阵中选择相似度由大到小的前K个用户,再在这K个用户各自的马尔科夫状态转移矩阵中找出其相应的、大于某阈值的下一步URL集,这样就形成了一个推荐URL集。
S800、针对实时捕捉到的当前在线用户的页面URL,调用基于协同过滤的马尔科夫推荐算法,计算出下一步推荐的URL集。
基于协同过滤的马尔科夫推荐算法描述为:
输入:所有用户实时行为信息;当前用户的页面URL
输出:推荐下一步可能的URL集
1)对所有用户实时行为及上下文信息进行清洗和预处理,取出每条记录中的UserID(用户帐号或SessioinID)、DanymicBehaviorTime(实时行为持续时间,单位为秒)、SearchURL(查询URL)、PageStayTime(页面停留时间,单位为秒)、SavePage(是否保存页面,取值0或1)、PrintPage(是否打印页面,取值0或1)、Favorites(是否收藏页面,取值0或1)字段等;
2)建立一阶马尔科夫状态转移矩阵:选取UserID识别用户,根据该用户搜索记录的时间,整理出该用户的SearchURL从前到后的马尔科夫序列,以该用户搜索记录中所有出现SearchURL,建立矩阵的行和列,统计该用户在每个当前SearchURL向其他SearchURL跳转的次数,将此次数与该用户总跳转次数的比值作为状态转移矩阵在该位置的值,从而,建立起每个用户的马尔科夫状态转移矩阵。其中,矩阵的每个行头位设置为UserID_SearchURL,每个列头位设置为SearchURL,矩阵生成后存储在userShiftMatrix表(HBase数据库中的一张专用于存储状态转移矩阵的数据表)中。
3)马尔科夫状态转移矩阵加权:选取PageStayTime作为状态转移矩阵某个元素值的附加权值计算条件之一,如果PageStayTime∈(0,30),在矩阵对应元素值*1,如果PageStayTime∈(30,60),在矩阵对应元素值*(1+1/20),如果PageStayTime∈(60,∞),在矩阵对应元素值*(1+2/20);选取SavePage、PrintPage、Favorites作为状态转移矩阵对应元素值的附加权值计算条件之一,只要其中一个参数值为1,则在矩阵对应元素值*(1+2/20)。
4)用余弦因子法得出各用户之间兴趣相似度矩阵:依据(4)得出结果,将用户u的兴趣信息看做向量u,用户v的兴趣信息看做向量v,用户u,v间的相似度sim(u,v)采用余弦夹角度量,sim(u,v)=cos(u,v)=u·v/(|u|*|v|)。用户兴趣相似度矩阵由每一个sim(u,v)元素组成。
5)推荐结果:针对用户输入的URL,在当前用户拥有的状态转移矩阵中查找下一步可能访问的URL:大于某个设定阈值(例如0.1000)的即是符合推荐条件的URL集;另外,根据用户兴趣相似度矩阵,选择相似度大的前N个用户,在这N个用户各自的状态转移矩阵中,找出当前URL情况下,下一步可能的URL集,从而形成总的推荐URL集。
马尔科夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策。系统下一步的状态是随机的,并且其状态转移概率具有马尔可夫性。本发明的用户行为中,浏览URL的转换具备马尔科夫决策过程的性质,而依据兴趣知识可以得出每个用户之间的兴趣相似度,同时,建立基于协同过滤的马尔科夫推荐模型,就能准确地推测出用户当时兴趣,从而,提供更为及时、精准的URL集。

Claims (8)

1.一种基于云计算的海量用户行为实时分析方法,其特征在于,包括如下步骤:
(1)客户端实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存;
(2)对用户行为及上下文信息采用MapReduce并行模型进行预处理与聚合,将结果存放到HBase数据库相应表中;
(3)建立用户行为及上下文本体模型,并设计基于HBase的本体存储模式;
(4)将聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena和Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据;
(5)对(2)中所述结果,提取每个用户每一次会话内浏览的网页URL链接,采用基于用户行为上下文的轨迹重现算法进行轨迹补全,将补全后的结果存放到HBase数据库相应表中;
(6)依据(5)中所述补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据(4)中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构成兴趣相似度矩阵;结合所述马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型;
(7)针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐。
2.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于:步骤(1)中所述用户行为及上下文信息包括用户行为主体、发生时间、发生的页面、上下滚动页面、移动或点击鼠标、页面停留时间、收藏、打印、保存、访问同一页面次数、复制粘贴文字操作、当前用户的搜索条件、搜索关键字对应的标题。
3.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于,在步骤(2)中,
所述预处理包括:去除不完整数据,删除重复数据、图片、页面动画;对页面进行的打印、收藏、保存、下载操作,在获取后,将其转换为对应的数据格式保存在数据库中;
所述数据聚合包括:对正确、但无效的用户行为信息,采用基于规则的用户行为聚合算法进行过滤、整合。
4.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于:步骤(3)中使用OWL-DL描述语言建立用户行为及上下文本体模型,并对本体模型进行分解,设计基于HBase的本体存储模式。
5.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于,在步骤(4)中,
利用Jena对存储在HBase中的用户行为及上下文本体模型数据进行推理包括:使用Jena2.6本体推理机,设计本体模型的推理规则,并保存到HBase数据库中,读取本体文件后,创建本体模型,建立本体推理机,将规则读取到推理机中,设置推理的类型,J进行推理分析,将推理结果保存在本体存储模式表中;
利用Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理包括:将本体推理规则转换为Hive查询语句,对保存在基于HBase中本体模型数据进行推理。
6.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于:步骤(6)中马尔科夫状态转移矩阵表示为A=a[i][j]且Σa[i][j]=1(从j=1到N),其中a[i][j]=P(sj|si)。
7.一种基于云计算的海量用户行为实时分析系统,其特征在于,包括:
客户端,用于实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存;
基于MapReduce的数据预处理与聚合模块,用于对用户行为、实时上下文信息采用MapReduce并行模型进行预处理与聚合,将结果存放到HBase数据库相应表中;
用户行为本体模型建立模块,用于建立用户行为及上下文本体模型,并设计基于HBase的本体存储模式;
用户兴趣偏好分析模块,用于将所述基于MapReduce的数据预处理与聚合模块聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena和Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据;
用户浏览轨迹补全模块,用于利用基于用户行为上下文的轨迹重现算法,对基于MapReduce的数据预处理与聚合模块所得结果进行补全,将补全后的结果存放到HBase数据库相应表中;
马尔科夫推荐模型建立模块,用于依据用户浏览轨迹补全模块所述补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据用户兴趣偏好分析模块中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构成兴趣相似度矩阵;结合所述马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型;
系统推荐模块,用于针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐。
8.根据权利要求7所述基于云计算的海量用户行为实时分析系统,其特征在于,还包括:
本体分解与存储模块,用于对用户行为本体的命名空间、本体的资源、本体的三元组、本体中的各种关系、各种属性限制,在HBase数据库中建立相应的表,设计中尽可能地保留本体模型的语义,实现对OWL-DL语言特征的存储。
CN201310711739.9A 2013-12-20 2013-12-20 基于云计算的海量用户行为实时分析方法及系统 Expired - Fee Related CN103793465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310711739.9A CN103793465B (zh) 2013-12-20 2013-12-20 基于云计算的海量用户行为实时分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310711739.9A CN103793465B (zh) 2013-12-20 2013-12-20 基于云计算的海量用户行为实时分析方法及系统

Publications (2)

Publication Number Publication Date
CN103793465A true CN103793465A (zh) 2014-05-14
CN103793465B CN103793465B (zh) 2018-06-22

Family

ID=50669131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310711739.9A Expired - Fee Related CN103793465B (zh) 2013-12-20 2013-12-20 基于云计算的海量用户行为实时分析方法及系统

Country Status (1)

Country Link
CN (1) CN103793465B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995893A (zh) * 2014-06-04 2014-08-20 深圳市腾讯计算机系统有限公司 一种浏览器中的快链推荐方法、装置和系统
CN104391849A (zh) * 2014-06-30 2015-03-04 浙江大学苏州工业技术研究院 融入时间上下文信息的协同过滤推荐方法
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统
CN104572857A (zh) * 2014-12-17 2015-04-29 深圳先进技术研究院 一种网页推送方法及装置
CN104765850A (zh) * 2015-04-20 2015-07-08 清华大学 基于关系数据库的本体存储方法及存储系统
CN104933595A (zh) * 2015-05-22 2015-09-23 齐鲁工业大学 一种基于马尔科夫预测模型的协同过滤推荐方法
CN105404697A (zh) * 2015-12-29 2016-03-16 成都陌云科技有限公司 社交网站交互行为收集检测方法
CN105574200A (zh) * 2015-12-29 2016-05-11 成都陌云科技有限公司 基于历史记录的用户兴趣提取方法
CN105589914A (zh) * 2015-07-20 2016-05-18 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备
CN105589782A (zh) * 2014-10-22 2016-05-18 中国银联股份有限公司 基于浏览器的用户行为采集方法
CN105808744A (zh) * 2016-03-11 2016-07-27 百度在线网络技术(北京)有限公司 信息预测的方法和装置
CN106528812A (zh) * 2016-08-05 2017-03-22 浙江工业大学 一种基于usdr模型的云推荐方法
CN106570008A (zh) * 2015-10-09 2017-04-19 阿里巴巴集团控股有限公司 推荐方法及装置
CN106777367A (zh) * 2017-01-24 2017-05-31 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及系统
CN106875320A (zh) * 2017-02-10 2017-06-20 武汉理工大学 云环境下船舶航行数据的高效可视分析方法
CN106960353A (zh) * 2016-01-08 2017-07-18 湖北睛彩视讯科技有限公司 一种基于电子商务平台的用户行为分析方法及系统
CN107040863A (zh) * 2015-07-30 2017-08-11 中国移动通信集团内蒙古有限公司 实时业务推荐方法及系统
CN107065545A (zh) * 2017-04-01 2017-08-18 同济大学 基于马尔科夫跳变的分布式事件触发滤波系统及设计方法
CN108228887A (zh) * 2018-01-31 2018-06-29 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108268479A (zh) * 2016-12-30 2018-07-10 上海互联网软件集团有限公司 一种热点信息推送方法
WO2018137104A1 (zh) * 2017-01-24 2018-08-02 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及系统
CN108959358A (zh) * 2018-05-14 2018-12-07 北京大学 一种基于本体模型的终端用户数据访问方法及系统
CN109510793A (zh) * 2017-09-14 2019-03-22 蓝盾信息安全技术股份有限公司 一种基于协同过滤的安全事件预测技术
CN109583647A (zh) * 2018-11-29 2019-04-05 上海电气分布式能源科技有限公司 一种储能产品多用户共享方法及供电系统
CN109670116A (zh) * 2018-11-30 2019-04-23 内江亿橙网络科技有限公司 一种基于大数据的智能推荐系统
CN110287272A (zh) * 2019-06-27 2019-09-27 南京冰鉴信息科技有限公司 一种可配置实时特征提取方法、装置及系统
CN110533467A (zh) * 2019-08-27 2019-12-03 江南大学 基于大数据分析的用户行为分析平台及其工作方法
CN110795705A (zh) * 2019-10-22 2020-02-14 武汉极意网络科技有限公司 轨迹数据处理方法、装置、设备及存储介质
CN111026745A (zh) * 2019-12-13 2020-04-17 江苏三六五网络股份有限公司 一种基于用户浏览轨迹推的大数据建模系统
CN111177534A (zh) * 2019-12-06 2020-05-19 南京欣网互联信息技术有限公司 一种基于互联网大数据的用户行为轨迹分析方法
CN112069417A (zh) * 2020-08-24 2020-12-11 北京神舟航天软件技术有限公司 一种工作分解结构wbs模板推荐方法
CN112181972A (zh) * 2020-11-02 2021-01-05 北京通付盾人工智能技术有限公司 基于大数据的数据治理方法、装置和计算机设备
CN112989278A (zh) * 2019-12-12 2021-06-18 北京沃东天骏信息技术有限公司 确定状态数据的方法和装置
CN113139822A (zh) * 2020-01-19 2021-07-20 苏州金龟子网络科技有限公司 一种基于用户行为分析的推广系统及方法
CN113205217A (zh) * 2021-05-07 2021-08-03 上海一谈网络科技有限公司 数据处理方法、装置、设备及存储介质
CN113531755A (zh) * 2021-06-24 2021-10-22 惠州华京电子科技有限公司 臭氧消毒控制方法以及净化器
CN108304324B (zh) * 2018-01-22 2022-07-19 百度在线网络技术(北京)有限公司 测试用例生成方法、装置、设备及存储介质
CN115601195A (zh) * 2022-10-17 2023-01-13 桂林电子科技大学(Cn) 基于电力用户实时标签的交易双向推荐系统及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915335B (zh) * 2012-09-17 2016-04-27 北京大学 基于用户操作记录和资源内容的信息关联方法

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995893A (zh) * 2014-06-04 2014-08-20 深圳市腾讯计算机系统有限公司 一种浏览器中的快链推荐方法、装置和系统
CN104391849A (zh) * 2014-06-30 2015-03-04 浙江大学苏州工业技术研究院 融入时间上下文信息的协同过滤推荐方法
CN104391849B (zh) * 2014-06-30 2017-12-15 浙江大学苏州工业技术研究院 融入时间上下文信息的协同过滤推荐方法
CN105589782B (zh) * 2014-10-22 2018-09-04 中国银联股份有限公司 基于浏览器的用户行为采集方法
CN105589782A (zh) * 2014-10-22 2016-05-18 中国银联股份有限公司 基于浏览器的用户行为采集方法
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统
CN104572857A (zh) * 2014-12-17 2015-04-29 深圳先进技术研究院 一种网页推送方法及装置
CN104572857B (zh) * 2014-12-17 2018-03-13 深圳先进技术研究院 一种网页推送方法及装置
CN104765850A (zh) * 2015-04-20 2015-07-08 清华大学 基于关系数据库的本体存储方法及存储系统
CN104933595A (zh) * 2015-05-22 2015-09-23 齐鲁工业大学 一种基于马尔科夫预测模型的协同过滤推荐方法
CN105589914A (zh) * 2015-07-20 2016-05-18 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备
CN107040863B (zh) * 2015-07-30 2021-01-15 中国移动通信集团内蒙古有限公司 实时业务推荐方法及系统
CN107040863A (zh) * 2015-07-30 2017-08-11 中国移动通信集团内蒙古有限公司 实时业务推荐方法及系统
CN106570008A (zh) * 2015-10-09 2017-04-19 阿里巴巴集团控股有限公司 推荐方法及装置
CN106570008B (zh) * 2015-10-09 2020-03-27 阿里巴巴集团控股有限公司 推荐方法及装置
CN105574200A (zh) * 2015-12-29 2016-05-11 成都陌云科技有限公司 基于历史记录的用户兴趣提取方法
CN105404697A (zh) * 2015-12-29 2016-03-16 成都陌云科技有限公司 社交网站交互行为收集检测方法
CN106960353A (zh) * 2016-01-08 2017-07-18 湖北睛彩视讯科技有限公司 一种基于电子商务平台的用户行为分析方法及系统
CN105808744A (zh) * 2016-03-11 2016-07-27 百度在线网络技术(北京)有限公司 信息预测的方法和装置
CN106528812B (zh) * 2016-08-05 2019-04-23 浙江工业大学 一种基于usdr模型的云推荐方法
CN106528812A (zh) * 2016-08-05 2017-03-22 浙江工业大学 一种基于usdr模型的云推荐方法
CN108268479A (zh) * 2016-12-30 2018-07-10 上海互联网软件集团有限公司 一种热点信息推送方法
WO2018137104A1 (zh) * 2017-01-24 2018-08-02 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及系统
CN106777367A (zh) * 2017-01-24 2017-05-31 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及系统
CN106875320B (zh) * 2017-02-10 2021-01-26 武汉理工大学 云环境下船舶航行数据的高效可视分析方法
CN106875320A (zh) * 2017-02-10 2017-06-20 武汉理工大学 云环境下船舶航行数据的高效可视分析方法
CN107065545A (zh) * 2017-04-01 2017-08-18 同济大学 基于马尔科夫跳变的分布式事件触发滤波系统及设计方法
CN107065545B (zh) * 2017-04-01 2020-03-24 同济大学 基于马尔科夫跳变的分布式事件触发滤波系统及设计方法
CN109510793A (zh) * 2017-09-14 2019-03-22 蓝盾信息安全技术股份有限公司 一种基于协同过滤的安全事件预测技术
CN108304324B (zh) * 2018-01-22 2022-07-19 百度在线网络技术(北京)有限公司 测试用例生成方法、装置、设备及存储介质
CN108228887B (zh) * 2018-01-31 2019-12-03 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108228887A (zh) * 2018-01-31 2018-06-29 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108959358B (zh) * 2018-05-14 2019-09-17 北京大学 一种基于本体模型的终端用户数据访问方法及系统
CN108959358A (zh) * 2018-05-14 2018-12-07 北京大学 一种基于本体模型的终端用户数据访问方法及系统
CN109583647A (zh) * 2018-11-29 2019-04-05 上海电气分布式能源科技有限公司 一种储能产品多用户共享方法及供电系统
CN109583647B (zh) * 2018-11-29 2023-06-23 上海电气分布式能源科技有限公司 一种储能产品多用户共享方法及供电系统
CN109670116A (zh) * 2018-11-30 2019-04-23 内江亿橙网络科技有限公司 一种基于大数据的智能推荐系统
CN110287272A (zh) * 2019-06-27 2019-09-27 南京冰鉴信息科技有限公司 一种可配置实时特征提取方法、装置及系统
CN110533467A (zh) * 2019-08-27 2019-12-03 江南大学 基于大数据分析的用户行为分析平台及其工作方法
CN110795705A (zh) * 2019-10-22 2020-02-14 武汉极意网络科技有限公司 轨迹数据处理方法、装置、设备及存储介质
CN111177534A (zh) * 2019-12-06 2020-05-19 南京欣网互联信息技术有限公司 一种基于互联网大数据的用户行为轨迹分析方法
CN112989278A (zh) * 2019-12-12 2021-06-18 北京沃东天骏信息技术有限公司 确定状态数据的方法和装置
CN111026745A (zh) * 2019-12-13 2020-04-17 江苏三六五网络股份有限公司 一种基于用户浏览轨迹推的大数据建模系统
CN113139822A (zh) * 2020-01-19 2021-07-20 苏州金龟子网络科技有限公司 一种基于用户行为分析的推广系统及方法
CN112069417A (zh) * 2020-08-24 2020-12-11 北京神舟航天软件技术有限公司 一种工作分解结构wbs模板推荐方法
CN112181972A (zh) * 2020-11-02 2021-01-05 北京通付盾人工智能技术有限公司 基于大数据的数据治理方法、装置和计算机设备
CN113205217B (zh) * 2021-05-07 2022-07-15 上海一谈网络科技有限公司 数据处理方法、装置、设备及存储介质
CN113205217A (zh) * 2021-05-07 2021-08-03 上海一谈网络科技有限公司 数据处理方法、装置、设备及存储介质
CN113531755A (zh) * 2021-06-24 2021-10-22 惠州华京电子科技有限公司 臭氧消毒控制方法以及净化器
CN115601195A (zh) * 2022-10-17 2023-01-13 桂林电子科技大学(Cn) 基于电力用户实时标签的交易双向推荐系统及其方法
CN115601195B (zh) * 2022-10-17 2023-09-08 桂林电子科技大学 基于电力用户实时标签的交易双向推荐系统及其方法

Also Published As

Publication number Publication date
CN103793465B (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN103793465A (zh) 基于云计算的海量用户行为实时分析方法及系统
Khan et al. Cloud based big data analytics for smart future cities
Huang et al. A probabilistic method for emerging topic tracking in microblog stream
CN111435344B (zh) 一种基于大数据的钻井提速影响因素分析模型
Cai et al. Integrating spatial and temporal contexts into a factorization model for POI recommendation
Zhong et al. Comsoc: adaptive transfer of user behaviors over composite social network
Sun et al. When will it happen? relationship prediction in heterogeneous information networks
Li et al. A survey on personalized news recommendation technology
Pariserum Perumal et al. An intelligent fuzzy rule-based e-learning recommendation system for dynamic user interests
Liang et al. Search engine for the internet of things: Lessons from web search, vision, and opportunities
Xie et al. Attentive meta-graph embedding for item recommendation in heterogeneous information networks
Sun et al. Convergence of recommender systems and edge computing: A comprehensive survey
CN104298785A (zh) 一种众搜资源搜索方法
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
CN115422169B (zh) 基于商业广告场景的数据仓库构建方法及装置
Dang et al. Deep knowledge-aware framework for web service recommendation
Wu et al. A group recommendation system of network document resource based on knowledge graph and LSTM in edge computing
Zhou et al. Hybrid collaborative filtering model for consumer dynamic service recommendation based on mobile cloud information system
KR101475439B1 (ko) 사용자에게 최적화된 관심 정보를 제공하기 위한 시스템 및 방법
Sendi et al. Discovery and tracking of temporal topics of interest based on belief-function and aging theories
Chen et al. [Retracted] Construction of an Intelligent Analysis Model for Website Information Based on Big Data and Cloud Computing Technology
Mortier et al. Distributed data analytics
Yun et al. Multisource Information Fusion Algorithm for Personalized Tourism Destination Recommendation
Xie Research on Weibo user behavior system for subjective perception and big data mining technology
Mashayekhi et al. Microblog topic detection using evolutionary clustering and social network information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180622

Termination date: 20191220