CN104317877A - 一种基于分布式计算的网络用户行为数据实时处理方法 - Google Patents

一种基于分布式计算的网络用户行为数据实时处理方法 Download PDF

Info

Publication number
CN104317877A
CN104317877A CN201410562441.0A CN201410562441A CN104317877A CN 104317877 A CN104317877 A CN 104317877A CN 201410562441 A CN201410562441 A CN 201410562441A CN 104317877 A CN104317877 A CN 104317877A
Authority
CN
China
Prior art keywords
real
data
time
distributed
congestion control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410562441.0A
Other languages
English (en)
Inventor
王加俊
徐礼爽
周文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201410562441.0A priority Critical patent/CN104317877A/zh
Publication of CN104317877A publication Critical patent/CN104317877A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于分布式计算的网络用户行为数据实时处理方法,包括依次执行的启动过程和实时计算过程,其中,所述启动过程具体为:从网络用户行为数据库中提取数据进行分布式批处理计算获取统计结果初始值,保存到统计结果缓存区和结果数据库;所述实时计算过程具体为:数据源端继续接收用户访问交互行为数据生成的事件数据流,并保存至网络用户行为数掘库,将当前数据源端所有的事件数据流分发到分布式的多个节点,基于统计结果初始值进行增量计算并规约,最终结果保存至统计结果缓存区。与现有技术相比,本发明具行支持分布式多节点并行计算、可以根据需求设计事件流的增量计算算法、与网络平台其他功能耦合度低、能较好保证实时计算等优点。

Description

一种基于分布式计算的网络用户行为数据实时处理方法
技术领域
本发明涉及网络数据处理领域,尤其是涉及一种基于分布式计算的网络用户行为数据实时处理方法。
背景技术
随着互联网上信息服务的发展,许多政府部门、公司、大专院校、科研院所等都已经拥有或正在建设自己的网站。每个网站的后面都运行着一个Web服务器,对网站的管理,要求不仅仅关注服务器每天的吞吐量,还要了解网站各页面的访问情况,根据各页面的点击频率来改善网页的内容和质量、提高内容的可读性,根据各页面的浏览交互行为等数据。跟踪包含所有用户,机构等相关的数据并进行统计分析。
尤其对于以电子商务、搜索引擎、在线教育为业务的网络公司而言,更是如此。需要对web服务器的运行和访问情况进行详细和周全的分析,了解网站运行情况,发现网站存在的不足,统计分析用户的数据,促进网站的更好发展,为用户提供更加个性化的智能推荐服务。
由于网站访问的行为记录在不停的累积,因此,网站管理人员需要及时地获知统计分析的结果,例如可以随时看到页面访问量(PV,Page View)等统计数据。与此同时,随着互联网的不断普及,上网人数的不断增加,网站的访问量从十万,百万级别上升到千万,上亿级别;Web服务器浏览器行为数据量也从几十MB到几十GB,甚至达到TB的数量级。而相应的网络行为统计和分析的时间要求却并没有降低。因此,如何及时有效地对不断增加的网络行为进行分析和统计,就成为本领域技术人员所必需面临的问题。
基于大数据统计分析这一问题,中国专利申请号201210450550.4,记载了一种“一种海量日志统计分析系统和方法”。该方法提出了用分布式批处理的方式来有效进行大数据统计分析,但是该方法没有能够解决实时计算的统计分析需求。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种响应请求快、可用性强、计算量小的基于分布式计算的网络用户行为数据实时处理方法。
本发明的目的可以通过以下技术方案来实现:
一种基于分布式计算的网络用户行为数据实时处理方法,包括依次执行的启动过程和实时计算过程,其中,
所述启动过程具体为:从网络用户行为数据库中提取数据进行分布式批处理计算获取统计结果初始值,保存到统计结果缓存区和结果数据库;在启动过程中,数据源端实时侦听用户访问交互行为数据,生成相应的事件数据流并保存,同时将事件数据流保存至网络用户行为数据库;
所述网络用户行为数据库中保存有所有时候用户访问交互行为所产生的事件数据流;
所述实时计算过程具体为:数据源端继续接收用户访问交互行为数据生成的事件数据流,并保存至网络用户行为数据库,将当前数据源端所有的事件数据流分发到分布式的多个节点,基于统计结果初始值进行增量计算并规约,最终结果保存至统计结果缓存区;
所述实时计算过程按设定间隔循环执行。
其中增量计算是指按照应用需求设计出一种增量计算算法,算法的当前结果依赖算法前面过程的计算结果,以便能较快得出当前结果。如平均值增量算法,我们根据元素的个数及每个元素的取值计算出当前的平均值,下一次有新的数据到来重新计算平均值时,依赖前面计算的平均值及元素个数,就可以较为快速的得出当前的平均值。
规约过程将并行计算中各个计算节点的结果汇集进行计算以得出最终的结果。如求和的并行算法中各个节点计算出其分配的数值的和后将结果传给规约步骤,规约过程将各自节点的求和结果累加出最终总的求和结果。
所述启动指网络系统的启动或重新启动。
所述事件数据流包括对应于不同用户访问交互行为的事件类型及相应状态数据。
所述实时计算过程中,事件数据流分发到分布式的多个节点的分发规则包括:按照事件类型分发给不同的节点,每个节点处理一种或几种事件类型的数据计算;或者将所有事件数据流按设定比例分配到各个节点上进行并行计算。
还包括关闭维护准备过程,具体为:
在接收到维护指令时,进入关闭准备状态,将每次实时计算过程获得的最终结果同时保存至统计结果缓存区和结果数据库。
所述关闭维护准备过程中,根据用户访问交互行为数据生成的事件数据流保存至网络用户行为数据库。
还包括:
实时接收用户提交的统计查询请求,若当前处于未启动或启动过程中,则直接从结果数据库中查询数据并返回给用户,若当前处于实时计算过程和关闭维护准备过程中,则从统计结果缓存区中查询数据并返回给用户。
与现有技术相比,本发明可以通过分布式多节点进行统计分析计算,相比标准的web service具有如下优势:
1、响应请求快,将统计分析的请求分配到多个节点进行并行计算;
2、与网站的核心请求解耦,用户访问网站的过程速度不受影响,可用性强;
3、批处理和实时计算相结合,用户对统计分析结果的请求准确率较高,且计算量小、性能较高;
4、开发者可以根据需求设计事件流的增量计算算法,灵活性强。
附图说明
图1为本发明的原理示意图;
图2为本发明的一种分布式节点部署结构图;
图3为本发明的另一种分布式节点部署结构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1-图2所示,本实施例提供一种基于分布式计算的网络用户行为数据实时处理方法,图1中,a表示启动过程,b表示实时计算过程。在此实施例中,网站的核心业务为在线教育平台,用户访问交互行为有:浏览页面、观看在线视频、完成在线小练习并得出成绩、章节练习,大作业,用户论坛发帖及回复、用户本身的属性数据(用户的性别、年龄、籍贯等)。网站的统计数据主要有三大类型:1、该在线教育平台用户的分布特征(男女比例,年龄区间特征(10-20,20-30,30-40等)、籍贯分布等);2、用户参与浏览、观看视频的记录,用户发表论坛帖子及回复统计;3、用户每次作业(包括小练习)成绩等。
类型1的数据主要表现在每一次用户注册的时候,当注册任务完成,形成一个用户添加事件,并将用户注册时填入的数据作为该事件的状态数据发送到数据源端;
类型2的数据主要表现在用户浏览网页,观看视频时,当用户观看某一视频,就形成一个观看视频的具体事件,当用在论坛发表一个具体的文章,则形成一个发表文章的具体事件,最终将用户在此时的交互事件及其状态数据发送数据源端;
类型3的数据主要表现在用户提交练习答案,用户完成每个章节测试题或者管理员评价完主观题、用户互评后形成的作业和考试评分,用户、管理员,用户之间的每一次交互行为及相关状态数据发送到数据源端。
最终数据源端会有三大类事件及其相关的数据形成的事件数据流提供给三个分布式节点进行增量计算并按需求进行规约,每个节点分配一大类事件及相关数据,得出需要的统计分析结果并保存。
在接收到维护指令时,进入关闭准备状态,此状态下和在实时计算过程中计算方法相同,但需要将每次写入缓存的结果同时写入到结果数据库中。
用户可以提交相关的统计查询请求进行查询,在接收用户提交的统计查询请求时,判断当前所处过程,若当前处于未启动或启动过程中,则直接从结果数据库中查询数据并返回给用户,若当前处于实时计算过程和关闭维护准备过程中,则从统计结果缓存区中查询数据并返回给用户。
实施例2
参考图1和图3所示,此实施例中,数据源端将事件数据流按比例分配给多个分布式节点进行并行计算并按需求进行规约。其余同实施例1。

Claims (7)

1.一种基于分布式计算的网络用户行为数据实时处理方法,其特征在于,包括依次执行的启动过程和实时计算过程,其中,
所述启动过程具体为:从网络用户行为数据库中提取数据进行分布式批处理计算获取统计结果初始值,保存到统计结果缓存区和结果数据库;在启动过程中,数据源端实时侦听用户访问交互行为数据,生成相应的事件数据流并保存,同时将事件数据流保存至网络用户行为数据库;
所述网络用户行为数据库中保存有所有时候用户访问交互行为所产生的事件数据流;
所述实时计算过程具体为:数据源端继续接收用户访问交互行为数据生成的事件数据流,并保存至网络用户行为数据库,将当前数据源端所有的事件数据流分发到分布式的多个节点,基于统计结果初始值进行增量计算并规约,最终结果保存至统计结果缓存区;
所述实时计算过程按设定间隔循环执行。
2.根据权利要求1所述的一种基于分布式计算的网络用户行为数据实时处理方法,其特征在于,所述启动指网络系统的启动或重新启动。
3.根据权利要求1所述的一种基于分布式计算的网络用户行为数据实时处理方法,其特征在于,所述事件数据流包括对应于不同用户访问交互行为的事件类型及相应状态数据。
4.根据权利要求3述的一种基于分布式计算的网络用户行为数据实时处理方法,其特征在于,所述实时计算过程中,事件数据流分发到分布式的多个节点的分发规则包括:按照事件类型分发给不同的节点,每个节点处理一种或几种事件类型的数据计算;或者将所有事件数据流按设定比例分配到各个节点上进行并行计算。
5.根据权利要求1所述的一种基于分布式计算的网络用户行为数据实时处理方法,其特征在于,还包括关闭维护准备过程,具体为:
在接收到维护指令时,进入关闭准备状态,将每次实时计算过程获得的最终结果同时保存至统计结果缓存区和结果数据库。
6.根据权利要求5所述的一种基于分布式计算的网络用户行为数据实时处理方法,其特征在于,所述关闭维护准备过程中,根据用户访问交互行为数据生成的事件数据流保存至网络用户行为数据库。
7.根据权利要求5所述的一种基于分布式计算的网络用户行为数据实时处理方法,其特征在于,还包括:
实时接收用户提交的统计查询请求,若当前处于未启动或启动过程中,则直接从结果数据库中查询数据并返回给用户,若当前处于实时计算过程和关闭维护准备过程中,则从统计结果缓存区中查询数据并返回给用户。
CN201410562441.0A 2014-10-21 2014-10-21 一种基于分布式计算的网络用户行为数据实时处理方法 Pending CN104317877A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410562441.0A CN104317877A (zh) 2014-10-21 2014-10-21 一种基于分布式计算的网络用户行为数据实时处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410562441.0A CN104317877A (zh) 2014-10-21 2014-10-21 一种基于分布式计算的网络用户行为数据实时处理方法

Publications (1)

Publication Number Publication Date
CN104317877A true CN104317877A (zh) 2015-01-28

Family

ID=52373109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410562441.0A Pending CN104317877A (zh) 2014-10-21 2014-10-21 一种基于分布式计算的网络用户行为数据实时处理方法

Country Status (1)

Country Link
CN (1) CN104317877A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680398A (zh) * 2015-03-12 2015-06-03 浪潮集团有限公司 一种针对电商用户海量行为数据的获取和存储方法
CN105677489A (zh) * 2016-03-04 2016-06-15 山东大学 离散流处理模型下批次间隔大小的动态设置系统及方法
CN105844107A (zh) * 2016-03-31 2016-08-10 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN105912582A (zh) * 2016-03-31 2016-08-31 畅捷通信息技术股份有限公司 用户行为分析的控制方法和用户行为分析的控制系统
CN106682206A (zh) * 2016-12-30 2017-05-17 郑州云海信息技术有限公司 一种大数据处理方法及系统
CN106844720A (zh) * 2017-02-09 2017-06-13 郑州云海信息技术有限公司 一种搜索数据处理的方法以及装置
CN108282447A (zh) * 2017-01-06 2018-07-13 深圳市农产品电子商务有限公司 一种市场价格行情分析方法及系统
CN115601195A (zh) * 2022-10-17 2023-01-13 桂林电子科技大学(Cn) 基于电力用户实时标签的交易双向推荐系统及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040060008A1 (en) * 2002-01-18 2004-03-25 John Marshall Displaying statistical data for a web page by dynamically modifying the document object model in the HTML rendering engine
CN101187949A (zh) * 2007-12-26 2008-05-28 腾讯科技(深圳)有限公司 一种大容量数据的统计方法及系统
CN103049556A (zh) * 2012-12-28 2013-04-17 中国科学院深圳先进技术研究院 一种海量医疗数据的快速统计查询方法
CN103761309A (zh) * 2014-01-23 2014-04-30 中国移动(深圳)有限公司 一种运营数据处理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040060008A1 (en) * 2002-01-18 2004-03-25 John Marshall Displaying statistical data for a web page by dynamically modifying the document object model in the HTML rendering engine
CN101187949A (zh) * 2007-12-26 2008-05-28 腾讯科技(深圳)有限公司 一种大容量数据的统计方法及系统
CN103049556A (zh) * 2012-12-28 2013-04-17 中国科学院深圳先进技术研究院 一种海量医疗数据的快速统计查询方法
CN103761309A (zh) * 2014-01-23 2014-04-30 中国移动(深圳)有限公司 一种运营数据处理方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680398A (zh) * 2015-03-12 2015-06-03 浪潮集团有限公司 一种针对电商用户海量行为数据的获取和存储方法
CN105677489A (zh) * 2016-03-04 2016-06-15 山东大学 离散流处理模型下批次间隔大小的动态设置系统及方法
CN105677489B (zh) * 2016-03-04 2017-06-20 山东大学 离散流处理模型下批次间隔大小的动态设置系统及方法
CN105844107A (zh) * 2016-03-31 2016-08-10 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN105912582A (zh) * 2016-03-31 2016-08-31 畅捷通信息技术股份有限公司 用户行为分析的控制方法和用户行为分析的控制系统
CN105844107B (zh) * 2016-03-31 2019-10-15 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106682206A (zh) * 2016-12-30 2017-05-17 郑州云海信息技术有限公司 一种大数据处理方法及系统
CN108282447A (zh) * 2017-01-06 2018-07-13 深圳市农产品电子商务有限公司 一种市场价格行情分析方法及系统
CN106844720A (zh) * 2017-02-09 2017-06-13 郑州云海信息技术有限公司 一种搜索数据处理的方法以及装置
CN115601195A (zh) * 2022-10-17 2023-01-13 桂林电子科技大学(Cn) 基于电力用户实时标签的交易双向推荐系统及其方法
CN115601195B (zh) * 2022-10-17 2023-09-08 桂林电子科技大学 基于电力用户实时标签的交易双向推荐系统及其方法

Similar Documents

Publication Publication Date Title
CN104317877A (zh) 一种基于分布式计算的网络用户行为数据实时处理方法
US11151203B2 (en) Interest embedding vectors
US11347752B2 (en) Personalized user feed based on monitored activities
US11294974B1 (en) Golden embeddings
US20200133967A1 (en) Query pattern matching
Yu et al. Ring: Real-time emerging anomaly monitoring system over text streams
US20190266288A1 (en) Query topic map
US20190266283A1 (en) Content channel curation
CN104978314B (zh) 媒体内容推荐方法及装置
US20170235726A1 (en) Information identification and extraction
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
US10929036B2 (en) Optimizing static object allocation in garbage collected programming languages
US20190258719A1 (en) Emoji classifier
CN103559258A (zh) 基于云计算的网页排序方法
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
CN112507230A (zh) 基于浏览器的网页推荐方法、装置、电子设备及存储介质
Ma et al. Stream-based live public opinion monitoring approach with adaptive probabilistic topic model
Xiao et al. A practice of tourism knowledge graph construction based on heterogeneous information
Wu et al. A semantic relation-aware deep neural network model for end-to-end conversational recommendation
Lomotey et al. RSenter: terms mining tool from unstructured data sources
CN106575418A (zh) 建议的关键词
Tsai et al. [Retracted] Analysis of Application Data Mining to Capture Consumer Review Data on Booking Websites
Zhou et al. A distributed text mining system for online web textual data analysis
US20110258187A1 (en) Relevance-Based Open Source Intelligence (OSINT) Collection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150128