CN102831124B - 基于跨网通信网络报文的用户行为关联分析方法 - Google Patents

基于跨网通信网络报文的用户行为关联分析方法 Download PDF

Info

Publication number
CN102831124B
CN102831124B CN201110162107.2A CN201110162107A CN102831124B CN 102831124 B CN102831124 B CN 102831124B CN 201110162107 A CN201110162107 A CN 201110162107A CN 102831124 B CN102831124 B CN 102831124B
Authority
CN
China
Prior art keywords
keyword
user
search
website
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110162107.2A
Other languages
English (en)
Other versions
CN102831124A (zh
Inventor
刘书良
罗峰
黄苏支
李娜
王琪
张玉波
阎飞飞
刘生
肖燕京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Izp (China) Network Technology Co. Ltd.
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN201110162107.2A priority Critical patent/CN102831124B/zh
Publication of CN102831124A publication Critical patent/CN102831124A/zh
Application granted granted Critical
Publication of CN102831124B publication Critical patent/CN102831124B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种基于跨网通信网络报文的用户行为关联分析方法,其特征在于:通过如下方法步骤来实现:(1)在现有网络上部署多个网关,从网络报文中提取用户行为信息;(2)通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些关键词;(3)通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些广告或者网站,该方法能使当用户访问一个网站的时候,推荐其感兴趣的其他同类网站;当用户搜索一个关键字时,给他推荐更为准确的相关网站;当用户访问某个网站时,推荐系统给他推荐可能感兴趣的广告,从而可以提高广告投放的精准性。

Description

基于跨网通信网络报文的用户行为关联分析方法
技术领域
本发明涉及网络用户特征分析领域,特别涉及一种基于跨网通信网络报文的用户行为关联分析方法。
背景技术
随着因特网的日益壮大,网络用户也越来越多。通常情况下用户在点击网页或在搜索引擎下搜索某个关键字的时候,会产生相关的网络报文。用户行为关联分析发现关联规则,在用户行为分析中,可以把用户的一种使用习惯和另外的使用习惯进行关联分析,也可以把用户的消费习惯和使用网络习惯进行关联分析。
一般而言,一些大型网站会根据访问自己网站的用户行为进行关联分析。比如说新浪、腾讯等大型门户网站,用户访问了这些网站之后可能会看到网页上某个比较感兴趣的话题然后打开此链接,这样的用户访问行为都会被该网站的服务器捕捉到,从而可以对用户的上网行为进行关联分析。但是现实情况下,上网用户不会只访问一个门户网站,他还可能会访问很多非门户网站或者在搜索引擎下搜索某些关键字,这些信息是无法只通过一两个网站得到的信息。
当网络用户访问某个大型门户网站时,该网站的服务器会记录该用户的信息,用户点击某个感兴趣的网页链接后,这些访问的信息同样被该服务器获得。通过对该网站的访问信息的关联分析可以获得用户在这个网站上的上网习惯,知道不同用户的上网习惯后可以针对不同的用户投放其感兴趣的广告或网页信息。
同样当用户访问某个大型搜索引擎比如百度、谷歌时,此网站的服务器会记录用户的搜索信息和点击信息,通过对这些信息的关联分析也可以获得用户在该网站上的上网习惯。
现有技术存在的缺点:由于网络用户访问网站信息只能通过单个或某几个网站获得,所得的用户上网习惯只局限于几个点的网站,不能得到该用户全方位的上网用户习惯,从而对用户的上网习惯的认知会存在偏差。
在对用户行为的分析过程中,发明人发现以下问题:
1)传统的用户行为关联分析主要基于单个网站服务器的网络报文信息,而不同用户会访问不同的网站,传统的用户行为关联分析法不能对全部的用户进行分析,是造成用户行为关联分析不准的原因之一。
2)其次因为单个用户的很多行为是通过访问多个不同网站的服务器实现的,传统的用户行为关联分析法不能对单个用户访问多个服务器的信息进行分析,这是造成分析不准的原因之二。
发明内容
为克服现有技术不足,本发明的目的是提供一种基于跨网通信网络报文的用户行为关联分析方法,该方法能使当用户访问一个网站的时候,推荐其感兴趣的其他同类网站;当用户搜索一个关键字时,给他推荐更为准确的相关网站;当用户访问某个网站时,推荐系统给他推荐可能感兴趣的广告,从而可以提高广告投放的精准性。
本发明技术方案:
一种基于跨网通信网络报文的用户行为关联分析方法,通过如下方法步骤来实现:
(1)在现有网络上部署多个网关,从网络报文中提取用户行为信息;
(2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键;
(3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广告或者网站。
所述用户行为信息可分为如下三种:访问网站、搜索引擎查询关键字和点击广告行为,所述访问网站信息为用户在某个时刻访问某个网站所产生的信息,对应产生一条日志信息:用户、访问的网站、访问时间,所述搜索引擎查询关键字信息为用户在某个时刻搜索某个关键字所产生的信息,对应产生一条日志信息:用户、搜索的关键词、搜索时间;所述点击广告行为信息为:用户在某个时刻点击某个广告所产生的信息,对应产生一条日志信息:用户、点击的广告、点击时间。
所述通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些关键词中所述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。
所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词通过五个MapReduce程序实现:
(1)Job1:从访问网站的日志信息(用户、访问的网站、访问时间)得到这个用户访问了哪些网站、何时访问网站的列表信息:用户、访问的网站列表、访问时间列表;从搜索关键词信息:用户、搜索的关键词、搜索时间;得到这个用户搜索了哪些关键词以及何时搜索该关键词的列表信息:用户、搜索的关键词列表、搜索时间列表;
(2)Job2:由于从Job1得到每个用户的一系列上网行为信息,这些信息包括用户访问的所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用户号进行关联得到网站和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应关系加上了时间窗口(如1Hour)的限制,因为一个用户在浏览网页时有时会刷新网页,在这里我们只计算一次,即一个时间段内用户访问了多次某个网站和搜索了某个关键词时只算一次。
(3)Job3:统计访问网站和关键词的频次,得到的数据如下:访问的网站,搜索的关键词,两者出现的频次;
(4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了,Job4可以得到如下的数据信息:访问的网站,搜索的关键词,关键词出现的频次n,网站和关键词都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程度上与目标网站的相关联,即访问某个网站的人更倾向搜索某些关键词的程度;
(5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结果更于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站,该网站出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次m1,两者的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的频次m2,两者的比例r2(m2/n2)以此类推。
本发明显著优点在于:
传统方法从单个网站出发,只能获取本网站的用户访问网站、搜索关键字和点击广告的信息。本方案与装置引入网关设备,可以获取跨网所有用户的通信网络报文,从而可以得到用户在全网的的上网行为,进而可以对用户的上网行为进行准确关联,提高了关联分析方法的准确性。
附图说明
图1为本发明所述基于跨网通信网络报文的用户行为关联分析方法中关键字分析方法示意图。
具体实施方式
现结合说明书附图1介绍本发明所述的基于跨网通信网络报文的用户行为关联分析方法具体实施方式:一种基于跨网通信网络报文的用户行为关联分析方法,通过如下方法步骤来实现:
(1)在现有网络上部署多个网关,从网络报文中提取用户行为信息;
(2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键;
(3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广告或者网站。
所述用户行为信息可分为如下三种:访问网站、搜索引擎查询关键字和点击广告行为,所述访问网站信息为用户在某个时刻访问某个网站所产生的信息,对应产生一条日志信息:用户、访问的网站、访问时间,所述搜索引擎查询关键字信息为用户在某个时刻搜索某个关键字所产生的信息,对应产生一条日志信息:用户、搜索的关键词、搜索时间;所述点击广告行为信息为:用户在某个时刻点击某个广告所产生的信息,对应产生一条日志信息:用户、点击的广告、点击时间。
所述通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些关键词中所述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。
所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词通过五个MapReduce程序实现:
(1)Job1:从访问网站的日志信息(用户、访问的网站、访问时间)得到这个用户访问了哪些网站、何时访问网站的列表信息:用户、访问的网站列表、访问时间列表;从搜索关键词信息:用户、搜索的关键词、搜索时间;得到这个用户搜索了哪些关键词以及何时搜索该关键词的列表信息:用户、搜索的关键词列表、搜索时间列表;
(2)Job2:由于从Job1得到每个用户的一系列上网行为信息,这些信息包括用户访问的所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用户号进行关联得到网站和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应关系加上了时间窗口(如1Hour)的限制,因为一个用户在浏览网页时有时会刷新网页,在这里我们只计算一次,即一个时间段内用户访问了多次某个网站和搜索了某个关键词时只算一次。
(3)Job3:统计访问网站和关键词的频次,得到的数据如下:访问的网站,搜索的关键词,两者出现的频次;
(4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了,Job4可以得到如下的数据信息:访问的网站,搜索的关键词,关键词出现的频次n,网站和关键词都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程度上与目标网站的相关联,即访问某个网站的人更倾向搜索某些关键词的程度;
(5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结果更于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站,该网站出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次m1,两者的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的频次m2,两者的比例r2(m2/n2)以此类推。
本发明不限于上述实施方式,对于本领域普通技术人员而言,对上述实施方式所做出的任何显而易见的改进或变更,都不会超出本发明的构思和所附权利要求的保护范围。

Claims (3)

1.一种基于跨网通信网络报文的用户行为关联分析方法,其特征在于:通过如下方法步骤来实现:
(1)在现有网络上部署多个网关,从网络报文中提取用户行为信息;
(2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词;
(3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广告或者网站;
所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词通过如下步骤实现:
(1)Job1:从访问网站的日志信息得到这个用户访问了哪些网站、何时访问网站的列表信息;从搜索关键词信息得到这个用户搜索了哪些关键词以及何时搜索该关键词的列表信息;
(2)Job2:由于从Job1我们得到每个用户的一系列上网行为信息,这些信息包括用户访问的所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用户号进行关联得到网站和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应关系加上了时间窗口的限制;
(3)Job3:统计访问网站和关键词的频次,得到的数据如下:访问的网站、搜索的关键词,两者出现的频次;
(4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了,Job4可以得到如下的数据信息:访问的网站、搜索的关键词,关键词出现的频次n,网站和关键词都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程度上与目标网站的相关联,即访问某个网站的人更倾向搜索某些关键词的程度;
(5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结果更于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站,该网站出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次m1,两者的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的频次m2,两者的比例r2(m2/n2)以此类推。
2.根据权利要求1所述的一种基于跨网通信网络报文的用户行为关联分析方法,其特征在于:所述用户行为信息可分为如下三种:访问网站、搜索引擎查询关键字和点击广告行为,所述访问网站信息为用户在某个时刻访问某个网站所产生的信息;所述搜索引擎查询关键字信息为用户在某个时刻搜索某个关键字所产生的信息;所述点击广告行为信息为用户在某个时刻点击某个广告所产生的信息。
3.根据权利要求1所述的一种基于跨网通信网络报文的用户行为关联分析方法,其特征在于:所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词中,所述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。
CN201110162107.2A 2011-06-16 2011-06-16 基于跨网通信网络报文的用户行为关联分析方法 Expired - Fee Related CN102831124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110162107.2A CN102831124B (zh) 2011-06-16 2011-06-16 基于跨网通信网络报文的用户行为关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110162107.2A CN102831124B (zh) 2011-06-16 2011-06-16 基于跨网通信网络报文的用户行为关联分析方法

Publications (2)

Publication Number Publication Date
CN102831124A CN102831124A (zh) 2012-12-19
CN102831124B true CN102831124B (zh) 2015-08-05

Family

ID=47334267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110162107.2A Expired - Fee Related CN102831124B (zh) 2011-06-16 2011-06-16 基于跨网通信网络报文的用户行为关联分析方法

Country Status (1)

Country Link
CN (1) CN102831124B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164521B (zh) * 2013-03-11 2016-03-23 亿赞普(北京)科技有限公司 一种基于用户浏览和搜索行为的关键词计算方法及装置
CN103354518A (zh) * 2013-07-24 2013-10-16 江苏晓山信息产业股份有限公司 基于Web日志挖掘的智能家居网关及系统
CN104834698A (zh) * 2015-04-27 2015-08-12 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN107767164B (zh) * 2016-08-23 2020-09-11 腾讯科技(北京)有限公司 推送信息订单的信息处理方法、分配方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101779180A (zh) * 2007-08-08 2010-07-14 贝诺特公司 基于背景的内容推荐的方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2458072A (en) * 2007-02-01 2009-09-09 Billion People 7 Dynamic reconfiguration of web pages based on user behavioral portrait
US20110029382A1 (en) * 2009-07-30 2011-02-03 Runu, Inc. Automated Targeting of Information to a Website Visitor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101779180A (zh) * 2007-08-08 2010-07-14 贝诺特公司 基于背景的内容推荐的方法和设备

Also Published As

Publication number Publication date
CN102831124A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
Thelwall A history of webometrics
CA2824627C (en) System and method for analyzing messages in a network or across networks
KR102263637B1 (ko) 검색 시스템을 위한 써드 파티 검색 애플리케이션들
US10482073B2 (en) Updating a search index using reported browser history data
US20080086496A1 (en) Communal Tagging
US20090327913A1 (en) Using web revisitation patterns to support web interaction
US9020922B2 (en) Search engine optimization at scale
US20120066359A1 (en) Method and system for evaluating link-hosting webpages
US9367638B2 (en) Surfacing actions from social data
WO2015027223A1 (en) Page reporting and content performance analytics
CN102831124B (zh) 基于跨网通信网络报文的用户行为关联分析方法
Kleppe et al. Analysing and understanding news consumption patterns by tracking online user behaviour with a multimodal research design
Piccardi et al. On the Value of Wikipedia as a Gateway to the Web
Sams et al. E-research applications for tracking online socio-political capital in the Asia-Pacific region
US20120246134A1 (en) Detection and analysis of backlink activity
Sohail Search Engine Optimization Methods & Search Engine Indexing for CMS Applications
Li et al. Network analysis of navigation paths of tourists’ trip planning and power structure of the online tourism in China
Robertson et al. Engagement outweighs exposure to partisan and unreliable news within Google Search
Vaughan et al. A new approach to web co‐link analysis
Stephen Using Website Analytics in Search Engine Optimization for the Domain of LIS links, in India
Belli et al. Science, research, and innovation infospheres in Google results of the Ibero-American countries
Ding et al. Beyond the click: A first look at the role of a microblogging platform in the Web ecosystem
Meiss et al. Modeling traffic on the web graph
Mahanti et al. Workload characterization of a large systems conference web server
Ismail et al. Survey on search engine optimization (SEO)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100081, Beijing, Zhongguancun, Haidian District South Avenue, No. 18, International Building, Beijing, block 18, B

Patentee after: Izp (China) Network Technology Co. Ltd.

Address before: 100081, Beijing, Zhongguancun, Haidian District South Avenue, No. 18, International Building, Beijing, block 18, B

Patentee before: Beijing IZP Technologies Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150805

Termination date: 20160616