CN102289447A - 一种基于通讯网络报文的网站网页评价系统 - Google Patents

一种基于通讯网络报文的网站网页评价系统 Download PDF

Info

Publication number
CN102289447A
CN102289447A CN2011101621000A CN201110162100A CN102289447A CN 102289447 A CN102289447 A CN 102289447A CN 2011101621000 A CN2011101621000 A CN 2011101621000A CN 201110162100 A CN201110162100 A CN 201110162100A CN 102289447 A CN102289447 A CN 102289447A
Authority
CN
China
Prior art keywords
website
webpage
module
user
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101621000A
Other languages
English (en)
Other versions
CN102289447B (zh
Inventor
刘书良
罗峰
黄苏支
李娜
王琪
张玉波
阎飞飞
刘生
姚震环
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Izp (China) Network Technology Co. Ltd.
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN 201110162100 priority Critical patent/CN102289447B/zh
Publication of CN102289447A publication Critical patent/CN102289447A/zh
Application granted granted Critical
Publication of CN102289447B publication Critical patent/CN102289447B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于通讯网络报文的网站网页评价系统,包括:报文分类模块、用户身份识别模块,用于根据分类后的报文及用户身份信息对用户在互联网上的行为进行还原的用户行为还原模块;用于存储行为还原模块还原的用户行为的用户行为库;提取用户行为库中的用户行为根据相关网站、网页进行统计整合的网站网页信息统计整合模块;用于根根网站网页信息统计整合模块处理过的信息从多个维度统计网站网页上各个用户行为的执行次数,从而实现对网站网页的评价的网站网页评价模块。本发明的基于通讯网络报文的网站网页评价系统的基于报文的分析方式,可以还原出用户对网站网页的各种访问行为,进行统计分析,对网站网页进行评价。

Description

一种基于通讯网络报文的网站网页评价系统
技术领域
本发明涉及网络用户特征分析领域,尤其涉及一种通过跨网网络报文对用户上网的各种行为进行关联分析、从而得到一个特定人群在特定时间内的上网特征的基于通讯网络报文的网站网页评价系统。
背景技术
随着互联网技术的发展,用户对互联网内容和应用服务的要求已经从海量演进为个性,如何精准的定位用户的行为特性和网站本身的内容特性和提供服务的级别,并将两者有机的结合起来是急需解决的问题和技术难点。目前用来分析用户上网特征的方法主要有以下几种:
第一,通过在少量用户电脑上装插件、客户端或者cookie,来收集各个网页的访问数据,从而对网站网页的流量、访问用户进行统计分析。这种方法技术门槛低,使用简便,是目前业内较通用的分析方法,该方案的一个最大缺陷是由于收集的用户数据较少,只能做抽样统计分析工作,无法完成深度数据分析。与此同时,由于客户端和cookie两种形式都存安装困难,有效期短的问题,在分析的准确度上存在问题。客户端的安装需要用户的支持和操作,一方面样本库完整性的建立是存在偏差的,同时在样本的数量上也会存在困难。如果强行给用户安装客户端,势必会给用户带来烦恼同时也会引起投诉。Cookie的植入也会因为有效期的问题而产生统计上的缺失。
第二,利用网络爬虫技术,抓取网页,分析网页内容和网页之间的链接关系。通过分析网页内容,对网页进行分类、聚类或者关键词抽取。通过分析网页之间的链接关系,来衡量一个网页的重要程度。这种方法存在如下缺陷,首先,无法从用户维度出发,对网页进行分析,也无法对网页的流量特性和网页的目标受众进行评价。其次,需要网络爬虫、网页抽取、中心词抽取及链接分析等技术,需要消耗大量的运算存储资源。
发明内容
本发明的目的在于提供采用通讯报文分析方法来评价网站的基于通讯网络报文的网站网页评价系统。
为了实现上述目的,本发明采用的技术方案如下:
本发明的基于通讯网络报文的网站网页评价系统,包括:
用于将原始报文数据进行归类的报文分类模块;
用于通过对原始报文数据进行挖掘、识别用户身份的用户身份识别模块;
用于根据报文分类模块分类后的报文及用户身份识别模块识别出的用户身份信息,对用户在互联网上的行为进行还原的用户行为还原模块;
用于存储所述行为还原模块还原的用户行为的用户行为库;
提取用户行为库中的用户行为根据相关网站、网页进行统计整合的网站网页信息统计整合模块;
用于根根网站网页信息统计整合模块处理过的信息从多个维度统计网站网页上各个用户行为的执行次数,从而实现对网站网页的评价的网站网页评价模块。
优选的,所述基于通讯网络报文的网站网页评价系统还包括:
关联分析模块:用于提取用户行为库中的用户行为,采用关联分析的方法进行对分析,得出与网站或网页相关联的用户行为;
分类模块:用于提取关联分析模块提供网站网页关联的用户行为,作为网站网页特征向量的一部分,然后用数学模型对网站进行分类,得出网站网页所属的类别;
所述的分类模块将分析得到的网站网页所属类别传递给网站网页信息统计整合模块进行整合,并由网站网页信息统计整合模块将整合后的数据传递给网站网页评价模块,用于其对网站网页进行评价。
更优选的,所述基于通讯网络报文的网站网页评价系统还包括:聚类模块:通过关联分析模块提供的与网站网页关联的用户行为,作为网站网页特征向量的一部分,然后用数学模型对网站进行聚类,找出与目标网站网页相似的网站网页;
所述的聚类模块将分析得到的与目标网站网页相似的网站网页传递给网站网页信息统计整合模块进行整合,并由网站网页信息统计整合模块将整合后的数据传递给网站网页评价模块,用于其对网站网页进行评价。
优选的,所述基于通讯网络报文的网站网页评价系统还包括:
搜索关键词提取模块:通过提取用户行为库中的搜索点击行为,分析搜索引擎带到某个具体网站的点击行为;
分类模块:用于将通过搜索关键词提取模块提取的搜索关键词,作为网站网页特征向量的一部分,然后用数学模型对网站进行分类,得出网站网页所属的类别;
所述的分类模块将分析得到的网站网页所属类别传递给网站网页信息统计整合模块进行整合,并由网站网页信息统计整合模块将整合后的数据传递给网站网页评价模块,用于其对网站网页进行评价。
更优选的,所述基于通讯网络报文的网站网页评价系统还包括:聚类模块:用于将通过搜索关键词提取模块提取的搜索关键词,作为网站网页特征向量的一部分,然后用数学模型对网站进行聚类,找出与目标网站网页相似的网站网页;
所述的聚类模块将分析得到的与目标网站网页相似的网站网页传递给网站网页信息统计整合模块进行整合,并由网站网页信息统计整合模块将整合后的数据传递给网站网页评价模块,用于其对网站网页进行评价。
优选的,所述基于通讯网络报文的网站网页评价系统还包括:
关联分析模块:用于提取用户行为库中的用户行为,采用关联分析的方法进行对分析,得出与网站或网页相关联的用户行为,具体包括用户与网站关系信息;
搜索关键词提取模块:通过提取用户行为库中的搜索点击行为,分析搜索引擎带到某个具体网站的点击行为,得到查询词网站关系信息;
分类模块:基于所述的查询词网站关系,利用网站分类器对网站进行分类;
用户兴趣挖掘模块:通过用户与网站关系信息及网站分类信息,对用户进行兴趣分析,得到用户在每个类别上的频次信息,作为用户兴趣的特征数据;
所述的用户兴趣挖掘模块,将得到的用户兴趣的特征数据发送给网站网页信息统计这个整合模块进行整合处理,所述的网站网页评价模块调用经整合处理的数据进行网站网页评价。
优选的,所述的身份识别模块通过识别报文数据中是否携带的在用户客户端多个网站域下植入的统一的cookie来识别用户身份。
优选的,所述的报文分类模块通过将报文数据输入报文分类器,有报文分类器计算得到将报文进行分类,所述的报文分类器中对应设置有报文类型及其对应的报文特征。
优选的,所述的关联分析模块根据用户访问网站的日志信息,得到网站-关键词维度、网站-广告维度、网站-网站维度的关联关系。
本发明的有益效果如下:
本发明的基于通讯网络报文的网站网页评价系统的基于报文的分析方式,可以还原出用户对网站网页的各种访问行为,进行统计分析,对网站网页进行评价。该评价系统有利于站长了解网站用户的群体特征,优化自己的网站。这种分析方式,还可以分析用户访问网站网页以外的行为,有利于站长了解与自己网站网页关系比较密切的其他信息,方便用户来优化自己的网站。
附图说明
图1为本发明的基于通讯网络报文的网站网页评价系统结构框图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案和有益效果进一步进行阐述。
本发明的系统实施时需要在多个地理位置部署网关,获取通过网关的所有用户的通信网络报文,基于这些报文,进行处理,实现对网站网页的评价,具体的,参见附图1,网关采集到的原始报文被发送到报文分类模块进行分类,一个正常的页面访问通常包含了大量的请求报文,其中包括正常页面报文、广告报文、搜索报文等一系列报,报文分类模块的作用就是将接收的原始报文进行归类,同时,为了更好的了解用户的行为,需要通过用户身份识别模块来对报文数据进行挖掘,识别每份报文发送者的身份,用户行为还原模块根据分类后的报文及识别的用户身份对用户行为进行还原,还原出用户在互连网上的浏览行为、搜索行为、点击行为、注册行为等等,还原出的行为被存储到用户行为库,供其他的分析模块使用。
在本发明的一些实施例中,分析模块包括关联分析模块、分类模块,还可以包含聚类模块,分类模块根据关联分析模块提供的与网站网页相关联的用户行为进行分类,分析出网站网页所属的类别,同样的聚类模块也根据关联分析模块提供的与网站网页相关联的用户行为进行聚类,找出与目标网站网页相似的网站网页,并把分类、聚类的结果发送给作为网站网页的一个评价参数。
在本发明的另一些实施例中,分析模块包括搜索关键词提取模块、分类模块,还可以包含聚类模块,分类模块根据搜索关键词提取模块提供的查询词网站关系,分析出网站网页所属的类别,同样的聚类模块也根据搜索关键词提取模块提供的查询词网站关系进行聚类,找出与目标网站网页相似的网站网页,并把分类、聚类的结果发送给作为网站网页的一个评价参数。
不管是根据网站网页相关联的行为进行分类,还是根据查询词网站关系进行分类,分类模块都采用网站分类器实现,网站分类器构建方法如下:随机抽取部分网站进行人工标注分类,并利用机器学习的分类模型进行特征提取,从而形成网站分类器。
还有一些实施例中,包含关联分析模块、搜索关键词提取模块、分类模块、用户兴趣挖掘模块,关联分析模块分析出用户与网站的关系信息,搜索关键词提取模块分析出查询词网站关系信息,网站分类模块根据查询词网站关系信息将网站进行分类,得到网站类别关系信息,用户兴趣挖掘模块根据用户与网站的关系信息及网站类别关系信息,对用户进行兴趣分析,形成统一的用户轮廓,具体的,由用户与网站关系信息可提取出{用户,网站}关系;由网站分类结果可提取出{网站,类别}关系,基于这两种关系,可得用户兴趣的特征数据,即用户在每个类别上的频次信息:{用户,类别1,频次,类别2,频次,…}。由于用户对网站的访问是一个长期的用户行为,可基于用户兴趣特征数据引入时间维度,形成时间序列(time series)。进一步利用经典的时间序列分析方法,对用户未来的兴趣进行预测。
各分析模块得到网站网页相关信息被发送到网站网页信息统计整合模块进行整合,将不同用户、不同网站网页相关的数据分门别类,最终,这些数据被网站网页评价模块进行应用,从多个维度统计网站网页上各个用户行为的执行次数。具体包括:pv、独立IP、独立用户、各种广告点击情况分析、用户类别分布、类别、用户访问时间分布、用户地域分布、网站相似网站、与网页相似网页、访问网站网页的用户在互联网上的其它行为特征。从而实现对网站网页的评价。
本发明的网站网页评价系统的实现,需要识别哪些报文是由同一个用户发送的,这在用户访问同一网站时并不难实现,但是当用户访问不同网站时,就难以识别,目前的一般做法是采用一个统一的标识来对用户进行识别,这个标识可以是IP,还可以是上网帐号,本发明的身份识别模块利用用户访问不同网站时携带的统一的cookie来跟踪用户,该统一的cookie通过如下方法种植:
S11:捕捉用户访问网站A的GET报文,判断该报文是否携带植入的统一cookieID,如果没有,则生成对该用户唯一的cookie,并模拟网站A的服务器响应,回复200OK报文给用户客户端,并将该cookie植入用户客户端“A.com”域下,同时在用户客户端浏览器创建两层iframe,其中,第一层iframe内嵌入网站A的链接,以引导用户再次访问A网站;同时,在第二层iframe内嵌入至少一个其它网站B的链接,当嵌入网站链接为多个时,并发执行访问嵌入的网站,将第一层iframe设置为用户可见,将第二层iframe设置为用户不可见;
如果携带有,则获取该统一cookie ID标识,从而识别出该独立用户,则获取该cookieID,从而识别出该独立用户,同时,判断此次访问是初次访问还是重定向后的二次访问,如果是重定向后的二次访问则不做处理,使用户直接访问网站A,如果是初次访问,则进行重定向操作,即模拟网站A的服务器响应,回复200 OK报文给用户客户端,并在用户客户端浏览器创建两层iframe,其中,第一层iframe内嵌入网站A的链接,以引导用户再次访问网站A;同时,在第二层iframe内嵌入至少一个其它网站B的链接,当嵌入网站链接为多个时,并发执行访问嵌入的网站,将第一层iframe设置为可见,将第二层iframe设置为不可见;
S12:捕捉到访问其它网站B的报文后,解析该报文,判断其是否携带植入的统一cookieID,如果没有,在网站B回复之前,模拟网站B回复200 OK空函数,即不执行任何页面操作,同时,在B.com域下植入所述的针对该用户唯一的cookie或包含获取的所述cookie ID的cookie,如果携带,则模拟网站B回复200 OK空函数,即不执行任何页面操作。
解决了用户身份识别问题,要实现用户行为还原,如何对大量的各式各样的报文进行分类是本发明实施的也一个关键问题,本发明的报文分类模块利用报文分类器来对报文进行分类,该报文分类器通过如下方法构建:
1.对用户行为数据进行收集和有效的存储;
2.对用户数据进行清洗,抽取用户通讯网络报文的特征,生成特征矩阵;
3.使用人工方式对每个通讯网络报文的类别进行标注,建立训练和评估模型性能使用的样本;
4.使用分类算法对训练集进行学习,在评估集上保证目标准确率和召回率,得出基本分类模型;
5.进行开放测试,通过不断调整使模型满足目标准确率和召回率,得出最后的模型;
6.将模型用于预测通讯网络报文的类别;
7.在真实在线平台上部署该系统,通过使用,不断的对模型进行优化,以提高系统在现实复杂情况下的鲁棒性和模型精度。
用户还原模块根据报文中携带的用户信息来还原用户行为,用户信息分为两种:用户信息可分为如下两种:单点信息与多点信息:
单点信息:用户在某个时刻产生的信息,与一个元组:{(用户,时间点,网站,网络报文)}相对应。
多点信息:用户在多个时间点产生的信息,与多个元组:{(用户,时间点1,网站1,网络报文1),(用户,时间点2,网站2,网络报文2),…}相对应。
其中多点信息可能是跨网信息,即可能是用户访问多个网站服务器产生的通信网络报文信息。
本发明除了可以基于单点信息的还原用户行为外,还能基于多点信息的还原用户行为,通常而言,单个用户的上网行为是在一个时间段内产生的,其所产生的通信网络报文通常对应于多点信息。同时,多点信息通常会对应用户的一个事件流。例如,用户进行网上购物时,首先会在网上调研欲购买物品的价格、性能等,然后选择某购物平台(比如:淘宝网或京东商城)进行相应的物品浏览与购买。本发明利用用户的事件流特征,基于多点信息还原用户行为。
用户行为与很多因素相关联,比如用户需求、网站服务器提供的服务、网站服务器之间的关联度等等,这导致了用户行为的多样性与复杂性。在此,以搜索引擎查询行为、广告点击行为、购物行为为例,进行用户行为还原分析。
1)搜索引擎查询行为
部署的网关可获取用户在搜索引擎的查询记录示例如下:
(用户A,时间点1,搜索引擎网址B,查询的关键词C)
(用户A,时间点2,点到的网址D)
基于如上信息,可以还原用户A的搜索引擎查询行为,即可以知晓用户A在时间点1到时间点2之间使用搜索引擎B,进行了关键词C的查询,并基于查询结果,点到相应的网址D。
2)广告点击行为
与上例相似,部署的网关可获取用户的广告点击记录示例如下:
(用户A,时间点1,广告所在的网址B,广告C的网址)
(用户A,时间点2,点到的广告C网址)
基于如上信息,可以还原用户A的广告点击行为,即可以知晓用户A在时间点1到时间点2之间在广告所在的网址B,进行了广告C的点击。
3)购物行为
与上例相似,部署的网关可获取用户的购物记录示例如下:
(用户A,时间点1,购物网址B)
(用户A,时间点2,商品名C,购物车网址)
(用户A,时间点3,支付页面网址)
基于如上信息,可以还原用户A的购物行为,即可以知晓用户A在时间点1到时间点3之间在购物网址B购买了商品C。
为了更好的对网站网页进行评价,需要知道一些关联关系,比如当用户访问一个网站,为推荐其感兴趣的其他同类网站时,需要知道网站-网站关联关系;当用户搜索一个关键字,给他推荐更为准确的相关网站时,需要知道网站-关键字关联关系;当用户访问某个网站,推荐系统给他推荐可能感兴趣的广告时,需要知道网站-广告关联关系,下面以分析网站-关键字维度的关联关系为例来说明本发明的关联分析模块的分析方法:
用户行为可分为如下三种:访问网站、通过搜索引擎查询关键字和点击广告行为。
访问网站信息:用户在某个时刻访问某个网站所产生的信息,对应产生一条日志信息:{(用户,访问的网站,访问时间)}。
搜索关键词信息:用户在某个时刻搜索某个关键字所产生的信息,对应产生一条日志信息:{(用户,搜索的关键词,搜索时间)}。
点击广告信息:用户在某个时刻点击某个广告所产生的信息,对应产生一条日志信息:{(用户,点击的广告,点击时间)}。
此方法的数据来源是用户访问网站信息和搜索关键词信息,通过对这两个信息的综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词。下面通过五个MapReduce程序的说明来阐述此维度的关联分析方法。
Job1
从访问网站的日志信息{(用户,访问的网站,访问时间)}得到这个用户访问了哪些网站、何时访问网站的列表信息{(用户,访问的网站列表,访问时间列表)};从搜索关键词信息{(用户,搜索的关键词,搜索时间)}得到这个用户搜索了哪些关键词以及何时搜索该关键词的列表信息{(用户,搜索的关键词列表,搜索时间列表)}
Job2
从Job1我们得到每个用户的一系列上网行为信息,这些信息包括用户访问的所有网站和搜索的所有关键词以及这些行为发生的时间。在第二个Job里面,我们根据每一个用户的用户号进行关联得到网站和关键词的对应信息{(访问的网站,搜索的关键词)}。其中这些对应关系加上了时间窗口(如1Hour)的限制,因为一个用户在浏览网页时有时会刷新网页,在这里我们只计算一次,即一个时间段内用户访问了多次某个网站和搜索了某个关键词时只算一次。
Job3
第三个Job比较简单,主要是统计访问网站和关键词的频次,得到的数据如下{(访问的网站,搜索的关键词,两者出现的频次)}
Job4
得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了。这个Job可以得到如下的数据信息{(访问的网站,搜索的关键词,关键词出现的频次n,网站和关键词都出现的频次m,两者的比例r(m/n))}。r反映了这个关键词在多大程度上与目标网站的相关联,即访问某个网站的人更倾向搜索某些关键词的程度。
Job5
上面得到的信息中一个网站可能会在多行出现,为了得出的结果更于方便查看,我们在最后的job里面合并这些网站,并且统计出该网站出现的频次{(访问的网站,该网站出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次m1,两者的比例r1(m1/n1)|搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的频次m2,两者的比例r2(m2/n2)…)}
网站-广告和网站-网站维度的关联分析方法跟网站-关键词的分析方法是一样的,只不过是把关键词换成广告或者网站就可以得出相应维度的关联数据了,在此不再赘述。

Claims (9)

1.基于通讯网络报文的网站网页评价系统,其特征在于,包括:
用于将原始报文数据进行归类的报文分类模块;
用于通过对原始报文数据进行挖掘、识别用户身份的用户身份识别模块;
用于根据报文分类模块分类后的报文及用户身份识别模块识别出的用户身份信息,对用户在互联网上的行为进行还原的用户行为还原模块;
用于存储所述行为还原模块还原的用户行为的用户行为库;
提取用户行为库中的用户行为根据相关网站、网页进行统计整合的网站网页信息统计整合模块;
用于根根网站网页信息统计整合模块处理过的信息从多个维度统计网站网页上各个用户行为的执行次数,从而实现对网站网页的评价的网站网页评价模块。
2.根据权利要求1所述的基于通讯网络报文的网站网页评价系统,其特征在于,还包括:
关联分析模块:用于提取用户行为库中的用户行为,采用关联分析的方法进行对分析,得出与网站或网页相关联的用户行为;
分类模块:用于提取关联分析模块提供网站网页关联的用户行为,作为网站网页特征向量的一部分,然后用数学模型对网站进行分类,得出网站网页所属的类别;
所述的分类模块将分析得到的网站网页所属类别传递给网站网页信息统计整合模块进行整合,并由网站网页信息统计整合模块将整合后的数据传递给网站网页评价模块,用于其对网站网页进行评价。
3.根据权利要求2所述的基于通讯网络报文的网站网页评价系统,其特征在于,还包括:聚类模块:通过关联分析模块提供的与网站网页关联的用户行为,作为网站网页特征向量的一部分,然后用数学模型对网站进行聚类,找出与目标网站网页相似的网站网页;
所述的聚类模块将分析得到的与目标网站网页相似的网站网页传递给网站网页信息统计整合模块进行整合,并由网站网页信息统计整合模块将整合后的数据传递给网站网页评价模块,用于其对网站网页进行评价。
4.根据权利要求1所述的基于通讯网络报文的网站网页评价系统,其特征在于,还包括:
搜索关键词提取模块:通过提取用户行为库中的搜索点击行为,分析搜索引擎带到某个具体网站的点击行为;
分类模块:用于将通过搜索关键词提取模块提取的搜索关键词,作为网站网页特征向量的一部分,然后用数学模型对网站进行分类,得出网站网页所属的类别;
所述的分类模块将分析得到的网站网页所属类别传递给网站网页信息统计整合模块进行整合,并由网站网页信息统计整合模块将整合后的数据传递给网站网页评价模块,用于其对网站网页进行评价。
5.根据权利要求4所述的基于通讯网络报文的网站网页评价系统,其特征在于,还包括:聚类模块:用于将通过搜索关键词提取模块提取的搜索关键词,作为网站网页特征向量的一部分,然后用数学模型对网站进行聚类,找出与目标网站网页相似的网站网页;
所述的聚类模块将分析得到的与目标网站网页相似的网站网页传递给网站网页信息统计整合模块进行整合,并由网站网页信息统计整合模块将整合后的数据传递给网站网页评价模块,用于其对网站网页进行评价。
6.根据权利要求1所述的基于通讯网络报文的网站网页评价系统,其特征在于,还包括:
关联分析模块:用于提取用户行为库中的用户行为,采用关联分析的方法进行对分析,得出与网站或网页相关联的用户行为,具体包括用户与网站关系信息;
搜索关键词提取模块:通过提取用户行为库中的搜索点击行为,分析搜索引擎带到某个具体网站的点击行为,得到查询词网站关系信息;
分类模块:基于所述的查询词网站关系,利用网站分类器对网站进行分类;
用户兴趣挖掘模块:通过用户与网站关系信息及网站分类信息,对用户进行兴趣分析,得到用户在每个类别上的频次信息,作为用户兴趣的特征数据;
所述的用户兴趣挖掘模块,将得到的用户兴趣的特征数据发送给网站网页信息统计这个整合模块进行整合处理,所述的网站网页评价模块调用经整合处理的数据进行网站网页评价。
7.根据权利要求1至6任一所述的基于通讯网络报文的网站网页评价系统,其特征在于,所述的身份识别模块通过识别报文数据中是否携带的在用户客户端多个网站域下植入的统一的cookie来识别用户身份。
8.根据权利要求1至6任一所述的基于通讯网络报文的网站网页评价系统,其特在于,所述的报文分类模块通过将报文数据输入报文分类器,有报文分类器计算得到将报文进行分类,所述的报文分类器中对应设置有报文类型及其对应的报文特征。
9.根据权利要求1至6任一所述的基于通讯网络报文的网站网页评价系统,其特在于,所述的关联分析模块根据用户访问网站的日志信息,得到网站-关键词维度、网站-广告维度、网站-网站维度的关联关系。
CN 201110162100 2011-06-16 2011-06-16 一种基于通讯网络报文的网站网页评价系统 Expired - Fee Related CN102289447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110162100 CN102289447B (zh) 2011-06-16 2011-06-16 一种基于通讯网络报文的网站网页评价系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110162100 CN102289447B (zh) 2011-06-16 2011-06-16 一种基于通讯网络报文的网站网页评价系统

Publications (2)

Publication Number Publication Date
CN102289447A true CN102289447A (zh) 2011-12-21
CN102289447B CN102289447B (zh) 2013-04-10

Family

ID=45335881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110162100 Expired - Fee Related CN102289447B (zh) 2011-06-16 2011-06-16 一种基于通讯网络报文的网站网页评价系统

Country Status (1)

Country Link
CN (1) CN102289447B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708176A (zh) * 2012-05-08 2012-10-03 山东大学 基于活跃用户的微博数据挖掘方法
CN103067198A (zh) * 2012-12-14 2013-04-24 北京集奥聚合科技有限公司 一种关联用户CookieID的方法及系统
CN103200269A (zh) * 2013-04-12 2013-07-10 亿赞普(北京)科技有限公司 互联网信息统计方法及系统
CN103218411A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 网站关联信息获取方法与装置
CN103368996A (zh) * 2012-03-28 2013-10-23 上海商派网络科技有限公司 一种通过多分枝发布实现a/b测试的方法
CN103365927A (zh) * 2012-03-30 2013-10-23 北京千橡网景科技发展有限公司 基于用户数据的网页分析方法和系统
CN103746880A (zh) * 2014-01-06 2014-04-23 北京国双科技有限公司 互联网变量测试方法和装置
CN104184747A (zh) * 2014-09-12 2014-12-03 北京国双科技有限公司 访问作弊的识别方法和装置
WO2015074503A1 (zh) * 2013-11-19 2015-05-28 北京国双科技有限公司 网页访问数据统计方法及装置
CN104834698A (zh) * 2015-04-27 2015-08-12 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN105208088A (zh) * 2015-08-18 2015-12-30 广州华多网络科技有限公司 评价指数确定方法和装置
CN106407476A (zh) * 2016-11-16 2017-02-15 百度在线网络技术(北京)有限公司 页面加载方法和装置
CN106682686A (zh) * 2016-12-09 2017-05-17 北京拓明科技有限公司 一种基于手机上网行为的用户性别预测方法
CN107003923A (zh) * 2014-12-09 2017-08-01 微软技术许可有限责任公司 浏览器提供的网站统计数据
CN107679170A (zh) * 2017-09-29 2018-02-09 肖丽媛 一种基于用户行为分析的网站优化方法及系统
CN104765881B (zh) * 2015-04-28 2018-03-02 上海携程商务有限公司 网站可用性的评估方法
CN109214647A (zh) * 2018-07-24 2019-01-15 焦点科技股份有限公司 一种基于网络访问日志数据的在线访问渠道间的溢出效应分析方法
CN109784967A (zh) * 2018-12-05 2019-05-21 微梦创科网络科技(中国)有限公司 一种信息的推送方法和装置
CN110059236A (zh) * 2019-03-27 2019-07-26 国网福建省电力有限公司泉州供电公司 一种应用网络爬虫技术进行电力规划收资的数据采集、处理方法
CN110213112A (zh) * 2019-06-14 2019-09-06 广州志浩信念网络科技有限公司 一种用户行为分析方法及系统
CN111125599A (zh) * 2019-12-23 2020-05-08 北京知道创宇信息技术股份有限公司 暗网网站的评级方法、装置、存储介质及电子设备
CN113377632A (zh) * 2021-05-25 2021-09-10 北京猿力教育科技有限公司 用户行为的回溯方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243676A1 (en) * 2003-05-24 2004-12-02 Blankenship Mark H. Message manager for tracking customer attributes
CN101188521A (zh) * 2007-12-05 2008-05-28 北京金山软件有限公司 一种挖掘用户行为数据的方法和网站服务器
CN101355504A (zh) * 2008-08-14 2009-01-28 成都市华为赛门铁克科技有限公司 一种用户行为的确定方法和装置
CN101562538A (zh) * 2009-04-15 2009-10-21 计世在线网络技术(北京)有限公司 一种网站访问分析的系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243676A1 (en) * 2003-05-24 2004-12-02 Blankenship Mark H. Message manager for tracking customer attributes
CN101188521A (zh) * 2007-12-05 2008-05-28 北京金山软件有限公司 一种挖掘用户行为数据的方法和网站服务器
CN101355504A (zh) * 2008-08-14 2009-01-28 成都市华为赛门铁克科技有限公司 一种用户行为的确定方法和装置
CN101562538A (zh) * 2009-04-15 2009-10-21 计世在线网络技术(北京)有限公司 一种网站访问分析的系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾梦青等: "基于用户HTTP行为分析的网站分类研究", 《计算机工程与设计》, no. 3, 28 February 2010 (2010-02-28) *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368996A (zh) * 2012-03-28 2013-10-23 上海商派网络科技有限公司 一种通过多分枝发布实现a/b测试的方法
CN103365927A (zh) * 2012-03-30 2013-10-23 北京千橡网景科技发展有限公司 基于用户数据的网页分析方法和系统
CN102708176A (zh) * 2012-05-08 2012-10-03 山东大学 基于活跃用户的微博数据挖掘方法
CN103067198A (zh) * 2012-12-14 2013-04-24 北京集奥聚合科技有限公司 一种关联用户CookieID的方法及系统
CN103218411A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 网站关联信息获取方法与装置
CN103218411B (zh) * 2013-03-26 2016-10-05 亿赞普(北京)科技有限公司 网站关联信息获取方法与装置
CN103200269A (zh) * 2013-04-12 2013-07-10 亿赞普(北京)科技有限公司 互联网信息统计方法及系统
US10248730B2 (en) 2013-11-19 2019-04-02 Beijing Gridsum Technology Co., Ltd. Statistical method and apparatus for webpage access data
WO2015074503A1 (zh) * 2013-11-19 2015-05-28 北京国双科技有限公司 网页访问数据统计方法及装置
CN103746880A (zh) * 2014-01-06 2014-04-23 北京国双科技有限公司 互联网变量测试方法和装置
CN104184747A (zh) * 2014-09-12 2014-12-03 北京国双科技有限公司 访问作弊的识别方法和装置
CN107003923A (zh) * 2014-12-09 2017-08-01 微软技术许可有限责任公司 浏览器提供的网站统计数据
CN104834698A (zh) * 2015-04-27 2015-08-12 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN104765881B (zh) * 2015-04-28 2018-03-02 上海携程商务有限公司 网站可用性的评估方法
CN105208088A (zh) * 2015-08-18 2015-12-30 广州华多网络科技有限公司 评价指数确定方法和装置
CN105208088B (zh) * 2015-08-18 2018-10-30 广州华多网络科技有限公司 评价指数确定方法和装置
CN106407476A (zh) * 2016-11-16 2017-02-15 百度在线网络技术(北京)有限公司 页面加载方法和装置
CN106682686A (zh) * 2016-12-09 2017-05-17 北京拓明科技有限公司 一种基于手机上网行为的用户性别预测方法
CN107679170A (zh) * 2017-09-29 2018-02-09 肖丽媛 一种基于用户行为分析的网站优化方法及系统
CN109214647A (zh) * 2018-07-24 2019-01-15 焦点科技股份有限公司 一种基于网络访问日志数据的在线访问渠道间的溢出效应分析方法
CN109784967A (zh) * 2018-12-05 2019-05-21 微梦创科网络科技(中国)有限公司 一种信息的推送方法和装置
CN110059236A (zh) * 2019-03-27 2019-07-26 国网福建省电力有限公司泉州供电公司 一种应用网络爬虫技术进行电力规划收资的数据采集、处理方法
CN110059236B (zh) * 2019-03-27 2023-05-05 国网福建省电力有限公司泉州供电公司 一种应用网络爬虫技术进行电力规划收资的数据采集、处理方法
CN110213112A (zh) * 2019-06-14 2019-09-06 广州志浩信念网络科技有限公司 一种用户行为分析方法及系统
CN111125599A (zh) * 2019-12-23 2020-05-08 北京知道创宇信息技术股份有限公司 暗网网站的评级方法、装置、存储介质及电子设备
CN113377632A (zh) * 2021-05-25 2021-09-10 北京猿力教育科技有限公司 用户行为的回溯方法及装置

Also Published As

Publication number Publication date
CN102289447B (zh) 2013-04-10

Similar Documents

Publication Publication Date Title
CN102289447B (zh) 一种基于通讯网络报文的网站网页评价系统
Urban et al. Measuring the impact of the GDPR on data sharing in ad networks
Ortiz‐Cordova et al. Classifying web search queries to identify high revenue generating customers
CN103218431B (zh) 一种能识别网页信息自动采集的系统
JP5810452B2 (ja) インパクト分析や影響追跡を含むマルチメディアのためのデータ収集、追跡及び分析手法
CN103886074B (zh) 基于社交媒体的商品推荐系统
US9245252B2 (en) Method and system for determining on-line influence in social media
CN101216825B (zh) 标引关键词提取/预测方法
WO2021025926A1 (en) Digital content prioritization to accelerate hyper-targeting
US20140143012A1 (en) Method and system for predictive marketing campigns based on users online behavior and profile
CN107665444A (zh) 一种基于用户在线行为的网络广告即时效应评价方法及系统
CN104615608A (zh) 一种数据挖掘处理系统及方法
CN102254265A (zh) 一种富媒体互联网广告内容匹配、效果评估方法
CN102521248A (zh) 一种网络用户分类方法及其装置
CN103491146A (zh) 一种网络信息投放方法、装置和系统
CN103136695A (zh) 媒体投放价值分析方法及其系统
CN112632405B (zh) 一种推荐方法、装置、设备及存储介质
CN106155817A (zh) 业务信息处理方法、服务器及系统
CN111767443A (zh) 一种高效的网络爬虫分析平台
Chen et al. The best answers? think twice: online detection of commercial campaigns in the CQA forums
CN106161091A (zh) 一种统计互联网用户行为的方法和系统
CN113505317A (zh) 一种违规广告识别方法、装置、电子设备及存储介质
Agarwal et al. An efficient weighted algorithm for web information retrieval system
CN104462241A (zh) 基于url中锚文字和周边文本的人口属性分类方法及装置
Dennis et al. Data mining approach for user profile generation on advertisement serving

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100081, Beijing, Zhongguancun, Haidian District South Avenue, No. 18, International Building, Beijing, block 18, B

Patentee after: Izp (China) Network Technology Co. Ltd.

Address before: 100081, Beijing, Zhongguancun, Haidian District South Avenue, No. 18, International Building, Beijing, block 18, B

Patentee before: Beijing IZP Technologies Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130410

Termination date: 20160616

CF01 Termination of patent right due to non-payment of annual fee