CN102752288A - 网络访问行为识别方法和装置 - Google Patents
网络访问行为识别方法和装置 Download PDFInfo
- Publication number
- CN102752288A CN102752288A CN2012101899345A CN201210189934A CN102752288A CN 102752288 A CN102752288 A CN 102752288A CN 2012101899345 A CN2012101899345 A CN 2012101899345A CN 201210189934 A CN201210189934 A CN 201210189934A CN 102752288 A CN102752288 A CN 102752288A
- Authority
- CN
- China
- Prior art keywords
- user
- access
- behavior
- netwoks
- banner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种网络访问行为识别方法和装置,所述方法包括:获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间;根据所述用户的用户标识,查询所述用户的网络访问信息记录;如果查询到所述用户的网络访问信息记录,则根据所述用户的当前网络访问时间与所述网络访问信息记录中记录的所述用户上一次网络访问行为的网络访问时间,确定所述用户当前的网络访问行为的有效性,通过本发明实施例提高了网络访问行为识别的准确度,从而使得用户行为分析更准确。
Description
技术领域
本发明涉及网络技术领域,更具体的说是涉及一种网络访问行为识别方法和装置。
背景技术
随着互联网技术的应用与发展,特别是移动互联网技术的发展,互联网应用用户越来越多,为了增强用户体验,实现精细化运营,如何对用户的网络访问行为进行分析已经成为运营商以及服务商的研究重点。
用户行为分析是指根据用户访问网络时的行为信息,例如可以包括网站网址、搜索关键词、浏览的网页内容等信息,进行统计、分析,从中得到用户访问网络的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。
由于现有的网站网页可能会关联其他的网页,例如网页中自嵌的图片、广告等子网页。而用户在进行网络访问,比如通过点击一条链接网址,请求访问该链接网址对应的网页时,客户端发送网络访问请求,在接收到服务端的请求响应,与服务端建立网络连接后,客户端展现用户想要访问的网页内容的同时,还会解析出网页内容中包含的子网页地址。因此客户端会继续自动发送网络访问请求,请求获取该子网页地址对应的子网页内容。由于子网页不是用户主动点击请求访问的,如果对每一个客户端触发的网络访问行为都获取其行为信息进行分析处理,就会影响用户行为分析的准确度。因此对网络访问行为进行识别以确定出有效网络访问行为,也即由用户主动触发的网络访问行为,成为用户行为分析准确度的关键。
现有的网络访问行为识别方法通常是将同一网络连接中,客户端触发的第一个网络访问请求的网络访问行为识别为有效的网络访问行为,因此在进行用户行为分析时,只对同一网络连接中的第一个网络访问行为的相关行为信息进行分析处理。而发明人在实现本发明的过程中发现,由于用户请求访问的网页,以及其关联的子网页可能并不是共享同一个网络连接,因此同一网络连接中的第一个网络访问行为也可能是客户端自动触发的;且客户端针对同一用户访问同一网站下的不同网页时,不同网页也可能会共享同一网络连接,因此同一网络连接中的其他网络访问行为也可能是用户主动触发的,因此,现有技术中网络访问行为的识别并不准确,从而就会影响用户行为分析的准确度。
发明内容
有鉴于此,本发明提供了一种网络访问行为识别方法和装置,以更准确地识别网络访问行为,提高用户行为分析的准确度。
为实现上述目的,本发明提供如下技术方案:
本发明的一方面,提供了一种网络访问行为识别方法,包括:
获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间;
根据所述用户的用户标识,查询所述用户的网络访问信息记录;
如果查询到所述用户的网络访问信息记录,则根据所述用户当前的网络访问行为的网络访问时间与所述网络访问信息记录中记录的所述用户上一次网络访问行为的网络访问时间,确定所述用户当前的网络访问行为的有效性。
本发明的另一方面,提供了一种网络访问行为识别方法,包括:
获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和访问的网页标识;
根据所述用户的用户标识,查询所述用户的网络访问信息记录;
从预先存储的网页标识关联关系集合中,查询与所述用户当前网络访问行为访问的网页标识关联的父网页标识;
如果查询到所述用户的网络访问信息记录和所述父网页标识,则根据所述父网页标识与所述网络访问信息记录中记录的所述用户上一次网络访问行为访问的网页标识,确定所述用户当前的网络访问行为的有效性。
本发明的又一方面,提供了一种网络访问行为识别装置,包括:
网络信息获取模块,用于获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间;
记录查询模块,用于从所述网络信息获取模块获得所述网络访问信息,并根据所述网络访问信息中包含的所述用户的用户标识,查询所述用户的网络访问信息记录;
第一确定模块,用于当所述记录查询模块查询到所述用户的网络访问信息记录后,根据所述用户当前的网络访问行为的网络访问时间与所述网络访问信息记录中记录的所述用户上一次网络访问行为的网络访问时间,确定所述用户当前的网络访问行为的有效性。
本发明的又一方面,提供了一种网络访问行为识别装置,包括:
网络信息获取模块,用于获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间;
记录查询模块,用于从所述网络信息获取模块获得所述网络访问信息,并根据所述网络访问信息中包含的所述用户的用户标识,查询所述用户的网络访问信息记录;
标识查询模块,用于从网页标识关联关系集合中,查询与所述用户当前网络访问行为访问的网页标识关联的父网页标识;
第二确定模块,用于当所述记录查询模块查询到所述用户的网络访问信息记录且所述标识查询模块查询到所述父网页标识时,根据所述父网页标识与所述网络访问信息记录中记录的所述用户上一次网络访问行为访问的网页标识,确定所述用户当前的网络访问行为的有效性。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种网络访问行为识别方法和装置,通过获取用户当前网络访问行为的网络访问信息,并查找该用户的网络访问信息记录,并根据当前网络访问时间与网络访问信息记录中的用户上一次网络访问时间,确定出当前网络访问行为是否为有效网络访问行为,本发明实施例对每一网络访问行为均进行了有效判断,通过用户历史网络访问行为对当前网络访问行为进行判断,提高了网络访问行为识别的准确度,从而使得用户行为分析结果更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种网络访问行为识别方法实施例1的流程图;
图2为本发明一种网络访问行为识别方法实施例2的流程图;
图3为本发明一种网络访问行为识别方法实施例3的流程图;
图4为本发明一种网络访问行为识别方法实施例4的流程图;
图5为本发明一种网络访问行为识别装置实施例1的结构示意图;
图6为本发明一种网络访问行为识别装置实施例2的结构示意图;
图7为本发明一种网络访问行为识别装置实施例3的结构示意图;
图8为本发明一种网络访问行为识别装置实施例4的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种网络访问行为识别方法和装置,通过获取用户当前网络访问行为的网络访问信息,并查找该用户的网络访问信息记录,当查询到该用户的网络访问信息记录后,根据当前网络访问时间与网络访问信息记录中的用户上一次网络访问时间,确定出当前网络访问行为是否为有效网络访问行为,本发明实施例对每一网络访问行为均进行了有效判断,提高了网络访问行为识别的准确度,从而使得用户行为分析结果更准确。
图1为本发明一种网络访问行为识别方法实施例1的流程图,所述方法可以包括:
步骤101:获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间。
用户通过客户端发送网络访问请求,例如Http(hypertext transportprotocol,超文本传送协议)请求,客户端与服务端即建立网络连接,例如TCP(Transmission Control Protocol,传输控制协议)连接后,用户即可访问网络。
所述网络访问信息可以是指用户网络访问行为的基本上网信息,其可以是在发送网络访问请求时,从所述网络访问请求中携带的信息中获取,则所述网络访问信息可以包括用户标识、访问的网页标识、网络访问时间等。所述网页标识是指当前网络访问行为所访问的网页的标识,可以为网页地址URL(Uniform/Universal Resource Locator,统一资源定位符)。当然所述网络访问信息也可以是在客户端与服务端建立网络连接后,从请求响应中获取的信息,则所述网络访问信息还可以包括请求响应时间,响应内容等信息。只要用户请求访问网络时,即可获得用户的网络访问信息。
所述用户标识是指可以识别不同访问用户的唯一标识,例如在移动通信系统中,其可以是IMEI(International Mobile Equipment Identity,国际移动设备身份码),也可以是移动设备的通信号码,如手机号码;在固定电话网络系统中可以的是ADSL(Asymmetric Digital Subscriber Line,非对称数字用户环路)账号等。
所述访问时间可以是从网络连接请求携带的时间戳信息中确定的。
步骤102:根据所述用户的用户标识,查询所述用户的网络访问信息记录。
所述网络访问信息记录可以是指保存的不同用户的历史的网络访问信息,具体的可以是历史的有效网络访问信息。根据网络访问信息中的用户标识,可以查询是否存在该用户对应的历史网络访问信息。
步骤103:如果查询到所述用户的网络访问信息记录,则根据所述用户的当前网络访问时间与所述网络访问信息记录中记录的所述用户上一次网络访问行为的网络访问时间,确定所述用户当前的网络访问行为的有效性。
若保存有该用户的网络访问信息记录,由于网络访问信息包括网络访问时间。则可以从所述网络访问信息记录中确定出用户上一次网络访问行为的上一次网络访问时间,根据当前网络访问行为的当前网络访问时间与所述上一次网络访问时间,即可确定出当前网络访问行为的有效性。
所述用户上一次网络访问时间即是指网络访问信息记录中记录的距离该用户当前网络访问行为的最近一次网络访问行为的网络访问时间。
具体是:判断所述用户的当前网络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值;如果是,则可确定所述用户当前的网络访问行为为有效网络访问行为;如果否,则确定所述用户当前的网络访问行为为无效网络访问行为。
所述预定值依据不同客户端性能、用户习惯、网络延时等条件统计得出,其是按照用户当前请求访问网络与其上一次请求访问网络的时间间隔而统计得出的数值,例如,用户在浏览器上点击一个网页链接后,再次点击下一个网页链接,浏览器发起的由于用户点击触发的两个访问请求之间的时间差通常在2s以上。而若用户点击的链接关联有子链接,则浏览器发起第一个网络访问请求,与其主动发起的下一个关联的子链接的对应的网络访问请求的时间差通常为2s或者在2s内,因此该预定值可以设定为2s。
若所述用户当前网络时间与记录的其上一次网络访问时间的时间差大于预定值,则表明用户的当前网络访问行为是用户的主动请求进行的网络访问行为,可确定当前的网络访问行为有效。若所述用户当前网络时间与记录的其上一次网络访问时间的时间差小于或等于该预定值,则表明当前网络访问行为并不是用户主动请求进行的网络访问行为,其可能是客户端的主动行为,因此可确定当前的网络行为无效。
其中,步骤102中,若未查询到网络访问信息记录,则可以获知该用户之前未进行过网络访问行为,因此可以确定该用户当前的网络访问行为为有效网络访问行为。
本实施例中,在确定出用户当前的网络访问行为为有效网络访问行为后,可以记录用户当前的网络访问信息。若确定出用户当前的网络访问行为为无效网络访问行为,则可以不记录用户当前的网络访问信息。因此所查询的网络访问信息记录具体是为有效网络访问行为记录的网络访问信息。
其中,网络访问信息记录可以以数据表的形式保存,每一网络访问信息唯一标识用户的一次的网络访问行为。为了避免表项溢出,而使得查询不准确。所述网络访问信息记录需要进行老化,在数据表容量达到设定阈值时,删除最先记录项。即按照设定容量,将保存时间长的一个或多个网络访问信息记录删除,以保证记录的设定容量。
确定出网络访问行为为有效网络访问行为后,即可对有效网络访问行为进行分析处理,可以将记录的有效网络访问行为的网络访问信息提供给用户行为分析系统,用户行为分析系统即可进行处理,例如对访问的网址、访问时间进行的统计,还可依据该访问网址抓取网页内容,对访问的网页内容进行统计等。
本发明实施例所述的网络访问行为识别可以是用户行为分析系统进行的识别,也可以是与该用户行为分析系统连接的客户端、服务端或者转发请求的网关进行的识别,之后可以将网络访问信息再提供给用户行为分析系统。
在本实施例中,在获取到用户当前的网络访问行为产生的网络访问信息后,通过查找是否保存该用户的网络访问信息记录,以及在存在该用户的网络访问信息记录后,根据该用户的当前网络访问时间与该用户的网络访问信息记录中记录的上一次网络访问行为的网络访问时间,确定该用户的当前网络访问行为是否有效。根据访问时间进行判断,提高了有效网络访问行为识别的准确度,从而可以提高用户行为分析的准确度。
图2为本发明一种网络访问行为识别方法实施例2的流程图,所述方法可以包括:
步骤201:获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和访问的网页标识。
其中,所述网络访问信息还可以包括网络访问时间。因此当前的网络访问行为的网络访问信息即可以包括该用户的当前访问的网页标识和当前网络访问时间。
步骤202:根据所述用户的用户标识,查询所述用户的网络访问信息记录。
步骤203:从预先存储的网页标识关联关系集合中,查询与所述用户当前网络访问行为访问的网页标识关联的父网页标识。
所述网页标识关联关系集合包括不同父网页标识和子网页标识之间的对应关系。
所述网页标识关联关系集合可以是系统预先存储的,其可以预先解析出不同网页内容中嵌入的子链接地址,该网页标识即为父网页标识,所嵌入的子链接地址即为父网页标识关联的子网页标识,从而可建立不同父网页标识和不同子网页标识的对应关系,形成所述关联关系集合。一个父网页标识通常对应有多个相关联的子网页标识。所述不同网页内容可以是该用户历史的有效网络访问行为所访问的网页内容.
因此本步骤中,根据所述网页标识关联关系集合,将当前网页标识作为子网页标识,查询是否存在与其关联的父网页标识。
其中,所述网页标识以网页地址URL表示时,可以利用哈希检索算法进行查询是否存在当前网页标识关联的父网页标识。也即网页标识关联关系集合中的网页标识均对应有哈希编码,或者均是以哈希编码的形式保存。子网页标识可以表示为hash code,其关联的父网页标识可以表示为Patent Hashcode。因此在进行查询时,首先将当前网页标识也表示为哈希编码,然后通过检索算法,检索是否存在该哈希编码对应的Patent Hash code即可。
其中由于不同网页标识对应的哈希编码可以相同,因此可以将每一网页标识用至少两个哈希编码表示,如子网页标识对应的哈希编码为hash code1和hash code2,对应的父网页标识的哈希编码为Patent Hash code1和PatentHash code2,通过至少两个哈希编码则可以唯一确定出一个网页标识。
其中,步骤202和步骤203的操作并不限定与本实施例所述的顺序,可以同时进行,或者先进行标识查询,再进行网络访问信息的查询。
步骤204:如果查询到所述用户的网络访问信息记录和所述父网页标识,则根据所述父网页标识与所述网络访问信息记录中记录的所述用户上一次网络访问行为访问的网页标识,确定所述用户当前的网络访问行为的有效性。
当查询出存在该用户的网络访问信息记录以及所述父网页标识时。即可从该用户的网络访问信息记录中获取该用户上一次网络访问行为访问的网页标识。根据上一次访问的网页标识和所述父网页标识,即可确定出当前网络访问行为是否有效。
具体的是:比较所述父网页标识与所述用户上一次网络访问行为访问的网页标识是否不同,当存在当前网页标识对应的父网页标识,则表明该当前网页标识对应的网页为某一父网页所关联的子网页,但是所述子网页也可能是用户主动请求访问的。因此,若网页标识关联关系集合中存在当前网页标识关联的父网页标识,还需要进一步判断所述父网页标识与所述该用户上一次网络访问行为访问的网页标识是否不同,以确定当前访问的网页标识是否为该用户上一次网络访问行为访问的网页标识关联的子网页标识,若是,则表明当前网页标识对应的网页并不是用户主动请求访问的,而是客户端主动触发。
如果所述父网页标识与所述上一次访问的网页标识相同,则可以确定当前网络访问行为访问的网页标识为上一次访问的网页标识的子网页标识,可以认为当前的网络访问行为为客户端的主动行为,表明用户当前的网络访问行为为无效网络访问行为。
网页标识均表示成哈希编码形式时,判断所述父网页标识与所述最近一次网络访问信息记录包含的网页标识是否不同,即是比较他们对应的哈希编码的值是否不一致。
另外,当没有查询到该用户的网络访问信息记录时,则也可以确定该用户当前的网络访问行为为无效网络访问行为。
当没有查询到当前访问的网页标识对应的父网页标识时,表明当前访问的网页标识并不是子网页标识,或者可以表明当前网络访问行为为用户首次主动触发的,在根据解析历史网络访问行为访问的网页得到的网页标识关联关系集合中不存在当前访问的网页标识或者其关联的父网页标识,则也可以确定该用户当前的网络访问行为为无效网络访问行为。
因此,在确定出该用户的当前的网络访问行为为有效网络访问行为后,还可以记录所述用户当前的网络访问信息。同时还可以根据用户当前网络访问行为访问的网页标识获取该当前访问的网页标识对应的网页内容,并解析所述网页内容获得所述当前访问的网页标识关联的子网页标识,并将该当前访问的网页标识及其关联的子网页标识保存到所述网页标识关联关系集合中。
在本实施例中,在获取到用户当前的网络访问行为的网络访问信息后,查询该用户的网络访问信息记录,以及从预先存储的网页标识关联关系集合查询当前访问的网页标识关联的父网页标识。根据该用户的网络访问信息记录所记录的该用户上一次网络访问行为访问的网页标识以及所述父网页标识,确定出用户当前网络访问行为的有效性。根据用户历史的网络访问行为来确定当前网络访问行为的有效性,提高了判断的准确度,从而使得用户行为分析更准确。
图3为本发明一种网络访问行为识别方法实施例3的流程图,所述方法可以包括:
步骤301:获取用户当前的网络访问行为的网络访问信息.
所述网络访问信息可以包括所述用户的用户标识、网络访问时间以及访问的网页标识。
步骤302:根据所述用户的用户标识,查询是否保存有所述用户的网络访问信息记录,如果是,执行步骤303,如果否,执行步骤307。
步骤303:从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为的网络访问时间。
步骤304:判断所述用户的当前网络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值,如果是,执行步骤307,如果否,执行步骤305。
步骤305:从预先存储的网页标识关联关系集合中,查询是否存在与所述用户当前网络访问行为访问的网页标识关联的父网页标识,如果是,执行步骤306,如果否,执行步骤307。
所述网页标识关联关系集合包括不同父网页标识和子网页标识之间的对应关系。
所述网页标识关联关系集合可以是系统预先存储的,其可以预先解析出不同网页内容中嵌入的子链接地址,该网页标识即为父网页标识,所嵌入的子链接地址即为父网页标识关联的子网页标识,从而可建立不同父网页标识和不同子网页标识的对应关系,形成所述关联关系集合。一个父网页标识通常对应有多个相关联的子网页标识。本实施例中,所述不同网页内容可以是该用户历史的有效网络访问行为所访问的网页内容。
其中,所述网页标识以网页地址URL表示时,可以利用哈希检索算法进行查询是否存在当前网页标识关联的父网页标识。具体检索过程可以参加上述实施例2中所述。
步骤306:判断所述父网页标识与所述用户上一次网络访问行为访问的网页标识是否不同,如果是,进入步骤307,如果否,进入步骤309。
所述用户上一次网络访问行为访问的网页标识是从所述用户的网络访问信息记录中获得的。由于用户在进行网络访问时,如果其快速选择不同的网页标识,也可能导致当前网络访问时间与该用户的上一次网络访问行为的网络访问时间的时间差小于或等于预定值时,因此,当步骤304的判断结果为否时,需要继续进行网络访问行为的识别。
步骤307:确定用户当前的网络访问行为为有效网络访问行为,并记录当前网络访问行为的网络访问行为对应的网络访问信息。
步骤308:获取所述用户当前访问的网页标识对应的网页内容,解析所述网页内容获得所述当前访问的网页标识关联的子网页标识,并在所述网页标识关联关系集合中记录所述用户当前访问的网页标识及其关联的子网页标识的对应关系。
当没有查询到该用户的网络访问信息记录,或者没有查询到当前访问的网页标识关联的父网页标识,或者当前网络访问时间与该用户的上一次网络访问行为的网络访问时间大于预定值,或者当当前网络访问时间与该用户的上一次网络访问行为的网络访问时间小于或者等于预定值,但是所述父网页标识与上一次网络访问行为访问的网页标识不同,则可以确定用户当前的网络访问行为为有效网络访问行为,并记录用户当前网络访问行为的网络访问信息记录。同时对访问的网页内容进行解析,以获得当前访问的网页关联的子网页,并在网页标识关联关系集合中记录当前访问的网页标识与解析出的子网页标识的对应关系,以用于对该用户下一次网络访问行为的判断。
所述网络访问信息记录可以以数据表形式进行保存。
所述网页标识关联关系集合也可以以数据表的形式保存,同时为了避免表项溢出,而使得查询不准确。所述网络关联关系表需要进行老化,在数据表容量达到设定容量时,按照网页标识关联关系在时间上存储的先后顺序删除最先存储的保存项,以保证记录的容量。
步骤309:确定所述用户当前的网络访问行为为无效网络访问行为。
当确定网络访问行为为无效网络访问行为时,可以不记录无效网络访问行为的网络访问信息,并对无效网络访问行为访问的网页内容进行解析,以得出子网页标识。
如果所述父网页标识与所述上一次访问的网页标识相同,则可以确定当前网络访问行为访问的网页标识为上一次访问的网页标识的子网页标识,可以认为当前的网络访问行为为客户端的主动行为,表明用户当前的网络访问行为为无效网络访问行为。
另外,在确定当前网络访问行为为有效网络行为后,即可由用户行为分析系统对有效网络访问行为的行为信息进行处理,所述行为信息包括网络访问信息记录。由于本实施例中,所述网络访问信息记录保存的即为用户历史有效网络访问行为的网络访问信息,因此可以将所述网络访问信息记录提供给用户行为分析系统进行处理,例如对访问的网页标识、访问时间进行统计,还可依据该网页标识抓取对应的网页内容,对访问的网页内容进行统计、分析等,从而用户行为分析系统所分析的用户行为信息均是有效的网络访问行为信息的行为信息,因此提高了用户行为分析的准确度。
在本实施中,在获取到用网络访问信息后,通过该用户的网络访问信息记录,以及查询到该用户的网络访问信息记录后,对当前的网络访问时间以及该用户的上一次访问时间进行比较,若大于预定值则确定用户的当前访问行为为有效网络访问信息,若小于或等于预定值时,继续查询预先存储的网页标识关联关系集合得出当前访问的网页标识关联的父网页标识,并判断所述父网页标识与该用户上一次网络访问行为访问的网页标识是否不同,从而确定出当前网络访问行为是否为有效的网络访问行为,通过本实施例进一步提高了识别的准确度,从而即可提高用户行为分析的准确度。
需要说明的是,本发明实施例在实际应用中不限定于本实施例所述的执行步骤,也可以先对对网页标识进行判断,在对当前的网络访问时间进行判断,或者同时进行的判断。
图4为本发明一种网络行为识别方法实施例4的流程图,所述方法可以包括:
步骤401:获取用户当前的网络访问行为的网络访问信息。
所述网络访问信息可以包括所述用户的用户标识、访问的网页标识和网络访问时间。
步骤402:根据所述用户的用户标识,查询是否存在所述用户的网络访问信息记录,如果是,执行步骤403,如果否,执行步骤407。
步骤403:从预先存储的网页标识关联关系集合中,查询是否存在与所述用户当前网络访问行为访问的网页标识关联的父网页标识,如果是,执行步骤404,如果否,执行步骤407。
步骤404:从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为访问的网页标识。
步骤405:比较所述父网页标识与所述用户上一次网络访问行为访问的网页标识是否不同,如果是,执行步骤407,如果否,执行步骤406。
步骤406:判断所述用户的当前网络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值,如果是,执行步骤407,如果否,执行步骤409。
所述用户上一次网络访问行为的网络访问时间是从所述网络访问信息记录中获取的。
步骤407:确定用户当前的网络访问行为为有效网络访问行为,并记录当前网络访问行为的网络访问行为对应的网络访问信息。
当没有查询到该用户的网络访问信息记录,或者没有查询到当前访问的网页标识关联的父网页标识,或者所述父网页标识与该用户的上一次网络访问行为访问的网页标识不同(即当前访问的网页标识并不是用户上一次网络访问行为访问的网页标识的子网页标识,可以确定当前的网络访问行为为用户主动触发的),或者所述父网页标识与该用户的上一次网络访问行为访问的网页标识相同,但是当前网络访问时间与该用户的上一次网络访问行为的网络访问时间大于预定值(即当前网络访问行为访问的上一次网络访问行为访问的网页标识的子网页标识是用户主动触发的),则可以确定用户当前的网络访问行为为有效网络访问行为,并记录用户当前网络访问行为的网络访问信息记录。同时对访问的网页内容进行解析,以获得当前访问的网页关联的子网页,并在网页标识关联关系集合中记录当前访问的网页标识与解析出的子网页标识的对应关系,以用于对该用户下一次网络访问行为的判断。
步骤408:获取所述用户当前访问的网页标识对应的网页内容,解析所述网页内容获得所述当前访问的网页标识关联的子网页标识,并在所述网页标识关联关系集合中记录所述用户当前访问的网页标识及其关联的子网页标识的对应关系。
步骤409:确定所述用户当前的网络访问行为为无效网络访问行为。
当确定网络访问行为为无效网络访问行为时,可以不记录无效网络访问行为的网络访问信息,并对无效网络访问行为访问的网页内容进行解析,以得出子网页标识。
另外,在确定当前网络访问行为为有效网络行为后,即可由用户行为分析系统对有效网络访问行为的行为信息进行处理,所述行为信息包括网络访问信息记录。由于本实施例中,所述网络访问信息记录保存的即为用户历史有效网络访问行为的网络访问信息,因此可以将所述网络访问信息记录提供给用户行为分析系统进行处理,例如对访问的网页标识、访问时间进行统计,还可依据该网页标识抓取对应的网页内容,对访问的网页内容进行统计、分析等,从而用户行为分析系统所分析的用户行为信息均是有效的网络访问行为信息的行为信息,因此提高了用户行为分析的准确度。
在本实施例中,获取到当前网络访问行为的网络访问信息后,通过查询该用户的网络访问信息记录,以及在查询到该用户的网络访问信息记录后,根据预先存储的网页标识关联关系集合,确定当前访问的网页标识关联的父网页标识,并比较所述父网页标识与用户上一次网络访问行为访问的网页标识是是否不同,若不同,则可确定用户当前的网络访问行为为有效网络访问行为,若不同,则当确定出当前网络访问时间与用户上一次网络访问时间的时间差大于预定值后,则也可以确定当前网络访问行为为有效网络访问行为,并不是单纯的将一个网络连接中的第一访问请求对应的网络访问行为识别为有效的网络访问行为,从而提高了识别的准确度,使得用户行为分析更加准确,且无需对所有的网络访问行为的行为信息进行分析,减少了分析成本和难度。
需要说明的是,本发明实施例在实际应用中不限定于本实施例所述的执行步骤,也可以先对当前的网络访问时间进行判断,在对网页标识进行判断,或者同时进行的判断。
图5为本发明一种网络访问行为识别装置实施例1的结构示意图,所述装置可以包括:
网络信息获取模块501,用于获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间;
记录查询模块502,用于从所述网络信息获取模块获得所述网络访问信息,并根据所述网络访问信息中包含的所述用户的用户标识,查询所述用户的网络访问信息记录。
所述网络访问信息记录即是指记录的历史的网络访问信息。
第一确定模块503,用于当所述记录查询模块502查询到所述用户的网络访问信息记录后,根据所述用户当前的网络访问行为的网络访问时间与所述网络访问信息记录中记录的所述用户上一次网络访问行为的网络访问时间,确定所述用户当前的网络访问行为的有效性。
其中,所述第一确定模块503可以具体包括:
时间确定模块5031,用于从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为的网络访问时间;
时间判断模块5032,用于判断所述用户当前的网访问行为的网络络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值;
第一确定子模块5033,用于当所述时间判断模块5032结果为是时,确定所述用户当前的网络访问行为为有效网络访问行为;当所述时间判断模块结果为否时,确定所述用户当前的网络访问行为为无效网络访问行为。
所述预定值依据不同客户端性能、用户习惯、网络延时等条件统计得出,其是按照用户当前请求访问网络与其最近一次请求访问网络的时间间隔而统计得出的数值,例如,用户在浏览器上点击一个网页链接后,再次点击下一个网页链接,浏览器发起的两个访问请求之间的时间差通常在2s以上。而若用户点击的链接关联有子链接,则浏览器发起第一个网络访问请求,与其主动发起的下一个关联的子链接的对应的网络访问请求的时间差通常为2s或者在2s内,因此该预定值可以设定为2s。
此外,所述第一确定模块还用于当所述记录查询模块没有查询出所述用户的网络访问信息记录时,确定所述用户当前的网络访问行为为有效网络访问行为。
另外,所述装置还可以包括记录模块,用于当确定出所述用户当前的网络访问行为为有效网络访问行为后,记录所述用户当前的网络访问信息。
网络访问信息记录可以以数据表的形式保存,每一网络访问信息唯一标识用户的一次的网络访问行为。为了避免表项溢出,而使得查询不准确。所述网络访问信息记录需要进行老化,在数据表容量达到设定阈值时,删除最先记录项。即按照设定容量,将保存时间长的一个或多个网络访问信息记录删除,以保证记录的设定容量。
确定出网络访问行为为有效网络访问行为后,即可对有效网络访问行为进行分析处理,可以将记录的有效网络访问行为的网络访问信息记录提供给用户行为分析系统,用户行为分析系统即可进行处理,例如对访问的网址、访问时间进行的统计,还可依据该访问网址抓取网页内容,对访问的网页内容进行统计等。
在本实施例中,网络信息获取模块获取到用户当前网络访问行为的网络访问信息后,查询模块即可查找是否该用户的网络访问信息记录,以及当存在该用户的网络访问信息记录后,触发第一确定模块对当前网络访问行为进行判断确认。从而可以确定出当前网络访问行为是否为有效的网络访问行为,提高了识别的准确度,也提高了用户行为分析的准确度。
本发明实施例所述的装置可以集成到客户端、服务端、用于中转消息的网关或者用户行为分析系统中,当所述装置集成到客户端、服务端或者网关上时,其可以具有相应的接口与用户行为分析系统相连。当然所述装置也可以作为单独的一个实体与客户端、服务端或者网关相连,并与用户行为分析系统相连。
图6为本发明一种网络访问行为识别装置实施例2的结构示意图,所述装置可以包括:
网络信息获取模块601,用于获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间。
所述网络访问信息还可以包括网络访问时间。因此当前的网络访问行为的网络访问信息即可以包括该用户的当前访问的网页标识和当前网络访问时间。
记录查询模块602,用于从所述网络信息获取模块获得所述网络访问信息,并根据所述网络访问信息中包含的所述用户的用户标识,查询所述用户的网络访问信息记录。
标识查询模块603,用于从网页标识关联关系集合中,查询与所述用户当前网络访问行为访问的网页标识关联的父网页标识。
所述网页标识关联关系集合包括不同父网页标识和子网页标识之间的对应关系。
所述网页标识关联关系集合可以是系统预先存储的,其可以预先解析出不同网页内容中嵌入的子链接地址,该网页标识即为父网页标识,所嵌入的子链接地址即为父网页标识关联的子网页标识,从而可建立不同父网页标识和不同子网页标识的对应关系,形成所述关联关系集合。一个父网页标识通常对应有多个相关联的子网页标识。所述不同网页内容可以是该用户历史的有效网络访问行为所访问的网页内容.
所述网页标识以网页地址URL表示时,可以利用哈希检索算法进行查询是否存在当前网页标识关联的父网页标识。也即标识查询模块可以具体是用于通过哈希检索算查询是否存在所述用户当前访问的网页标识对应的父网页标识。
第二确定模块604,用于当所述记录查询模块602查询到所述用户的网络访问信息记录且所述标识查询模块603查询到所述父网页标识时,根据所述父网页标识与所述网络访问信息记录中记录的所述用户上一次网络访问行为访问的网页标识,确定所述用户当前的网络访问行为的有效性。
其中,所述第二确定模块604可以具体包括:
标识确定模块6041,用于从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为访问的网页标识。
标识判断模块6042,用于判断所述父网页标识与所述用户上一次网络访问行为访问的网页标识是否不同。
第二确定子模块6043,用于当所述标识判断模块6042结果为是时,确定所述用户当前的网络访问行为为有效访问行为。
另外,所述第二确定模块,还用于当所述记录查询模块没有查询到所述用户的网络访问信息记录时,或者所述标识查询模块没有查询到与所述用户当前网络访问行为访问的网页标识关联的父网页标识,确定所述用户当前的网络访问行为为有效网络访问行为。
因此所述装置还可以包括记录模块:用于当确定出所述用户当前的网络访问行为为有效网络访问行为后,记录所述用户当前的网络访问信息
标识解析模块,用于当确定出所述用户当前的网络访问行为为有效网络访问行为后,获取所述用户当前访问的网页标识对应的网页内容,并解析所述网页内容获得所述当前访问的网页标识关联的子网页标识;
标识保存模块,用于在所述网页标识关联关系集合中记录所述用户当前访问的网页标识及其关联的子网页标识的对应关系。
在本实施例中,在网络访问信息获取模块获取到用户当前的网络访问行为的网络访问信息后,由记录查询模块查询该用户的网络访问信息记录,以及标识查询模块从预先存储的网页标识关联关系集合查询当前访问的网页标识关联的父网页标识。第二确定模块即可根据该用户的网络访问信息记录所记录的该用户上一次网络访问行为访问的网页标识以及所述父网页标识,确定出用户当前网络访问行为的有效性。根据用户历史的网络访问行为来确定当前网络访问行为的有效性,提高了判断的准确度,从而使得用户行为分析更准确。
图7为本发明一种网络访问行为识别装置实施例3的结构示意图,所述装置可以包括:
网络信息获取模块701,用于获取用户当前的网络访问行为的网络访问信息。
所述网络访问信息可以包括用户标识、当前的网络访问时间和当前网页标识。
记录查询模块702,用于查询是否存在包含所述用户标识的网络访问信息记录。
时间确定模块703,用于从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为的网络访问时间;
时间判断模块704,用于判断所述用户的当前网络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值。
标识查询模块705,用于当所述时间判断模块结果为是,从预先存储的网页标识关联关系集合中,查询是否存在与所述用户当前网络访问行为访问的网页标识关联的父网页标识。
所述网页标识关联关系集合包括不同父网页标识和子网页标识之间的对应关系。
所述网页标识关联关系集合可以是系统预先存储的,其可以预先解析出不同网页内容中嵌入的子链接地址,该网页标识即为父网页标识,所嵌入的子链接地址即为父网页标识关联的子网页标识,从而可建立不同父网页标识和不同子网页标识的对应关系,形成所述关联关系集合。一个父网页标识通常对应有多个相关联的子网页标识。本实施例中,所述不同网页内容可以是该用户历史的有效网络访问行为所访问的网页内容。
标识判断模块706,用于当所述标识查询模块查询结果为是时,判断所述父网页标识与所述用户上一次网络访问行为访问的网页标识是否不同。
第二确定模块707:用于当所述时间判断模块结果为是,或者所述记录查询模块结果为否,或者所述标识查询模块结果为否,或者所述标识判断模块结果为是时,确定所述用户当前的网络访问行为为有效网络访问行为;当所述标识判断模块为否时,确定所述用户当前的网络访问行为为无效网络访问行为。
记录模块708:用于当确定出所述用户当前的网络访问行为为有效网络访问行为后,记录所述用户当前的网络访问信息
标识解析模块709,用于当确定出所述用户当前的网络访问行为为有效网络访问行为后,获取所述用户当前访问的网页标识对应的网页内容,并解析所述网页内容获得所述当前访问的网页标识关联的子网页标识;
标识保存模块710,用于在所述网页标识关联关系集合中记录所述用户当前访问的网页标识及其关联的子网页标识的对应关系。
所述网络访问信息以及所述网页标识关联关系集合都以数据表的形式进行存储,并当数据表的记录项超出数据表的最大容量时,按照存储的时间先后顺序,将最先存储的记录项删除,以保证数据表的容量。
在确定当前网络访问行为为有效网络行为后,即可由用户行为分析系统对有效网络访问行为的行为信息进行处理,因此所述装置还可以包括:
信息提供模块,用于将记录的所述网络访问信息记录提供给用户分析子系统进行处理。
用户行为分析系统可以对访问的网页标识、访问时间进行统计,还可依据该网页标识抓取对应的网页内容,对访问的网页内容进行统计、分析等,从而用户行为分析系统所分析的用户行为信息均是有效的网络访问行为信息的行为信息,因此提高了用户行为分析的准确度。
在本实施中,网络信息获取模块获取到用户当前网络访问行为的网络访问信息后,记录查询模块查找是否保存该用户的网络访问信息记录,以及在存在该用户的网络访问信息记录后,触发时间判断模块对当前网络访问时间以及该用户上一次网络访问时间进行比较,标识查询模块查询得出当前网页标识关联的父网页标识时,触发标识判断模块对所述父网页标识与用户上一次访问的网页标识进行比较,从而第二确定模块即可确定出当前网络访问行为是否为有效的网络访问行为,通过本实施例提高了识别的准确度,从而即可提高用户行为分析的准确度。
参见图8,示出了本发明一种网络访问行为识别装置实施例4的结构示意图,所述装置可以包括:
网络信息获取模块801,用于获取当前网络访问行为的网络访问信息,所述网络访问信息包括用户标识和当前网页标识;
记录查询模块802,用于查询是否存在包含所述用户标识的网络访问信息记录。
标识查询模块803,用于查询网页标识关联关系集合,确定是否存在所述当前网页标识关联的父网页标识。
标识确定模块804,用于所述记录查询模块802为是,且所述标识查询模块803为是时,从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为访问的网页标识。
标识判断模块805,用于判断所述父网页标识与所述用户上一次网络访问行为访问的网页标识是否不同。
时间确定模块806,用于当所述标识判断模块804结果为否时,,从所述网络访问信息记录中获取所述用户上一次网络访问行为的网络访问时间。
时间判断模块807,用于判断所述用户的当前网络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值。
第二确定模块808,用于当所述记录查询模块802结果为否,或者所述标识查询模块803为否,或者所述标识判断模块805结果为是,或者所述时间判断模块807结果为是,确定所述用户当前的网络访问行为为有效网络访问行为;当所述时间判断模块为否时,确定所述用户当前的网络访问行为为无效网络访问行为。
记录模块809:用于当所述第二确定模块确定出所述用户当前的网络访问行为为有效网络访问行为后,记录所述用户当前的网络访问信息。
标识解析模块810,用于当所述第二确定模块808确定出所述用户当前的网络访问行为为有效网络访问行为后,获取所述用户当前访问的网页标识对应的网页内容,并解析所述网页内容获得所述当前访问的网页标识关联的子网页标识。
标识保存模块811,用于在所述网页标识关联关系集合中记录所述用户当前访问的网页标识及其关联的子网页标识的对应关系。
确定当前网络访问行为为有效网络行为后,即可由用户行为分析系统对有效网络行为的行为信息进行处理,所述行为信息包括网络访问信息记录,因此可以将所述网络访问信息记录提供给用户行为分析系统进行处理,例如对访问的网页标识、访问时间进行统计,还可依据该网页标识抓取对应的网页内容,对访问的网页内容进行统计、分析等,从而用户行为分析系统所分析的用户行为信息均是有效的网络访问行为信息的行为信息,因此提高了用户行为分析的准确度。
在本实施例中,网络信息获取模块获取到用户当前网络访问行为的网络访问信息后,记录查询模块即查询是否该用户的网络访问信息记录,以及在存在该用户的网络访问信息记录后,由标识查询模块根据网页标识关联关系集合,确定当前访问的网页标识关联的父网页标识,并触发标识判断模块比较所述父网页标识与用户上一次访问的网页标识是是否不同,若不同触发时间判断模块判断出当前网络访问时间与用户上衣网络访问时间的是否时间差大于预定值,从而即可确定出当前网络访问行为是否为有效网络访问行为,本实施例并不是单纯的将一个网络连接中的第一访问请求对应的网络访问行为视为有效的网络访问行为,从而提高了识别的准确度,使得用户行为分析更加准确,且无需对所有的网络访问行为的行为信息进行分析,减少了分析成本和难度。
本发明实施例中所述的装置可以集成到客户端、服务端、用于中转消息的网关或者用户行为分析系统中,当所述装置集成到客户端、服务端或者网关上时,其可以具有相应的接口与用户行为分析系统相连。当然所述装置也可以作为单独的一个实体与客户端、服务端或者网关相连,并与用户行为分析系统相连。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (22)
1.一种网络访问行为识别方法,其特征在于,包括:
获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间;
根据所述用户的用户标识,查询所述用户的网络访问信息记录;
如果查询到所述用户的网络访问信息记录,则根据所述用户当前的网络访问行为的网络访问时间与所述网络访问信息记录中记录的所述用户上一次网络访问行为的网络访问时间,确定所述用户当前的网络访问行为的有效性。
2.根据权利要求1所述的方法,其特征在于,所述根据所述用户当前的网络访问行为的网络访问时间与所述网络访问信息记录中记录的所述用户的最近一次网络访问行为的网络访问时间,确定所述用户当前的网络访问行为的有效性,具体包括:
从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为的网络访问时间;
判断所述用户当前的网访问行为的网络络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值;
如果是,确定所述用户当前的网络访问行为为有效网络访问行为;
如果否,确定所述用户当前的网络访问行为为无效网络访问行为。
3.根据权利要求1所述的方法,其特征在于,还包括:如果没有查询出所述用户的网络访问信息记录时,确定所述用户当前的网络访问行为为有效网络访问行为。
4.根据权利要求1~3任一项所述的方法,其特征在于,还包括:当确定出所述用户当前的网络访问行为为有效网络访问行为后,记录所述用户当前的网络访问行为对应的网络访问信息。
5.一种网络访问行为识别方法,其特征在于,包括:
获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和访问的网页标识;
根据所述用户的用户标识,查询所述用户的网络访问信息记录;
从预先存储的网页标识关联关系集合中,查询与所述用户当前网络访问行为访问的网页标识关联的父网页标识;
如果查询到所述用户的网络访问信息记录和所述父网页标识,则根据所述父网页标识与所述网络访问信息记录中记录的所述用户上一次网络访问行为访问的网页标识,确定所述用户当前的网络访问行为的有效性。
6.根据权利要求5所述的方法,其特征在于,所述根据所述父网页标识与所述网络访问信息记录中记录的所述用户的最近一次网络访问行为访问的网页标识,确定所述用户当前的网络访问行为的有效性,具体包括:
从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为访问的网页标识;
当所述父网页标识与所述用户上一次网络访问行为访问的网页标识不同时,确定所述用户当前的网络访问行为为有效网络访问行为。
7.根据权利要求6所述的方法,其特征在于,所述网络访问信息还包括网络访问时间,所述方法还包括:
当所述父网页标识与所述用户上一次网络访问行为访问的网页标识相同时,从所述网络访问信息记录中获取所述用户上一次网络访问行为的网络访问时间;
判断所述用户当前的网络访问行为的网络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值;
如果是,则确定所述用户当前的网络访问行为为有效网络访问行为;
如果否,确定所述用户当前的网络访问行为为无效网络访问行为。
8.根据权利要求5-7任一项所述的方法,其特征在于,还包括:如果没有查询出所述用户的网络访问信息记录,或没有查询出与所述用户当前网络访问行为访问的网页标识关联的父网页标识时,确定所述用户当前的网络访问行为为有效网络访问行为。
9.根据权利要求8所述的方法,其特征在于,当确定出所述用户当前的网络访问行为为有效网络访问行为后,所述方法还包括:记录所述用户当前的网络访问行为对应的网络访问信息。
10.根据权利要求5-9任一项所述的方法,其特征在于,当确定出所述用户当前的网络访问行为为有效网络访问行为后,所述方法还包括:
获取所述用户当前访问的网页标识对应的网页内容,并解析所述网页内容获得与所述用户当前访问的网页标识关联的子网页标识;
在所述网页标识关联关系集合中记录所述用户当前访问的网页标识及其关联的子网页标识的对应关系。
11.根据权利要求5-10任一项所述的方法,其特征在于,所述查询与所述用户当前网络访问行为访问的网页标识关联的父网页标识,具体包括:
通过哈希检索算查询是否存在所述用户当前访问的网页标识对应的父网页标识。
12.一种网络访问行为识别装置,其特征在于,包括:
网络信息获取模块,用于获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间;
记录查询模块,用于从所述网络信息获取模块获得所述网络访问信息,并根据所述网络访问信息中包含的所述用户的用户标识,查询所述用户的网络访问信息记录;
第一确定模块,用于当所述记录查询模块查询到所述用户的网络访问信息记录后,根据所述用户当前的网络访问行为的网络访问时间与所述网络访问信息记录中记录的所述用户上一次网络访问行为的网络访问时间,确定所述用户当前的网络访问行为的有效性。
13.根据权利要求12所述的装置,其特征在于,所述第一确定模块,具体包括:
时间确定模块,用于从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为的网络访问时间;
时间判断模块,用于判断所述用户当前的网访问行为的网络络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值;
第一确定子模块,用于当所述时间判断模块结果为是时,确定所述用户当前的网络访问行为为有效网络访问行为;当所述时间判断模块结果为否时,确定所述用户当前的网络访问行为为无效网络访问行为。
14.根据权利要求12所述的装置,其特征在于,所述第一确定模块还用于,当所述记录查询模块没有查询出所述用户的网络访问信息记录时,确定所述用户当前的网络访问行为为有效网络访问行为。
15.根据权利要求12~14所述的装置,其特征在于,所述装置还包括:
记录模块,用于当确定出所述用户当前的网络访问行为为有效网络访问行为后,记录所述用户当前的网络访问行为对应的网络访问信息。
16.一种网络访问行为识别装置,其特征在于,包括:
网络信息获取模块,用于获取用户当前的网络访问行为的网络访问信息,所述网络访问信息包括所述用户的用户标识和网络访问时间;
记录查询模块,用于从所述网络信息获取模块获得所述网络访问信息,并根据所述网络访问信息中包含的所述用户的用户标识,查询所述用户的网络访问信息记录;
标识查询模块,用于从网页标识关联关系集合中,查询与所述用户当前网络访问行为访问的网页标识关联的父网页标识;
第二确定模块,用于当所述记录查询模块查询到所述用户的网络访问信息记录且所述标识查询模块查询到所述父网页标识时,根据所述父网页标识与所述网络访问信息记录中记录的所述用户上一次网络访问行为访问的网页标识,确定所述用户当前的网络访问行为的有效性。
17.根据权利要求16所述的装置,其特征在于,所述第二确定模块具体包括:
标识确定模块,用于从所述用户的网络访问信息记录中获得所述用户上一次网络访问行为访问的网页标识;
标识判断模块,用于判断所述父网页标识与所述用户上一次网络访问行为访问的网页标识是否不同;
第二确定子模块,用于当所述标识判断模块结果为是时,确定所述用户当前的网络访问行为为有效访问行为。
18.根据权利要求17所述的装置,其特征在于,所述网络访问信息记录还包括网络访问时间,所述装置还包括:
时间确定模块,用于当所述标识判断模块结果为否时,从所述网络访问信息记录中获取所述用户上一次网络访问行为的网络访问时间;
时间判断模块,用于判断所述用户当前的网络访问行为的网络访问时间与所述用户的上一次网络访问行为的网络访问时间的时间差是否大于预定值;
则所述第二确定模块,还用于当所述时间判断模块结果为是时,确定所述用户当前的网络访问行为为有效网络访问行为,当所述时间判断模块结果为否时,确定所述用户当前的网络访问行为为无效网络访问行为。
19.根据权利要求16-18任一项所述的装置,其特征在于,所述第二确定模块还用于当所述记录查询模块没有查询到所述用户的网络访问信息记录,或所述标识查询模块没有查询出与所述用户当前网络访问行为访问的网页标识关联的父网页标识时,确定所述用户当前的网络访问行为为有效网络访问行为。
20.根据权利要求19所述的装置,其特征在于,还包括:
记录模块,用于当确定出所述用户当前的网络访问行为为有效网络访问行为后,记录所述用户当前的网络访问行为对应的网络访问信息。
21.根据权利要求16-20任一项所述的装置,其特征在于,还包括:
标识解析模块,用于当确定出所述用户当前的网络访问行为为有效网络访问行为后,获取所述用户当前访问的网页标识对应的网页内容,并解析所述网页内容获得与所述用户当前访问的网页标识关联的子网页标识;
标识保存模块,用于在所述网页标识关联关系集合中记录所述用户当前访问的网页标识及其关联的子网页标识的对应关系。
22.根据权利要求16-21所述的装置,其特征在于,所述标识查询模块具体用于通过哈希检索算查询是否存在所述用户当前访问的网页标识对应的父网页标识。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210189934.5A CN102752288B (zh) | 2012-06-06 | 2012-06-06 | 网络访问行为识别方法和装置 |
PCT/CN2013/074873 WO2013181972A1 (zh) | 2012-06-06 | 2013-04-27 | 网络访问行为识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210189934.5A CN102752288B (zh) | 2012-06-06 | 2012-06-06 | 网络访问行为识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102752288A true CN102752288A (zh) | 2012-10-24 |
CN102752288B CN102752288B (zh) | 2015-07-08 |
Family
ID=47032188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210189934.5A Active CN102752288B (zh) | 2012-06-06 | 2012-06-06 | 网络访问行为识别方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN102752288B (zh) |
WO (1) | WO2013181972A1 (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102970296A (zh) * | 2012-11-22 | 2013-03-13 | 网宿科技股份有限公司 | 基于内容分发网络的网站内容智能防抓取方法和系统 |
CN102984234A (zh) * | 2012-11-19 | 2013-03-20 | 北京奇虎科技有限公司 | 一种通信系统和网络内容的访问控制方法 |
CN103020126A (zh) * | 2012-11-19 | 2013-04-03 | 北京奇虎科技有限公司 | 网络内容的访问控制方法和装置 |
WO2013181972A1 (zh) * | 2012-06-06 | 2013-12-12 | 华为技术有限公司 | 网络访问行为识别方法和装置 |
CN103475543A (zh) * | 2013-09-11 | 2013-12-25 | 北京思特奇信息技术股份有限公司 | 一种检测系统业务异常调用的方法及系统 |
CN104156232A (zh) * | 2014-07-18 | 2014-11-19 | 百度在线网络技术(北京)有限公司 | 在线性页面结构下用于页面非线性跳转的方法和设备 |
CN104268217A (zh) * | 2014-09-25 | 2015-01-07 | 张文铸 | 一种用户行为时间相关性的确定方法及装置 |
CN104580154A (zh) * | 2014-12-09 | 2015-04-29 | 上海斐讯数据通信技术有限公司 | Web服务安全访问方法、系统及相应的服务器 |
CN104901930A (zh) * | 2014-04-21 | 2015-09-09 | 孟俊 | 一种基于cpk标识认证的可追溯网络行为管理方法 |
CN105808639A (zh) * | 2016-02-24 | 2016-07-27 | 平安科技(深圳)有限公司 | 网络访问行为识别方法和装置 |
CN107438100A (zh) * | 2017-07-25 | 2017-12-05 | 中国联合网络通信集团有限公司 | 网页访问方法及浏览器 |
CN107888604A (zh) * | 2017-11-27 | 2018-04-06 | 山东浪潮云服务信息科技有限公司 | 一种互联网数据获取方法及获取装置 |
CN108124197A (zh) * | 2017-12-18 | 2018-06-05 | 广东省电信规划设计院有限公司 | 终端访问行为的识别方法及装置 |
CN108280117A (zh) * | 2017-11-22 | 2018-07-13 | 广州市动景计算机科技有限公司 | 画像元数据获得方法、装置、存储介质及电子设备 |
CN108880879A (zh) * | 2018-06-11 | 2018-11-23 | 北京五八信息技术有限公司 | 用户身份识别方法、装置、设备及计算机可读存储介质 |
CN109948087A (zh) * | 2017-12-05 | 2019-06-28 | 广东欧珀移动通信有限公司 | 网页资源的获取方法、装置及终端 |
CN110020239A (zh) * | 2017-09-20 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 恶意资源转移网页识别方法及装置 |
CN110417901A (zh) * | 2019-07-31 | 2019-11-05 | 北京金山云网络技术有限公司 | 数据处理方法、装置及网关服务器 |
CN110891095A (zh) * | 2018-09-07 | 2020-03-17 | 上海汽车集团股份有限公司 | 一种客户信息验证方法及装置 |
CN111818038A (zh) * | 2020-07-01 | 2020-10-23 | 拉扎斯网络科技(上海)有限公司 | 一种网络数据获取识别方法以及装置 |
CN114374966A (zh) * | 2021-12-30 | 2022-04-19 | 中国电信股份有限公司 | 一种数据关联方法、装置和电子设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2580432C1 (ru) | 2014-10-31 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ для обработки запроса от потенциального несанкционированного пользователя на доступ к ресурсу и серверу, используемый в нем |
RU2610280C2 (ru) * | 2014-10-31 | 2017-02-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ авторизации пользователя в сети и сервер, используемый в нем |
CN106685680B (zh) * | 2015-11-09 | 2019-09-20 | 北京国双科技有限公司 | 还原推介流量数据的方法和装置 |
CN111917663B (zh) * | 2020-06-16 | 2022-11-04 | 深圳市风云实业有限公司 | 一种hsr重复报文过滤表哈希桶满覆盖方法 |
CN111767315B (zh) * | 2020-06-29 | 2023-07-04 | 北京奇艺世纪科技有限公司 | 黑产识别方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902438A (zh) * | 2009-05-25 | 2010-12-01 | 北京启明星辰信息技术股份有限公司 | 一种自动识别网页爬虫的方法和装置 |
CN102088477A (zh) * | 2010-11-25 | 2011-06-08 | 互动在线(北京)科技有限公司 | 网站内容防采集系统和方法 |
CN102098229A (zh) * | 2011-03-04 | 2011-06-15 | 北京星网锐捷网络技术有限公司 | 统一资源定位符优化审计的方法、装置和网络侧设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222550A1 (en) * | 2008-02-28 | 2009-09-03 | Yahoo! Inc. | Measurement of the effectiveness of advertisement displayed on web pages |
CN102752288B (zh) * | 2012-06-06 | 2015-07-08 | 华为技术有限公司 | 网络访问行为识别方法和装置 |
-
2012
- 2012-06-06 CN CN201210189934.5A patent/CN102752288B/zh active Active
-
2013
- 2013-04-27 WO PCT/CN2013/074873 patent/WO2013181972A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902438A (zh) * | 2009-05-25 | 2010-12-01 | 北京启明星辰信息技术股份有限公司 | 一种自动识别网页爬虫的方法和装置 |
CN102088477A (zh) * | 2010-11-25 | 2011-06-08 | 互动在线(北京)科技有限公司 | 网站内容防采集系统和方法 |
CN102098229A (zh) * | 2011-03-04 | 2011-06-15 | 北京星网锐捷网络技术有限公司 | 统一资源定位符优化审计的方法、装置和网络侧设备 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013181972A1 (zh) * | 2012-06-06 | 2013-12-12 | 华为技术有限公司 | 网络访问行为识别方法和装置 |
CN102984234A (zh) * | 2012-11-19 | 2013-03-20 | 北京奇虎科技有限公司 | 一种通信系统和网络内容的访问控制方法 |
CN103020126A (zh) * | 2012-11-19 | 2013-04-03 | 北京奇虎科技有限公司 | 网络内容的访问控制方法和装置 |
CN102984234B (zh) * | 2012-11-19 | 2016-06-01 | 北京奇虎科技有限公司 | 一种通信系统和网络内容的访问控制方法 |
CN103020126B (zh) * | 2012-11-19 | 2016-01-13 | 北京奇虎科技有限公司 | 网络内容的访问控制方法和装置 |
CN102970296B (zh) * | 2012-11-22 | 2015-07-15 | 网宿科技股份有限公司 | 基于内容分发网络的网站内容智能防抓取方法和系统 |
CN102970296A (zh) * | 2012-11-22 | 2013-03-13 | 网宿科技股份有限公司 | 基于内容分发网络的网站内容智能防抓取方法和系统 |
CN103475543A (zh) * | 2013-09-11 | 2013-12-25 | 北京思特奇信息技术股份有限公司 | 一种检测系统业务异常调用的方法及系统 |
CN104901930A (zh) * | 2014-04-21 | 2015-09-09 | 孟俊 | 一种基于cpk标识认证的可追溯网络行为管理方法 |
CN104156232B (zh) * | 2014-07-18 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 在线性页面结构下用于页面非线性跳转的方法和设备 |
CN104156232A (zh) * | 2014-07-18 | 2014-11-19 | 百度在线网络技术(北京)有限公司 | 在线性页面结构下用于页面非线性跳转的方法和设备 |
CN104268217A (zh) * | 2014-09-25 | 2015-01-07 | 张文铸 | 一种用户行为时间相关性的确定方法及装置 |
CN104268217B (zh) * | 2014-09-25 | 2017-08-01 | 张文铸 | 一种用户行为时间相关性的确定方法及装置 |
CN104580154A (zh) * | 2014-12-09 | 2015-04-29 | 上海斐讯数据通信技术有限公司 | Web服务安全访问方法、系统及相应的服务器 |
CN105808639A (zh) * | 2016-02-24 | 2016-07-27 | 平安科技(深圳)有限公司 | 网络访问行为识别方法和装置 |
CN107438100A (zh) * | 2017-07-25 | 2017-12-05 | 中国联合网络通信集团有限公司 | 网页访问方法及浏览器 |
CN107438100B (zh) * | 2017-07-25 | 2020-01-31 | 中国联合网络通信集团有限公司 | 网页访问方法及浏览器 |
CN110020239A (zh) * | 2017-09-20 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 恶意资源转移网页识别方法及装置 |
CN108280117A (zh) * | 2017-11-22 | 2018-07-13 | 广州市动景计算机科技有限公司 | 画像元数据获得方法、装置、存储介质及电子设备 |
CN107888604A (zh) * | 2017-11-27 | 2018-04-06 | 山东浪潮云服务信息科技有限公司 | 一种互联网数据获取方法及获取装置 |
CN109948087A (zh) * | 2017-12-05 | 2019-06-28 | 广东欧珀移动通信有限公司 | 网页资源的获取方法、装置及终端 |
CN109948087B (zh) * | 2017-12-05 | 2021-11-16 | Oppo广东移动通信有限公司 | 网页资源的获取方法、装置及终端 |
CN108124197B (zh) * | 2017-12-18 | 2020-09-18 | 广东省电信规划设计院有限公司 | 终端访问行为的识别方法及装置 |
CN108124197A (zh) * | 2017-12-18 | 2018-06-05 | 广东省电信规划设计院有限公司 | 终端访问行为的识别方法及装置 |
CN108880879A (zh) * | 2018-06-11 | 2018-11-23 | 北京五八信息技术有限公司 | 用户身份识别方法、装置、设备及计算机可读存储介质 |
CN110891095A (zh) * | 2018-09-07 | 2020-03-17 | 上海汽车集团股份有限公司 | 一种客户信息验证方法及装置 |
CN110417901A (zh) * | 2019-07-31 | 2019-11-05 | 北京金山云网络技术有限公司 | 数据处理方法、装置及网关服务器 |
CN111818038A (zh) * | 2020-07-01 | 2020-10-23 | 拉扎斯网络科技(上海)有限公司 | 一种网络数据获取识别方法以及装置 |
CN111818038B (zh) * | 2020-07-01 | 2023-01-31 | 拉扎斯网络科技(上海)有限公司 | 一种网络数据获取识别方法以及装置 |
CN114374966A (zh) * | 2021-12-30 | 2022-04-19 | 中国电信股份有限公司 | 一种数据关联方法、装置和电子设备 |
CN114374966B (zh) * | 2021-12-30 | 2024-06-07 | 中国电信股份有限公司 | 一种数据关联方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2013181972A1 (zh) | 2013-12-12 |
CN102752288B (zh) | 2015-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102752288B (zh) | 网络访问行为识别方法和装置 | |
CN108363815B (zh) | 一种网页页面的预读取方法、装置及智能终端设备 | |
US10992762B2 (en) | Processing link identifiers in click records of a log file | |
CN106294648B (zh) | 一种针对页面访问路径的处理方法及装置 | |
US9300755B2 (en) | System and method for determining information reliability | |
AU2018201459A1 (en) | System and method for improving access to search results | |
CN109684575A (zh) | 网页数据的处理方法及装置、存储介质、计算机设备 | |
CN102521251A (zh) | 个性化搜索直达的方法、实现该方法的装置和搜索服务器 | |
CN105187396A (zh) | 识别网络爬虫的方法及装置 | |
CN102624920A (zh) | 一种通过代理服务器进行访问的方法及装置 | |
CN104700289A (zh) | 广告投放方法和装置 | |
US8122025B2 (en) | Method of managing locations of information and information location management device | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
WO2014180130A1 (en) | Method and system for recommending contents | |
CN103440276A (zh) | 一种提高网页显示速度的方法及装置 | |
CN101833570A (zh) | 一种移动终端页面推送优化的方法和装置 | |
CN103123630A (zh) | 一种获取网页内容的方法、系统以及移动终端和服务器 | |
CN103139278A (zh) | 一种网络资源预取并缓存加速的方法及其装置 | |
CN106446113A (zh) | 移动大数据解析方法及装置 | |
CN105069011A (zh) | 用于管理网页收藏夹的方法、装置及系统 | |
CN107835132B (zh) | 一种流量来源跟踪的方法及装置 | |
EP2577584A1 (en) | Method of identifying remote users of websites | |
CN103186666A (zh) | 基于收藏进行搜索的方法、装置与设备 | |
CN103559203A (zh) | 网页排序方法、装置和系统 | |
US20130179421A1 (en) | System and Method for Collecting URL Information Using Retrieval Service of Social Network Service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |