CN106033579A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN106033579A
CN106033579A CN201510115298.5A CN201510115298A CN106033579A CN 106033579 A CN106033579 A CN 106033579A CN 201510115298 A CN201510115298 A CN 201510115298A CN 106033579 A CN106033579 A CN 106033579A
Authority
CN
China
Prior art keywords
social networking
user terminal
identity
networking application
application account
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510115298.5A
Other languages
English (en)
Other versions
CN106033579B (zh
Inventor
陈俊宏
余德乐
杨韬
赵冬玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510115298.5A priority Critical patent/CN106033579B/zh
Publication of CN106033579A publication Critical patent/CN106033579A/zh
Application granted granted Critical
Publication of CN106033579B publication Critical patent/CN106033579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种数据处理方法和装置。其中,该数据处理方法包括:接收用户终端的链接请求,其中,链接请求为通过在用户终端上登录的社交应用触发跳转至目标网页的请求;响应链接请求,并向用户终端返回目标网页;记录用户终端通过社交应用链接到目标网页的当前浏览行为数据,当前浏览行为数据用于反映用户终端在目标网页上的当前浏览行为;获取在用户终端上登录的社交应用账号的身份标识;以及建立用户终端的当前浏览行为数据与在用户终端上登录的社交应用账号的身份标识关联关系。通过本发明,解决了现有技术中无法将用户在社交应用与用户的网页浏览行为相关联的问题。

Description

数据处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。
背景技术
随着互联网技术的不断发展,互联网已经成为人们生活不可缺少的一部分。互联网所产生的数据,可以反映用户的日常生活的行为习惯,因此,互联网数据的分析对互联网公司来说是十分必要的。
当今社会,人们越来越多的使用社交应用,例如,博客、微博、朋友圈、空间等等,通过各种社交应用发布一些消息,而发布的这些消息则能够完全反映出人们的一些日常的行为习惯。
然而,发明人发现,现有技术中无法将用户在社交应用与用户的网页浏览行为相关联,对于社交应用上的用户行为数据的分析仅限于社交应用本身,而对于用户浏览网页的行为数据也仅限于浏览网页本身,而用户在浏览网页和使用社交应用之间,往往会存在一些关联性,例如,用户在网上查看了一下商品的信息,并发表了相关微博对该商品进行点评。因此,如果能够打通用户在社交应用上的言论行为与他们在品牌主网站上面的浏览点击行为则能很好的提高数字营销的精确度。
针对现有技术中无法将用户在社交应用与用户的网页浏览行为相关联的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种数据处理方法和装置,以解决现有技术中无法将用户在社交应用与用户的网页浏览行为相关联的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理方法。根据本发明的数据处理方法包括:接收用户终端的链接请求,其中,所述链接请求为通过在所述用户终端上登录的社交应用触发跳转至目标网页的请求;响应所述链接请求,并向所述用户终端返回所述目标网页;记录所述用户终端通过所述社交应用链接到所述目标网页的当前浏览行为数据,所述当前浏览行为数据用于反映所述用户终端在所述目标网页上的当前浏览行为;获取在所述用户终端上登录的社交应用账号的身份标识;以及建立所述用户终端的所述当前浏览行为数据与在所述用户终端上登录的社交应用账号的身份标识关联关系。
进一步地,所述目标网页上预先设置有监测代码,其中,记录所述用户终端浏览所述目标网页的当前浏览行为数据包括:所述监测代码记录所述用户终端浏览所述目标网页的当前浏览行为数据;获取在所述用户终端上登录的社交应用账号的身份标识包括:所述监测代码获取所述用户终端跳转至所述目标网页的来源信息;基于所述来源信息爬取在所述用户终端上登录的社交应用账号的身份标识。
进一步地,建立所述用户终端的所述浏览行为数据与在所述终端上登录的社交应用账号的身份标识关联关系包括:从所述用户终端上查询识别信息,所述识别信息为所述用户终端在浏览所述目标网页时存储在所述用户终端上用于识别所述用户终端的信息;如果未查询到所述识别信息,则确定所述用户终端未浏览过所述目标网页,将所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立关联关系;如果查询到所述识别信息,则确定所述用户终端浏览过所述目标网页,判断记录的历史浏览行为数据是否与在所述终端上登录的社交应用账号的身份标识建立有关联关系;如果判断出记录的历史浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立有关联关系,则将所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立关联关系;如果判断出记录的历史浏览行为数据与在所述终端上登录的社交应用账号的身份标识未建立关联关系,则将记录的历史浏览行为数据和所述当前浏览行为数据分别与在所述终端上登录的社交应用账号的身份标识建立关联关系。
进一步地,在获取在所述用户终端上登录的社交应用账号的身份标识之后,所述数据处理方法还包括:将在所述用户终端上登录的社交应用账号的身份标识与社交应用资料库中记录的身份标识进行匹配,其中,所述社交应用资料库为预先建立的包含有多个社交应用账号的身份标识的资料库;如果在所述用户终端上登录的社交应用账号的身份标识匹配到所述社交应用资料库中的身份标识,则建立所述用户终端的所述当前浏览行为数据与匹配到的身份标识的关联关系;如果在所述用户终端上登录的社交应用账号的身份标识未匹配到所述社交应用资料库中的身份标识,则将在所述用户终端上登录的社交应用账号的身份标识存储到所述社交应用资料库中,并建立所述用户终端的所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识关联关系。
进一步地,在获取在所述用户终端上登录的社交应用账号的身份标识之前,所述数据处理方法还包括:爬取所述社交应用的账户信息,所述账户信息包括多个社交应用账号的身份标识;利用爬取的账户信息建立社交应用资料库。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种数据处理装置。根据本发明的数据处理装置包括:接收单元,用于接收用户终端的链接请求,其中,所述链接请求为通过在所述用户终端上登录的社交应用触发跳转至目标网页的请求;响应单元,用于响应所述链接请求,并向所述用户终端返回所述目标网页;记录单元,用于记录所述用户终端通过所述社交应用链接到所述目标网页的当前浏览行为数据,所述当前浏览行为数据用于反映所述用户终端在所述目标网页上的当前浏览行为;获取单元,用于获取在所述用户终端上登录的社交应用账号的身份标识;以及第一关联单元,用于建立所述用户终端的所述当前浏览行为数据与在所述用户终端上登录的社交应用账号的身份标识关联关系。
进一步地,所述目标网页上预先设置有监测代码,其中,所述记录单元包括:记录模块,用于所述监测代码记录所述用户终端浏览所述目标网页的当前浏览行为数据;所述获取单元包括:获取模块,用于所述监测代码获取所述用户终端跳转至所述目标网页的来源信息;第一爬取模块,用于基于所述来源信息爬取在所述用户终端上登录的社交应用账号的身份标识。
进一步地,所述第一关联单元包括:查询模块,用于从所述用户终端上查询识别信息,所述识别信息为所述用户终端在浏览所述目标网页时存储在所述用户终端上用于识别所述用户终端的信息;第一关联模块,用于如果未查询到所述识别信息,则确定所述用户终端未浏览过所述目标网页,将所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立关联关系;判断模块,用于如果查询到所述识别信息,则确定所述用户终端浏览过所述目标网页,判断记录的历史浏览行为数据是否与在所述终端上登录的社交应用账号的身份标识建立有关联关系;第二关联模块,用于如果判断出记录的历史浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立有关联关系,则将所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立关联关系;第三关联模块,用于如果判断出记录的历史浏览行为数据与在所述终端上登录的社交应用账号的身份标识未建立关联关系,则将记录的历史浏览行为数据和所述当前浏览行为数据分别与在所述终端上登录的社交应用账号的身份标识建立关联关系。
进一步地,所述数据处理装置还包括:匹配单元,用于在获取在所述用户终端上登录的社交应用账号的身份标识之后,将在所述用户终端上登录的社交应用账号的身份标识与社交应用资料库中记录的身份标识进行匹配,其中,所述社交应用资料库为预先建立的包含有多个社交应用账号的身份标识的资料库;第二关联单元,用于如果在所述用户终端上登录的社交应用账号的身份标识匹配到所述社交应用资料库中的身份标识,则建立所述用户终端的所述当前浏览行为数据与匹配到的身份标识的关联关系;存储单元,用于如果在所述用户终端上登录的社交应用账号的身份标识未匹配到所述社交应用资料库中的身份标识,则将在所述用户终端上登录的社交应用账号的身份标识存储到所述社交应用资料库中,并建立所述用户终端的所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识关联关系。
进一步地,所述数据处理装置还包括:爬取单元,用于在获取在所述用户终端上登录的社交应用账号的身份标识之前,爬取所述社交应用的账户信息,所述账户信息包括多个社交应用账号的身份标识;创建单元,用于利用爬取的账户信息建立社交应用资料库。
根据发明实施例,通过在社交应用发布的内容中插入链接,用户终端通过点击该链接进入目标网页,记录用户在该目标网页的浏览行为数据,获取在用户终端上登录的社交应用账号的身份标识,再建立用户在目标网页上的浏览行为数据与用户身份标识的关联关系,这样,解决了现有技术中无法将用户在社交应用与用户的网页浏览行为相关联问题,达到了可以将用户在社交应用与用户的网页浏览行为相关联效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据处理方法的流程图;以及
图2是根据本发明实施例的数据处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种数据处理方法。
图1是根据本发明实施例的数据处理方法的流程图。如图1所示,该数据处理方法包括步骤如下:
步骤S102,接收用户终端的链接请求,其中,链接请求为通过在用户终端上登录的社交应用触发跳转至目标网页的请求。
在社交应用网站上插入链接,用户可以在其终端上通过点击该链接向服务器发起链接请求,服务器接收该请求。其中,用户访问目标网页的方式可以是通过点击在用户终端上登录的社交应用中插入的超级链接而进入的目标网页的方式,也可以是用户直接访问网页的方式,或者,还可以是用户通过搜索该目标网页的关键内容而进入的网页。例如品牌主在社交应用中发布带有链接到目标网页的链接的消息(例如博文或者微博),用户点击该链接,就会跳转至品牌主的目标网页。
步骤S104,响应链接请求,并向用户终端返回目标网页。
服务器接收链接请求之后,响应链接请求,并向用户终端返回前述链接跳转进入的目标网页。
步骤S106,记录用户终端通过社交应用链接到目标网页的当前浏览行为数据,当前浏览行为数据用于反映用户终端在目标网页上的当前浏览行为。
用户通过用户终端上的社交应用链接到目标网页之后,并对目标网页进行浏览。网页上的监测代码或者服务器会记录当前浏览行为数据。
步骤S108,获取在用户终端上登录的社交应用账号的身份标识。
由于用户终端通过社交应用跳转链接到目标网页,因此,可以获取到用户终端上所登录的社交应用账号的身份标识,该身份标识用于唯一表示该社交应用账号。
步骤S110,建立用户终端的当前浏览行为数据与在用户终端上登录的社交应用账号的身份标识关联关系。
记录用户终端通过社交应用链接到目标网页的当前浏览行为数据,并获取访问目标网页的社交应用账号的身份标识之后,将记录的当前浏览行为数据与社交应用账号的身份标识相关联,即建立社交应用账号与浏览行为数据之间的关联关系,这样,可以按照该关联关系将社交应用账号的身份标识和浏览行为数据进行存储,从而打通用户浏览网页的行为数据与社交应用账号之间的数据关系,便于对用户在社交应用上的行为数据和用户的网页浏览行为数据进行关联分析。
通过本发明实施例,由于在社交应用中插入链接,用户通过点击该链接进入目标网页,记录用户在该目标网页的浏览行为数据,获取在用户终端上登录的社交应用账号的身份标识,再建立用户在目标网页上的浏览行为数据与用户身份标识的关联关系,这样,就打通了用户在社交应用与品牌对应的目标网页上的关联通道,达到了可以将用户在社交应用与用户的网页浏览行为相关联的效果。
根据本发明实施例,将社交应用与用户的网页浏览行为相关联,可以用于检测广告推广的效果,或者,选择性地进行广告营销等场景中。
优选地,在本发明实施例中,目标网页上预先设置有监测代码,其中,记录用户终端浏览目标网页的当前浏览行为数据可以包括:监测代码记录用户终端浏览目标网页的当前浏览行为数据;获取在用户终端上登录的社交应用账号的身份标识可以包括:监测代码获取用户终端跳转至目标网页的来源信息;基于来源信息爬取在用户终端上登录的社交应用账号的身份标识。
本发明实施例中,社交应用可以是博客、微博、朋友圈、空间等社交应用,监测代码可以是预先设置在目标网页中的JavaScript代码。以社交应用为微博为例,当微博网站上发布有插入超级链接的微博时,用户通过点击超级链接跳转至目标页面,此时,监测代码启动,将用户的当前浏览行为数据实时反馈至服务器。同时,监测代码还可以获取用户通过超级链接跳转进入目标网页的来源信息,例如用户终端上登录的微博的统一资源定位符(Uniform Resource Locator,简称为URL),基于该URL反向爬取在用户终端上登录的微博账号的身份标识。
优选地,在本发明实施例中,建立用户终端的浏览行为数据与在终端上登录的社交应用账号的身份标识关联关系可以包括:从用户终端上查询识别信息,识别信息为用户终端在浏览目标网页时存储在用户终端上用于识别用户终端的信息;如果未查询到识别信息,则确定用户终端未浏览过目标网页,将当前浏览行为数据与在终端上登录的社交应用账号的身份标识建立关联关系;如果查询到识别信息,则确定用户终端浏览过目标网页,判断记录的历史浏览行为数据是否与在终端上登录的社交应用账号的身份标识建立有关联关系;如果判断出记录的历史浏览行为数据与在终端上登录的社交应用账号的身份标识建立有关联关系,则将当前浏览行为数据与在终端上登录的社交应用账号的身份标识建立关联关系;如果判断出记录的历史浏览行为数据与在终端上登录的社交应用账号的身份标识未建立关联关系,则将记录的历史浏览行为数据和当前浏览行为数据分别与在终端上登录的社交应用账号的身份标识建立关联关系。
本发明实施例中,识别信息可以是用于识别用户终端的信息,该识别信息可以是由用户终端与目标网页的服务器建立连接时,目标网页的服务器存储在用户终端的用于识别用户终端的信息,例如Cookie。
具体地,可以通过预设设置在目标网页上布置JavaScript代码(即监测代码)当用户进入目标网页时,代码启动,实时反馈用户的浏览行为到服务器,并向用户本地储存一个识别信息(如Cookie)用以对后续用户访问目标网站时的身份识别。同时获取用户来到目标页面之前用户所在的URL。由于用户通过用户终端浏览目标网页时,目标网页的服务器会记录相应的浏览行为数据,如果用户终端在当前之前已经浏览过目标网页,则目标网页的服务器侧记录有历史浏览行为数据。如果查询到用户终端存储有该识别信息,则确定该用户终端浏览过目标网页,并将历史浏览行为数据和当前浏览行为数据一起与社交应用账号的身份标识建立关联关系,其中,如果历史浏览行为数据已经与社交应用账号的身份标识建立关联关系,则可以只将当前浏览行为数据与社交应用账号的身份标识建立关联关系。反之,如果用户终端未浏览过目标网页,再将当前浏览行为数据与社交应用账号的身份标识建立关联关系。
根据本发明实施例,由于从用户终端上查询到识别信息,可以将服务器记录的历史浏览行为数据与当前浏览行为数据快速地与用户社交应用账号的身份标识建立关联关系,如果没有从用户终端上查询到识别信息,则可以直接建立当前浏览行为数据与社交应用账号的身份标识的关联关系,这样,可以快速准确地进行广告营销。
优选地,在本发明实施例中,在获取在用户终端上登录的社交应用账号的身份标识之后,数据处理方法还包括:将在用户终端上登录的社交应用账号的身份标识与社交应用资料库中记录的身份标识进行匹配,其中,社交应用资料库为预先建立的包含有多个社交应用账号的身份标识的资料库;如果在用户终端上登录的社交应用账号的身份标识匹配到社交应用资料库中的身份标识,则建立用户终端的当前浏览行为数据与匹配到的身份标识的关联关系;如果在用户终端上登录的社交应用账号的身份标识未匹配到社交应用资料库中的身份标识,则将在用户终端上登录的社交应用账号的身份标识存储到社交应用资料库中,并建立用户终端的当前浏览行为数据与在终端上登录的社交应用账号的身份标识关联关系。
具体地,如果获取到的身份标识能够匹配到社交应用资料库中的身份标识,则将用户资料库中的该身份标识与记录的当前浏览行为数据建立关联关系;反之,如果未匹配到,则将获取到的身份标识存储到将用户资料库中,并利用爬虫爬取该身份标识对应的账户信息,然后在将该身份标识与当前浏览行为数据建立关联关系。
优选地,在本发明实施例中,在获取在用户终端上登录的社交应用账号的身份标识之前,数据处理方法还可以包括:爬取社交应用的账户信息,账户信息包括多个社交应用账号的身份标识;利用爬取的账户信息建立社交应用资料库。
在获取用户身份标识之前,爬取社交应用的账户信息,账户信息包括多个社交应用账号的身份标识,例如,同时爬取在博客、微博、朋友圈、空间等社交网站的用户账户信息,并将用户的账户信息建立为社交应用资料库。该社交应用资料库中包括社交应用账号的身份标识、性别、年龄、地域、学历、职业或兴趣标签等信息。例如,在根据跳转至目标页面之前的来源URL反向爬取用户在微博的ID之后,将该微博用户ID与社交应用资料库中的微博用户ID进行匹配。
具体地,预先设置爬虫爬取微博平台上用户的个人资料(微博ID、性别、年龄、地域、学历、职业、兴趣标签等)并在数据库中建立微博人物资料库。然后,爬虫根据监测代码得到的URL反向爬取用户在微博平台上的个人信息中的微博ID,将此ID与数据库中所有的微博ID进行匹配,找出该微博用户的相关信息。并与用户终端所储存的Cookie匹配,同时匹配上用户在目标网页的浏览行为。
本发明实施例还提供了一种数据处理装置。该装置可以通过计算机设备实现其功能。需要说明的是,本发明实施例的数据处理装置可以用于执行本发明实施例所提供的数据处理方法,本发明实施例的数据处理方法也可以通过本发明实施例所提供的数据处理装置来执行。
图2是根据本发明实施例的数据处理装置的示意图。如图2所示,该数据处理装置包括:接收单元10、响应单元20、记录单元30、获取单元40和第一关联单元50。
接收单元10用于接收用户终端的链接请求,其中,链接请求为通过在用户终端上登录的社交应用触发跳转至目标网页的请求。
在社交应用网站上插入链接,用户可以在其终端上通过点击该链接向服务器发起链接请求,服务器接收该请求。其中,用户访问目标网页的方式可以是通过点击在用户终端上登录的社交应用中插入的超级链接而进入的目标网页的方式,也可以是用户直接访问网页的方式,或者,还可以是用户通过搜索该目标网页的关键内容而进入的网页。例如品牌主在社交应用中发布带有链接到目标网页的链接的消息(例如博文或者微博),用户点击该链接,就会跳转至品牌主的目标网页。
响应单元20用于响应链接请求,并向用户终端返回目标网页。
服务器接收链接请求之后,响应链接请求,并向用户终端返回前述链接跳转进入的目标网页。
记录单元30用于记录用户终端通过社交应用链接到目标网页的当前浏览行为数据,当前浏览行为数据用于反映用户终端在目标网页上的当前浏览行为。
用户通过用户终端上的社交应用链接到目标网页之后,并对目标网页进行浏览。网页上的监测代码或者服务器会记录当前浏览行为数据。
获取单元40用于获取在用户终端上登录的社交应用账号的身份标识。
由于用户终端通过社交应用跳转链接到目标网页,因此,可以获取到用户终端上所登录的社交应用账号的身份标识,该身份标识用于唯一表示该社交应用账号。
第一关联单元50用于建立用户终端的当前浏览行为数据与在用户终端上登录的社交应用账号的身份标识关联关系。
记录用户终端通过社交应用链接到目标网页的当前浏览行为数据,并获取访问目标网页的社交应用账号的身份标识之后,将记录的当前浏览行为数据与社交应用账号的身份标识相关联,即建立社交应用账号与浏览行为数据之间的关联关系,这样,可以按照该关联关系将社交应用账号的身份标识和浏览行为数据进行存储,从而打通用户浏览网页的行为数据与社交应用账号之间的数据关系,便于对用户在社交应用上的行为数据和用户的网页浏览行为数据进行关联分析。
通过本发明实施例,由于在社交应用中插入链接,用户通过点击该链接进入目标网页,记录用户在该目标网页的浏览行为数据,获取在用户终端上登录的社交应用账号的身份标识,再建立用户在目标网页上的浏览行为数据与用户身份标识的关联关系,这样,就打通了用户在社交应用与品牌对应的目标网页上的关联通道,达到了可以将用户在社交应用与用户的网页浏览行为相关联的效果。
根据本发明实施例,将社交应用与用户的网页浏览行为相关联,可以用于检测广告推广的效果,或者,选择性地进行广告营销等场景中。
优选地,目标网页上预先设置有监测代码,其中,记录单元包括:记录模块,用于监测代码记录用户终端浏览目标网页的当前浏览行为数据;获取单元包括:获取模块,用于监测代码获取用户终端跳转至目标网页的来源信息;第一爬取模块,用于基于来源信息爬取在用户终端上登录的社交应用账号的身份标识。
本发明实施例中,社交应用可以是博客、微博、朋友圈、空间等社交应用,监测代码可以是预先设置在目标网页中的JavaScript代码。以社交应用为微博为例,当微博网站上发布有插入超级链接的微博时,用户通过点击超级链接跳转至目标页面,此时,监测代码启动,将用户的当前浏览行为数据实时反馈至服务器。同时,监测代码还可以获取用户通过超级链接跳转进入目标网页的来源信息,例如用户终端上登录的微博的统一资源定位符(Uniform Resource Locator,简称为URL),基于该URL反向爬取在用户终端上登录的微博账号的身份标识
优选地,第一关联单元包括:查询模块,用于从用户终端上查询识别信息,识别信息为用户终端在浏览目标网页时存储在用户终端上用于识别用户终端的信息;第一关联模块,用于如果未查询到识别信息,则确定用户终端未浏览过目标网页,将当前浏览行为数据与在终端上登录的社交应用账号的身份标识建立关联关系;判断模块,用于如果查询到识别信息,则确定用户终端浏览过目标网页,判断记录的历史浏览行为数据是否与在终端上登录的社交应用账号的身份标识建立有关联关系;第二关联模块,用于如果判断出记录的历史浏览行为数据与在终端上登录的社交应用账号的身份标识建立有关联关系,则将当前浏览行为数据与在终端上登录的社交应用账号的身份标识建立关联关系;第三关联模块,用于如果判断出记录的历史浏览行为数据与在终端上登录的社交应用账号的身份标识未建立关联关系,则将记录的历史浏览行为数据和当前浏览行为数据分别与在终端上登录的社交应用账号的身份标识建立关联关系。
本发明实施例中,识别信息可以是用于识别用户终端的信息,该识别信息可以是由用户终端与目标网页的服务器建立连接时,目标网页的服务器存储在用户终端的用于识别用户终端的信息,例如Cookie。
具体地,可以通过预设设置在目标网页上布置JavaScript代码(即监测代码)当用户进入目标网页时,代码启动,实时反馈用户的浏览行为到服务器,并向用户本地储存一个识别信息(如Cookie)用以对后续用户访问目标网站时的身份识别。同时获取用户来到目标页面之前用户所在的URL。由于用户通过用户终端浏览目标网页时,目标网页的服务器会记录相应的浏览行为数据,如果用户终端在当前之前已经浏览过目标网页,则目标网页的服务器侧记录有历史浏览行为数据。如果查询到用户终端存储有该识别信息,则确定该用户终端浏览过目标网页,并将历史浏览行为数据和当前浏览行为数据一起与社交应用账号的身份标识建立关联关系,其中,如果历史浏览行为数据已经与社交应用账号的身份标识建立关联关系,则可以只将当前浏览行为数据与社交应用账号的身份标识建立关联关系。反之,如果用户终端未浏览过目标网页,再将当前浏览行为数据与社交应用账号的身份标识建立关联关系。
根据本发明实施例,由于从用户终端上查询到识别信息,可以将服务器记录的历史浏览行为数据与当前浏览行为数据快速地与用户社交应用账号的身份标识建立关联关系,如果没有从用户终端上查询到识别信息,则可以直接建立当前浏览行为数据与社交应用账号的身份标识的关联关系,这样,可以快速准确地进行广告营销。
优选地,数据处理装置还包括:匹配单元,用于在获取在用户终端上登录的社交应用账号的身份标识之后,将在用户终端上登录的社交应用账号的身份标识与社交应用资料库中记录的身份标识进行匹配;第二关联单元,用于如果在用户终端上登录的社交应用账号的身份标识匹配到社交应用资料库中的身份标识,则建立用户终端的当前浏览行为数据与匹配到的身份标识的关联关系;存储单元,用于如果在用户终端上登录的社交应用账号的身份标识未匹配到社交应用资料库中的身份标识,则将在用户终端上登录的社交应用账号的身份标识存储到社交应用资料库中,并建立用户终端的当前浏览行为数据与在终端上登录的社交应用账号的身份标识关联关系。
具体地,如果获取到的身份标识能够匹配到社交应用资料库中的身份标识,则将用户资料库中的该身份标识与记录的当前浏览行为数据建立关联关系;反之,如果未匹配到,则将获取到的身份标识存储到将用户资料库中,并利用爬虫爬取该身份标识对应的账户信息,然后在将该身份标识与当前浏览行为数据建立关联关系。
优选地,数据处理装置还包括:爬取单元,用于在获取在用户终端上登录的社交应用账号的身份标识之前,爬取社交应用的账户信息,账户信息包括多个社交应用账号的身份标识;创建单元,用于利用爬取的账户信息建立社交应用资料库。
在获取用户身份标识之前,爬取社交应用的账户信息,账户信息包括多个社交应用账号的身份标识,例如,同时爬取在博客、微博、朋友圈、空间等社交网站的用户账户信息,并将用户的账户信息建立为社交应用资料库。该社交应用资料库中包括社交应用账号的身份标识、性别、年龄、地域、学历、职业或兴趣标签等信息。例如,在根据跳转至目标页面之前的来源URL反向爬取用户在微博的ID之后,将该微博用户ID与社交应用资料库中的微博用户ID进行匹配。
具体地,预先设置爬虫爬取微博平台上用户的个人资料(微博ID、性别、年龄、地域、学历、职业、兴趣标签等)并在数据库中建立微博人物资料库。然后,爬虫根据监测代码得到的URL反向爬取用户在微博平台上的个人信息中的微博ID,将此ID与数据库中所有的微博ID进行匹配,找出该微博用户的相关信息。并与用户终端所储存的Cookie匹配,同时匹配上用户在目标网页的浏览行为。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,装置或单元的间接耦合或通信链接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
接收用户终端的链接请求,其中,所述链接请求为通过在所述用户终端上登录的社交应用触发跳转至目标网页的请求;
响应所述链接请求,并向所述用户终端返回所述目标网页;
记录所述用户终端通过所述社交应用链接到所述目标网页的当前浏览行为数据,所述当前浏览行为数据用于反映所述用户终端在所述目标网页上的当前浏览行为;
获取在所述用户终端上登录的社交应用账号的身份标识;以及
建立所述用户终端的所述当前浏览行为数据与在所述用户终端上登录的社交应用账号的身份标识关联关系。
2.根据权利要求1所述的数据处理方法,其特征在于,所述目标网页上预先设置有监测代码,其中,
记录所述用户终端浏览所述目标网页的当前浏览行为数据包括:所述监测代码记录所述用户终端浏览所述目标网页的当前浏览行为数据;
获取在所述用户终端上登录的社交应用账号的身份标识包括:所述监测代码获取所述用户终端跳转至所述目标网页的来源信息;基于所述来源信息爬取在所述用户终端上登录的社交应用账号的身份标识。
3.根据权利要求1所述的数据处理方法,其特征在于,建立所述用户终端的所述浏览行为数据与在所述终端上登录的社交应用账号的身份标识关联关系包括:
从所述用户终端上查询识别信息,所述识别信息为所述用户终端在浏览所述目标网页时存储在所述用户终端上用于识别所述用户终端的信息;
如果未查询到所述识别信息,则确定所述用户终端未浏览过所述目标网页,将所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立关联关系;
如果查询到所述识别信息,则确定所述用户终端浏览过所述目标网页,判断记录的历史浏览行为数据是否与在所述终端上登录的社交应用账号的身份标识建立有关联关系;
如果判断出记录的历史浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立有关联关系,则将所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立关联关系;
如果判断出记录的历史浏览行为数据与在所述终端上登录的社交应用账号的身份标识未建立关联关系,则将记录的历史浏览行为数据和所述当前浏览行为数据分别与在所述终端上登录的社交应用账号的身份标识建立关联关系。
4.根据权利要求1所述的数据处理方法,其特征在于,在获取在所述用户终端上登录的社交应用账号的身份标识之后,所述数据处理方法还包括:
将在所述用户终端上登录的社交应用账号的身份标识与社交应用资料库中记录的身份标识进行匹配,其中,所述社交应用资料库为预先建立的包含有多个社交应用账号的身份标识的资料库;
如果在所述用户终端上登录的社交应用账号的身份标识匹配到所述社交应用资料库中的身份标识,则建立所述用户终端的所述当前浏览行为数据与匹配到的身份标识的关联关系;
如果在所述用户终端上登录的社交应用账号的身份标识未匹配到所述社交应用资料库中的身份标识,则将在所述用户终端上登录的社交应用账号的身份标识存储到所述社交应用资料库中,并建立所述用户终端的所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识关联关系。
5.根据权利要求1至4任一项所述的数据处理方法,其特征在于,在获取在所述用户终端上登录的社交应用账号的身份标识之前,所述数据处理方法还包括:
爬取所述社交应用的账户信息,所述账户信息包括多个社交应用账号的身份标识;
利用爬取的账户信息建立社交应用资料库。
6.一种数据处理装置,其特征在于,包括:
接收单元,用于接收用户终端的链接请求,其中,所述链接请求为通过在所述用户终端上登录的社交应用触发跳转至目标网页的请求;
响应单元,用于响应所述链接请求,并向所述用户终端返回所述目标网页;
记录单元,用于记录所述用户终端通过所述社交应用链接到所述目标网页的当前浏览行为数据,所述当前浏览行为数据用于反映所述用户终端在所述目标网页上的当前浏览行为;
获取单元,用于获取在所述用户终端上登录的社交应用账号的身份标识;以及
第一关联单元,用于建立所述用户终端的所述当前浏览行为数据与在所述用户终端上登录的社交应用账号的身份标识关联关系。
7.根据权利要求6所述的数据处理装置,其特征在于,所述目标网页上预先设置有监测代码,其中,
所述记录单元包括:记录模块,用于所述监测代码记录所述用户终端浏览所述目标网页的当前浏览行为数据;
所述获取单元包括:获取模块,用于所述监测代码获取所述用户终端跳转至所述目标网页的来源信息;第一爬取模块,用于基于所述来源信息爬取在所述用户终端上登录的社交应用账号的身份标识。
8.根据权利要求6所述的数据处理装置,其特征在于,所述第一关联单元包括:
查询模块,用于从所述用户终端上查询识别信息,所述识别信息为所述用户终端在浏览所述目标网页时存储在所述用户终端上用于识别所述用户终端的信息;
第一关联模块,用于如果未查询到所述识别信息,则确定所述用户终端未浏览过所述目标网页,将所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立关联关系;
判断模块,用于如果查询到所述识别信息,则确定所述用户终端浏览过所述目标网页,判断记录的历史浏览行为数据是否与在所述终端上登录的社交应用账号的身份标识建立有关联关系;
第二关联模块,用于如果判断出记录的历史浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立有关联关系,则将所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识建立关联关系;
第三关联模块,用于如果判断出记录的历史浏览行为数据与在所述终端上登录的社交应用账号的身份标识未建立关联关系,则将记录的历史浏览行为数据和所述当前浏览行为数据分别与在所述终端上登录的社交应用账号的身份标识建立关联关系。
9.根据权利要求6所述的数据处理装置,其特征在于,所述数据处理装置还包括:
匹配单元,用于在获取在所述用户终端上登录的社交应用账号的身份标识之后,将在所述用户终端上登录的社交应用账号的身份标识与社交应用资料库中记录的身份标识进行匹配,其中,所述社交应用资料库为预先建立的包含有多个社交应用账号的身份标识的资料库;
第二关联单元,用于如果在所述用户终端上登录的社交应用账号的身份标识匹配到所述社交应用资料库中的身份标识,则建立所述用户终端的所述当前浏览行为数据与匹配到的身份标识的关联关系;
存储单元,用于如果在所述用户终端上登录的社交应用账号的身份标识未匹配到所述社交应用资料库中的身份标识,则将在所述用户终端上登录的社交应用账号的身份标识存储到所述社交应用资料库中,并建立所述用户终端的所述当前浏览行为数据与在所述终端上登录的社交应用账号的身份标识关联关系。
10.根据权利要求6至9任一项所述的数据处理装置,其特征在于,所述数据处理装置还包括:
爬取单元,用于在获取在所述用户终端上登录的社交应用账号的身份标识之前,爬取所述社交应用的账户信息,所述账户信息包括多个社交应用账号的身份标识;
创建单元,用于利用爬取的账户信息建立社交应用资料库。
CN201510115298.5A 2015-03-16 2015-03-16 数据处理方法和装置 Active CN106033579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510115298.5A CN106033579B (zh) 2015-03-16 2015-03-16 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510115298.5A CN106033579B (zh) 2015-03-16 2015-03-16 数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN106033579A true CN106033579A (zh) 2016-10-19
CN106033579B CN106033579B (zh) 2020-07-31

Family

ID=57150799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510115298.5A Active CN106033579B (zh) 2015-03-16 2015-03-16 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106033579B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886594A (zh) * 2017-02-21 2017-06-23 北京百度网讯科技有限公司 用于展示信息的方法和装置
CN108134760A (zh) * 2016-11-30 2018-06-08 北京国双科技有限公司 网站监测数据获取方法及装置
CN108153773A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种统计微信网页浏览数据的方法和系统
CN108205616A (zh) * 2016-12-16 2018-06-26 北京小米移动软件有限公司 身份信息校验方法及装置
CN108320247A (zh) * 2018-01-30 2018-07-24 宿州学院 一种多功能教学管理系统
CN108446287A (zh) * 2017-02-16 2018-08-24 北京国双科技有限公司 网页爬取方法及装置
CN109240581A (zh) * 2018-08-06 2019-01-18 Oppo(重庆)智能科技有限公司 终端控制方法、装置、终端设备及计算机可读存储介质
CN109727083A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 一种数据关联方法和装置
CN110019178A (zh) * 2017-07-21 2019-07-16 北京国双科技有限公司 数据的关联方法及装置
CN110191460A (zh) * 2019-05-29 2019-08-30 中国联合网络通信集团有限公司 一种新入网用户监测方法及平台
CN111193729A (zh) * 2019-12-20 2020-05-22 深圳前海金融资产交易所有限公司 跨终端用户身份识别方法、装置及计算机可读存储介质
CN111654518A (zh) * 2020-04-14 2020-09-11 北京奇艺世纪科技有限公司 内容推送方法、装置、电子设备及计算机可读存储介质
CN113395240A (zh) * 2020-03-12 2021-09-14 阿里巴巴集团控股有限公司 数据获取方法、装置、设备及介质
CN113434234A (zh) * 2021-06-29 2021-09-24 青岛海尔科技有限公司 页面跳转方法、装置、计算机可读存储介质及处理器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101193037A (zh) * 2007-03-29 2008-06-04 腾讯科技(深圳)有限公司 一种网络信息推送系统及方法
CN102387093A (zh) * 2011-10-06 2012-03-21 吴东辉 一种即时通讯好友和群组分享的方法和系统
CN103903166A (zh) * 2014-03-27 2014-07-02 朱发刚 一个基于移动应用的精准广告返利系统
CN104331821A (zh) * 2014-11-11 2015-02-04 北京金和软件股份有限公司 一种在移动终端上进行网络精准营销的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101193037A (zh) * 2007-03-29 2008-06-04 腾讯科技(深圳)有限公司 一种网络信息推送系统及方法
CN102387093A (zh) * 2011-10-06 2012-03-21 吴东辉 一种即时通讯好友和群组分享的方法和系统
CN103903166A (zh) * 2014-03-27 2014-07-02 朱发刚 一个基于移动应用的精准广告返利系统
CN104331821A (zh) * 2014-11-11 2015-02-04 北京金和软件股份有限公司 一种在移动终端上进行网络精准营销的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁兆云等: "微博数据挖掘研究综述", 《计算机研究与发展》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108134760A (zh) * 2016-11-30 2018-06-08 北京国双科技有限公司 网站监测数据获取方法及装置
CN108153773A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种统计微信网页浏览数据的方法和系统
CN108205616A (zh) * 2016-12-16 2018-06-26 北京小米移动软件有限公司 身份信息校验方法及装置
CN108446287A (zh) * 2017-02-16 2018-08-24 北京国双科技有限公司 网页爬取方法及装置
CN106886594A (zh) * 2017-02-21 2017-06-23 北京百度网讯科技有限公司 用于展示信息的方法和装置
CN106886594B (zh) * 2017-02-21 2020-06-02 北京百度网讯科技有限公司 用于展示信息的方法和装置
CN110019178A (zh) * 2017-07-21 2019-07-16 北京国双科技有限公司 数据的关联方法及装置
CN109727083A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 一种数据关联方法和装置
CN108320247A (zh) * 2018-01-30 2018-07-24 宿州学院 一种多功能教学管理系统
CN109240581A (zh) * 2018-08-06 2019-01-18 Oppo(重庆)智能科技有限公司 终端控制方法、装置、终端设备及计算机可读存储介质
CN110191460A (zh) * 2019-05-29 2019-08-30 中国联合网络通信集团有限公司 一种新入网用户监测方法及平台
CN110191460B (zh) * 2019-05-29 2021-11-19 中国联合网络通信集团有限公司 一种新入网用户监测方法及平台
CN111193729A (zh) * 2019-12-20 2020-05-22 深圳前海金融资产交易所有限公司 跨终端用户身份识别方法、装置及计算机可读存储介质
CN113395240A (zh) * 2020-03-12 2021-09-14 阿里巴巴集团控股有限公司 数据获取方法、装置、设备及介质
CN113395240B (zh) * 2020-03-12 2023-09-05 阿里巴巴集团控股有限公司 数据获取方法、装置、设备及介质
CN111654518A (zh) * 2020-04-14 2020-09-11 北京奇艺世纪科技有限公司 内容推送方法、装置、电子设备及计算机可读存储介质
CN111654518B (zh) * 2020-04-14 2022-05-17 北京奇艺世纪科技有限公司 内容推送方法、装置、电子设备及计算机可读存储介质
CN113434234A (zh) * 2021-06-29 2021-09-24 青岛海尔科技有限公司 页面跳转方法、装置、计算机可读存储介质及处理器
CN113434234B (zh) * 2021-06-29 2023-06-09 青岛海尔科技有限公司 页面跳转方法、装置、计算机可读存储介质及处理器

Also Published As

Publication number Publication date
CN106033579B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN106033579A (zh) 数据处理方法和装置
CN104834668A (zh) 基于知识库的职位推荐系统
CN107800591B (zh) 一种统一日志数据的分析方法
CN104391999B (zh) 信息推荐方法和装置
WO2011146391A2 (en) Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
US20140040225A1 (en) Displaying browse sequence with search results
CN106021586A (zh) 一种信息处理方法及服务器
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN104462397A (zh) 推广信息处理方法和装置
CN101916274A (zh) 对LinkUGC进行聚合显示的方法和系统
Agarwal et al. Stop tracking me bro! differential tracking of user demographics on hyper-partisan websites
CN103631957A (zh) 访客行为数据统计方法及装置
CN107357903A (zh) 用户行为数据整合方法、装置及电子设备
CN108292408A (zh) 检测web跟踪服务的方法
CN105740481A (zh) 搜索推荐方法和装置
CN107977678A (zh) 用于输出信息的方法和装置
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN107481039A (zh) 一种事件处理方法及终端设备
Au Yeung et al. Capturing implicit user influence in online social sharing
Kaushal et al. Methods for user profiling across social networks
CN105205046A (zh) 一种基于语义分析的在线用户推荐系统及方法
CN108280102A (zh) 上网行为记录方法、装置及用户终端
CN109615437A (zh) 销售获客跟踪管理方法
CN103227791B (zh) 一种无线数据采集的方法及装置
CN104462151B (zh) 评估网页发布时间的方法和相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant