CN105589956A - 一种用户画像的方法及装置 - Google Patents

一种用户画像的方法及装置 Download PDF

Info

Publication number
CN105589956A
CN105589956A CN201510968945.7A CN201510968945A CN105589956A CN 105589956 A CN105589956 A CN 105589956A CN 201510968945 A CN201510968945 A CN 201510968945A CN 105589956 A CN105589956 A CN 105589956A
Authority
CN
China
Prior art keywords
web site
site features
user
web
portrait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510968945.7A
Other languages
English (en)
Other versions
CN105589956B (zh
Inventor
贾宏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201510968945.7A priority Critical patent/CN105589956B/zh
Publication of CN105589956A publication Critical patent/CN105589956A/zh
Application granted granted Critical
Publication of CN105589956B publication Critical patent/CN105589956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用户画像的方法及装置。用户终端侧的方法包括:获取查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;向所述查询网站的服务器发送访问请求,所述访问请求包括所述网站特征身份标识;接收所述查询网站的服务器返回的访问响应,并通过所述访问响应判断用户是否访问过所述查询网站,获得判断结果;向画像网站的服务器发送所述判断结果,以便于所述画像网站的服务器对所述用户进行画像。本发明还提供一种画像网站的服务器侧的用户画像的方法。如此方案,可以对在画像网站上没有活动记录的用户,进行用户画像。

Description

一种用户画像的方法及装置
技术领域
本发明涉及数据处理领域,具体地,涉及一种用户画像的方法及装置。
背景技术
用户画像又称为用户角色(Persona),是一种勾画目标用户、联系用户诉求与设计方向的有效工具。举例来说,在产品开发时,可以分析用户画像,对产品进行定位与规划;在产品推广时,可以分析用户画像,挖掘潜在客户群体,进行有针对性的产品推荐。随着信息技术的不断发展,用户画像也随之应用于更多领域中。
作为一种示例,网站可以记录用户在网站上的访问行为,并基于该访问行为进行用户画像。但是,对于在网站上没有活动记录的用户来说,如新注册的用户,则网站无法基于访问行为进行用户画像。
发明内容
本发明的目的是提供一种用户画像的方法及装置,用以对在画像网站上没有活动记录的用户,进行用户画像。
本发明实施例提供了一种用户终端侧的用户画像的方法,所述方法包括:获取查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;向所述查询网站的服务器发送访问请求,所述访问请求包括所述网站特征身份标识;接收所述查询网站的服务器返回的访问响应,并通过所述访问响应判断用户是否访问过所述查询网站,获得判断结果;向画像网站的服务器发送所述判断结果,以便于所述画像网站的服务器对所述用户进行画像。
可选地,所述获取查询网站的网站特征身份标识,包括:接收所述画像网站的服务器发送的查询指令,所述查询指令包括所述查询网站的网站特征身份标识。
可选地,所述通过所述访问响应判断用户是否访问过所述查询网站,包括:判断所述访问响应中是否包括304状态码,如果是,则获得表示用户访问过所述查询网站的判断结果。
本发明实施例提供了一种画像网站的服务器侧的用户画像的方法,所述方法包括:向用户终端发送查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;接收所述用户终端发送的判断结果,所述判断结果由所述用户终端利用所述网站特征身份标识获得,所述判断结果表示用户是否访问过所述查询网站;利用所述判断结果对所述用户进行画像。
可选地,为所述查询网站创建网站特征树,所述网站特征树中包括的网站特征,从所述网站特征树的根节点向叶子节点逐层细化,所述向用户终端发送查询网站的网站特征身份标识,包括:从所述网站特征树中读取网站特征;利用读取到的网站特征生成查询指令,向所述用户终端发送所述查询指令。
可选地,所述从所述网站特征树中读取网站特征,包括:判断是否首次对所述用户进行用户画像;如果是,则读取位于所述根节点上的网站特征;如果否,则读取位于本级节点的下一层叶子节点上的网站特征,所述本级节点为上次对所述用户进行用户画像时使用的网站特征所在的节点。
可选地,所述为所述查询网站创建网站特征树,包括:遍历所述查询网站的页面,获得所述页面上的静态资源;获取所述静态资源的更新频率,将更新频率不超过预设频率的静态资源确定为网站特征;根据所述网站特征的粒度,逐层建立所述网站特征树。
可选地,利用所述判断结果,更新所述网站特征树,所述更新包括删除所述网站特征树中的节点和/或合并所述网站特征树中的节点。
本发明实施例提供了一种用户终端侧的用户画像的装置,所述装置包括:网站特征获取单元,用于获取查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;访问请求发送单元,用于向所述查询网站的服务器发送访问请求,所述访问请求包括所述网站特征身份标识;访问请求接收单元,用于接收所述查询网站的服务器返回的访问响应,并通过所述访问响应判断用户是否访问过所述查询网站,获得判断结果;判断结果发送单元,用于向画像网站的服务器发送所述判断结果,以便于所述画像网站的服务器对所述用户进行画像。
可选地,所述网站特征获取单元,具体用于接收所述画像网站的服务器发送的查询指令,所述查询指令包括所述查询网站的网站特征身份标识。
可选地,所述访问请求接收单元,具体用于判断所述访问响应中是否包括304状态码,如果是,则获得表示用户访问过所述查询网站的判断结果。
本发明实施例提供了一种画像网站的服务器侧的用户画像的装置,所述装置包括:网站特征发送单元,用于向用户终端发送查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;判断结果接收单元,用于接收所述用户终端发送的判断结果,所述判断结果由所述用户终端利用所述网站特征身份标识获得,所述判断结果表示用户是否访问过所述查询网站;用户画像单元,用于利用所述判断结果对所述用户进行画像。
可选地,为所述查询网站创建网站特征树,所述网站特征树中包括的网站特征,从所述网站特征树的根节点向叶子节点逐层细化,则所述网站特征发送单元包括:网站特征读取单元,用于从所述网站特征树中读取网站特征;查询指令生成单元,用于利用读取到的网站特征生成查询指令,向所述用户终端发送所述查询指令。
可选地,所述网站特征读取单元,具体用于判断是否首次对所述用户进行用户画像;如果是,则读取位于所述根节点上的网站特征;如果否,则读取位于本级节点的下一层叶子节点上的网站特征,所述本级节点为上次对所述用户进行用户画像时使用的网站特征所在的节点。
可选地,所述装置还包括:静态资源获得单元,用于遍历所述查询网站的页面,获得所述页面上的静态资源;网站特征确定单元,用于获取所述静态资源的更新频率,将更新频率不超过预设频率的静态资源确定为网站特征;特征树建立单元,用于根据所述网站特征的粒度,逐层建立所述查询网站的网站特征树,所述网站特征树中包括的网站特征,从所述网站特征树的根节点向叶子节点逐层细化。
可选地,所述装置还包括:更新单元,用于利用所述判断结果,更新所述网站特征树,所述更新包括删除所述网站特征树中的节点和/或合并所述网站特征树中的节点。
本发明技术方案中,在用户访问画像网站时,画像网站的服务器可以向用户终端提供查询网站的网站特征身份标识,以此触发用户终端通过网站特征,试探性的获取用户在查询网站的历史访问行为。具体地,如果用户在查询网站上有过历史访问行为,那么,在用户终端请求访问网站特征表示的查询网站上的静态资源时,查询网站的服务器会向用户终端返回包括304状态码的访问响应,用户终端据此便可获得用户在查询网站上的一条历史访问行为,并反馈至画像网站的服务器。对应于此,画像网站的服务器可以将上述历史访问行为,视为用户在本画像网站上可能的访问行为,并据此对用户进行画像。如此,即使用户在画像网站上没有活动记录,亦可实现本发明用户画像的目的。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明用户终端侧的用户画像的方法的流程图;
图2是本发明画像网站的服务器侧的用户画像的方法的流程图;
图3是本发明创建网站特征树的方法的流程图;
图4是本发明中一种网站特征树的示意图;
图5是本发明用户终端侧的用户画像的装置的结构示意图;
图6是本发明画像网站的服务器侧的用户画像的装置的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
在介绍本发明方案之前,先对本发明方案的实现原理做如下解释说明。
超文本传输协议(英文:HyperTextTransferProtocol,简称:HTTP)是互联网上应用最为广泛的一种网络协议。HTTP协议是一种典型的请求-响应协议,也就是说,用户可以通过浏览器向服务器发送资源请求,服务器则可对该请求进行响应。
通常,为了提高响应速度,浏览器会将一些已请求过的图片、文件等内容缓存在本地。举例来说,对于网页上展示的一张图片A来说,浏览器可以向服务器发送资源请求,获得图片A后,将图片A缓存在本地。这样,在浏览器下次向服务器请求图片A时,服务器可以判断图片A是否在上次请求之后发生过更新,如果图片A更新过,服务器则可通过响应,将更新后的图片A发送给浏览器;如果图片A没有更新,服务器则可通过响应,向浏览器返回表示资源未修改的304状态码,对应于此,浏览器便可将本地缓存的图片A展现给用户。与向浏览器返回图片A相比,传输状态码就可以减少网络传输数据,有助于提高响应速度。
综上,本发明方案,在需要对没有活动记录的用户进行用户画像时,便可以利用上述HTTP协议的特点,通过试探性的查询用户可能的历史访问行为,来构建用户画像。下面结合具体示例,对本发明方案做解释说明。
参见图1,示出了本发明用户终端侧的用户画像的方法的流程图,可以包括:
S101,获取查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源。
举例来说,用户A通过客户端浏览器访问网站A,且用户A在网站A上没有任何活动记录,那么,网站A即可称为画像网站,用户A就是需要进行画像的用户。
本发明为了进行用户画像,可以尝试利用查询网站,来分析用户可能的访问行为。举例来说,查询网站可以是新浪、网易、豆瓣等热门网站。也就是说,我们可以尝试获取用户A在查询网站上的历史访问行为,考虑到用户行为的一致性,可以将获取到的历史访问行为,视为用户A可能的在本画像网站上的访问行为,进而实现本发明用户画像的目的。
本步骤中,在用户A通过客户端浏览器访问网站A时,便可从网站A的服务器处获得查询网站的网站特征身份标识。举例来说,网站特征可以是图片、层叠样式表单(英文:CascadingStyleSheets,简称:CSS)等更新频率较低的静态资源,本发明实施例对此可不做具体限定。例如,网站特征可以为网站首页的logo图片。举例来说,网站特征身份标识可以为URL(英文:UniformResoureLocator,中文:统一资源定位符)等能对静态资源进行唯一标识的信息,本发明实施例对此亦可不做具体限定。
利用本发明方案进行用户画像时,可以先由画像网站的服务器,遍历查询网站的页面,获得网站特征。作为一种示例,画像网站的服务器获得一个查询网站的网站特征后,可以离散保存这些网站特征,并尝试利用每个网站特征进行用户画像;或者,还可以结合特征间存在的关联关系,按照特征粒度由粗到细,为查询网站创建一颗网站特征树,并结合网站特征树中的层级关系,选择网站特征进行用户画像。具体地,本发明还提供一种创建网站特征树的方案,可参照下文图3处所做介绍,此处暂不详述。
具体地,获取查询网站的网站特征时,可以是画像网站的服务器将查询网站的所有网站特征提供给用户终端,由用户终端根据需要从中获取本次用户画像使用的网站特征。或者,为了减少画像网站的服务器与用户终端之间的网络传输数据,也可以是画像网站的服务器根据需要,从查询网站的所有网站特征中,获取本次用户画像使用的网站特征,并通过查询指令将网站特征身份标识提供给用户终端。本发明实施例对获取网站特征身份标识的方式可不做具体限定。
另外,需要说明的是,在单次用户画像处理过程中,用户终端可以获得一个网站特征身份标识,并利用该网站特征,试探性的获取用户的历史访问行为;或者,用户终端也可以获得多个网站特征身份标识,即,并行利用所述多个网站特征,试探性的获取用户的历史访问行为。本发明实施例对此可不做具体限定。
S102,向所述查询网站的服务器发送访问请求,所述访问请求包括所述网站特征身份标识。
S103,接收所述查询网站的服务器返回的访问响应,并通过所述访问响应判断用户是否访问过所述查询网站,获得判断结果。
S101获得网站特征身份标识后,便可利用该标识生成访问请求,请求访问网站特征所表示的静态资源。查询网站的服务器接收到访问请求后,便可依据上文介绍的HTTP协议特点,向用户终端返回访问响应。举例来说,如果用户曾经访问过网站特征表示的静态资源,查询网站的服务器返回的访问响应中会包括304状态码,如此,便通过本发明方案获得了用户的一条历史访问行为。
具体地,本发明中通过访问响应判断用户是否访问过查询网站,获得判断结果,可体现为:判断所述访问响应中是否包括304状态码,如果是,则获得表示用户访问过所述查询网站的判断结果。需要说明的是,如果访问响应中不包括304状态码,可能用户确实没有访问过查询网站,也可能是用户曾经访问过,但强制刷新清除了访问记录,本发明对访问响应中不包括304状态码的情况可不做具体限定。举例来说,可以结合实际需求,在这种情况下,获得表示用户未访问过所述查询网站的判断结果;或者,也可以忽略这种情况,不做任何处理。
S104,向画像网站的服务器发送所述判断结果,以便于所述画像网站的服务器对所述用户进行画像。
获得用户是否访问过查询网站的判断结果后,便可将该判断结果反馈至画像网站的服务器,如此,即使对于在画像网站上没有活动记录的用户来说,也可以通过分析用户在查询网站上的历史访问行为,实现为用户画像的目的。
通常,为了丰富前端页面,可以通过在网页中嵌入JavaScript脚本的方式,给HTML(英文:HyperTextMarkupLanguage,中文:超级文本标记语言)网页增加动态功能。作为一种实现方式,本发明图1所示方案,可以由嵌在画像网站返给用户终端浏览器的页面中的JavaScript脚本实现。
参见图2,示出了本发明画像网站的服务器侧的用户画像的方法的流程图,可以包括:
S201,向用户终端发送查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源。
在需要进行用户画像时,画像网站的服务器可以向用户终端发送查询网站的网站特征身份标识,以此触发用户终端利用网站特征,试探性的获取用户在查询网站上的历史访问行为。
举例来说,如果首次利用本发明方案为某个用户进行用户画像,本步骤可以在用户终端请求访问画像网站后,由画像网站的服务器主动向用户终端发送查询指令;或者,画像网站的服务器也可以在用户终端的请求下,被动向用户终端发送查询指令,本发明实施例对此可不做具体限定。
举例来说,如果并非首次利用本发明方案为某个用户进行用户画像,本步骤可以是画像网站的服务器接收到用户终端针对上一次用户画像返回的判断结果后,被触发向用户终端发送查询指令。例如,针对用户A,使用粗粒度的网站特征进行一次用户画像后,为了获得用户A更精准的用户画像,画像网站的服务器可以继续获取细粒度的网站特征发送至用户终端,触发对用户A进行下一次用户画像。
如上文图1处所做介绍,对于查询网站的网站特征来说,画像网站的服务器可以根据特征间存在的关联关系,为查询网站创建一颗网站特征树。参见图3所示流程图,可以包括:
S301,遍历所述查询网站的页面,获得所述页面上的静态资源。
具体地,可以先选取查询网站的一个页面,通过爬虫程序遍历该页面内包括的所有内容,获得该页面上的静态资源。举例来说,可以先遍历查询网站的首页,然后由首页开始,尽量多的遍历查询网站的页面。
S302,获取所述静态资源的更新频率,将更新频率不超过预设频率的静态资源确定为网站特征。
可以设置一个遍历周期,如遍历周期为一天,并在一定时间段内(如一个月),按照所述遍历周期不断尝试向查询网站请求静态资源,根据查询网站的服务器返回的响应,获得每个静态资源的更新频率。可以理解的,静态资源的更新频率越低,在所述一定时间段内,查询网站的服务器返回的包括304状态码的响应就越多。
考虑到本发明方案基于HTTP协议特点进行用户画像,如果静态资源太过频繁的更新,那么,即使用户曾经访问过查询网站,可能访问响应里也不会包括304状态码。因此,本发明方案可以将更新频率较低的静态资源确定为网站特征,所谓更新频率较低可以理解为更新频率不超过预设频率,其中,预设频率可以结合实际应用而定,本发明实施例对此可不做具体限定。
S303,根据所述网站特征的粒度,逐层建立所述网站特征树。
本发明中的网站特征树,按照从根节点到底层叶子节点的方向,网站特征的粒度越来越细,每个节点处可以是一个网站特征列表,列表中包括至少一个网站特征的身份标识。作为一种示例,可参见图4所示网站特征树,根节点为基础类网站特征列表;在基础类网站特征列表之下,可进一步细化粒度为金融类网站特征列表和历史类网站特征列表;在历史类网站特征列表之下,还可进一步细化粒度为民国类网站特征列表和先秦类网站特征列表。
可以理解地,作为一种示例,位于根节点的网站特征可以是,从综合性查询网站上获取的关于历史、政治、财经、体育、文学、时尚等具有一般代表性的网站特征;位于叶子节点的网站特征可以是,从综合性查询网站的细分子页面和/或专业性查询网站上获取的更具代表性的网站特征。本发明实施例对网站特征粒度可不做具体限定,只要通过网站特征的逐层细化能更精准的对用户画像即可。
可选地,结合实际应用,还可以利用判断结果,更新本发明方案中的网站特征树,所述更新至少可以包括:删除所述网站特征树中的节点、合并所述网站特征树中的节点。
举例来说,针对网站特征A,基本上每个用户都会访问,则该特征对于用户画像来说意义不是很大,则可将该网站特征所在节点删除。或者,针对网站特征B和网站特征C,基本上用户每次都会同时访问,则可将这两个网站特征合并为1个,具体地,可以通过移除网站特征B或者移除网站特征C的方式实现所述合并。通过上述网站特征树更新方案,可以减少利用本发明网站特征树,试探性获取用户历史访问行为的次数,有助于提高本发明用户画像的效率。
另外,作为一种示例,如果网站特征的身份标识体现为网站特征的URL,那么,本发明方案中可以将静态资源的URL确定为网站特征的URL。
本步骤中,向用户终端发送查询网站的网站特征身份标识,画像网站的服务器可以将查询网站的所有网站特征发送给用户终端,由用户终端根据需要从中获取每次用户画像使用的网站特征。或者,为了减少画像网站的服务器与用户终端之间的网络传输数据,画像网站的服务器也可以根据需要,从查询网站的所有网站特征中,获取每次用户画像使用的网站特征,并通过查询指令将网站特征身份标识发送给用户终端。例如,从网站特征树中读取网站特征;并利用读取到的网站特征生成查询指令,将查询指令发送至用户终端。本发明实施例对画像网站的服务器向用户终端发送网站特征身份标识的方式可不做具体限定。
S202,接收所述用户终端发送的判断结果,所述判断结果由所述用户终端利用所述网站特征身份标识获得,所述判断结果表示用户是否访问过所述查询网站。
S203,利用所述判断结果对所述用户进行画像。
由图1所示方案可知,用户终端根据查询网站的服务器返回的访问响应,可以判断用户是否访问过查询网站,并以此获得用户的历史访问行为,这样,画像网站的服务器便可将用户的历史访问行为,作为该用户在本画像网站上可能的访问行为,完成用户画像。
可选地,基于本发明的网站特征树进行用户画像时,可以从根节点开始,通过不断迭代,逐层深入网站特征树的叶子节点,获得用户更为精准的画像。可以理解地,本发明方案中,每利用网站特征进行一次用户画像处理,便可视为完成一次迭代过程。
为了更好的理解本发明方案,下面再结合图4所示网站特征树,对本发明方案做解释说明。
1.用户A通过用户终端浏览器访问画像网站A,在画像网站A上完成注册,且没有任何活动记录。
2.画像网站A返回给浏览器的页面上运行的JavaScript脚本,可以向画像网站A的服务器发送查询请求。
3.画像网站A的服务器判定首次针对用户A进行用户画像时,可以从网站特征树中,读取位于根节点上的网站特征,本示例中,即读取基本类网站特征列表,并利用列表中包括的网站特征身份标识生成查询指令,发送至浏览器页面上运行的JavaScript脚本。举例来说,网站特征身份标识可以为起点中文网的logo图片的URL、凤凰财经的logo图片的URL和CSDN论坛的CSS。
4.JavaScript脚本通过查询指令中携带的网站特征身份标识,向查询网站的服务器发送访问请求,请求访问网站特征表示的静态资源。
5.查询网站的服务器判断用户A是否曾经访问过网站特征表示的静态资源,如果访问过,即有历史访问行为,则可向JavaScript脚本返回包括304状态码的访问响应;如果没有访问过,则返回的访问响应中不包括304状态码。举例来说,用户A曾经访问过起点中文网和凤凰财经,没有访问过CSDN论坛。
6.JavaScript脚本接收查询网站的服务器返回的访问响应,获得用户A是否访问过查询网站的判断结果,并将所述判断结果发送至画像网站的服务器。作为一种示例,可以通过查询响应将所述判断结果发送至画像网站的服务器,可选地,除判断结果之外,还可结合实际应用需求,通过查询响应携带其他信息发送至画像网站的服务器,本发明实施例对查询响应的构成方式、可携带内容等不做具体限定。
至此,画像网站的服务器便可根据本次迭代,对用户A进行第一次画像,可体现为:用户A可能不是IT从业人员,且用户A对阅读和时政比较感兴趣。
7.为了对用户A进行更为精准的用户画像,画像网站的服务器判定网站特征树中还有下一层叶子节点,可以继续从中选取下一次迭代时使用的网站特征。具体地,画像网站的服务器可以读取位于本级节点的下一层叶子节点上的网站特征,所述本级节点为上次对所述用户进行用户画像时使用的网站特征所在的节点。本示例中,可以读取历史类网站特征列表,也就是说,根节点即为上文所提本级节点。获得历史类网站特征列表后,可以利用列表中包括的网站特征身份标识生成查询指令,发送至JavaScript脚本。
8.JavaScript脚本接收到查询指令后,可以按照本发明图1所示方案进行处理,并向画像网站的服务器反馈本次迭代的判断结果。
至此,画像网站的服务器便可根据本次迭代,对用户A进行第二次画像,可体现为:用户A喜欢阅读与历史和政治相关的内容。
9.以此类推,画像网站的服务器、JavaScript脚本、查询网站的服务器,三者相互配合,通过不断迭代,深入网站特征树的各个节点,如本示例中的金融类网站特征列表、民国类网站特征列表和先秦类网站特征列表,每进行一次迭代,即可使用户画像更精确一些,直至遍历网站特征树的每个节点,画像网站便可得到用户A较为精准的用户画像。实现了本发明在画像网站上没有任何活动记录的情况下,对用户进行画像的目的。
需要说明的是,对用户画像精准度要求不高时,可以选择性的在网站特征树中选取部分节点,进行用户画像,对此可结合实际应用而定,本发明实施例可不做具体限定。
与图1所示方法相对应,本发明实施例还提供一种用户终端侧的用户画像的装置400,参见图5所示示意图,所述装置可包括:
网站特征获取单元401,用于获取查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;
访问请求发送单元402,用于向所述查询网站的服务器发送访问请求,所述访问请求包括所述网站特征身份标识;
访问请求接收单元403,用于接收所述查询网站的服务器返回的访问响应,并通过所述访问响应判断用户是否访问过所述查询网站,获得判断结果;
判断结果发送单元404,用于向画像网站的服务器发送所述判断结果,以便于所述画像网站的服务器对所述用户进行画像。
可选地,所述网站特征获取单元,具体用于接收所述画像网站的服务器发送的查询指令,所述查询指令包括所述查询网站的网站特征身份标识。
可选地,所述访问请求接收单元,具体用于判断所述访问响应中是否包括304状态码,如果是,则获得表示用户访问过所述查询网站的判断结果。
与图2所示方法相对应,本发明实施例还提供一种画像网站的服务器侧的用户画像的装置500,参见图6所示示意图,所述装置可包括:
网站特征发送单元501,用于向用户终端发送查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;
判断结果接收单元502,用于接收所述用户终端发送的判断结果,所述判断结果由所述用户终端利用所述网站特征身份标识获得,所述判断结果表示用户是否访问过所述查询网站;
用户画像单元503,用于利用所述判断结果对所述用户进行画像。
可选地,为所述查询网站创建网站特征树,所述网站特征树中包括的网站特征,从所述网站特征树的根节点向叶子节点逐层细化,则所述网站特征发送单元包括:网站特征读取单元,用于从所述网站特征树中读取网站特征;查询指令生成单元,用于利用读取到的网站特征生成查询指令,向所述用户终端发送所述查询指令。
可选地,所述网站特征读取单元,具体用于判断是否首次对所述用户进行用户画像;如果是,则读取位于所述根节点上的网站特征;如果否,则读取位于本级节点的下一层叶子节点上的网站特征,所述本级节点为上次对所述用户进行用户画像时使用的网站特征所在的节点。
可选地,所述装置还包括:静态资源获得单元,用于遍历所述查询网站的页面,获得所述页面上的静态资源;网站特征确定单元,用于获取所述静态资源的更新频率,将更新频率不超过预设频率的静态资源确定为网站特征;特征树建立单元,用于根据所述网站特征的粒度,逐层建立所述查询网站的网站特征树,所述网站特征树中包括的网站特征,从所述网站特征树的根节点向叶子节点逐层细化。
可选地,所述装置还包括:更新单元,用于利用所述判断结果,更新所述网站特征树,所述更新包括删除所述网站特征树中的节点和/或合并所述网站特征树中的节点。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (12)

1.一种用户画像的方法,其特征在于,所述方法包括:
获取查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;
向所述查询网站的服务器发送访问请求,所述访问请求包括所述网站特征身份标识;
接收所述查询网站的服务器返回的访问响应,并通过所述访问响应判断用户是否访问过所述查询网站,获得判断结果;
向画像网站的服务器发送所述判断结果,以便于所述画像网站的服务器对所述用户进行画像。
2.根据权利要求1所述的方法,其特征在于,所述获取查询网站的网站特征身份标识,包括:
接收所述画像网站的服务器发送的查询指令,所述查询指令包括所述查询网站的网站特征身份标识。
3.根据权利要求1或2所述的方法,其特征在于,所述通过所述访问响应判断用户是否访问过所述查询网站,包括:
判断所述访问响应中是否包括304状态码,如果是,则获得表示用户访问过所述查询网站的判断结果。
4.一种用户画像的方法,其特征在于,所述方法包括:
向用户终端发送查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;
接收所述用户终端发送的判断结果,所述判断结果由所述用户终端利用所述网站特征身份标识获得,所述判断结果表示用户是否访问过所述查询网站;
利用所述判断结果对所述用户进行画像。
5.根据权利要求4所述的方法,其特征在于,为所述查询网站创建网站特征树,所述网站特征树中包括的网站特征,从所述网站特征树的根节点向叶子节点逐层细化,所述向用户终端发送查询网站的网站特征身份标识,包括:
从所述网站特征树中读取网站特征;
利用读取到的网站特征生成查询指令,向所述用户终端发送所述查询指令。
6.根据权利要求5所述的方法,其特征在于,所述从所述网站特征树中读取网站特征,包括:
判断是否首次对所述用户进行用户画像;
如果是,则读取位于所述根节点上的网站特征;
如果否,则读取位于本级节点的下一层叶子节点上的网站特征,所述本级节点为上次对所述用户进行用户画像时使用的网站特征所在的节点。
7.根据权利要求5所述的方法,其特征在于,所述为所述查询网站创建网站特征树,包括:
遍历所述查询网站的页面,获得所述页面上的静态资源;
获取所述静态资源的更新频率,将更新频率不超过预设频率的静态资源确定为网站特征;
根据所述网站特征的粒度,逐层建立所述网站特征树。
8.根据权利要求5至7任一项所述的方法,其特征在于,所述方法还包括:
利用所述判断结果,更新所述网站特征树,所述更新包括删除所述网站特征树中的节点和/或合并所述网站特征树中的节点。
9.一种用户画像的装置,其特征在于,所述装置包括:
网站特征获取单元,用于获取查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;
访问请求发送单元,用于向所述查询网站的服务器发送访问请求,所述访问请求包括所述网站特征身份标识;
访问请求接收单元,用于接收所述查询网站的服务器返回的访问响应,并通过所述访问响应判断用户是否访问过所述查询网站,获得判断结果;
判断结果发送单元,用于向画像网站的服务器发送所述判断结果,以便于所述画像网站的服务器对所述用户进行画像。
10.一种用户画像的装置,其特征在于,所述装置包括:
网站特征发送单元,用于向用户终端发送查询网站的网站特征身份标识,所述网站特征用于表示所述查询网站上的静态资源;
判断结果接收单元,用于接收所述用户终端发送的判断结果,所述判断结果由所述用户终端利用所述网站特征身份标识获得,所述判断结果表示用户是否访问过所述查询网站;
用户画像单元,用于利用所述判断结果对所述用户进行画像。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
静态资源获得单元,用于遍历所述查询网站的页面,获得所述页面上的静态资源;
网站特征确定单元,用于获取所述静态资源的更新频率,将更新频率不超过预设频率的静态资源确定为网站特征;
特征树建立单元,用于根据所述网站特征的粒度,逐层建立所述查询网站的网站特征树,所述网站特征树中包括的网站特征,从所述网站特征树的根节点向叶子节点逐层细化。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
更新单元,用于利用所述判断结果,更新所述网站特征树,所述更新包括删除所述网站特征树中的节点和/或合并所述网站特征树中的节点。
CN201510968945.7A 2015-12-21 2015-12-21 一种用户画像的方法及装置 Active CN105589956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510968945.7A CN105589956B (zh) 2015-12-21 2015-12-21 一种用户画像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510968945.7A CN105589956B (zh) 2015-12-21 2015-12-21 一种用户画像的方法及装置

Publications (2)

Publication Number Publication Date
CN105589956A true CN105589956A (zh) 2016-05-18
CN105589956B CN105589956B (zh) 2018-11-27

Family

ID=55929535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510968945.7A Active CN105589956B (zh) 2015-12-21 2015-12-21 一种用户画像的方法及装置

Country Status (1)

Country Link
CN (1) CN105589956B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294597A (zh) * 2016-07-28 2017-01-04 百度在线网络技术(北京)有限公司 用于对网页的静态资源进行分组的方法和装置
CN106489159A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于深度神经网络的用户画像表示学习系统及方法
CN106790366A (zh) * 2016-11-22 2017-05-31 东软集团股份有限公司 访问网站识别方法和装置及构建用户画像的方法和服务器
CN108205575A (zh) * 2016-12-20 2018-06-26 北京国双科技有限公司 数据处理方法和装置
WO2018145637A1 (zh) * 2017-02-08 2018-08-16 广州市动景计算机科技有限公司 上网行为记录方法、装置及用户终端
CN110659414A (zh) * 2019-09-02 2020-01-07 惠州学院 一种基于用户画像的个性化信息推送方法及用户端
CN112035766A (zh) * 2020-08-05 2020-12-04 北京三快在线科技有限公司 网页访问方法、装置、存储介质及电子设备
CN113900907A (zh) * 2021-11-17 2022-01-07 杭州推啊网络科技有限公司 一种映射构建方法和系统
CN117370691A (zh) * 2023-10-08 2024-01-09 北京安锐卓越信息技术股份有限公司 一种页面加载方法、装置、介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079434A1 (en) * 1999-06-22 2000-12-28 Internet Dynamics, Inc. Query interface to policy server
CN101888341A (zh) * 2010-07-20 2010-11-17 上海交通大学 在分布式多信任域环境下基于可计算信誉度的访问控制方法
CN103914550A (zh) * 2014-04-11 2014-07-09 百度在线网络技术(北京)有限公司 展现推荐内容的方法和装置
CN104735062A (zh) * 2015-03-12 2015-06-24 微梦创科网络科技(中国)有限公司 一种网络用户注册方法及服务器
CN104933049A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 生成数字人的方法及系统
CN104991917A (zh) * 2015-06-23 2015-10-21 上海斐讯数据通信技术有限公司 广告个性化推送系统及方法
CN105005587A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种用户画像的更新方法、装置和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079434A1 (en) * 1999-06-22 2000-12-28 Internet Dynamics, Inc. Query interface to policy server
CN101888341A (zh) * 2010-07-20 2010-11-17 上海交通大学 在分布式多信任域环境下基于可计算信誉度的访问控制方法
CN104933049A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 生成数字人的方法及系统
CN103914550A (zh) * 2014-04-11 2014-07-09 百度在线网络技术(北京)有限公司 展现推荐内容的方法和装置
CN104735062A (zh) * 2015-03-12 2015-06-24 微梦创科网络科技(中国)有限公司 一种网络用户注册方法及服务器
CN104991917A (zh) * 2015-06-23 2015-10-21 上海斐讯数据通信技术有限公司 广告个性化推送系统及方法
CN105005587A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种用户画像的更新方法、装置和系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106489159A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于深度神经网络的用户画像表示学习系统及方法
CN106294597A (zh) * 2016-07-28 2017-01-04 百度在线网络技术(北京)有限公司 用于对网页的静态资源进行分组的方法和装置
CN106294597B (zh) * 2016-07-28 2019-09-20 百度在线网络技术(北京)有限公司 用于对网页的静态资源进行分组的方法和装置
CN106790366A (zh) * 2016-11-22 2017-05-31 东软集团股份有限公司 访问网站识别方法和装置及构建用户画像的方法和服务器
CN108205575A (zh) * 2016-12-20 2018-06-26 北京国双科技有限公司 数据处理方法和装置
WO2018145637A1 (zh) * 2017-02-08 2018-08-16 广州市动景计算机科技有限公司 上网行为记录方法、装置及用户终端
CN110659414A (zh) * 2019-09-02 2020-01-07 惠州学院 一种基于用户画像的个性化信息推送方法及用户端
CN110659414B (zh) * 2019-09-02 2023-01-13 惠州学院 一种基于用户画像的个性化信息推送方法及用户端
CN112035766A (zh) * 2020-08-05 2020-12-04 北京三快在线科技有限公司 网页访问方法、装置、存储介质及电子设备
CN113900907A (zh) * 2021-11-17 2022-01-07 杭州推啊网络科技有限公司 一种映射构建方法和系统
CN113900907B (zh) * 2021-11-17 2024-01-30 杭州推啊网络科技有限公司 一种映射构建方法和系统
CN117370691A (zh) * 2023-10-08 2024-01-09 北京安锐卓越信息技术股份有限公司 一种页面加载方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN105589956B (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN105589956A (zh) 一种用户画像的方法及装置
US10817663B2 (en) Dynamic native content insertion
JP6410280B2 (ja) ウェブサイト・アクセス方法、装置、およびウェブサイト・システム
CN104915398B (zh) 一种网页埋点的方法及装置
US10839038B2 (en) Generating configuration information for obtaining web resources
EP2653987B1 (en) Displaying web pages without downloading static files
JP6091579B2 (ja) ウェブページのネストしたフラグメントキャッシングを処理する方法および装置
CN102193953A (zh) 桌面应用迁移系统和方法
CN103502983A (zh) 利用基于DOM的同构来备忘缓存Web浏览计算
CN103605739A (zh) 热力图的显示方法及装置
CN1251669A (zh) 跟踪客户端与网络资源交互并创建客户端配置和资源数据库的方法和设备
CN109634753B (zh) 切换浏览器内核的数据处理方法、装置、终端和存储介质
CN1234086C (zh) 用于高速缓存文件信息的系统和方法
CN103051706A (zh) 应用于动态网站的动态网页请求处理系统和方法
CN103246699A (zh) 一种基于浏览器的数据访问控制方法和装置
CN106202368B (zh) 预加载方法和装置
CN105488205A (zh) 页面生成方法和装置
CN103618773A (zh) 热力图的显示方法、装置及系统
CN103955495A (zh) 页面子资源的下载方法及装置
CN109688205A (zh) 网页资源的拦截方法及装置
US20080065677A1 (en) Analyzing web site traffic
CN101650713A (zh) 在浏览器中实现标签页的方法与装置
CN105653724A (zh) 一种页面曝光量的监控方法和装置
CN106796695A (zh) 应用安装的转化和识别
CN111143732A (zh) 网页渲染方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant