CN102103603A - 用户行为数据分析方法和装置 - Google Patents

用户行为数据分析方法和装置 Download PDF

Info

Publication number
CN102103603A
CN102103603A CN2009102428747A CN200910242874A CN102103603A CN 102103603 A CN102103603 A CN 102103603A CN 2009102428747 A CN2009102428747 A CN 2009102428747A CN 200910242874 A CN200910242874 A CN 200910242874A CN 102103603 A CN102103603 A CN 102103603A
Authority
CN
China
Prior art keywords
user
sampling
customer group
behavior data
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102428747A
Other languages
English (en)
Inventor
王黎亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2009102428747A priority Critical patent/CN102103603A/zh
Publication of CN102103603A publication Critical patent/CN102103603A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种用户行为数据分析方法和装置。该方法包括:获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息;根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成第二采样用户群;确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的统计项的兴趣程度的差异权值。本发明根据用户的互联网历史行为数据评估不同采样用户群搜索预设的统计项的差异权值,差异权值反映了某一采样用户群中用户的潜在兴趣点,如果依此确定广告投放策略,将有利于提高广告投放的精准性。

Description

用户行为数据分析方法和装置
技术领域
本发明涉及互联网技术,特别是涉及一种用户行为数据分析方法和装置。
背景技术
用户互联网行为主要是指用户使用互联网软件和互联网信息进行交互的行为,包括用户获取或提供互联网信息等行为。对用户互联网行为数据进行分析可为广告投放和相关产品推荐提供有效的参考信息,已广泛应用于互联网广告推送等业务。
现有技术通常是对获取的互联网用户的一些静态属性,如对互联网用户的性别,年龄,教育程度和收入水平等静态属性对用户行为进行分析,然后根据用户访问的网站的内容匹配相关的广告。例如:当一个年轻的白领女性用户访问到一个健康保养之类的网站时,该网站可能给该用户投放保洁公司提供的护肤类的产品广告等。
发明人在实现本发明过程中发现,对于广告策划而言,除了抓住主要的显式用户群,广告主往往希望能够开发潜在的用户群。现有技术针对用户的静态属性进行用户行为分析,通常只能获取显式用户群的信息,因而不利于广告的精准投放。
发明内容
本发明提供一种用户行为数据分析方法和装置,有利于提高广告投放的精准性。
本发明提供了一种用户行为数据分析方法,包括:
获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息;
根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成第二采样用户群;
确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的统计项的兴趣程度的差异权值。
本发明提供了一种用户行为数据分析装置,包括:
用户行为数据获取模块,用于获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息;
抽样模块,用于根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成第二采样用户群;
分析模块,用于确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的统计项的兴趣程度的差异权值。
本发明实施例通过对用户的互联网历史行为数据进行分析,评估不同采样用户群搜索预设的统计项的差异权值,差异权值反映了某一采样用户群中用户的潜在兴趣点,如果根据用户的潜在兴趣点确定广告投放策略,将有利于提高广告投放的精准性,使得广告在合适的位置展现给合适的人群,从而达到较佳的广告宣传效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明用户行为数据分析方法实施例的流程图;
图2为本发明用户行为数据分析装置实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明用户行为数据分析方法实施例的流程图。如图1所示,本实施例用户行为数据分析方法包括:
步骤11、获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息。
用户的互联网历史行为主要是指用户使用互联网软件或互联网信息的行为,互联网历史行为数据为用户在预设时间段内使用互联网的信息,如在过去的一个月内或一周内用户使用互联网的数据记录。可选的,任一用户的互联网历史行为数据可包括:在预设时间段内的用户通过互联网搜索信息行为的多条数据记录,每条所数据记录包括以下信息的一种或多种组合:用户标识、用户提交的搜索关键词、搜索行为的发生时间、访问的网页地址信息和用户使用互联网的其他信息等。
第一采样用户群可包括全网范围内的所有用户,或者,也可包括访问某一网站的所有用户,或者,还可由根据某些预设的抽样条件预先抽样出来的用户组成,具体涉及用户的范围可根据实际需要确定。
步骤12、根据预设的抽样条件对第一采样用户群的各用户进行抽样,抽出的用户组成第二采样用户群。
第二采样用户群为在第一采用用户群包括的用户范围内,根据抽样条件确定的新的用户群。抽样条件可根据实际需要预先设定,例如可采用随机抽样、特定搜索关键词过滤抽样、访问的特定网页地址信息(如网页的统一定位符(Uniform Resource Location,简称URL))过滤抽样或其他抽样方式,确定新的用户群(即第二采样用户群)。随机抽样即为随机选取第一采样用户群中的用户,得到预设抽样数量的用户以组成第二采样用户群。特定搜索关键词过滤抽样就是根据预设的一个或多个特定搜索关键词,对访问第一采样用户群中的用户进行采样过滤,由采样过滤后的用户组成第二采样用户群,可选的,还可在采样过滤后的用户中随机抽取预设数量的用户,由这些用户组成第二采样用户群。访问的特定网页地址信息是根据预设的特定网页的URL,按照模糊或者精确匹配的方式对第一采样用户群的各进行采样过滤,采样过滤后的用户可组成第二采样用户群,可选的,还可在采样过滤后的用户中随机抽取预设数量的用户,由这些用户组成第二采样用户群。上述抽样方式可单独使用,亦可组合使用。
在实际应用过程中,广告主在策划广告投放策略过程可将待投放广告自身的特定,确定相关关键词或相关网页,将一个或多个相关关键词作为特定搜索关键词,和/或,将一个或多个相关网页的URL作为访问的特定网页地址信息。可选的,如果抽样条件包括特定搜索关键词,该情形下,可在所述第一采样用户群的各用户中,抽取互联网历史行为数据中包括上述特定搜索关键词的用户,即抽取在预设时间段内曾采用上述特定搜索关键词搜索信息的用户。或者,如果抽样条件包括特定网页地址信息,该情形下,可在所述第一采样用户群的各用户中,抽取互联网历史行为数据中包括所述特定网页地址信息的用户,即抽取在预设时间段内曾访问上述特定网页地址的用户。抽取出的用户组成第二采样用户群。
步骤13、确定第二采样用户群的用户相对于第一采样用户群的用户,对于预设的统计项的兴趣程度的差异权值。
在确定差异权值时,可选的,可统计第一概率和第二概率,其中,第一概率为:第一采样用户群的多个随机采样子群中用户的互联网历史行为数据包括预设统计项的平均概率。第二概率为:第二概率为:第二采样用户群的多个随机采样子群中用户的互联网历史行为数据包括预设统计项的平均概率。
可将第一采样用户群中采用随机抽样的方式,确定多个随机采样子群,每个随机采样子群中包括的用户为第一采样用户群中的部分用户,且不同随机采样子群包括的用户不同或不完全相同。第二采样用户群确定随机采样子群的方法相同。不妨将第一采样用户群的任一随机采样子群的中用户的互联网历史行为数据包括预设统计项的概率,称为“第一子概率”,将第二采样用户群的任一随机采样子群的中用户的互联网历史行为数据包括预设统计项的概率,称为“第二子概率”。
预设的统计项可包括某个或某些搜索关键词等。如果抽样条件包括特定搜索关键词,则统计项中包括的搜索关键词可与抽样条件包括的特定搜索关键词不同。抽样条件包括的特定搜索关键词主要是用于确定特定用户群,对采用用户进行进一步的分类。统计项包括的搜索关键词主要是用于统计每一类用户群中每个用户的互联网历史行为数据中包括有该搜索关键词的比例,即相当于统计某个用户群中每个用户在预设时间段内是用该搜索关键词的概率。
统计过程中主要用到的数据结构可为统计字典,如哈希(hash)字典。统计完成之后,每个随机采样子群统计过程中都可得到类似于表1所示的表格,表1中的“汽车”或“鲜花”为某一统计项。
表1某一采样用户群的某一随机采样子群统计数据示例
  统计项(搜索关键词)   搜索用户数(单位:个)   总的搜索次数(单位:次)
  汽车   100002   98983984
  鲜花   103034   9892832398
任一随机采样子群中用户的互联网历史行为数据包括预设统计项的概率,即第一子概率或第二子概率等于,相应随机采样子群中各用户在预设时间段内搜索过统计项的总次数,与该随机采样子群中搜索过统计项的用户数量的商值。如表1中,对于“汽车”统计项中,该随机采样子群的子概率等于,总的搜索次数(98983984)除以搜索用户数(100002)得到的商值。
差异权值可根据预先确定的门限条件划分为多个等级,例如:将差异权值设置为“0”或“1”,其中“0”表示不存在显著差异,“1”表示存在显著差异。所述第一概率分布为第一子概率和第一子概率方差的正态分布,所述第二概率分布为第二子概率和第二子概率方差的正态分布。如果所述第二概率和第一概率的差异分布,遵循所述第二子概率和第一子概率之差以及所述第二子概率方差和所述第一子概率方差之和的正态分布,则可确定第二采样用户群的用户相对于所述第一采样用户群的用户,对于所述统计项的兴趣程度存在显著差异,差异权值可为“1”;否则,不存在显著差异,差异权值可为“0”。
下面结合具体实例,说明两个采样用户群的用户对于所述统计项的兴趣程度的差异权值的确定方法。
令:第一采样用户群的第一概率分布为Y,在第一采样用户群中随机抽取J个随机采样子群,任一采样样本子群的第一子概率为U2j,m表示采样样本子群的序号且1≤j≤J,两个随机采样子群的第一子概率的方差为Q2j,第一概率分布Y服从U2j和Q2j的正态分布,即Y~N(U2j,Q2j)。
令:第二采样用户群的第二概率分布为X,在第二采样用户群中随机抽取I个随机采样子群,任一随机采样子群的第二子概率为U1i,m表示随机采样子群的序号且1≤i≤I,两个随机采样子群的第二子概率的方差为Q1i,第二概率分布X服从U1i和Q1i的正态分布,即X~N(U1i,Q1i);
根据上述X和Y的分布情况,得到X和Y的差异分布。假设:两个采样用户群的用户对于所述统计项的兴趣程度没有存在显著差异,则第二概率分布和第一概率分布之间的差异分布,服从第二子概率和第一子概率之差U1i-U2j以及第二子概率方差和第一子概率方差和Q1i+Q2j的正态分布,即X-Y~N(U1i-U2j,Q1i+Q2j)。
接下来通过观测值是否落入X-Y正态分布的置信区间的方法,验证上述假设是否成立:
通过确定随机采样子群,统计得到各随机采样子群的子概率,这些子概率中第一子概率和第二子概率的差值作为观测值U’1i-U’2j,。判断观测值U’1i-U’2j,是否落入X-Y正态分布的预设置信区间:如X-Y正态分布的95%置信区间。如果观测值U’1i-U’2j,落入X-Y正态分布的预设置信区间,则假设成立,两个采样用户群的用户对于所述统计项的兴趣程度没有存在显著差异;否则,假设不成立,两个采样用户群的用户对于所述统计项的兴趣程度存在显著差异。该情形下,可将差异权值设置为“1”。
优选的,可采用以下公式确定具体的差异权值:
差异权值=log10(第二概率/第一概率)。
通过上述方法可确定两个采样用户群的用户相对于某统计项的兴趣程度的差异权值,差异权值可表示两个采样用户群的用户相对于某统计项的兴趣程度是否存在显著差异,如果存在显著差异,则差异程度多少。如果差异权值较大,则说明第二采样用户群中的用户成为其统计项(如“汽车”)相关的广告的目标用户的几率较大,是其统计项(如“汽车”)相关的广告的潜在用户。
在统计、分析完成后,分析结果和中间的统计数据被保存在数据库中。广告主可通过web方式进行查询。查询时根据差异权值进行逆序排序。如果满足查询条件的分析结果较多,可只显示差异权值较大的分析结果,例如:根据差异权值的从大到小的顺序排序,显示差异权值较大的前100个分析结果。
在上述技术方案的基础上,为了提高广告主获取用户行为数据分析结果的针对性和方便性,可选的,步骤12之前还可包括:接收查询请求,该查询请求包括预设的所述抽样条件和所述预设统计项;根据查询请求获取抽样条件和统计项。
在上述技术方案的基础上,如果第一采样用户群的用户数量很大,为了提高采样的效率,以快速地通过搜索的关键词或者是浏览的网页URL定位对应的用户标识的集合,可选的,步骤12可具体包括:根据抽样条件,建立抽样条件到第一采样用户群中各用户标识的倒排索引(Inverted Index),在建立好的倒排索引中进行用户采样。可选的,如果抽样条件包括特定搜索关键词,则可建立特定搜索关键字到第一采样用户群中各用户标识的倒排索引,在倒排索引中抽取互联网历史行为数据中包括特定搜索关键词的用户,抽取的用户组成第二采样用户群。或者,如果抽样条件包括特定网页地址信息,则可建立特定网页地址信息到第一采样用户群中各用户标识的倒排索引,在第一采样用户群的各用户中,抽取互联网历史行为数据中包括特定网页地址信息的用户。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。可选的,倒排索引可通过通用索引框架建立,其基本原理是为每一条数据记录建立一一对应的密集索引(Dense Index),密集索引记录中记录特定索引关键字和数据记录的偏移量。在密集索引的基础上建立多级稀疏索引(Spare Index),稀疏索引项的指针指向一组数据记录在磁盘中的起始位置,密集索引项的指针指向磁盘中的一个数据记录。每一条稀疏索引映射上一级索引的n条数据记录,n的值是根据上一级索引记录的大小和默认块缓冲区大小计算得到的。当数据记录排好序后,建立的多级索引的查找就接近一个二分查找的过程,可快速地通过特定搜索关键词或者是访问的网页URL定位对应的用户标识的集合。建好的索引和数据文件被当作准备数据文件,以进行后续的采样处理。
本发明实施例通过对用户历史行为数据的分析,根据用户的互联网历史行为来预测用户的潜在兴趣点。例如:假设兴趣点1为汽车,兴趣点2为手机或笔记本电脑。本发明实施例通过分析用户的互联网历史行为可以发现搜索过汽车的人群,往往比没有搜索过汽车的其他人群更加关注手机或笔记本电脑。这些兴趣点的关联信息可以指导广告主扩大其潜在的广告目标用户群,如需要发布手机或笔记本电脑信息的广告主,可向搜索过汽车的人群也发布广告。
可选的,可将用户访问的网页地址信息作为统计项,并确定不同用户群在搜索该统计项的概率的差异权值,方便广告主获知其广告的目标用户群在不同网站上的分布情况,以便广告主确定广告投放的具体位置。
相对于现有技术根据静态属性预先划定的用户群体的特征而言,本发明实施例通过对用户的互联网历史行为数据进行分析,评估不同采样用户群搜索预设的统计项的概率的差异权值,差异权值反映了某一采样用户群中用户的潜在兴趣点,如果根据用户的潜在兴趣点确定广告投放策略,将有利于提高广告投放的精准性,使得广告在合适的位置展现给合适的人群,从而达到较佳的广告宣传效果。
在上述技术方案的基础上,可对各项过程数据进行存储,以便于进一步获取不同用户行为数据之间的关联信息。可选的,可将上述各随机采样子群、统计项与相应子概率的映射关系、各采样用户群、统计项与相应差异权值的映射关系、以及各采样用户群、统计项与相应概率分布的映射关系等信息,进行存储,以便获取在同一采用用户群中,不同随机采样子群的用户行为数据之间的关联信息,从而为确定广告投放策略的制定提供有效的参考信息。利用已经获取的上述映射关系进一步确定用户行为数据之间的关联信息,使得关联信息的确定不需要在遍历所有用户的用户历史行为数据,从而有利于提高关联信息获取的效率。
下面对某一用户群中存储的统计项与子概率之间的映射关系,获取不同统计项之间关联信息的扩展应用进行举例说明。
根据某一范围用户群的互联网历史行为数据,例如:根据百度全网用户群的用户历史行为数据,可计算用户“既搜索过鲜花又搜索过汽车”的平均概率为P(搜索过鲜花and搜索过汽车),用户“搜索过鲜花”的平均概率为P(搜索过鲜花),用户“搜索过汽车”的平均概率为P(搜索过汽车),这些信息为已存储的信息,则:
全网用户群中用户“搜索过鲜花再搜索汽车”的条件概率P(搜索过汽车|搜索过鲜花),具体如下:
P(搜索过汽车|搜索过鲜花)=P(搜索过鲜花and搜索过汽车)/P(搜索过鲜花),反映了从搜索鲜花的用户转化成搜索汽车用户的几率,相当于在全网用户群抽样得到的“搜索过鲜花”的采样用户群“搜索过汽车”的概率。
全网用户群中,用户“搜索过汽车再搜索鲜花”的条件概率P(搜索过鲜花|搜索过汽车),具体如下:
P(搜索过鲜花|搜索过汽车)=P(搜索过鲜花and搜索过汽车)/P(搜索过汽车),反映了从搜索汽车的用户转化成搜索鲜花用户的几率,相当于在全网用户群抽样得到的“搜索过汽车”的采样用户群“搜索过鲜花”的概率,这些数据对挖掘搜索关键词表达的用户需求之间的潜在关系提供了重要的线索,为广告主确定合理的广告配词提供了有效信息。例如:如果P(搜索过汽车|搜索过鲜花)的值较大,则鲜花广告主可将“汽车”作为其广告配词,当用户采用“汽车”作为搜索关键词进行搜索时,可向该用户推送鲜花的广告,或者,在“汽车”相关的网站上投放鲜花广告等。
由于本发明实施例可根据用户历史行为数据确定用户潜在兴趣,可参考用户潜在兴趣确定广告配词,因此,有利于提高广告投放的精准性。
图2为本发明用户行为数据分析装置实施例的结构示意图。如图2所示,本实施例用户行为数据分析装置包括:用户行为数据获取模块21、抽样模块22和分析模块23。
用户行为数据获取模块21用于获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息。任一用户的所述互联网历史行为数据包括:在预设时间段内的用户通过互联网搜索信息行为的多条数据记录,每条所述数据记录包括:用户标识、用户提交的搜索关键词、搜索行为的发生时间、和/或访问的网页地址信息。
抽样模块22用于根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成第二采样用户群。
分析模块23用于确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的统计项的兴趣程度的差异权值。
在上述技术方案的基础上,可选的,用户行为数据分析装置还可包括:统计模块24。
统计模块24用于统计第一概率和第二概率,所述第一概率为:所述第一采样用户群的多个随机采样子群中用户的互联网历史行为数据包括预设统计项的平均概率;所述第二概率为:所述第二概率为:所述第二采样用户群的多个随机采样子群中用户的互联网历史行为数据包括预设统计项的平均概率。
相应的,分析模块23还用于根据所述第一概率和所述第二概率,确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于所述统计项的兴趣程度的差异权值。
在上述技术方案的基础上,可选的,用户行为分析装置还可包括:任务管理器25。
任务管理器25用于接收查询请求,所述查询请求包括预设的所述抽样条件和预设的所述统计项;根据所述查询请求获取所述抽样条件和所述统计项,将获取的抽样条件和统计项发送给抽样模块22。
在上述技术方案的基础上,可选的,用户行为分析装置还可包括:存储模块26。
存储模块26用于存储统计和/或分析的过程数据,例如:建立并存储以下信息至少之一:各随机采样子群、统计项与相应概率的映射关系;各采样用户群、统计项与相应差异权值的映射关系;各采样用户群、统计项与相应概率分布的映射关系。
在上述技术方案的基础上,可选的,用户行为分析装置还可包括:Web服务器27。
Web服务器27是用户行为数据分析装置与装置外部进行通信的接口,用于接收用户输入的广告投放策略相关的查询信息,并显示与该查询信息相应的差异权值或概率。
本实施例通过对用户的互联网历史行为数据进行分析,评估不同采样用户群搜索预设的统计项的概率的差异权值,差异权值反映了某一采样用户群中用户的潜在兴趣点,如果根据用户的潜在兴趣点确定广告投放策略,将有利于提高广告投放的精准性,使得广告在合适的位置展现给合适的人群,从而达到较佳的广告宣传效果。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种用户行为数据分析方法,其特征在于,包括:
获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息;
根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成第二采样用户群;
确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的统计项的兴趣程度的差异权值。
2.根据权利要求1所述的用户行为数据分析方法,其特征在于,对所述第一采样用户群中的各用户进行抽样之前,还包括:
接收查询请求,所述查询请求包括预设的所述抽样条件和预设的所述统计项;
根据所述查询请求获取所述抽样条件和所述统计项。
3.根据权利要求1或2所述的用户行为数据分析方法,其特征在于,
所述抽样条件包括特定搜索关键词,根据所述抽样条件对所述第一采样用户群的各用户进行抽样,包括:在所述第一采样用户群的各用户中,抽取互联网历史行为数据中包括所述特定搜索关键词的用户;或者
所述抽样条件包括特定网页地址信息,根据所述抽样条件对所述第一采样用户群的各用户进行抽样,包括:在所述第一采样用户群的各用户中,抽取互联网历史行为数据中包括所述特定网页地址信息的用户。
4.根据权利要求1或2所述的用户行为数据分析方法,其特征在于,
所述抽样条件包括特定搜索关键词,根据所述抽样条件对所述第一采样用户群的各用户进行抽样,包括:建立所述特定搜索关键字到所述第一采样用户群中各用户标识的倒排索引,在所述倒排索引中抽取互联网历史行为数据中包括所述特定搜索关键词的用户;或者
所述抽样条件包括特定网页地址信息,根据所述抽样条件对所述第一采样用户群的各用户进行抽样,包括:建立所述特定网页地址信息到所述第一采样用户群中各用户标识的倒排索引,在所述第一采样用户群的各用户中,抽取互联网历史行为数据中包括所述特定网页地址信息的用户。
5.根据权利要求1所述的用户行为数据分析方法,其特征在于,
确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于所述统计项的兴趣程度的差异权值之前,还包括:统计第一概率和第二概率,所述第一概率为:所述第一采样用户群的多个随机采样子群中用户的互联网历史行为数据包括所述统计项的平均概率;所述第二概率为:所述第二概率为:所述第二采样用户群的多个随机采样子群中用户的互联网历史行为数据包括所述统计项的平均概率;
确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于所述统计项的兴趣程度的差异权值,包括:根据所述第一概率和所述第二概率,确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于所述统计项的兴趣程度的差异权值。
6.根据权利要求5所述的用户行为数据分析方法,其特征在于,采用以下公式确定所述差异权值:
差异权值=log10(第二概率/第一概率)。
7.根据权利要求5所述的用户行为数据分析方法,其特征在于,所述第一采样用户群或所述第二采样用户群中,任一随机采样子群中用户的互联网历史行为数据包括所述统计项的概率等于,相应随机采样子群中各用户在预设时间段内搜索过所述统计项的总次数,与该随机采样子群中搜索过所述统计项的用户数量的商值。
8.根据权利要求5所述的用户行为数据分析方法,其特征在于,还包括建立并存储以下信息至少之一:
各随机采样子群、统计项与相应概率的映射关系;
各采样用户群、统计项与相应差异权值的映射关系;
各采样用户群、统计项与相应概率分布的映射关系。
9.一种用户行为数据分析装置,其特征在于,包括:
用户行为数据获取模块,用于获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息;
抽样模块,用于根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成第二采样用户群;
分析模块,用于确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的统计项的兴趣程度的差异权值。
10.根据权利要求9所述的用户行为数据分析装置,其特征在于,还包括:
统计模块,用于统计第一概率和第二概率,所述第一概率为:所述第一采样用户群的多个随机采样子群中用户的互联网历史行为数据包括所述统计项的平均概率;所述第二概率为:所述第二概率为:所述第二采样用户群的多个随机采样子群中用户的互联网历史行为数据包括所述统计项的平均概率;
所述分析模块,还用于根据所述第一概率和所述第二概率,确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于所述统计项的兴趣程度的差异权值。
CN2009102428747A 2009-12-18 2009-12-18 用户行为数据分析方法和装置 Pending CN102103603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102428747A CN102103603A (zh) 2009-12-18 2009-12-18 用户行为数据分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102428747A CN102103603A (zh) 2009-12-18 2009-12-18 用户行为数据分析方法和装置

Publications (1)

Publication Number Publication Date
CN102103603A true CN102103603A (zh) 2011-06-22

Family

ID=44156380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102428747A Pending CN102103603A (zh) 2009-12-18 2009-12-18 用户行为数据分析方法和装置

Country Status (1)

Country Link
CN (1) CN102103603A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866997A (zh) * 2011-07-05 2013-01-09 腾讯科技(深圳)有限公司 用户数据的处理方法和装置
CN103854206A (zh) * 2014-03-06 2014-06-11 北京品友互动信息技术有限公司 一种分析人群特征的方法和设备
CN103870671A (zh) * 2012-12-18 2014-06-18 北京思博途信息技术有限公司 一种从Cookie中提取用户样本的方法及装置
CN103870978A (zh) * 2012-12-17 2014-06-18 北京千橡网景科技发展有限公司 一种基于用户属性组合的差异性智能推送方法及装置
CN104252679A (zh) * 2013-06-30 2014-12-31 北京百度网讯科技有限公司 一种品牌广告评估体系的构建方法及系统
CN104683122A (zh) * 2015-02-12 2015-06-03 北京集奥聚合科技有限公司 一种基于多屏联动的信息发送方法和系统
CN106855981A (zh) * 2016-12-16 2017-06-16 天脉聚源(北京)科技有限公司 基于购买行为的用户转移确定方法及装置
CN106897282A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 一种用户群的分类方法和设备
CN107087299A (zh) * 2017-04-05 2017-08-22 中国联合网络通信集团有限公司 无线联网控制方法及装置
CN107113561A (zh) * 2014-12-30 2017-08-29 意大利电信股份公司 用于估计人群中的人数的方法和系统
CN108460630A (zh) * 2018-02-12 2018-08-28 广州虎牙信息科技有限公司 基于用户数据进行分类分析的方法和装置
CN108596694A (zh) * 2012-09-18 2018-09-28 北京点网聚科技有限公司 用于向用户提供内容的方法、系统及相应介质
CN108933819A (zh) * 2018-06-26 2018-12-04 尹煦 一种基于区块链的信息推送方法
WO2019000133A1 (zh) * 2017-06-28 2019-01-03 深圳市秀趣品牌文化传播有限公司 电商数据处理方法
CN110020333A (zh) * 2017-07-27 2019-07-16 北京嘀嘀无限科技发展有限公司 数据分析方法及装置、电子设备、存储介质
CN110222257A (zh) * 2019-05-13 2019-09-10 特斯联(北京)科技有限公司 一种推荐业务信息的方法、装置及数据链节点
CN112819528A (zh) * 2021-01-30 2021-05-18 北京奇保信安科技有限公司 人群包的上线方法、装置及电子设备
CN113220969A (zh) * 2020-02-06 2021-08-06 百度在线网络技术(北京)有限公司 一种广告确定方法、装置、设备及存储介质
CN114746899A (zh) * 2019-11-27 2022-07-12 尼尔森(美国)有限公司 跨人口统计群体估计普查级受众、印象和持续时间的方法、系统和装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866997A (zh) * 2011-07-05 2013-01-09 腾讯科技(深圳)有限公司 用户数据的处理方法和装置
CN102866997B (zh) * 2011-07-05 2017-07-21 深圳市世纪光速信息技术有限公司 用户数据的处理方法和装置
CN108596694A (zh) * 2012-09-18 2018-09-28 北京点网聚科技有限公司 用于向用户提供内容的方法、系统及相应介质
CN103870978A (zh) * 2012-12-17 2014-06-18 北京千橡网景科技发展有限公司 一种基于用户属性组合的差异性智能推送方法及装置
CN103870671B (zh) * 2012-12-18 2017-05-31 秒针信息技术有限公司 一种从Cookie中提取用户样本的方法及装置
CN103870671A (zh) * 2012-12-18 2014-06-18 北京思博途信息技术有限公司 一种从Cookie中提取用户样本的方法及装置
CN104252679A (zh) * 2013-06-30 2014-12-31 北京百度网讯科技有限公司 一种品牌广告评估体系的构建方法及系统
CN103854206A (zh) * 2014-03-06 2014-06-11 北京品友互动信息技术有限公司 一种分析人群特征的方法和设备
CN107113561A (zh) * 2014-12-30 2017-08-29 意大利电信股份公司 用于估计人群中的人数的方法和系统
CN107113561B (zh) * 2014-12-30 2020-04-21 意大利电信股份公司 用于估计人群中的人数的方法和系统
CN104683122A (zh) * 2015-02-12 2015-06-03 北京集奥聚合科技有限公司 一种基于多屏联动的信息发送方法和系统
CN106897282A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 一种用户群的分类方法和设备
CN106897282B (zh) * 2015-12-17 2020-06-05 阿里巴巴集团控股有限公司 一种用户群的分类方法和设备
CN106855981A (zh) * 2016-12-16 2017-06-16 天脉聚源(北京)科技有限公司 基于购买行为的用户转移确定方法及装置
CN107087299B (zh) * 2017-04-05 2019-12-03 中国联合网络通信集团有限公司 无线联网控制方法及装置
CN107087299A (zh) * 2017-04-05 2017-08-22 中国联合网络通信集团有限公司 无线联网控制方法及装置
WO2019000133A1 (zh) * 2017-06-28 2019-01-03 深圳市秀趣品牌文化传播有限公司 电商数据处理方法
CN110020333A (zh) * 2017-07-27 2019-07-16 北京嘀嘀无限科技发展有限公司 数据分析方法及装置、电子设备、存储介质
CN108460630A (zh) * 2018-02-12 2018-08-28 广州虎牙信息科技有限公司 基于用户数据进行分类分析的方法和装置
CN108933819A (zh) * 2018-06-26 2018-12-04 尹煦 一种基于区块链的信息推送方法
CN110222257A (zh) * 2019-05-13 2019-09-10 特斯联(北京)科技有限公司 一种推荐业务信息的方法、装置及数据链节点
CN114746899A (zh) * 2019-11-27 2022-07-12 尼尔森(美国)有限公司 跨人口统计群体估计普查级受众、印象和持续时间的方法、系统和装置
CN113220969A (zh) * 2020-02-06 2021-08-06 百度在线网络技术(北京)有限公司 一种广告确定方法、装置、设备及存储介质
CN112819528A (zh) * 2021-01-30 2021-05-18 北京奇保信安科技有限公司 人群包的上线方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN102103603A (zh) 用户行为数据分析方法和装置
CA2610319C (en) Scoring local search results based on location prominence
KR100952651B1 (ko) 위치 추출
CN102982153B (zh) 一种信息检索方法及其装置
JP5497029B2 (ja) コンテンツアイテムの選択
August et al. Data-derived metrics describing the behaviour of field-based citizen scientists provide insights for project design and modelling bias
CN102142003B (zh) 兴趣点信息提供方法及装置
US8311882B2 (en) System and method for forecasting an inventory of online advertisement impressions for targeting impression attributes
WO2018040069A1 (zh) 信息推荐系统及方法
CN101772766B (zh) 以用户为中心的信息搜索的方法和系统
CN101329674A (zh) 一种提供个性化搜索的系统和方法
CN102929939A (zh) 个性化信息的提供方法及装置
KR20110061580A (ko) 예측적 공간-시간 광고 타겟팅
US20130006975A1 (en) System and method for matching entities and synonym group organizer used therein
US9672269B2 (en) Method and system for automatically identifying related content to an electronic text
CN107291755B (zh) 一种终端推送方法及装置
CN101283353A (zh) 通过分析标签找到相关文档的系统和方法
CN105320719A (zh) 一种基于项目标签和图形关系的众筹网站项目推荐方法
KR101818717B1 (ko) 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체
US11036817B2 (en) Filtering and scoring of web content
CN103412958A (zh) 一种搜索结果显示方法和装置
CN104050243A (zh) 一种将搜索与社交相结合的网络搜索方法及其系统
CN111310032A (zh) 资源推荐方法、装置、计算机设备及可读存储介质
CN101836209B (zh) 管理信息地图的系统和方法
JP6618962B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110622