CN102456199A - 互联网用户样本集的扩充、属性参数获取方法及装置 - Google Patents

互联网用户样本集的扩充、属性参数获取方法及装置 Download PDF

Info

Publication number
CN102456199A
CN102456199A CN201010517316XA CN201010517316A CN102456199A CN 102456199 A CN102456199 A CN 102456199A CN 201010517316X A CN201010517316X A CN 201010517316XA CN 201010517316 A CN201010517316 A CN 201010517316A CN 102456199 A CN102456199 A CN 102456199A
Authority
CN
China
Prior art keywords
network behavior
overall user
sample
customer attribute
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010517316XA
Other languages
English (en)
Inventor
吴明辉
陈家耀
申志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Original Assignee
BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd filed Critical BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Priority to CN201010517316XA priority Critical patent/CN102456199A/zh
Publication of CN102456199A publication Critical patent/CN102456199A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种互联网用户样本集的扩充方法及装置,以及一种互联网总体用户在网络资源上的属性参数的获取方法及装置;其中该扩充方法用于将包含样本用户的一第一样本集扩充为一第二样本集,其根据样本用户的用户属性信息和网络行为信息,建立一表示样本用户的用户属性信息与网络行为信息对应关系的匹配模型,然后根据该匹配模型以及总体用户的网络行为信息获得总体用户的用户属性信息,进而从总体用户中选择部分用户形成第二样本集。本发明技术方案利用少量样本用户从总体用户中筛选出更高样本容量规模的样本集,使得对互联网总体用户在互联网资源上的用户属性分布的评估结果更加精确。

Description

互联网用户样本集的扩充、属性参数获取方法及装置
技术领域
本发明涉及网络应用技术,尤其涉及一种互联网用户样本集的扩充方法及装置,以及一种互联网总体用户在网络资源上的属性参数的获取方法及装置。
背景技术
如今互联网高速发展,通过网络,人们可以了解更多的信息,可以进行商品或者服务的购买。伴随着网络上的信息越来越多,商品和服务越来越丰富,人们的生活也越来越依赖于网络。越来越多的人通过互联网了解当前的各种信息,并通过网络进行商品或者服务的购买等活动。因此,对于信息、商品以及服务等供应商而言,更加需要了解是什么人群关注其信息、商品以及服务。例如:动作角色扮演类游戏的关注人群中,18-22岁的男性关注度最高;可以用短信息控制水温的热水器的关注人群中,80%左右为现代化大城市的新婚夫妇;某网站的访问者中,月收入在5000-10000元人民币的男性占总访问者的50%左右,再如网络电视(IPTV)中某个孕期健康栏目的观众中,75%左右为准妈妈等等。
如果信息、商品以及服务供应商掌握了其信息、商品以及服务的关注人群的属性,或者了解到某些具有特定属性的人群对特定的服务需求比较高时,供应商可以针对性地对该人群进行广告投放、播放特定的IPTV电视节目,或者也可以根据特定人群的需求不断地对自己的信息、商品或者服务进行改进,从而使其所提供的信息、商品或者服务更加满足人们的需求,甚至通过人们的网络行为,了解到特定人群的关注点,并通过IPTV向该人群播放该人群关注的节目,从而创造更大的经济价值。
现有技术中,信息、商品以及服务等供应商通过自身拥有的用户注册信息、网络监测方掌握的一些用户的属性信息、以及一些其他渠道或者方式获得一部分互联网用户的属性信息,并通过网络获得这部分互联网用户的诸如cookie等存储互联网用户行为信息的载体,从而对这部分互联网用户的上网活动按照不同属性人群的进行分析,将分析结果用于互联网总体用户的网络行为和总体用户的用户属性之间的属性参数进行评估,从而反映出不同的网络行为的用户属性分布等信息。
比如,第一样本用户的用户属性为:学生/男/22岁;第二样本用户的用户属性为:IT工程师/男/25岁;第三样本用户的用户属性为:教师/女/30岁;第四样本用户的用户属性为:退休人员/男/50岁;第五样本用户的用户属性为:学生/女/23岁。
在这五个样本用户中,假设只有第一、第二以及第三样本用户点击了某体育新闻的首页,由于样本用户访问了该首页的人群中,学生占33%,24~26岁的男性工程师占33%、男性占了66%等,因此据此可以推算出总体用户访问了该首页的各种人群比例(一般情况下和样本用户所占比例相同),完成对于点击该首页的总体用户的人群属性这一属性参数的估算。又因为访问该首页的样本用户的比例占到了所有样本用户的60%,样本用户中访问该首页的男性占到了所有样本用户的66%,因此又可以得到总体用户中访问该首页的各种比例(如所有总体用户的60%访问该首页,所有总体用户中访问该首页的男性占总体用户中所有男性的66%)等属性参数。
但是,上述现有技术中存在下述问题:
通常情况下,具有属性信息的用户数量(即样本用户的数量)比较有限,当以这部分用户作为样本评估互联网总体用户,如果样本用户与总体用户数量差距过大时,样本用户对总体用户的评估结果,与实际结果的误差也会较大,从而不能较为真实地反映互联网总体用户的网络行为。
发明内容
本发明所要解决的技术问题是需要提供一种扩充互联网用户样本集的技术,解决现有技术利用小规模样本集不能获取真实反映互联网总体用户在网络资源上的用户属性分布情况的缺陷。
为了解决上述技术问题,本发明首先提供了一种互联网用户样本集的扩充方法,用于将包含样本用户的一第一样本集扩充为一第二样本集,该方法包括如下步骤:
提取所述样本用户的用户属性信息;
获得所述样本用户的网络行为信息;
根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
获得总体用户的网络行为信息;
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息;
根据所述总体用户的网络行为信息以及匹配获得的用户属性信息,从所述总体用户中选择部分用户形成所述第二样本集;其中,所述部分用户的数量大于所述样本用户的数量。
优选地,根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息的步骤,包括:
为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息。
优选地,根据所述总体用户的网络行为信息以及匹配获得的用户属性信息形成所述第二样本集的步骤,包括:
根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
为了解决上述技术问题,本发明还提供了一种互联网用户样本集的扩充装置,用于将包含样本用户的一第一样本集扩充为一第二样本集,该装置包括:
提取模块,用于提取所述样本用户的用户属性信息;
第一获取模块,用于获得所述样本用户的网络行为信息;
建立模块,用于根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
第二获取模块,用于获得所述总体用户的网络行为信息;
匹配模块,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息;
形成模块,用于根据所述总体用户的网络行为信息以及匹配获得的用户属性信息,从所述总体用户中选择部分用户形成所述第二样本集;其中,所述部分用户的数量大于所述样本用户的数量。
优选地,所述匹配模块包括设定单元及匹配单元,所述形成模块包括第一获取单元及第二获取单元,其中:
设定单元,用于为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
匹配单元,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息;
第一获取单元,用于根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
第二获取单元,用于根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
本发明所要解决的另一技术问题是需要提供。一种互联网用户在网络资源上的属性参数的获取技术,解决现有技术不能真实反映互联网总体用户在网络资源上的用户属性分布情况的缺陷。
为了解决上述技术问题,本发明首先提供了一种属性参数的获取方法,用于根据一第一样本集获取互联网总体用户在网络资源上的属性参数,该方法包括如下步骤:
提取所述第一样本集中样本用户的用户属性信息;
获得所述样本用户的网络行为信息;
根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
获得所述总体用户的网络行为信息;
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息;
根据所述总体用户的网络行为信息以及匹配获得的用户属性信息,从所述总体用户中选择部分用户形成所述第二样本集;所述部分用户的数量大于所述样本用户的数量;
利用所述第二样本集,获得所述总体用户在所述网络资源上的属性参数。
优选地,根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息的步骤,包括:
为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息。
优选地,根据所述总体用户的网络行为信息以及匹配获得的用户属性信息形成所述第二样本集的步骤,包括:
根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
为了解决上述技术问题,本发明还提供了一种属性参数的获取装置,用于根据一第一样本集获取互联网总体用户在网络资源上的属性参数,该获取装置包括:
提取模块,用于提取样本用户的用户属性信息;
第一获取模块,用于获得所述样本用户的网络行为信息;
建立模块,用于根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
第二获取模块,用于获得所述总体用户的网络行为信息;
匹配模块,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息;
形成模块,用于根据所述总体用户的网络行为信息以及匹配获得的用户属性信息,从所述总体用户中选择部分用户形成第二样本集,所述部分用户的数量大于所述样本用户的数量;
第三获取模块,用于利用所述第二样本集,获得所述总体用户在所述网络资源上的属性参数。
优选地,所述匹配模块包括设定单元及匹配单元,所述形成模块包括第一获取单元及第二获取单元,其中:
设定单元,用于为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
匹配单元,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息;
第一获取单元,用于根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
第二获取单元,用于根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
与现有技术相比,本发明技术方案利用少量样本用户,从总体用户中筛选出更高样本容量规模的样本集,利用该样本集完成对用户网络行为的评估,使得对互联网总体用户在互联网资源上的用户属性分布的评估结果更加精确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施例所述互联网总体用户在网络资源上的用户属性获取方法的流程示意图;
图2是图1所示实施例一实际应用的流程示意图;
图3是本发明实施例所述互联网总体用户在网络资源上的用户属性获取装置的组成示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
首先,如果不冲突,本发明实施例以及实施例中的各个特征的相互结合,均在本发明的保护范围之内。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明的技术方案中,所述信息、商品以及服务供应商包括但不限于:互联网媒体、商品拥有者、服务拥有者、广告拥有者或者IPTV运营商等等。上述互联网用户的属性信息,包括但不限于:用户性别、居住城市、用户年龄、电子邮件地址、电话号码、民族、学校、工作场所、爱好、收入水平、购买信息或者电脑主机信息等等,也可以是这些信息的各种组合。上述互联网用户的网络行为活动,包括但不限于:用户浏览的网页、用户浏览某一网页的持续时间、用户点击的广告、用户的网上购买活动、用户浏览的商品、用户点击某网站链接的次数、用户的上网时间或者IPTV用户点播的频道等等,也可以是这些信息的各种组合。
实施例一、一种互联网总体用户在网络资源上的用户属性的获取方法
如图1所示,本实施例主要包括如下步骤:
步骤S110,提取并存储第一样本集中样本用户的用户属性信息。
步骤S120,获得样本用户的网络行为信息;用户的网络行为信息,在互联网中可能是一串数字或者一个连接识别码等等。
步骤S130,根据样本用户的用户属性信息和网络行为信息建立并存储一匹配模型,其中该匹配模型表示了样本用户的用户属性信息与网络行为信息的对应关系。需要说明的是,匹配模型的建立可以根据不同的统计需求而建立不同的匹配模型。
步骤S140,根据cookie等网络行为载体获得总体用户的网络行为信息;其中,该总体用户是与该些样本用户相对应的。在实际应用中,本步骤也可在前述步骤S130之前进行。
一般而言,不太可能获得所有总体用户的网络行为信息,因此,本步骤可以是获得部分总体用户的网络行为信息;当然,也可以认为部分总体用户的网络行为信息为空,此时可以理解为获得所有总体用户的网络行为信息。
步骤S150,根据总体用户的网络行为信息,利用该匹配模型对总体用户的网络行为进行匹配,获得带有权值的用户属性信息。
利用匹配模型对总体用户的网络行为进行匹配时,是利用匹配模型,根据某个总体用户的网络行为信息判断其用户属性信息。在此过程中,可以为匹配模型中每一个网络行为信息和对应的用户属性信息设定一个权值,根据该总体用户的所有可以利用的网络行为信息,用匹配模型对其进行用户属性进行匹配后,获得带有权值的用户属性信息;然后根据用户属性信息所携带的权值得到一匹配度;比如,对于用户属性为20岁男性大学生来说,所述匹配模型中其网络行为阅读文章a的权值为2,浏览某鞋类商品b的权值为3等等,当一个用户的网络行为与点击该文章a或者浏览该鞋类商品b等网络行为匹配时,按照权值为用户进行加权,加权结果即为匹配度。
比如网络行为分为“行为1”、“行为2”等等,而进行了“行为1”的用户中,设定其为男性的权值可以为9(90%是男性),进行了“行为2”的用户,设定其为男性的权值为6(60%)为男性。当总体用户中的用户进行了“行为1”或者“行为2”的操作时,既可以为该用户配置相应的权值。实际应用中的匹配模型应该比这个举例的要复杂得多,此举例仅供方便理解。
当然,可以将越能表现出该用户属性特征的网络行为信息设定为权重(如权值的数值)越大的权值。
步骤S160,根据所得的匹配度,利用预设的筛选参数对匹配后的总体用户进行筛选,从总体用户中选择获得网络行为和用户属性能较好匹配(本实施例中是匹配度较高表示能较好匹配)的部分用户,由该些部分用户形成一第二样本集并存储;其中,部分用户的数量大于所述样本用户的数量,该第二样本集能更加准确地对总体用户的用户属性进行评估。
可以利用该筛选参数按照匹配度对总体用户进行排序,从总体用户中筛选出一定数量的部分用户形成该第二样本集;如果有多个匹配度相同的总体用户时,可以采取随机选取的方式从这些匹配度相同的总体用户中选取若干(比如一个)作为该第二样本集的元素。
有一些总体用户,其网络行为可能无法获得或者根据其网络行为无法判断出这部分用户的,再或者匹配后其权值过低,则可以通过预设的筛选参数,从而通过删选以从总体用户中过滤掉这些用户。
在利用筛选参数对匹配后的总体用户进行筛选时,可以将匹配度较高的总体用户划入第二样本集,从而可以使得评估结果更加准确。
步骤S170,利用该第二样本集对总体用户的用户属性信息进行评估,获得总体用户在互联网资源上的属性参数的评估结果并存储,其中该属性参数比如包括用户性别的比例,用户各年龄段的比例等。
步骤S180,根据该评估结果,出具评估结果报告。
由本实施例的上述步骤S110至步骤S160的过程,可以看出本实施例还包含一样本集扩充方法的流程,该样本集扩充方法形成了一样本容量较最初的第一样本集容量更大的第二样本集,该第二样本集从总体用户中筛选而得。由于样本容量变大,缩小了和总体用户的数量级的差距,因此利用该样本集扩充方法所得的第二样本集获得互联网总体用户在互联网资源上的属性参数,较之利用第一样本集获得互联网总体用户在互联网资源上的属性参数更加精确,也更加客观和可靠。
由于总体用户的网络行为活动可以根据cookie等网络行为载体获得,但是扩充得到的第二样本集中还缺少用户的属性信息,因此需要根据总体用户的网络行为活动来估计出各个总体用户的用户属性信息。
图2是本实施例的一个实际应用的流程示意图。如图2所示,本实际应用主要包括如下步骤:
步骤S210,提取并存储样本用户的用户属性信息;容量为30万的样本用户集中,每个样本用户的用户属性信息可进行提取,例如:用户a是20岁的大学男生、用户b是21岁的大学女生、用户c是30岁的北京白领女士、用户d是广州已退休男士等等;
获取样本用户的用户属性信息的来源包括但不限于:用户填写的调查表单、用户在服务供应商处填写的注册信息、用户在服务供应商的会员卡信息、IPTV用户信息等等;
步骤S220,通过cookie获得样本用户的网络行为信息;比如用户a点击了某门户网站财经频道的某篇文章的链接、体育频道的某个视频的链接;用户b同样点击了用户a所点击的财经频道的那篇文章、该门户网站女性频道的某个产品广告的链接;用户c点了该门户网站女性频道中与用户b所点击相同的产品广告的链接;用户d点击了用户a所点击的体育频道的视频链接等等;
在另一个实际应用中,样本用户的网络行为是通过IPTV点播单存储器(从IPTV点播单存储器所记录的数据)中得到的;
当然,有些实际应用中,可以获得所有样本用户的网络行为信息,而在另一些实际应用中,可能难以获得所有样本用户的网络行为信息,因此,本发明的技术方案不以获得所有样本用户的网络行为信息作为进行后续操纵的前提;
步骤S230,根据样本用户的用户属性信息和网络行为信息,通过机器学习的方式建立并存储匹配模型;该匹配模型可以表示用户属性与网络行为之间的对应关系;
在本实际应用中,用户a和用户b的用户属性共性是年龄在20-21岁之间的大学生,网络行为共性是都点击了财经频道的某一文章;用户a和用户d的用户属性共性是都为男性,网络行为共性是都点击了体育频道的某一视频链接;用户b和用户c的用户属性共性都是女性,网络行为活动共性都点击了某个产品的广告链接;
由于本实际应用中样本用户的样本容量为30万,已经达到了一定规模,因此可以找出在用户属性上具有共性和在网络行为上具有共性的样本用户建立相应的匹配模型;
步骤S240,获得总体用户的网络行为信息;本实际应用中总体用户的总数为3亿;
步骤S250,根据总体用户的网络行为信息,利用该匹配模型对总体用户的网络行为进行匹配,获得带有权值的用户属性信息;
在本实际应用中,根据上述用户a和用户b的用户属性信息和网络行为信息,如果总体用户中的有用户同样点击了那篇文章(前述财经频道的那篇文章),则该用户很有可能是年龄在20-22岁之间的大学生或者是大学生;根据用户b和用户c的用户属性信息和网络行为信息,如果总体用户中有用户点击了该产品广告链接(前述的那个产品链接),则该用户很可能是一位女性;同样,根据用户a和用户d的用户属性信息和网络行为信息,如果总体用户中有用户点击了相同的视频链接(前述体育频道的那个视频链接)时,则该用户很可能是一位男性;
当然,上述仅是举例,如果样本用户的样本容量达到一定规模,例如本实际应用的样本用户规模是30万,并且加入了更多的样本用户的用户属性信息和网络行为信息(例如其他网站的网络行为信息,iptv点播信息等等诸如前述的各种网络行为信息),则可以建立更加准确的匹配模型,从而可以更加精确的分析出某个总体用户的用户属性信息;
步骤S260,利用筛选参数对匹配后的总体用户进行筛选,从总体用户中选择获得部分用户,由该些部分用户形成第二样本集并存储;该第二样本集的主要作用是为了能更加准确地对总体用户的用户属性进行评估;
本实际应用中,如上所述样本用户为30万,总体用户为3亿,如果利用30万样本用户评估3亿总体用户时,差距为1000倍,根据数学统计分析原理,样本容量和总体数量差距过大时,所产生的误差也会较大,因此利用预设的筛选参数,根据总体用户的数量筛选出一个比样本用户数量更大规模的第二样本集,从而有利于提高评估结果的精确性;
步骤S270,利用该第二样本集对总体用户的用户属性信息进行评估,获得总体用户在互联网资源上的属性参数的评估结果并存储;
步骤S280,根据该评估结果,出具评估结果报告。
实施例二、一种互联网总体用户在网络资源上的属性参数获取装置
结合图1所示实施例,如图2所示的本实施例主要包括提取模块310、第一获取模块320、建立模块330、第二获取模块340、匹配模块350、形成模块360以及第三获取模块370,其中:
提取模块310,用于提取样本用户的用户属性信息;
第一获取模块320,用于获得所述样本用户的网络行为信息;
建立模块330,与提取模块310及第一获取模块320相连,用于根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
第二获取模块340,用于获得所述总体用户的网络行为信息;
匹配模块350,与建立模块330及第二获取模块340相连,用于根据总体用户的网络行为信息,利用匹配模型对总体用户的网络行为进行匹配,获得总体用户的用户属性信息;
形成模块360,用于根据总体用户的网络行为信息以及匹配获得的用户属性信息,从总体用户中选择部分用户形成第二样本集,该部分用户的数量大于样本用户的数量;
第三获取模块370,与匹配模块350及形成模块360相连,用于利用第二样本集,获得总体用户在网络资源上的属性参数。
另外,由本实施例的提取模块310、第一获取模块320、建立模块330、第二获取模块340、匹配模块350以及形成模块360,可以得到一样本集扩充装置,该样本集扩充装置形成了一样本容量较最初的第一样本集容量更大的第二样本集,该第二样本集从总体用户中筛选而得。由于样本容量更大,因此利用该样本集扩充装置所得的第二样本集获得互联网总体用户的属性参数,较之利用第一样本集获得互联网总体用户的属性参数会更加精确,也更加客观和可靠。
其中,上述的匹配模块350可以包括设定单元及匹配单元,其中:
设定单元,用于为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
匹配单元,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息。
其中,上述的形成模块360可以包括第一获取单元及第二获取单元,其中:
第一获取单元,用于根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
第二获取单元,用于根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
本发明技术方案的实施例,通过对样本用户的用户属性与网络行为建立匹配模型,通过该匹配模型对总体用户中每个用户的网络行为进行模型匹配;再根据总体用户和样本用户之间的数量关系,从总体用户中筛选出一定数量的部分用户,形成合理规模容量的第二样本集;再通过分析该第二样本集中用户的网络行为和用户属性之间的关系,评估出总体用户中每个用户的网络行为,获得相应的属性参数的评估结果。采用本发明技术方案的实施例,缩小了原始的第一样本集容量和总体数量的差距,从而使属性参数的评估结果更加精确。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种互联网用户样本集的扩充方法,其特征在于,用于将包含样本用户的一第一样本集扩充为一第二样本集,该方法包括如下步骤:
提取所述样本用户的用户属性信息;
获得所述样本用户的网络行为信息;
根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
获得总体用户的网络行为信息;
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息;
根据所述总体用户的网络行为信息以及匹配获得的用户属性信息,从所述总体用户中选择部分用户形成所述第二样本集;其中,所述部分用户的数量大于所述样本用户的数量。
2.根据权利要求1所述的方法,其特征在于,根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息的步骤,包括:
为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息。
3.根据权利要求2所述的方法,其特征在于,根据所述总体用户的网络行为信息以及匹配获得的用户属性信息形成所述第二样本集的步骤,包括:
根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
4.一种属性参数的获取方法,用于根据一第一样本集获取互联网总体用户在网络资源上的属性参数,其特征在于,该方法包括如下步骤:
提取所述第一样本集中样本用户的用户属性信息;
获得所述样本用户的网络行为信息;
根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
获得所述总体用户的网络行为信息;
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息;
根据所述总体用户的网络行为信息以及匹配获得的用户属性信息,从所述总体用户中选择部分用户形成所述第二样本集;所述部分用户的数量大于所述样本用户的数量;
利用所述第二样本集,获得所述总体用户在所述网络资源上的属性参数。
5.根据权利要求4所述的方法,其特征在于:
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息的步骤,包括:
为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息。
6.根据权利要求5所述的方法,其特征在于,根据所述总体用户的网络行为信息以及匹配获得的用户属性信息形成所述第二样本集的步骤,包括:
根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
7.一种互联网用户样本集的扩充装置,其特征在于,用于将包含样本用户的一第一样本集扩充为一第二样本集,该装置包括:
提取模块,用于提取所述样本用户的用户属性信息;
第一获取模块,用于获得所述样本用户的网络行为信息;
建立模块,用于根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
第二获取模块,用于获得所述总体用户的网络行为信息;
匹配模块,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息;
形成模块,用于根据所述总体用户的网络行为信息以及匹配获得的用户属性信息,从所述总体用户中选择部分用户形成所述第二样本集;其中,所述部分用户的数量大于所述样本用户的数量。
8.根据权利要求7所述的装置,其特征在于,所述匹配模块包括设定单元及匹配单元,所述形成模块包括第一获取单元及第二获取单元,其中:
设定单元,用于为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
匹配单元,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息;
第一获取单元,用于根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
第二获取单元,用于根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
9.一种属性参数的获取装置,用于根据一第一样本集获取互联网总体用户在网络资源上的属性参数,其特征在于,该获取装置包括:
提取模块,用于提取样本用户的用户属性信息;
第一获取模块,用于获得所述样本用户的网络行为信息;
建立模块,用于根据所述样本用户的用户属性信息和网络行为信息,建立一表示所述样本用户的用户属性信息与网络行为信息对应关系的匹配模型;
第二获取模块,用于获得所述总体用户的网络行为信息;
匹配模块,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的用户属性信息;
形成模块,用于根据所述总体用户的网络行为信息以及匹配获得的用户属性信息,从所述总体用户中选择部分用户形成第二样本集,所述部分用户的数量大于所述样本用户的数量;
第三获取模块,用于利用所述第二样本集,获得所述总体用户在所述网络资源上的属性参数。
10.根据权利要求9所述的装置,其特征在于,所述匹配模块包括设定单元及匹配单元,所述形成模块包括第一获取单元及第二获取单元,其中:
设定单元,用于为所述匹配模型中每一个网络行为信息和对应的用户属性信息设定一权值;
匹配单元,用于根据所述总体用户的网络行为信息,利用所述匹配模型对所述总体用户的网络行为进行匹配,获得所述总体用户的带有权值的用户属性信息;
第一获取单元,用于根据所述权值得到所述总体用户的网络行为信息与用户属性信息的匹配度;
第二获取单元,用于根据所述匹配度,利用预设的筛选参数从所述总体用户中进行筛选,获得所述第二样本集。
CN201010517316XA 2010-10-18 2010-10-18 互联网用户样本集的扩充、属性参数获取方法及装置 Pending CN102456199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010517316XA CN102456199A (zh) 2010-10-18 2010-10-18 互联网用户样本集的扩充、属性参数获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010517316XA CN102456199A (zh) 2010-10-18 2010-10-18 互联网用户样本集的扩充、属性参数获取方法及装置

Publications (1)

Publication Number Publication Date
CN102456199A true CN102456199A (zh) 2012-05-16

Family

ID=46039366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010517316XA Pending CN102456199A (zh) 2010-10-18 2010-10-18 互联网用户样本集的扩充、属性参数获取方法及装置

Country Status (1)

Country Link
CN (1) CN102456199A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103188347A (zh) * 2013-03-15 2013-07-03 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN105025115A (zh) * 2014-04-29 2015-11-04 北京秒针信息咨询有限公司 一种生成集体宿舍ip库的方法和装置
CN105427129A (zh) * 2015-11-12 2016-03-23 腾讯科技(深圳)有限公司 一种信息的投放方法及系统
CN105825391A (zh) * 2015-01-06 2016-08-03 中国移动通信集团公司 一种确定用户属性的方法及设备
CN106157067A (zh) * 2015-03-23 2016-11-23 北京思博途信息技术有限公司 一种提升热线服务质量和评估媒体广告效果的方法和装置
CN106610991A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 数据处理方法和装置
CN109547406A (zh) * 2018-10-12 2019-03-29 中国平安人寿保险股份有限公司 数据发送方法及装置、存储介质和电子设备
CN110716963A (zh) * 2019-09-09 2020-01-21 平安证券股份有限公司 提供自适应配置的用户数据的方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071424A (zh) * 2006-06-23 2007-11-14 腾讯科技(深圳)有限公司 一种个性化信息推送系统和方法
CN101170426A (zh) * 2006-10-25 2008-04-30 马永利 基于用户行为(习惯)分析的个性化内容发布方案
CN101359995A (zh) * 2008-09-28 2009-02-04 腾讯科技(深圳)有限公司 提供在线服务的方法和装置
CN101360098A (zh) * 2008-08-29 2009-02-04 腾讯科技(北京)有限公司 用户行为属性确定方法、装置、系统及广告投放方法与系统
CN101493832A (zh) * 2009-03-06 2009-07-29 辽宁般若网络科技有限公司 网站内容联合推荐系统与方法
CN101515360A (zh) * 2009-04-13 2009-08-26 阿里巴巴集团控股有限公司 向用户推荐网络目标信息的方法和服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071424A (zh) * 2006-06-23 2007-11-14 腾讯科技(深圳)有限公司 一种个性化信息推送系统和方法
CN101170426A (zh) * 2006-10-25 2008-04-30 马永利 基于用户行为(习惯)分析的个性化内容发布方案
CN101360098A (zh) * 2008-08-29 2009-02-04 腾讯科技(北京)有限公司 用户行为属性确定方法、装置、系统及广告投放方法与系统
CN101359995A (zh) * 2008-09-28 2009-02-04 腾讯科技(深圳)有限公司 提供在线服务的方法和装置
CN101493832A (zh) * 2009-03-06 2009-07-29 辽宁般若网络科技有限公司 网站内容联合推荐系统与方法
CN101515360A (zh) * 2009-04-13 2009-08-26 阿里巴巴集团控股有限公司 向用户推荐网络目标信息的方法和服务器

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103188347A (zh) * 2013-03-15 2013-07-03 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN103188347B (zh) * 2013-03-15 2016-03-30 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN105025115A (zh) * 2014-04-29 2015-11-04 北京秒针信息咨询有限公司 一种生成集体宿舍ip库的方法和装置
CN105025115B (zh) * 2014-04-29 2018-06-15 北京秒针信息咨询有限公司 一种生成集体宿舍ip库的方法和装置
CN105825391A (zh) * 2015-01-06 2016-08-03 中国移动通信集团公司 一种确定用户属性的方法及设备
CN106157067A (zh) * 2015-03-23 2016-11-23 北京思博途信息技术有限公司 一种提升热线服务质量和评估媒体广告效果的方法和装置
CN106610991A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 数据处理方法和装置
CN105427129A (zh) * 2015-11-12 2016-03-23 腾讯科技(深圳)有限公司 一种信息的投放方法及系统
CN105427129B (zh) * 2015-11-12 2020-09-04 腾讯科技(深圳)有限公司 一种信息的投放方法及系统
CN109547406A (zh) * 2018-10-12 2019-03-29 中国平安人寿保险股份有限公司 数据发送方法及装置、存储介质和电子设备
CN109547406B (zh) * 2018-10-12 2022-05-27 中国平安人寿保险股份有限公司 数据发送方法及装置、存储介质和电子设备
CN110716963A (zh) * 2019-09-09 2020-01-21 平安证券股份有限公司 提供自适应配置的用户数据的方法及相关设备
CN110716963B (zh) * 2019-09-09 2023-09-01 平安证券股份有限公司 提供自适应配置的用户数据的方法及相关设备

Similar Documents

Publication Publication Date Title
CN102456199A (zh) 互联网用户样本集的扩充、属性参数获取方法及装置
CN102929928B (zh) 基于多维相似度的个性化新闻推荐方法
US20170169349A1 (en) Recommending method and electronic device
CN104239298B (zh) 文本信息推荐方法、服务器、浏览器及系统
CN102591942B (zh) 一种应用自动推荐的方法及装置
CN104111941B (zh) 信息展示的方法及设备
CN104462293A (zh) 搜索处理方法、生成搜索结果排序模型的方法和装置
CN105160545B (zh) 投放信息样式确定方法及装置
CN101493832A (zh) 网站内容联合推荐系统与方法
CN101482884A (zh) 一种基于用户偏好评分分布的协作推荐系统
CN105589914A (zh) 一种网页页面的预读取方法、装置及智能终端设备
CN103365902A (zh) 互联网新闻的评估方法和装置
CN106033415A (zh) 文本内容推荐方法及装置
CN102663064A (zh) 一种收藏夹数据的处理方法及装置
CN104391925A (zh) 一种基于tv用户协同预测的视频推荐方法及系统
US20140075293A1 (en) Web page layout
CN102236655A (zh) 一种Web新网页推荐方法
CN103942285A (zh) 一种针对页面动态元素的推荐方法和系统
Zhang et al. Timeliness in recommender systems
CN106372175A (zh) 报表的处理方法、装置和服务器
CN106227866A (zh) 一种基于数据挖掘的混合过滤电影推荐方法
CN104503988A (zh) 搜索方法及装置
CN104978406A (zh) 互联网络平台的用户行为分析方法
CN103870452A (zh) 数据推荐方法及系统
Song et al. Select-the-Best-Ones: A new way to judge relative relevance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120516