CN102521248B - 一种网络用户分类方法及其装置 - Google Patents

一种网络用户分类方法及其装置 Download PDF

Info

Publication number
CN102521248B
CN102521248B CN201110359807.0A CN201110359807A CN102521248B CN 102521248 B CN102521248 B CN 102521248B CN 201110359807 A CN201110359807 A CN 201110359807A CN 102521248 B CN102521248 B CN 102521248B
Authority
CN
China
Prior art keywords
user
theme
classification
matrix
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110359807.0A
Other languages
English (en)
Other versions
CN102521248A (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES CO LTD
Izp China Network Technology Co ltd
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN201110359807.0A priority Critical patent/CN102521248B/zh
Publication of CN102521248A publication Critical patent/CN102521248A/zh
Application granted granted Critical
Publication of CN102521248B publication Critical patent/CN102521248B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络用户分类方法及其装置,该方法包括:基于用户的网络行为生成用户的行为特征向量;基于各用户的所述行为特征向量进行聚类,以构建用户-主题矩阵;以及基于所述用户-主题矩阵来确定用户所属的网页类别,其中,所述用户的网络行为包括网络访问行为和搜索行为;所述用户-主题矩阵的各元素值分别表征各用户与各主题之间的关联度。在本发明中,基于用户搜索行为和访问行为的多种类别数据,通过采用用户主题模型,在较小的计算代价上覆盖全面的用户行为,充分的利用了用户的信息,得到更快更精准的用户分类结果。

Description

一种网络用户分类方法及其装置
技术领域
本发明涉及信息网络定向广告技术,尤其涉及一种网络用户分类方法及其装置。
背景技术
随着互联网技术的不断进步和迅速扩张,网络给人们的生活和工作带来了极大的便利性,也随之产生了更多的需求。其中,信息网络定向广告技术也显得尤为重要。
定向广告也叫智能广告,即将特定的网络广告发送给特定的人群。定向广告可以按访问者的行业、地理区域、职务等展示不同的具针对性的广告,可以精确定位广告受众,提高广告效果。而根据用户在互联网上的行为(例如,搜索、浏览网页、点击广告等)将用户分成不同的类别则是这项技术的基础。
在我们的用户行为数据中,主要包含了网络访问行为和搜索行为这两方面的数据。网络访问行为覆盖了90%的用户数据,但其包含的特征数目高达几百亿且访问网页包含的用户兴趣随意性更强。搜索行为则更准确的表达了用户的意图,但搜索行为的数据十分稀疏,并且存在着歧义性等缺陷。
现有的用户分类方法一般有两种方法,可以根据获取的网页内容对用户进行分类,将获取的网页内容与网页类别进行匹配,从而将网页归属到网页类别中去,或者通过统计用户访问各类网页的次数,进而判断用户的类别对用户进行分类。
本发明的发明人在实现本发明的过程中,发现现有技术至少存在如下技术缺陷:
1.互联网中的网页数以百亿记,因此对用户访问的每个网页抽取正文进行分类会耗费大量的时间和海量的计算资源。
2.很多网页涉及多个类别,致使分类的结果有很大的误导性。
3.用户在互联网上的行为包括搜索、网络访问(浏览网页)、点击广告等多种行为,而现有技术只挖掘了网络访问这一种行为,并且用户的网络访问行为带有很大的随意性。
发明内容
本发明所要解决的技术问题之一是需要提供一种网络用户分类方法及其装置。
根据本发明的一方面,提供了一种网络用户分类方法。该网络用户分类方法包括:基于用户的网络行为生成用户的行为特征向量;基于各用户的所述行为特征向量进行聚类,以构建用户-主题矩阵;以及基于所述用户-主题矩阵来确定用户所属的网页类别,其中,所述用户的网络行为包括网络访问行为和搜索行为;所述用户-主题矩阵的各元素值分别表征各用户与各主题之间的关联度。
根据本发明另一方面的网络用户分类方法,还包括:在基于所述用户-主题矩阵来确定用户所属的网页类别之前,基于第一设定数量网页来预先确定第二设定数量的网页类别;以及
构建主题-类别变换矩阵,其中,
通过统计所述设定数量网页中、与第j个主题相关联且被分类至第k个网页类别的网页数量t’j,k来确定主题-类别变换矩阵的第j行第k列元素值,j为小于等于主题数量的自然数,k为小于等于所述第二设定数量。
根据本发明另一方面的网络用户分类方法,还包括:所述主题-类别变换矩阵的第j行第k列元素值等于t’j,k/total,其中,total表示所述第一设定数量。
根据本发明另一方面的网络用户分类方法,在基于所述用户-主题矩阵来确定用户所属的网页类别的步骤中,
通过将所述用户-主题矩阵与所述主题-类别变换矩阵相乘,得到用户-类别矩阵;以及
基于所述用户-类别矩阵,将与用户关联度最大一个或多个网页类别确定为该用户所属的网页类别。
根据本发明另一方面的网络用户分类方法,其中,所述主题为经聚类所得到的一个以上赋权特征的集合。
根据本发明另一方面的网络用户分类方法,所述行为特征向量的各元素为所述网络访问行为所访问的网址和/或所述搜索行为所涉及的搜索关键词。
根据本发明另一方面的网络用户分类方法,所述行为特征向量的元素中,网址的元素的值为访问相应网址的次数,以及搜索关键词的元素的值为用户搜索相应关键字的次数。
根据本发明另一方面的网络用户分类方法,在基于各用户的所述行为特征向量进行聚类、以构建用户-主题矩阵的步骤中,
将各用户的所述行为特征向量作为主题模型中特征层的特征向量,以构建用户主题模型,并利用所述用户主题模型来实现对用户所进行的聚类。
根据本发明的另一方面,还提供了一种网络用户分类装置,包括:特征向量生成模块,其基于用户的网络行为生成用户的行为特征向量;聚类模块,其基于各用户的所述行为特征向量进行聚类,以构建用户-主题矩阵;以及分类模块,其基于所述用户-主题矩阵来确定用户所属的网页类别,其中,所述用户的网络行为包括网络访问行为和搜索行为;所述用户-主题矩阵的各元素值分别表征各用户与各主题之间的关联度。
根据本发明另一方面的网络用户分类装置,还包括
网页分类模块,其基于第一设定数量网页来预先确定第二设定数量的网页类别;以及
变换矩阵生成模块,其中,变换矩阵生成模块通过统计所述第一设定数量网页中、与第j个主题相关联且被分类至第k个网页类别的网页数量t’j,k来确定主题-类别变换矩阵的第j行第k列元素值,j为小于等于主题数量的自然数,k为小于等于所述第二设定数量;
所述分类模块通过将所述用户-主题矩阵与所述主题-类别变换矩阵相乘,得到用户-类别矩阵,基于所述用户-类别矩阵,将与用户关联度最大一个或多个网页类别确定为该用户所属的网页类别。
与现有技术相比,本发明至少具有以下优点:
在本发明中,解决了基于用户搜索行为和访问行为的多种类别数据更准确高效地进行网络用户分类的问题。
进一步,本发明的网络用户分类方法通过采取基于聚类模型的用户主题模型,将网络访问行为和用户的搜索行为进行结合用作用户主题模型的特征向量,充分地利用了用户的信息,进而能够得到更精准的用户分类结果。当然,本发明中所涉及的聚类模型并不局限在实施例中使用的聚类模型。
同时针对网页正文数据量大,信息量低的问题。本发明提出了采用指向该网页的搜索关键词来表示该网页,得到了更准确的网页分类结果。
在本发明中,通过引入用户主题模型,用户主题模型可以在较小的计算代价上覆盖全面的用户行为,从而可以充分的利用用户的信息,得到更快更精准的用户分类结果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明第一实施例的网络用户分类方法的流程示意图;
图2是根据本发明第一实施例的网络用户分类方法的聚类图模型示意图;
图3是根据本发明第二实施例的网络用户分类方法的流程示意图;
图4是根据本发明第三实施例的网络用户分类装置的结构示意图;
图5是根据本发明第四实施例的网络用户分类装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明作进一步地详细说明。
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
第一实施例
图1是根据本发明第一实施例的网络用户分类方法的流程示意图,下面参照图1详细说明该方法的各步骤。
步骤110,预先确定多个(对应于第二设定数量)网页类别。
可基于第一设定数量的网页来预先确定第二设定数量的网页类别。其中,每个网页类别由多个主题构成,例如,网页类别为社交网站可以表示为“社交网站:校园、活动、旅游”,其中,“校园”、“活动”、“旅游”为所属网页类别为社交网站的各个主题。首先将第一设定数量的网页进行主题分类,然后根据与主题相关联的网页类别来确定第一设定数量的网页所属的网页类别。例如,人人网所属的主题为“校园”,而“校园”与社交网站具有关联性,则可将人人网的网页类别确定为社交网站。
具体地,可以对设定数量(对应于第一设定数量)的网页进行人工分类,例如,可针对现有百万个网页中的几万个或几十万个典型的网页进行人工分类,得到网页类别,例如,京东网属性为电子商务网站,人人网属性为社交网站,美团网为团购网站。
还可以应用网页自动分类技术将设定数量的网页进行分类得到网页分类。例如应用统计学习法,通过分析经过人工分类的网页,从中挖掘关键词和类之间的联系,再利用关键词和类之间的联系对第一设定数量的网页进行分类,该统计学习法为现有技术,在此不再展开赘述。
步骤120,基于用户的网络行为生成用户的行为特征向量。
具体地,先获取用户的网络行为,将用户的网络行为进行预处理以获得用户的行为特征向量。
一般,用于表征用户网络行为的主要数据来自网站的网络服务器中的日志文件集。这些日志文件包含了访问该网络站点的关于每个访问者超文本传输协议(简称HTTP)事务的执行记录,可以通过利用类似于网络数据包嗅探技术的这种技术从日志文件集中获取用于表征用户网络行为的数据。但是,由于实际获得的数据具有不完全的相关性、冗余性和概念上的模糊性、以及用于审计的海量数据中可能存在大量的无意义信息等问题,致使所获取的数据需要进行预处理以构建和辨认具有意义的信息。
预处理过程是整个网络用户分类的基础,一般包括使用记录预处理、内容信息预处理和结构信息预处理,通过对所获得的用户的网络行为进行预处理,去除冗余信息、模糊信息以及无意义信息,得到精确表征用户网络行为的数据。
与现有技术不同的是,本发明中,用于生成用户的行为特征向量的网络行为包括网络访问行为和搜索行为。例如,可将网络访问行为所访问的网址(本发明中,将IP地址、网站的中/英域名等统称为网址)和搜索行为所涉及的搜索关键词等词汇确定为用户的行为特征向量的元素,例如用户进行了京东网、人人网和美团网的访问行为,则将所访问的网址中所包含的词汇“京东”、“人人”以及“美团”等词汇确定为用户的行为特征向量的元素;用户的搜索行为所涉及的搜索关键词,例如“京东”、“人人”以及“美团”等词汇确定为用户的行为特征向量的元素。
可将用户的行为特征向量W表示如下:
WUserId={w1,w2,...,wn,..}
其中,UserId用以标识用户,wn是根据用户的网络访问行为或搜索行为所生成的第n个特征(亦称词汇),包括用户的网络访问行为和搜索行为。
举例而言,某用户访问了3个网址并且搜索了5个关键字,则在此用户访问了3个网址的情况下,这3个网址分别表示3个特征(词汇),则关于该用户的网络访问行为的用户行为特征可以用w1,w2,w3来表示,其中,w1,w2,w3分别表示用户访问这3个网址的次数;而该用户还搜索了5个关键字,则在此用户搜索5个关键字的情况下,可将这5个关键字作为5个特征,则关于该用户的搜索行为的用户行为特征可以w3+1,w3+2...,w3+5来表示,其中w3+1,w3+2...,w3+5分别表示用户基于第1,2,...,5个关键字进行搜索的次数,基于以上所述,则该用户的用户行为特征向量W可表示为WUserId={w1,w2,w3,w3+1,w3+2...,w3+5}。
步骤130,基于各用户的行为特征向量进行聚类,以构建用户-主题矩阵M,其中,用户-主题矩阵M的各元素值分别表征各用户与各主题之间的关联度,更具体地,M的第d行第j列Md,j表示第d个用户属于第j个主题的概率即θd j
主题为经聚类所得到的一个以上特征或赋权特征的集合,例如,主题可表示为“0.1书包;0.2校服;0.3早操;0.4作业本”,其中“书包”、“校服”、“早操”、“作业本”为特征,而它们前面的系数为权重,将相似的特征聚合为同一主题,将包含有上述特征的主题设定为校园,有利于对用户的网络行为习惯进行分析,从而便于达到对其进行分类的目的。
优选地,可利用主题模型(Topic Model)来进行聚类。将各用户的行为特征向量作为主题模型中特征层的特征向量,以构建用户主题模型(简称UTM模型),并利用该用户主题模型来实现对用户所进行的聚类,本实施例的用户主题模型通过采用Dirichlet分布对用户的行为特征向量进行建模。
图2为根据本发明第一实施例的网络用户分类方法的聚类图模型示例。如图2所示,聚类的图模型具有清晰的层次结构,每一层由相应的参数或随机变量来表征,包含特征层、主题层和用户层三层结构。图2中空心点表示隐含变量,实心点表示参数,箭头表示依赖关系。用户主题模型是由用户层的参数α和参数β定义的,其中α反映了用户集合中隐含主体间的相对强弱,β反映所有隐含主题自身的概率分布,θ表示用户中的各隐含主题的比重,z表示用户分配在每个特征上的隐含主题比重,w是用户的特征向量表示形式,P表示用户集合的数量,n表示用户所含特征的数量。大矩形表示从Dirichlet分布中为用户集中的每个用户d反复抽取主题分布θ;小矩形表示从主题分布中反复抽取特征w。
举例而言,给定一个用户集合D,包含了P个用户,每个用户d包含一个特征序列{w1,w2,...,wn}。在集合D对应的UTM模型中,将主题个数设置为K个,为了使得UTM模型易于处理已知用户之外的新的用户,应用UTM模型时,UTM模型先进行先验概率假设的处理,则对一个用户的行为特征向量进行聚类可以表示为以下步骤:
1)从Dirichlet分布p(θ|α)中为每个用户d抽取以多项式分布θd表示的主题,其中该多项式分布的各项为特征空间上的多项式分布,具体地,根据θ~Dir(α),针对用户集合D中的每个用户,从Dirichlet分布中随机抽取一个k维的主题分布θd,其表示为每个用户的各个主题比例的混合,主题分布θd中每一维的元素记为θd j,其表示为用户d属于第j个主题的概率,其中,p(θ|α)如下式所示,
p ( θ | α ) = Γ ( Σ i = 1 k α i ) Π i = 1 k Γ ( α i ) θ 1 α 1 - 1 . . . θ k α k - 1 - - - ( 1 )
其中,α是一个K维的Dirichlet参数,αi为超参量,θ为参数向量,Γ为标准的gamma函数,α反映用户集合D中各个主题间的相对强弱,θ代表每个用户从属各主题的概率。
2)从Dirichlet先验β中为每个主题抽取特征多项式分布,具体地,基于特定主题比例从Dirichlet先验β中为每个用户d抽取每个特征多项式分布,以获得p(wnd,β)。其中,β表示某个主题条件下生成某个特征(词汇)的概率,β是一个K×V的矩阵。
3)对于用户集合D中所有用户d和用户中所有特征w进行如下操作,首先选定主题zi,zi服从Multinomial(θd)的多项式分布,然后选择特征wi,在zi条件下的多项式分布,每个用户d中的第i个特征wi可以如下式所示,
P ( w i ) = Σ j = 1 T P ( w i | z i = j ) P ( z i = j ) - - - ( 2 )
其中,zi是潜在主题变量,表明第i个特征wi取自该主题,P(wi|zi=j)是特征wi属于主题j的概率,P(zi=j)为主题j属于当前用户的概率。则T个主题形成D个用户以W个唯一性特征表示,令表示对于主题j,特征w的多项式分布,;令表示对于用户d,K个主题上的多项分布,因此在用户d中特征w的概率如下式所示,
4)通过EM算法或Gibbs抽样法推算出P(w|d),然后基于P(w|d)间接求得第d个用户属于第j个主题的概率θd j以构建用户-主题矩阵M。
需要说明的是,由于直接使用EM算法估计θd会存在局部极值的问题,因此首先对于给定的观察值特征wi,利用Gibbs抽样取特征(词汇)在主题zi上的后验概率P(wi|zi)的近似值。
具体地,在Gibbs抽样中,先固定其他词的主题分配,然后估计当前特征wi赋予各种主题的概率P(zi=j),亦即P(w|d)的值,根据所得P(w|d)的值间接的得到θd的值。其中,主题分布θd中每一维的元素记为θd j,其表示为用户d属于第j个主题的概率,对用户集合D中的每一个用户进行上述1)至4)的操作,即可获得每个用户的主题分布θd,基于所得到的主题分布θd构建用户-主题矩阵M。
步骤140,基于用户-主题矩阵M来确定用户所属的网页类别。
更具体地,基于用户-主题矩阵M,可以获得用户属于各个主题的概率,然后根据这些概率值来确定用户所属的网页类别。确定方式多种多样,例如,可以预先设定各个主题与各个网页类别的关联程度,然后,将使得用户所属的各主题的概率与网页类别的关联程度的积的和最大的那个网页类别,作为用户所属的网页类别。
举例而言,对于网页类别为社交网站,预先设定各主题与网页类别的关联程度为“社交网站:0.5校园;0.3活动;0.2旅游”,对于网页类别为电子商务网站,预先设定各主题与网页类别的关联程度为“电子商务网站:0.5交易;0.3公司;0.2电子”,各个主题前面的系数为各主题与所属网页类别的关联程度的值,假定根据步骤130所得的某个用户d属于各主题的概率为“0.3校园;0.2活动;0.1旅游;0.1交易;0.1公司;0.2电子”,则将该用户所属的各主题的概率与预先设定各主题所属网页类别的关联程度相乘,获得与各个网页类别相关联的各个主题的实际主题概率,将所属网页类别的各个主题的实际主题概率进行相加所得的和作为最终结果,上述例子的最终结果为“0.23社交网站;0.12电子商务网站”,根据所得的积的和的最大的值,可知此用户所属的类别为社交网站,此用户对于社会交往类的活动感兴趣,在进行定向广告发送时,可以向此类用户发送类似于旅游、休闲的定向广告。
第二实施例
图3是根据本发明第一实施例的网络用户分类方法的流程示意图,下面参照图3详细说明该方法的各步骤。
步骤110、步骤120、步骤130与第一实施例基本相同,为了便于说明,不再对与前述实施例相同的步骤进行详细展开,而仅重点说明与前述实施例的不同之处。在图3中,对与前述实施例相同或相似的步骤,采用了相同的附图标记。
在本实施例中,在步骤140中具体包括步骤141和142。
步骤141,确定前述步骤110中的设定数量(对应于第一设定数量)网页的网页类别所关联的一个或多个主题以构建主题-类别变换矩阵。
具体地,通过统计前述步骤110中的设定数量的网页中、与第j个主题相关联且被分类至第k个网页类别的网页数量t’j,k来确定主题-类别变换矩阵T的第j行第k列元素值,j为小于等于主题数量的自然数,k为小于等于网页类别数量(即第二设定数量)的自然数。例如可将主题-类别变换矩阵T的第j行第k列的元素赋值为tj,k=t’j,k/total,其中,total为前述步骤110中的设定数量(即第一设定数量)的网页的数量。简而言之,构建所述主题-类别变换矩阵,其的元素值表征主题与网页类别的关联度。
步骤142,基于用户-主题矩阵M与主题-类别变换矩阵T的乘积的结果矩阵来确定用户所属的网页类别。
具体地,将用户-主题矩阵M与主题-类别变换矩阵T相乘得到用户-类别矩阵N。其中,用户-类别矩阵N的第d行第k列Nd,k表示第d个用户属于第k个类别的概率,亦即第d个用户在第k个类别上的关联度,根据类别的关联度的值的大小来确定用户所属的网页类别,例如可基于所述用户-分类矩阵将与用户关联度最大一个或多个的网页类别确定为该用户所属的网页类别。
举例而言,假定根据步骤130获得关于四个用户的用户-主题矩阵,矩阵如下所示,
其中,行向量分别表示用户1、用户2、用户3、用户4等四个用户,列向量分别表示校园、活动、旅游、交易、公司、电子等六个主题。
对于网页类别为社交网站,预先设定与网页类别的相关联的主题为“社交网站:校园;活动;旅游”,对于网页类别为电子商务网站,预先设定与网页类别的相关联的主题为“电子商务网站:交易;公司;电子”。
根据步骤110中设定数量的网页的网页类别所关联的一个或多个主题,通过统计前述步骤110中的设定数量(对应于第一设定数量)的网页中、与第j个主题相关联且被分类至第k个网页类别的网页数量t’j,k来确定主题-类别变换矩阵,假定步骤110中的设定数量的网页为8个,则属于各个主题的网页个数的表示分别为“2校园、2活动、2旅游、2交易、0公司、0电子”,根据上述结果可以构建出主题-类别变换矩阵,如下所示,
其中,行向量分别表示校园、活动、旅游、交易、公司、电子等六个主题,列向量分别表示社交网站和电子商务网站两个网页类别。
将所得用户-主题矩阵与主题-类比变换矩阵相乘得到用户-类别矩阵,如下所示,
其中,行向量分别表示用户1、用户2、用户3、用户4等四个用户,列向量分别表示社交网站和电子商务网站两个网页类别。用户-类别矩阵的第d行第k列Nd,k表示第d个用户属于第k个类别的概率,亦即第d个用户在第k个类别上的关联度,根据类别的关联度的值的大小来确定用户所属的网页类别,根据上述矩阵,可知用户1、用户2以及用户3所述类别为社交网站,用户4所属类别为电子商务网站,因此在发送定向广告时,可以根据用户所属的网页类别进行有针对性的发送。
需要注意的是,上述例子仅为一个简单的例子,所述的内容仅是为了便于理解本发明而采用的实施方式,并非用以限定本发明。由于互联网的普及,互联网中的用户数以百亿记,而本发明方法是通过无监督方法进行分类的,与用户数量无关,可以处理大规模用户的行为,本发明方法可以在较小的计算代价上覆盖全面的用户行为,从而可以充分的利用用户的信息并将大量的用户进行分类,充分利用海量数据蕴含的丰富信息定位用户的兴趣。
综上所述,通过本实施例可以获知用户感兴趣的主题以及每个用户所涵盖的主题比例,通过采取用户主题模型将用网络访问行为和搜索行为有机的融合在一起,充分地利用了用户的信息,得到了更精准的用户分类结果。
第三实施例
图4示出根据本发明第三实施例的网络用户分类装置的结构示意图。下面参考图4来说明本实施例的各部分组成。
请参考图4,本实施例的网页分类模块(31)、特征向量生成模块(32)、聚类模块(33)分别执行第一实施例的步骤110、步骤120、步骤130的操作,分类模块(35)执行第一实施例的步骤140的操作。在此不再详细展开说明。
第四实施例
图5示出根据本发明第四实施例的网络用户分类装置的结构示意图。下面参考图5来说明本实施例的各部分组成。在图5中,对与前述实施例相同或相似的模块,采用了相同的附图标记。
请参考图5,本实施例的网页分类模块(31)、特征向量生成模块(32)、聚类模块(33),变换矩阵生成模块(34)和分类模块(35)分别执行第二实施例的步骤110、步骤120、步骤130、步骤141和步骤142的操作,在此不再详细展开说明。
此外,本领域人员可以理解,上述关于预先确定多个网页类别的步骤/模块(见图1和图3的110,图4和图5的31)是可选的,也可以在后续基于用户-主题矩阵来确定用户所属的网页类别的处理中直接确定网页类别。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (9)

1.一种网络用户分类方法,其特征在于,包括:
基于用户的网络行为生成用户的行为特征向量;
基于各用户的所述行为特征向量进行聚类,以构建用户-主题矩阵;
构建主题-类别变换矩阵;以及
通过将所述用户-主题矩阵与所述主题-类别变换矩阵相乘,得到用户-类别矩阵,以基于所述用户-主题矩阵来确定用户所属的网页类别,其中,
所述用户的网络行为包括网络访问行为和搜索行为;
所述用户-主题矩阵的各元素值分别表征各用户与各主题之间的关联度;以及,
在前述通过将所述用户-主题矩阵与所述主题-类别变换矩阵相乘得到用户-类别矩阵、以基于所述用户-主题矩阵来确定用户所属的网页类别的步骤中,基于所述用户-类别矩阵,将与用户关联度最大一个或多个网页类别确定为该用户所属的网页类别。
2.根据权利要求1所述的方法,其特征在于,还包括,
在基于所述用户-主题矩阵来确定用户所属的网页类别之前,基于第一设定数量网页来预先确定第二设定数量的网页类别;以及
所述构建主题-类别变换矩阵的步骤进一步包括:
通过统计所述第一设定数量网页中、与第j个主题相关联且被分类至第k个网页类别的网页数量t’j,k来确定主题-类别变换矩阵的第j行第k列元素值,j为小于等于主题数量的自然数,k为小于等于所述第二设定数量。
3.根据权利要求2所述的方法,其特征在于,还包括,
所述主题-类别变换矩阵的第j行第k列元素值等于t’j,k/total,其中,total表示所述第一设定数量。
4.根据权利要求1所述的方法,其特征在于,其中,
所述主题为经聚类所得到的一个以上赋权特征的集合。
5.根据权利要求1所述的方法,其特征在于,
所述行为特征向量的各元素为所述网络访问行为所访问的网址和/或所述搜索行为所涉及的搜索关键词。
6.根据权利要求5所述的方法,其特征在于,
所述行为特征向量的元素中,网址的元素的值为访问相应网址的次数,以及搜索关键词的元素的值为用户搜索相应关键字的次数。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在基于各用户的所述行为特征向量进行聚类、以构建用户-主题矩阵的步骤中,
将各用户的所述行为特征向量作为主题模型中特征层的特征向量,以构建用户主题模型,并利用所述用户主题模型来实现对用户所进行的聚类。
8.一种网络用户分类装置,其特征在于,包括:
特征向量生成模块,其基于用户的网络行为生成用户的行为特征向量;
聚类模块,其基于各用户的所述行为特征向量进行聚类,以构建用户-主题矩阵;
变换矩阵生成模块,其构建主题-类别变换矩阵;以及
分类模块,其将所述用户-主题矩阵与所述主题-类别变换矩阵相乘,得到用户-类别矩阵,以基于所述用户-主题矩阵来确定用户所属的网页类别,其中,
所述用户的网络行为包括网络访问行为和搜索行为;
所述用户-主题矩阵的各元素值分别表征各用户与各主题之间的关联度;以及,
所述分类模块基于所述用户-类别矩阵,将与用户关联度最大一个或多个网页类别确定为该用户所属的网页类别。
9.根据权利要求8所述的装置,其特征在于,还包括
网页分类模块,其基于第一设定数量网页来预先确定第二设定数量的网页类别;以及
变换矩阵生成模块,其中,
变换矩阵生成模块通过统计所述第一设定数量网页中、与第j个主题相关联且被分类至第k个网页类别的网页数量t’j,k来确定主题-类别变换矩阵的第j行第k列元素值,j为小于等于主题数量的自然数,k为小于等于所述第二设定数量。
CN201110359807.0A 2011-11-14 2011-11-14 一种网络用户分类方法及其装置 Expired - Fee Related CN102521248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110359807.0A CN102521248B (zh) 2011-11-14 2011-11-14 一种网络用户分类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110359807.0A CN102521248B (zh) 2011-11-14 2011-11-14 一种网络用户分类方法及其装置

Publications (2)

Publication Number Publication Date
CN102521248A CN102521248A (zh) 2012-06-27
CN102521248B true CN102521248B (zh) 2015-01-07

Family

ID=46292170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110359807.0A Expired - Fee Related CN102521248B (zh) 2011-11-14 2011-11-14 一种网络用户分类方法及其装置

Country Status (1)

Country Link
CN (1) CN102521248B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914478B (zh) * 2013-01-06 2018-05-08 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
CN104102635B (zh) * 2013-04-01 2018-05-11 腾讯科技(深圳)有限公司 一种挖掘知识图谱的方法及装置
CN103514288B (zh) * 2013-09-30 2016-08-24 广州品唯软件有限公司 客户端类别识别方法和系统
CN104915355B (zh) * 2014-03-13 2019-04-26 腾讯科技(深圳)有限公司 一种用户分类方法、装置及服务器
CN104462320A (zh) * 2014-12-01 2015-03-25 中国联合网络通信集团有限公司 一种实现网络用户分类的方法及装置
CN106294508B (zh) * 2015-06-10 2020-02-11 深圳市腾讯计算机系统有限公司 一种刷量工具检测方法及装置
CN105260414B (zh) * 2015-09-24 2018-10-19 精硕科技(北京)股份有限公司 用户行为相似性计算方法及装置
CN105512914B (zh) * 2015-12-09 2021-07-16 联想(北京)有限公司 一种信息处理方法及电子设备
CN107665208B (zh) * 2016-07-28 2019-12-13 北京国双科技有限公司 用户偏好度量方法及装置
CN108399551A (zh) * 2017-02-08 2018-08-14 阿里巴巴集团控股有限公司 一种确定用户标签和推送信息的方法及系统
CN108664508B (zh) * 2017-03-31 2021-12-24 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN107818334A (zh) * 2017-09-29 2018-03-20 北京邮电大学 一种移动互联网用户访问模式表征和聚类方法
CN110019759A (zh) * 2017-10-27 2019-07-16 腾讯科技(深圳)有限公司 用户分群处理方法、装置、计算机设备和存储介质
CN107943895A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN108171538A (zh) * 2017-12-26 2018-06-15 中国联合网络通信集团有限公司 用户数据处理方法及系统
CN110097066B (zh) * 2018-01-31 2024-01-05 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN110880006B (zh) * 2018-09-05 2024-05-14 广州视源电子科技股份有限公司 用户分类方法、装置、计算机设备和存储介质
CN110532460A (zh) * 2019-04-18 2019-12-03 国家计算机网络与信息安全管理中心 网络访问用户的分类方法、装置、电子设备及介质
CN110225001B (zh) * 2019-05-21 2021-06-04 清华大学深圳研究生院 一种基于主题模型的动态自更新网络流量分类方法
CN111581522B (zh) * 2020-06-05 2021-03-09 预见你情感(北京)教育咨询有限公司 一种基于用户身份辨别的社交分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于用户浏览内容的web用户浏览行为的个性化研究;潘延军;《中国优秀硕士学位论文全文数据库》;20060713;第六章 *
基于用户行为分析的校园网搜索引擎排序方法;杨岳湘等;《计算机工程》;20101231;第36卷(第24期);第275-277页 *
基于用户行为分析的网页分类系统的研究与实现;黄美宁;《中国优秀硕士学位论文全文数据库》;20110906;第1~58页 *

Also Published As

Publication number Publication date
CN102521248A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102521248B (zh) 一种网络用户分类方法及其装置
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
EP1304627B1 (en) Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
US7519588B2 (en) Keyword characterization and application
CN102523274B (zh) 基于核心网侧的无线个性化精准信息主动推送系统及方法
Kang et al. Modeling user interest in social media using news media and wikipedia
US8768050B2 (en) Accurate text classification through selective use of image data
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
Beebe et al. Post-retrieval search hit clustering to improve information retrieval effectiveness: Two digital forensics case studies
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
Bendersky et al. Learning from user interactions in personal search via attribute parameterization
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
CN102567494B (zh) 网站分类方法及装置
CN101706812B (zh) 一种文档的检索方法和装置
Hassan et al. Task tours: helping users tackle complex search tasks
CN103116635A (zh) 面向领域的暗网资源采集方法和系统
US20120221545A1 (en) Isolating desired content, metadata, or both from social media
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
Claster et al. Unsupervised artificial neural nets for modeling movie sentiment
KR101007056B1 (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
Liu et al. The research of Web mining
Wei et al. DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia
CN104462241A (zh) 基于url中锚文字和周边文本的人口属性分类方法及装置
AleAhmad et al. irBlogs: A standard collection for studying Persian bloggers
Preetha et al. Personalized search engines on mining user preferences using clickthrough data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee after: Izp (China) Network Technology Co.,Ltd.

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: BEIJING IZP NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20160111

Address after: 100190, Haidian District, Beijing South Street, northeast flourishing, Beijing Zhongguancun software incubator, building 1, block C, three, 1322-D

Patentee after: IZP (BEIJING) TECHNOLOGIES Co.,Ltd.

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: Izp (China) Network Technology Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150107

Termination date: 20181114

CF01 Termination of patent right due to non-payment of annual fee