CN104111946A - 基于用户兴趣的聚类方法和装置 - Google Patents

基于用户兴趣的聚类方法和装置 Download PDF

Info

Publication number
CN104111946A
CN104111946A CN201310137316.0A CN201310137316A CN104111946A CN 104111946 A CN104111946 A CN 104111946A CN 201310137316 A CN201310137316 A CN 201310137316A CN 104111946 A CN104111946 A CN 104111946A
Authority
CN
China
Prior art keywords
user
data
cluster
primary attribute
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310137316.0A
Other languages
English (en)
Other versions
CN104111946B (zh
Inventor
程小梅
苏小康
曾鹏云
范世青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310137316.0A priority Critical patent/CN104111946B/zh
Priority to PCT/CN2014/075088 priority patent/WO2014169776A1/en
Priority to US14/445,097 priority patent/US9798797B2/en
Publication of CN104111946A publication Critical patent/CN104111946A/zh
Application granted granted Critical
Publication of CN104111946B publication Critical patent/CN104111946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明适用于互联网领域,提供了一种基于用户兴趣的聚类方法和装置,该方法包括:接收用户的基础属性的数据;根据预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算所述用户的基础属性数据与聚类的中心点的距离;将所述距离与预设的阈值进行比较;如果所述距离小于预设的阈值,判定所述用户属于所述兴趣的聚类。本发明实施例可以从注册的用户的数据中直接获取基础属性数据,在用户没有浏览操作的行为数据前就可以根据注册信息得到的兴趣聚类进行相应内容的推荐,能够对新注册用户进行推荐的同时,也能提高推荐的准确度。

Description

基于用户兴趣的聚类方法和装置
技术领域
本发明属于互联网领域,尤其涉及基于用户兴趣的聚类方法和装置。
背景技术
基于用户兴趣的聚类方法目前广泛应用于网页内容的推荐或广告内容的推荐,使用户快速找到符合自己兴趣的网页内容或者查看到感兴趣的商品。
在完成对用户兴趣聚类前,需要对用户兴趣进行查找和统计,现有的查找用户兴趣的方法,一般是通过统计用户的各种网页操作数据,如网页的打开次数、搜索的产品内容信息和购买的产品的种类信息,然后根据统计的数据转化为用户兴趣的相应的权重值。
采用这种兴趣统计方法进行用户聚类,由于只考虑了用户的网页行为数据,如果用户没有产生行为数据,则不能确定用户兴趣值,不能对新用户完成聚类操作,不能准确的推荐相关内容。
发明内容
本发明实施例的目的在于提供一种基于用户兴趣的聚类方法,以解决现有技术在用户没有产生行为数据时不能确定用户兴趣值,无法对新用户完成聚类操作的问题,以提高给用户推荐内容的准确度。
本发明实施例是这样实现的,一种基于用户兴趣的聚类方法,所述方法包括下述步骤:
接收用户的基础属性的数据;
根据预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算所述用户的基础属性数据与聚类的中心点的距离;
将所述距离与预设的阈值进行比较;
如果所述距离小于预设的阈值,判定所述用户属于所述兴趣的聚类。
本发明实施例的另一目的在于提供一种基于用户兴趣的聚类装置,所述装置包括:
第一接收单元,用于接收用户的基础属性的数据;
第一计算单元,用于根据预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算所述用户的基础属性数据与聚类的中心点的距离;
比较单元,用于将所述距离与预设的阈值进行比较;
判定单元,用于如果所述距离小于预设的阈值,判定所述用户属于所述兴趣的聚类。
在本发明实施例中,根据接收到的用户的基础属性数据和预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算得到所述用户的基础属性数据与聚类的中心点的距离,将所述距离与预设的阀值比较,如果所计算的距离小于预设的阀值,则认为当前计算的用户属于当前兴趣的聚类。由于本发明实施例可以从注册的用户的数据中直接获取基础属性数据,在用户没有浏览操作的行为数据前就可以根据注册信息得到的兴趣聚类进行相应内容的推荐,能够对新注册用户进行推荐的同时,也能提高推荐的准确度。
附图说明
图1是本发明第一实施例提供的基于用户兴趣的聚类方法的实现流程图;
图2是本发明第二实施例提供的基于用户兴趣的聚类方法的实现流程图;
图3是本发明第三实施例提供的基于用户兴趣的聚类装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中所述兴趣,是指用户对某类产品或者某种行为的喜爱程度,如用户对电子产品、农产品或者看玄幻小说、看军事新闻等的喜爱程度。所述聚类,是指根据用户所具有的兴趣,即用户对产品或者行为的喜爱程度,查找具有相同兴趣的同户,将这些具有相同兴趣的用户归为一个类别。如查找喜欢看玄幻小说的用户归为一个类别。
在本发明实施例中,对接收到的用户的基础属性数据和预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算得到所述用户的基础属性数据与聚类的中心点的距离,将所述距离与预设的阀值比较,如果所计算的距离小于预设的阀值,则认为当前计算的用户属于当前兴趣的聚类。在用户没有浏览操作的行为数据前就可以根据注册信息得到的兴趣聚类进行相应内容的推荐,能够对新注册用户进行推荐。
为进一步提高推荐的精确度,本发明实施例还提供了包括基于用户的活跃度数据和用户的行为数据计算其与聚类的中心点的距离,通过综合比较计算得到距离与预设阈值的大小,通过更为全面的数据分析,提高聚类的精确度。相应的,为适应某一兴趣的聚类用户的数量,可以调整预设的阈值相应的改变聚类用户的多少。
实施例一:
图1示出了本发明基于用户兴趣的聚类的实现流程,详述如下:
在步骤S101中,接收用户的基础属性的数据。
具体的,所述用户的基础属性的数据,为用户在注册时填写的一些常规个人数据,可以包括用户的性别、年龄、职业、居住地、出生日期和星座等数据。
在步骤S102中,根据预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算所述用户的基础属性数据与聚类的中心点的距离。
具体的,影响用户兴趣的基础属性数据可能为其中一项,也可能包括基础属性数据中的多项。当确定影响用户兴趣的基础属性数据为其中一项时,对应的聚类的中心点为一个数值,当确定影响用户兴趣基础属性数据有n项时,对应的聚类的中心点对应为n个数值组成的n维向量。
所述距离,可以为欧式距离、曼哈顿距离,还可以使用余弦相似度等计算用户的基础属性数据到聚类中心点的距离。
所述聚类的中心点,其计算需要预先得到的影响所述兴趣的基础属性的统计数据。可根据同一基础属性的不同值对所述兴趣的影响程度和不同基础属性对所述兴趣影响的权重值得到聚类的中心点。
得到聚类中心点的步骤可以包括如下步骤:
1.1量化影响用户兴趣计算的基础属性;
具体的,某一影响用户兴趣计算的基础属性包括多个类型,如性别包括男、女和未知,年龄包括多个数值等。
1.2获取各量化的基础属性在所述基础属性中对应的用户的占比;
将某个基础属性中多个类型量化后,对各类型对应的用户占所述基础属性总用户的值进行计算,该计算结果一般预先已存储。
1.3根据所述量化的基础属性和对应的用户的占比取乘积后求和,计算基础属性数据的聚类的中心点。
下面以电商兴趣的用户聚类举例说明如下:
影响电商兴趣的基础属性包括性别、年龄,其它基础属性如住址、姓名、邮箱等对电商兴趣不产生明显影响,其中:
根据统计数据,对于电商兴趣,影响该兴趣的基础属性的性别数据中,男性用户占30%,女性用户占70%。首先,对性别的基础属性进行量化,用1表示男性,用2表示女性,用0表示未知,此处的量化数据仅为举例说明,并不局限于数据1、2等,具体量化数值的选取与所述基础属性影响用户兴趣的权重相关。那么,性别属性的聚类的中心点为:2*0.7+1*0.3=1.7。
根据年龄在电商兴趣的统计数据:20岁用户的用户对电商购物感兴趣的比例为70%,25岁对电商购物感兴趣的比例为30%(此处假设的年龄仅示意出两个,实际中应该包括各个年龄的数据)在量化过程中,根据年龄对用户兴趣影响的权重,以年龄作为量化结果,用数字20表示年龄为20的用户,用数字25表示年龄为25的用户,那么对于上述量化后的年龄在电商兴趣的聚类的中心点为20*70%+25*30%=21.5。
因此,上述数据如由下表所示:
基础属性名称 性别 年龄 地址 姓名
聚类中心点 1.7 21.5 / /
在得到影响电商兴趣的基础属性的聚类的中心点后,依据所述聚类的中心点对用户的所述基础属性的距离进行计算。依据聚类距离计算公式,包括欧式距离、曼哈顿距离、余弦相似度等计算用户与所述兴趣的聚类的中心点的距离,如根据上述表格中的数据,得到影响用户电商兴趣两上基础属性的聚类中心点向量(性别、年龄)为(1.7,21.5),那么,如果当前用户的基础属性数据为一20岁的女青年,那么,当前用户的两个基础属性与聚类的中心点的欧式距离,计算式为: ( 21.5 - 20 ) 2 + ( 2 - 1.7 ) 2 = 2.34 .
在步骤S103中,将所述距离与预设的阈值进行比较。
根据需要聚类的用户的群体的大小,预先设置阈值,并将步骤S102得到的距离(可以为单一基础属性与聚类的中心点的距离,也可以多个基础属性与聚类的中心点的距离,根据情况设定阈值大小)与阈值比较。
在步骤S104中,如果所述距离小于预设的阈值,判定所述用户属于所述兴趣的聚类。
具体的,如果影响所述兴趣的基础属性与聚类的中心点的距离小于预设的阈值,那么可以判定所述用户属于所述兴趣的聚类,该用户具有该兴趣。例如上述举例中,假设两个基础属性与聚类中心点的阈值为1.7,那么由于 故判定该用户具有电商兴趣。
在本发明实施例,由于可以从注册的用户的数据中直接获取基础属性数据,在用户没有浏览操作的行为数据前就可以根据注册信息得到的兴趣聚类进行相应内容的推荐,能够对新注册用户进行推荐的同时,也能提高推荐的准确度。
实施例二:
图2为本发明第二实施例提供的基于用户兴趣的聚类方法的实现流程,详述如下:
在步骤S201中,接收用户的活跃度数据、用户的基础属性的数据和用户的行为数据。
具体的,对于某一具体兴趣,影响该兴趣的因素较多,可以综合某用户的全部或者部分因素计算该兴趣的喜爱程度,当然,本实施例作为一种较为全面的实施方式,综合考虑了用户的活跃度因素、用户的基础属性的数据和用户的行为数据对所述兴趣的影响,还可以包括其它影响用户兴趣计算的其它因素。
所述活跃度数据,包括用户在指定的时间段内的平均行为(包括浏览网站的行为、搜索行为、书签添加行为等)的次数。
所述用户的基础属性的数据,包括用户的性别、年龄、职业、居住地、出生日期和星座等数据。
对于浏览网站的行为,搜索行为,书签添加行为等,需要转化为相应兴趣类别的访问次数。对于浏览网站的行为,可以建立网站与兴趣的类别的对应关系,如www.taobao.com对应电商兴趣,对于搜索行为,可以建立搜索词与兴趣类别的对应关系,如搜索词“武动乾坤”对应小说兴趣,对于书签添加行为,也可以根据浏览网站的行为所建立的网站与兴趣的类别的对应关系,把添加的网站转化为对应兴趣的行为。所述行为数据包括用户某一兴趣的总的行为次数、用户所有兴趣的总的行为次数、用户某一兴趣的总的使用天数据、总的研究天数据等。
在步骤S202中,根据预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点、影响用户兴趣计算的活跃度数据的聚类的中心点,根据预先确定的影响用户的兴趣计算的行为数据的聚类的中心点;计算所述基础属性的数据、用户的活跃度数据和用户的行为数据与相应的聚类的中心点构成的向量的距离。
具体的,可以在考虑用户基础属性的基础上,增加活跃度数据和行为数据,以提高用户聚类的准确性。
对于用户的活跃度数据,可以将用户的平均行为次数划分为三个等级(等级的定义可以根据实际应用场景细分)。平均行为次数在0到a之间的用户,其活跃度聚会为1,平均行为次数在a到2a之间的用户,其活跃度取值为2a,平均行为次数大于2a的用户,其活跃度取值为3。由于兴趣计算中,更加倾向于活跃度高的用户,所以活跃度的聚类的中心点的取值为3。
对于行为数据,由于在兴趣计算中,用户某一兴趣的总的行为次数在用户所有兴趣的总的行为次灵敏的占比和用户某一兴趣的总的使用天数在总的研究天数中的占比的值越大越好,所以其聚类的中心点都为1。例如,以浏览器用户30天的行为数据来计算,若某一用户在这30天内,小说兴趣类别的访问天数是15天,总的页面访问PV(page view)次数是60,电商类别的访问天数是6天,电商类别的页面访问PV次数是40,则小说兴趣类别的PV占比为60/100=0.6,访问天数的占比为15/30=0.5,电商类别的PV占比为40/100=0.4,访问天数的占比为6/30=0.2。
在步骤S203中,将所述计算的基础属性的数据、用户的活跃度数据和用户的行为数据与相应的聚类的中心点构成的向量的距离与预设的阈值进行比较。
假设现有的电商兴趣的聚类的中心点构成的向量为(性别、年龄、活跃度、电商PV占比、电商访问天数占比)=(1.7,20,3,1,1),若一用户性别为女,年龄为20,活跃度为3,电商PV占有比为0.8,电商的访问天数占比为0.5,那么,该用户与聚类中心点构成的向量的欧式距离可以表示为:
( 2 - 1.7 ) 2 + ( 21.5 - 20 ) 2 + ( 3 - 3 ) 2 + ( 1 - 0.8 ) 2 + ( 1 - 0.5 ) 2 ≈ 1.622
本实施例计算的因子包括四个,在其它实施方式中,也可以先用部分因子或者更多影响兴趣值的因子,根据兴趣的类别而定。
在步骤S204中,如果所述距离小于预设的阈值,判定所述用户属于所述兴趣的聚类。
具体的,由于本发明实施例中考虑的数据个数不同,所以相应的阈值距离也应该相应的调整,。
在步骤S205中,根据聚类用户数量调整所述阈值的大小。
由于不同的内容所面向的推荐对象的群体的大小不尽相同,有时得到的聚类用户数量过大或者数量过小,因此,为使得聚类的用户的数量更加合理,还可以包括本步骤根据聚类的用户数量调整所述阈值的大小,同样,该步骤也可适用于实施例一。
作为本发明的另一种实施方式,接收用户的基础属性的数据和活跃度数据;
根据预先确定的影响用户兴趣计算的活跃度数据的聚类的中心点,计算所述基础属性的数据、用户的活跃度数据与相应的聚类的中心点构成的向量的距离;
计算的基础属性的数据、用户的活跃度数据与相应的聚类的中心点构成的向量的距离,将所述计算的距离与预设的阈值进行比较。
本发明实施例二与实施例一不同之处在于,通过多个影响用户兴趣值的因子,包括用户的基础属性数据、用户的活跃度数据和用户的行为数据与相应的聚类的中心点的向量计算距离,使得到的用户兴趣的喜爱程度更加准确,在聚类完成后还包括对阈值的调整步骤,可以灵活调整聚类用户的数量,使得推荐更加灵活。
实施例三:
图3为本发明第三实施例提供的基于用户兴趣的聚类装置的结构示意图,详述如下:
本发明实施例所述基于用户兴趣的聚类装置,包括第一接收单元301、第一计算单元302、比较单元303和判定单元304,其中
第一接收单元301,用于接收用户的基础属性的数据;
第一计算单元302,用于根据预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算所述用户的基础属性数据与聚类的中心点的距离;
比较单元303,用于将所述距离与预设的阈值进行比较;
判定单元304,用于如果所述距离小于预设的阈值,判定所述用户属于所述兴趣的聚类。
为使得聚类的用户更加准确,所述装置还包括:
第二接收单元305,用于接收用户的活跃度数据;
第二计算单元306,用于根据预先确定的影响用户兴趣计算的活跃度数据的聚类的中心点;计算所述基础属性的数据、用户的活跃度数据与相应的聚类的中心点构成的向量的距离;
所述比较单元303具体用于计算的基础属性的数据、用户的活跃度数据与相应的聚类的中心点构成的向量的距离,将所述距离与预设的阈值进行比较。
为进一步提高聚类用户的准确性,所述装置还包括:
第三接收单元307,用于接收用户的行为数据;
第三计算单元308,用于计算所述基础属性的数据、用户的活跃度数据和用户的行为数据与相应的聚类的中心点构成的向量的距离;
所述比较单元303具体用于计算的基础属性的数据、用户的活跃度数据、用户的行为数据与相应的聚类的中心点构成的向量的距离,将所述计算的距离与预设的阈值进行比较。
所述第一计算单元302具体包括:
量化子单元3021,用于量化影响用户兴趣计算的基础属性;
占比获取子单元3022,用于获取各量化的基础属性在所述基础属性中对应的用户的占比;
聚类的中心点计算子单元3023,用于根据所述量化的基础属性和对应的用户的占比取乘积后求和,计算基础属性数据的聚类的中心点。。
其中,所述活跃度数据包括网页浏览次数、搜索数据次数、书签添加次数中的一种或者多种,所述行为数据包括对于某一兴趣的总的行为次数在用户所有兴趣的总的行为次数的占比和/或某一兴趣的总的行为次数在用户所有兴趣的行为次数中的占比。
由于不同的内容所面向的推荐对象的群体的大小不尽相同,有时得到的聚类用户数量过大或者数量过小,因此,为使得聚类的用户的数量更加合理,本实施例所述装置还包括调整单元309,用于根据聚类用户的数量调整所述阈值的大小。
本发明实施例所述基于用户兴趣的聚类装置,与上述实施例一和二所述的基于用户兴趣的聚类方法相对应,在此不作重复赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种基于用户兴趣的聚类方法,其特征在于,所述方法包括下述步骤:
接收用户的基础属性的数据;
根据预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算所述用户的基础属性数据与聚类的中心点的距离;
将所述距离与预设的阈值进行比较;
如果所述距离小于预设的阈值,判定所述用户属于所述兴趣的聚类。
2.根据权利要求1所述的方法,其特征在于,在所述步骤将所述距离与预设的阈值进行比较前,所述方法还包括:
接收用户的活跃度数据;
根据预先确定的影响用户兴趣计算的活跃度数据的聚类的中心点,计算所述基础属性的数据、用户的活跃度数据与相应的聚类的中心点构成的向量的距离;
所述步骤将所述距离与预设的阈值进行比较具体为:
计算的基础属性的数据、用户的活跃度数据与相应的聚类的中心点构成的向量的距离,将所述计算的距离与预设的阈值进行比较。
3.根据权利要求2所述的方法,其特征在于,所述步骤将所述距离与预设的阈值进行比较前,所述方法还包括:
接收用户的行为数据;
计算所述基础属性的数据、用户的活跃度数据和用户的行为数据与相应的聚类的中心点构成的向量的距离;
所述步骤将所述距离与预设的阈值进行比较具体为:
计算基础属性的数据、用户的活跃度数据、用户的行为数据与相应的聚类的中心点构成的向量的距离,将所述计算的距离与预设的阈值进行比较。
4.根据权利要求3所述的方法,其特征在于,所述活跃度数据包括网页浏览次数、搜索数据次数、书签添加次数中一种或者多种,所述行为数据包括对于某一兴趣的总的行为次数在用户所有兴趣的总的行为次数的占比和/或某一兴趣的总的行为次数在用户所有兴趣的行为次数中的占比。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
量化影响用户兴趣计算的基础属性;
获取各量化的基础属性在所述基础属性中对应的用户的占比;
根据所述量化的基础属性和对应的用户的占比取乘积后求和,计算基础属性数据的聚类的中心点。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括根据聚类用户数量调整所述阈值的大小。
7.一种基于用户兴趣的聚类装置,其特征在于,所述装置包括:
第一接收单元,用于接收用户的基础属性的数据;
第一计算单元,用于根据预先确定的影响用户兴趣计算的基础属性数据的聚类的中心点,计算所述用户的基础属性数据与聚类的中心点的距离;
比较单元,用于将所述距离与预设的阈值进行比较;
判定单元,用于如果所述距离小于预设的阈值,判定所述用户属于所述兴趣的聚类。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二接收单元,用于接收用户的活跃度数据;
第二计算单元,用于根据预先确定的影响用户兴趣计算的活跃度数据的聚类的中心点;计算所述基础属性的数据、用户的活跃度数据与相应的聚类的中心点构成的向量的距离;
所述比较单元具体用于计算的基础属性的数据、用户的活跃度数据与相应的聚类的中心点构成的向量的距离,将所述距离与预设的阈值进行比较。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第三接收单元,用于接收用户的行为数据;
第三计算单元,用于计算所述基础属性的数据、用户的活跃度数据和用户的行为数据与相应的聚类的中心点构成的向量的距离;
所述比较单元具体用于计算的基础属性的数据、用户的活跃度数据、用户的行为数据与相应的聚类的中心点构成的向量的距离,将所述计算的距离与预设的阈值进行比较。
10.根据权利要求9所述的装置,其特征在于,所述活跃度数据包括网页浏览次数、搜索数据次数、书签添加次数中的一种或者多种,所述行为数据包括对于某一兴趣的总的行为次数在用户所有兴趣的总的行为次数的占比和/或某一兴趣的总的行为次数在用户所有兴趣的行为次数中的占比。
11.根据权利要求7所述的装置,其特征在于,所述第一计算单元具体包括:
量化子单元,用于量化影响用户兴趣计算的基础属性;
占比获取子单元,用于获取各量化的基础属性在所述基础属性中对应的用户的占比;
聚类的中心点计算子单元,用于根据所述量化的基础属性和对应的用户的占比取乘积后求和,计算基础属性数据的聚类的中心点。
CN201310137316.0A 2013-04-19 2013-04-19 基于用户兴趣的聚类方法和装置 Active CN104111946B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310137316.0A CN104111946B (zh) 2013-04-19 2013-04-19 基于用户兴趣的聚类方法和装置
PCT/CN2014/075088 WO2014169776A1 (en) 2013-04-19 2014-04-10 Cluster method and apparatus based on user interest
US14/445,097 US9798797B2 (en) 2013-04-19 2014-07-29 Cluster method and apparatus based on user interest

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310137316.0A CN104111946B (zh) 2013-04-19 2013-04-19 基于用户兴趣的聚类方法和装置

Publications (2)

Publication Number Publication Date
CN104111946A true CN104111946A (zh) 2014-10-22
CN104111946B CN104111946B (zh) 2018-08-07

Family

ID=51708741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310137316.0A Active CN104111946B (zh) 2013-04-19 2013-04-19 基于用户兴趣的聚类方法和装置

Country Status (3)

Country Link
US (1) US9798797B2 (zh)
CN (1) CN104111946B (zh)
WO (1) WO2014169776A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951535A (zh) * 2015-06-18 2015-09-30 南京邮电大学 一种研究人员所属领域确定系统及其方法
CN104965863A (zh) * 2015-06-05 2015-10-07 北京奇虎科技有限公司 一种对象聚类方法和装置
CN105550903A (zh) * 2015-12-25 2016-05-04 腾讯科技(深圳)有限公司 目标用户确定方法及装置
CN105809464A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 信息投放方法和装置
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
CN107230098A (zh) * 2016-03-25 2017-10-03 阿里巴巴集团控股有限公司 一种业务对象的分时推荐方法和系统
CN107451832A (zh) * 2016-05-30 2017-12-08 北京京东尚科信息技术有限公司 推送信息的方法和装置
CN107480217A (zh) * 2017-07-31 2017-12-15 陕西识代运筹信息科技股份有限公司 一种基于社交数据的信息处理方法和装置
CN108596648A (zh) * 2018-03-20 2018-09-28 阿里巴巴集团控股有限公司 一种商圈判定方法和装置
CN109002469A (zh) * 2018-06-11 2018-12-14 广东奥博信息产业股份有限公司 一种基于广义点集距离的信息个性化推荐及提示方法
CN109145118A (zh) * 2018-09-06 2019-01-04 北京京东尚科信息技术有限公司 信息管理方法和装置
CN109190028A (zh) * 2018-08-22 2019-01-11 中国平安人寿保险股份有限公司 基于大数据的活动推荐方法、装置、电子设备及存储介质
CN110135916A (zh) * 2019-05-23 2019-08-16 北京优网助帮信息技术有限公司 一种相似人群识别方法及系统
CN111259931A (zh) * 2020-01-09 2020-06-09 支付宝(杭州)信息技术有限公司 一种用户分组以及活跃度确定方法及系统
CN111683154A (zh) * 2020-06-17 2020-09-18 腾讯科技(深圳)有限公司 一种内容推送的方法、装置、介质及电子设备
CN111931845A (zh) * 2017-04-20 2020-11-13 北京嘀嘀无限科技发展有限公司 一种确定用户组相似性的系统和方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3052529A (en) * 1953-05-28 1962-09-04 Ethyl Corp Stabilized hydrocarbon fuels and lubricants
CN106469181B (zh) * 2015-08-21 2020-08-07 方正国际软件(北京)有限公司 一种用户行为模式分析方法及装置
CN106502389A (zh) * 2016-09-27 2017-03-15 北京光年无限科技有限公司 一种用于机器人的多模态输出方法
US10936627B2 (en) 2017-10-27 2021-03-02 Intuit, Inc. Systems and methods for intelligently grouping financial product users into cohesive cohorts
JP6977585B2 (ja) * 2018-01-26 2021-12-08 富士通株式会社 関心度評価プログラム、装置、及び方法
CN108876018A (zh) * 2018-05-30 2018-11-23 深圳投时科技有限公司 一种基于群体情绪的预测方法、装置、系统、服务器及终端
CN109035078A (zh) * 2018-08-31 2018-12-18 北京诸葛找房信息技术有限公司 一种基于多维度信息相似计算的房源聚合方法
CN111241360B (zh) * 2020-01-09 2023-03-21 深圳市雅阅科技有限公司 一种信息推荐方法、装置、设备及存储介质
CN112949697B (zh) * 2021-02-07 2023-03-17 广州杰赛科技股份有限公司 一种管道异常的确认方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125377A1 (en) * 2007-11-14 2009-05-14 Microsoft Corporation Profiling system for online marketplace
CN102063458A (zh) * 2010-10-12 2011-05-18 百度在线网络技术(北京)有限公司 用于在计算机网络的网络设备中进行用户聚类的方法和设备
CN102591872A (zh) * 2011-01-06 2012-07-18 中国移动通信集团四川有限公司 一种客户特征库生成方法和装置
CN102609523A (zh) * 2012-02-10 2012-07-25 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐算法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030097186A1 (en) 2001-11-13 2003-05-22 Koninklijke Philips Electronics N.V Method and apparatus for generating a stereotypical profile for recommending items of interest using feature-based clustering
CN101082972A (zh) * 2007-05-30 2007-12-05 华为技术有限公司 预测用户对商品的兴趣的方法、装置和广告发布方法
CN102915311B (zh) * 2011-08-03 2016-04-27 腾讯科技(深圳)有限公司 搜索方法及系统
US8781735B2 (en) * 2012-06-25 2014-07-15 Google Inc. Adaptive clustering of locations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125377A1 (en) * 2007-11-14 2009-05-14 Microsoft Corporation Profiling system for online marketplace
CN102063458A (zh) * 2010-10-12 2011-05-18 百度在线网络技术(北京)有限公司 用于在计算机网络的网络设备中进行用户聚类的方法和设备
CN102591872A (zh) * 2011-01-06 2012-07-18 中国移动通信集团四川有限公司 一种客户特征库生成方法和装置
CN102609523A (zh) * 2012-02-10 2012-07-25 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋帅: "K-均值聚类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809464A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 信息投放方法和装置
CN104965863A (zh) * 2015-06-05 2015-10-07 北京奇虎科技有限公司 一种对象聚类方法和装置
CN104965863B (zh) * 2015-06-05 2019-04-26 北京奇虎科技有限公司 一种对象聚类方法和装置
CN104951535B (zh) * 2015-06-18 2019-03-26 南京邮电大学 一种研究人员所属领域确定系统及其方法
CN104951535A (zh) * 2015-06-18 2015-09-30 南京邮电大学 一种研究人员所属领域确定系统及其方法
CN105550903A (zh) * 2015-12-25 2016-05-04 腾讯科技(深圳)有限公司 目标用户确定方法及装置
CN107230098A (zh) * 2016-03-25 2017-10-03 阿里巴巴集团控股有限公司 一种业务对象的分时推荐方法和系统
CN107451832A (zh) * 2016-05-30 2017-12-08 北京京东尚科信息技术有限公司 推送信息的方法和装置
CN107451832B (zh) * 2016-05-30 2023-09-05 北京京东尚科信息技术有限公司 推送信息的方法和装置
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
US11574139B2 (en) 2016-08-31 2023-02-07 Tencent Technology (Shenzhen) Company Limited Information pushing method, storage medium and server
CN106355449B (zh) * 2016-08-31 2021-09-07 腾讯科技(深圳)有限公司 用户选取方法和装置
CN111931845A (zh) * 2017-04-20 2020-11-13 北京嘀嘀无限科技发展有限公司 一种确定用户组相似性的系统和方法
CN107480217A (zh) * 2017-07-31 2017-12-15 陕西识代运筹信息科技股份有限公司 一种基于社交数据的信息处理方法和装置
CN108596648B (zh) * 2018-03-20 2020-07-17 阿里巴巴集团控股有限公司 一种商圈判定方法和装置
CN108596648A (zh) * 2018-03-20 2018-09-28 阿里巴巴集团控股有限公司 一种商圈判定方法和装置
CN109002469B (zh) * 2018-06-11 2021-08-31 广东奥博信息产业股份有限公司 一种基于广义点集距离的信息个性化推荐及提示方法
CN109002469A (zh) * 2018-06-11 2018-12-14 广东奥博信息产业股份有限公司 一种基于广义点集距离的信息个性化推荐及提示方法
CN109190028A (zh) * 2018-08-22 2019-01-11 中国平安人寿保险股份有限公司 基于大数据的活动推荐方法、装置、电子设备及存储介质
CN109145118A (zh) * 2018-09-06 2019-01-04 北京京东尚科信息技术有限公司 信息管理方法和装置
CN110135916A (zh) * 2019-05-23 2019-08-16 北京优网助帮信息技术有限公司 一种相似人群识别方法及系统
CN111259931A (zh) * 2020-01-09 2020-06-09 支付宝(杭州)信息技术有限公司 一种用户分组以及活跃度确定方法及系统
CN111259931B (zh) * 2020-01-09 2022-06-28 支付宝(杭州)信息技术有限公司 一种用户分组以及活跃度确定方法及系统
CN111683154A (zh) * 2020-06-17 2020-09-18 腾讯科技(深圳)有限公司 一种内容推送的方法、装置、介质及电子设备
CN111683154B (zh) * 2020-06-17 2023-11-14 腾讯科技(深圳)有限公司 一种内容推送的方法、装置、介质及电子设备

Also Published As

Publication number Publication date
US20140337347A1 (en) 2014-11-13
CN104111946B (zh) 2018-08-07
US9798797B2 (en) 2017-10-24
WO2014169776A1 (en) 2014-10-23

Similar Documents

Publication Publication Date Title
CN104111946A (zh) 基于用户兴趣的聚类方法和装置
Shinde et al. Hybrid personalized recommender system using centering-bunching based clustering algorithm
Chaurasia Contraceptive use in India: a data mining approach
JP5693630B2 (ja) 広告抽出装置、広告抽出方法及び広告抽出プログラム
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN102609533B (zh) 一种基于核方法的协同过滤推荐系统及方法
CN112395489B (zh) 一种推荐方法及装置、设备和计算机存储介质
CN102929939B (zh) 个性化信息的提供方法及装置
CN102663026A (zh) 一种定向投放网络广告的实现方法
CN105005917A (zh) 一种通用的关联不同电商网站单品的方法
CN104008109A (zh) 基于用户兴趣的Web信息推送服务系统
CN102968506A (zh) 一种基于扩展特征向量的个性化协同过滤推荐方法
CN107704560B (zh) 一种信息推荐的方法、装置及设备
CN104156450A (zh) 一种基于用户网络数据的物品信息推荐方法
KR20150023432A (ko) 사용자 데모그래픽을 추정하는 방법 및 장치
CN103365842B (zh) 一种页面浏览推荐方法及装置
US9111231B2 (en) Associating a web session with a household member
US20220044137A1 (en) Method and apparatus for object preference prediction, and computer readable medium
US20160189202A1 (en) Systems and methods for measuring complex online strategy effectiveness
CN106599227B (zh) 用于获取基于属性值的对象之间的相似度的方法与装置
CN105095476A (zh) 基于Jaccard均衡距离的协同过滤推荐方法
CN110930203A (zh) 信息推荐模型训练方法和装置、信息推荐方法和装置
CN104063555B (zh) 面向遥感信息智能分发的用户模型建模方法
CN106095974A (zh) 基于网络结构相似性的推荐系统评分预测与推荐算法
CN115496523A (zh) 一种广告发布方法、计算机可读存储介质和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant