CN106469163A - 一种公众号推荐方法及系统 - Google Patents

一种公众号推荐方法及系统 Download PDF

Info

Publication number
CN106469163A
CN106469163A CN201510508226.7A CN201510508226A CN106469163A CN 106469163 A CN106469163 A CN 106469163A CN 201510508226 A CN201510508226 A CN 201510508226A CN 106469163 A CN106469163 A CN 106469163A
Authority
CN
China
Prior art keywords
user
public number
calculated
group
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201510508226.7A
Other languages
English (en)
Inventor
许毓超
苗军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510508226.7A priority Critical patent/CN106469163A/zh
Priority to PCT/CN2016/095730 priority patent/WO2017028791A1/zh
Publication of CN106469163A publication Critical patent/CN106469163A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种公众号推荐方法及系统,包括:将从数据库读取的用户数据进行分组;针对待计算用户,在每个组内,确定待计算用户的最邻近用户,并根据最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对待计算用户的推荐公众号;根据所有组针对待计算用户的推荐公众号,确定待计算用户最终的推荐公众号。本发明公开的公众号推荐方法及系统,能够实现优先推荐活跃度高的公众号。

Description

一种公众号推荐方法及系统
技术领域
本发明涉及互联网信息推荐领域,尤其涉及一种公众号推荐方法及系统。
背景技术
数学领域中的六度分隔理论(Six Degrees of Separation)指出:世界上任意两个人之间建立联系,最多只需要六个人,也就是说,任一人最多通过五个中间人就能够认识任何一个陌生人。该理论亦称为小世界理论。
在大数据时代,互联网领域普遍存在信息过载的问题。为了解决信息过载的问题,在现有技术方案中,会抽取人或物品的特征,针对人或物品的特征值进行分析,或者根据人和人或人和物之间的互动数据,比如评价值、交互信息、通话记录、是否出现在同一照片、在圈子或论坛里的互动记录、位置信息等等,再根据六度分隔理论计算两者之间的强弱关系,当判定人和人或者人和物为强关系时,将确定为与某人为强关系的人或物加入某人的候选推荐列表。
现有技术方案包括人和人的推荐以及人和物的推荐。其中,人和人的推荐是社交系统构建连接的主要方法,为了能够增加真实社交关系在虚拟社交中的连接,通常会根据如图1所示的理论模型进行推荐。如图1所示,以用户A为例描述,用户A与用户B之间为一度关系,与用户C为二度关系,与用户D为三度关系,与用户E为四度关系,与用户F为五度关系,与用户G为六度关系,用户A通过与上述该些用户之间的关系进而与人或物a、b、c、d、e、f、g、h、i、j、k、m、n进行关联。
具体而言,推荐系统的核心是推荐算法,推荐算法决定了系统如何工作和具体工作的策略,现有技术方案主要是基于内容和基于协同两种算法来计算。然而,基于内容的算法存在以下问题:特征不容易抽取(比如有视频、音频、文档);若特征缺失,会导致计算结果失效;若特征值过多,数据量大,会消耗大量的计算时间。基于协同的算法主要基于物的评价以及人和物的互动记录来判定两者之间的强弱关系,基于协同的算法存在以下问题:当用户对物品的评价非常稀疏时,会导致基于用户的评价所得到的用户间的相似性可能不准确(即稀疏性问题);随着用户和物品的增多,系统的性能会越来越低(即可扩展性问题);如果从来没有用户对某一物品加以评价,则这个物品不可能被推荐。
发明内容
为了解决上述技术问题,本发明提供一种公众号推荐方法及系统,能够实现优先推荐活跃度高的公众号。
为了达到上述技术目的,本发明提供一种公众号推荐方法,包括:将从数据库读取的用户数据进行分组;针对待计算用户,在每个组内,确定所述待计算用户的最邻近用户,并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号;根据所有组针对所述待计算用户的推荐公众号,确定所述待计算用户的最终推荐公众号。
进一步地,所述将从数据库读取的用户数据进行分组包括:
根据用户数据总量与分解粒度系数的比值确定组数;
按照确定的组数将相应数目的用户数据分到相应的组中。
进一步地,所述在每个组内,确定所述待计算用户的最邻近用户包括:抽取所述待计算用户的特征值以及该组内所有用户的特征值,计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离,按照欧氏距离由小到大的顺序,确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。
进一步地,所述用户的特征值包括对应于以下至少一项特征的特征值:性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。
进一步地,所述根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号包括:在每个组内,计算所述待计算用户的最邻近用户的所有关注的公众号的评分,所述公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积,按照所述公众号的评分由大到小的顺序,确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。
进一步地,所述公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到:单位时间内的公众号的关注量、查看量及点击量。
进一步地,所述根据所有组针对所述待计算用户的推荐公众号,确定所述待计算用户的最终推荐公众号包括:
根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序,确定第三预定数目的公众号为所有组针对待计算用户的最终推荐公众号,其中,所述第三预定数据小于或等于所述第二预定数目与组数的乘积。
进一步地,所述确定所述待计算用户的最终推荐公众号之后,该方法还包括:将所述待计算用户的最终推荐公众号推送给所述待计算用户。
本发明还提供一种公众号推荐系统,包括:第一分析单元,用于将从数据库读取的用户数据进行分组;第二分析单元,用于针对待计算用户,在每个组内,确定所述待计算用户的最邻近用户,并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号;第三分析单元,用于根据所有组针对所述待计算用户的推荐公众号,确定所述待计算用户的最终推荐公众号。
进一步地,所述第一分析单元,具体用于:根据用户数据总量与分解粒度系数的比值确定组数;按照确定的组数将相应数目的用户数据分到相应的组中。
进一步地,所述第二分析单元,用于在每个组内,确定所述待计算用户的最邻近用户,包括:抽取所述待计算用户的特征值以及该组内所有用户的特征值,计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离,按照欧氏距离由小到大的顺序,确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。
进一步地,所述用户的特征值包括对应于以下至少一项特征的特征值:性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。
进一步地,所述第二分析单元,用于根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号,包括:在每个组内,计算所述待计算用户的最邻近用户的所有关注的公众号的评分,所述公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积,按照所述公众号的评分由大到小的顺序,确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。
进一步地,所述公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到:单位时间内的公众号的关注量、查看量及点击量。
进一步地,所述第三分析单元,具体用于:根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序,确定第三预定数目的公众号为所有组针对所述待计算用户的最终推荐公众号,其中,所述第三预定数据小于或等于所述第二预定数目与组数的乘积。
进一步地,该系统还包括:推送模块,用于将所述待计算用户的最终推荐公众号推送给所述待计算用户。
在本发明中,将从数据库读取的用户数据进行分组;针对待计算用户,在每个组内,确定待计算用户的最邻近用户,并根据最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对待计算用户的推荐公众号;根据所有组针对待计算用户的推荐公众号,确定待计算用户最终的推荐公众号。在本发明中,通过将大量用户数据进行并行处理,提升了大规模数据的计算性能;同时,根据最邻近用户及公众号的单位时间的最新信息衰减系数确定向待计算用户推荐的公众号,实现了优先推荐活跃度高的公众号。
较佳地,在本发明中,用户的特征值包括对应于以下至少一项特征的特征值:性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。如此,相较于现有技术,特征值容易抽取,而且,某些特征值的缺失并不会造成计算结果失效。而且,基于用户特征值确定待计算用户的最邻近用户,解决了现有技术中基于协调算法存在的稀疏性等问题。
附图说明
图1为现有技术方案的理论模型图;
图2为本发明实施例提供的公众号推荐方法的流程图;
图3为本发明实施例中用户数据分组示意图;
图4为Matlab建模的流量数据与指数函数的拟合示意图;
图5为公众号的信息衰减模型图;
图6为本发明实施例的数据模型图;
图7为本发明实施例并行处理的示意图;
图8为本发明实施例一提供的公众号推荐系统的示意图;
图9为本发明实施例一提供的公众号推荐方法的流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本发明,并不用于限定本发明。
图2为本发明实施例提供的公众号推荐方法的流程图。如图2所示,本实施例提供的公众号推荐方法包括以下步骤:
步骤11:将从数据库读取的用户数据进行分组。
其中,步骤11包括:
根据用户数据总量与分解粒度系数的比值确定组数;
按照确定的组数将相应数目的用户数据分到相应的组中。
具体而言,如图3所示,根据数据库统计记录的用户数据总量N以及分解粒度系数P,确定用户数据的组数T。于此,T=N/P。举例而言,用户数据总量N为100万,分解粒度系数P为10万,则用户数据的组数为10个。换言之,针对100万用户数据,每10万个用户数据分解到一个并行处理任务,进行并行处理。
步骤12:针对待计算用户,在每个组内,确定待计算用户的最邻近用户,并根据最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对待计算用户的推荐公众号。
具体而言,在每个组内,确定待计算用户的最邻近用户包括:抽取待计算用户的特征值以及该组内所有用户的特征值,计算待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离,按照欧氏距离由小到大的顺序,确定第一预定数目的用户为该组内待计算用户的最邻近用户。
其中,用户的特征值包括对应于以下至少一项特征的特征值:性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。具体而言,在对用户的特征值进行计算之前,会对各特征的不同情况分别赋值,并对数据进行归一化处理,以便于后续计算。比如,对不同城市进行赋值和数据归一化处理。
举例而言,待计算用户例如为用户x,用户x的特征值表示为x=(x1,……,xn),第一组中的用户y的特征值例如表示为y=(y1,……,yn),则待计算用户x的特征值与用户y的特征值之间的欧氏距离表示如下:
具体而言,在每个组内,根据上述欧氏距离计算公式,计算待计算用户与该组内每个用户之间的欧氏距离,确定欧氏距离最小的第一预定数目(如三个)的用户为该组内待计算用户的最邻近用户。即,用户特征值之间的欧氏距离越小,用户的相似度越高。其中,第一预定数目为大于0的整数,可根据实际需要进行设定,本发明对此并不限定。
于此,针对待计算用户,在每个组内,根据最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对待计算用户的推荐公众号包括:在每个组内,计算待计算用户的最邻近用户的所有关注的公众号的评分,公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积,按照公众号的评分由大到小的顺序,确定第二预定数目的公众号为该组针对待计算用户的推荐公众号。
其中,公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到:单位时间内的公众号的关注量、查看量及点击量。
以下为了说明公众号的信息衰减系数的确定进行如下假设:
假定某事物(如人体内的病毒或啤酒沫)的数量为N,且该事物减少的速度与其数量成一定比例,则在给定的时间间隔Δt下,有如下表达式:
若Δt趋于零,则可以得到一个导数,数量为时间的函数,表达式如下:
N=N0e-rt
于此,为了对上述函数进行验证,通过数学软件Matlab建模,得到流量数据与指数函数的拟合情况如图4所示,据此,可以得到拟合函数和拟合参数如下:
N=N0e-rt+B,
其中,N0=139.4hits/min,r=0.168s-1,B=20.5hits/min。
这表明在指数衰减模型下,公众号发布的消息每分钟能获得约20次点击,其中,N为每分钟点击数,并非总点击数。
现假定,有85万关注者可能会看到公众号发布的链接,此处忽略了那些看到链接的非关注者,将公众号的关注量设为F,在这些关注者中有些会查看自己的公众号消息,假定这部分关注者为W(即,公众号的查看量),这些看到链接的关注者中还有一部分会打开链接,假定这部分用户为C(即,公众号的点击量),另外,还有些人会通过其它途径点击该链接,假定这部分人为B。如图5所示,其中,大圈为总关注者量F,中圈为查看量W,小圈为点击量C。
公众号含有链接的消息发出一分钟后,所获得点击数如下:
N1=cwF+B。
假定用户a是一个看到此链接的人,每分钟用户a都会在此公众号中看到一个新链接,且用户a点击某个链接的几率和链接总数成比例,则以下前两分钟的点击量为:
其中,l为某个常量,表示新增加信息发表量,0.25为针对没有点击情况的假定比例。
此外,B也为常量,并存在另外一个假设,有些点击者会转发该链接,从而产生二阶效应,由此得出第二分钟内的函数关系如下:
N2=c2w(F-N1)+B,
其中,N1代表第一分钟内该链接的点击次数,通过工具对数据模型进行验证,可以得出以下参数:w=0.02,B=15,假定l0=25,即每分钟普通推友能看到25条新信息,根据以上推导,可以进行计算得出单位时间的信息衰减系数,例如为0.52。
具体而言,根据F=850000,此处假定查看比例为0.02,即850000*0.02=17000人会查看,
其中,根据上述公式推导可得点击比例数C如下:
C1=0.25*1/25=0.01;
C2=0.25*1/50=0.005;
C3=0.25*1/75=0.0033;
C4=0.25*1/100=0.0025;
根据上述公式推导可到N值如下:
N1=0.01*0.02*850000+20=190;
N2=0.005*0.02*(850000-190)+15=99;
N3=0.0033*0.02*(850000-99)+10=66;
N4=0.0025*0.02*(850000-66)+8=50;
相应地,公众号的信息衰减系数如下:
T1=99/190=0.52;
T2=66/99=0.66;
T3=50/66=0.75;
其中,公众号的单位时间的信息衰减系数的取值在0~1之间。
由此可见,根据数据拟合曲线可见,信息量以指数衰减,从快到慢,单位时间的信息衰减系数由小变大,以第一分钟的公众号的信息衰减系数作为加权系数,取值越大衰减越慢,越小衰减越快,且欧氏距离越小用户越接近,如此,综合评分越大,公众号的活跃度越高。
步骤13:根据所有组针对待计算用户的推荐公众号,确定待计算用户的最终推荐公众号。
于此,步骤13包括:根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序,确定第三预定数目的公众号为所有组针对待计算用户的最终推荐公众号,其中,第三预定数据小于或等于第二预定数目与组数的乘积。
此外,于步骤13之后,该方法还包括:将待计算用户的最终推荐公众号推送给待计算用户。
于此,图6为本发明实施例的数据模型图。如图6所示,针对用户A,用户A本身关注(Follow)1、3,根据用户A与用户B的关系(Relation)可以找到用户A的一度关系用户B关注的2;根据用户A与用户B、E的关系可以找到用户A的二度关系用户E关注的4;根据用户A与D的关系可以找到用户A的一度关系用户D关注的5。
图7为本发明实施例并行处理的示意图。如图7所示,在本实施例中,针对待计算用户,每个组内,计算组内K最近邻(KNN,k-Nearest Neighbor)(即K个最邻近用户),于此,K最近邻通过用户特征值的欧氏距离确定,K为大于0的整数。在每个组内,确定待计算用户的K最近邻之后,通过最邻近用户关注公众号的单位时间的最新信息衰减系统对其对应的欧氏距离进行加权,并根据加权后的结果进行组内判断确定该组针对待计算用户的推荐公众号。
举例而言,以第一组内待计算用户(如用户A)的最邻近用户为用户B、用户C及用户D为例(即,此时,K=3),用户A与用户B之间的欧氏距离例如为5,用户A与用户C之间的欧氏距离例如为3,用户A与用户D之间的欧氏距离例如为2,另外,用户B关注公众号b1与b2,且公众号b1的信息衰减系数例如为0.8,公众号b2的信息衰减系数例如为0.6,用户C关注公众号c1,且公众号c1的信息衰减系数例如为0.7,用户D关注公众号d1与d2,且公众号d1的信息衰减系数例如为0.86,公众号d2的信息衰减系数例如为0.95;此时,公众号b1的评分为5*0.8=4;公众号b2的评分为5*0.6=3;公众号c1的评分为3*0.7=2.1;公众号d1的评分为2*0.86=1.72;公众号d2的评分为2*0.95=1.9。据此,当第二预定数目(如图7中的K)为3个时,第一组针对待计算用户的推荐公众号为公众号b1、b2及c1。
同理,针对每个组均进行上述处理,在每个组均能得到三个推荐公众号;之后,合并所有组的结果,并根据所有得到的推荐公众号的评分确定最终推荐公众号。例如,当第三预定数目(如图7中的J)为5个时,根据所有组得到的推荐公众号的评分由大到小的顺序,针对用户A确定5个最终推荐公众号。
此外,本发明实施例还提供一种公众号推荐系统,包括:第一分析单元,用于将从数据库读取的用户数据进行分组;第二分析单元,用于针对待计算用户,在每个组内,确定所述待计算用户的最邻近用户,并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号;第三分析单元,用于根据所有组针对所述待计算用户的推荐公众号,确定所述待计算用户的最终推荐公众号。
其中,第一分析单元,具体用于:根据用户数据总量与分解粒度系数的比值确定组数;按照确定的组数将相应数目的用户数据分到相应的组中。
其中,第二分析单元,用于在每个组内,确定所述待计算用户的最邻近用户,包括:抽取所述待计算用户的特征值以及该组内所有用户的特征值,计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离,按照欧氏距离由小到大的顺序,确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。其中,用户的特征值包括对应于以下至少一项特征的特征值:性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。
其中,第二分析单元,用于根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号,包括:在每个组内,计算待计算用户的最邻近用户的所有关注的公众号的评分,公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积,按照公众号的评分由大到小的顺序,确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。其中,公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到:单位时间内的公众号的关注量、查看量及点击量。
其中,第三分析单元,具体用于:根据每个组针对待计算用户的推荐公众号的评分由大到小的顺序,确定第三预定数目的公众号为所有组针对所述待计算用户的最终推荐公众号,其中,所述第三预定数据小于或等于所述第二预定数目与分组数目的乘积。
此外,上述系统还包括推送模块,用于将所述待计算用户的最终推荐公众号推送给所述待计算用户。
关于上述系统的具体处理流程同上述方法所述,故于此不再赘述。
图8为本发明实施例一提供的公众号推荐系统的示意图。如图8所示,于本实施例中,公众号推荐系统包括第一分析单元、第二分析单元、第三分析单元、推送模块、存储模块以及用户终端。于此,第一分析单元、第二分析单元以及第三分析单元例如整合在分析模块中。于实际应用中,存储模块例如为存储器等具有数据存储功能的元件;第一分析单元、第二分析单元、第三分析单元以及推送模块的功能例如由计算机处理器读取存储在存储器的程序/指令实现,或者,上述模块的功能还可以通过固件/逻辑电路/集成电路实现。
于本实施例中,分析模块为公众号推荐系统的主计算模块,用于根据用户和公众号,读取数据,然后分组,加入分布式计算任务,计算每个组内待计算用户的K个最邻近用户,并根据K个最邻近用户加权公众号的单位时间的最新信息衰减系数确定每个组内的推荐公众号,最后合并所有组的结果得到最终推荐公众号;推送模块例如为一个任务队列,在程序启动时加载,然后轮询是否存在待推送的公众号候选集列表,读取待推送候选集数据,推送给用户终端;用户终端为用户客户端,包括用户的朋友关系以及关注的公众号,轮询读取是否有最新的公众号被推荐过来,并显示在界面上;存储模块,用于存储用户及公众号数据,以及关注量、查看量、点击记录等。
图9为本发明实施例一提供的公众号推荐方法的流程图。如图9所示,本实施例具体描述如下:
步骤101A:在分析模块启动分析进程;
步骤101B:在推送模块启动推送进程;
步骤102:分析模块按待计算用户(例如,用户A)发起离线计算任务,其中,待计算用户例如为数据库存储的任意用户;
步骤103:分析模块从存储模块读取数据库全量用户数据(即,样本数据);
步骤104:存储模块向分析模块返回数据记录;
步骤105:分析模块计算全量用户数据的分组,其中,分组策略同上述方法所述,故于此不再赘述;
步骤106:分析模块按照分组结果将全量用户数据分解成多个并行处理任务(如,task1……taskn);
步骤107:分析模块计算每个组内用户A的K最近邻(KNN),于此,K的取值例如为大于0且不大于5的整数,其中,用户A的K最近邻的确定过程同上述方法所述,故于此不再赘述;
步骤108:分析模块获取K个最邻近用户关注的公众号,以及该些公众号的信息衰减系数,通过最邻近用户的欧氏距离与对应关注公众号的单位时间的最新信息衰减系数的乘积确定K个最邻近用户所有的关注公众号的评分;按照评分从大到小的顺序,确定每个组的公众号推荐结果;
步骤109:分析模块合并分组结果,即合并所有组的推荐公众号;
步骤110:分析模块根据合并的所有组的推荐公众号的评分,按照从大到小的顺序,取前J个临近结果,即确定J个最终推荐公众号,于此,J例如为大于0且不大于5的整数;
步骤111:分析模块得到用户A的推荐公众号候选集;
步骤112:分析模块将得到的用户A的推荐公众号候选集加入推送模块的推送列表;
步骤113:推送模块轮询推送列表;
步骤114:推送模块读取推送列表;
步骤115:推送模块将用户A的推荐公众号候选集推给用户A对应终端;
步骤116:用户终端对公众号进行关注、查看或点击。
综上所述,在本发明实施例中,通过将用户数据进行分组和通过加权单位时间的信息衰减系数对公众号进行评分,提高了大规模数据的计算性能,而且,单位时间的信息衰减系数为动态变化的,从而通过动态调整的信息衰减系数实现了公众号候选集的动态调整。本发明实施例实现了优先推荐活跃程度高的公众号,而且,本发明实施例提供的系统会根据数据量的增长和变化进行自动学习。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (16)

1.一种公众号推荐方法,其特征在于,包括:
将从数据库读取的用户数据进行分组;
针对待计算用户,在每个组内,确定所述待计算用户的最邻近用户,并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号;
根据所有组针对所述待计算用户的推荐公众号,确定所述待计算用户的最终推荐公众号。
2.如权利要求1所述的方法,其特征在于,所述将从数据库读取的用户数据进行分组包括:
根据用户数据总量与分解粒度系数的比值确定组数;
按照确定的组数将相应数目的用户数据分到相应的组中。
3.如权利要求1所述的方法,其特征在于,所述在每个组内,确定所述待计算用户的最邻近用户包括:抽取所述待计算用户的特征值以及该组内所有用户的特征值,计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离,按照欧氏距离由小到大的顺序,确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。
4.如权利要求3所述的方法,其特征在于,所述用户的特征值包括对应于以下至少一项特征的特征值:性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。
5.如权利要求3所述的方法,其特征在于,所述根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号包括:在每个组内,计算所述待计算用户的最邻近用户的所有关注的公众号的评分,所述公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积,按照所述公众号的评分由大到小的顺序,确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。
6.如权利要求5所述的方法,其特征在于,所述公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到:单位时间内的公众号的关注量、查看量及点击量。
7.如权利要求5所述的方法,其特征在于,所述根据所有组针对所述待计算用户的推荐公众号,确定所述待计算用户的最终推荐公众号包括:
根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序,确定第三预定数目的公众号为所有组针对待计算用户的最终推荐公众号,其中,所述第三预定数据小于或等于所述第二预定数目与组数的乘积。
8.如权利要求1所述的方法,其特征在于,所述确定所述待计算用户的最终推荐公众号之后,还包括:将所述待计算用户的最终推荐公众号推送给所述待计算用户。
9.一种公众号推荐系统,其特征在于,包括:
第一分析单元,用于将从数据库读取的用户数据进行分组;
第二分析单元,用于针对待计算用户,在每个组内,确定所述待计算用户的最邻近用户,并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号;
第三分析单元,用于根据所有组针对所述待计算用户的推荐公众号,确定所述待计算用户的最终推荐公众号。
10.如权利要求9所述的系统,其特征在于,所述第一分析单元,具体用于:根据用户数据总量与分解粒度系数的比值确定组数;按照确定的组数将相应数目的用户数据分到相应的组中。
11.如权利要求9所述的系统,其特征在于,所述第二分析单元,用于在每个组内,确定所述待计算用户的最邻近用户,包括:抽取所述待计算用户的特征值以及该组内所有用户的特征值,计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离,按照欧氏距离由小到大的顺序,确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。
12.如权利要求11所述的系统,其特征在于,所述用户的特征值包括对应于以下至少一项特征的特征值:性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。
13.如权利要求11所述的系统,其特征在于,所述第二分析单元,用于根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号,包括:在每个组内,计算所述待计算用户的最邻近用户的所有关注的公众号的评分,所述公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积,按照所述公众号的评分由大到小的顺序,确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。
14.如权利要求13所述的系统,其特征在于,所述公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到:单位时间内的公众号的关注量、查看量及点击量。
15.如权利要求13所述的系统,其特征在于,所述第三分析单元,具体用于:根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序,确定第三预定数目的公众号为所有组针对所述待计算用户的最终推荐公众号,其中,所述第三预定数据小于或等于所述第二预定数目与组数的乘积。
16.如权利要求9所述的系统,其特征在于,还包括:推送模块,用于将所述待计算用户的最终推荐公众号推送给所述待计算用户。
CN201510508226.7A 2015-08-18 2015-08-18 一种公众号推荐方法及系统 Withdrawn CN106469163A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510508226.7A CN106469163A (zh) 2015-08-18 2015-08-18 一种公众号推荐方法及系统
PCT/CN2016/095730 WO2017028791A1 (zh) 2015-08-18 2016-08-17 一种公众号推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510508226.7A CN106469163A (zh) 2015-08-18 2015-08-18 一种公众号推荐方法及系统

Publications (1)

Publication Number Publication Date
CN106469163A true CN106469163A (zh) 2017-03-01

Family

ID=58050828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510508226.7A Withdrawn CN106469163A (zh) 2015-08-18 2015-08-18 一种公众号推荐方法及系统

Country Status (2)

Country Link
CN (1) CN106469163A (zh)
WO (1) WO2017028791A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062963A (zh) * 2018-06-27 2018-12-21 广州优视网络科技有限公司 自媒体推荐方法、装置及电子设备
CN109614542A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 公众号推荐方法、装置、计算机设备及存储介质
CN114996561A (zh) * 2021-03-02 2022-09-02 腾讯科技(深圳)有限公司 一种基于人工智能的信息推荐方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710857A (zh) * 2018-12-27 2019-05-03 杭州启迪万华科技产业发展有限公司 一种公众号推荐方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682059A (zh) * 2005-08-15 2012-09-19 谷歌公司 用于将用户分配到集群的方法和系统
CN102780920A (zh) * 2011-07-05 2012-11-14 上海奂讯通信安装工程有限公司 电视节目推荐方法及系统
CN103166930A (zh) * 2011-12-15 2013-06-19 腾讯科技(深圳)有限公司 推送网络信息的方法和系统
CN104598583A (zh) * 2015-01-14 2015-05-06 百度在线网络技术(北京)有限公司 查询语句推荐列表的生成方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6039287B2 (ja) * 2011-08-01 2016-12-07 ネイバー コーポレーションNAVER Corporation ブログを推薦するシステム及び方法
CN103116589A (zh) * 2011-11-17 2013-05-22 腾讯科技(深圳)有限公司 一种发送推荐信息的方法及装置
KR102094877B1 (ko) * 2013-01-16 2020-03-30 에스케이플래닛 주식회사 컨텐츠 추천 서비스 시스템 및 컨텐츠 추천 서비스 방법
CN103488714B (zh) * 2013-09-11 2017-01-18 杭州东信北邮信息技术有限公司 一种基于社交网络的图书推荐方法和系统
CN104573109A (zh) * 2015-01-30 2015-04-29 深圳市中兴移动通信有限公司 一种基于群组关系的自动推荐方法、终端及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682059A (zh) * 2005-08-15 2012-09-19 谷歌公司 用于将用户分配到集群的方法和系统
CN102780920A (zh) * 2011-07-05 2012-11-14 上海奂讯通信安装工程有限公司 电视节目推荐方法及系统
CN103166930A (zh) * 2011-12-15 2013-06-19 腾讯科技(深圳)有限公司 推送网络信息的方法和系统
CN104598583A (zh) * 2015-01-14 2015-05-06 百度在线网络技术(北京)有限公司 查询语句推荐列表的生成方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062963A (zh) * 2018-06-27 2018-12-21 广州优视网络科技有限公司 自媒体推荐方法、装置及电子设备
CN109614542A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 公众号推荐方法、装置、计算机设备及存储介质
CN109614542B (zh) * 2018-12-11 2024-05-14 平安科技(深圳)有限公司 公众号推荐方法、装置、计算机设备及存储介质
CN114996561A (zh) * 2021-03-02 2022-09-02 腾讯科技(深圳)有限公司 一种基于人工智能的信息推荐方法及装置
CN114996561B (zh) * 2021-03-02 2024-03-29 腾讯科技(深圳)有限公司 一种基于人工智能的信息推荐方法及装置

Also Published As

Publication number Publication date
WO2017028791A1 (zh) 2017-02-23

Similar Documents

Publication Publication Date Title
US11710054B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
CN108197532B (zh) 人脸识别的方法、装置及计算机装置
CN107633044B (zh) 一种基于热点事件的舆情知识图谱构建方法
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
CN103778214B (zh) 一种基于用户评论的商品属性聚类方法
CN107526800B (zh) 信息推荐的装置、方法及计算机可读存储介质
CN104281882B (zh) 基于用户特征的预测社交网络信息流行度的方法及系统
US9245252B2 (en) Method and system for determining on-line influence in social media
CN101496003A (zh) 社交网络中用户的兼容性评分
CN107577782B (zh) 一种基于异质数据的人物相似度刻画方法
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN107291886A (zh) 一种基于增量聚类算法的微博话题检测方法及系统
CN106294744A (zh) 兴趣识别方法及系统
CN108665148B (zh) 一种电子资源质量评价方法、装置和存储介质
CN106469163A (zh) 一种公众号推荐方法及系统
CN111949848B (zh) 一种基于特定事件的跨平台传播态势评估及分级方法
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN109978020A (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法
CN105740448A (zh) 面向话题的多微博时序文摘方法
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN113821827A (zh) 保护多方数据隐私的联合建模方法及装置
CN109118243A (zh) 一种产品分享、有用评价识别、推送方法和服务器
CN109344232A (zh) 一种舆情信息检索方法及终端设备
CN110310146A (zh) 确定网红商户的方法、装置、电子设备及存储介质
CN108388652B (zh) 一种发送歌单标识的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170301

WW01 Invention patent application withdrawn after publication