CN103049440B - 一种相关文章的推荐处理方法和处理系统 - Google Patents

一种相关文章的推荐处理方法和处理系统 Download PDF

Info

Publication number
CN103049440B
CN103049440B CN201110306730.0A CN201110306730A CN103049440B CN 103049440 B CN103049440 B CN 103049440B CN 201110306730 A CN201110306730 A CN 201110306730A CN 103049440 B CN103049440 B CN 103049440B
Authority
CN
China
Prior art keywords
article
candidate
user
related article
correlativity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110306730.0A
Other languages
English (en)
Other versions
CN103049440A (zh
Inventor
刘建
罗侃
杨志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110306730.0A priority Critical patent/CN103049440B/zh
Publication of CN103049440A publication Critical patent/CN103049440A/zh
Application granted granted Critical
Publication of CN103049440B publication Critical patent/CN103049440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种相关文章的推荐处理方法和系统。所述方法包括:A、根据给定文章的内容特征检索出候选相关文章;B、根据给定用户特征和每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;C、针对所述给定文章,优先推荐所述相关性高的候选相关文章。所述系统包括:特征检索模块,用于根据给定文章的内容特征检索出候选相关文章;相关性确定模块,用于根据所述每篇候选相关文章的内容特征和用户特征,确定所述每篇候选相关文章的相关性;推荐控制模块,用于针对所述给定文章,优先推荐所述相关性高的候选相关文章。利用本发明,可以提高相关文章推荐结果的准确度,减少用户为寻找目标文章而导致的人机交互次数,降低对机器侧资源的占用。

Description

一种相关文章的推荐处理方法和处理系统
技术领域
本发明涉及互联网信息处理技术,尤其涉及一种在互联网中相关文章的推荐处理方法和处理系统。
背景技术
目前,随着互联网技术的发展,网络逐渐成为人们获取信息的重要来源,特别是在互联网进入Web2.0时代后,用户既是网站内容的浏览者,也是网站内容的制造者。用户参与创造的内容被称为用户生成内容(UGC,UserGeneratedContent),在Web2.0时代,由于UGC的大量涌现,网络信息量呈几何级快速增长。为了将信息迅速、有针对性地提供给感兴趣的用户,各种网站系统、互联网社区系统等都在用户阅读给定文章时,向用户推荐相关文章,以减少用户查找文章造成的人机交互次数,方便用户找到目标文章。
目前互联网系统中相关文章的推荐处理技术主要有以下三种:
(1)人工整理的方式,即通过编辑人员阅读大量文章,人为确定将某些相关的文章确定有针对某一文章的推荐文章。
这种推荐处理方式的缺点是:人工成本太高,效率低下,难以处理每天大量的UGC内容。
(2)固定推荐方式,即在一个网站系统或社区系统中预先选定一批推荐文章(比如每天点击率高的、置顶的、质量好的文章等),针对给定文章(例如用户当前阅读的文章),从所述推荐文章中随机选择一部分推荐给该网站系统或社区系统的所有读者。
这种推荐处理方式的缺点是:所有给定文章的推荐文章都是相同的,不能针对每篇给定文章推荐出相关的而且不同的内容,难以满足用户的个性化信息的获取需求,不方便用户从推荐结果中找到与给定文章相关性较高的目标文章。
(3)动态推荐方式,即通过当前给定文章的关键词或者核心词,从待推荐文章数据库检索出相关文章,然后推荐给所述给定文章的读者,还可以根据文章发表时间、点击次数等调整推荐结果。
这种推荐处理方式缺点是:只是通过当前给定文章的核心词匹配检索相关文章,没有考虑相关文章的用户特征以及该用户特征与给定用户(例如所述给定文章的读者或作者)的用户相关性,导致不同的读者在同一时间得到的推荐结果没有区别,不能满足不同读者的个性化需求,不方便用户从推荐结果中找到与给定文章和给定用户相关性较高的目标文章。总之,现有的推荐相关文章的技术方案在面对当前互联网海量信息时,推荐结果的准确度不高,不方便用户从推荐结果中找到与给定文章(如当前阅读的文章)和给定用户(如给定文章的读者或作者)相关性较高的目标文章,用户为了查找与给定文章和给定用户相关性较高的目标文章,往往需要点击查看更多的页面进行人工搜索和查找,导致用户与互联网机器侧的人机交互次数增多,而每一次人机交互操作都会发出操作请求信息、触发计算过程并产生响应结果信息,从而会占用机器侧的大量资源,包括客户端资源、服务器资源、网络带宽资源等等。
发明内容
有鉴于此,本发明提供一种相关文章的推荐处理方法和处理系统,以提高相关文章推荐结果的准确度。
本发明的技术方案是这样实现的:
一种相关文章的推荐处理方法,包括:
A、根据给定文章的内容特征检索出候选相关文章;
B、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;
C、针对所述给定文章,优先推荐所述相关性高的候选相关文章;
其中,当所述候选相关文章的用户相关性包括与给定用户的关系链相关性时,所述确定每篇候选相关文章的用户相关性的具体方法为:
预存关系链距离对应的评分标准,确定所述给定用户与候选相关文章作者的关系链距离,根据所述给定用户与候选相关文章作者的关系链距离和对应的评分标准确定候选相关文章与所述给定用户的关系链相关性,其中,所述关系链距离包括用户好友关系中的距离、微博用户收听关系或关注关系中的距离、文章转载关系中的距离、评论回复关系中的距离中的任一项或任意几项。
一种相关文章的推荐处理系统,包括:
特征检索模块,用于根据给定文章的内容特征检索出候选相关文章;
相关性确定模块,用于根据所述每篇候选相关文章的用户特征,确定所述每篇候选相关文章的用户相关性;
推荐控制模块,用于针对所述给定文章,优先推荐所述相关性高的候选相关文章;
其中,所述相关性确定模块包括:关系链相关性确定单元,用于预存关系链距离对应的评分标准,确定所述给定用户与候选相关文章作者的关系链距离,根据所述给定用户与候选相关文章作者的关系链距离和对应的评分标准确定候选相关文章与所述给定用户的关系链相关性,其中,所述关系链距离包括用户好友关系中的距离、微博用户收听关系或关注关系中的距离、文章转载关系中的距离、评论回复关系中的距离中的任一项或任意几项。
与现有技术相比,本发明综合考虑了文章内容特征和用户特征,不但利用给定文章的内容特征检索相关文章,而且根据用户特征确定相关文章的用户相关性,优先推荐相关性高的候选相关文章,从而提高了相关文章推荐结果的准确度,方便用户从海量的互联网文章信息中找到与给定文章和给定用户相关性较高的目标文章。例如针对用户当前阅读的文章,其推荐的相关文章不但与该当前文章的内容相关,而且与当前用户(即读者)相关,从而具有较好的推荐效果。因此本发明能够满足互联网用户的个性化阅读需求,减少用户为寻找目标文章而导致的人机交互次数,降低对机器侧资源的占用。
随着网络社区化程度越来越高,在大量UGC内容里面,重复、近似的信息很多,对不同用户来说,更加倾向于关注来源于与自己存在密切社会关系的UGC信息,利用本发明可以根据相关文章的用户特征确定与给定用户之间相关性,从而可以使用户可以方便地获取到与自己相关性高的UGC信息。
附图说明
图1为本发明所述相关文章的推荐处理方法的一种流程图;
图2为本发明所述相关文章的推荐处理系统的一种实施例示意图;
图3为本发明所述相关文章的推荐处理系统的又一种实施例示意图;
图4为本发明所述相关文章的推荐处理系统的再一种实施例示意图;
图5为本发明所述相关文章的推荐处理系统的再一种实施例示意图;
图6为本发明所述相关文章的推荐处理系统的再一种实施例示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
图1为本发明所述相关文章的推荐处理方法的一种流程图。参见图1,该流程包括:
步骤101、根据给定文章的内容特征检索出候选相关文章。
步骤102、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性。
步骤103、针对所述给定文章,优先推荐所述相关性分数高的候选相关文章。
本发明中,所述相关性可以用相关性分数来表示,也可以用其他值来表示,例如用等级值表示。本文实施例中所述用户相关性以用户相关性分数表示,所述内容相关性以内容相关性分数表示。
上述步骤101和102可以从已经存在的文章数据库和用户数据库中检索需要的候选相关文章的数据以及获取需要的用户特征数据。也可以自建和维护专用的文章数据库和用户数据库,从该专用的文章数据库中检索候选相关文章的数据,从该专用的用户数据库中获取需要的用户特征数据。
所述建立和维护文章数据库的具体过程包括:
步骤a1、建立文章数据库。
步骤a2、从互联网中筛选出待推荐的文章,将待推荐文章的特征数据存储到所述文章数据库中。
本步骤a2的具体实时中,可以从本网站系统甚至其他相关网站系统的所有文章中进行质量筛选,过滤掉质量较低的文章。之所以要进行筛选过滤处理,是因为UGC文章相对新闻文章具有很多特点:例如数量多、用语规范程度相对较差、相互转载重复信息多、作弊和垃圾信息很多等。因此如果用UGC作为推荐文章,则需要对其进行有效过滤,选取质量高的文章。所述具体的文章筛选过滤方法例如可以包括:
(a21)根据文章标题可读性进行判别和筛选,即对文章标题的格式、语言规范化程度、语义信息量等进行打分,根据打分高低对文章进行筛选。
(a22)根据文章内容可读性进行判别和筛选,即对文章内容的格式、语言规范化程度、语义信息量等进行打分,根据打分高低对文章进行筛选。
(a23)对作弊垃圾类文章进行筛选,即筛选去掉包含广告推广、政治色情类等内容的文章。
筛选出待推荐的文章后,将待推荐文章的特征数据存储到所述文章数据库中。所述文章特征数据包括文章质量分数、文章作者、文章类别、文章词向量空间、文章主题词等。本发明可以根据实际应用需要,设计多种数据存储格式,比如以文章类别建立索引、文章主题词建立文章索引,按文章ID建立数据索引等。另外,索引文章的排列次序可以按照文章的质量分数排序,这样可以在保证质量的前提下提高查询速度。
步骤a3、根据互联网中文章数据的变化,更新和排重所述文章数据库中的待推荐文章的特征数据。
本步骤a3的具体实施中,可以定期对文章数据库中的文章特征数据进行更新和排重处理。由于每天互联网会产生大量内容,在各种网站、社区内信息更新特别快,因此需要定期对推荐文章数据进行更新;另外不同用户相互转载和分享,造成重复信息量较多,需要进行排重处理。所述数据更新操作可根据不同的文章类别选择不同的更新策略,例如针对时效性高的文章,可根据时间跨度进行删除,针对时效性不高的文章,可以根据文本质量分数高低排序删除。所述排重过程可以包括标题排重和文章指纹排重,对于重复的两篇文章可根据文章作者的属性等级、文章是否转载等因素判定,优先保留作者等级高的文章和非转载文章。
所述文章指纹排重是指通过文章指纹排除内容重叠的文章。计算文章指纹的方式有很多,比如计算一篇文章的SimHash值,其比特重复度越高,就说明文章越相似。
在对所述文章数据库进行查询时,可以指根据查询指令,快速检索到相关文章,比如通过文章类别快速检索到属于该类别的所有文章或者部分文章。
所述建立和维护用户数据库的具体过程包括:
步骤b1、建立用户数据库。
步骤b2、在所述用户数据库中存储用户属性信息和用户关系链信息。
所述用户属性信息包括:用户等级、年龄、性别、兴趣、地域、职业等信息。用户的关系链信息包括:即时通讯中用户的好友关系、微博的收听关系(有些微博中是关注关系)、文章转载关系、评论回复关系等,所述关系链信息取决与相关文章推荐的具体应用场景等。
步骤b3、根据用户数据的变化,更新所述用户数据库中的用户属性信息和用户关系链信息。之所以需要进行数据更新是由于网站系统每天新用户加入,用户个人信息变更、用户关系链变化等,因此需要定期或实时向用户数据库中导入最新的用户数据。
在所述步骤101中,根据给定文章的内容特征从所述文章数据库中检索出候选相关文章。例如可以通过给定文章的关键词检索出候选相关文章,在关键词检索不到候选相关文章时,可以确定给定文章的类别,通过类别检索候选相关文章,在实施过程中可采用其中一种或者多种方式,其具体的检索方法可以采用现有技术的各种检索方法,本文不再赘述。候选相关文章的数量可通过文章质量分数阈值或者文章总数来控制,例如文章质量分数小于所述阈值则不选择为候选相关文章,或者根据文章质量分数进行排序,只选择前N个文章作为候选相关文章,N为候选相关文章的总数。
在本发明的具体实施方式中,步骤102中可以只确定所述每篇候选相关文章的用户相关性分数;也可以进一步确定每篇候选相关文章与所述给定文章的内容相关性,具体可以用内容相关性分数来表示该内容相关性,并在所述步骤103中,进一步将每篇候选相关文章的所述内容相关性分数和用户相关性分数进行组合加权,得到综合相关性分数;针对所述给定文章,优先推荐所述综合相关性分数高的候选相关文章。
本发明所述的给定文章可以是用户当前阅读的文章,此时对应的给定用户为文章的读者和/或文章的作者。所述的给定文章也可以是当前没有被阅读的文章,此时对应的给定用户为文章的作者,针对这些没有被阅读的文章利用本发明的方法,由后台为这些没有被阅读的文章推荐相关文章,一旦被阅读,则可直接显示已经确定好的推荐结果,或者再从这些推荐结果中筛选与读者最相关的文章。
所述候选相关文章的用户相关性分数可以为:用户属性相关性分数;或者为:与给定用户的关系链相关性分数;或者为:用户属性相关性分数和与给定用户的关系链相关性分数进行组合加权的分数。
下面的实施方式介绍既确定所述每篇候选相关文章的用户属性相关性分数和关系链相关性分数,又确定每篇候选相关文章与给定文章的内容相关性分数的具体实施方式:
本实施例中,步骤102中具体包括以下步骤121至步骤123:
步骤121、确定每篇候选相关文章与所述给定文章的内容相关性分数p1。具体的确定方法例如可以为:抽取主题词、词向量空间等内容特征,采用后述几种参数的任一种或任意种的加权和来确定所述内容相关性分数p1,这几种参数包括:词向量空间余弦相似度、词向量空间的SimHash大小、主题词与文章的BM25值等。至于这几种参数的具体确定方法可以采用现有技术的方法,本发明不再赘述。
步骤122、确定所述每篇候选相关文章的用户属性相关性分数p2。具体的确定方法为:预存用户属性对应的相关性评分标准,从所述用户数据库中查询候选相关文章的作者属性,根据候选相关文章的作者属性和对应的相关性评分标准确定候选相关文章的用户属性相关性分数p2。所述用户属性数据包括用户等级、年龄、性别、兴趣、地域、职业等信息,例如可以根据作者的用户等级进行评分,其用户属性相关性分数实质上就是用户等级相关性分数:例如普通用户评分为1,社区名人用户评分为2,VIP用户评分为3。例如,也可以根据作者的职业信息进行评分,如果作者的职业与给定用户(如当前文章的读者或当前文章的作者)不属于同一大类则评分为1,如果属于同一大类则评分为2,如果属于同一小类则评分为3。所述用户属性对应的评分标准可根据不同的推荐场景下用户属性特征的差异性进行调整。
步骤123、确定每篇候选相关文章与给定用户的用户关系链相关性分数p3。此处所述给定用户为所述给定文章的读者或作者,该p3具体的确定方法为:预存关系链距离对应的评分标准,从所述用户数据库中查询关系链数据,确定所述给定用户与候选相关文章作者的关系链距离,根据所述给定用户与候选相关文章作者的关系链距离和对应的评分标准确定每篇候选相关文章与所述给定用户的关系链相关性分数p3
所述关系链距离可以包括下面几种关系链距离中的任一种或任意种组合:
用户好友关系中的距离、微博用户收听关系(有些微博中是关注关系)中的距离、文章转载关系中的距离、评论回复关系中的距离等。
所述用户好友关系中的距离是指好友之间的好友层次关系。例如若所述给定用户是候选相关文章的作者的好友,即一层好友关系,则所述关系链距离分数为1;若该给定用户是该候选相关文章的作者的好友的好友,即二层好友关系,则所述关系链距离分数为1/2;若该给定用户是该候选相关文章的作者的好友的好友的好友,即三层好友关系,则所述关系链距离分数为1/3,以此类推。
微博用户收听关系(或关注关系)中的距离是指微博用户之间加收听(或加关注)的层次关系。如果有直接的收听(或关注)关系,即一层收听(或关注)关系,则所述关系链距离分数为1;二层收听(或关注)关系,则所述关系链距离分数为1/2;三层收听(或关注)关系,则所述关系链距离分数为1/3,以此类推。
类似的,所述文章转载关系中的距离是指所述相关文章被用户转载的关系层次,所述评论回复关系中的距离是指所述相关文章被用户评论回复的关系层次,其关系链距离分数的原则是距离越近分数越高,距离越远分数越低。
至于上述关系链距离分数的具体的评分标准可根据不同的推荐场景下用户关系的差异性进行调整。如果所述关系链距离包括上述两种或两种以上关系链距离,则总的关系链距离分数可以是每种关系链距离分数的组合加权值。
上述步骤102中确定出了每篇候选相关文章的内容相关性分数p1、用户属性相关性分数p2、以及用户关系链相关性分数p3
在后续的步骤103中,需要针对每篇候选相关文章,将其三种相关性分数p1、p2和p3进行组合加权,得到每篇候选相关文章的综合相关性分数p。此处可以采用线性组合加权计算方式,具体的计算公式为:p=∑λipi,其中λi为各种相关性分数对应的权重因子。权重因子λi的大小根据实际推荐需求决定,比如在用户关联紧密的互动社区系统内,用户相关性分数的权重因子可以加大,在用户关联较弱的新闻网站,用户相关性分数的权重因子可以降低。
在所述步骤103推荐了给定文章的相关文章之后,还可以进一步包括:搜集所推荐的相关文章的点击反馈信息,根据所述点击反馈信息调整所述各相关性分数对应的权重因子的比重,其目的在于在线推荐效果调优,以得到更准确的推荐结果。例如,根据日志可以统计不同用户的点击偏好,获取用户对内容相关性和用户相关性的不同偏重,以此来调整对应权重因子的比重。比如有的用户偏重于看内容相近的文章,则调高内容相关性权重因子的比重;有的用户偏重于看名人的文章,则调高该用户与该名人的关系链相关性权重因子的比重;有的用户偏重于看好友的文章,则调高该用户与其好友的关系链相关性权重因子的比重。再例如,根据日志也可以通过机器学习的方式训练出相关性加权模型,在给定文章特征和用户特征的情况下,预测该用户对候选文章的相关性分数。
另外,在步骤103中,还可以进一步包括:根据应用场景对所推荐的相关文章的推荐结果信息进行选择展示。例如所述在给定文章的网页中展示的推荐结果信息可以是:
推荐文章的文章内容相关信息,如文章标题文章的关键内容等;
推荐文章的文章属性相关信息,如文章类别、文章的访问热度等;
推荐文章的作者相关信息,如文章作者的名称、等级、地域等。
具体展示上述哪一种推荐结果信息,可以根据具体的应用场景进行选择和调整。
与上述方法对应,本发明还公开了一种相关文章的推荐处理系统。图2为本发明所述相关文章的推荐处理系统的一种实施例示意图,参见图2,该系统包括:
特征检索模块201,用于根据给定文章的内容特征检索出候选相关文章;
相关性确定模块202,用于根据所述每篇候选相关文章的用户特征,确定所述每篇候选相关文章的用户相关性分数;
推荐控制模块203,用于针对所述给定文章,优先推荐所述相关性分数高的候选相关文章。
图3为本发明所述相关文章的推荐处理系统的又一种实施例示意图。在该实施例中,所述相关性确定模块202包括:用户属性相关性确定单元221和关系链相关性确定单元222。所述用户属性相关性确定单元221用于确定候选相关文章的用户属性相关性分数p2;所述关系链相关性确定单元222用于确定候选相关文章与给定用户的关系链相关性分数p3。在该实施例中,所述推荐控制模块203中进一步包括相关性组合加权单元231,用于对一种以上的相关性分数进行组合加权,此处是对每篇候选相关文章的所述用户属性相关性分数p2和所述关系链相关性分数p3进行组合加权,得到综合相关性分数p;所述推荐控制模块针对所述给定文章,优先推荐所述综合相关性分数高的候选相关文章。
在另一种实施例中,所述相关性确定模块202可以只包括所述用户属性相关性确定单元221,或者也可以只包括所述关系链相关性确定单元222,此实施例中,所述推荐控制模块203中可以不包括所述相关性组合加权单元231。
图4为本发明所述相关文章的推荐处理系统的再一种实施例示意图。在该实施例中,所述相关性确定模块202中进一步包括:内容相关性确定单元223,用于确定每篇候选相关文章与所述给定文章的内容相关性分数p1;由于本实施例中相关性确定模块202中还包括所述用户属性相关性确定单元221和/或关系链相关性确定单元222,因此所述推荐控制模块203中进一步包括:相关性组合加权单元231,用于将每篇候选相关文章的一个以上的相关性分数进行组合加权,如本实施例中对候选相关文章与给定文章的内容相关性分数p1、及其用户属性相关性分数p2和/或其与给定用户的关系链相关性分数p3进行组合加权,得到综合相关性分数p;所述推荐控制模块针对所述给定文章,优先推荐所述综合相关性分数高的候选相关文章。
图5为本发明所述相关文章的推荐处理系统的再一种实施例示意图。在该实施例中,所述推荐控制模块203中进一步包括权重反馈控制单元232和/或推荐结果信息控制单元233。所述权重反馈控制单元232用于搜集所推荐相关文章的点击反馈信息,根据所述点击反馈信息调整所述相关性组合加权单元中各相关性分数对应权重因子的比重。所述推荐结果信息控制单元233用于根据应用场景对所述推荐文章的推荐结果信息进行选择展示。例如所述在给定文章的网页中展示的推荐结果信息可以是:
推荐文章的文章内容相关信息,如文章标题文章的关键内容等;
推荐文章的文章属性相关信息,如文章类别、文章的访问热度等;
推荐文章的作者相关信息,如文章作者的名称、等级、地域等。
具体展示上述哪一种推荐结果信息,可以由所述推荐结果信息控制单元根据具体的应用场景进行选择和调整。
本发明可以从已有的第三方文章数据库中检索相关文章数据,从已有的第三方用户数据库中查询相应的用户特征信息;也可以自建和维护文章数据库和用户数据库,并从该自建的文章数据库中检索所述相关文章数据,从该自建的用户数据库中查询相应的用户特征信息。因此,本发明在一种实施例中,可以包括推荐文章数据模块和/或用户数据模块,用于建立和维护推荐文章数据库和用户数据库。图6为本发明所述相关文章的推荐处理系统的再一种实施例示意图。参见图6,该实施例中包括推荐文章数据模块204和用户数据模块205。
所述推荐文章数据模块204具体包括:
文章筛选单元241,用于从互联网中筛选出待推荐的文章;
数据更新和排重单元242,用于更新和排重所述待推荐文章的特征数据;
文章数据存储单元243,即文章数据库,用于存储待推荐文章的特征数据;
文章数据查询单元244,与所述特征检索模块和相关性确定模块相连,用于根据所述特征检索模块和相关性确定模块的查询指令,从所述文章数据存储单元中查询相关的文章特征数据。
所述用户数据模块205具体包括:
用户数据存储单元251,即用户数据库,用于存储用户属性信息和用户关系链信息;
数据更新单252元,用于更新所述用户属性信息和用户关系链信息;
用户数据查询单元253,与所述相关性确定模块相连,用于根据所述相关性确定模块的查询指令,从所述用户数据存储单元中查询相关的用户属性信息和/或用户关系链信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种相关文章的推荐处理方法,其特征在于,包括:
A、根据给定文章的内容特征检索出候选相关文章;
B、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;
C、针对所述给定文章,优先推荐所述相关性高的候选相关文章;
其中,当所述候选相关文章的用户相关性包括与给定用户的关系链相关性时,所述确定每篇候选相关文章的用户相关性的具体方法为:
预存关系链距离对应的评分标准,确定所述给定用户与候选相关文章作者的关系链距离,根据所述给定用户与候选相关文章作者的关系链距离和对应的评分标准确定候选相关文章与所述给定用户的关系链相关性,其中,所述关系链距离包括用户好友关系中的距离、微博用户收听关系或关注关系中的距离、文章转载关系中的距离、评论回复关系中的距离中的任一项或任意几项。
2.根据权利要求1所述的方法,其特征在于,
所述步骤B进一步包括:确定每篇候选相关文章与所述给定文章的内容相关性;
所述步骤C中,进一步将每篇候选相关文章的所述内容相关性和用户相关性进行组合加权,得到综合相关性;针对所述给定文章,优先推荐所述综合相关性高的候选相关文章。
3.根据权利要求1所述的方法,其特征在于,当所述候选相关文章的用户相关性包括用户属性相关性和与给定用户的关系链相关性进行组合加权的分数时,所述确定每篇候选相关文章的用户相关性的具体方法进一步包括:
预存用户属性对应的相关性评分标准,查询候选相关文章的作者属性,根据候选相关文章的作者属性和对应的相关性评分标准确定候选相关文章的所述用户属性相关性;
将所述用户属性相关性和所述关系链相关性进行组合加权。
4.根据权利要求1所述的方法,其特征在于,所述给定用户为:所述给定文章的阅读者,或者为所述给定文章的作者。
5.根据权利要求1、2或3所述的方法,其特征在于,当每篇候选相关文章的相关性包括多种相关性时;所述步骤C后进一步包括:搜集所推荐的相关文章的点击反馈信息,根据所述点击反馈信息调整所述各相关性对应的权重因子的比重。
6.根据权利要求1所述的方法,其特征在于,步骤C中,进一步包括:根据应用场景对所述推荐文章的推荐结果信息进行选择展示。
7.根据权利要求1所述的方法,其特征在于,该方法进一步包括建立和维护文章数据库,步骤A中,从所述文章数据库中检索候选相关文章;
所述建立和维护文章数据库的具体过程包括:
a1、建立文章数据库;
a2、从互联网中筛选出待推荐的文章,将待推荐文章的特征数据存储到所述文章数据库中;
a3、根据互联网中文章数据的变化,更新和排重所述文章数据库中的待推荐文章的特征数据。
8.根据权利要求7所述的方法,其特征在于,步骤a2中所述筛选待推荐文章的方法包括以下至少一种方法:
根据文章标题可读性进行筛选;
根据文章内容可读性进行筛选;
对作弊垃圾类文章进行筛选。
9.根据权利要求1所述的方法,其特征在于,该方法进一步包括建立和维护用户数据库,步骤B中,进一步包括从所述用户数据库获取所述用户特征;
所述建立和维护用户数据库的具体过程包括:
b1、建立用户数据库;
b2、在所述用户数据库中存储用户属性信息和用户关系链信息;
b3、根据用户数据的变化,更新所述用户数据库中的用户属性信息和用户关系链信息。
10.一种相关文章的推荐处理系统,其特征在于,包括:
特征检索模块,用于根据给定文章的内容特征检索出候选相关文章;
相关性确定模块,用于根据所述每篇候选相关文章的用户特征,确定所述每篇候选相关文章的用户相关性;
推荐控制模块,用于针对所述给定文章,优先推荐所述相关性高的候选相关文章;
其中,所述相关性确定模块包括:关系链相关性确定单元,用于预存关系链距离对应的评分标准,确定所述给定用户与候选相关文章作者的关系链距离,根据所述给定用户与候选相关文章作者的关系链距离和对应的评分标准确定候选相关文章与所述给定用户的关系链相关性,其中,所述关系链距离包括用户好友关系中的距离、微博用户收听关系或关注关系中的距离、文章转载关系中的距离、评论回复关系中的距离中的任一项或任意几项。
11.根据权利要求10所述的系统,其特征在于,
所述相关性确定模块中进一步包括:内容相关性确定单元,用于确定每篇候选相关文章与所述给定文章的内容相关性;
所述推荐控制模块中进一步包括:相关性组合加权单元,用于将每篇候选相关文章的一个以上的相关性进行组合加权,得到综合相关性;所述推荐控制模块针对所述给定文章,优先推荐所述综合相关性高的候选相关文章。
12.根据权利要求10或11所述的系统,其特征在于,所述推荐控制模块中进一步包括权重反馈控制单元,用于搜集所推荐相关文章的点击反馈信息,根据所述点击反馈信息调整所述相关性组合加权单元中各相关性对应权重因子的比重。
13.根据权利要求10所述的系统,其特征在于,所述推荐控制模块中进一步包括推荐结果信息控制单元,用于根据应用场景对所述推荐文章的推荐结果信息进行选择展示。
14.根据权利要求10所述的系统,其特征在于,该系统进一步包括推荐文章数据模块,该推荐文章数据模块具体包括:
文章筛选单元,用于从互联网中筛选出待推荐的文章;
文章数据存储单元,用于存储待推荐文章的特征数据;
数据更新和排重单元,用于更新和排重所述待推荐文章的特征数据;
文章数据查询单元,与所述特征检索模块和相关性确定模块相连,用于根据所述特征检索模块和相关性确定模块的查询指令,从所述文章数据存储单元中查询相关的文章特征数据。
15.根据权利要求10所述的系统,其特征在于,该系统进一步包括用户数据模块,该用户数据模块具体包括:
用户数据存储单元,用于存储用户属性信息和用户关系链信息;
数据更新单元,用于更新所述用户属性信息和用户关系链信息;
用户数据查询单元,与所述相关性确定模块相连,用于根据所述相关性确定模块的查询指令,从所述用户数据存储单元中查询相关的用户属性信息和/或用户关系链信息。
CN201110306730.0A 2011-10-11 2011-10-11 一种相关文章的推荐处理方法和处理系统 Active CN103049440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110306730.0A CN103049440B (zh) 2011-10-11 2011-10-11 一种相关文章的推荐处理方法和处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110306730.0A CN103049440B (zh) 2011-10-11 2011-10-11 一种相关文章的推荐处理方法和处理系统

Publications (2)

Publication Number Publication Date
CN103049440A CN103049440A (zh) 2013-04-17
CN103049440B true CN103049440B (zh) 2016-04-13

Family

ID=48062084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110306730.0A Active CN103049440B (zh) 2011-10-11 2011-10-11 一种相关文章的推荐处理方法和处理系统

Country Status (1)

Country Link
CN (1) CN103049440B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133820B (zh) * 2013-05-06 2016-03-30 腾讯科技(深圳)有限公司 内容推荐方法及内容推荐装置
CN103336793B (zh) * 2013-06-09 2015-08-12 中国科学院计算技术研究所 一种个性化论文推荐方法及其系统
CN105468652A (zh) * 2014-09-12 2016-04-06 北大方正集团有限公司 一种检索排序方法及系统
CN105468654A (zh) * 2014-09-12 2016-04-06 北大方正集团有限公司 一种选定数字资源的阅读范围的方法及系统
CN106157043B (zh) * 2015-03-24 2021-08-17 联想(北京)有限公司 一种推荐对象的处理方法和电子设备
CN105183833B (zh) * 2015-08-31 2020-05-19 天津大学 一种基于用户模型的微博文本推荐方法及其推荐装置
CN105530166B (zh) * 2015-12-10 2019-02-15 中国联合网络通信集团有限公司 与文献作者通信的方法和装置
CN105528459B (zh) 2016-01-08 2020-07-14 腾讯科技(深圳)有限公司 一种信息处理方法、服务器及终端
CN105653737B (zh) * 2016-03-01 2020-04-17 广州神马移动信息科技有限公司 用于内容文档排序的方法、设备和电子设备
CN105740473B (zh) * 2016-03-14 2021-03-02 腾讯科技(深圳)有限公司 用户生成内容展示方法和装置
CN105930042B (zh) * 2016-04-05 2019-01-22 网易(杭州)网络有限公司 一种呈现试读内容的方法和装置
CN106021443A (zh) * 2016-05-16 2016-10-12 北京奇虎科技有限公司 帖子的展示方法和装置
CN106097110B (zh) * 2016-06-15 2020-02-11 西安邮电大学 一种基于社会网络的词库构建方法及单词匹配推荐方法
CN108572858B (zh) * 2017-03-14 2021-01-12 腾讯科技(深圳)有限公司 加载通知栏的方法及装置
CN107066554B (zh) * 2017-03-24 2020-12-15 国家计算机网络与信息安全管理中心 微博相关人物推荐方法
CN109145193A (zh) * 2017-06-27 2019-01-04 阿里巴巴集团控股有限公司 一种信息推送方法及系统
CN107370664A (zh) * 2017-07-17 2017-11-21 陈剑桃 一种有效的微博垃圾用户发现系统
CN108646972B (zh) * 2018-05-18 2021-03-05 南京尚网网络科技有限公司 用于显示信息、查找信息的方法和设备
CN108845806B (zh) * 2018-07-03 2022-03-11 百度在线网络技术(北京)有限公司 小程序分发方法、装置、服务器和存储介质
CN109325223B (zh) * 2018-07-24 2023-08-25 阿里巴巴(中国)有限公司 文章推荐方法、装置及电子设备
CN109885763B (zh) * 2019-01-26 2021-04-16 北京工业大学 一种基于用户头像的博文推荐方法
CN111859063B (zh) * 2019-04-30 2023-11-03 北京智慧星光信息技术有限公司 一种用于监控互联网中转载文章信息的控制方法及装置
CN110377723B (zh) * 2019-06-24 2022-04-05 北京字节跳动网络技术有限公司 文末相关阅读模块个性化方法、装置、介质和电子设备
CN110472039A (zh) * 2019-08-21 2019-11-19 上海络昕信息科技有限公司 一种内容摘要的生成方法、系统及相关装置
CN111310011B (zh) * 2020-01-20 2023-06-16 北京字节跳动网络技术有限公司 一种信息推送方法、装置、电子设备及存储介质
CN112131345B (zh) * 2020-09-22 2024-02-06 腾讯科技(深圳)有限公司 文本质量的识别方法、装置、设备及存储介质
CN114580926A (zh) * 2022-03-09 2022-06-03 中首数字科技有限公司 一种数字资源质量监管系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124575A (zh) * 2004-02-26 2008-02-13 雅虎公司 用于生成推荐的方法和系统
CN101183959A (zh) * 2006-12-26 2008-05-21 腾讯科技(深圳)有限公司 一种数字内容推荐方法及装置
CN101436186A (zh) * 2007-11-12 2009-05-20 北京搜狗科技发展有限公司 一种提供相关搜索的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124575A (zh) * 2004-02-26 2008-02-13 雅虎公司 用于生成推荐的方法和系统
CN101183959A (zh) * 2006-12-26 2008-05-21 腾讯科技(深圳)有限公司 一种数字内容推荐方法及装置
CN101436186A (zh) * 2007-11-12 2009-05-20 北京搜狗科技发展有限公司 一种提供相关搜索的方法及系统

Also Published As

Publication number Publication date
CN103049440A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
CN103049440B (zh) 一种相关文章的推荐处理方法和处理系统
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN103593425B (zh) 基于偏好的智能检索方法及系统
CN104750856B (zh) 一种多维协同推荐的系统与方法
CN103020293B (zh) 一种移动应用的本体库的构建方法及系统
CN103546326B (zh) 一种网站流量统计的方法
CN101727454A (zh) 用于对象自动分类的方法和系统
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN102880687A (zh) 基于标签技术的个人交互数据检索方法及其系统
CN104915447A (zh) 一种热点话题追踪及关键词确定方法及装置
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN103577416A (zh) 扩展查询方法及系统
CN104834679A (zh) 一种行为轨迹的表示、查询方法及装置
CN102982042A (zh) 一种个性化内容推荐方法、平台以及系统
CN101834837A (zh) 基于宽带网络的旅游景区景点在线景观视频主动信息服务系统
CN104423621A (zh) 拼音字符串处理方法和装置
US9245010B1 (en) Extracting and leveraging knowledge from unstructured data
CN105975609A (zh) 一种工业设计产品智能推荐方法及系统
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN104899702A (zh) 基于大数据的装饰预算定额管理系统及管理方法
CN107423374B (zh) 基于分类标注的法律推荐方法及系统
KR20100023630A (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN104915388A (zh) 一种基于谱聚类和众包技术的图书标签推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190809

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

TR01 Transfer of patent right