CN103970754B - 文章的自动选取方法及装置 - Google Patents

文章的自动选取方法及装置 Download PDF

Info

Publication number
CN103970754B
CN103970754B CN201310031843.3A CN201310031843A CN103970754B CN 103970754 B CN103970754 B CN 103970754B CN 201310031843 A CN201310031843 A CN 201310031843A CN 103970754 B CN103970754 B CN 103970754B
Authority
CN
China
Prior art keywords
article
list
data base
index data
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310031843.3A
Other languages
English (en)
Other versions
CN103970754A (zh
Inventor
蔡兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310031843.3A priority Critical patent/CN103970754B/zh
Publication of CN103970754A publication Critical patent/CN103970754A/zh
Application granted granted Critical
Publication of CN103970754B publication Critical patent/CN103970754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Abstract

本申请公开了一种文章的自动选取方法及装置。所述方法包括:扫描用户点击日志,根据所述用户点击日志建立被用户点击的所有文章的相关信息的索引数据库;分析给定文章与所述索引数据库中的其他文章之间的相似度,选取所述索引数据库中的与所述给定文章相关的文章生成相关文章列表;根据所述用户点击日志分析所述索引数据库中每篇文章的热度值,选取所述热度值在预定范围内的文章生成热门文章列表;由所述索引数据库中提取出与所述给定文章站点相同的文章生成同站点文章列表;将上述列表中的至少两个列表的组合传输给同一个客户端进行显示。本申请可以提供组合式的文章列表,使得推荐的内容更加丰富、更加多样化,也更具实效性。

Description

文章的自动选取方法及装置
技术领域
本申请涉及互联网技术领域,特别涉及一种文章的自动选取方法及装置。
背景技术
互联网的飞速发展一方面给用户提供了快捷的途径查询、浏览更多的信息的渠道;而另一方面,随着各种网站,尤其是UGC(User Generated Content的简称,用户原创内容)类网站数量的爆炸性增长,又将用户湮没在无穷无尽的信息灾难之中。因此如何替用户降噪成为当前的重要课题。这其中推荐技术成为近几年来的一大热门方向,它通过将用户可能感兴趣的内容在第一时间以更快、更好的方式展现给用户,较好地达到了这一目的。
同时,根据目前发布的用户上网行为调查报告发现,通过手机浏览器阅读资讯文章的用户比例达到70%以上。而资讯文章更新频繁且质量参差不齐,如何帮助用户发现他们更加喜爱的文章并第一时间通知到用户,显得非常重要。
现有文章推荐形态主要是在文章底部添加“相关阅读”推荐列表,该列表通过展示一些与当前文章在内容、主题、人物、事件等相关性比较好的其它文章,以满足用户的延伸阅读需求。
但是,“相关阅读”推荐列表的内容相似度较高,用户在获取到此事件的足够信息之后,可能不会再对相关内容感兴趣,因此“相关阅读”推荐虽然在内容连续性上效果不错,但是无法提供更多样化的内容供用户持续浏览、持续发现,也就是说推荐的内容不够丰富、不够多样化。
发明内容
本申请的目的在于,提供一种文章自动选取方法及装置,可以从不同角度来选取文章,使得推荐的内容更加丰富、更加多样化,也更具实效性,以解决现有的单一列表的推荐方式不够丰富、不够多样化的问题。
本申请的目的及解决其技术问题是采用以下技术方案来实现的。
一种文章的自动选取方法,包括以下步骤:建立索引数据库步骤,该步骤包括扫描用户点击日志,根据所述用户点击日志建立被用户点击的所有文章的相关信息的索引数据库;生成相关文章列表步骤,该步骤包括分析给定文章与所述索引数据库中的其他文章之间的相似度,根据所述相似度选取所述索引数据库中的与所述给定文章相关的文章生成相关文章列表;生成热门文章列表步骤,该步骤包括根据所述用户点击日志分析所述索引数据库中每篇文章的热度值,从索引数据库中选取所述热度值在预定范围内的文章生成热门文章列表;生成同站点文章列表步骤,该步骤包括由所述索引数据库中提取出与所述给定文章站点相同的文章生成同站点文章列表;列表组合传输步骤,该步骤包括将所述相关文章列表、所述同站点文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
一种文章的自动选取装置,包括:索引数据库,根据用户点击日志建立,用于存储被用户点击的所有文章的相关信息;相关文章生成模块,用于分析给定文章与所述索引数据库中的其他文章之间的相似度,根据所述相似度选取所述索引数据库中的与所述给定文章相关的文章生成相关文章列表;同站点文章生成模块,用于由所述索引数据库中提取出与所述给定文章站点相同的文章生成同站点文章列表;热门文章生成模块,用于根据所述用户点击日志分析所述索引数据库中每篇文章的热度值,从所述索引数据库中选取所述热度值在预定范围内的文章生成热门文章列表;列表组合传输模块,用于将所述相关文章列表、所述同站点文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
与现有技术相比,本申请提出的这种组合式的文章自动选取方法及相应的装置提供的推荐方式解决了现有的单一列表的推荐方式不够丰富、不够多样化的问题,可以从不同角度来推荐用户可能会感兴趣的文章,使得推荐的内容更加丰富、更加多样化,也更具实效性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例1提供的一种文章的自动选取方法的流程图。
图2是图1中步骤S12在一种实施方式中的具体流程图。
图3是图1中步骤S12在另一种实施方式中的具体流程图。
图4是图1中步骤S14的具体流程图。
图5是本申请实施例1中客户端所显示的组合式列表的示意图。
图6是本申请实施例2提供的一种文章的自动选取方法的流程图。
图7是图6中步骤S25的具体流程图。
图8是本申请实施例2中客户端所显示的组合式列表的示意图。
图9是采用现有的单一列表推荐方式与采用本申请实施例2后的用户点击量的内部测试结果比较示意图。
图10是为实现本申请实施例1中的文章的自动选取方法而提供的一种文章的自动选取装置的结构图。
图11是图10中的相关文章生成模块在一种实施方式中的结构图。
图12是图10中的相关文章生成模块在另一种实施方式中的结构图。
图13是图10中同站点文章生成模块的具体结构图。
图14是为实现本申请实施例2中的文章的自动选取方法而提供的一种文章的自动选取装置的结构图。
图15是图14中同主题文章生成模块的具体结构图。
具体实施方式
为更进一步阐述本申请为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本申请提出的文章的自动选取方法及装置其具体实施方式、方法、步骤、结构、特征及其功效,详细说明如下。
有关本申请的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本申请为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本申请加以限制。
实施例1
参考图1,图1是本申请实施例1提供的一种文章的自动选取方法的流程图。于本实施例中,文章的自动选取方法包括:
步骤S11,建立索引数据库步骤,该步骤包括扫描用户点击日志,根据所述用户点击日志建立被用户点击的所有文章的相关信息的索引数据库。
用户日志是记录用户操作流水的文件,可以用于验证设计、发现问题和挖掘用户需求。搜索引擎的用户日志一般分为用户查询日志以及用户点击日志,它们分别在用户进行查询和点击时由系统自动记录并存放在系统后台。用户点击日志中通常包括点击时间、用户IP、查询串、点击URL、点击页面的编号和点击URL的序号等内容。本申请实施方式中文章的自动选取方法可基于对用户点击日志的分析。
于步骤S11中,根据用户点击日志所建立的索引数据库中包括被用户点击的所有文章的相关信息,例如包括每篇文章的URL、被点击的时间、被点击的次数、文章的主题、内容等。这里所说的文章包括论坛、网站中发布的帖子、新闻、博客文章等。考虑到文章更新速度较快,且用户倾向于浏览最新最热的内容,可以每隔一端预定时间(例如每十分钟)对用户点击日志进行一次扫描,并根据用户点击日志更新索引数据库中被用户点击的所有文章的相关信息。所更新的相关内容包括每篇文章被点击的时间、被点击的次数等,同一篇文章的URL、主题、内容等通常是不需要进行更新的。当然,如果有新的文章上线,其对应的相关信息就会被加入索引数据库中。
步骤S12,生成相关文章列表步骤,该步骤包括分析给定文章与所述索引数据库中的其他文章之间的相似度,根据所述相似度选取所述索引数据库中的与所述给定文章相关的文章生成相关文章列表。
请参照图2,于本申请的一种具体实施方式中,步骤S12可以包括以下步骤:
S121:分析所述给定文章以及所述索引数据库中的其他文章以确定每篇文章的关键词;
S122:根据所确定的关键词计算所述给定文章与所述索引数据库中的其他文章之间的相似度;
S123:根据所述相似度选取所述给定文章的相关文章生成相关文章列表。
请参照图3,于本申请的另一种具体实施方式中,步骤S12可以包括以下步骤:
S121':计算所述给定文章与所述索引数据库中的其他文章之间的相似度;
S122':分析所述给定文章以及所述索引数据库中的其他文章以确定每篇文章的关键词;
S123':由所述索引数据库中的其他文章中提取出与所述给定文章具有相同关键词的文章;
S124':根据所述相似度对所提取出的文章进行排序并选取所述给定文章的相关文章生成相关文章列表。
在上述步骤S12的第一种实施方式中,计算所述给定文章与所述索引数据库中的其他文章之间的相似度的方法可以直接利用现有的基于关键词的文章相似度算法(例如基于关键词词频的相似度算法等)来计算,然后再选取相似度在预定范围内的文章作为所述给定文章的相关文章生成相关文章列表。在上述步骤S12的第二种实施方式中,可以先采用其他文章相似度算法(例如基于语义的相似度算法等)来计算文章之间的相似度,然后再判断文章中是否含有与给定文章相同的关键词,由所述索引数据库中的其他文章中提取出与所述给定文章具有相同关键词的文章,最后再选取相似度在预定范围内的文章作为所述给定文章的相关文章生成相关文章列表。
考虑到同一篇文章,会有不同网站转载,因此对于相似度大于某一阈值T的文章可以直接过滤掉,不做推荐。对于相似度小于某一阈值K的文章,考虑到文章内容的相关性较差,也不做推荐。也就是说,在根据所述相似度对所提取出的文章进行排序后,可以选取相似度在预定范围内(即大于或等于相似度阈值K同时小于或等于相似度阈值T)的文章作为所述给定文章的相关文章生成相关文章列表。
当然,除了上述方法以外,本领域的技术人员也可以采用任何其他现有的文章相似度分析方法或将上述方法与本领域已知的方法进行结合以获取文章相似度并据此生成相关文章列表。
所生成的给定文章的相关文章列表可以存放在索引数据库中,以便系统能够实时获取。当然,也可以将索引数据库中每篇文章对应的相关文章列表都存放在索引数据库中,而不只针对给定文章进行分析。相关文章列表中所列出的文章与给定文章的内容相似度较高,能够满足用户对于同一新闻或相似新闻的阅读延伸。
步骤S13,生成热门文章列表步骤,该步骤包括根据所述用户点击日志分析所述索引数据库中每篇文章的热度值,从索引数据库中选取所述热度值在预定范围内的文章生成热门文章列表。
可以利用文章发表的时间、当前时间以及文章被点击的次数来计算每篇文章的热度值H。H的具体计算公式如下:
H=C/(T1-T2),其中,T1表示当前时间、T2表示文章发表的时间、C表示在当前时间与文章发表的时间段内(T1-T2)所述文章被点击的次数。由公式可以看出,文章被点击的次数越多,热度越高;文章越新,也就是说发表的时间越接近当前时间,热度也越高。在计算出每篇文章的热度值H后,可以选取热度值H在大于或等于阈值H0的文章生成热门文章列表。对文章的热度进行分析并将热门文章推荐给用户可以向用户提供最新、最热门的咨询,还可以吸引到浏览目标不明确的用户的眼球。
步骤S14,生成同站点文章列表步骤,该步骤包括由所述索引数据库中提取出与所述给定文章站点相同的文章生成同站点文章列表。
请参照图4,进一步的,步骤S14可以包括以下步骤:
步骤S141,由所述索引数据库中提取出与所述给定文章站点相同的文章;
步骤S142,由所提取出的站点相同的文章中随机选出多篇文章生成所述同站点文章列表。
具体的,可以通过分析用户点击日志来获得文章的URL,从而确定文章的站点并由索引数据库中提取出与给定文章站点相同的文章。为保证推荐的多样性,可以由所提取出的站点相同的文章中随机选出多篇文章生成所述同站点文章列表。由于加入了随机因子,保证了推荐文章的多样性和新颖性。同站点文章列表可以满足对发表给定文章的站点有一定偏好的用户的需求。
步骤S15,列表组合传输步骤,该步骤包括将所述相关文章列表、所述同站点文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
将所述相关文章列表、所述同站点文章列表以及所述热门文章列表中其中至少两个列表的组合传输给同一个客户端进行显示,例如可以在用户阅读门户新闻、博客或社区帖子的时候,以列表的方式给出(请参照图5)。
于本实施例中,选取方法还可以进一步包括:实时分析用户点击日志中的用户点击量以重新调整所述相关文章列表、所述同站点文章列表以及所述热门文章列表的组合方式。
可以通过实时分析用户的点击量来改变列表的组合方式,例如,当以相关文章列表与热门文章列表的组合推荐时,用户点击量并没有比进行推荐之前的时候有增加或者变化不大,就可以调整为以相关文章列表、同站点文章列表与热门文章列表的组合进行推荐。
本实施例中的三个不同的文章列表分别满足了用户的不同阅读需求,用户日志的快速分析保证了推荐结果的实时性;文章选取的随机化保证了推荐结果的多样性和新颖性。本实施例提出的这种组合式的文章自动选取方式解决了现有的单一列表的推荐方式不够丰富、不够多样化的问题,可以从不同角度来推荐用户可能会感兴趣的文章,使得推荐的内容更加丰富、更加多样化,也更具实效性。
实施例2
请参考图6,图6是本申请实施例2提供的一种文章的自动选取方法的流程图。于本实施例中,文章的自动选取方法包括:
步骤S21,建立索引数据库步骤,该步骤包括扫描后台的用户点击日志,根据所述用户点击日志建立被用户点击的所有文章的的相关信息的索引数据库。此步骤与实施例1中的相关步骤相同,这里不再赘述。
步骤S22,生成相关文章列表步骤,该步骤包括分析给定文章与所述索引数据库中的其他文章之间的相似度,根据所述相似度选取所述索引数据库中的与所述给定文章相关的文章生成相关文章列表。此步骤与实施例1中的相关步骤相同,这里不再赘述。
步骤S23,生成热门文章列表步骤,该步骤包括根据所述用户点击日志分析所述索引数据库中每篇文章的热度值,从索引数据库中选取所述热度值在预定范围内的文章生成热门文章列表。此步骤与实施例1中的相关步骤相同,这里不再赘述。
步骤S24,生成同站点文章列表步骤,该步骤包括由所述索引数据库中提取出与所述给定文章站点相同的文章生成同站点文章列表。此步骤与实施例1中的相关步骤相同,这里不再赘述。
步骤S25,生成同主题文章列表步骤,该步骤包括由所述索引数据库中提取出与所述给定文章主题相同的文章并生成同主题文章列表。请参照图7,步骤S25可以进一步包括以下步骤:步骤S251,根据文章的发布时间以及文章的热度值对所述同主题文章设置权重;步骤S252,根据每篇文章对应的权重对所述同主题文章进行排序;步骤S253,随机选出排序号在预定范围内的多篇文章生成所述同主题文章列表。具体的,可以事先规定一些主题,例如科技、体育、娱乐等,并对每篇文章做文本分类,将其划分到某个主题类别中。然后由索引数据库中提取出与给定文章主题相同的所有文章,然后根据文章的发布时间、文章的热度值综合排序,例如通过根据文章的发布时间以及文章的热度值对同主题文章设置权重,根据每篇文章对应的权重对同主题文章进行排重。另外,为了同一主题每篇文章的同主题文章列表有所差别,可以由排序靠前的文章中随机选取多篇文章生成列表,保证了推荐文章的多样性和新颖性。例如可以由排序在前100的文章中随机选取10片生成同主题文章列表。同主题文章列表可以满足喜欢某一主题的用户的需求。比如只看体育类新闻的用户;比如只看娱乐类资讯的用户等。
步骤S26,列表组合传输步骤,该步骤包括将所述相关文章列表、所述同主题文章列表、所述同站点文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
将所述相关文章列表、所述同主题文章列表、所述同站点文章列表以及所述热门文章列表中其中至少两个列表的组合传输给同一个客户端进行显示,例如可以在用户阅读门户新闻、博客或社区帖子的时候,以列表的方式给出(请参照图8)。
本实施例中,所述方法也可以进一步包括:实时分析用户点击日志中的用户点击量以重新调整所述相关文章列表、所述同主题文章列表、所述同站点文章列表以及所述热门文章列表的组合方式。此步骤与实施例1中的相关步骤相同,这里不再赘述。
本实施例中的四个不同的文章列表分别可以满足用户的不同阅读需求,用户日志的快速分析保证了推荐结果的实时性;推荐策略的随机化保证了推荐结果的多样性和新颖性。请参照图9,图9是采用现有的单一列表推荐方式与采用本申请实施例2后的用户点击量的内部测试结果比较示意图。表中的竖线I左侧部分表示采用现有的单一列表的推荐方式时的用户点击量,竖线右侧部分表示采用本申请实施例2后的用户点击量。其中,列表组合方式具体为相关文章列表、同主题文章列表、同站点文章列表以及热门文章列表这四个列表所组成的组合。通过比较发现,在采用本实施例的选取方法进行推荐后,用户点击量在原来基础上增加了43.7%,且均为点击上述组合列表中的文章导致。点击率提升一定程度上也可以证明本实施例提出的这种组合式的推荐方式可以取得很好的推荐效果。
参考图10,图10是用于实现实施例1中的文章的自动选取方法的一种文章的自动选取装置10的结构图。选取装置10包括:索引数据库11、相关文章生成模块12、热门文章生成模块13、同站点文章生成模块14、列表组合传输模块15。
其中,索引数据库11根据后台的用户点击日志建立,用于存储被用户点击的所有文章的信息。相关文章生成模块12用于分析给定文章与所述索引数据库中的其他文章之间的相似度,根据所述相似度选取所述索引数据库中的与所述给定文章相关的文章生成相关文章列表。热门文章生成模块13用于根据所述用户点击日志分析所述索引数据库中每篇文章的热度值,从所述索引数据库汇总选取所述热度值在预定范围内的文章生成热门文章列表。同站点文章生成模块14用于由所述索引数据库中提取出与所述给定文章站点相同的文章生成同站点文章列表。列表组合传输模块15用于将所述相关文章列表、所述同站点文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
于一种实施方式中,请参照图11,相关文章生成模块12可以进一步包括:第一关键词确定模块121用于分析所述给定文章以及所述索引数据库中的其他文章以确定每篇文章的关键词;第一相似度计算模块122用于根据所确定的关键词计算所述给定文章与所述索引数据库中的其他文章之间的相似度;第一列表生成模块123用于根据所述相似度选取所述给定文章的相关文章生成相关文章列表。
于另一种实施方式中,请参照图12,相关文章生成模块12′可以进一步包括:第二相似度计算模块121',用于计算所述给定文章与所述索引数据库中的其他文章之间的相似度;第二关键词确定模块122',用于分析所述给定文章以及所述索引数据库中的其他文章以确定每篇文章的关键词;文章提取模块123',用于由所述索引数据库中的其他文章中提取出与所述给定文章具有相同关键词的文章;第二列表生成模块124',用于根据所述相似度对所提取出的文章进行排序并选取所述给定文章的相关文章生成相关文章列表。
其中,所述第一列表生成模块或第二列表生成模块选取相似度在预定范围内的文章作为所述给定文章的相关文章生成相关文章列表。
其中,所述文章的热度值为,在当前时间与文章发表的时间段内所述文章被点击的次数与该时间段的比值。
请参照图13,同站点文章生成模块14包括:同站点文章提取模块141,用于由所述索引数据库中提取出与所述给定文章站点相同的文章;第一随机选择模块142,用于由所提取出的站点相同的文章中随机选出多篇文章生成所述同站点文章列表。
优选的,所述装置10进一步包括更新模块16,用于每隔预定时间扫描一次所述用户点击日志,并根据所述用户点击日志更新所述索引数据库中被用户点击的所有文章的相关信息。
优选的,所述装置10进一步包括分析评估模块17,用于分析用户点击日志中的用户点击量以重新调整所述相关文章列表、所述同站点文章列表以及所述热门文章列表的组合方式。
参考图14,图14是用于实现实施例2中的文章的自动选取方法的一种文章的自动选取装置的结构图。于本实施例中,文章的自动选取装置20包括:索引数据库21、相关文章生成模块22、热门文章生成模块23、同站点文章生成模块24、同主题文章生成模块25、列表组合传输模块26。
其中,同主题文章生成模块25用于由所述索引数据库中提取出与所述给定文章主题相同的文章并生成同主题文章列表。于本实施例中,列表组合传输模块26用于将所述相关文章列表、所述同站点文章列表、同主题文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
请参照图15,同主题文章生成模块25包括:权重设置模块251,用于根据文章的发布时间以及文章的热度值对所述同主题文章设置权重;排序模块252,用于根据每篇文章对应的权重对所述同主题文章进行排序;第二随机选择模块253,用于随机选出排序号在预定范围内的多篇文章生成所述同主题文章列表。
优选的,所述装置20可以进一步包括更新模块27,用于每隔预定时间扫描一次所述用户点击日志,并根据所述用户点击日志更新所述索引数据库。
优选的,所述装置20可以进一步包括评估模块28,用于实时分析用户点击日志中的用户点击量以重新调整所述相关文章列表、所述同主题文章列表、所述同站点文章列表以及所述热门文章列表的组合方式。
综上所述,本申请实施例提供的文章自动选取方式及装置解决了现有的单一列表的推荐方式不够丰富、不够多样化的问题,可以从不同角度来推荐用户可能会感兴趣的文章,使得推荐的内容更加丰富、更加多样化,也更具实效性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上该仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

1.一种文章的自动选取方法,其特征在于,包括如下步骤:
建立索引数据库步骤,该步骤包括扫描用户点击日志,根据所述用户点击日志建立被用户点击的所有文章的相关信息的索引数据库;
生成相关文章列表步骤,该步骤包括分析给定文章与所述索引数据库中的其他文章之间的相似度,根据所述相似度选取所述索引数据库中的与所述给定文章相关的文章生成相关文章列表;
生成热门文章列表步骤,该步骤包括根据所述用户点击日志分析所述索引数据库中每篇文章的热度值,从索引数据库中选取所述热度值在预定范围内的文章生成热门文章列表;
生成同站点文章列表步骤,该步骤包括由所述索引数据库中提取出与所述给定文章站点相同的文章生成同站点文章列表;
列表组合传输步骤,该步骤包括将所述相关文章列表、所述同站点文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
2.根据权利要求1所述的方法,其特征在于,所述生成相关文章列表步骤包括:
分析所述给定文章以及所述索引数据库中的其他文章以确定每篇文章的关键词;
根据所确定的关键词计算所述给定文章与所述索引数据库中的其他文章之间的相似度;
根据所述相似度选取所述给定文章的相关文章生成相关文章列表。
3.根据权利要求1所述的方法,其特征在于,所述生成相关文章列表步骤包括:
计算所述给定文章与所述索引数据库中的其他文章之间的相似度;
分析所述给定文章以及所述索引数据库中的其他文章以确定每篇文章的关键词;
由所述索引数据库中的其他文章中提取出与所述给定文章具有相同关键词的文章;
根据所述相似度对所提取出的文章进行排序并选取所述给定文章的相关文章生成相关文章列表。
4.根据权利要求2或3所述的方法,其特征在于,所述生成相关文章列表步骤包括:
选取相似度在预定范围内的文章作为所述给定文章的相关文章生成相关文章列表。
5.根据权利要求1所述的方法,其特征在于,所述文章的热度值为,在当前时间与文章发表的时间段内所述文章被点击的次数与该时间段的比值。
6.根据权利要求1所述的方法,其特征在于,所述生成同站点文章列表步骤包括:
由所述索引数据库中提取出与所述给定文章站点相同的文章;
由所提取出的站点相同的文章中随机选出多篇文章生成所述同站点文章列表。
7.根据权利要求1所述的方法,其特征在于,所述方法进一步包括生成同主题文章列表步骤,该步骤中由所述索引数据库中提取出与所述给定文章主题相同的文章并生成同主题文章列表;其中,所述列表组合传输步骤包括将所述相关文章列表、所述同站点文章列表、所述同主题文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
8.根据权利要求7所述的方法,其特征在于,所述生成同主题文章列表步骤包括:
根据文章的发布时间以及文章的热度值对所述同主题文章设置权重;
根据每篇文章对应的权重对所述同主题文章进行排序;
随机选出排序号在预定范围内的多篇文章生成所述同主题文章列表。
9.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:每隔预定时间扫描一次所述用户点击日志,并根据所述用户点击日志更新所述索引数据库。
10.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:实时分析用户点击日志中的用户点击量以重新调整所述相关文章列表、所述同站点文章列表以及所述热门文章列表的组合方式。
11.一种文章的自动选取装置,其特征在于,包括:
索引数据库,根据用户点击日志建立,用于存储被用户点击的所有文章的相关信息;
相关文章生成模块,用于分析给定文章与所述索引数据库中的其他文章之间的相似度,根据所述相似度选取所述索引数据库中的与所述给定文章相关的文章生成相关文章列表;
热门文章生成模块,用于根据所述用户点击日志分析所述索引数据库中每篇文章的热度值,从所述索引数据库中选取所述热度值在预定范围内的文章生成热门文章列表;
同站点文章生成模块,用于由所述索引数据库中提取出与所述给定文章站点相同的文章生成同站点文章列表;
列表组合传输模块,用于将所述相关文章列表、所述同站点文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
12.根据权利要求11所述的装置,其特征在于,所述相关文章生成模块,包括:
第一关键词确定模块,用于分析所述给定文章以及所述索引数据库中的其他文章以确定每篇文章的关键词;
第一相似度计算模块,用于根据所确定的关键词计算所述给定文章与所述索引数据库中的其他文章之间的相似度;
第一列表生成模块,用于根据所述相似度选取所述给定文章的相关文章生成相关文章列表。
13.根据权利要求11所述的装置,其特征在于,所述相关文章生成模块,包括:
第二相似度计算模块,用于计算所述给定文章与所述索引数据库中的其他文章之间的相似度;
第二关键词确定模块,用于分析所述给定文章以及所述索引数据库中的其他文章以确定每篇文章的关键词;
文章提取模块,用于由所述索引数据库中的其他文章中提取出与所述给定文章具有相同关键词的文章;
第二列表生成模块,用于根据所述相似度对所提取出的文章进行排序并选取所述给定文章的相关文章生成相关文章列表。
14.根据权利要求11所述的装置,其特征在于,所述相关文章生成模块选取相似度在预定范围内的文章作为所述给定文章的相关文章生成相关文章列表。
15.根据权利要求11所述的装置,其特征在于,所述文章的热度值为,在当前时间与文章发表的时间段内所述文章被点击的次数与该时间段的比值。
16.根据权利要求11所述的装置,其特征在于,所述同站点文章生成模块,包括:
同站点文章提取模块,用于由所述索引数据库中提取出与所述给定文章站点相同的文章;
第一随机选择模块,用于由所提取出的站点相同的文章中随机选出多篇文章生成所述同站点文章列表。
17.根据权利要求11所述的装置,其特征在于,所述装置进一步包括:同主题文章生成模块,用于由所述索引数据库中提取出与所述给定文章主题相同的文章并生成同主题文章列表;其中,所述列表组合传输模块将所述相关文章列表、所述同站点文章列表、所述同主题文章列表以及所述热门文章列表中至少两个列表的组合传输给同一个客户端进行显示。
18.根据权利要求17所述的装置,其特征在于,所述同主题文章生成模块包括:
权重设置模块,用于根据文章的发布时间以及文章的热度值对所述同主题文章设置权重;
排序模块,用于根据每篇文章对应的权重对所述同主题文章进行排序;
第二随机选择模块,用于随机选出排序号在预定范围内的多篇文章生成所述同主题文章列表。
19.根据权利要求11所述的装置,其特征在于,所述装置进一步包括:
更新模块,用于每隔预定时间扫描一次所述用户点击日志,并根据所述用户点击日志更新所述索引数据库。
20.根据权利要求11所述的装置,其特征在于,所述装置进一步包括:
评估模块,用于实时分析用户点击日志中的用户点击量以重新调整所述相关文章列表、所述同站点文章列表以及所述热门文章列表的组合方式。
CN201310031843.3A 2013-01-28 2013-01-28 文章的自动选取方法及装置 Active CN103970754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310031843.3A CN103970754B (zh) 2013-01-28 2013-01-28 文章的自动选取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310031843.3A CN103970754B (zh) 2013-01-28 2013-01-28 文章的自动选取方法及装置

Publications (2)

Publication Number Publication Date
CN103970754A CN103970754A (zh) 2014-08-06
CN103970754B true CN103970754B (zh) 2018-05-18

Family

ID=51240268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310031843.3A Active CN103970754B (zh) 2013-01-28 2013-01-28 文章的自动选取方法及装置

Country Status (1)

Country Link
CN (1) CN103970754B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268268B (zh) * 2014-10-13 2018-05-22 宁波公众信息产业有限公司 一种网页信息关联方法及系统
CN104318259B (zh) * 2014-10-20 2017-08-25 北京齐尔布莱特科技有限公司 一种识别目标图片的设备、方法以及计算设备
CN104331485B (zh) * 2014-11-13 2018-06-05 沈文策 展示推荐资讯文章的方法及装置
CN105760527B (zh) * 2016-03-02 2022-09-27 百度在线网络技术(北京)有限公司 第三方页面展示方法和装置
CN105893563A (zh) * 2016-03-31 2016-08-24 比美特医护在线(北京)科技有限公司 信息处理方法和装置
CN105701258A (zh) * 2016-03-31 2016-06-22 比美特医护在线(北京)科技有限公司 信息处理方法及装置
TWI660279B (zh) * 2017-09-06 2019-05-21 品原顧問有限公司 網路文章推薦方法及應用其的系統
CN110019811B (zh) * 2018-01-02 2024-01-09 深圳市雅阅科技有限公司 文章推荐方法、装置及设备
CN108491434A (zh) * 2018-02-09 2018-09-04 深圳前海道己社文化有限公司 基于微信公众号的文章展示方法、装置和终端
CN110555198B (zh) * 2018-05-31 2023-05-23 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110555199B (zh) * 2018-06-01 2023-07-04 北京百度网讯科技有限公司 基于热点素材的文章生成方法、装置、设备及存储介质
CN108959249A (zh) * 2018-06-21 2018-12-07 中国农业科学院农田灌溉研究所 一种期刊优秀论文的评价方法
CN109190050A (zh) * 2018-11-02 2019-01-11 北京字节跳动网络技术有限公司 基于文章配图提供推荐词的方法、装置及电子设备
CN111931060B (zh) * 2020-08-25 2023-11-03 腾讯科技(深圳)有限公司 发布平台影响力的评估方法及相关装置、计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN102402625A (zh) * 2011-12-28 2012-04-04 深圳市五巨科技有限公司 一种音乐推荐的方法及系统
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN102866992A (zh) * 2011-07-04 2013-01-09 阿里巴巴集团控股有限公司 一种在网页中显示产品信息的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560520B2 (en) * 2010-08-26 2013-10-15 Microsoft Corporation Information retrieval using time
US9563712B2 (en) * 2011-07-14 2017-02-07 Salesforce.Com, Inc. Computer implemented methods and apparatus for providing internal custom feed items

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN102866992A (zh) * 2011-07-04 2013-01-09 阿里巴巴集团控股有限公司 一种在网页中显示产品信息的方法及装置
CN102402625A (zh) * 2011-12-28 2012-04-04 深圳市五巨科技有限公司 一种音乐推荐的方法及系统
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法

Also Published As

Publication number Publication date
CN103970754A (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN103970754B (zh) 文章的自动选取方法及装置
CN101641697B (zh) 对网页的相关搜索查询及其应用
US10394911B1 (en) Selecting content for devices specific to a particular user
US9146986B2 (en) Systems, methods, and apparatuses for implementing an interface to view and explore socially relevant concepts of an entity graph
US20090006388A1 (en) Search result ranking
US9405746B2 (en) User behavior models based on source domain
US20080243830A1 (en) User suggested ordering to influence search result ranking
US20090024605A1 (en) Method and system for user and reference ranking in a database
CN103886090A (zh) 基于用户喜好的内容推荐方法及装置
US20080077494A1 (en) Advertisement Selection For Peer-To-Peer Collaboration
CN104462573A (zh) 一种视频搜索结果展示方法及装置
CN107679239B (zh) 一种基于用户行为的个性化社区推荐方法
CN103886017A (zh) 一种用于在搜索结果中提供相关子链接的方法和装置
US9171045B2 (en) Recommending queries according to mapping of query communities
US9558175B2 (en) Generating an individualized web page template with entities of a web page publisher organization associated with areas of the template
WO2009031759A1 (en) Method and system for generating search collection of query
US20150234813A1 (en) Systems and Methods for Categorizing and Accessing Information Databases and for Displaying Query Results
WO2011005626A2 (en) Entropy-based mixing and personalization
CN103294692A (zh) 一种信息推荐方法及系统
CN106227866A (zh) 一种基于数据挖掘的混合过滤电影推荐方法
US20080077580A1 (en) Content Searching For Peer-To-Peer Collaboration
US20080077669A1 (en) Peer-To-Peer Learning For Peer-To-Peer Collaboration
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN102314422A (zh) 一种基于用户兴趣优选开放式互动版块的方法与设备
US20080077578A1 (en) Feature Extraction For Peer-To-Peer Collaboration

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant