一种提供链接推荐的方法及装置
技术领域
本发明涉及计算机通信技术,特别涉及一种提供链接推荐的方法及装置。
背景技术
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,由于网络内容的丰富,网络用户从中获取相关信息所花费的时间也越来越多,例如,目前的各个社区网站上(包含但不仅限于腾讯微博、Qzone社区)都堆积了大量的信息,其中包含个人的心情写照、回复、转发粉丝的信息、发表个人对某些事情的看法等内容,由于大部分内容都是极具个性化的信息,较难聚焦形成热点内容,使得用户在微博上投入的时间与获取的信息不成正比。但是,微博中也有部分质量较高的信息,例如,通过链接推荐的方法展示的信息,举例来说,当微博用户在某一互联网站浏览到较好内容的时候,可以通过提供链接推荐的方法,分享该互联网站链接到微博并提供给关注的用户。
微博中的链接具有以下特征:
①实时性,微博中链接对应的信息,一般都是当前最新的新闻和热点事件的链接。
②传播快,每次“一键分享”或主动发送到微博的链接,平均可以带回较高的IP点击。
③高质量,经过人工筛选,只有用户觉得不错的互联网站内容,才会提供该互联网站内容的链接,进行微博分享。
④信任度高,研究显示37%的用户认为微博上的信息基本可信,只有6%的用户认为不太可信。
现有技术中,各微博网站一般采用编辑人工运营的方式提供链接推荐,通过浏览互联网站发现优质信息,例如,新闻热点信息,将这些优质信息形成热门话题,并以链接推荐的方式推荐给用户。
以新闻热点为例,主要有两种链接推荐方式:
(1)、编辑选择生成链接推荐。该方式主要由编辑根据个人的经验,从大量新闻中选择其认为是热点的新闻,在微博中生成链接并进行推荐。
(2)、依据网络上重复的次数生成链接推荐。该方式主要用于目前新闻搜索中,根据某个新闻页面在各个新闻站点中出现的次数来判别新闻的热度,将出现次数超过预先设置的次数阈值的新闻页面在微博中生成链接并进行推荐。
由上述可见,现有提供链接推荐的方法,通过编辑选择进行链接推荐,与编辑个人的兴趣爱好和生活背景密切相关,具有较大的主观性,其选择的链接推荐对应的热点新闻并不一定是网络用户认可的热点新闻,链接推荐的可用性较低,人工运营的成本较高;而基于网页重复次数进行选择并生成链接推荐,其统计数据一般来源于各个新闻网站,而各个新闻网站自身热点新闻的选择又是根据编辑确定的,参与热点新闻确定的人数较少,因此,基于网页重复次数选择获取的链接推荐对应的热点新闻也并不一定是网络用户关注的热点新闻,且人工运营的成本较高。
发明内容
有鉴于此,本发明的主要目的在于提出一种提供链接推荐的方法,提高链接推荐的可用性。
本发明的另一目的在于提出一种提供链接推荐的装置,提高链接推荐的可用性。
为达到上述目的,本发明提供了一种提供链接推荐的方法,该方法包括:
按照预先设置的时间周期提取社区分享中包含的链接信息;
获取链接信息中含有链接的微博消息及微博消息属性;
根据获取的微博消息属性,按照预先设置的计分策略对微博消息对应的链接进行计分;
获取计分前N位的链接,拉取链接的统一资源定位器URL对应的网页进行内容分类,获取URL的摘要数据,其中,N为预先设置的自然数;
根据获取的摘要数据生成链接推荐。
在所述获取计分前N位的链接的步骤之前,进一步包括:
根据预先设置的白名单对链接的URL进行过滤,过滤掉所述白名单之外的URL。
所述微博消息属性包括:微博消息是否原创属性、是否转发属性、发布者是否名人属性以及发布者听众数属性中的一种或其任意组合。
所述微博消息属性包括:微博消息是否原创属性、是否转发属性、发布者是否名人属性和发布者听众数属性,所述按照预先设置的计分策略对微博消息对应的链接进行计分包括:
根据预先设置的用于计分的转发次数、是否原创、发布者是否名人、发布者听众数的计分系数,按照转发次数、是否原创、发布者是否名人、发布者听众数以及相应的计分系数对各链接进行计分。
进一步包括:将生成的链接推荐提供给用户,所述提供给用户包括:
以web展示界面形式展示所述URL的摘要数据,并提供可扩展的源置标语言数据接口。
一种提供链接推荐的装置,该装置包括:链接信息提取模块、属性获取模块、链接计分模块、摘要数据获取模块以及展示模块,其中,
链接信息提取模块,用于按照预先设置的时间周期提取社区分享中包含的链接信息;
属性获取模块,用于获取链接信息中含有链接的微博消息及微博消息属性;
链接计分模块,用于根据获取的微博消息属性,按照预先设置的计分策略对微博消息对应的链接进行计分;
摘要数据获取模块,用于获取计分前N位的链接,拉取链接的统一资源定位器URL对应的网页进行内容分类,获取URL的摘要数据,其中,N为预先设置的自然数;
展示模块,用于根据获取的摘要数据生成链接推荐进行展示。
进一步包括:
白名单模块,用于根据预先设置的白名单对链接的URL进行过滤,过滤掉所述白名单之外的URL,得出该社区内链接的焦点排行。
所述微博消息属性包括:微博消息是否原创属性、是否转发属性、发布者是否名人属性以及发布者听众数属性中的一种或其任意组合。
由上述的技术方案可见,本发明提供的一种提供链接推荐的方法及装置,按照预先设置的时间周期提取社区分享中包含的链接信息;获取链接信息中含有链接的微博消息及微博消息属性;根据获取的微博消息属性,按照预先设置的计分策略对微博消息对应的链接进行计分;获取计分前N位的链接,拉取链接的统一资源定位器URL对应的网页进行内容分类,获取URL的摘要数据,其中,N为预先设置的自然数;根据获取的摘要数据生成链接推荐。这样,通过提取社区分享中包含的链接信息,基于微博消息属性进行计分排序,从而可以提高链接推荐的可用性;进一步地,无需进行手工编辑,可以降低人工运营的成本;而且,通过获取链接的URL的摘要数据并展示,可以为网络用户在更为广泛的信息中快速推荐出热点信息。
附图说明
图1为本发明实施例的提供链接推荐的方法流程示意图。
图2为本发明实施例的提供链接推荐的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
实际应用中,在各网站分享形式中,都包含有大量的链接,因而,本发明实施例中,通过获取链接信息,构建网站链接与用户相互连接的网络,基于各链接的用户分享操作,例如,链接的分享次数、转发次数、评论关系等进行计分、排序,获取最热门的链接并生成链接推荐,从而可以提高链接推荐的可用性,为网络用户在更为广泛的信息中快速推荐出热点信息,无需进行手工编辑,可以降低人工运营的成本。
本发明实施例的提供链接推荐的方法,其应用主要包括但不限于:腾讯微博分享、Qzone社区分享、朋友社区分享、QQ群空间分享等。
图1为本发明实施例的提供链接推荐的方法流程示意图。参见图1,该流程包括:
步骤101,按照预先设置的时间周期提取社区分享中包含的链接信息;
本步骤中,社区分享包括但不限于:腾讯微博分享、Qzone社区分享、朋友社区分享、QQ群空间分享。以微博为例,获取微博在时间周期内的全量数据,并对该全量数据进行分析,得到包含的链接信息。
实际应用中,可以将获取的全量数据同步到hadoop平台的分布式文件系统(HDFS,Hadoop Distributed File System),由HDFS解析全量数据,得到包含的链接信息。
步骤102,获取链接信息中含有链接的微博消息及微博消息属性;
本步骤中,HDFS从解析得到的外链链接信息中,获取含有链接的微博消息,例如,解析得到的外链链接信息为:搜狐中超报道:【王永珀奶奶去世前仍念比赛爷爷命其归队别误比赛】据王永珀爷爷介绍,本来王永珀要在青岛多待两天,不过爷爷坚持让他回到济南别耽误比赛(http://t.cn/ad6yov、http://sports.sohu.com)。则获取的含有链接的微博消息是:搜狐中超报道:【王永珀奶奶去世前仍念比赛爷爷命其归队别误比赛】据王永珀爷爷介绍,本来王永珀要在青岛多待两天,不过爷爷坚持让他回到济南别耽误比赛(http://t.cn/ad6yov)。关于从微博消息中提取出微博消息属性,具体可参见相关技术文献,在此不再赘述。
微博消息属性主要是用户的操作特征属性,包括:微博消息是否原创属性、是否转发属性、发布者是否名人属性、发布者听众数属性中的一种或其任意组合。
步骤103,根据获取的微博消息属性,按照预先设置的计分策略对微博消息对应的链接进行计分;
本步骤中,统计所有链接,即基于用户的操作特征,对各链接进行排重与计分:统计该链接被转发的次数、该链接是否被名人转发过等信息,在完成统计后,按照转发次数、是否原创、发布者是否名人、发布者听众数对各链接进行计分,并依据计分高低进行排序。
预先设置的计分策略用于计算链接的分数,可以根据实际需要确定,例如,可以分别确定用于计分的转发次数、是否原创、发布者是否名人、发布者听众数的计分系数。
当微博消息属性包括:微博消息是否原创属性、是否转发属性、发布者是否名人属性和发布者听众数属性时,则按照预先设置的计分策略对各微博消对应的链接进行计分包括:
根据预先设置的用于计分的转发次数、是否原创、发布者是否名人、发布者听众数的计分系数,按照转发次数、是否原创、发布者是否名人、发布者听众数以及相应的计分系数对各链接进行计分。
当然,实际应用中,如果微博消息属性包括:微博消息是否原创属性和是否转发属性时,则根据预先设置的用于计分的转发次数以及是否原创的计分系数,按照转发次数、是否原创以及相应的转发次数计分系数、是否原创计分系数对各链接进行计分。如果微博消息属性包括其他内容,按照与上述相类似的计分策略对微博消息属性包括的具体内容分别进行计分,在此不再赘述。
本发明实施例中,链接信息为统一资源定位器(URL,Uniform ResourceLocator)信息,用户在SNS(微博、qzone、朋友)分享的每一个URL,都是对该URL的一次评价,如果该URL被分享的次数越多、分享该URL的人的听众数越多、有名人分享过该URL、有多个人原创的分享了该URL,说明该URL的质量很高,相应的计分就高。
实际应用中,还可以根据预先设置的白名单对链接的URL进行过滤,过滤掉白名单之外的URL,得出该社区内链接的焦点排行。白名单中的信息为信任网站的URL信息。
步骤104,获取计分前N位的链接,拉取链接的URL对应的网页进行内容分类,获取URL的摘要数据;
本步骤中,N为预先设置的自然数,具体可根据实际需要来确定。进行内容分类,获取URL的摘要数据,具体可参见相关技术文献,在此不再赘述。
步骤105,生成链接推荐,提供给用户。
本步骤中,根据获取的摘要数据生成链接推荐后,以web展示界面形式展示URL数据结果(URL的摘要数据),提供可扩展的源置标语言(XML,Extensible Markup Language)数据接口。
本发明实施例中,以微博为例,首先,获取微博单位时间内的全量数据,并对该全量数据进行分析,得到单位时间内所有用户分享的链接、该链接被转发的次数、该链接是否被名人转发过,并基于上述信息对该链接进行计分、排序;接着,对该链接对应的网页进行内容分类、获取摘要数据信息;然后,对获取的所有链接进行白名单过滤,并向用户提供web展示界面和xml数据接口。
由上述可见,本发明实施例的提供链接推荐的方法,将来自微博外的链接与用户的操作特征属性结合起来,通过“用户”这个维度将各类站点,包括各个“暗网”中的网页再次链接起来,实现了基于社区内的用户操作特征的链接的焦点排行,参与热点链接推荐的人数多,从而可以提高链接推荐的可用性;基于链接信息进行统计、分析、计分并生成链接推荐,无需进行手工编辑,可以降低人工运营的成本;同时,通过获取链接的URL的摘要数据并展示,可以为网络用户在更为广泛的信息中快速推荐出热点信息;进一步地,可以将这些社区平台中的优质的链接信息内容聚合起来,不仅可以改善优质内容的推送,而且可以有效地降低用户获取优质信息的成本;此外,如果在搜索引擎网页质量评测中引入本发明实施例提供链接推荐的结果,可以改善搜索引擎对网页的相关性排序;而在微博热点事件运营中引入本发明实施例提供链接推荐的结果,可以为产品运营提供数据支撑。
图2为本发明实施例的提供链接推荐的装置结构示意图。参见图2,该装置包括:链接信息提取模块、属性获取模块、链接计分模块、摘要数据获取模块以及展示模块,其中,
链接信息提取模块,用于按照预先设置的时间周期提取社区分享中包含的链接信息;
属性获取模块,用于获取链接信息中含有链接的各微博消息及微博消息属性;
本发明实施例中,微博消息属性主要是用户的操作特征属性,包括:微博消息是否原创属性、是否转发属性、发布者是否名人属性、发布者听众数属性等。
链接计分模块,用于根据获取的各微博消息属性,按照预先设置的计分策略对各微博消息对应的链接进行计分;
本发明实施例中,按照转发次数、是否原创、发布者是否名人、发布者听众数对各链接进行计分,并依据计分高低进行排序。
摘要数据获取模块,用于获取计分前N位的链接,拉取链接的URL对应的网页进行内容分类,获取URL的摘要数据;
展示模块,用于生成链接推荐,提供并展示给用户。
本发明实施例中,以web展示界面形式展示URL数据结果,提供XML数据接口。
较佳地,该装置还包括:
白名单模块,用于根据预先设置的白名单对链接的URL进行过滤,过滤掉白名单之外的URL,得出该社区内链接的焦点排行。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。