CN106777143A - 一种新闻聚合方法及新闻聚合服务器 - Google Patents

一种新闻聚合方法及新闻聚合服务器 Download PDF

Info

Publication number
CN106777143A
CN106777143A CN201611178531.5A CN201611178531A CN106777143A CN 106777143 A CN106777143 A CN 106777143A CN 201611178531 A CN201611178531 A CN 201611178531A CN 106777143 A CN106777143 A CN 106777143A
Authority
CN
China
Prior art keywords
news
picture
url
optimal
aggreagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611178531.5A
Other languages
English (en)
Inventor
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kylin Hesheng Network Technology Co Ltd
Original Assignee
Beijing Kylin Hesheng Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kylin Hesheng Network Technology Co Ltd filed Critical Beijing Kylin Hesheng Network Technology Co Ltd
Priority to CN201611178531.5A priority Critical patent/CN106777143A/zh
Publication of CN106777143A publication Critical patent/CN106777143A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新闻聚合方法及新闻聚合服务器,该方法包括:从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种;对每个新闻数据进行内容抽取,根据从新闻数据中抽取出的内容形成新闻正文页面;如果抽取出的内容中存在图片URL,则直接从图片URL对应的图片中选出最优配图;如果抽取出的内容中不存在图片URL,则根据新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图;将新闻正文页面与最优配图组合起来形成配图新闻页面并进行存储;组合所存储的多个配图新闻页面形成新闻列表以实现新闻聚合。

Description

一种新闻聚合方法及新闻聚合服务器
技术领域
本发明涉及互联网技术领域,特别涉及一种新闻聚合方法及新闻聚合服务器。
背景技术
随着信息技术的发展和网络的全球化,在线新闻越来越受欢迎并成为人们日常生活中获取信息的一种重要途径,人们可以利用浏览器从一些知名的网站如新浪、网易、雅虎、CNN、AOL和MSNBC等获取新闻。随着移动互联网的发展,这些网站也发布了自己的移动应用,用户也可以通过这些移动应用获取相应网站的新闻。
当用户通过浏览器或使用移动应用来获取新闻时,由于提供新闻的网站和移动应用数量较多,包括的新闻内容也各种各样,用户需要逐个浏览网站或者逐个启动移动应用来获取新闻,则对于用户来说较为不便利。目前已经出现了新的移动应用,这类应用聚合各种来源的新闻、并最终形成一个统一的新闻列表以向用户展示,便于用户浏览新闻。
然而,由于新闻的来源不同,新闻的格式也会不同。例如一些新闻并不具有新闻简要描述部分,而还有一些新闻可能并没有配备对应的新闻图片。因此,当具有来自各个来源的新闻以提供新闻列表时,一方面可能出现在新闻正文页面中只有文字没有图片的情形,另一方面还会出现列表中的部分新闻具有配图而部分新闻缺少配图、以及部分新闻缺乏新闻简介等问题,导致整个新闻列表界面排版混乱,用户体验较差。
发明内容
为此,本发明提供一种新闻聚合的技术方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种新闻聚合方法,适于在新闻聚合服务器中执行,该方法包括如下步骤:从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种;对每个新闻数据进行内容抽取,根据从新闻数据中抽取出的内容形成新闻正文页面;如果抽取出的内容中存在图片URL,则直接从图片URL对应的图片中选出最优配图;如果抽取出的内容中不存在图片URL,则根据新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图;将新闻正文页面与最优配图组合起来形成配图新闻页面并进行存储;组合所存储的多个配图新闻页面形成新闻列表以实现新闻聚合。
可选地,在根据本发明的新闻聚合方法中,直接从图片URL对应的图片中选出最优配图包括:判断图片URL的数量是否大于1;如果图片URL的数量大于1,则获取图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于分辨率和排序位置选出最优配图;如果图片URL的数量等于1,则图片URL对应的图片即为最优配图。
可选地,在根据本发明的新闻聚合方法中,根据新闻来源名称调用搜索引擎进行图片搜索包括:根据新闻来源名称判断新闻数据的来源国家;根据来源国家获取其对应的搜索引擎;调用搜索引擎并以新闻标题为搜索词进行图片搜索。
可选地,在根据本发明的新闻聚合方法中,从搜索到的图片中选出最优配图包括:从搜索到的图片中选取前N张图片并获取每张图片的属性信息,其中N为大于1的整数,属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种;若URL信息包括图片URL,则将图片ALT标签与新闻标题进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
可选地,在根据本发明的新闻聚合方法中,从搜索到的图片中选出最优配图还包括:若URL信息包括图片来源网页URL,则采集图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
可选地,在根据本发明的新闻聚合方法中,N等于5。
可选地,在根据本发明的新闻聚合方法中,相似度阈值预设为30。
根据本发明的又一个方面,提供一种新闻聚合服务器,包括采集单元、内容处理单元、配图单元、存储单元和列表提供单元。其中,采集单元适于从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种;内容处理单元适于对每个新闻数据进行内容抽取,根据从新闻数据中抽取出的内容形成新闻正文页面,当抽取出的内容中存在图片URL时,直接从图片URL对应的图片中选出最优配图,将新闻正文页面与最优配图组合起来形成配图新闻页面;配图单元适于当抽取出的内容中不存在图片URL时,根据新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图,并触发内容处理单元将新闻正文页面与最优配图组合起来形成配图新闻页面;存储单元适于存储配图新闻页面;列表提供单元适于组合存储单元中存储的多个配图新闻页面形成新闻列表以实现新闻聚合。
可选地,在根据本发明的新闻聚合服务器中,内容处理单元进一步适于:判断图片URL的数量是否大于1;当图片URL的数量大于1时,获取图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于分辨率和排序位置选出最优配图;当图片URL的数量等于1时,图片URL对应的图片即为最优配图。
可选地,在根据本发明的新闻聚合服务器中,配图单元进一步适于:根据新闻来源名称判断新闻数据的来源国家;根据来源国家获取其对应的搜索引擎;调用搜索引擎并以新闻标题为搜索词进行图片搜索。
可选地,在根据本发明的新闻聚合服务器中,配图单元进一步适于:从搜索到的图片中选取前N张图片并获取每张图片的属性信息,其中N为大于1的整数,属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种;当URL信息包括图片URL时,将图片ALT标签与新闻标题进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
可选地,在根据本发明的新闻聚合服务器中,配图单元进一步适于:当URL信息包括图片来源网页URL时,采集图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
可选地,在根据本发明的新闻聚合服务器中,N等于5。
可选地,在根据本发明的新闻聚合服务器中,相似度阈值预设为30。
根据本发明的新闻聚合的技术方案,对从新闻源采集到新闻数据进行内容抽取后,对抽取出的内容是否存在图片URL进行判断,根据上述判断结果而采取不同的获取最优配图的处理步骤,将新闻正文页面与最优配图形成配图新闻页面,最终组合多个配个新闻页面形成新闻列表以实现新闻聚合。在上述技术方案中,如果从新闻数据中抽取的内容存在图片URL,则直接从图片URL对应的图片中选出最优配图,如果不存在则调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图,使得每条新闻都具有对应的最优配图,形成了统一的配备有新闻图片的新闻正文页面,从而可以提供全部新闻均具有配图的新闻列表,使得整个新闻列表界面排版整齐,布局合理,极大地提升了用户体验。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的新闻聚合系统100的示意图;
图2示出了根据本发明一个实施例的新闻聚合方法200的流程图;以及
图3示出了根据本发明一个实施例的新闻聚合服务器300的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的新闻聚合系统100的示意图。如图1所示,在新闻聚合系统100中,有新闻源1、新闻源2、…、新闻源M共计M个新闻源,其中M为不小于1的整数,这M个新闻源通过其所在网站提供新闻。新闻聚合服务器200从M个新闻源中采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种,再对每个新闻数据进行内容抽取,根据从新闻数据中抽取出的内容形成新闻正文页面。如果抽取出的内容中存在图片URL,则直接从图片URL对应的图片中选出最优配图,如果抽取出的内容中不存在图片URL,则根据新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图。最后,将新闻正文页面与最优配图组合起来形成配图新闻页面并进行存储,组合所存储的多个配图新闻页面形成新闻列表以实现新闻聚合。在图1中,客户端400与新闻聚合服务器300通信连接,客户端400一般为移动终端,如智能手机或平板电脑,但均不限于此,数量上也未作任何限制。客户端400中安装有与新闻聚合服务器300相对应的客户端应用(图中未示出),当用户需要查看新闻时,该客户端应用响应用户的操作,向新闻聚合服务器300发出新闻请求,新闻聚合服务器300在接收到上述新闻请求后,将组合形成的新闻列表发送给该客户端应用,从而客户端应用在客户端400的屏幕上将新闻列表进行显示以便用户查看。通过本新闻聚合系统100,使得每条新闻都具有对应的最优配图,形成了统一的配备有新闻图片的新闻正文页面,从而可以提供全部新闻均具有配图的新闻列表,使得整个新闻列表界面排版整齐,布局合理,极大地提升了用户体验。
图2示出了根据本发明一个实施例的新闻聚合方法200的流程图。新闻聚合方法200适于在新闻聚合服务器(例如图1所示的新闻聚合服务器300)中执行。
如图2所示,方法200始于步骤S210。在步骤S210中,从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种。在本实施例中,通过网络爬虫对作为新闻源的各个新闻网站进行新闻数据采集。下面分别给出了两个新闻数据的示例,一个是有新闻配图的新闻数据A的示例,另一个是无新闻配图的新闻数据B的示例。
新闻数据A的示例为:
新闻数据B的示例为:
其中,title表示新闻标题,pubtime表示发布时间,summary表示新闻摘要,article表示新闻正文,image表示新闻配图,category表示新闻分类,source表示新闻来源名称。需要说明的是,上述示例中的发布时间是以时间戳的形式进行表示的,比如说新闻数据A中的发布时间为1476238962000,将其转换为常规时间表示形式,可知发布时间为北京时间2016年10月12日上午10时22分42秒。比较新闻数据A和新闻数据B的示例可以发现,在新闻数据A中,image中存在一个为“http://images.indianexpress.com/2016/10/note-7-759.jpg”的url,这个url即为图片URL,说明新闻数据A是存在新闻配图的,而在新闻数据B中,image中内容为空,并不存在url,说明新闻数据B是不存在新闻配图的。
随后,进入步骤S220,对每个新闻数据进行内容抽取,根据从新闻数据中抽取出的内容形成新闻正文页面。在本实施例中,在对每个新闻数据进行内容抽取时,是将新闻数据中所包括的内容抽取出来,如步骤S210中提到的新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称等,,再根据从新闻数据中抽取出的内容,如新闻正文等,形成新闻正文页面。
接下来,在步骤S230中,如果抽取出的内容中存在图片URL,则直接从图片URL对应的图片中选出最优配图。首先判断图片URL的数量是否大于1,如果图片URL的数量大于1,则获取图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于分辨率和排序位置选出最优配图,如果图片URL的数量等于1,则图片URL对应的图片即为最优配图。在本实施例中,对新闻数据A而言,抽取出的内容中存在图片URL,且图片URL的数量为1,则该图片URL对应的图片即为最优配图。而在又一个实施例中,有新闻数据C,其抽取的内容中存在图片URL且数量为2,获取第一个图片URL对应的图片的分辨率为400×600dpi,在新闻正文中的排序位置为第二,获取第二个图片URL对应的图片的分辨率为600×800dpi,在新闻正文中的排序位置为第一,由于第二个图片URL对应的图片的分辨率比第一个图片URL对应的图片的分辨率高,且在新闻正文中的排序位置也更靠前,很明显选择第二个图片URL对应的图片作为最优配图。在实际处理过程中,可以基于图片的分辨率和排序位置各自所占的权重来计算不同图片URL的比较结果,例如对图片的分辨率的数值进行范围划分,落入不同的数值范围内的分辨率对应的分值不同,而不同排序位置对应的分值也不同,则依据最终分值=分辨率分值×分辨率权值+排序位置分值×排序位置权值的计算公式,分别计算出不同图片URL的最终分值,选出最终分值最高的图片URL对应的图片作为最优配图。
如果抽取出的内容中不存在图片URL,则进入步骤S240,根据新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图。首先,根据新闻来源名称判断新闻数据的来源国家,根据来源国家获取其对应的搜索引擎,调用搜索引擎并以新闻标题为搜索词进行图片搜索。其次,从搜索到的图片中选取前N张图片并获取每张图片的属性信息,其中N为大于1的整数,属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种,若URL信息为图片URL,则将图片ALT标签与新闻标题进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图,若URL信息为图片来源网页URL,则采集图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。根据本发明的一个实施例,可以将N的值选择为5,并且将相似度阈值预设为30。
在本实施例中,对于不存在新闻配图的新闻数据,首先要根据新闻数据的来源国家调用搜索引擎进行图片搜索。例如,在上面的示例中,新闻数据B所抽取的内容中不存在图片URL,其新闻来源名称为uniindia,新闻标题为SKorea won at 3-week low on dollarstrength,Samsung shares extend plunge,其中uniidia为United News of India的缩写,为印度联合新闻社,则据此可以判断新闻数据B的来源国家为印度,根据这一来源国家获取其对应的搜索引擎为Google。因此在本步骤中,调用Google搜索引擎并以上述新闻标题为搜索词进行图片搜索。根据本发明的另一个实施例,当然也可以使用从新闻标题或新闻正文中选取的关键词作为搜索词进行图片搜索,所有这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
随后,从搜索到的图片中选取前5张图片并获取每张图片的属性信息,属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种,根据一种实施方式,若URL信息包括图片URL,则将图片ALT标签与新闻标题进行相似度计算,采用Google开源的Simhash算法计算图片ALT标签属性与新闻标题的海明(Haming)距离来衡量其相似度,海明距离越小说明图片ALT标签与新闻标题的相似度越高。
根据另一种实施方式,若URL信息包括图片来源网页URL,则采集图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,上述对新闻数据进行相似度计算的算法可选用现有技术中的关于相似度计算的成熟算法,此处不予以赘述,并且所有计算两种数据相似度的方法都在本发明的保护范围之内。由于相似度阈值是需要根据不同的来源国家、官方语言等进行动态调整的,而对于印度而言,其对应的相似度阈值为32,则最后从前5张图片中选出相似度不小于32且最大的图片作为最优配图。
在选出最优配图之后,进入步骤S250,将S220中形成的新闻正文页面与最优配图组合起来形成配图新闻页面并进行存储。
最后,在步骤S260中,组合所存储的多个配图新闻页面形成新闻列表以实现新闻聚合。在本实施例中,一个新闻列表中包括40条新闻,每条新闻包括新闻标题、新闻配图、新闻分类、新闻来源和更新时间等内容。其中,新闻标题在新闻列表中最多显示2行,新闻配图的图片尺寸需要进行缩放、裁切并压缩至服务器端,如新闻聚合服务器200可以配置的标准范围之内,比如宽高比为2:3,图片体积小于200KB,图片分辨率为900×600dpi等,新闻分类指定新闻所属的分类,如体育、财经,新闻来源是指新闻的来源网站,如CNN或BBC,更新时间即指新闻的发布时间。
图3示出了本发明一个实施例的新闻聚合服务器300的示意图。如图3所示,新闻聚合服务器300与客户端400通信连接,其包括采集单元310、内容处理单元320、配图单元330、存储单元340和列表提供单元350。
采集单元310适于从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种。在本实施例中,通过网络爬虫对新闻源1、新闻源2、…、新闻源M进行新闻数据的采集,其中M为不小于1的整数,最终获得了两个新闻数据的,一个是有新闻配图的新闻数据A,另一个是无新闻配图的新闻数据B。
内容处理单元320与采集单元310相连,适于对采集单元310所采集到的每个新闻数据进行内容抽取,根据从新闻数据中抽取出的内容形成新闻正文页面,当抽取出的内容中存在图片URL时,直接从图片URL对应的图片中选出最优配图,将新闻正文页面与最优配图组合起来形成配图新闻页面。内容处理单元320进一步适于判断图片URL的数量是否大于1,当图片URL的数量大于1时,获取图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于分辨率和排序位置选出最优配图,当图片URL的数量等于1时,图片URL对应的图片即为最优配图。在本实施例中,在对新闻数据A和新闻数据B进行内容抽取后,根据从上述新闻数据中抽取出的内容,如新闻正文等,形成新闻正文页面。从新闻数据A里抽取出的内容中存在图片URL,且图片URL的数量为1,则该图片URL对应的图片即为最优配图。而在又一个实施例中,有新闻数据C,其抽取的内容中存在图片URL且数量为2,获取第一个图片URL对应的图片的分辨率为400×600dpi,在新闻正文中的排序位置为第二,获取第二个图片URL对应的图片的分辨率为600×800dpi,在新闻正文中的排序位置为第一,由于第二个图片URL对应的图片的分辨率比第一个图片URL对应的图片的分辨率高,且在新闻正文中的排序位置也更靠前,很明显选择第二个图片URL对应的图片作为最优配图。在实际处理过程中,可以基于图片的分辨率和排序位置各自所占的权重来计算不同图片URL的比较结果,例如对图片的分辨率的数值进行范围划分,落入不同的数值范围内的分辨率对应的分值不同,而不同排序位置对应的分值也不同,则依据最终分值=分辨率分值×分辨率权值+排序位置分值×排序位置权值的计算公式,分别计算出不同图片URL的最终分值,选出最终分值最高的图片URL对应的图片作为最优配图。
配图单元330与内容处理单元320相连,适于当内容处理单元320从新闻数据中抽取出的内容中不存在图片URL时,根据新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图,并触发内容处理单元将新闻正文页面与最优配图组合起来形成配图新闻页面。配图单元330进一步适于根据新闻来源名称判断新闻数据的来源国家,根据来源国家获取其对应的搜索引擎,调用搜索引擎并以新闻标题为搜索词进行图片搜索。配图单元330进一步适于从搜索到的图片中选取前N张图片并获取每张图片的属性信息,其中N为大于1的整数,属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种;当URL信息包括图片URL时,将图片ALT标签与新闻标题进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图;当URL信息包括图片来源网页URL时,采集图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。根据本发明的一个实施例,可以将N的值选择为5,并且将相似度阈值预设为30。在本实施例中,新闻数据B所抽取的内容中不存在图片URL,其新闻来源名称为uniindia,新闻标题为SKorea won at 3-week low on dollar strength,Samsung shares extend plunge,其中uniidia为United News of India的缩写,为印度联合新闻社,则据此可以判断新闻数据B的来源国家为印度,根据这一来源国家获取其对应的搜索引擎为Google因此调用Google搜索引擎并以上述新闻标题为搜索词进行图片搜索。根据本发明的另一个实施例,当然也可以使用从新闻标题或新闻正文中选取的关键词作为搜索词进行图片搜索,所有这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。随后,从搜索到的图片中选取前5张图片并获取每张图片的属性信息,属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种,根据一种实施方式,当URL信息包括图片URL时,将图片ALT标签与新闻标题进行相似度计算,采用Google开源的Simhash算法计算图片ALT标签属性与新闻标题的海明(Haming)距离来衡量其相似度,海明距离越小说明图片ALT标签与新闻标题的相似度越高。根据另一种实施方式,当URL信息包括图片来源网页URL时,采集图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,上述对新闻数据进行相似度计算的算法可选用现有技术中的关于相似度计算的成熟算法,此处不予以赘述,所有这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内。由于相似度阈值是需要根据不同的来源国家、官方语言等进行动态调整的,而对于印度而言,其对应的相似度阈值为32,则最后从前5张图片中选出相似度不小于32且最大的图片作为最优配图,并触发内容处理单元320将对应的新闻正文页面与最优配图组合起来形成配图新闻页面。
存储单元340与内容处理单元320相连,适于存储内容处理单元320所组合形成的配图新闻页面。客户端400中安装有与新闻聚合服务器300相对应的客户端应用(图中未示出),当用户需要查看新闻时,该客户端应用响应用户的操作,向新闻聚合服务器300发出新闻请求,新闻聚合服务器300在接收到上述新闻请求后,将组合形成的新闻列表发送给该客户端应用,从而客户端应用在客户端400的屏幕上将新闻列表进行显示以便用户查看。
列表提供单元350与存储单元340相连,适于组合存储单元340中存储的多个配图新闻页面形成新闻列表以实现新闻聚合。客户端400中安装有与新闻聚合服务器300相对应的客户端应用(图中未示出),当用户需要查看新闻时,该客户端应用响应用户的操作,向新闻聚合服务器300发出新闻请求,新闻聚合服务器300中的列表提供单元350将对应的新闻列表发送至客户端400,以便用户通过客户端应用在客户端400的屏幕上查看新闻列表。在本实施例中,一个新闻列表中包括40条新闻,每条新闻包括新闻标题、新闻配图、新闻分类、新闻来源和更新时间等内容。其中,新闻标题在新闻列表中最多显示2行,新闻配图的图片尺寸需要进行缩放、裁切并压缩至服务器端,如新闻聚合服务器200可以配置的标准范围之内,比如宽高比为2:3,图片体积小于200KB,图片分辨率为900×600dpi等,新闻分类指定新闻所属的分类,如体育、财经,新闻来源是指新闻的来源网站,如CNN或BBC,更新时间即指新闻的发布时间。
关于新闻聚合的具体步骤以及实施例,在基于图2的描述中已经详细公开,此处不再赘述。
现有的新闻聚合方案中,由于新闻来源的不同导致新闻格式的不同,进而有些新闻没有配备对应的新闻图片,当具有来自各个来源的新闻以提供新闻列表时,一方面可能出现在新闻正文页面中只有文字没有图片的情形,另一方面还会出现列表中的部分新闻具有配图而部分新闻缺少配图的问题,导致整个新闻列表界面排版混乱,用户体验较差。根据本发明的新闻聚合的技术方案,对从新闻源采集到新闻数据进行内容抽取后,对抽取出的内容是否存在图片URL进行判断,根据上述判断结果而采取不同的获取最优配图的处理步骤,将新闻正文页面与最优配图形成配图新闻页面,最终组合多个配个新闻页面形成新闻列表以实现新闻聚合。在上述技术方案中,如果从新闻数据中抽取的内容存在图片URL,则直接从图片URL对应的图片中选出最优配图,如果不存在则调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图,使得每条新闻都具有对应的最优配图,形成了统一的配备有新闻图片的新闻正文页面,从而可以提供全部新闻均具有配图的新闻列表,使得整个新闻列表界面排版整齐,布局合理,极大地提升了用户体验。
B11.如B8-10中任一项所述的新闻聚合服务器,所述配图单元进一步适于:
从搜索到的图片中选取前N张图片并获取每张图片的属性信息,其中N为大于1的整数,所述属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种;
当所述URL信息包括图片URL时,将所述图片ALT标签与所述新闻标题进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
B12.如B11所述的新闻聚合服务器,所述配图单元进一步适于:
当所述URL信息包括图片来源网页URL时,采集所述图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
B13.如B11或12所述的新闻聚合服务器,其中,N等于5。
B14.如B11-13中任一项所述的新闻聚合服务器,其中所述相似度阈值预设为30。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种新闻聚合方法,适于在新闻聚合服务器中执行,所述方法包括:
从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种;
对每个新闻数据进行内容抽取,根据从所述新闻数据中抽取出的内容形成新闻正文页面;
如果所述抽取出的内容中存在图片URL,则直接从所述图片URL对应的图片中选出最优配图;
如果所述抽取出的内容中不存在图片URL,则根据所述新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图;
将所述新闻正文页面与所述最优配图组合起来形成配图新闻页面并进行存储;
组合所存储的多个配图新闻页面形成新闻列表以实现新闻聚合。
2.如权利要求1所述的方法,所述直接从所述图片URL对应的图片中选出最优配图包括:
判断图片URL的数量是否大于1;
如果图片URL的数量大于1,则获取所述图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于所述分辨率和排序位置选出最优配图;
如果图片URL的数量等于1,则所述图片URL对应的图片即为最优配图。
3.如权利要求1或2所述的方法,所述根据所述新闻来源名称调用搜索引擎进行图片搜索包括:
根据所述新闻来源名称判断所述新闻数据的来源国家;
根据所述来源国家获取其对应的搜索引擎;
调用所述搜索引擎并以所述新闻标题为搜索词进行图片搜索。
4.如权利要求1-3中任一项所述的方法,所述从搜索到的图片中选出最优配图包括:
从搜索到的图片中选取前N张图片并获取每张图片的属性信息,其中N为大于1的整数,所述属性信息包括图片ALT标签、URL信息和宽高信息中的至少一种;
若所述URL信息包括图片URL,则将所述图片ALT标签与所述新闻标题进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
5.如权利要求4中所述的方法,所述从搜索到的图片中选出最优配图还包括:
若所述URL信息包括图片来源网页URL,则采集所述图片来源网页URL对应的新闻源的新闻数据,并将其与待配图的新闻数据进行相似度计算,选出满足相似度阈值且相似度最大的图片作为最优配图。
6.如权利要求4或5所述的方法,其中,N等于5。
7.如权利要求4-6中任一项所述的方法,其中所述相似度阈值预设为30。
8.一种新闻聚合服务器,包括:
采集单元,适于从各个新闻源采集多个新闻数据,每个新闻数据包括新闻标题、发布时间、图片URL、新闻摘要、新闻正文、新闻配图、新闻分类和新闻来源名称中至少一种;
内容处理单元,适于对每个新闻数据进行内容抽取,根据从所述新闻数据中抽取出的内容形成新闻正文页面,当所述抽取出的内容中存在图片URL时,直接从所述图片URL对应的图片中选出最优配图,将所述新闻正文页面与所述最优配图组合起来形成配图新闻页面;
配图单元,适于当所述抽取出的内容中不存在图片URL时,根据所述新闻来源名称调用搜索引擎进行图片搜索,从搜索到的图片中选出最优配图,并触发内容处理单元将所述新闻正文页面与所述最优配图组合起来形成配图新闻页面;
存储单元,适于存储所述配图新闻页面;
列表提供单元,适于组合存储单元中存储的多个配图新闻页面形成新闻列表以实现新闻聚合。
9.如权利要求8所述的新闻聚合服务器,所述内容处理单元进一步适于:
判断图片URL的数量是否大于1;
当图片URL的数量大于1时,获取所述图片URL对应的图片的分辨率和其在新闻正文中的排序位置,并基于所述分辨率和排序位置选出最优配图;
当图片URL的数量等于1时,所述图片URL对应的图片即为最优配图。
10.如权利要求8或9所述的新闻聚合服务器,所述配图单元进一步适于:
根据所述新闻来源名称判断所述新闻数据的来源国家;
根据所述来源国家获取其对应的搜索引擎;
调用所述搜索引擎并以所述新闻标题为搜索词进行图片搜索。
CN201611178531.5A 2016-12-19 2016-12-19 一种新闻聚合方法及新闻聚合服务器 Pending CN106777143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611178531.5A CN106777143A (zh) 2016-12-19 2016-12-19 一种新闻聚合方法及新闻聚合服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611178531.5A CN106777143A (zh) 2016-12-19 2016-12-19 一种新闻聚合方法及新闻聚合服务器

Publications (1)

Publication Number Publication Date
CN106777143A true CN106777143A (zh) 2017-05-31

Family

ID=58890552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611178531.5A Pending CN106777143A (zh) 2016-12-19 2016-12-19 一种新闻聚合方法及新闻聚合服务器

Country Status (1)

Country Link
CN (1) CN106777143A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943774A (zh) * 2017-11-20 2018-04-20 北京百度网讯科技有限公司 文章生成方法和装置
CN109408706A (zh) * 2018-09-20 2019-03-01 上海掌门科技有限公司 一种图像过滤方法
CN109685085A (zh) * 2017-10-18 2019-04-26 阿里巴巴集团控股有限公司 一种主图提取方法以及装置
CN110674388A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 推送项目的配图方法、装置、存储介质和终端设备
CN110895586A (zh) * 2018-08-22 2020-03-20 腾讯科技(深圳)有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN111310022A (zh) * 2019-12-06 2020-06-19 四川聚民科技有限公司 一种基于融媒体的便民服务系统
CN114117107A (zh) * 2021-11-24 2022-03-01 浙报融媒体科技(浙江)股份有限公司 一种辅助新闻创作自动选取最优封面图的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425644A (zh) * 2012-05-14 2013-12-04 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN103514271A (zh) * 2013-09-13 2014-01-15 北京奇虎科技有限公司 提供网页内容对应缩略图的方法及装置
CN104063489A (zh) * 2014-07-04 2014-09-24 百度在线网络技术(北京)有限公司 一种确定网页图片相关度及显示检索结果的方法及装置
CN105786841A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种对新闻类的网页智能摘要的生成方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425644A (zh) * 2012-05-14 2013-12-04 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN103514271A (zh) * 2013-09-13 2014-01-15 北京奇虎科技有限公司 提供网页内容对应缩略图的方法及装置
CN104063489A (zh) * 2014-07-04 2014-09-24 百度在线网络技术(北京)有限公司 一种确定网页图片相关度及显示检索结果的方法及装置
CN105786841A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种对新闻类的网页智能摘要的生成方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
焦斌星: "用于搜索的网页可视化摘要技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685085A (zh) * 2017-10-18 2019-04-26 阿里巴巴集团控股有限公司 一种主图提取方法以及装置
CN109685085B (zh) * 2017-10-18 2023-09-26 阿里巴巴集团控股有限公司 一种主图提取方法以及装置
CN107943774A (zh) * 2017-11-20 2018-04-20 北京百度网讯科技有限公司 文章生成方法和装置
CN110674388A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 推送项目的配图方法、装置、存储介质和终端设备
CN110895586A (zh) * 2018-08-22 2020-03-20 腾讯科技(深圳)有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN109408706A (zh) * 2018-09-20 2019-03-01 上海掌门科技有限公司 一种图像过滤方法
CN111310022A (zh) * 2019-12-06 2020-06-19 四川聚民科技有限公司 一种基于融媒体的便民服务系统
CN114117107A (zh) * 2021-11-24 2022-03-01 浙报融媒体科技(浙江)股份有限公司 一种辅助新闻创作自动选取最优封面图的方法

Similar Documents

Publication Publication Date Title
CN106777143A (zh) 一种新闻聚合方法及新闻聚合服务器
CN102298616B (zh) 一种用于在搜索结果中提供相关子链接的方法和设备
US10248662B2 (en) Generating descriptive text for images in documents using seed descriptors
US20140195893A1 (en) Method and Apparatus for Generating Webpage Content
US10402479B2 (en) Method, server, browser, and system for recommending text information
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN102054003B (zh) 网络信息推荐、建立网络资源索引的方法及系统
CN106339394B (zh) 一种信息处理方法及装置
US20090077065A1 (en) Method and system for information searching based on user interest awareness
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN103246678B (zh) 一种网页内容预览方法和装置
CN101000623A (zh) 通过手机拍照进行图像识别搜索的方法及采用该方法的装置
US20150234827A1 (en) Method, apparatus, and device for ranking search results
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
CN103455524A (zh) 展现和获取词条信息的方法和装置
CN105095368A (zh) 一种对新闻信息进行排序的方法及装置
WO2014194689A1 (en) Method, server, browser, and system for recommending text information
CN102364467A (zh) 一种网络搜索方法和系统
US20140032520A1 (en) Image retrieval method and system for community website page
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
US20130124507A1 (en) Visual information search tool
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN106874502A (zh) 一种视频搜索的方法、装置及终端
CN105740417A (zh) 一种基于网页的目标数据搜索方法、模块、浏览器及终端
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication