CN113505320A - 新闻内容的显示方法及装置 - Google Patents
新闻内容的显示方法及装置 Download PDFInfo
- Publication number
- CN113505320A CN113505320A CN202110794026.8A CN202110794026A CN113505320A CN 113505320 A CN113505320 A CN 113505320A CN 202110794026 A CN202110794026 A CN 202110794026A CN 113505320 A CN113505320 A CN 113505320A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- html
- news content
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种新闻内容的显示方法及装置,所公开的方法包括:接收选择目标新闻内容的选择指令;根据所述目标新闻内容对应的地址信息,向网络侧发起获取所述目标新闻内容的获取请求;接收返回的HTML数据;删除所述HTML数据中与所述目标新闻内容无关的目标数据;对删除所述目标数据后的所述HTML数据进行渲染并显示。
Description
技术领域
本申请涉及新闻提取技术领域,尤其涉及一种新闻内容的显示方法及装置。
背景技术
随着移动互联网技术的成熟和新媒体的不断发展,用户可以直接通过一个终端设备随时随地的从不同的渠道和平台来获取到最新的信息,但是目前的资讯类APP过多,为了获取到更多的优质内容和不同的观点,用户需要下载多个APP,在此背景下,为了在客户端聚合不同来源的新闻内容,常用的方法有:
(1)与新闻来源方谈好合作,当对方有新内容产生时,通过网络调用通知到使用方,使用方将数据存储到自己的数据库中,当原内容有更新时,再通知到使用方更新,使得用户可以在客户端直接打开并查看内容;
(2)通过爬虫爬取新闻来源内容,存储对方的网页地址,用户打开客户段,可以打开新闻来源的网站地址;
(3)通过爬虫爬取新闻来源方内容,解析存储新闻的内容,并将其存储到数据库中,进而用户可以在客户端直接打开并查看新闻内容。
但这几种方法均存在一定的缺点,以第(2)种方法为例,由于不同新闻原网站的主题样式不同,且大部分都带有与新闻主题无关的内容,进而会影响用户对新闻咨询关键内容的获取,给用户带来不好的阅读体验,此外,源网站可能删除了新闻内容,但使用方并不知道,进而会造成用户在打开原文章时,出现空白网页或错误页面的情况。进而会出现过多的与新闻内容无关的内容影响用户对关键新闻内容的获取及由于源网站删除内容导致客户端出现错误页面或空白页面的问题。
发明内容
本申请公开一种新闻内容的显示方法及装置,以解决目前用户在阅读新闻时,出现过多的与新闻内容无关的内容影响用户对关键新闻内容的获取及由于源网站删除内容导致客户端出现错误页面或空白页面的问题。
为了解决上述问题,本申请采用下述技术方案:
第一方面,本申请实施例公开一种新闻内容的显示方法,所述方法包括:接收选择目标新闻内容的选择指令;根据所述目标新闻内容对应的地址信息,向网络侧发起获取所述目标新闻内容的获取请求;接收返回的HTML数据;删除所述HTML数据中与所述目标新闻内容无关的目标数据;对删除所述目标数据后的所述HTML数据进行渲染并显示。
第二方面,本申请实施例公开一种新闻内容的显示装置,所述装置包括:第一接收模块,用于接收选择目标新闻内容的选择指令;请求模块,用于根据所述目标新闻内容对应的地址信息,向网络侧发起获取所述目标新闻内容的获取请求;第二接收模块,用于接收返回的HTML数据;删除模块,用于删除所述HTML数据中与所述目标新闻内容无关的目标数据;渲染模块,用于对删除所述目标数据后的所述HTML数据进行渲染并显示。
本申请实施例公开本申请采用的技术方案能够达到以下有益效果:
本申请实施例公开一种新闻内容的显示方法,使得在接收到用户选择目标新闻内容的选择指令之后,客户端可以向网络侧发起获取目标新闻内容的请求,在客户端接收到源网页返回的HTML数据之后,对获取到的HTML数据进行二次加工,以剔除与目标新闻内容的主题无关的内容,并将删除无关内容后的HTML数据渲染成统一格式并显示在客户端,以供用户阅读,从而可以避免源网页中的目标新闻内容带有广告、导航等与目标新闻内容的主题无关的内容从而影响用户的阅读体验。在用户打开某篇目标新闻内容出错的情况下,可以向服务端上报,从而服务端可以将该目标新闻内容下架,从而可以避免用户在打开目标新闻内容时出现空白网页或404错误页面。通过这种方式,本申请实施例能够解决目前用户在阅读新闻时,出现过多的与新闻内容无关的内容影响用户对关键新闻内容的获取及由于源网站删除内容导致客户端出现错误页面或空白页面的问题。
附图说明
图1为本申请实施例公开的一种新闻内容的显示方法的流程示意图;
图2为本申请实施例公开的另一种新闻内容的显示方法的流程示意图;
图3为本申请实施例公开的一种新闻内容的显示方法的时序图;
图4为本申请实施例公开的一种新闻内容的显示装置的结构示意图;
图5为本申请实施例公开的一种终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的一种新闻内容的显示方法及装置进行详细地说明。
图1示出一种新闻内容的显示方法的流程示意图,如图1所示,本申请实施例公开一种新闻内容的显示方法,该方法包括以下步骤:
S110:接收选择目标新闻内容的选择指令。
S120:根据目标新闻内容对应的地址信息,向网络侧发起获取目标新闻内容的获取请求。
S130:接收返回的HTML数据。
S140:删除HTML数据中与目标新闻内容无关的目标数据。
S150:对删除目标数据后的HTML数据进行渲染并显示。
本申请实施例是基于Readability进行二次封装,最终提供一个JavaScript文件,由客户端将该文件作为本地缓存,在用户使用客户端查阅新闻内容时,调用文件的Readability方法,将请求得到的HTML数据作为参数传入客户端,由客户端对其进行处理。
其中,用户在通过客户端打开想看的新闻内容时,客户端能够接收到选择目标新闻内容的选择指令,根据目标新闻内容对应的地址信息,可以向网络侧发起获取目标新闻内容的获取请求,即对源网页发起请求,从而可以接收到源网页返回的HTML(Hyper TextMarkup Language,超文本标记语言)数据,使得获取到的HTML数据经过JavaScript方法进行二次加工,从而可以删除HTML数据中与目标新闻内容无关的目标数据,从而可以剔除掉与目标新闻内容的主题无关的内容,例如:广告、导航等与目标新闻内容的主题无关的内容,之后,对删除目标数据后的HTML数据进行渲染,使得删除目标数据后的HTML数据变为统一格式,从而能够在客户端显示,以供用户阅读。
此外,当用户在打开某篇新闻发生错误的情况下,客户端能够立即上报至服务端,进而服务端在受到通知后将这篇新闻下架,并通知相关人员检查,进而可以避免其他用户再次打开错误的网页的情况发生。
本申请实施例公开一种新闻内容的显示方法,使得在接收到用户选择目标新闻内容的选择指令之后,客户端可以向网络侧发起获取目标新闻内容的请求,在客户端接收到源网页返回的HTML数据之后,对获取到的HTML数据进行二次加工,以剔除与目标新闻内容的主题无关的内容,并将删除无关内容后的HTML数据渲染成统一格式并显示在客户端,以供用户阅读,从而可以避免源网页中的目标新闻内容带有广告、导航等与目标新闻内容的主题无关的内容从而影响用户的阅读体验。在用户打开某篇目标新闻内容出错的情况下,可以向服务端上报,从而服务端可以将该目标新闻内容下架,从而可以避免用户在打开目标新闻内容时出现空白网页或404错误页面。通过这种方式,本申请实施例能够解决目前用户在阅读新闻时,出现过多的与新闻内容无关的内容影响用户对关键新闻内容的获取及由于源网站删除内容导致客户端出现错误页面或空白页面的问题。
在进一步的技术方案中,删除HTML数据中与目标新闻内容无关的目标数据,包括:根据HTML数据中的各个节点数据的类型和标识,删除HTML数据中与目标新闻内容无关的节点数据。
通常情况下,不同源网页的主题样式不同,并且大部分都带有广告等与新闻内容主题无关的内容,从而影响用户对目标新闻内容中的关键内容的获取,为了避免这种情况发生,一种可以实现的方式中,可以根据HTML数据中的各个节点数据的类型class和标识id,来去除HTML数据中与目标新闻内容无关的节点数据。
具体的,可以根据客户端传入的新闻来源,调用对该新闻源做特殊处理的函数,根据CSS(Cascading Style Sheets,层叠样式表)的类型class和标识id,可以去除与目标新闻内容无关的内容,当然,也可以根据类型class和标识id来保留主要的内容,本申请实施例对此不作具体限制。
一种可以实现的方式中,在根据HTML数据中的各个节点数据的类型和标识,删除HTML数据中与目标新闻内容无关的节点数据之前,该方法还包括以下步骤:
在HTML数据中的目标节点数据的格式与预设格式不相同的情况下,将目标节点数据的格式转换为预设格式,其中,目标节点数据中为多个节点数据中的一个或多个。
由于不同源网页的主题样式不同,从而会出现HTML数据中的目标节点数据的格式与预设格式不相同的情况,需要说明的是,预设格式为提前设置的可以通用除去的格式,而与预设格式不同的目标节点数据是预先设置好的,从而在HTML数据中的目标节点数据的格式与预设格式不相同的情况下,可以对目标节点数据进行针对性处理,将目标节点数据的格式转换为预设格式,从而可以根据HTML数据中的目标节点数据的类型和标识,删除HTML数据中与目标新闻内容无关的目标节点数据,其中,目标节点数据为多个节点数据中的一个或多个。
一种可以实现的方式中,删除HTML数据中与目标新闻内容无关的目标数据,还包括:
对HTML数据进行解析,获取HTML数据中每个节点数据的文本内容。
删除文本内容中包含预先设置的需要去除的关键字的节点数据。
在用户使用客户端查阅某篇新闻内容时,通过调用开源库Readability,解析HTML数据,从而可以获取HTML数据中每个节点数据的文本内容,并对获取的文本内容进行格式化,之后,对文本内容进行二次处理,删除文本内容中包含的预先设置的需要去除的关键字的节点数据。
此外,对删除目标数据后的HTML数据进行渲染并显示,可以包括:将删除目标数据后的HTML数据重组为完整的HTML格式,渲染并显示重组后的HTML数据。
具体的,在删除完HTML数据中的目标数据后,可以将解析后的目标新闻内容的标题、经过二次处理后的文本内容以及预先写好得CSS文件重组,以形成完整的HTML格式,并将其渲染成统一格式,通过调用JsBridge方法返回客户端并显示。从而可以提升用户的阅读体验,减少源网页中的广告等内容对用户获取目标新闻内容的主要内容造成影响。
一种可以实现的方式中,本申请实施例是基于Readability进行二次封装,最终提供一个JavaScript文件,由客户端将该文件作为本地缓存,在使用客户端查阅新闻内容时,调用文件的Readability方法,将请求得到的HTML数据进行base64编码后作为参数传入客户端,由客户端对此文件进行一系列的函数处理,以去除与新闻内容的主题无关的内容,生成新的HTML字符串,之后通过调用JsBridge方法回传至客户端,客户端在收到后新开一个Webview渲染并展示。
具体的,图2示出另一种新闻内容的显示方法的流程示意图,如图2所示,该方法包括以下步骤:
解析参数。在用户通过客户端查阅某篇新闻内容时,将请求到的HTML字符串进行解析。
parseDoc,通过parseDoc将传入的HTML字符串进行base64编码,把解码后的HTML字符串解析为DOM(Document Object Model,文档对象模型),获得一个doc对象,从而可以识别bong获取新闻内容中各种类型的数据。具体的,可以采用Web API的new DOMParser().FromString()方法将字符串解析成doc。之后通过doc.title获取新闻的标题。
判断新闻源是否需要特殊处理。如果是,对其进行针对性处理后,通用除去新闻内容中的无用内容;否则,直接通用去除新闻内容中的无用内容。
具体的,一般情况下,新闻内容中存在需要无用内容,如:广告、导航等,以广告为例,由于不同的的新闻源的广告格式不同,存在一些与可以通用去除广告的新闻源,同时也存在一些不可以通用去除广告的新闻源,这些新闻源是提前设置好的。当用户点开的新闻内容的新闻源的广告的格式与可以通用去除的新闻源的格式(即上文所述的预设格式)不同时,客户端可以调用函数,将该新闻源的广告的格式转换为可以通用去除的格式,并根据CSS的class和id去除这些无用内容,当然也可以通过class和id来保留主要的内容。
图片/视频解析。新闻内容中一般存在图片或视频等资源文件,为了使这些资源文件可以在客户端显示,一种可以实现的方式中,通过doc.querySelectorALL(‘img’)获取所有的图片数组,遍历该图片数组,依次处理每个图片,具体的,移除无用的图片属性和格式,通过getAttribute(‘src’)获取图片的地址,并判断此地址,如果是相对路径,通过客户端传入的源网页Host,调用Web API new URL(src,host)方法将其组装成绝对路径;如果是懒加载生成的图片,通常真实的图片地址放在该img标签的某个属性上,比如data-src或者data-src-original等,获取到图片的地址后,调用setAttribute(“src”,xxx)设置图片地址,从而使得源网页的图片可以在客户端正常显示。同理,视频等资源也做同样的处理。
Readability解析。通过调用开源库Readability,解析出该新闻的摘要和内容字段。
Pangu解析。通过调用开源库pangu.js,对摘要和内容字段做中英文格式化。
对解析出的内容进行二次处理,得到新闻标题、摘要及主要内容。一般情况下,Readability库解析出的内容可能包含有作者信息、转载声明等与新闻主题无关的数据,进而需要对其进行二次处理。具体的,首先根据需要去除的关键字写正则表达式,然后从根节点开始用深度优先遍历的方式遍历所有的子节点,取出每个节点的文本内容,用事先写好的正则表达式判断是否包含要去除的关键字,如果是,删除这个节点。
重新组织内容,加入统一的CSS,Js返回。通过将解析出来的新闻标题、摘要以及内容连同写好的CSS文件,重新组织成完整的HTML格式,调用JsBridge方法返回客户端。
客户端渲染重新组织后的HTML格式的数据,使得该新闻内容可以在客户端显示。
通过这种方式,能够有效地避免源网页中的广告、导航等无关内容影响用户对关键新闻内容的获取,提升用户的使用体验。
一种可以实现的方式中,图3示出一种新闻内容的显示方法的时序图,如图3所示,该方法包括以下步骤:
S301:爬取新闻。通过新闻爬虫可以从三方网站爬取新闻。
S302:存储标题和新闻源url至新闻服务端。根据三方网站返回的新闻,将标题和新闻源url地址存储在新闻服务端。
具体的,将解析网页内容的JavaScript文件传到CDN(Content DeliveryNetwork,内容分发网络),并把最新的JavaScript文件地址更新到缓存中。
S303:首次启动请求最新的文件。客户端向JavaScript脚本请求最新的文件。
S304:对比本地文件并更新。具体的,如果客户端没有此文件缓存,可以直接保存该文件缓存,如果有此文件的缓存,通过比较url地址来决定是否更新本地缓存。
S305:请求某个新闻详情。客户端向服务端发起获取某个新闻详情的请求。
S306:返回源网页url。服务端根据该请求向客户端返回源网页的url地址。
S307:请求源网页。客户端在接收到源网页的url地址后,向三方网站请求源网页。
S308:返回数据。三方网站在收到请求后返回HTML数据至客户端。
S309:解析返回的HTML,调用JS脚本处理。
用户在通过客户端查阅新闻时,用户在新闻列表中点击某个新闻进入新闻详情时,客户端得到源网页的url请求,从而可以将三方网站返回的HTML数据编码后调用之前下载好的JavaScript文件的函数,对HTML数据进行处理。
S310:JS脚本返回处理后的结果,打开Webview渲染。
具体的,客户端收到解析好的HTML数据后,在Webview中直接渲染,发起图片等第三方网络请求时,header的referer字段值改为原网页地址,保证第三方的数据能正常返回。
S311:如果报错,通知下掉这篇新闻。如果在客户端打开新闻内容的某一步骤发生错误,客户端可以通过接口上报给服务端,从而服务端可以将这篇内容从新闻列表中去除。
通过这种方式,可以避免源网页中的目标新闻内容带有广告、导航等与目标新闻内容的主题无关的内容从而影响用户的阅读体验。在用户打开某篇目标新闻内容出错的情况下,可以向服务端上报,从而服务端可以将该目标新闻内容下架,从而可以避免用户在打开目标新闻内容时出现空白网页或404错误页面。
图4示出一种新闻内容的显示装置的结构示意图,如图4所示,本申请实施例公开一种新闻内容的显示装置400,所公开的装置包括:
第一接收模块410,用于接收选择目标新闻内容的选择指令。
请求模块420,用于根据目标新闻内容对应的地址信息,向网络侧发起获取目标新闻内容的获取请求。
第二接收模块430,用于接收返回的HTML数据。
删除模块440,用于删除HTML数据中与目标新闻内容无关的目标数据。
渲染模块450,用于对删除目标数据后的HTML数据进行渲染并显示。
本申请实施例公开一种新闻内容的显示装置,通过第一接收模块410在接收到用户选择目标新闻内容的选择指令之后,请求模块420可以向网络侧发起获取目标新闻内容的请求,在第二接收模块430接收到源网页返回的HTML数据之后,对获取到的HTML数据进行二次加工,由删除模块440剔除与目标新闻内容的主题无关的内容,并通过渲染模块450将删除无关内容后的HTML数据渲染成统一格式并显示在客户端,以供用户阅读,从而可以避免源网页中的目标新闻内容带有广告、导航等与目标新闻内容的主题无关的内容从而影响用户的阅读体验。在用户打开某篇目标新闻内容出错的情况下,可以向服务端上报,从而服务端可以将该目标新闻内容下架,从而可以避免用户在打开目标新闻内容时出现空白网页或404错误页面。通过这种方式,本申请实施例能够解决目前用户在阅读新闻时,出现过多的与新闻内容无关的内容影响用户对关键新闻内容的获取及由于源网站删除内容导致客户端出现错误页面或空白页面的问题。
一种可以实现的方式中,删除模块440可以包括:第一删除模块,用于根据HTML数据中的各个节点数据的类型和标识,删除HTML数据中与目标新闻内容无关的节点数据。
具体的,可以根据客户端传入的新闻来源,调用对该新闻源做特殊处理的函数,根据CSS(Cascading Style Sheets,层叠样式表)的类型class和标识id,可以去除与目标新闻内容无关的内容,当然,也可以根据类型class和标识id来保留主要的内容,本申请实施例对此不作具体限制。
在进一步的技术方案中,删除模块440可以包括:
转换模块,用于在第一删除模块之前,在HTML数据中的目标节点数据的格式与预设格式不相同的情况下,将目标节点数据的格式转换为预设格式,其中,目标节点数据中为多个节点数据中的一个或多个。
由于不同源网页的主题样式不同,从而会出现HTML数据中的目标节点数据的格式与预设格式不相同的情况,需要说明的是,预设格式为提前设置的可以通用除去的格式,而与预设格式不同的目标节点数据是预先设置好的,从而当HTML数据中的目标节点数据的格式与预设格式不相同的情况下,可以对目标节点数据进行针对性处理,将目标节点数据的格式转换为预设格式,从而可以根据HTML数据中的目标节点数据的类型和标识,删除HTML数据中与目标新闻内容无关的目标节点数据,其中,目标节点数据为多个节点数据中的一个或多个。
此外,删除模块440还可以包括:
解析模块,用于对HTML数据进行解析,获取HTML数据中每个节点数据的文本内容。
第二删除模块,用于删除文本内容中包含预先设置的需要去除的关键字的节点数据。
通过这种方式,在用户使用客户端查阅某篇新闻内容时,通过调用开源库Readability,解析HTML数据,从而可以获取HTML数据中每个节点数据的文本内容,并对获取的文本内容进行格式化,之后,对文本内容进行二次处理,删除文本内容中包含的预先设置的需要去除的关键字的节点数据。
一种可以实现的方式中渲染模块450用于:
将删除目标数据后的HTML数据重组为完整的HTML格式,渲染并显示重组后的HTML数据。
具体的,在删除完HTML数据中的目标数据后,可以将解析后的目标新闻内容的标题、经过二次处理后的文本内容以及预先写好得CSS文件重组,以形成完整的HTML格式,并将其渲染成统一格式,通过调用JsBridge方法返回客户端并显示。从而可以提升用户的阅读体验,减少源网页中的广告等内容对用户获取目标新闻内容的主要内容造成影响。
可选的,如图5所示,本申请实施例还提供一种终端设备500,包括处理器501、存储器502和存储在存储器502上并可在所述处理器501上运行的程序或指令,该程序或指令被处理器501执行时实现上述新闻内容的显示方法的实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述新闻内容的显示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行网络侧设备程序或指令,实现上述新闻内容的显示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
本申请上文实施例中重点描述的是各个实施例之间的不同,各个实施例之间不同的优化特征只要不矛盾,均可以组合形成更优的实施例,考虑到行文简洁,在此则不再赘述。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种新闻内容的显示方法,其特征在于,所述方法包括:
接收选择目标新闻内容的选择指令;
根据所述目标新闻内容对应的地址信息,向网络侧发起获取所述目标新闻内容的获取请求;
接收返回的HTML数据;
删除所述HTML数据中与所述目标新闻内容无关的目标数据;
对删除所述目标数据后的所述HTML数据进行渲染并显示。
2.根据权利要求1所述的方法,其特征在于,删除所述HTML数据中与所述目标新闻内容无关的目标数据,包括:
根据所述HTML数据中的各个节点数据的类型和标识,删除所述HTML数据中与所述目标新闻内容无关的节点数据。
3.根据权利要求2所述的方法,其特征在于,在根据所述HTML数据中的各个节点数据的类型和标识,删除所述HTML数据中与所述目标新闻内容无关的节点数据之前,所述方法还包括:
在所述HTML数据中的目标节点数据的格式与预设格式不相同的情况下,将所述目标节点数据的格式转换为所述预设格式,其中,所述目标节点数据为多个所述节点数据中的一个或多个。
4.根据权利要求1至3任一项所述的方法,其特征在于,删除所述HTML数据中与所述目标新闻内容无关的目标数据,还包括:
对所述HTML数据进行解析,获取所述HTML数据中每个节点数据的文本内容;
删除所述文本内容中包含预先设置的需要去除的关键字的节点数据。
5.根据权利要求1所述的方法,其特征在于,对删除所述目标数据后的所述HTML数据进行渲染并显示,包括:
将删除所述目标数据后的HTML数据重组为完整的HTML格式,渲染并显示重组后的HTML数据。
6.一种新闻内容的显示装置,其特征在于,所述装置包括:
第一接收模块,用于接收选择目标新闻内容的选择指令;
请求模块,用于根据所述目标新闻内容对应的地址信息,向网络侧发起获取所述目标新闻内容的获取请求;
第二接收模块,用于接收返回的HTML数据;
删除模块,用于删除所述HTML数据中与所述目标新闻内容无关的目标数据;
渲染模块,用于对删除所述目标数据后的所述HTML数据进行渲染并显示。
7.根据权利要求6所述的装置,其特征在于,所述删除模块包括:
第一删除模块,用于根据所述HTML数据中的各个节点数据的类型和标识,删除所述HTML数据中与所述目标新闻内容无关的节点数据。
8.根据权利要求7所述的装置,其特征在于,所述删除模块还包括:
转换模块,用于在所述第一删除模块之前,在所述HTML数据中的目标节点数据的格式与预设格式不相同的情况下,将所述目标节点数据的格式转换为所述预设格式,其中,所述目标节点数据中为多个所述节点数据中的一个或多个。
9.根据权利要求6至8任一项所述的装置,其特征在于,所述删除模块,还包括:
解析模块,用于对所述HTML数据进行解析,获取所述HTML数据中每个节点数据的文本内容;
第二删除模块,用于删除所述文本内容中包含预先设置的需要去除的关键字的节点数据。
10.根据权利要求9所述的装置,其特征在于,所述渲染模块用于:
将删除所述目标数据后的HTML数据重组为完整的HTML格式,渲染并显示重组后的HTML数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110794026.8A CN113505320A (zh) | 2021-07-14 | 2021-07-14 | 新闻内容的显示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110794026.8A CN113505320A (zh) | 2021-07-14 | 2021-07-14 | 新闻内容的显示方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113505320A true CN113505320A (zh) | 2021-10-15 |
Family
ID=78013062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110794026.8A Pending CN113505320A (zh) | 2021-07-14 | 2021-07-14 | 新闻内容的显示方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505320A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722563A (zh) * | 2012-05-31 | 2012-10-10 | 优视科技有限公司 | 页面显示方法及装置 |
CN106503272A (zh) * | 2016-12-15 | 2017-03-15 | 深圳Tcl数字技术有限公司 | 浏览器网页显示方法及装置 |
CN108829729A (zh) * | 2018-05-10 | 2018-11-16 | 河海大学常州校区 | 一种网页解析并采集新闻的方法 |
CN109582899A (zh) * | 2018-10-26 | 2019-04-05 | 平安科技(深圳)有限公司 | 页面加载方法、装置、计算机设备及存储介质 |
CN112685671A (zh) * | 2021-01-21 | 2021-04-20 | 百度在线网络技术(北京)有限公司 | 页面显示方法、装置、设备及存储介质 |
-
2021
- 2021-07-14 CN CN202110794026.8A patent/CN113505320A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722563A (zh) * | 2012-05-31 | 2012-10-10 | 优视科技有限公司 | 页面显示方法及装置 |
CN106503272A (zh) * | 2016-12-15 | 2017-03-15 | 深圳Tcl数字技术有限公司 | 浏览器网页显示方法及装置 |
CN108829729A (zh) * | 2018-05-10 | 2018-11-16 | 河海大学常州校区 | 一种网页解析并采集新闻的方法 |
CN109582899A (zh) * | 2018-10-26 | 2019-04-05 | 平安科技(深圳)有限公司 | 页面加载方法、装置、计算机设备及存储介质 |
CN112685671A (zh) * | 2021-01-21 | 2021-04-20 | 百度在线网络技术(北京)有限公司 | 页面显示方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9060007B2 (en) | System and methods for facilitating the synchronization of data | |
US8683311B2 (en) | Generating structured data objects from unstructured web pages | |
US7921353B1 (en) | Method and system for providing client-server injection framework using asynchronous JavaScript and XML | |
US8769397B2 (en) | Embedding macros in web pages with advertisements | |
US20070006076A1 (en) | System and method for providing Asian Web font documents | |
US20100313149A1 (en) | Aggregating dynamic visual content | |
US7228493B2 (en) | Serving content to a client | |
US20090112824A1 (en) | Method and apparatus for generating presentation configuration file of document content | |
US20150193386A1 (en) | System and Method of Facilitating Font Selection and Manipulation of Fonts | |
US20130227394A1 (en) | Method, system and computer program product for replacing banners with widgets | |
US11418622B2 (en) | System and methods for web-based software application translation | |
CN112637361B (zh) | 一种页面代理方法、装置、电子设备及存储介质 | |
CN114168869A (zh) | 一种信息显示方法、装置、系统及存储介质 | |
CN111339456B (zh) | 预加载方法和装置 | |
CN112765516A (zh) | 页面内容的展示方法和装置、存储介质、电子装置 | |
CN113360106B (zh) | 一种网页打印方法和装置 | |
CN104899212A (zh) | 网页展示方法、服务器及系统 | |
CN114297544A (zh) | 一种远程浏览方法、装置、设备及存储介质 | |
US10198408B1 (en) | System and method for converting and importing web site content | |
EP2711838A1 (en) | Documentation parser | |
CN113505320A (zh) | 新闻内容的显示方法及装置 | |
US20020138526A1 (en) | Javascript code optimizer | |
CN111783006A (zh) | 页面的生成方法、装置、电子设备及计算机可读介质 | |
CN111045990A (zh) | 文档管理系统 | |
CN112328930B (zh) | 基于cobalt的页面渲染方法,服务器,客户端及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |