CN107943869A - 阅读第三方网页的方法和装置 - Google Patents

阅读第三方网页的方法和装置 Download PDF

Info

Publication number
CN107943869A
CN107943869A CN201711107352.7A CN201711107352A CN107943869A CN 107943869 A CN107943869 A CN 107943869A CN 201711107352 A CN201711107352 A CN 201711107352A CN 107943869 A CN107943869 A CN 107943869A
Authority
CN
China
Prior art keywords
party
webpage
web page
reading
element information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711107352.7A
Other languages
English (en)
Inventor
田峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huayu Culture Media Co Ltd
Original Assignee
Shenzhen Huayu Culture Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huayu Culture Media Co Ltd filed Critical Shenzhen Huayu Culture Media Co Ltd
Priority to CN201711107352.7A priority Critical patent/CN107943869A/zh
Publication of CN107943869A publication Critical patent/CN107943869A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明揭示了一种阅读第三方网页的方法和装置,其中,阅读第三方网页的方法,包括:阅读应用在指定解析规则下解析所述第三方网页的网页文件;为解析成功后的所述网页文件匹配指定页面样式并显示。本发明通过指定解析规则对第三方网页的网页文件进行解析,解析成功后通过统一网页文件的页面样式后,再显示于客户端的应用程序界面上,为用户提供阅读浏览服务,不受限于第三方网站的风格特征,统一用户浏览第三方网站的视觉体验,平静用户的浏览心情,使用户更深入的享受网页文件的内容信息。

Description

阅读第三方网页的方法和装置
技术领域
本发明涉及到电子阅读技术领域,特别是涉及到阅读第三方网页的方法和装置。
背景技术
随着计算机技术与网络技术的发展,网络电子信息资源成为人们日常生活中的常用资源,比如网络小说、网络图片等。而提供网络电子资源的第三方网站更是数不胜数,但各第三方网站的风格特征更是百家争鸣、各不相同,在带给用户更多视觉享受的同时,也带了眼花缭乱的应用体验,造成各种不同的用户体验,波动用户的视觉体验,影响用户的浏览心情。
因此,现有技术还有待改进。
发明内容
本发明的主要目的为提供一种阅读第三方网页的方法,旨在解决现有第三方网页风格不统一造成的阅读困扰的技术问题。
本发明提出一种阅读第三方网页的方法,包括:
阅读应用在指定解析规则下解析所述第三方网页的网页文件;
为解析成功后的所述网页文件匹配指定页面样式并显示。
优选地,所述阅读应用在指定解析规则下解析所述第三方网页的网页文件的步骤,包括:
分析所述网页文件的源代码结构;
区分所述网页文件中内容占比最高的第一内容元素信息和剩余的第二内容元素信息;
按照指定规则在所述指定页面样式中分别布局所述第一内容元素信息和所述第二内容元素信息。
优选地,所述指定规则,包括:
过滤掉所述第二内容元素信息;
将所述第一内容元素信息排布于所述指定页面样式的特定模式框架中。
优选地,所述阅读应用在指定解析规则下解析所述第三方网页的网页文件的步骤之后,包括:
显示空白页;
反馈解析失败。
优选地,所述反馈解析失败的步骤之后,包括:
升级所述解析规则;
根据升级后的解析规则更新所述阅读应用。
本发明还提供一种阅读第三方网页的装置,包括:
解析模块,用于阅读应用在指定解析规则下解析所述第三方网页的网页文件;
匹配模块,用于为解析成功后的所述网页文件匹配指定页面样式并显示。
优选地,所述解析模块,包括:
分析单元,用于分析所述网页文件的源代码结构;
区分单元,用于区分所述网页文件中内容占比最高的第一内容元素信息和剩余的第二内容元素信息;
布局单元,用于按照指定规则在所述指定页面样式中分别布局所述第一内容元素信息和所述第二内容元素信息。
优选地,所述指定规则,包括:
过滤掉所述第二内容元素信息;
将所述第一内容元素信息排布于所述指定页面样式的特定模式框架中。
优选地,所述阅读第三方网页的装置包括:
第二显示模块,用于显示空白页;
反馈模块,用于反馈解析失败。
优选地,所述阅读第三方网页的装置包括:
升级模块,用于升级所述解析规则;
更新模块,用于根据升级后的解析规则更新所述阅读应用。
本发明有益技术效果:本发明通过指定解析规则对第三方网页的网页文件进行解析,解析成功后通过统一网页文件的页面样式后,再显示于客户端的阅读应用显示界面上,为用户提供阅读浏览服务,不受限于第三方网站的风格特征,统一用户浏览第三方网站的视觉体验,平静用户的浏览心情,使用户更深入的享受网页文件的内容信息。
附图说明
图1本发明一实施例中阅读第三方网页的方法流程示意图;
图2本发明一实施例中步骤S1的方法流程示意图;
图3本发明另一实施例中阅读第三方网页的方法流程示意图;
图4本发明一实施例中阅读第三方网页的装置的结构示意图;
图5本发明一实施例中解析模块的结构示意图;
图6本发明另一实施例中阅读第三方网页的装置的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明一实施例提出一种阅读第三方网页的方法,包括:
S1:阅读应用在指定解析规则下解析所述第三方网页的网页文件。
第三方网站的网页文件的风格各不相同,本步骤中的解析规则根据不同的第三方网站而设定,第三方网站的网页文本与解析规则一一对应。当用户点击客户端的应用程序上的第三方网页链接后,第三方会返回网页链接所对应的HTML网页文件,通过解析HTML网页文件,提取所需的内容信息,比如漫画图片、文字文本等。
S2:为解析成功后的所述网页文件匹配指定页面样式并显示。
本步骤中当第三方网站的网页风格与预定解析规则对应时,则成功解析;并对解析后的网页文件匹配指定页面样式,比如:统一的页面格局、页面背景色调等。网页文件以统一的页面样式显示于客户端的应用程序界面上,用户阅读浏览网页文件时,不受限于第三方网站的风格特征,使用户更深入的享受网页文件的内容信息。
参照图2,本实施例的步骤S1,包括:
S10:分析所述网页文件的源代码结构。
本步骤的源代码结构包括项目目录、项目文件类别、内容元素信息等,本实施例中的内容元素信息包括元素标签、链接模式等。
S11:区分所述网页文件中内容占比最高的第一内容元素信息和剩余的第二内容元素信息。
本步骤中的第一内容元素信息包括网页文件中主要内容部分,比如小说文本信息、漫画图片信息等;第二内容元素信息包括与第三方网站的网页风格相关的内容,比如:网站宣传信息、目录设计、穿插广告等。
S12:按照指定规则在所述指定页面样式中分别布局所述第一内容元素信息和所述第二内容元素信息。
本步骤中的按照指定规则在所述指定页面样式中分别布局包括剔除或掩盖掉第三方网站的网页风格相关的内容、保留并统一网页文件中主要内容部分的显示方式。比如:通过特定框架掩盖掉与主要内容部分无关的部分,又同时将主要内容部分套置于固定格式中。
进一步地,本实施例的所述指定规则,包括:
过滤掉所述第二内容元素信息。
本实施例中剔除掉了第三方网站的网页风格相关的内容,保留了网页文件中主要内容部分。比如:只提取文字文本或漫画图片等内容。
将所述第一内容元素信息排布于所述指定页面样式的特定模式框架中。
本实施例中将保留的网页文件中主要内容部分排布于所述指定页面样式的特定模式框架中,以统一网页文件中主要内容部分的显示方式,使读者更多的关注网页文件中所传递的主要内容部分的信息。比如第三方漫画网页,通过本发明的阅读方法,漫画读者更多的关注漫画本身所要表达的内容,而不受各种各样的第三方网站附加信息的干扰。为进一步方便用户使用,本实施例的特定模式框架中添加了弹幕功能,包括:弹幕的速度,大小,颜色,动画等事件,方便用户注释内容、兴趣沟通等。本实施例的特定模式框架中添加了亮度控制,以满足用户对不同亮度环境、不同亮度喜好的需求。本实施例的特定模式框架中添加了章节控制,以方便用户更个性化的阅读。本实施例的特定模式框架中还可根据用户需求添加其他阅读功能模块。
参照图3,本发明另一实施例的步骤S1之后,包括:
S3:显示空白页。
本步骤中,当第三方网站的网页风格与解析规则不对应时,显示空白页,表示解析不成功。比如:第三方网站的网页文件进行了改版,原解析规则的解析逻辑与改版后的网页文件不对应,则无法解析改版后的网页文件。
S4:反馈解析失败。
向本发明阅读器的服务器反馈解析失败,以及时提醒相关人员核查解析失败的原因,及时解决问题。比如:查看网页文件的源代码,分析源代码的结构组成与现有解析逻辑是否匹配等。
进一步地,本实施例的步骤S4之后,包括:
S5:升级所述解析规则。
当解析规则的解析逻辑与改版后的网页文件不对应时,需要根据改版后的网页文件重新升级解析规则,使升级后的解析规则与改版后的网页文版相对应。
S6:根据升级后的解析规则更新所述阅读应用。
本实施例的解析规则在客户端的阅读应用上,需要客户端的阅读应用与升级后的解析规则相一致,需要根据升级后的解析规则更新所述客户端的阅读应用,才能正常显示升级后的解析规则处理过的网页文件。本发明又一实施例中解析规则在服务器上,则客户端的应用程序与解析过程无关,若发现解析逻辑出现错误后仅需升级服务器端的解析规则,而客户端的应用程序无需再更新版本,更方便用户阅读使用。
参照图4,本发明一实施例还提供一种阅读第三方网页的装置,包括:
解析模块1,用于阅读应用在指定解析规则下解析所述第三方网页的网页文件。
第三方网站的网页文件的风格各不相同,解析模块1中的解析规则根据不同的第三方网站而设定,第三方网站的网页文本与解析规则一一对应。当用户点击客户端的应用程序上的第三方网页链接后,第三方会返回网页链接所对应的HTML网页文件,通过解析HTML网页文件,提取所需的内容信息,比如漫画图片、文字文本等。
匹配模块2,用于为解析成功后的所述网页文件匹配指定页面样式并显示。
当第三方网站的网页风格与预定解析规则对应时,则成功解析;并通过匹配模块2对解析后的网页文件匹配指定页面样式,比如:统一的页面格局、页面背景色调等。网页文件以统一的页面样式显示于客户端的应用程序界面上,用户阅读浏览网页文件时,不受限于第三方网站的风格特征,使用户更深入的享受网页文件的内容信息。
参照图5,本实施例的解析模块1,包括:
分析单元10,用于分析所述网页文件的源代码结构。
通过分析单元10分析源代码结构,包括项目目录、项目文件类别、内容元素信息等,本实施例中的内容元素信息包括元素标签、链接模式等。
区分单元11,用于区分所述网页文件中内容占比最高的第一内容元素信息和剩余的第二内容元素信息。
本实施例的第一内容元素信息包括网页文件中主要内容部分,比如小说文本信息、漫画图片信息等;第二内容元素信息包括与第三方网站的网页风格相关的内容,比如:网站宣传信息、目录设计、穿插广告等。通过区分单元11区分上述第一内容元素信息和第二内容元素信息。
布局单元12,用于按照指定规则在所述指定页面样式中分别布局所述第一内容元素信息和所述第二内容元素信息。
本实施例的按照指定规则在所述指定页面样式中分别布局,包括通过布局单元12剔除或掩盖掉第三方网站的网页风格相关的内容、保留并统一网页文件中主要内容部分的显示方式。比如:通过特定框架掩盖掉与主要内容部分无关的部分,又同时将主要内容部分套置于固定格式中。
进一步地,所述指定规则,包括:
过滤掉所述第二内容元素信息。
本实施例中通过布局单元12剔除掉了第三方网站的网页风格相关的内容,保留了网页文件中主要内容部分。比如:只提取文字文本或漫画图片等内容。
将所述第一内容元素信息排布于所述指定页面样式的特定模式框架中。
本实施例中将保留的网页文件中主要内容部分排布于所述指定页面样式的特定模式框架中,以统一网页文件中主要内容部分的显示方式,使读者更多的关注网页文件中所传递的主要内容部分的信息。比如第三方漫画网页,通过本发明的阅读方法,漫画读者更多的关注漫画本身所要表达的内容,而不受各种各样的第三方网站附加信息的干扰。为进一步方便用户使用,本实施例的特定模式框架中添加了弹幕功能,包括:弹幕的速度,大小,颜色,动画等事件,方便用户注释内容、兴趣沟通等。本实施例的特定模式框架中添加了亮度控制,以满足用户对不同亮度环境、不同亮度喜好的需求。本实施例的特定模式框架中添加了章节控制,以方便用户更个性化的阅读。本实施例的特定模式框架中还可根据用户需求添加其他阅读功能模块。
参照图6,本发明另一实施例的阅读第三方网页的装置包括:
第二显示模块3,用于显示空白页。
当第三方网站的网页风格与解析规则不对应时,通过第二显示模块3显示空白页,表示解析不成功。比如:第三方网站的网页文件进行了改版,原解析规则的解析逻辑与改版后的网页文件不对应,则无法解析改版后的网页文件。
反馈模块4,用于反馈解析失败。
通过反馈模块4向本发明阅读器的服务器反馈解析失败,以及时提醒相关人员核查解析失败的原因,及时解决问题。比如:查看网页文件的源代码,分析源代码的结构组成与现有解析逻辑是否匹配等。
进一步地,本发明实施例的阅读第三方网页的装置,包括:
升级模块5,用于升级所述解析规则。
当解析规则的解析逻辑与改版后的网页文件不对应时,需要升级模块5根据改版后的网页文件重新升级解析规则,使升级后的解析规则与改版后的网页文版相对应。
更新模块6,用于根据升级后的解析规则更新所述阅读应用。
本实施例的解析规则在客户端的阅读应用上,需要客户端的阅读应用与升级后的解析规则相一致,需要更新模块6根据升级后的解析规则更新所述客户端的阅读应用,才能正常显示升级后的解析规则处理过的网页文件。本发明又一实施例中解析规则在服务器上,则客户端的应用程序与解析过程无关,若发现解析逻辑出现错误后仅需升级服务器端的解析规则,而客户端的应用程序无需再更新版本,更方便用户阅读使用。
本发明实施例通过指定解析规则对第三方网页的网页文件进行解析,解析成功后通过统一网页文件的页面样式后,再显示于客户端的应用程序界面上,为用户提供阅读浏览服务,不受限于第三方网站的风格特征,统一用户浏览第三方网站的视觉体验,平静用户的浏览心情,使用户更深入的享受网页文件的内容信息。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种阅读第三方网页的方法,其特征在于,包括:
阅读应用在指定解析规则下解析所述第三方网页的网页文件;
为解析成功后的所述网页文件匹配指定页面样式并显示。
2.根据权利要求1所述的阅读第三方网页的方法,其特征在于,所述阅读应用在指定解析规则下解析所述第三方网页的网页文件的步骤,包括:
分析所述网页文件的源代码结构;
区分所述网页文件中内容占比最高的第一内容元素信息和剩余的第二内容元素信息;
按照指定规则在所述指定页面样式中分别布局所述第一内容元素信息和所述第二内容元素信息。
3.根据权利要求2所述的阅读第三方网页的方法,其特征在于,所述指定规则包括:
过滤掉所述第二内容元素信息;
将所述第一内容元素信息排布于所述指定页面样式的特定模式框架中。
4.根据权利要求1所述的阅读第三方网页的方法,其特征在于,所述阅读应用在指定解析规则下解析所述第三方网页的网页文件的步骤之后,包括:
显示空白页;
反馈解析失败。
5.根据权利要求4所述的阅读第三方网页的方法,其特征在于,所述反馈解析失败的步骤之后,包括:
升级所述解析规则;
根据升级后的解析规则更新所述阅读应用。
6.一种阅读第三方网页的装置,其特征在于,包括:
解析模块,用于阅读应用在指定解析规则下解析所述第三方网页的网页文件;
匹配模块,用于为解析成功后的所述网页文件匹配指定页面样式并显示。
7.根据权利要求6所述的阅读第三方网页的装置,其特征在于,所述解析模块,包括:
分析单元,用于分析所述网页文件的源代码结构;
区分单元,用于区分所述网页文件中内容占比最高的第一内容元素信息和剩余的第二内容元素信息;
布局单元,用于按照指定规则在所述指定页面样式中分别布局所述第一内容元素信息和所述第二内容元素信息。
8.根据权利要求7所述的阅读第三方网页的装置,其特征在于,所述指定规则包括:
过滤掉所述第二内容元素信息;
将所述第一内容元素信息排布于所述指定页面样式的特定模式框架中。
9.根据权利要求6所述的阅读第三方网页的装置,其特征在于,包括:
第二显示模块,用于显示空白页;
反馈模块,用于反馈解析失败。
10.根据权利要求9所述的阅读第三方网页的装置,其特征在于,包括:
升级模块,用于升级所述解析规则;
更新模块,用于根据升级后的解析规则更新所述阅读应用。
CN201711107352.7A 2017-11-10 2017-11-10 阅读第三方网页的方法和装置 Pending CN107943869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711107352.7A CN107943869A (zh) 2017-11-10 2017-11-10 阅读第三方网页的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711107352.7A CN107943869A (zh) 2017-11-10 2017-11-10 阅读第三方网页的方法和装置

Publications (1)

Publication Number Publication Date
CN107943869A true CN107943869A (zh) 2018-04-20

Family

ID=61934794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711107352.7A Pending CN107943869A (zh) 2017-11-10 2017-11-10 阅读第三方网页的方法和装置

Country Status (1)

Country Link
CN (1) CN107943869A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717131A (zh) * 2018-06-27 2020-01-21 北京国双科技有限公司 页面改版的监控方法及相关系统
CN112231619A (zh) * 2020-10-15 2021-01-15 北京三快在线科技有限公司 转换方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN102622382A (zh) * 2011-03-14 2012-08-01 北京小米科技有限责任公司 一种网页重排版的方法
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN105426225A (zh) * 2015-12-28 2016-03-23 上海瀚之友信息技术服务有限公司 一种充值平台更新方法及系统
CN105808587A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 在网页中嵌入信息的方法、网关设备及系统
CN106462555A (zh) * 2014-05-14 2017-02-22 网页云股份有限公司 用于web内容生成的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN102622382A (zh) * 2011-03-14 2012-08-01 北京小米科技有限责任公司 一种网页重排版的方法
CN106462555A (zh) * 2014-05-14 2017-02-22 网页云股份有限公司 用于web内容生成的方法和系统
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN105808587A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 在网页中嵌入信息的方法、网关设备及系统
CN105426225A (zh) * 2015-12-28 2016-03-23 上海瀚之友信息技术服务有限公司 一种充值平台更新方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717131A (zh) * 2018-06-27 2020-01-21 北京国双科技有限公司 页面改版的监控方法及相关系统
CN112231619A (zh) * 2020-10-15 2021-01-15 北京三快在线科技有限公司 转换方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107818143B (zh) 一种页面配置、生成方法及装置
WO2021008030A1 (zh) 网页表单配置方法、装置及计算机可读存储介质
US10296552B1 (en) System and method for automated identification of internet advertising and creating rules for blocking of internet advertising
US8549469B2 (en) System and method for specification and implementation of MVC (model-view-controller) based web applications
CN105956026B (zh) 网页渲染方法及装置
US11907644B2 (en) Detecting compatible layouts for content-based native ads
CN104462131A (zh) 信息发布页面的处理方法及装置
CN104035753A (zh) 一种双WebView展示定制页面的方法及系统
CN101604339B (zh) 在线定制门户系统的方法及门户定制系统
CN105354014A (zh) 应用界面渲染展示方法及装置
CN111177621B (zh) 一种web页面开发方法、装置及系统
CN104765746B (zh) 用于移动通讯终端浏览器的数据处理方法和装置
CN109814858A (zh) 基于Vue架构的WEB前端通用UI组件库
CN106844635A (zh) 网页中的元素的编辑方法及装置
CN104731815B (zh) 一种网页元素的绘制方法及装置
CN107908793A (zh) 网页弹窗的方法及系统
CN106294504A (zh) 一种网页图标的显示方法和装置
CN104240067A (zh) 提醒设置方法、装置及电子设备
CN105786207A (zh) 信息输入方法和装置
CN106919406A (zh) 一种桌面应用组件发布、更新方法及装置
CN109428877A (zh) 一种用于通过用户设备访问业务系统的方法和装置
Dutonde et al. Website Developmemt Technologies: A Review
CN113391808A (zh) 页面的配置方法、装置及电子设备
CN109240664A (zh) 一种采集用户行为信息的方法及终端
CN107943869A (zh) 阅读第三方网页的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420