CN110309457A - 网页数据处理方法、装置、计算机设备和存储介质 - Google Patents

网页数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110309457A
CN110309457A CN201810236011.8A CN201810236011A CN110309457A CN 110309457 A CN110309457 A CN 110309457A CN 201810236011 A CN201810236011 A CN 201810236011A CN 110309457 A CN110309457 A CN 110309457A
Authority
CN
China
Prior art keywords
hypertext
current
content
tags
web object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810236011.8A
Other languages
English (en)
Other versions
CN110309457B (zh
Inventor
王炼
吕远方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810236011.8A priority Critical patent/CN110309457B/zh
Publication of CN110309457A publication Critical patent/CN110309457A/zh
Application granted granted Critical
Publication of CN110309457B publication Critical patent/CN110309457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种网页数据处理方法、装置、计算机设备和存储介质,所述方法包括:获取待处理网页对应的待处理超文本文件;从待处理超文本文件中提取目标内容超文本数据,所述目标内容超文本数据包括一个或多个目标超文本标签以及所述目标超文本标签对应的超文本内容;将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成各个目标超文本标签对应的网页对象;将各个目标超文本标签对应的网页对象组成网页对象序列。上述方法可以降低了对计算机资源的占用度。

Description

网页数据处理方法、装置、计算机设备和存储介质
技术领域
本发明涉及互联网技术领域,特别是涉及网页数据处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网的快速发展,互联网网页已经成为信息发布和信息共享的载体,互联网用户可以在网页上分布各种内容,例如新闻、产品介绍等信息。
目前,一个网页上的信息除了想要发布的内容之外,还有很多其他信息,例如广告、导航以及版权信息等,因此,当要将发布的内容转换到其他平台发布或者保存时,需要获取整个网页的数据,数据量大,占用计算机资源。
发明内容
基于此,有必要针对上述的问题,提供一种网页数据处理方法、装置、计算机设备和存储介质,可从待处理网页对应的待处理超文本文件中提取目标内容超文本数据,根据目标内容超文本数据的超文本标签表示的数据类型分别处理超文本内容,并在超文本标签表示的数据类型为文本数据类型时,进一步根据标签类型处理超文本内容,获取到目标网页内容对应的网页对象序列,得到目标页面内容的效率高且降低了数据量,降低了对计算机资源的占用度。
一种网页数据处理方法,所述方法包括:获取待处理网页对应的待处理超文本文件;从所述待处理超文本文件中提取目标内容超文本数据,所述目标内容超文本数据包括一个或多个目标超文本标签以及所述目标超文本标签对应的超文本内容;将所述目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成所述各个目标超文本标签对应的网页对象,包括:获取所述当前超文本标签表示的当前数据类型,当所述当前数据类型为非文本数据类型时,根据所述当前超文本标签对应的当前超文本内容得到所述当前超文本标签对应的第一网页对象,当所述当前数据类型为文本数据类型时,获取所述当前超文本标签对应的当前标签类型,根据所述当前标签类型对所述当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象;将所述各个目标超文本标签对应的网页对象组成网页对象序列。
一种网页数据处理装置,所述装置包括:待处理文件获取模块,用于获取待处理网页对应的待处理超文本文件;提取模块,用于从所述待处理超文本文件中提取目标内容超文本数据,所述目标内容超文本数据包括一个或多个目标超文本标签以及所述目标超文本标签对应的超文本内容;对象生成模块,用于将所述目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成所述各个目标超文本标签对应的网页对象,包括:获取所述当前超文本标签表示的当前数据类型,当所述当前数据类型为非文本数据类型时,根据所述当前超文本标签对应的当前超文本内容得到所述当前超文本标签对应的第一网页对象,当所述当前数据类型为文本数据类型时,获取所述当前超文本标签对应的当前标签类型,根据所述当前标签类型对所述当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象;序列组成模块,用于将所述各个目标超文本标签对应的网页对象组成网页对象序列。
在一个实施例中,所述装置还包括:内容获取模块,用于当所述当前数据类型为非文本数据类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成所述第三网页对象。
在一个实施例中,所述装置还包括:模板获取模块,用于获取网页超文本模板;填充模块,用于将所述网页对象序列中各个网页对象填充到所述网页超文本模板中,得到对应的目标网页超文本文件,所述目标网页超文本文件中所述网页对象序列中各个网页对象对应的超文本标签为块级标签。
在一个实施例中,所述装置还包括:信息获取模块,用于从所述待处理超文本文件中获取目标内容对应的动态信息和/或静态信息;所述填充模块用于:将所述动态信息和/或静态信息以及所述网页对象序列中各个网页对象填充到所述网页超文本模板中,得到所述目标网页超文本文件。
在一个实施例中,所述对象生成模块包括:层级获取单元,用于获取所述各个目标超文本标签之间的层级关系;当前标签获取单元,用于根据上一个当前超文本标签的层级以及深度优先遍历算法从所述目标超文本标签中获取当前超文本标签;所述序列组成模块用于:
将所述各个目标超文本标签对应的网页对象按照所述各个目标超本文标签的解析顺序组成网页对象序列。
在一个实施例中,所述提取模块包括:路径数据获取单元,用于获取目标超文本路径数据;提取单元,用于根据所述目标超文本路径数据从所述待处理超文本文件中提取目标内容超文本数据。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述网页数据处理方法的步骤。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述网页数据处理方法的步骤。
上述网页数据处理方法、装置、计算机设备和存储介质,可从待处理网页对应的待处理超文本文件中提取目标内容超文本数据,根据目标内容超文本数据的超文本标签表示的数据类型分别处理超文本内容,并在超文本标签表示的数据类型为文本数据类型时,进一步根据标签类型处理超文本内容,获取到目标网页内容对应的网页对象序列,得到目标页面内容的效率高且降低了数据量,降低了对计算机资源的占用度。
附图说明
图1为一个实施例中提供的网页数据处理方法的应用环境图;
图2为一个实施例中路径配置界面示意图;
图3为一个实施例中网页数据处理方法的流程图;
图4为一个实施例中网页数据处理方法的流程图;
图5为一个实施例中将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签的流程图;
图6为一个实施例中超文本标签层级示意图;
图7为一个实施例中网页数据处理方法的流程图;
图8为一个实施例中网页数据处理方法的流程图;
图9为一个实施例中目标网页的示意图;
图10为一个实施例中网页数据处理方法的流程图;
图11为一个实施例中网页数据处理装置的结构框图;
图12为一个实施例中网页数据处理装置的结构框图;
图13为一个实施例中网页数据处理装置的结构框图;
图14为一个实施例中计算机设备的内部结构框图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一网页对象称为第二网页对象,且类似地,可将第二网页对象称为第一网页对象。
图1为一个实施例中提供的网页数据处理方法的应用环境图。如图1所示,在该应用环境中,包括终端110以及计算机设备120。当要获取待处理网页上的目标内容时,例如当需要将电脑版网页上展示的新闻转换为在手机应用上显示的新闻时,计算机设备120获取待处理网页对应的待处理超文本文件,然后执行本发明实施例提供的网页数据处理方法,得到目标页面内容对应的网页对象序列,得到网页对象序列后,计算机设备120可以将网页对象序列发送到终端110中,终端110根据网页对象序列展示各个网页对象。其中,每一个网页对象可以作为终端110上展示的网页的一个段落。计算机设备120可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110以及计算机设备120可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本发明在此不做限制。
需要说明的是,本申请实施例提供的应用环境图仅是一种示例,并不构成对本发明实施例提供的网页数据处理方法的限制,还可以将本发明实施例提供的网页数据处理方法应用到其他应用环境中,例如,计算机设备120可以根据获取得到的网页对象序列直接在计算机设备120生成对应的目标网页。
如图2所示,在一个实施例中,提出了一种网页数据处理方法,本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。具体可以包括以下步骤:
步骤S202,获取待处理网页对应的待处理超文本文件。
具体地,待处理网页是指需要提取目标内容例如正文内容的网页,待处理网页是根据待处理超文本文件生成的。超文本文件是指利用HTML(Hyper Text Markup Language,超文本标记语言)编写的文件。例如,当要生成网页时,浏览器可以获取超文本文件,根据超文本文件生成网页。待处理网页对应的待处理超文本文件可以是根据爬虫软件获取的,也可以是直接从服务器提取得到的。例如,当需要将电脑版网页转为手机应用中显示的网页时,可以从存储超文本文件的服务器中下载待处理超文本文件。
步骤S204,从待处理超文本文件中提取目标内容超文本数据,目标内容超文本数据包括一个或多个目标超文本标签以及目标超文本标签对应的超文本内容。
具体地,目标内容超文本数据是指需要从待处理网页中获取的目标内容对应的超文本数据,具体可以根据实际需要设置需要获取的目标内容超文本数据。例如,当需要获取一个新闻网页页面中的新闻正文时,则目标内容超文本数据为新闻正文对应的超文本数据。超文本标签用于对超文本内容的类别或者属性进行标识,超文本标签例如可以包括tt、abb、acronym、image、fieldset、figcaption以及form等,目标超文本标签具体根据待处理超文本文件的不同而不同。目标超文本标签对应的超文本内容是显示在待处理网页中的内容,或者根据该超文本内容可以得到显示在网页中的内容。例如,对于网页中的图像,则超文本内容可以是图像的URL(Uniform Resoure Locator,统一资源定位器)地址,根据URL地址可以获取得到图像。对于网页中的文本数据,则超文本内容则可以是显示在网页中的内容。可以用一对或几对标签来标识一个超文本内容。一对超文本标签包括开始标签以及结束标签,开始标签可以由一个小于符号“<”、标签名和一个大于符号“>”组成。结束标签和开始标签的区别在小于符号的后面要加上一个斜杠宇符,例如,<div>以及</div>分别表示开始标签以及结束标签。例如,“<div>这是超文本内容</div>”中,“这是超文本内容”为div标签对应的超文本内容。目标超文本标签的个数是根据提取的目标内容超文本数据确定的,具体不做限定。
在一个实施例中,目标内容超文本数据可以是根据预设的路径从待处理超文本文件中提取得到的,从待处理超文本文件中提取目标内容超文本数据包括:获取目标超文本路径数据,根据目标超文本路径数据从待处理超文本文件中提取目标内容超文本数据。
具体地,路径数据可以是xpath(XML路径)数据,XML(eXtensible MarkupLanguage,可扩展标记语言)路径语言是一种用来确定html文档中数据的位置的语言,根据xpath路径可以获取得到超文本文件中对应的数据。目标超文本路径数据是根据具体的网页以及需要提取的目标内容确定的。可以设置xpath路径配置界面,并在路径配置界面上设置待处理网页中各个内容的xpath路径。如图3所示,名称列中的title、publishtime、author、commennum、promoteimage以及content分别表示待处理网页的标题、发布时间、作者、评论数目、推广图片以及正文内容。因此,可以根据path列的xpath路径得到待处理网页的标题、发布时间、作者、评论数目、推广图片以及正文内容分别对应的超文本数据。假设正文内容为目标内容,则可以根据“//*[@id=“main_content”]”的路径数据得到对应的目标内容超文本数据。其中,“//”表示从整个超文本文件中查找目标内容超文本数据,“*”表示可以是任意匹配的节点,““@id=“main_content””表示属性为“@id=“main_content”的超文本数据为正文内容对应的目标内容超文本数据。
步骤S206,将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成各个目标超文本标签对应的网页对象,包括:获取当前超文本标签表示的当前数据类型,当当前数据类型为非文本数据类型时,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象,当当前数据类型为文本数据类型时,获取当前超文本标签对应的当前标签类型,根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象。
具体地,网页对象是在网页上显示的对象,可以表示网页中完整以及独立的内容。例如,待处理网页上的一张图片、一个视频以及一个段落的文本内容可以对应一个网页对象。当前超文本标签表示的当前数据类型指根据当前超文本内容得到的在待处理网页中显示的内容的数据类型,数据类型可以包括非文本数据类型以及文本数据类型。对于image标签、audio标签以及video标签,对应的超文本内容在网页中显示时分别为图像、音频以及视频。因此,image标签、audio标签以及video标签表示的数据类型为非文本数据类型,而对于div标签、h4标签、acronym标签以及abbr标签等标签,表示的数据类型为文本数据类型。在一个实施例中,可以将image标签、audio标签以及video标签之外的超文本标签表示的数据类型作为非文本数据类型。标签类型可以根据需要进行分类。例如,可以将标签分为块级标签类型以及内联标签类型,内联标签是指所对应的超文本内容可以与其他标签对应的超文本内容在同一行上显示的标签,块内标签是指所对应的超文本内容需要重新换行的标签。对于非文本数据类型,可以获取当前超文本标签对应的当前超文本内容,将当前超文本内容作为一个网页对象,即第一网页对象。对于文本数据类型,预先设置了标签类型与处理方式的对应关系,因此可以进一步获取当前超文本标签对应的当前标签类型,根据当前标签类型对应的处理方式对当前超文本内容进行处理,并得到第二网页对象。得到目标内容超文本数据后,将各个目标超文本标签作为当前超文本标签,对各个当前超文本标签对应的超文本内容进行处理,得到网页对象。将目标超文本标签作为当前超文本标签的顺序可以是按照标签的排列顺序依次获取,当超文本标签存在层级时,可以先得到目标超文本标签之间的层级关系,根据层级关系将目标超文本标签作为当前超文本标签。
在一个实施例中,还可以判断当前标签是否为注释类型的标签,若为注释类型的标签,则可以将注释类型的标签对应的当前超文本内容丢弃。例如,注释标签的格式为<!---->,注释的内容写在第二个“-”之后,当当前超文本标签为<!--这是一个简写-->时,则丢弃对应的当前超文本内容“这是一个简写”。
在一个实施例中,当当前超文本标签为格式标签类型例如为font标签时,还可以获取该格式标签对应的格式信息以及对应的当前超文本内容,并存储格式信息与当前超文本内容的对应关系。格式信息例如可以是字体加粗、斜体、字体颜色等格式信息。
步骤S208,将各个目标超文本标签对应的网页对象组成网页对象序列。
具体地,得到各个目标超文本标签对应的网页对象后,将各个网页对象进行组合,得到网页对象序列。可以按照标签的解析顺序进行组合,即按照将目标超文本标签作为当前超文本标签的顺序进行组合。网页对象序列可以是以sectionlist的方式存储的,sectionlist是分组列表组件,一个网页对象对应sectionlist中的一个section,即一个部分。网页对象序列中还可以对应存储目标超文本标签表示的数据类型,网页对象以及网页对象对应的数据类型可以是以json格式存储的。
在一个实施例中,得到网页对象序列后,根据网页对象序列得到目标网页并展示该目标网页。例如,当待处理网页为对目标应用进行介绍的网页时,可以在应用下载软件中目标应用的介绍界面中显示各个网页对象。其中,每一个网页对象可以对应一个段落。
在一个实施例中,当获取了格式信息与当前超文本内容的对应关系时,还可以根据格式信息对目标网页中对应的内容进行格式设置。例如,当格式信息为对字体进行加粗时,则可以根据格式信息对目标网页中对应的内容进行加粗。
在一个实施例中,还可以获取待处理网页中的其他信息,例如可以获取目标内容对应的动态信息或者静态信息中的至少一种。然后将其他信息显示在目标网页上。静态信息是指不会随时间变化的信息,动态信息是指随着时间可以变化的信息。静态信息可以包括目标内容的标题、发表时间以及作者等内容,动态信息可以包括目标内容的阅读数、评论数、点赞数以及视频播放数等。以一个新闻网页为例,下一段为获取得到的网页对象序列以及目标内容的静态信息的示例。其中,title、author以及publishTimes分别对应目标内容的标题、作者以及发表时间。Sectionlist中,type表示数据类型,其中非文本数据类型可以分为image类型、audio类型以及video类型。一个大括号内的内容对应一个网页对象以及网页对象的描述信息。例如,以“"type":"image"”为起点,“"source":"http://www.qq.com/image.png"为终点的内容为一个section,包括一个image标签对应的网页对象以及表示的数据类型。Width以及height分别表示图像的宽度以及长度,source表示图像的来源地址。
在一个实施例中,得到网页对象序列后,还可以获取网页对象序列中,超文本标签表示的数据类型为文本数据类型对应的文本网页对象,将文本网页对象进行拼接,得到目标文本内容,作为待处理网页对应的文本内容。目标文本内容可以作为进行网页搜索时,搜索结果中待处理网页对应的简略信息,或者是建立网页关键词与网页之间倒排索引时,待处理网页对应的文本内容。
上述网页数据处理方法、装置、计算机设备和存储介质,可从待处理网页对应的待处理超文本文件中提取目标内容超文本数据,根据目标内容超文本数据的超文本标签表示的数据类型分别处理超文本内容,并在超文本标签表示的数据类型为文本数据类型时,进一步根据标签类型处理超文本内容,获取到目标网页内容对应的网页对象序列,得到目标页面内容的效率高且降低了数据量,降低了对计算机资源的占用度。
在一个实施例中,在根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理之前,如图4所示,网页数据处理方法包括步骤S402:判断当前超文本标签是否为第一类型或者第二类型。当为第一类型时,进入步骤S404,当为第二类型时,进入步骤S406。
具体地,第一类型对应的标签以及第二类型对应的标签具体可以根据实际需要进行设置。在一个实施例中,第一类型可以是内联标签类型,第二类型可以是块级标签类型。在一个实施例中,第一类型的标签可以包括tt、abbr、acronym、cite、code、dfn、kbd、samp、var、bdo、br、map、object、q、sub、sup、button、input、label以及textarea等标签,第二类型的标签可以包括a、address、article、aside、blockquote、canvas、dd、div、dl、fieldset、figcaption、form、hgroup、hr、ol、output、p、pre、section、h1、h2、h3、h4、h5以及h6等标签。
在一个实施例中,如图4所示,根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象包括以下步骤:
步骤S404,当当前标签类型为第一类型时,根据当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容。
具体地,对于第一类型的当前超文本标签对应的当前超文本内容,可以将该当前超文本内容作为当前待生成的网页对象的内容,当需要生成网页对象时,再根据当前待生成的网页对象的内容生成网页对象。
在一个实施例中,可以预先设置预设存储区域用于存储当前待生成的网页对象的内容,例如可以预先设置文本缓冲区,用于存储当前待生成的网页对象的内容。当当前标签类型为第一类型时,根据当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容的步骤包括:将当前超文本标签对应的当前超文本内容存储到预设存储区域中,作为当前待生成的网页对象的内容。例如,当当前超文本标签的当前标签类型为内联标签时,则可以将当前超文本标签对应的当前超文本内容存储到文本缓冲区中,并继续将下一个目标超文本标签作为当前超文本标签。当下一个目标超文本标签表示的当前数据类型为文本数据类型以及对应的当前标签类型为第一类型时,继续将下一个目标超文本标签对应的超文本内容作为当前待生成的网页对象的内容,存储到文本缓冲区中。
步骤S406,当当前标签类型为第二类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第二网页对象,将当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容。
具体地,当当前标签类型为第二类型时,则获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容组合得到第二网页对象。而对于当前超文本标签对应的当前超文本内容,将该当前超文本内容作为下一个待生成的网页对象的内容。
在一个实施例中,当当前待生成的网页对象的内容是存储在预设存储区域中时,则步骤S406可以包括:将预设存储区域中当前存储的存储内容作为当前待生成的网页对象的内容,根据预设存储区域中当前存储的存储内容生成第二网页对象,删除预设存储区域中当前存储的存储内容,将当前超文本标签对应的当前超文本内容存储到预设存储区域中,以作为下一个待生成的网页对象的内容。
具体地,当得到当前超文本标签的类型为第二类型时,则可以获取预设存储区域中当前存储的内容,生成第二网页对象。在生成第二网页对象后,删除预设存储区域中当前存储的内容,并将当前超文本标签对应的当前超文本内容存储到该预设存储区域中,作为下一个当前待生成的网页对象的内容,继续获取下一个目标超文本标签作为当前超文本标签。
在一个实施例中,当当前数据类型为非文本数据类型时,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象之前还包括:当当前数据类型为非文本数据类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第三网页对象。
具体地,当当前超文本标签为非文本数据类型时,则可以获取当前待生成的网页对象的内容,生成第三网页对象。例如,当当前待生成的网页对象的内容存储在预设存储区域时,若预设存储区域中存储有内容,则可以获取预设存储区域中存储的内容,生成第三网页对象。并删除预设存储区域中存储的内容,并根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象。可以理解,得到的第三网页对象也是组成网页对象序列的网页对象。
本发明实施例中,可以将第一类型的当前超文本标签对应的超文本内容存储到预设存储区域,因此在当下一个目标超文本标签表示的数据类型为文本数据类型且为第一类型时,可以继续将对应的超文本内容存储到预设存储区域中,直至下一个目标超文本标签表示的数据类型为非文本数据类型或者为文本数据类型且为第二类型时,再获取预设存储区域中的内容生成网页对象。因此,可以使得得到的网页对象完整以及独立。
在一个实施例中,网页数据处理方法还包括:当当前超文本标签为无效标签时,将当前超文本标签对应的当前超文本内容替换为空格字符,将空格字符存储到预设存储区域中。
具体地,无效标签具体可以根据实际需要进行设置,例如,当需要将电脑版网页转换为手机版网页时,可以将script、select以及noscript标签中的一个或多个作为无效标签。得到无效标签后,将无效标签对应的当前超文本内容替换为空格字符,然后将该空格字符存储到预设的存储区域中。将无效标签对应的超文本内容替换为空格字符,可以使得得到的目标内容简洁且布局清晰。
在一个实施例中,如图5所示,步骤S206中的将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签包括:
步骤S502,获取各个目标超文本标签之间的层级关系。
具体地,目标超文本标签之间的层级关系是指目标超文本数据中各个目标超文本标签之间的级别关系,在得到目标超文本数据后,可以采用dom(document object model,文档对象模型)解析器解析目标超文本数据生成dom树结构,dom定义了一组与平台和语言无关的接口,以便程序和脚本能够动态访问和修改员代码中的内容、结构及样式,dom解析器可以根据标签对的排序将超文本文件解析为dom树的树结构,得到目标超文本标签之间的层级关系。例如,假设目标超文本数据中,目标超本文标签的显示顺序为<a><b><b1></b1><b2></b2></b><c></c></a>,则可以得到a标签为第一层级,b标签以及c标签为第二层级,b1标签以及b2标签为b标签的下一层级。得到的层级关系如图6所示。
步骤S504,根据上一个当前超文本标签的层级以及深度优先遍历算法从目标超文本标签中获取当前超文本标签。
具体地,深度优先遍历算法是指从目标超文本标签中获取当前超文本标签时,沿着一个层级的分支进行获取,直至该层级下的各个层级获取完毕,才返回获取另一层级的目标超文本标签作为当前超文本标签。在获取当前超文本标签时,需要获取上一个当前超文本标签的层级,然后依据深度优先遍历算法获取上一个当前超文本标签的下一层级的第一个目标超文本标签作为当前超文本标签。以图6的层级关系为例,首先可将第一层级的a标签作为当前超文本标签,处理完a标签对应的超文本内容后,再依次将b标签、b1标签、b2标签以及c标签作为当前超文本标签。
在一个实施例中,步骤S208即将各个目标超文本标签对应的网页对象组成网页对象序列包括:将各个目标超文本标签对应的网页对象按照各个目标超本文标签的解析顺序组成网页对象序列。
具体地,目标超文本标签的解析顺序是指将目标超文本标签作为当前超文本标签的顺序。按照目标超文本标签作为当前超文本标签的顺序组成网页对象序列,即网页对象序列中网页对象的排序是根据目标超文本标签的解析顺序得到的。以图5的层级关系为例,网页对象序列中网页对象的排序可以依次为a标签、b标签、b1标签、b2标签以及c标签对应的网页对象。
在一个实施例中,可以是每得到一个网页对象,将该网页对象作为一个section存储到sectionlist,直到生成最后一个当前网页对象并作为一个section存储到sectionlist中后,得到网页对象序列。
在一个实施例中,如图7所示,网页数据处理方法还可以包括以下步骤:
步骤S702,获取网页超文本模板。
具体地,网页超文本模板是预先设置好的,可以是预先设置的手机网页超文本模板,网页超文本模板具体可以根据实际需要进行设置。
步骤S704,将网页对象序列中各个网页对象填充到网页超文本模板中,得到对应的目标网页超文本文件,目标网页超文本文件中网页对象序列中各个网页对象对应的超文本标签为块级标签。
具体地,网页超文本模板中,网页对象的填充位置可以是预先设置的,可以按照网页对象序列中网页对象的排序对网页对象进行填充,还可以在网页对象之前加上相应的块级标签,使得根据目标网页超文本文件显示目标网页时,每一个网页对象对应一个目标网页上的一个段落。
在一个实施例中,如图8所示,网页数据数据处理方法还可以包括步骤S802:从待处理超文本文件中获取目标内容对应的动态信息和/或静态信息。则步骤S704即将网页对象序列中各个网页对象填充到网页超文本模板中,得到对应的目标网页超文本文件包括:将动态信息和/或静态信息以及网页对象序列中各个网页对象填充到网页超文本模板中,得到目标网页超文本文件。
具体地,静态信息是指不会随时间变化的信息,动态信息是指随着时间可以变化的信息。静态信息可以包括目标内容的标题、发表时间以及作者等内容,动态信息可以包括目标内容的阅读数、评论数、点赞数以及视频播放数等。静态信息和/或动态信息在网页超文本模板中的填充位置也可以是预先预设的。可以既填充动态信息也填充静态信息,也可以填充动态信息或者静态信息中的一种。例如,当把上述示例的网页对象序列以及目标内容的静态信息填充到网页超文本模板中,得到目标网页超文本文件后,若根据目标超文本网页显示目标网页,则目标网页可如图9所示。
以下以将电脑对应的网页转换为手机客户端中的网页为例,对本发明实施例提供的方法进行说明,包括以下步骤:
步骤S1002,获取服务器中待处理网页对应的待处理超文本文件。例如,可以获取待处理文本文件在服务器中的存储地址,根据存储地址获取得到待处理超文本文件。
步骤S1004,创建用于存储待生成网页对象的空文本缓存区以及sectionlist文件。其中,空文本缓存区指未存储内容的文本缓冲区。
步骤S1006,获取目标内容超文本数据,获取目标超文本标签的层级关系。例如当目标内容为正文内容时,可以根据预先设置的正文内容的xpath路径从待处理超文本文件中获取正文内容对应的目标内容超文本数据,并根据目标超文本数据对应的dom树结构获取目标超文本标签的层级关系。
步骤S1008,根据上一个当前文本标签的层级以及深度优先遍历算法获取当前超文本标签。例如,第一次获取当前超文本标签时,将第一层级的目标超文本标签作为当前超文本标签。第二次获取当前超文本标签时,获取第二层级的第一个目标超文本标签作为当前超文本标签。第三次获取当前超文本标签时,获取第二层级的第一个目标超文本标签的下一个层级的标签中,第一个超文本标签作为当前超文本标签,以此类推,直至各个层级的分支获取完毕,则返回获取第二层级的第二个目标超文本标签作为当前超文本标签。
步骤S1010,判断当前超文本标签表示的当前数据类型是否为非文本数据类型。当为非文本数据类型时,则进入步骤S1012。当不是非文本数据类型时,进入步骤S1014。
步骤S1012,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象。当文本缓冲区存储有内容时,根据文本缓冲区的内容生成一个section,作为第三网页对象,并存储到sectionlist中。解析当前超文本标签对应的当前超文本内容,根据当前超文本内容生成另一个section,作为第一网页对象,存储到sectionlist中,进入步骤S1016。
步骤S1014,获取当前超文本标签对应的当前标签类型,根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象。当为第一类型时,将当前超文本标签对应的当前超文本内容存储到文本缓冲区中。当为第二类型时,若文本缓冲区存储有内容,根据文本缓冲区的内容生成一个section,并存储到sectionlist中,并在清空文本缓冲区后,将当前超文本标签对应的当前超文本内容存储到文本缓冲区中,作为下一个待生成的网页对象的内容。当为无效标签时,则将对应的超文本内容替换为空格,将空格存储到文本缓冲区中。当为注释标签时,则丢弃对应的超文本内容。
步骤S1016,判断目标超文本标签是否获取完毕,当未获取完毕时,返回步骤S1008。当获取完毕时,进入步骤S1018。
步骤S1018,获取sectionlist文件,得到网页对象序列。
如图11所示,在一个实施例中,提供了一种网页数据处理装置,该网页数据处理装置可以集成于上述的计算机设备120中,具体可以包括待处理文件获取模块1102、提取模块1104、对象生成模块1106以及序列组成模块1108。
待处理文件获取模块1102,用于获取待处理网页对应的待处理超文本文件。
提取模块1104,用于从待处理超文本文件中提取目标内容超文本数据,目标内容超文本数据包括一个或多个目标超文本标签以及目标超文本标签对应的超文本内容。
对象生成模块1106,用于将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成各个目标超文本标签对应的网页对象,包括:获取当前超文本标签表示的当前数据类型,当当前数据类型为非文本数据类型时,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象,当当前数据类型为文本数据类型时,获取当前超文本标签对应的当前标签类型,根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象。
序列组成模块1108,用于将各个目标超文本标签对应的网页对象组成网页对象序列。
在一个实施例中,提取模块包括:
路径数据获取单元,用于获取目标超文本路径数据。提取单元,用于根据目标超文本路径数据从待处理超文本文件中提取目标内容超文本数据。
在一个实施例中,对象生成模块包括:
待生成对象内容得到单元,用于当当前标签类型为第一类型时,根据当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容。
对象得到单元,用于当当前标签类型为第二类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第二网页对象,将当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容。
在一个实施例中,当前待生成的网页对象的内容存储在预设存储区域,待生成对象内容得到单元用于:当当前标签类型为第一类型时,将当前超文本标签对应的当前超文本内容存储到预设存储区域中,作为当前待生成的网页对象的内容。
对象得到单元用于:将预设存储区域中当前存储的存储内容作为当前待生成的网页对象的内容,根据预设存储区域中当前存储的存储内容生成第二网页对象。删除预设存储区域中当前存储的存储内容,将当前超文本标签对应的当前超文本内容存储到预设存储区域中,以作为下一个待生成的网页对象的内容。
在一个实施例中,网页数据处理装置还包括:替换模块,用于当当前超文本标签为无效标签时,将当前超文本标签对应的当前超文本内容替换为空格字符,将空格字符存储到预设存储区域中。
在一个实施例中,网页数据处理装置还包括内容获取模块,用于当当前数据类型为非文本数据类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第三网页对象。
在一个实施例中,如图12所示,网页数据处理装置还包括:
模板获取模块1202,用于获取网页超文本模板。
填充模块1204,用于将网页对象序列中各个网页对象填充到网页超文本模板中,得到对应的目标网页超文本文件,目标网页超文本文件中网页对象序列中各个网页对象对应的超文本标签为块级标签。
在一个实施例中,如图13所示,网页数据处理装置还包括:
信息获取模块1302,用于从待处理超文本文件中获取目标内容对应的动态信息和/或静态信息。
填充模块1204用于:将动态信息和/或静态信息以及网页对象序列中各个网页对象填充到网页超文本模板中,得到目标网页超文本文件。
在一个实施例中,对象生成模块包括:
层级获取单元,用于获取各个目标超文本标签之间的层级关系。
当前标签获取单元,用于根据上一个当前超文本标签的层级以及深度优先遍历算法从目标超文本标签中获取当前超文本标签。
序列组成模块1108用于:将各个目标超文本标签对应的网页对象按照各个目标超本文标签的解析顺序组成网页对象序列。
图14示出了一个实施例中计算机设备的内部结构图。如图14所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和输入装置。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现网页数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行网页数据处理方法。计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的网页数据处理装置可以实现为一种计算机程序的形式,计算机程序可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成该网页数据处理装置的各个程序模块,比如,图11所示的待处理文件获取模块1102、提取模块1104、对象生成模块1106以及序列组成模块1108。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的网页数据处理方法中的步骤。
例如,图14所示的计算机设备可以通过如图11所示的网页数据处理装置中的待处理文件获取模块1102获取待处理网页对应的待处理超文本文件。通过提取模块1104从待处理超文本文件中提取目标内容超文本数据,目标内容超文本数据包括一个或多个目标超文本标签以及目标超文本标签对应的超文本内容。通过对象生成模块1106将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成各个目标超文本标签对应的网页对象,包括:获取当前超文本标签表示的当前数据类型,当当前数据类型为非文本数据类型时,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象,当当前数据类型为文本数据类型时,获取当前超文本标签对应的当前标签类型,根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象。通过序列组成模块1108将各个目标超文本标签对应的网页对象组成网页对象序列。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待处理网页对应的待处理超文本文件;从待处理超文本文件中提取目标内容超文本数据,目标内容超文本数据包括一个或多个目标超文本标签以及目标超文本标签对应的超文本内容;将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成各个目标超文本标签对应的网页对象,包括:获取当前超文本标签表示的当前数据类型,当当前数据类型为非文本数据类型时,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象,当当前数据类型为文本数据类型时,获取当前超文本标签对应的当前标签类型,根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象;将各个目标超文本标签对应的网页对象组成网页对象序列。
在一个实施例中,处理器执行的根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象包括:当当前标签类型为第一类型时,根据当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容;当当前标签类型为第二类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第二网页对象,将当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容。
在一个实施例中,处理器执行的当前待生成的网页对象的内容存储在预设存储区域,根据当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容的步骤包括:将当前超文本标签对应的当前超文本内容存储到预设存储区域中,作为当前待生成的网页对象的内容;获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第二网页对象,将当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容包括:将预设存储区域中当前存储的存储内容作为当前待生成的网页对象的内容,根据预设存储区域中当前存储的存储内容生成第二网页对象;删除预设存储区域中当前存储的存储内容,将当前超文本标签对应的当前超文本内容存储到预设存储区域中,以作为下一个待生成的网页对象的内容。
在一个实施例中,计算机程序还使得处理器执行如下步骤:当当前超文本标签为无效标签时,将当前超文本标签对应的当前超文本内容替换为空格字符,将空格字符存储到预设存储区域中。在一个实施例中,处理器执行的当当前数据类型为非文本数据类型时,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象之前,计算机程序还使得处理器执行如下步骤:当当前数据类型为非文本数据类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第三网页对象。
在一个实施例中,计算机程序还使得处理器执行如下步骤:获取网页超文本模板;将网页对象序列中各个网页对象填充到网页超文本模板中,得到对应的目标网页超文本文件,目标网页超文本文件中网页对象序列中各个网页对象对应的超文本标签为块级标签。
在一个实施例中,计算机程序还使得处理器执行如下步骤:从待处理超文本文件中获取目标内容对应的动态信息和/或静态信息;将网页对象序列中各个网页对象填充到网页超文本模板中,得到对应的目标网页超文本文件包括:将动态信息和/或静态信息以及网页对象序列中各个网页对象填充到网页超文本模板中,得到目标网页超文本文件。
在一个实施例中,处理器执行的将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签包括:获取各个目标超文本标签之间的层级关系;根据上一个当前超文本标签的层级以及深度优先遍历算法从目标超文本标签中获取当前超文本标签;处理器执行的将各个目标超文本标签对应的网页对象组成网页对象序列包括:将各个目标超文本标签对应的网页对象按照各个目标超本文标签的解析顺序组成网页对象序列。
在一个实施例中,处理器执行的从待处理超文本文件中提取目标内容超文本数据包括:获取目标超文本路径数据;根据目标超文本路径数据从待处理超文本文件中提取目标内容超文本数据。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待处理网页对应的待处理超文本文件;从待处理超文本文件中提取目标内容超文本数据,目标内容超文本数据包括一个或多个目标超文本标签以及目标超文本标签对应的超文本内容;将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成各个目标超文本标签对应的网页对象,包括:获取当前超文本标签表示的当前数据类型,当当前数据类型为非文本数据类型时,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象,当当前数据类型为文本数据类型时,获取当前超文本标签对应的当前标签类型,根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象;将各个目标超文本标签对应的网页对象组成网页对象序列。
在一个实施例中,处理器执行的根据当前标签类型对当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象包括:当当前标签类型为第一类型时,根据当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容;当当前标签类型为第二类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第二网页对象,将当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容。
在一个实施例中,处理器执行的当前待生成的网页对象的内容存储在预设存储区域,根据当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容的步骤包括:将当前超文本标签对应的当前超文本内容存储到预设存储区域中,作为当前待生成的网页对象的内容;获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第二网页对象,将当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容包括:将预设存储区域中当前存储的存储内容作为当前待生成的网页对象的内容,根据预设存储区域中当前存储的存储内容生成第二网页对象;删除预设存储区域中当前存储的存储内容,将当前超文本标签对应的当前超文本内容存储到预设存储区域中,以作为下一个待生成的网页对象的内容。
在一个实施例中,计算机程序还使得处理器执行如下步骤:当当前超文本标签为无效标签时,将当前超文本标签对应的当前超文本内容替换为空格字符,将空格字符存储到预设存储区域中。在一个实施例中,处理器执行的当当前数据类型为非文本数据类型时,根据当前超文本标签对应的当前超文本内容得到当前超文本标签对应的第一网页对象之前,计算机程序还使得处理器执行如下步骤:当当前数据类型为非文本数据类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成第三网页对象。
在一个实施例中,计算机程序还使得处理器执行如下步骤:获取网页超文本模板;将网页对象序列中各个网页对象填充到网页超文本模板中,得到对应的目标网页超文本文件,目标网页超文本文件中网页对象序列中各个网页对象对应的超文本标签为块级标签。
在一个实施例中,计算机程序还使得处理器执行如下步骤:从待处理超文本文件中获取目标内容对应的动态信息和/或静态信息;将网页对象序列中各个网页对象填充到网页超文本模板中,得到对应的目标网页超文本文件包括:将动态信息和/或静态信息以及网页对象序列中各个网页对象填充到网页超文本模板中,得到目标网页超文本文件。
在一个实施例中,处理器执行的将目标内容超文本数据中的各个目标超文本标签作为当前超文本标签包括:获取各个目标超文本标签之间的层级关系;根据上一个当前超文本标签的层级以及深度优先遍历算法从目标超文本标签中获取当前超文本标签;处理器执行的将各个目标超文本标签对应的网页对象组成网页对象序列包括:将各个目标超文本标签对应的网页对象按照各个目标超本文标签的解析顺序组成网页对象序列。
在一个实施例中,处理器执行的从待处理超文本文件中提取目标内容超文本数据包括:获取目标超文本路径数据;根据目标超文本路径数据从待处理超文本文件中提取目标内容超文本数据。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (15)

1.一种网页数据处理方法,所述方法包括:
获取待处理网页对应的待处理超文本文件;
从所述待处理超文本文件中提取目标内容超文本数据,所述目标内容超文本数据包括一个或多个目标超文本标签以及所述目标超文本标签对应的超文本内容;
将所述目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成所述各个目标超文本标签对应的网页对象,包括:获取所述当前超文本标签表示的当前数据类型,当所述当前数据类型为非文本数据类型时,根据所述当前超文本标签对应的当前超文本内容得到所述当前超文本标签对应的第一网页对象,当所述当前数据类型为文本数据类型时,获取所述当前超文本标签对应的当前标签类型,根据所述当前标签类型对所述当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象;
将所述各个目标超文本标签对应的网页对象组成网页对象序列。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前标签类型对所述当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象包括:
当所述当前标签类型为第一类型时,根据所述当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容;
当所述当前标签类型为第二类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成所述第二网页对象,将所述当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容。
3.根据权利要求2所述的方法,其特征在于,当前待生成的网页对象的内容存储在预设存储区域,所述根据所述当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容的步骤包括:
将所述当前超文本标签对应的当前超文本内容存储到所述预设存储区域中,作为当前待生成的网页对象的内容;
所述获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成所述第二网页对象,将所述当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容包括:
将所述预设存储区域中当前存储的存储内容作为当前待生成的网页对象的内容,根据所述预设存储区域中当前存储的存储内容生成所述第二网页对象;
删除所述预设存储区域中当前存储的存储内容,将所述当前超文本标签对应的当前超文本内容存储到所述预设存储区域中,以作为下一个待生成的网页对象的内容。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述当前超文本标签为无效标签时,将所述当前超文本标签对应的当前超文本内容替换为空格字符,将所述空格字符存储到所述预设存储区域中。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述当所述当前数据类型为非文本数据类型时,根据所述当前超文本标签对应的当前超文本内容得到所述当前超文本标签对应的第一网页对象之前还包括:
当所述当前数据类型为非文本数据类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成所述第三网页对象。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取网页超文本模板;
将所述网页对象序列中各个网页对象填充到所述网页超文本模板中,得到对应的目标网页超文本文件,所述目标网页超文本文件中所述网页对象序列中各个网页对象对应的超文本标签为块级标签。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
从所述待处理超文本文件中获取目标内容对应的动态信息和/或静态信息;
所述将所述网页对象序列中各个网页对象填充到所述网页超文本模板中,得到对应的目标网页超文本文件包括:
将所述动态信息和/或静态信息以及所述网页对象序列中各个网页对象填充到所述网页超文本模板中,得到所述目标网页超文本文件。
8.根据权利要求1所述的方法,其特征在于,所述将所述目标内容超文本数据中的各个目标超文本标签作为当前超文本标签包括:
获取所述各个目标超文本标签之间的层级关系;
根据上一个当前超文本标签的层级以及深度优先遍历算法从所述目标超文本标签中获取当前超文本标签;
所述将所述各个目标超文本标签对应的网页对象组成网页对象序列包括:
将所述各个目标超文本标签对应的网页对象按照所述各个目标超本文标签的解析顺序组成网页对象序列。
9.根据权利要求1所述的方法,其特征在于,从所述待处理超文本文件中提取目标内容超文本数据包括:
获取目标超文本路径数据;
根据所述目标超文本路径数据从所述待处理超文本文件中提取目标内容超文本数据。
10.一种网页数据处理装置,所述装置包括:
待处理文件获取模块,用于获取待处理网页对应的待处理超文本文件;
提取模块,用于从所述待处理超文本文件中提取目标内容超文本数据,所述目标内容超文本数据包括一个或多个目标超文本标签以及所述目标超文本标签对应的超文本内容;
对象生成模块,用于将所述目标内容超文本数据中的各个目标超文本标签作为当前超文本标签,生成所述各个目标超文本标签对应的网页对象,包括:获取所述当前超文本标签表示的当前数据类型,当所述当前数据类型为非文本数据类型时,根据所述当前超文本标签对应的当前超文本内容得到所述当前超文本标签对应的第一网页对象,当所述当前数据类型为文本数据类型时,获取所述当前超文本标签对应的当前标签类型,根据所述当前标签类型对所述当前超文本标签对应的当前超文本内容进行处理,得到第二网页对象;
序列组成模块,用于将所述各个目标超文本标签对应的网页对象组成网页对象序列。
11.根据权利要求10所述的装置,其特征在于,所述对象生成模块包括:
待生成对象内容得到单元,用于当所述当前标签类型为第一类型时,根据所述当前超文本标签对应的当前超文本内容得到当前待生成的网页对象的内容;
对象得到单元,用于当所述当前标签类型为第二类型时,获取当前待生成的网页对象的内容,根据当前待生成的网页对象的内容生成所述第二网页对象,将所述当前超文本标签对应的当前超文本内容作为下一个待生成的网页对象的内容。
12.根据权利要求11所述的装置,其特征在于,当前待生成的网页对象的内容存储在预设存储区域,所述待生成对象内容得到单元用于:
当所述当前标签类型为第一类型时,将所述当前超文本标签对应的当前超文本内容存储到所述预设存储区域中,作为当前待生成的网页对象的内容;
所述对象得到单元用于:
将所述预设存储区域中当前存储的存储内容作为当前待生成的网页对象的内容,根据所述预设存储区域中当前存储的存储内容生成所述第二网页对象;
删除所述预设存储区域中当前存储的存储内容,将所述当前超文本标签对应的当前超文本内容存储到所述预设存储区域中,以作为下一个待生成的网页对象的内容。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
替换模块,用于当所述当前超文本标签为无效标签时,将所述当前超文本标签对应的当前超文本内容替换为空格字符,将所述空格字符存储到所述预设存储区域中。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至9中任一项权利要求所述网页数据处理方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至9中任一项权利要求所述网页数据处理方法的步骤。
CN201810236011.8A 2018-03-21 2018-03-21 网页数据处理方法、装置、计算机设备和存储介质 Active CN110309457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810236011.8A CN110309457B (zh) 2018-03-21 2018-03-21 网页数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810236011.8A CN110309457B (zh) 2018-03-21 2018-03-21 网页数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110309457A true CN110309457A (zh) 2019-10-08
CN110309457B CN110309457B (zh) 2023-06-16

Family

ID=68073523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810236011.8A Active CN110309457B (zh) 2018-03-21 2018-03-21 网页数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110309457B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111596907A (zh) * 2020-05-19 2020-08-28 北京字节跳动网络技术有限公司 文件生成方法、装置、设备及存储介质
CN111597487A (zh) * 2020-05-06 2020-08-28 五八有限公司 页面数据获取方法、装置、电子设备及存储介质
CN113378515A (zh) * 2021-08-16 2021-09-10 宜科(天津)电子有限公司 一种基于生产数据的文本生成系统
CN116661803A (zh) * 2023-07-31 2023-08-29 腾讯科技(深圳)有限公司 多模态网页模板的处理方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140359413A1 (en) * 2013-05-28 2014-12-04 Tencent Technology (Shenzhen) Company Limited Apparatuses and methods for webpage content processing
CN106547895A (zh) * 2016-11-03 2017-03-29 北京锐安科技有限公司 一种网页信息的提取方法及装置
CN107153716A (zh) * 2017-06-06 2017-09-12 百度在线网络技术(北京)有限公司 网页内容提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140359413A1 (en) * 2013-05-28 2014-12-04 Tencent Technology (Shenzhen) Company Limited Apparatuses and methods for webpage content processing
CN106547895A (zh) * 2016-11-03 2017-03-29 北京锐安科技有限公司 一种网页信息的提取方法及装置
CN107153716A (zh) * 2017-06-06 2017-09-12 百度在线网络技术(北京)有限公司 网页内容提取方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597487A (zh) * 2020-05-06 2020-08-28 五八有限公司 页面数据获取方法、装置、电子设备及存储介质
CN111596907A (zh) * 2020-05-19 2020-08-28 北京字节跳动网络技术有限公司 文件生成方法、装置、设备及存储介质
CN113378515A (zh) * 2021-08-16 2021-09-10 宜科(天津)电子有限公司 一种基于生产数据的文本生成系统
CN116661803A (zh) * 2023-07-31 2023-08-29 腾讯科技(深圳)有限公司 多模态网页模板的处理方法、装置和计算机设备
CN116661803B (zh) * 2023-07-31 2023-11-17 腾讯科技(深圳)有限公司 多模态网页模板的处理方法、装置和计算机设备

Also Published As

Publication number Publication date
CN110309457B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
US11294968B2 (en) Combining website characteristics in an automatically generated website
US10289649B2 (en) Webpage advertisement interception method, device and browser
CN100465956C (zh) 用于向网站添加个人化的值的系统、Web服务器和方法
CN110309457A (zh) 网页数据处理方法、装置、计算机设备和存储介质
US20130326333A1 (en) Mobile Content Management System
CN101593186B (zh) 可视化网站编辑方法及可视化网站编辑系统
CN113515928B (zh) 电子文本生成方法、装置、设备及介质
CN112100550A (zh) 一种页面构建方法和装置
CN109933751B (zh) 图文绘制方法、装置、计算机可读存储介质和计算机设备
CN105426508A (zh) 网页生成方法和装置
CN108595697A (zh) 网页集成方法、装置及系统
CN105005472B (zh) 一种web上显示维吾尔文字的方法及装置
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN114791988A (zh) 一种基于浏览器的pdf文件解析方法、系统、存储介质
CN109558123B (zh) 网页转化电子书的方法、电子设备、存储介质
CN109948085A (zh) 浏览器内核初始化方法、装置、计算设备和存储介质
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN106951429B (zh) 增强网页评论显示的方法、浏览器及设备
CN115577683B (zh) 一种html富文本内容转换方法、装置、设备和介质
CN113139145B (zh) 页面生成方法、装置、电子设备及可读存储介质
KR20210098813A (ko) 텍스트 데이터 수집과 분석 장치 및 방법
CN108664511B (zh) 获取网页信息方法和装置
US20210397663A1 (en) Data reduction in a tree data structure for a wireframe
CN115599367A (zh) 能源大数据的采集、整理及建立可视化平台的方法
CN101971171A (zh) 将电子文档逐页制备为电脑图形的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant