CN114021042A - 网页内容的提取方法、装置、计算机设备和存储介质 - Google Patents

网页内容的提取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114021042A
CN114021042A CN202111266736.XA CN202111266736A CN114021042A CN 114021042 A CN114021042 A CN 114021042A CN 202111266736 A CN202111266736 A CN 202111266736A CN 114021042 A CN114021042 A CN 114021042A
Authority
CN
China
Prior art keywords
webpage
label
node
web page
model tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111266736.XA
Other languages
English (en)
Inventor
蓝煜鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Smart Healthcare Technology Co ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202111266736.XA priority Critical patent/CN114021042A/zh
Publication of CN114021042A publication Critical patent/CN114021042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种网页内容的提取方法、装置、计算机设备和存储介质。该方法包括:在关联网页数据库中查找到与关键词相匹配的至少一个网页;根据网页显示指令获取待显示网页;对待显示网页进行解析,获取网页脚本中标签的文档对象模型树;从多个模型树节点中获取标签节点;判断标签节点所对应的组件标签是否为预设类型标签;若是则提取并展示组件标签所对应的组件资源。本申请的方法能够在网页尚未真正渲染时完成符合预设规则的内容的提取,能够提高网页预设内容的提取速度和网页的展示速度,能够快速准确地实现组件资源的提取,在技术上更加容易实现,降低了开发成本和运营成本,降低了流量消耗,节约了时间成本。

Description

网页内容的提取方法、装置、计算机设备和存储介质
技术领域
本发明涉及人工智能领域,特别是涉及网页内容的提取方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的快速发展,互联网上的信息每天都以惊人的速度增长。互联网也因此成为了当前社会的主要信息来源之一。如何从网页中快速准确地抽取出相应的内容,是业界的研究热点之一。现有技术的对网页内容进行提取的技术方案实现起来较为复杂,运营成本高,信息交互过程繁琐,流量消耗大,网页的显示速度慢,时间成本高,而且准确率不够高。
发明内容
基于此,有必要针对现有技术对网页内容进行提取的技术方案实现起来较为复杂,运营成本高,信息交互过程繁琐,流量消耗大,网页的显示速度慢,时间成本高,准确率不够高的问题,提供一种网页内容的提取方法、装置、计算机设备和存储介质。
一种网页内容的提取方法,包括:
基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;
根据接收的网页显示指令,获取待显示网页;所述待显示网页为所述至少一个网页中的一个;
对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树;所述文档对象模型树包括多个模型树节点;
从所述多个模型树节点中获取标签节点;
判断所述标签节点所对应的组件标签是否为预设类型标签;
若是,则提取并展示所述组件标签所对应的组件资源。
在其中一个实施例中,所述基于网页读取应用程序接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页,包括:
将所述接收的关键词切分为一个序列;所述序列包括至少一个分词;
在所述预设的关联网页数据库中查找对应于每个所述分词的统一资源定位器;
根据各所述分词的词性,基于预设综合排序规则来确定所述序列中每一所述分词所对应的统一资源定位器在展示上的优先级;
根据所述优先级对各所述统一资源定位器所对应的网页以列表形式进行显示。
在其中一个实施例中,所述根据所述接收的网页显示指令,获取待显示网页,包括:
根据所述接收的网页显示指令,获取对应于所述网页显示指令的网页坐标;
提取所述网页坐标所对应的网页内容。
在其中一个实施例中,所述对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树,包括:
获取所述待显示网页的源代码;
对所述源代码进行解析,获取网页脚本中标签的文档对象模型树。
在其中一个实施例中,所述对所述源代码进行解析,获取网页脚本中标签的文档对象模型树,包括:
对所述源代码进行解析,获取网页脚本中标签的初始文档对象模型树;
识别并删除所述初始文档对象模型树中的广告节点,得到文档对象模型树。
在其中一个实施例中,所述从所述多个模型树节点中获取标签节点,包括:
遍历所述文档对象模型树的各节点并检查各所述节点的属性;
将所述节点的属性与预设的标签节点属性进行比对;
若所述节点的属性与所述标签节点属性相一致,则确定所述节点为标签节点;否则,确定所述节点不是标签节点。
一种网页内容的提取装置,包括:
查找模块,用于基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;
第一获取模块,用于根据接收的网页显示指令,获取待显示网页;所述待显示网页为所述至少一个网页中的一个;
解析模块,用于对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树;
第二获取模块,用于从所述多个模型树节点中获取标签节点;
判断模块,用于判断所述标签节点所对应的组件标签是否为预设类型标签;
提取显示模块,用于若是,则提取并展示所述组件标签所对应的组件资源。
在其中一个实施例中,所述查找模块包括:
切分单元,用于将所述网页读取应用程序所接收的关键词切分为一个序列;所述序列包括至少一个分词;
查找单元,用于在所述预设的关联网页数据库中查找对应于每个所述分词的统一资源定位器;
确定单元,用于根据各所述分词的词性,基于预设综合排序规则来确定所述序列中每一所述分词所对应的统一资源定位器在展示上的优先级;
显示单元,用于根据所述优先级对各所述统一资源定位器所对应的网页以列表形式进行显示。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述网页内容的提取方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述网页内容的提取方法的步骤。
上述网页内容的提取方法、装置、计算机设备和存储介质,在预设的关联网页数据库中查找到与关键词相匹配的至少一个网页,根据网页显示指令获取待显示网页,对待显示网页进行解析,获取网页脚本中标签的文档对象模型树,从多个模型树节点中获取标签节点,若标签节点所对应的组件标签为预设类型标签,则提取并展示该组件标签所对应的组件资源,从而能够在网页尚未真正渲染时完成符合预设规则的内容的提取,能够提高网页预设内容的提取速度和网页的展示速度,能够快速准确地实现组件资源的提取,在技术上更加容易实现,提高了提取准确率,降低了开发成本和运营成本,降低了流量消耗,节约了时间成本。
附图说明
图1为一个实施例中计算机设备的内部结构框图;
图2为一个实施例中网页内容的提取方法的流程图;
图3为图2中步骤S10的一个实施方式的流程图;
图4为图2中步骤S30的一个实施方式的流程图;
图5为一个实施例中网页内容的提取装置的结构框图;
图6为图5中查找模块的一个实施方式的结构框图;
图7为图5中第一获取模块的一个实施方式的结构框图;
图8为图5中解析模块的一个实施方式的结构框图;
图9为一个实施例中计算机可读存储介质的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。还应理解的是,虽然术语“第一”、“第二”、“第三”等在文本中在一些本申请实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语仅用于区分各种元素。
图1为一个实施例中计算机设备的内部结构示意图,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种网页内容的提取方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种网页内容的提取方法。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。该计算机设备可以为能够接入互联网的设备,该计算机设备上可以安装网页读取应用程序。该计算机设备可为智能手机、平板电脑、笔记本电脑或台式计算机等,但并不局限于此。
如图2所示,在一个实施例中,提出了一种网页内容的提取方法,该网页内容的提取方法,具体可以包括以下步骤:
S10、基于接收的关键词,在预设的关联网页数据库中查找到与该关键词相匹配的至少一个网页。
其中,可以通过网页读取应用程序接收用户输入的关键词。本实施例的网页读取应用程序可以是浏览器,例如可以是运行在个人计算机的浏览器,也可以是运行在智能终端例如智能手机等终端设备上的浏览器。浏览器是用来检索、展示以及传递Web信息资源的应用程序。Web信息资源由统一资源标识符(Uniform Resource Identifier,URI)所标记,它是一张网页、一张图片、一段视频或者任何在Web上所呈现的内容。使用者可以借助超级链接(Hyperlinks),通过浏览器浏览互相关联的信息。网页显示指令也可以称为浏览指令,指的是浏览网页的指令,响应于该指令,网页读取应用程序显示相应的网页。网页读取应用程序还可以是用于显示网页的网页视图类(webview类)等等。
网页读取应用程序中可以安装有搜索引擎。搜索引擎与预设的关联网页数据库相连接,关联网页数据库用于存储搜索到的关联网页的信息。所存储的信息是能够表明关联网页内容的关键词。关联网页内容包括网页本身、网页的URL地址、构成网页的代码以及进出网页的链接等。关键词例如可以为“疫情”,网页读取应用程序的搜索引擎接收到该关键词之后,会查找到与该关键词“疫情”相匹配的网页。
如图3所示,在某些实施方式中,步骤S10可以包括以下步骤:
S101、将接收的关键词切分为一个序列。
将网页读取应用程序接收的关键词切分为一个序列。该序列可以用S来表示,该关键词被切分为S={S1,S2,S3,……,Sn}。S1,S2,S3,……,Sn被称为分词。
S102、在预设的关联网页数据库中查找对应于每个分词的统一资源定位器(URL)。
统一资源定位器(uniform resource locator,URL)是因特网的万维网服务程序上用于指定信息位置的标识,用来作为万维网的地址。查找的方式指的是查找对应于每个分词的统一资源定位器时所采取的方式,例如可以是每次只针对一个分词来查找其对应的URL的查找方式,或者可以是同时针对连在一起的多个分词来查找对应的URL的查找方式,或者是同时针对多个分词——其中至少有两个分词之间有空格——来查找URL的查找方式等等。
S103、根据各分词的词性,基于预设综合排序规则来确定序列S中每一个分词所对应的URL在展示上的优先级。
预设综合排序规则可以是针对各分词的词性预先设置的查询结果展示的排序规则,具体可以根据实际需要进行设定。例如,可以设定优先级的顺序由高到低依次为:名词、动词、形容词、副词和介词。
S104、根据优先级对各URL所对应的网页以列表形式进行显示。
优先级高的显示在列表中的第一条,优先级第二高的显示在列表中的第二条,依次类推。
S20、根据接收的网页显示指令,获取待显示网页。该待显示网页为上述与该关键词相匹配的至少一个网页中的一个。
可以通过网页读取应用程序接收用户输入的网页显示指令。将与该关键词相匹配的网页列表在网页读取应用程序的界面上显示出来,网页显示指令为针对其中的一个网页的显示指令,显示指令是由用户在用户端输入的指令,例如可以是用户在智能手机等用户端上发出的触摸信号,或者也可以是用户通过点击鼠标输入到计算机的信号等等,网页读取应用程序接收用户输入的该指令。
具体地,网页列表中的第一个网页往往是与关键词匹配程度最高的那个网页,当接收到针对该第一个网页的网页显示指令时,将该第一个网页确定为待显示网页,也即待显示网页为与关键词匹配程度最高的网页。
本实施例的技术方案能够在用户的终端上实现网页中符合预设规则的网页内容信息的提取,以便对提取的信息进行相应的处理。
组件是对数据和方法的封装,组件是可复用的。组件包括插件和控件。插件是在应用程序中已经预留接口的一种组件。控件就是具有用户界面的一种组件。例如,提取嵌入网页的网页读取应用程序的播放器组件对应的组件资源(例如flash资源或其它预设类型的组件资源等),调用相应的播放器实现视频资源的播放等,从而可以降低成本。组件是一种遵循一定规范的应用程序接口编写出来的程序。
在某些实施方式中,步骤S20包括:通过网页读取应用程序根据网页显示指令获取对应于该网页显示指令的网页坐标,然后调用网页读取应用程序的接口提取该网页坐标所对应的网页内容,其中,网页内容可以包括文字、图片、视频、语音和超链接等内容。
例如,在用户端通过网页读取应用程序浏览网页时,网页读取应用程序根据用户触发的网页显示指令获取对应的网页坐标,拉取对应的网页,然后调用网页读取应用程序的接口提取该网页坐标所对应的网页内容,该网页中以组件形式嵌入有符合预设规则的视频播放器。针对不同规则的视频播放器组件,对应有按照规范编写的相应网页脚本,在打开网页时即可调用相应的视频播放器组件播放视频或音频。
S30、对上述待显示网页进行解析,获取网页脚本中标签的文档对象模型树。文档对象模型树包括多个模型树节点。
获取待显示网页的网页内容所对应的源代码,通过对网页源代码的解析,可以获得网页脚本中标签的模型树节点。
通过网页读取应用程序拉取到网页后,解析该网页,生成文档对象模型树。其中,文档对象模型(Document Object Model)是W3C组织推荐的处理可扩展置标语言的标准编程接口,是一种与平台和语言无关的应用程序接口(API),它可以动态地访问程序和脚本,更新其内容、结构和www文档的风格。文档可以进一步被处理,处理的结果可以加入到当前的网页页面。文档对象模型是一种基于树的API文档,它要求在处理过程中整个文档都表示在存储器中。
在超文本标记语言(HTML)网页脚本中,所有的元素组合在一起形成一个文档对象模型树。文档对象模型树是多叉树结构,文档对象模型树中的每一节点对应于超文本标记语言网页脚本里的一个元素,即标签(tag),标签就是用来标记HTML元素的。通过该文档对象模型树可以访问所有节点,还可以遍历或删除模型树节点,还可以对该文档对象模型树插入节点,也可以创建新的节点元素,还可以针对该文档对象模型树进行其他必要的操作。
HTML网页脚本实际上就是由许许多多各种各样的HTML元素构成的文本文件,并且任何网页浏览器都可以直接运行HTML文件。HTML元素就是构成HTML文件的基本对象。HTML元素是通过HTML标签(tag)定义的。
文档对象模型树展示了节点的集合以及各节点之间的联系。文档对象模型树从根节点开始,在文档对象模型树的最低层级向文本节点长出枝条。文档对象模型树中的各节点之间都存在等级关系,通常通过兄弟节点、父节点和子节点来描述相应的等级关系。父节点拥有子节点,位于相同层级上的子节点称为兄弟节点。兄弟节点也可以称为同级节点。
在文档对象模型树中,顶端的节点称为根节点,根节点之外的每个节点都有一个父节点,节点可以有任何数量的子节点,叶节点是没有子节点的节点,兄弟节点是拥有相同父节点的节点。因为超文本标记语言等文档数据是按照树的形式构造的,因此可以在不了解树的确切结构且不了解其中包含的数据类型的情况下对其进行遍历。
在超文本标记语言网页脚本的标签中,有一种标签类型<embed>,用于标志一种组件资源,该组件资源是使用嵌入网页读取应用程序的某种组件(例如网页读取应用程序的播放器组件)来呈现内容的。embed可以用来插入各种媒体,格式可以是Midi、Wav、AIFF、AU、MP3等。embed是HTML5中新增的标签,可以在页面中嵌入任何类型的文档,用户的机器上必须已经安装了能够正确显示文档内容的程序,一般常用于在网页中插入多媒体格式可以是rm、mid、wav等,IE、Firefox等浏览器都能支持。
在生成文档对象模型树的阶段创建网页脚本中每个标签(tag)的文档对象模型树节点,其中包括创建组件的标签(embed)节点,每一标签节点具有预设的类型(type)或分类标识(classid),用于标记组件的类型。
在某些实施方式中,步骤S30包括:
获取待显示网页的源代码;对该源代码进行解析,获取网页脚本中标签的文档对象模型树。
具体地,对源代码进行解析,获取网页脚本中标签的文档对象模型树,包括:对源代码进行解析,获取网页脚本中标签的初始文档对象模型树;所述初始文档对象模型树包括多个模型树节点;识别并删除初始文档对象模型树中的广告节点,得到文档对象模型树。
如图4所示,在某些实施方式中,步骤S30包括以下步骤:
S301、对所述待显示网页的源代码进行解析,获取网页脚本中标签的初始文档对象模型树。所述初始文档对象模型树包括多个模型树节点。
超文本标记语言(HTML)网页脚本是由多个标签嵌套组成的。标签例如包括<span>、<div>、<body>、<html>、<head>等。这些标签是嵌套的,一层套着一层。例如,<div>套着<span>、<body>套着<div>、<html>套着<body>等。在某些实施方式中,解析时可以由外向内逐层解析,把每个标签抽象成代码里的对象,按照这种层次分明的组织结构解析即得到对应的文档对象模型。其中,文档对象模型包括HTML网页脚本标签和多层节点,例如,HTML网页脚本中的标签<html>为文档对象模型的根节点,HTML网页脚本中的标签<body>为文档对象模型的子节点,即<body>为<html>的子节点。
S302、识别并删除初始文档对象模型树中的广告节点,得到文档对象模型树。
具体地,可以基于广告识别算法来识别网页内容中的广告,然后将广告所对应的节点即无效节点删除。递归遍历文档对象模型树以识别广告标识。
由于广告多以img以及backgroundImage的形式显示,因此在遍历的过程中,主要对img元素节点以及backgroundImage属性类型节点进行识别,若这些节点中存在广告节点,则删除该广告节点。
具体地,对于img元素节点进行识别,分别获取其宽度属性值和高度属性值,然后判断其宽度属性值和高度属性值是否分别位于预设宽度范围和预设高度范围内,若是,则判断该img元素节点为广告节点。img元素节点是img元素类型的小图广告标识节点,预设宽度范围和预设高度范围具体可以根据实际需要进行设定,例如预设宽度范围例如可以为[15px,45px],预设高度范围例如可以设定为[10px,25px]。px代表像素。
backgroundImage属性类型节点,以一个小的广告标识的形式在在页面中展示,并通过相对定位的方式,将该广告标识定位到真实广告图像的某个角中。对于backgroundImage属性类型节点,分别获取其宽度属性值和高度属性值,然后判断其宽度属性值和高度属性值是否分别位于预设宽度范围和预设高度范围内,若是,可以判定其为广告节点,其它的情况则不进行处理。预设宽度范围和预设高度范围具体可以根据实际需要进行设定。
S40、从多个模型树节点中获取标签节点。
具体地,S40可以包括:
遍历文档对象模型树的每一节点并检查各节点的属性;
将各节点的属性与预设的标签节点属性进行比对;
若节点的属性与预设的标签节点属性相一致,则确定该节点为标签节点,否则,确定其不是标签节点。
S50、判断所获取的标签节点所对应的组件标签是否为预设类型标签。
具体地,在通过网页读取应用程序创建组件标签节点时,获取该标签节点,并根据标签节点的类型(type)或分类标识(classid)判断该标签节点对应的组件标签是否为预设类型标签,即是否符合预设规则。
S60、若所获取的标签节点所对应的组件标签为预设类型标签,则提取并展示该组件标签所对应的组件资源。
具体地,如果所获取的标签节点所对应的组件标签为预设类型标签,即符合预设规则,则提取该组件标签所对应的组件,例如可以提取组件标签的src/url/param_url。
展示该组件标签所对应的组件资源,例如可以包括:针对视频类节点,在提取出组件标签所对应的组件资源后,可以将该组件资源传递给相应的视频播放器组件进行播放。本申请实施例的组件既可以为插件也可以为控件。
在某些实施方式中,本实施例的方法还可以包括:若不是预设类型标签,则转向步骤S40,若遍历文档对象模型树的所有节点之后都没有查找到预设类型标签,则发送用于提示出错的信息。例如,可以发送用于提示出错的信息到用户端的应用程序显示界面上显示出来。
本实施例通过上述方案,在通过网页读取应用程序浏览网页时,通过解析网页,获取网页脚本中标签的模型树节点;从模型树节点中获取组件标签节点;当所述标签节点对应的组件标签为预设类型标签时,提取所述组件标签对应的组件资源;将组件标签对应的组件资源展示出来。
本申请实施例的技术方案能够在网页尚未真正开始渲染时完成符合预设规则的内容的提取,能够提高网页预设内容的提取速度和网页的展示速度,能够在终端侧实现组件资源的提取,在技术上更加容易实现,降低了开发成本。
本申请实施例的技术方案,在预设的关联网页数据库中查找到与关键词相匹配的至少一个网页,根据网页显示指令获取待显示网页,对待显示网页进行解析,获取网页脚本中标签的文档对象模型树,从多个模型树节点中获取标签节点,若标签节点所对应的组件标签为预设类型标签,则提取并展示该组件标签所对应的组件资源,从而能够在网页尚未真正渲染时完成符合预设规则的内容的提取,能够提高网页预设内容的提取速度和网页的展示速度,能够快速准确地实现组件资源的提取,在技术上更加容易实现,降低了开发成本和运营成本,降低了流量消耗,节约了时间成本。
如图5所示,在一个实施例中,提出了一种网页内容的提取装置,包括:
查找模块,用于基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;
第一获取模块,用于根据接收的网页显示指令,获取待显示网页;所述待显示网页为所述至少一个网页中的一个;
解析模块,用于对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树;
第二获取模块,用于从所述多个模型树节点中获取标签节点;
判断模块,用于判断所述标签节点所对应的组件标签是否为预设类型标签;
提取显示模块,用于若是,则提取并展示所述组件标签所对应的组件资源。
如图6所示,在某些实施方式中,所述查找模块包括:
切分单元,用于将所接收的关键词切分为一个序列;所述序列包括至少一个分词;
查找单元,用于在所述预设的关联网页数据库中查找对应于每个所述分词的统一资源定位器;
确定单元,用于根据各所述分词的词性,基于预设综合排序规则来确定所述序列中每一所述分词所对应的统一资源定位器在展示上的优先级;
显示单元,用于根据所述优先级对各所述统一资源定位器所对应的网页以列表形式进行显示。
如图7所示,在某些实施方式中,第一获取模块包括:
获取单元,用于根据接收的网页显示指令,获取对应于所述网页显示指令的网页坐标;
提取单元,用于提取所述网页坐标所对应的网页内容。
如图8所示,在某些实施方式中,解析模块,包括:
源代码获取单元,用于获取所述待显示网页的源代码;
解析单元,用于对所述源代码进行解析,获取网页脚本中标签的文档对象模型树。
在某些实施方式中,解析单元,包括:
解析子单元,用于对所述源代码进行解析,获取网页脚本中标签的初始文档对象模型树;
识别删除子单元,用于识别并删除所述初始文档对象模型树中的广告节点,得到文档对象模型树。
在某些实施方式中,第二获取模块,包括:
遍历单元,用于遍历所述文档对象模型树的各节点并检查各所述节点的属性;
比对单元,用于将所述节点的属性与预设的标签节点属性进行比对;
标签节点确定单元,用于若所述节点的属性与所述标签节点属性相一致,则确定所述节点为标签节点;否则,确定所述节点不是标签节点。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;
根据接收的网页显示指令,获取待显示网页;所述待显示网页为所述至少一个网页中的一个;
对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树;
从所述多个模型树节点中获取标签节点;
判断所述标签节点所对应的组件标签是否为预设类型标签;
若是,则提取并展示所述组件标签所对应的组件资源。
本申请实施例的技术方案能够在网页尚未真正开始渲染时完成符合预设规则的内容的提取,能够提高网页预设内容的提取速度和网页的展示速度,能够在终端侧实现组件资源的提取,在技术上更加容易实现,降低了开发成本。
在一个实施例中,所述处理器所执行的基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页的步骤包括:
将所接收的关键词切分为一个序列;所述序列包括至少一个分词;
在所述预设的关联网页数据库中查找对应于每个所述分词的统一资源定位器;
根据各所述分词的词性,基于预设综合排序规则来确定所述序列中每一所述分词所对应的统一资源定位器在展示上的优先级;
根据所述优先级对各所述统一资源定位器所对应的网页以列表形式进行显示。
在一个实施例中,所述处理器所执行的根据所述接收的网页显示指令,获取待显示网页,包括:
根据接收的网页显示指令,获取对应于所述网页显示指令的网页坐标;
提取所述网页坐标所对应的网页内容。
在一个实施例中,所述处理器所执行的对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树,包括:
获取所述待显示网页的源代码;
对所述源代码进行解析,获取网页脚本中标签的文档对象模型树。
在一个实施例中,所述处理器所执行的对所述源代码进行解析,获取网页脚本中标签的文档对象模型树,包括:
对所述源代码进行解析,获取网页脚本中标签的初始文档对象模型树;
识别并删除所述初始文档对象模型树中的广告节点,得到文档对象模型树。
在一个实施例中,所述处理器所执行的从所述多个模型树节点中获取标签节点,包括:
遍历所述文档对象模型树的各节点并检查各所述节点的属性;
将所述节点的属性与预设的标签节点属性进行比对;
若所述节点的属性与所述标签节点属性相一致,则确定所述节点为标签节点;否则,确定所述节点不是标签节点。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;
根据接收的网页显示指令,获取待显示网页;所述待显示网页为所述至少一个网页中的一个;
对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树;
从所述多个模型树节点中获取标签节点;
判断所述标签节点所对应的组件标签是否为预设类型标签;
若是,则提取并展示所述组件标签所对应的组件资源。
在一个实施例中,所述处理器所执行的基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页的步骤包括:
将所接收的关键词切分为一个序列;所述序列包括至少一个分词;
在所述预设的关联网页数据库中查找对应于每个所述分词的统一资源定位器;
根据各所述分词的词性,基于预设综合排序规则来确定所述序列中每一所述分词所对应的统一资源定位器在展示上的优先级;
根据所述优先级对各所述统一资源定位器所对应的网页以列表形式进行显示。
在一个实施例中,所述处理器所执行的根据接收的网页显示指令,获取待显示网页,包括:
根据接收的网页显示指令,获取对应于所述网页显示指令的网页坐标;
提取所述网页坐标所对应的网页内容。
在一个实施例中,所述处理器所执行的对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树,包括:
获取所述待显示网页的源代码;
对所述源代码进行解析,获取网页脚本中标签的文档对象模型树。
在一个实施例中,所述处理器所执行的对所述源代码进行解析,获取网页脚本中标签的文档对象模型树,包括:
对所述源代码进行解析,获取网页脚本中标签的初始文档对象模型树;
识别并删除所述初始文档对象模型树中的广告节点,得到文档对象模型树。
在一个实施例中,所述处理器所执行的从所述多个模型树节点中获取标签节点,包括:
遍历所述文档对象模型树的各节点并检查各所述节点的属性;
将所述节点的属性与预设的标签节点属性进行比对;
若所述节点的属性与所述标签节点属性相一致,则确定所述节点为标签节点;否则,确定所述节点不是标签节点。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。请参考图9,其示出的计算机可读存储介质为光盘20,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施例的技术方案,在预设的关联网页数据库中查找到与关键词相匹配的至少一个网页,根据网页显示指令获取待显示网页,对待显示网页进行解析,获取网页脚本中标签的文档对象模型树,从多个模型树节点中获取标签节点,若标签节点所对应的组件标签为预设类型标签,则提取并展示该组件标签所对应的组件资源,从而能够在网页尚未真正渲染时完成符合预设规则的内容的提取,能够提高网页预设内容的提取速度和网页的展示速度,能够快速准确地实现组件资源的提取,在技术上更加容易实现,降低了开发成本和运营成本,降低了流量消耗,节约了时间成本。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网页内容的提取方法,其特征在于,包括:
基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;
根据接收的网页显示指令,获取待显示网页;所述待显示网页为所述至少一个网页中的一个;
对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树;所述文档对象模型树包括多个模型树节点;
从所述多个模型树节点中获取标签节点;
判断所述标签节点所对应的组件标签是否为预设类型标签;
若是,则提取并展示所述组件标签所对应的组件资源。
2.如权利要求1所述的网页内容的提取方法,其特征在于,所述基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页,包括:
将所述接收的关键词切分为一个序列;所述序列包括至少一个分词;
在所述预设的关联网页数据库中查找对应于每个所述分词的统一资源定位器;
根据各所述分词的词性,基于预设综合排序规则来确定所述序列中每一所述分词所对应的统一资源定位器在展示上的优先级;
根据所述优先级对各所述统一资源定位器所对应的网页以列表形式进行显示。
3.如权利要求1所述的网页内容的提取方法,其特征在于,所述根据所述接收的网页显示指令,获取待显示网页,包括:
根据所述接收的网页显示指令,获取对应于所述网页显示指令的网页坐标;
提取所述网页坐标所对应的网页内容。
4.如权利要求1所述的网页内容的提取方法,其特征在于,所述对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树,包括:
获取所述待显示网页的源代码;
对所述源代码进行解析,获取网页脚本中标签的文档对象模型树。
5.如权利要求4所述的网页内容的提取方法,其特征在于,所述对所述源代码进行解析,获取网页脚本中标签的文档对象模型树,包括:
对所述源代码进行解析,获取网页脚本中标签的初始文档对象模型树;
识别并删除所述初始文档对象模型树中的广告节点,得到文档对象模型树。
6.如权利要求1所述的网页内容的提取方法,其特征在于,所述从所述多个模型树节点中获取标签节点,包括:
遍历所述文档对象模型树的各节点并检查各所述节点的属性;
将所述节点的属性与预设的标签节点属性进行比对;
若所述节点的属性与所述标签节点属性相一致,则确定所述节点为标签节点;否则,确定所述节点不是标签节点。
7.一种网页内容的提取装置,其特征在于,包括:
查找模块,用于基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;
第一获取模块,用于根据接收的网页显示指令,获取待显示网页;所述待显示网页为所述至少一个网页中的一个;
解析模块,用于对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树;
第二获取模块,用于从所述多个模型树节点中获取标签节点;
判断模块,用于判断所述标签节点所对应的组件标签是否为预设类型标签;
提取显示模块,用于若是,则提取并展示所述组件标签所对应的组件资源。
8.如权利要求7所述的网页内容的提取装置,其特征在于,所述查找模块包括:
切分单元,用于将所述接收的关键词切分为一个序列;所述序列包括至少一个分词;
查找单元,用于在所述预设的关联网页数据库中查找对应于每个所述分词的统一资源定位器;
确定单元,用于根据各所述分词的词性,基于预设综合排序规则来确定所述序列中每一所述分词所对应的统一资源定位器在展示上的优先级;
显示单元,用于根据所述优先级对各所述统一资源定位器所对应的网页以列表形式进行显示。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述网页内容的提取方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述网页内容的提取方法的步骤。
CN202111266736.XA 2021-10-28 2021-10-28 网页内容的提取方法、装置、计算机设备和存储介质 Pending CN114021042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111266736.XA CN114021042A (zh) 2021-10-28 2021-10-28 网页内容的提取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111266736.XA CN114021042A (zh) 2021-10-28 2021-10-28 网页内容的提取方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114021042A true CN114021042A (zh) 2022-02-08

Family

ID=80058430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111266736.XA Pending CN114021042A (zh) 2021-10-28 2021-10-28 网页内容的提取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114021042A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485336A (zh) * 2023-04-21 2023-07-25 华腾建信科技有限公司 一种一页展示工作全流程的管理方法、管理系统及电子设备
CN116719986A (zh) * 2023-08-10 2023-09-08 深圳传趣网络技术有限公司 基于Python的数据抓取方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485336A (zh) * 2023-04-21 2023-07-25 华腾建信科技有限公司 一种一页展示工作全流程的管理方法、管理系统及电子设备
CN116485336B (zh) * 2023-04-21 2023-12-01 华腾建信科技有限公司 一种一页展示工作全流程的管理方法、管理系统及电子设备
CN116719986A (zh) * 2023-08-10 2023-09-08 深圳传趣网络技术有限公司 基于Python的数据抓取方法、装置、设备及存储介质
CN116719986B (zh) * 2023-08-10 2023-12-26 深圳传趣网络技术有限公司 基于Python的数据抓取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109508191B (zh) 一种代码生成方法及系统
CN109033358B (zh) 新闻聚合与智能实体关联的方法
US8762556B2 (en) Displaying content on a mobile device
US8046681B2 (en) Techniques for inducing high quality structural templates for electronic documents
CN101288067B (zh) 从电子文档组装、提取和配置内容的方法和装置
US8065667B2 (en) Injecting content into third party documents for document processing
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
US7783967B1 (en) Packaging web content for reuse
US20150067476A1 (en) Title and body extraction from web page
CN111241793B (zh) 解析富文本编辑器内容给原生客户端渲染的方法、系统及介质
US9904936B2 (en) Method and apparatus for identifying elements of a webpage in different viewports of sizes
US20130339840A1 (en) System and method for logical chunking and restructuring websites
US20030088643A1 (en) Method and computer system for isolating and interrelating components of an application
US20080098300A1 (en) Method and system for extracting information from web pages
US20080033996A1 (en) Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
JP2011003182A (ja) キーワード表示方法およびそのシステム
CN103761277A (zh) 一种ePub电子书的加载方法和系统
US10755091B2 (en) Method and apparatus for retrieving image-text block from web page
CN112417338B (zh) 一种页面适配方法、系统及设备
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN114443928B (zh) 一种网络文本数据爬虫方法与系统
US7461337B2 (en) Exception markup documents
WO2019000894A1 (zh) 一种生成文章大纲的方法和装置
US10198408B1 (en) System and method for converting and importing web site content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220920

Address after: 518066 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong, China

Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd.

Address before: 518002 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen City, Guangdong Province

Applicant before: Ping An International Smart City Technology Co.,Ltd.