CN110489625A - 一种网页数据采集模板的生成方法和装置 - Google Patents

一种网页数据采集模板的生成方法和装置 Download PDF

Info

Publication number
CN110489625A
CN110489625A CN201910690874.7A CN201910690874A CN110489625A CN 110489625 A CN110489625 A CN 110489625A CN 201910690874 A CN201910690874 A CN 201910690874A CN 110489625 A CN110489625 A CN 110489625A
Authority
CN
China
Prior art keywords
path
dom
node
template
parsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910690874.7A
Other languages
English (en)
Inventor
高体伟
陈煜东
李亚博
石欢欢
杜静
刘钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baifendian Information Science & Technology Co Ltd
Original Assignee
Beijing Baifendian Information Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baifendian Information Science & Technology Co Ltd filed Critical Beijing Baifendian Information Science & Technology Co Ltd
Priority to CN201910690874.7A priority Critical patent/CN110489625A/zh
Publication of CN110489625A publication Critical patent/CN110489625A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种采集网页数据模板的生成方法、装置、电子设备和计算机可读存储介质。该方法包括:接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径,确定选取的目标内容的DOM路径;根据所述DOM路径生成解析模板;接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板,其中,修改后的所述DOM路径中,用通配规则表示目标内容的DOM路径中的特殊属性值;所述目标解析模板用于对所述网页中的目标元素进行采集。

Description

一种网页数据采集模板的生成方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种采集网页数据的方法、装置、电子设备和计算机可读存储介质。
背景技术
现有技术中,在抓取网页数据时,通常使用可扩展标记路径语言(XPath,XML PathLanguage)或用来指定可扩展标记语言(XML,eXtensible Markup Language)路径的选择器在网页中寻找指定位置的超文本标记语言(html,Hyper Text Markup Language)标签,然后通过html标签来识别路径进行目标数据的定位,这种定位方式通常使用html标签的名称、顺序、class、id作为标签定位规则。
这种定位方式可用于抽取网页内的特定元素,比如抽取某一论坛中的“主题、时间、评论量”,由于“主题、时间、评论量”可能为标签名称相同、但id不同或者class不同的元素,那么需要根据上述定位方式对这些目标元素分别编写定位代码,实现对不同目标元素的抓取。
虽然对各目标元素编写的定位代码可以实现对目标元素的抓取,但是针对不同的目标元素需要分别编写定位代码的实现方式,通用能力较弱。
发明内容
本申请实施例提供一种网页数据采集模板的方法和装置,解决了现有技术中抓取网页数据通用能力较弱的问题,实现了单模板抽取页面全部目标元素的能力。
本申请实施例采用下述技术方案:
一种采集网页数据模板的生成方法,包括:
接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径;
根据所述DOM路径生成解析模板;
接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板,其中,修改后的所述DOM路径中,用通配规则表示目标内容的DOM路径中的特殊属性值;
所述目标解析模板用于对所述网页中的目标元素进行采集。
一种采集网页数据模板的生成装置,包括:
接收模块,用于接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径;
生成模块,用于根据所述DOM路径生成解析模板;
修改模块,用于接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板,其中,修改后的所述DOM路径中,用通配规则表示目标元素的DOM路径中的特殊属性值;
所述目标解析模板用于对所述网页中的目标元素进行采集。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
接收选取的目标元素确定DOM路径,在根据所述DOM路径生成解析模板,并接收用户对所述解析模板中的DOM路径的修改操作的技术手段,一次选定至少一个目标元素,由选定的至少一个目标元素生成一套模板,可以实现单个模板同时抓取选定的各目标元素,在用通配规则表示根据选定的目标元素的DOM路径中的特殊属性值,进而可以实现单个模板抓取全部目标元素的能力。也就是说,上述技术方案克服了现有技术需要针对不同元素分别编写定位代码,通用能力较弱的问题,实现了单个解析模板可以抓取页面全部目标元素的能力,使得作为模板更加通用的抽取页面所需全部目标数据。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例一提供的采集网页数据模板的生成方法流程示意图;
图2为本申请实施例一提供的解析模板具体生成步骤的流程示意图;
图3为本申请实施例二提供的采集网页数据模板的生成装置结构示意图;
图4为本申请实施例二提供的解析模板具体生成装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例一
现有技术中,虽然对各目标元素编写的定位代码可以实现对目标元素的抓取,但是针对不同的目标元素需要分别编写定位代码的实现方式,通用能力较弱。
为解决上述技术问题,本申请实施例1提供了一种网页数据采集模板的生方法,用于更加通用的抽取页面所需数据。该方法的流程示意图如图1所示,包括下述步骤:
步骤S11:接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的文档对象模型(Document Object Model,DOM)路径。
这里所描述的元素是用于组成网页页面的元素,所述元素可以包括文本元素、图片元素、音频元素等。那么目标元素可以是至少一种用户想要抓取的页面元素,目标元素还可以是不同的文本元素,也可以是各种元素的排列组合等,本申请对选取的目标元素种类或数量等不做限定。
针对元素的选取指令可以是用户在选取所需的元素后,通过前端页面向系统发送的指令。在实际应用中,可以预先将网页全部元素展示在元素选择区,该元素选择区中可以包含对元素的选取操作进行响应的控件,那么,这里接收到的选取指令可以是针对元素选择界面中元素的选取操作所触发的。在实际应用中,还可以在元素选择区突显用户选取的元素,该元素选择区中还可以包含响应选取操作的突显控件。这里的突显可以是选取元素高亮、加粗、荧光标记等,对此本申请不做限制。
用户在元素选择区中执行选取操作后,便可以向系统发送选取指令,在实际应用中,可以在每次检测到用户针对某一元素的选取操作后便发送选取指令;也可以是在检测到用户针对元素选取区中的第一统一提交控件的操作后,再发送选取指令,本申请对此不做限定。其中,这里的第一统一提交控件可以响应用户的操作,发送选取指令。
系统接收用户选取的目标元素后,可以根据选取的目标元素生成DOM路径。在实际应用中,生成的DOM路径可以展示在DOM路径显示编辑区,以便用户可以对DOM路径进行初步编辑操作,这里的DOM路径显示编辑区可以包含对DOM路径的编辑操作进行响应的控件。这里的编辑操作可以是增加、删除、修改、查看以及确认DOM路径的操作。用户在DOM路径显示编辑区中执行编辑操作后,便可以向系统发送编辑指令,在实际应用中,可以在每次检测到用户编辑操作后便发送编辑指令;也可以是在检测到用户在编辑区中的第二统一提交控件的操作后,再发送编辑指令,本申请对此不做限定。其中,这里的第二统一提交控件可以响应用户的操作,发送编辑指令。
本申请中,DOM路径可以根据DOM树中根节点到子节点的路径生成。文档对象模型(Document Object Model,DOM)是一套定义了访问XML和HTML文档的标准接口规范,它允许程序和脚本动态的访问和更新文档的内容、结构和样式。DOM树可以由基于DOM的HTML分析器,将HTML文档转换成的一个对象模型的集合,而HTML文档可以被称为网页。根据HTML DOM标准,HTML文档中的所有内容都是节点:整个文档是一个文档节点,每个HTML元素是元素节点,HTML元素内的文本是文本节点,每个HTML属性是属性节点等。整个网页可以根据上述HTML DOM标准生成对应的DOM树,通过DOM树可以清楚每个DOM节点之间的关系,例如,本节点与上个节点,本节点与下个节点,与本节点并列的节点等。在实际应用中,通过DOM树获取目标元素所在路径的DOM节点以及对应的节点信息和属性信息,可以使用向上获取或向下获取等程序遍历方法,本申请对此不作限制。这里的节点信息可以包括节点名称以及本节点在DOM树中同级、同名节点的序号。这里的属性信息可以包括与本节点对应的id属性、class属性等。本申请通过DOM树获取页面的元素信息,可以提高解析模板生成速度和准确性。
本实施例可以给予用户更好的人机交互体验,通过显示页面元素、突显选定元素、显示DOM路径和可编辑DOM路径等方式,使得整个选取目标元素的过程更加直观。同时,通过DOM树获取DOM路径及DOM节点中的节点信息和属性信息,可以提高解析模板生成速度和准确性。
步骤S12:根据所述DOM路径生成解析模板。
所述解析模板,可以采用XML格式规范生成。这里的XML格式规范可以包括:遵循树状结构,拥有唯一的根节点;开始标签与结束标签相匹配,例如:<div></div>不能是<div>;所有的元素必须正确的嵌套,不能交叉嵌套;元素区分大小写;需要自定义标签;属性必须要有值,值必须用引号引起来等。采用XML格式规范可以使得解析模板结构清晰,便于阅读和维护。本实施例中,基于XML格式的解析模板可以由多级模板节点组成,其中,每级节点可以自定义标签含义。那么,解析模板中的各级节点可以根据不同的节点标签含义标识不同的内容。同时,解析模板根据一定规范生成,也使得解析模板具备良好的可读性以及可维护性。
目标元素的DOM路径,可以是至少一条选取的目标元素的DOM路径。DOM路径可以理解为多级DOM节点,每级DOM节点包括节点名称、节点id属性、节点class属性和本节点在DOM树中同级、同名节点的序号等信息。本实施例中,可以将DOM节点中节点名称、节点id属性、节点class属性和所述序号,根据DOM节点所在的路径层级,赋值给上述解析模板中的每级节点的路径属性中。这里的赋值,可以是通过程序遍历DOM树,根据每个DOM节点之间的关系,分割DOM路径,将分割的DOM路径根据自定义标签含义,赋值给对应解析模板的各级节点的路径属性中。本实施例中,可以将用户选取的至少一个目标元素的DOM路径,根据上述方法,生成一个解析模板。
步骤S13:接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板。
在实际应用中,这里的解析模板可以展示在模板显示编辑区,该模板显示编辑区中可以包含对解析模板的编辑操作进行响应的控件,那么,这里接收到的编辑操作可以是针对模板显示编辑区中解析模板的编辑操作所触发的。这里的编辑操作可以包括修改、删除、增加、查看以及确定等操作。
用户在显示编辑区中执行编辑操作后,在实际应用中,可以在每次检测到用户针对解析模板编辑操作后确认保存解析模板;也可以是在检测到用户在显示编辑区的第三统一提交控件的操作后,再确认保存解析模板,本申请对此不做限定。其中,这里的第三统一提交控件可以响应用户的操作,确认保存解析模板。
由于解析模板是根据DOM路径生成的,这里的对解析模板的编辑操作可以主要包括对解析模板中的DOM路径的修改。
本实施例中,根据用户选取的至少一个目标元素所对应的DOM路径生成的解析模板,可能未抓取到全部目标元素,那么接下来,可以对DOM路径进行修改操作以实现目标解析模板可以抓取全部目标元素的能力。
这里的修改操作,可以用通配规则表示选取的目标元素的DOM路径中的特殊属性值。这里的通配规则,可以是预先定义的用来表示特殊属性值的规则,比如可以是使用通配符表示DOM路径中的DOM节点的特殊属性值,也可以是删除DOM路径中的DOM节点的特殊属性值等方法。这里的特殊属性值可以是使得解析模板无法同时抓取全部目标元素的DOM路径中的属性,特殊属性值包括下述至少一种:DOM节点的节点名称、节点id属性、节点class属性和序号。例如,某些唯一限定路径的属性值,或者某些与已抓取到的元素的DOM路径中不同的属性值,或者某些导致已抓取到的元素中主题或链接缺失的属性值等。
在实际应用中,代码通常按照规则执行,该规则往往包括顺序、嵌套、循环等,那么所述解析模板同样按照顺序嵌套等规则执行,具体可以包括,按照各级节点的路径属性标识的路径执行。由于某些特殊属性值,仅标识某特定路径下的元素,而不是全部目标元素,那么可以对DOM路径中的某些特殊属性值进行上述通配规则式的修改。解析程序识别到某一属性值为某一通配符时,可以根据当前节点标签的路径属性中的DOM节点名称、id属性值、class属性值和序号,确定同级范围,从而确定所有符合规则的节点标签后沿路径属性标识的路径继续执行。
举例来说:某论坛列表页有80条帖子,而解析模板抓取结果却仅显示40条,这时对比已抓取到的帖子和未抓取到的帖子的DOM路径,发现该问题是由于解析模板中某级标签中DOM路径中的某一id属性值不同导致的,那么可以删除解析模板中的所述id属性值,而由于删除了某DOM节点中的id属性值,那么此DOM节点的序号就无法标识本节点在同级同名中的顺序,所以可以修改本级DOM节点的序号为通配符“*”。当解析程序识别到id为空,序号为“*”时,在确定同级范围后,根据相同的标签名称、相同的class属性值确认所有符合此规则的节点标签,从而沿确认的所有节点标签中路径属性标识的路径继续执行,便可以抓取到其他部分数据。
需要注意的是,上述例子中是本申请实施例可以实现找到特殊属性值的一个方式,并不代表本申请一个或多个实施例中确认特殊属性值的全部方式。例如,针对各页面元素中某些属性值不同的数字串,可以判断这些数字串在目标网页是否标识唯一的页面元素,如果是,则该字符串为特殊属性值。对如何找到特殊属性值的方式,本申请对此不做限制。
本实施例中,通过步骤S13得到目标解析模板之后,可以利用所述目标解析模板,对网页中的全部目标元素进行采集。
在实际应用中,某个网站中多个页面的页面布局、数据格式等可能相似或相同,本申请实施例中生成的解析模板,同样可以解析这些相同甚至相似的页面。当发现数据有采集不全的情况,也可以通过对解析模板的简单修改,修改方式可以采用上述步骤S13中所述的方法,实现同一模板对不同页面的页面元素的采集,使得本申请中生成的解析模板更有通用能力。
本申请实施例通过接收用户对网页中任一标签下的目标内容的选取指令,确定用户选取的目标内容的DOM路径,根据所述DOM路径生成解析模板,接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板的方法,使得在抓取网页数据时不需要针对每个特定元素编写程序代码,甚至不需要针对相同或相似的不同页面分别编写程序代码,而只需要通过对生成的解析模板中的DOM路径进行通配规则式的修改,可以实现单个解析模板抓取页面全部目标元素的能力,使得作为模板更加通用的抽取页面所需数据。
在本申请一个或多个实施例中,根据所述DOM路径生成解析模板,具体可以通过下述方式实现,具体流程示意图如图2所示:
步骤S121:将步骤S11中生成的DOM路径转换成字符串表示,从上文得知,DOM路径可以是DOM树从根节点到子节点的路径,DOM路径表示多级DOM节点,那么在本实施例中所述字符串中包含多级DOM节点,在这里,每级节点之间用字符“/”分割,例如:
“html@@@0/body@@@0/div@@bt_page@1/form@moderate@@0/div@page@line-bg@1/….../td@@author@2”
其中,整个DOM路径表示成一串字符串。可以根据DOM树中每个DOM节点之间的关系,分割DOM路径,具体来说,可以根据DOM节点所在DOM路径的层级关系,分割上述字符串为多个子字符串。其中,一个子字符串可以包括一个DOM节点,也可以包括多个DOM节点,所述子字符串表征至少一个DOM节点。
所述子字符串包括DOM节点的节点名称、节点id属性、节点的class属性和序号中的至少一种。其中,所述序号表征本节点在所述DOM路径中同级、同名节点的顺序,在这里,序号可以从0开始,由程序根据DOM路径中本节点的同级、同名节点的顺序自动判断生成,例如:div@page@line-bg@1表示节点名称是div,id属性为page,class属性为line-bg,本节点是同级、同名节点的第2个。
通过字符串表示DOM路径可以方便的将DOM节点中的节点信息和属性信息进行赋值,以便生成解析模板,并使得解析模板更容易查看和修改。
步骤S122:根据所述字符串中子字符串所在的路径层级,将所述字符串中的子字符串赋值给所述解析模板中的各级节点的路径属性。
从上文中得知,解析模板可以采用XML格式规范生成,那么本实施例中的解析模板可以采用上述规范,自定义每级节点含义。在本实施例中,自定义一级节点标签,用于标识所述DOM路径中的共有部分;自定义二级节点标签,用于标识所述DOM路径中同级的多个并列元素;自定义三级节点标签,用于标识DOM路径中目标内容所在的节点。
接下来,可以将步骤S121中分割好的子字符串,根据每个DOM节点在DOM路径中的层级关系,将各子字符串根据上述各级节点标签定义规则,赋值给上述解析模板中各级节点标签的路径属性中。在这里,路径属性可以是每级节点标签的必有属性,用于标识解析模板识别路径。
具体来说,可以将所述路径层级中共有的子字符串赋值给解析模板的一级节点标签的路径属性;可以将所述路径层级中同级的多个并列子字符串赋值给解析模板的二级节点标签的路径属性;将所述路径层级中目标元素所在子字符串赋值给解析模板的三级节点标签的路径属性。例如:用“fld”表示三级节点,也就是说,三级节点的标签为fld,那么将目标元素所在子字符串赋值给解析模板的三级节点标签的路径属性,在解析模板中可以表示为<fld path=”/td@@author@2”>。
在实际应用中,考虑到HTML文档中的全部内容必然包含于一个html节点标签区间下的body标签区间内,所以在本申请实施例中,可以不将此公共节点赋值给解析模板中的节点路径属性,可以在一定程度上节省解析模板的所占空间,使得解析模板更加简洁,并提高解析速度。
通过将DOM路径及每级节点中的名称、id、class及序号转换成字符串表示,并根据上述解析模板的各级节点定义规则及DOM路径中DOM节点的层级关系,将字符串中的子字符串赋值给解析模板的各级节点的路径属性的方法,可以更加直观的了解模板的生成过程。其中,通过字符串表示DOM路径可以方便的将DOM节点中的节点信息和属性信息进行赋值,以便生成解析模板,并使得解析模板更容易查看和修改。同时,解析模板根据一定规范生成,也使得解析模板具备良好的可读性以及可维护性。
本申请实施例一,通过接收选取的目标元素确定DOM路径,在根据所述DOM路径生成解析模板,并接收用户对所述解析模板中的DOM路径的修改操作的技术手段,一次选定至少一个目标元素,由选定的至少一个目标元素生成一套模板,可以实现单个模板同时抓取选定的各目标元素,在用通配规则表示根据选定的目标元素的DOM路径中的特殊属性值,进而可以实现单个模板抓取全部目标元素的能力。也就是说,上述技术方案克服了现有技术需要针对不同元素分别编写定位代码,通用能力较弱的问题,实现了单个解析模板可以抓取页面全部目标元素的能力,使得作为模板更加通用的抽取页面所需全部目标数据。
实施例二
以上为本申请实施例一所提供的采集网页数据模板的生成方法,基于相同的发明构思,本申请实施例二还提供了相应的采集网页数据模板的生成装置。如图3所示,该装置具体包括:
选取模块21,用于接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径;
生成模块22,用于根据所述DOM路径生成解析模板;
编辑模块23,用于接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板,其中,修改后的所述DOM路径中,用通配规则表示目标元素的DOM路径中的特殊属性值。
上述装置实施例的具体工作流程是:选取模块21接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径,然后由生成模块22根据接收模块21生成的DOM路径生成解析模板,接下来,用户在修改模块23对生成模板21生成的解析模板中的DOM路径进行修改,其中,修改后的DOM路径,用通配规则表示目标元素的DOM路径中的特殊属性值。
在实际应用中,解析模板生成的具体实施方式有多种,在一种实施方式中,为了使解析模板具有良好的可读性以及可维护性,所述生成装置22,可以采用下述规则生成解析模板:
可以采用XML格式规范生成解析模板,具体包括:遵循树状结构,拥有唯一的根节点;开始标签必须与结束标签相匹配,例如:<div></div>不能是<div>;所有的元素必须正确的嵌套,不能交叉嵌套;元素区分大小写;需要自定义标签;属性必须要有值,值必须用引号引起来等。
本实施例中的解析模板采用上述XML格式规范,其中,可以自定义每级节点标签含义。那么在本实施例中,自定义一级节点标签,用于标识所述DOM路径中的共有部分;自定义二级节点标签,用于标识所述DOM路径中同级的多个并列元素;自定义三级节点标签,用于标识DOM路径中目标内容所在的节点。
在一种实施方式中,为了便于对解析模板进行修改操作,具体来说,为了便于对解析模板中的DOM路径进行修改操作,所述生成模块,可以包括具体生成解析模板的转换模块221和赋值模块222,生成模块的结构示意图见图4,具体包括:
转换模块221,用于将选取模板21中生成的DOM路径转换成字符串;
赋值模块222,用于根据转换模块221中生成的字符串中子字符串的路径层级,将所述字符串中的子字符串赋值给所述解析模板中的各级节点的路径属性。
从上文得知,DOM路径可以理解为多级DOM节点,每级DOM节点包括节点名称、节点id属性节点class属性和本节点在DOM树中同级、同名节点的序号等信息。在本实施例中,所述子字符串表征至少一个DOM节点,具体包括DOM节点的节点名称、节点id属性、节点的class属性和序号中的至少一种。
本实施例中,这里的赋值,可以是通过程序遍历DOM树,根据每个DOM节点之间的关系,分割DOM路径,将分割的DOM路径,具体来说,将分割的各子字符串根据上述解析模板的定义规则,赋值给解析模板中对应的层级标签的路径属性中。
具体来说,可以将所述路径层级中共有的子字符串赋值给解析模板的一级节点标签的路径属性;可以将所述路径层级中同级的多个并列子字符串赋值给解析模板的二级节点标签的路径属性;将所述路径层级中目标元素所在子字符串赋值给解析模板的三级节点标签的路径属性。
本申请实施例中,通过采用XML格式规范,将DOM路径转换成字符串,将字符串中的子字符串赋值给解析模板对应节点的路径属性中等生成解析模板的方法,使得解析模板具有了良好的可读性和可维护性,为了之后生成具有通用解析能力的解析模板打下了基础。
在一种实施方式中,为了提高人机交互体验,所述装置还包括显示模块20,用于在接收用户输入的网页地址后,加载显示全部网页元素,并在接收用户选取的至少一个目标元素后,突显选定的目标元素,还可以根据选定的至少一个目标元素显示对应的DOM路径。这里的显示模块24可以包括DOM路径编辑控件,可以对显示的DOM路径进行初步编辑操作,其中,这里的编辑操作可以包括:对选定的目标元素生成的DOM路径的初步修改、增加、删除、查看、确定等操作。
在一种实施方式中,这里的编辑模块23,具体包括:对解析模板内容的增加、删除、修改、查看以及对解析模板的确认等操作。其中,主要为对解析模板的修改操作,具体来说,是对解析模板中的DOM路径修改的操作。在本实施例中,修改的方式可以包括用通配规则表示DOM路径中的特殊属性值,具体可以与上述实施例一中描述的修改方式一致,在本实施例中不在赘述。其中,其他增加、删除、查看以及确认等操作是对解析模板的常规编辑手段,对此本申请不做限制。通过编辑模块23,可以生成目标解析模板,利用所述目标解析模板可以实现对页面全部目标元素的抓取。
在一种实施方式中,所述装置还可以包括采集模块24,用于利用所述目标解析模板,对所述网页中的目标元素进行采集。
在实际应用中,类似论坛、新闻、购物等展示大量信息点的网站中大都包含多个页面,那么其中多个页面的页面布局、数据格式等大都相似或相同。本申请实施例中生成的解析模板,同样可以解析这些相同甚至相似的页面,而不需要针对每个页面编写对应的采集代码。可能发现数据有采集不全的情况,也可以通过编辑模块23对解析模板的简单修改,修改方式可以采用上述实施例一中所述的方法,这样实现了同一模板对不同页面的页面元素的采集,使得本申请中生成的解析模板更有通用能力。
本申请实施例二,通过选取模块21接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径;生成模块22根据接收模块21生成的DOM路径生成解析模板;修改模块23对生成模板21生成的解析模板中的DOM路径进行修改等组成的装置生成的解析模板,其中,一次选定至少一个目标元素,由选定的至少一个目标元素生成一套模板,可以实现单个模板同时抓取选定的各目标元素,再用通配规则表示根据选定的目标元素的DOM路径中的特殊属性值,进而可以实现单个模板抓取全部目标元素的能力。也就是说,本申请实施例二的技术方案,同样克服了现有技术需要针对不同元素分别编写定位代码,通用能力较弱的问题,实现了单个解析模板可以抓取页面全部目标元素的能力,使得作为模板更加通用的抽取页面所需全部目标数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种网页数据采集模板的生成方法,其特征在于,包括:
接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径;
根据所述DOM路径生成解析模板;
接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板,其中,修改后的所述DOM路径中,用通配规则表示目标元素的DOM路径中的特殊属性值;
所述目标解析模板用于对所述网页中的目标元素进行采集。
2.如权利要求1所述的方法,其特征在于,所述根据所述DOM路径生成解析模板,具体包括:
将所述DOM路径转换成字符串表示;
根据所述字符串中子字符串的路径层级,将所述字符串中的子字符串赋值给所述解析模板中的各级节点的路径属性。
3.如权利要求2所述的方法,其特征在于:
所述子字符串表征至少一个DOM节点;
所述子字符串包括DOM节点的节点名称、节点id属性、节点的class属性和序号中的至少一种,其中,所述序号表征本节点在所述DOM路径中同级、同名节点的顺序。
4.如权利要求2所述的方法,其特征在于,所述解析模板的各级节点包括:
一级节点,所述一级节点用于标识所述DOM路径中的共有部分;
所述解析模板的节点还包括:二级节点,所述二级节点用于标识所述DOM路径中同级的多个并列元素;
所述解析模板的节点还包括:三级节点,所述三级节点用于标识DOM路径中目标元素所在的节点。
5.如权利要求2所述的方法,其特征在于,根据所述字符串中子字符串的路径层级,将所述字符串中的子字符串赋值给所述解析模板中的各级节点的路径属性,具体包括:
将所述路径层级中共有的子字符串赋值给解析模板的一级节点的路径属性;
将所述路径层级中同级的多个并列子字符串赋值给解析模板的二级节点的路径属性;
将所述路径层级中目标元素所在层级的子字符串赋值给解析模板的三级节点的路径属性。
6.一种网页数据采集模板的生成装置,其特征在于,包括:选取模块,生成模块,编辑模块,其中:
所述选取模块,用于接收对网页中至少一个目标元素的选取指令,确定选取的目标元素的DOM路径;
所述生成模块,用于根据所述DOM路径生成解析模板;
所述编辑模块,用于接收用户对所述解析模板中DOM路径的修改操作得到目标解析模板,其中,修改后的所述DOM路径中,用通配规则表示目标元素的DOM路径中的特殊属性值;
所述目标解析模板用于对所述网页中的目标元素进行采集。
7.如权利要求6所述的装置,其特征在于,所述生成模块,具体包括:
将所述DOM路径转换成字符串表示;
根据所述字符串中子字符串的路径层级,将所述字符串中的子字符串赋值给所述解析模板中的各级节点的路径属性。
8.如权利要求6所述的装置,其特征在于,所述解析模板的各级节点包括:
一级节点,所述一级节点用于标识所述DOM路径中的共有部分;
所述解析模板的节点还包括:二级节点,所述二级节点用于标识所述DOM路径中同级的多个并列元素;
所述解析模板的节点还包括:三级节点,所述三级节点用于标识DOM路径中目标元素所在的节点。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所在存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的网页数据采集模板的生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的网页数据采集模板的生成方法的步骤。
CN201910690874.7A 2019-07-29 2019-07-29 一种网页数据采集模板的生成方法和装置 Pending CN110489625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910690874.7A CN110489625A (zh) 2019-07-29 2019-07-29 一种网页数据采集模板的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910690874.7A CN110489625A (zh) 2019-07-29 2019-07-29 一种网页数据采集模板的生成方法和装置

Publications (1)

Publication Number Publication Date
CN110489625A true CN110489625A (zh) 2019-11-22

Family

ID=68548603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910690874.7A Pending CN110489625A (zh) 2019-07-29 2019-07-29 一种网页数据采集模板的生成方法和装置

Country Status (1)

Country Link
CN (1) CN110489625A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955428A (zh) * 2019-11-27 2020-04-03 北京奇艺世纪科技有限公司 一种页面显示方法、装置、电子设备及介质
CN111221610A (zh) * 2020-01-03 2020-06-02 中国建设银行股份有限公司 一种页面元素采集方法和装置
CN111488544A (zh) * 2020-03-31 2020-08-04 腾讯科技(深圳)有限公司 网页相似子元素的确定方法、装置、设备和存储介质
CN115690975A (zh) * 2022-10-27 2023-02-03 宝信软件(成都)有限公司 城市轨道交通线网管理门禁授权方法、系统、终端及介质
CN117056637A (zh) * 2023-09-26 2023-11-14 之江实验室 无障碍网页生成方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置
CN102253937A (zh) * 2010-05-18 2011-11-23 阿里巴巴集团控股有限公司 获取网页中的感兴趣信息的方法及相关装置
CN104217036A (zh) * 2014-10-08 2014-12-17 广州华多网络科技有限公司 一种网页内容提取方法和设备
CN107220250A (zh) * 2016-03-21 2017-09-29 北大方正集团有限公司 一种模板配置方法及系统
CN108255975A (zh) * 2017-12-27 2018-07-06 东软集团股份有限公司 模板构建方法、页面内容抓取方法及装置、介质及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置
CN102253937A (zh) * 2010-05-18 2011-11-23 阿里巴巴集团控股有限公司 获取网页中的感兴趣信息的方法及相关装置
CN104217036A (zh) * 2014-10-08 2014-12-17 广州华多网络科技有限公司 一种网页内容提取方法和设备
CN107220250A (zh) * 2016-03-21 2017-09-29 北大方正集团有限公司 一种模板配置方法及系统
CN108255975A (zh) * 2017-12-27 2018-07-06 东软集团股份有限公司 模板构建方法、页面内容抓取方法及装置、介质及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAUNCYTANG: "《https://blog.csdn.net/fouerror/article/details/80683676?utm_source=app&app_version=4.14.0》", 13 June 2018 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955428A (zh) * 2019-11-27 2020-04-03 北京奇艺世纪科技有限公司 一种页面显示方法、装置、电子设备及介质
CN111221610A (zh) * 2020-01-03 2020-06-02 中国建设银行股份有限公司 一种页面元素采集方法和装置
CN111221610B (zh) * 2020-01-03 2023-07-04 建信金融科技有限责任公司 一种页面元素采集方法和装置
CN111488544A (zh) * 2020-03-31 2020-08-04 腾讯科技(深圳)有限公司 网页相似子元素的确定方法、装置、设备和存储介质
CN111488544B (zh) * 2020-03-31 2023-02-24 腾讯科技(深圳)有限公司 网页相似子元素的确定方法、装置、设备和存储介质
CN115690975A (zh) * 2022-10-27 2023-02-03 宝信软件(成都)有限公司 城市轨道交通线网管理门禁授权方法、系统、终端及介质
CN117056637A (zh) * 2023-09-26 2023-11-14 之江实验室 无障碍网页生成方法、装置、计算机设备和存储介质
CN117056637B (zh) * 2023-09-26 2024-03-12 之江实验室 无障碍网页生成方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN110489625A (zh) 一种网页数据采集模板的生成方法和装置
JP4997749B2 (ja) 文書処理方法、プログラム及びシステム
US8959116B2 (en) Storage of a document using multiple representations
KR101961970B1 (ko) 실행 페이지의 동적 갱신 기법
JP2002318798A (ja) 構造化文書翻訳におけるユーザ制御可能なデータをグループ化する方法およびシステム
US20070204215A1 (en) Device for analyzing log files generated by process automation tools
US20170154019A1 (en) Template-driven transformation systems and methods
CN106354483B (zh) 一种数据处理方法、装置及电子设备
CN104217036A (zh) 一种网页内容提取方法和设备
US20100185684A1 (en) High precision multi entity extraction
KR20120051419A (ko) 종속형 스타일 시트 규칙 추출 장치 및 방법
CN114945911A (zh) 使用自然语言处理从非结构化文档中提取信息并将非结构化文档转换为结构化文档
CN101950312A (zh) 一种互联网网页内容解析方法
CN104142985A (zh) 一种半自动化的垂直爬虫生成工具及方法
CN107015839A (zh) 一种实现前端事件代理的方法及装置
CN113177168B (zh) 一种基于Web元素属性特征的定位方法
CN107220250A (zh) 一种模板配置方法及系统
Uzun et al. An effective and efficient Web content extractor for optimizing the crawling process
CN110460461B (zh) Yang模式语言到命令行的映射方法及系统
CN104346174A (zh) 一种在线矢量图建模过程的描述与重现方法
US20080005085A1 (en) Server Device and Search Method
US20220374405A1 (en) Regulatory tree parser
WO2007052680A1 (ja) 文書処理装置及び文書処理方法
KR20050071720A (ko) 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치
US20100138735A1 (en) Document processing device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100081 No.101, 1st floor, building 14, 27 Jiancai Chengzhong Road, Haidian District, Beijing

Applicant after: Beijing PERCENT Technology Group Co.,Ltd.

Address before: 100081 16 / F, block a, Beichen Century Center, building 2, courtyard 8, Beichen West Road, Chaoyang District, Beijing

Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122