CN109710833B

CN109710833B - 用于确定内容节点的方法与设备

Info

Publication number: CN109710833B
Application number: CN201811645127.3A
Authority: CN
Inventors: 翟光景; 田进太; 赵庆平; 刘益东
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mido Technology Co.,Ltd.
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-07-16
Anticipated expiration: 2038-12-29
Also published as: CN109710833A

Abstract

本申请的目的是提供一种用于确定内容节点的方法与设备。与现有技术相比，本申请通过获取目标文档对应的初级子节点集合，然后基于所述初级子节点集合，确定初级容器类节点，并基于所述初级容器类节点，确定各次级容器类节点及对应的相关疑似内容节点，然后基于所述对应的相关疑似内容节点，确定内容节点。通过这种方式，能够自动确定出内容节点，从而更快地实现内容抽取，而且，还能够避免遗漏相关疑似内容节点，进而提高内容节点确定的准确性。

Description

用于确定内容节点的方法与设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种用于确定内容节点的技术。

背景技术

现有技术中，新闻、资讯详情网页的内容抽取，目前的方式主要是通过制作模板的方式，这种方式通过人工针对每个不同的网站源，针对性的指定抓取的节点。人工指定抓取节点的方式有多种，可以是正则提取，也可以是记录要抓取节点的xpath(XML PathLanguage，XML路径语言)。这种方式需要大量人工制作模板，并且网页变更时模板要重新制作，因此，效率低下，浪费人力资源。

发明内容

本申请的目的是提供一种用于确定内容节点的方法与设备。

根据本申请的一个方面，提供了一种用于确定内容节点的方法，其中，所述方法包括：

a获取目标文档对应的初级子节点集合；

b基于所述初级子节点集合，确定初级容器类节点；

c基于所述初级容器类节点，确定各次级容器类节点及对应的相关疑似内容节点；

d基于所述对应的相关疑似内容节点，确定内容节点。

进一步地，其中，所述步骤b包括：

遍历所述初级子节点集合，过滤其中的清除类节点，以确定其中的初级容器类节点。

进一步地，其中，所述步骤c包括：

c1遍历所述初级容器类节点的子节点集合，确定其中的次级容器类节点及对应的相关疑似内容节点；

c2将所述次级容器类节点替换所述目标文档，循环所述步骤a至c1，直至次级容器类节点为零，以确定各次级容器类节点及对应的相关疑似内容节点。

进一步地，其中，所述步骤c1还包括：

基于所述初级容器类节点确定其中的文本类节点；

将所述文本类节点确定为相关疑似内容节点。

进一步地，其中，所述步骤d包括：

d1过滤掉所述相关疑似内容节点中满足预设规则的节点，将其他相关疑似内容节点确定为疑似内容节点；

d2基于所述疑似内容节点，确定内容节点。

进一步地，其中，所述预设规则包括以下至少任一项：

相关疑似内容节点的内容长度小于预设阈值长度；

相关疑似内容节点为符合历史经验数据的非内容节点；

相关疑似内容节点为清除类节点。

进一步地，其中，所述基于所述疑似内容节点，确定内容节点包括：

获取所述疑似内容节点的子节点集合；

过滤掉所述子节点集合中满足预定规则的子节点，以确定子节点中的标签文本；

基于所述疑似内容节点与对应的标签文本，确定内容节点。

进一步地，其中，所述基于所述疑似内容节点与对应的标签文本，确定内容节点包括：

当所述疑似内容节点的文本长度与对应的所述标签文本的文本长度的距离之差大于预设阈值，将所述疑似内容节点确定为内容节点。

进一步地，其中，所述预定规则包括以下至少任一项：

子节点的内容长度小于预设阈值长度；

符合历史经验数据的非内容节点；

子节点为清除类节点。

获取所述疑似内容节点的子节点集合；

若所述疑似内容节点的子节点存在容器类节点，确定所述疑似内容节点为内容节点。

获取所述疑似内容节点的内容长度；

当所述疑似内容节点的内容长度达到预设内容长度阈值，确定所述疑似内容节点为内容节点。

进一步地，其中，所述方法还包括：

当确定第一疑似内容节点为内容节点后，若第二疑似内容节点对应的一个或多个子节点，与所述第一疑似内容节点的父节点相同，确定所述第二疑似内容节点为真正的内容节点。

根据本申请的另一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述的方法。

根据本申请的再一方面，还提供了一种用于确定内容节点的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。

与现有技术相比，本申请通过获取目标文档对应的初级子节点集合，然后基于所述初级子节点集合，确定初级容器类节点，并基于所述初级容器类节点，确定各次级容器类节点及对应的相关疑似内容节点，然后基于所述对应的相关疑似内容节点，确定内容节点。通过这种方式，能够自动确定出内容节点，从而更快地实现内容抽取，而且，还能够避免遗漏相关疑似内容节点，进而提高内容节点确定的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于确定内容节点的方法流程图；

图2示出根据本申请一个优选实施例的一种用于确定内容节点的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。其中，本申请中的步骤a、b、c、d等等，仅是用以方便对步骤描述的标记，并不做具体限定。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及较佳实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面提供的一种用于确定内容节点的方法流程图。所述方法在设备1执行，该方法包括以下步骤：

S11获取目标文档对应的初级子节点集合；

S12基于所述初级子节点集合，确定初级容器类节点；

S13基于所述初级容器类节点，确定各次级容器类节点及对应的相关疑似内容节点；

S14基于所述对应的相关疑似内容节点，确定内容节点。

在本申请中，所述设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。

在该实施例中，在所述步骤S11中，获取目标文档对应的初级子节点集合；在此，所述目标文档是指需要解析的document，例如，获取到网页的html源码后，将网页的html源码转换成document树形结构，该document树形结构即为目标文档，例如，获取新闻或资讯详情页对应的网页html源码，然后转换成document，该document即为目标文档。本方案基于开源java浏览器框架(html unit)实现。在此，所述初级子节点包括所述目标文档对应的所有子节点，例如，目标文档中子节点有n个，则可以获取该目标文档的所有子节点集合T_n＝{n₁，n₂，n₃...}。

继续在该实施例中，在所述步骤S12中，基于所述初级子节点集合，确定初级容器类节点。

其中，如果一个节点继承如下类，则定义该节点为容器类节点：

HtmlUnknownElement、HtmlUnknownElement、HtmlFont、HtmlListItem、HtmlUnorderedList、HtmlDivision、HtmlCenter、HtmlTable、HtmlTableBody、HtmlTableRow、HtmlTableDataCell、HtmlForm等。其中，初级容器类节点是指基于初级子节点集合所确定的容器类节点，具体地，可以通过对初级子节点集合遍历的方式确定初级容器类节点。

优选地，其中，所述步骤S12包括：遍历所述初级子节点集合，过滤其中的清除类节点，以确定其中的初级容器类节点。

在该实施例中，可以通过过滤掉清除类节点的方式来确定初级容器类节点，其中，如果一个节点继承如下类，则定义该节点为清除类节点：

HtmlNoScript、HtmlScript、HtmlInlineFrame、HtmlObject、HtmlStyle、DomComment、HtmlAnchor、HtmlHiddenInput、HtmlImage、HtmlOption、HtmlOptionGroup等。

具体地，通过遍历初级子节点集合中的所有子节点，将其中的清除类节点过滤掉，剩余的其他节点可以确定为初级容器类节点。

继续在该实施例中，在所述步骤S13中，基于所述初级容器类节点，确定各次级容器类节点及对应的相关疑似内容节点。由于初级容器类节点可能存在子节点，若子节点中存在容器类节点，相当于初级容器类节点的次级容器类节点，对于子节点中的其他的非容器类节点确定为相关疑似内容节点，然后次级容器类节点可能还会存在容器类节点的子节点，相当于次级容器类节点的次级容器类节点，这样一级一级的遍历就会确定各次级容器类节点及对应的相关疑似内容节点。其中，所述相关疑似内容节点为可能是疑似内容节点的节点。

继续在该实施例中，在所述步骤S14中，基于所述对应的相关疑似内容节点，确定内容节点。在此，可以在所有相关疑似内容节点确定后再进行内容节点的确定，还可以在每一级的相关疑似内容节点确定后，基于每一级的相关疑似内容节点，确定内容节点，在本申请中不做具体的限定。

优选地，其中，所述步骤S14包括：

S141(未示出)过滤掉所述相关疑似内容节点中满足预设规则的节点，将其他相关疑似内容节点确定为疑似内容节点；

S142(未示出)基于所述疑似内容节点，确定内容节点。

在该实施例中，在所述步骤S141中，会对相关疑似内容节点进行过滤，以过滤掉其中的明显为非内容节点的节点，进而确定疑似内容节点，其中，所述疑似内容节点包括可能为内容节点的节点。具体地，会基于预设规则对相关疑似内容节点进行过滤，优选地，其中，所述预设规则包括以下至少任一项：相关疑似内容节点的内容长度小于预设阈值长度；相关疑似内容节点为符合历史经验数据的非内容节点；相关疑似内容节点为清除类节点。

其中，由于内容节点的内容长度通常情况下会达到一定的长度，例如，对于一篇新闻的内容通常会达到一定的篇幅长度，因此，对于内容长度特别小的节点不满足内容节点的长度要求，所以，当预设规则满足相关疑似内容节点的内容长度小于预设阈值长度时，确定相关疑似内容节点不是内容节点；另外，对于相关疑似内容节点为符合历史经验数据的非内容节点，例如，对于版权，网站声明等干扰节点肯定属于非内容节点，因此，会对此类非内容节点进行过滤；此外，对于符合清除类节点的相关疑似内容节点确定为非内容节点，直接进行过滤。

继续在该实施例中，在所述步骤S142中，基于所述疑似内容节点，确定内容节点。优选地，其中，所述步骤S142包括：

S1421(未示出)获取所述疑似内容节点的子节点集合；

S1422(未示出)过滤掉所述子节点集合中满足预定规则的子节点，以确定子节点中的标签文本；

S1423(未示出)基于所述疑似内容节点与对应的标签文本，确定内容节点。

在所述步骤S1421中，对于每一个疑似内容节点，获取该疑似内容节点的子节点集合，在所述步骤S1422中，对于获得的子节点集合进行过滤，以除去对于判定内容节点不起作用的子节点，具体地，基于预定规则对子节点进行过滤，优选地，其中，所述预定规则包括但不限于以下至少任一项：子节点的内容长度小于预设阈值长度；符合历史经验数据的非内容节点；子节点为清除类节点。在此，所述预定规则与对相关疑似内容节点过滤的预设规则类似，在此，不再赘述。其中，所述标签文本为超链接对应的文本，具体地，可以通过超链接标记“a”获取到对应的标签文本，该文本与具体内容无关，用以辅助判断疑似内容节点是否为内容节点。

继续在步骤S1423中，基于所述疑似内容节点与对应的标签文本，确定内容节点。例如，每个疑似内容节点对应的标签文本确定后，可以比较不同的疑似内容节点的标签文本的长度，来判断内容节点。

优选地，其中，所述步骤S1423包括：当所述疑似内容节点的文本长度与对应的所述标签文本的文本长度的距离之差大于预设阈值，将所述疑似内容节点确定为内容节点。

在该实施例中，基于经验数据的统计结果，可以获得一预设阈值，当所述疑似内容节点的文本长度与对应的所述标签文本的文本长度的距离之差大于预设阈值，该疑似内容节点可以确定为内容节点。即通过比较疑似内容节点的文本长度与子节点中所有标签文本的文本长度的距离可以判断内容节点。

优选地，其中，所述步骤S142包括：

S14221(未示出)获取所述疑似内容节点的子节点集合；

S14222(未示出)若所述疑似内容节点的子节点存在容器类节点，确定所述疑似内容节点为内容节点。

在该实施例中，可以通过判断疑似内容节点的子节点是否为容器类节点来确定内容节点，首先获取疑似内容节点的子节点集合，然后判断子节点中是否存在容器类节点，若所述疑似内容节点的子节点存在容器类节点，确定所述疑似内容节点为内容节点。

优选地，其中，所述步骤S142包括：获取所述疑似内容节点的内容长度；当所述疑似内容节点的内容长度达到预设内容长度阈值，确定所述疑似内容节点为内容节点。

在该实施例中，可以通过直接比较疑似内容节点的内容长度，将内容长度达到预设内容长度阈值的节点确定为内容节点。

优选地，其中，所述方法还包括：S15(未示出)当确定第一疑似内容节点为内容节点后，若第二疑似内容节点对应的一个或多个子节点，与所述第一疑似内容节点的父节点相同，确定所述第二疑似内容节点为真正的内容节点。

在该实施例中，由于可能判断出的内容节点为真正的内容节点的一部分，因此，当在疑似内容节点中确定出第一疑似内容节点为内容节点后，还会对其他疑似内容节点进行判断，例如，若判断出第二疑似内容节点对应的子节点与第一疑似内容节点的父节点相同，确定所述第二疑似内容节点为真正的内容节点。在该情况下，说明第二疑似内容节点为真正的内容节点，即第一疑似内容节点以及第二疑似内容节点对应的一个或多个子节点分别为真正的内容节点的一部分。

图2示出本申请一个优选实施例的一种用于确定内容节点的方法流程图，其中，图2中的步骤S21、S22、S24与图1实施例中的步骤S11、S12、S14相同或基本相同，故在此不再赘述，仅以引用的方式包含于此。

优选地，其中，所述步骤S23包括：

S231遍历所述初级容器类节点的子节点集合，确定其中的次级容器类节点及对应的相关疑似内容节点；

S232将所述次级容器类节点替换所述目标文档，循环所述步骤S21至S231，直至次级容器类节点为零，以确定各次级容器类节点及对应的相关疑似内容节点。

在该实施例中，在所述步骤S231中，获取所述初级容器类节点的子节点集合，通过对每一个子节点进行遍历，将其中为容器类节点的子节点确定为次级容器类节点，其他的节点确定为相关疑似内容节点。

继续在该实施例中，在所述步骤S232将所述次级容器类节点替换所述目标文档，循环所述步骤S21至S231，直至次级容器类节点为零，以确定各次级容器类节点及对应的相关疑似内容节点。

在该实施例中，当获取到次级容器类节点后，循环所述步骤S21至S231，即获取次级容器类节点对应的初级子节点集合，然后基于该初级子节点集合确定以次级容器类节点为目标文档的初级容器类节点，然后基于初级容器类节点，确定该情况下的次级容器类节点以及对应的相关疑似内容节点，以此进行循环，直到次级容器类节点为零。

优选地，其中，所述步骤S231还包括：S2311基于所述初级容器类节点确定其中的文本类节点并将所述文本类节点确定为相关疑似内容节点。

在该实施例中，在获取到初级容器类节点之后，会判断初级容器类节点中是否存在文本类节点，其中，如果一个节点继承如下类，则定义该节点为文本类节点：HtmlSpan、DomText、HtmlParagraph等，此类节点可能包含有内容节点，因此，会将文本类节点确定为相关疑似内容节点，以便对相关疑似内容节点进一步判断是否为内容节点。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

本申请实施例还提供了一种用于确定内容节点的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：获取目标文档对应的初级子节点集合；基于所述初级子节点集合，确定初级容器类节点；基于所述初级容器类节点，确定各次级容器类节点及对应的相关疑似内容节点；基于所述对应的相关疑似内容节点，确定内容节点。

此外，本申请中对于清除类节点、容器类节点以及文本类节点等等节点的定义可以依据本领域技术人员通用的定义，也可以根据实际的情况进行对应的定义，在本申请中不做具体限定。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于确定内容节点的方法，其中，所述方法包括：

a获取目标文档对应的初级子节点集合；

b基于所述初级子节点集合，确定初级容器类节点；

d基于所述对应的相关疑似内容节点，确定内容节点；

其中，所述步骤c包括：

c2将所述次级容器类节点替换所述目标文档，循环所述步骤a至c1，直至次级容器类节点为零，以确定各次级容器类节点及对应的相关疑似内容节点；

其中，所述基于所述对应的相关疑似内容节点，确定内容节点包括：

过滤掉所述相关疑似内容节点中满足预设规则的节点，将其他相关疑似内容节点确定为疑似内容节点；

基于所述疑似内容节点，确定内容节点；

其中，所述基于所述疑似内容节点，确定内容节点包括：

获取所述疑似内容节点的子节点集合；

基于所述疑似内容节点与对应的标签文本，确定内容节点；

其中，所述基于所述疑似内容节点与对应的标签文本，确定内容节点包括：

2.根据权利要求1所述的方法，其中，所述步骤b包括：

3.根据权利要求1所述的方法，其中，所述步骤c1还包括：

基于所述初级容器类节点确定其中的文本类节点；

将所述文本类节点确定为相关疑似内容节点。

4.根据权利要求1所述的方法，其中，所述预设规则包括以下至少任一项：

相关疑似内容节点的内容长度小于预设阈值长度；

相关疑似内容节点为符合历史经验数据的非内容节点；

相关疑似内容节点为清除类节点。

5.根据权利要求1所述的方法，其中，所述预定规则包括以下至少任一项：

子节点的内容长度小于预设阈值长度；

符合历史经验数据的非内容节点；

子节点为清除类节点。

6.根据权利要求1所述的方法，其中，所述基于所述疑似内容节点，确定内容节点包括：

获取所述疑似内容节点的子节点集合；

7.根据权利要求1所述的方法，其中，所述基于所述疑似内容节点，确定内容节点包括：

获取所述疑似内容节点的内容长度；

8.根据权利要求1至7中任一项所述的方法，其中，所述方法还包括：

9.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。

10.一种用于确定内容节点的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至8中任一项所述方法的操作。