CN106407392A

CN106407392A - 一种基于标记语言的节点映射关系抽取方法及系统

Info

Publication number: CN106407392A
Application number: CN201610832306.2A
Authority: CN
Inventors: 孙超
Original assignee: BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Current assignee: BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2017-02-15

Abstract

本发明公开了一种基于标记语言的节点映射关系抽取方法，其基于标记语言的信息结构，节点间映射关系的抽取效率将有效提高，并且不需要构建领域知识，适用于多格式的标记语言文件。该方法包括步骤：（1）构建目标节点的路径关系映射集合，作为映射关系规则存储到配置文件；（2）加载映射关系规则，遍历DOM树，输出路径匹配的节点数据，得到原始映射关系集合；（3）为每组映射关系进行一致性排序，并输出最终的映射关系集合。还有基于标记语言的节点映射关系抽取系统。

Description

一种基于标记语言的节点映射关系抽取方法及系统

技术领域

本发明涉及信息处理的技术领域，尤其涉及一种基于标记语言的节点映射关系抽取方法，以及基于标记语言的节点映射关系抽取系统。

背景技术

现有的技术方案：使用单机多线程技术进行实现，技术效果有一定的局限性，当数据规模超大时候，任务将没有办法执行。

中国专利号CN200810063618.7，公开了一种基于预定义槽间向量模型的网页信息抽取方法，针对目前自动网页信息抽取方法中，抽取精度偏低，信息抽取包装器扩展性和适应性差等缺点，利用正规网站的相邻网页集的相似特点以及特定行业的网页组织特色，通过迭代求权的方法对行业数据进行过滤，分类和辨别。同时通过建立向量模型来代表槽间相互关系，极大地提高了数据内容的辨别粒度，简化了数据识别过程，而且成本低廉。同以往的人工、半人工以及自动信息提取系统不同，该方法屏蔽了大量无用的文本信息，摈弃了从众多纷杂信息中利用规则来标识信息的盲目性。通过利用槽空间局部特点更加缩小待处理有用数据的范围，为精确判断文本内容提供了环境基础。

中国专利号CN201110047743.0，公开了一种网页信息抽取方法及其系统，该方法包括：将待抽取网页解析为文档对象模型DOM树，获取与待抽取网页对应的模板；根据所述模板定义的网页划分粒度遍历所述DOM树，将对应网页划分为内容块；根据所述模板定义的输出规则，将所述内容块的内容和类型信息进行输出。采用本发明可提高网页信息抽取精度。

中国专利号CN201510809018.0，公开了一种知识依赖的网页信息抽取方法，包括如下步骤：根据领域知识构建领域本体；抽取待分类信息及周边文本；基于信息增益算法选择特征词，并构建特征词词库；计算带权词频，构造特征向量；使用支持向量机训练初始分类模型；基于领域本体构建特征并迭代训练分类器。利用本发明的方案，可以根据领域知识构建分类器的特征，提高分类器的整体准确性，可以更准确地抽取所需要的信息，并可在此基础上进一步进行数据挖掘、文本分类和数据分析等后续信息处理。

基于标记语言进行信息抽取，使用模板以及领域知识的方法固然很好，基于网页相似性的方法也很先进，但是领域知识的构建是耗时耗力的工作，网页相似性的计算会有一定的差异，使用模板对于非常复杂的结构是否能灵活的构建，也是一个问题。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于标记语言的节点映射关系抽取方法，其基于标记语言的信息结构，节点间映射关系的抽取效率将有效提高，并且不需要构建领域知识，适用于多格式的标记语言文件。

本发明的技术方案是：这种基于标记语言的节点映射关系抽取方法，该方法包括以下步骤：

(1)构建目标节点的路径关系映射集合，作为映射关系规则存储到配置文件；

(2)加载映射关系规则，遍历DOM树，输出路径匹配的节点数据，得到原始映射关系集合；

(3)为每组映射关系进行一致性排序，并输出最终的映射关系集合。

本发明通过构建目标节点的路径关系映射集合，作为映射关系规则存储到配置文件，加载映射关系规则，遍历DOM树，输出路径匹配的节点数据，得到原始映射关系集合，为每组映射关系进行一致性排序，并输出最终的映射关系集合，由于进行多节点间映射关系的抽取，不受限于某一领域，不进行相关数据处理，因此基于标记语言的信息结构，节点间映射关系的抽取效率将有效提高，并且不需要构建领域知识，适用于多格式的标记语言文件。

还提供了一种基于标记语言的节点映射关系抽取系统，该系统包括：

映射关系规则构建模块，其配置来构建目标节点的路径关系映射集合，作为映射关系规则存储到配置文件；

遍历模块，其配置来加载映射关系规则，遍历DOM树，输出路径匹配的节点数据，得到原始映射关系集合；

一致性排序模块，其配置来为每组映射关系进行一致性排序，并输出最终的映射关系集合。

附图说明

图1所示为根据本发明的基于标记语言的节点映射关系抽取方法的流程图。

具体实施方式

如图1所示，这种基于标记语言的节点映射关系抽取方法，该方法包括以下步骤：

另外，所述步骤(1)中，根据标记语言的树状信息结构，以及目标节点的路径和属性，构建目标节点的路径关系映射集合。

另外，所述步骤(2)中，把目标标记语言文件构建成DOM树，加载一组规则集合，开始深度遍历DOM树，每遍历到与规则中的路径属性匹配的目标节点，就标记此节点为已遍历，然后输出节点数据并进行回溯，继续遍历DOM树，重复上述过程，直到遍历结束。

另外，所述步骤(2)中，DOM树遍历结束后，得到节点间的多组映射关系集合。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。因此，与本发明的方法相对应的，本发明还同时包括一种基于标记语言的节点映射关系抽取系统，该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统，该系统包括：

另外，所述映射关系规则构建模块中，根据标记语言的树状信息结构，以及目标节点的路径和属性，构建目标节点的路径关系映射集合。

另外，所述遍历模块中，把目标标记语言文件构建成DOM树，加载一组规则集合，开始深度遍历DOM树，每遍历到与规则中的路径属性匹配的目标节点，就标记此节点为已遍历，然后输出节点数据并进行回溯，继续遍历DOM树，重复上述过程，直到遍历结束。

另外，所述遍历模块中，DOM树遍历结束后，得到节点间的多组映射关系集合。

本发明的有益效果如下：

1.规则制定简单；

2.关系映射高效精确；

3.无需领域知识。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于标记语言的节点映射关系抽取方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于标记语言的节点映射关系抽取方法，其特征在于：所述步骤(1)中，根据标记语言的树状信息结构，以及目标节点的路径和属性，构建目标节点的路径关系映射集合。

3.根据权利要求2所述的基于标记语言的节点映射关系抽取方法，其特征在于：所述步骤(2)中，把目标标记语言文件构建成DOM树，加载一组规则集合，开始深度遍历DOM树，每遍历到与规则中的路径属性匹配的目标节点，就标记此节点为已遍历，然后输出节点数据并进行回溯，继续遍历DOM树，重复上述过程，直到遍历结束。

4.根据权利要求3所述的基于标记语言的节点映射关系抽取方法，其特征在于：所述步骤(2)中，DOM树遍历结束后，得到节点间的多组映射关系集合。

5.一种基于标记语言的节点映射关系抽取系统，其特征在于：该系统包括：

6.根据权利要求5所述的基于标记语言的节点映射关系抽取系统，其特征在于：所述映射关系规则构建模块中，根据标记语言的树状信息结构，以及目标节点的路径和属性，构建目标节点的路径关系映射集合。

7.根据权利要求6所述的基于标记语言的节点映射关系抽取系统，其特征在于：所述遍历模块中，把目标标记语言文件构建成DOM树，加载一组规则集合，开始深度遍历DOM树，每遍历到与规则中的路径属性匹配的目标节点，就标记此节点为已遍历，然后输出节点数据并进行回溯，继续遍历DOM树，重复上述过程，直到遍历结束。

8.根据权利要求7所述的基于标记语言的节点映射关系抽取系统，其特征在于：所述遍历模块中，DOM树遍历结束后，得到节点间的多组映射关系集合。