CN106407392A - 一种基于标记语言的节点映射关系抽取方法及系统 - Google Patents
一种基于标记语言的节点映射关系抽取方法及系统 Download PDFInfo
- Publication number
- CN106407392A CN106407392A CN201610832306.2A CN201610832306A CN106407392A CN 106407392 A CN106407392 A CN 106407392A CN 201610832306 A CN201610832306 A CN 201610832306A CN 106407392 A CN106407392 A CN 106407392A
- Authority
- CN
- China
- Prior art keywords
- node
- mapping relations
- markup language
- rule
- dom tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于标记语言的节点映射关系抽取方法,其基于标记语言的信息结构,节点间映射关系的抽取效率将有效提高,并且不需要构建领域知识,适用于多格式的标记语言文件。该方法包括步骤:(1)构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件;(2)加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合;(3)为每组映射关系进行一致性排序,并输出最终的映射关系集合。还有基于标记语言的节点映射关系抽取系统。
Description
技术领域
本发明涉及信息处理的技术领域,尤其涉及一种基于标记语言的节点映射关系抽取方法,以及基于标记语言的节点映射关系抽取系统。
背景技术
现有的技术方案:使用单机多线程技术进行实现,技术效果有一定的局限性,当数据规模超大时候,任务将没有办法执行。
中国专利号CN200810063618.7,公开了一种基于预定义槽间向量模型的网页信息抽取方法,针对目前自动网页信息抽取方法中,抽取精度偏低,信息抽取包装器扩展性和适应性差等缺点,利用正规网站的相邻网页集的相似特点以及特定行业的网页组织特色,通过迭代求权的方法对行业数据进行过滤,分类和辨别。同时通过建立向量模型来代表槽间相互关系,极大地提高了数据内容的辨别粒度,简化了数据识别过程,而且成本低廉。同以往的人工、半人工以及自动信息提取系统不同,该方法屏蔽了大量无用的文本信息,摈弃了从众多纷杂信息中利用规则来标识信息的盲目性。通过利用槽空间局部特点更加缩小待处理有用数据的范围,为精确判断文本内容提供了环境基础。
中国专利号CN201110047743.0,公开了一种网页信息抽取方法及其系统,该方法包括:将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。采用本发明可提高网页信息抽取精度。
中国专利号CN201510809018.0,公开了一种知识依赖的网页信息抽取方法,包括如下步骤:根据领域知识构建领域本体;抽取待分类信息及周边文本;基于信息增益算法选择特征词,并构建特征词词库;计算带权词频,构造特征向量;使用支持向量机训练初始分类模型;基于领域本体构建特征并迭代训练分类器。利用本发明的方案,可以根据领域知识构建分类器的特征,提高分类器的整体准确性,可以更准确地抽取所需要的信息,并可在此基础上进一步进行数据挖掘、文本分类和数据分析等后续信息处理。
基于标记语言进行信息抽取,使用模板以及领域知识的方法固然很好,基于网页相似性的方法也很先进,但是领域知识的构建是耗时耗力的工作,网页相似性的计算会有一定的差异,使用模板对于非常复杂的结构是否能灵活的构建,也是一个问题。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于标记语言的节点映射关系抽取方法,其基于标记语言的信息结构,节点间映射关系的抽取效率将有效提高,并且不需要构建领域知识,适用于多格式的标记语言文件。
本发明的技术方案是:这种基于标记语言的节点映射关系抽取方法,该方法包括以下步骤:
(1)构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件;
(2)加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合;
(3)为每组映射关系进行一致性排序,并输出最终的映射关系集合。
本发明通过构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件,加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合,为每组映射关系进行一致性排序,并输出最终的映射关系集合,由于进行多节点间映射关系的抽取,不受限于某一领域,不进行相关数据处理,因此基于标记语言的信息结构,节点间映射关系的抽取效率将有效提高,并且不需要构建领域知识,适用于多格式的标记语言文件。
还提供了一种基于标记语言的节点映射关系抽取系统,该系统包括:
映射关系规则构建模块,其配置来构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件;
遍历模块,其配置来加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合;
一致性排序模块,其配置来为每组映射关系进行一致性排序,并输出最终的映射关系集合。
附图说明
图1所示为根据本发明的基于标记语言的节点映射关系抽取方法的流程图。
具体实施方式
如图1所示,这种基于标记语言的节点映射关系抽取方法,该方法包括以下步骤:
(1)构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件;
(2)加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合;
(3)为每组映射关系进行一致性排序,并输出最终的映射关系集合。
本发明通过构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件,加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合,为每组映射关系进行一致性排序,并输出最终的映射关系集合,由于进行多节点间映射关系的抽取,不受限于某一领域,不进行相关数据处理,因此基于标记语言的信息结构,节点间映射关系的抽取效率将有效提高,并且不需要构建领域知识,适用于多格式的标记语言文件。
另外,所述步骤(1)中,根据标记语言的树状信息结构,以及目标节点的路径和属性,构建目标节点的路径关系映射集合。
另外,所述步骤(2)中,把目标标记语言文件构建成DOM树,加载一组规则集合,开始深度遍历DOM树,每遍历到与规则中的路径属性匹配的目标节点,就标记此节点为已遍历,然后输出节点数据并进行回溯,继续遍历DOM树,重复上述过程,直到遍历结束。
另外,所述步骤(2)中,DOM树遍历结束后,得到节点间的多组映射关系集合。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种基于标记语言的节点映射关系抽取系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统,该系统包括:
映射关系规则构建模块,其配置来构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件;
遍历模块,其配置来加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合;
一致性排序模块,其配置来为每组映射关系进行一致性排序,并输出最终的映射关系集合。
另外,所述映射关系规则构建模块中,根据标记语言的树状信息结构,以及目标节点的路径和属性,构建目标节点的路径关系映射集合。
另外,所述遍历模块中,把目标标记语言文件构建成DOM树,加载一组规则集合,开始深度遍历DOM树,每遍历到与规则中的路径属性匹配的目标节点,就标记此节点为已遍历,然后输出节点数据并进行回溯,继续遍历DOM树,重复上述过程,直到遍历结束。
另外,所述遍历模块中,DOM树遍历结束后,得到节点间的多组映射关系集合。
本发明的有益效果如下:
1.规则制定简单;
2.关系映射高效精确;
3.无需领域知识。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (8)
1.一种基于标记语言的节点映射关系抽取方法,其特征在于:该方法包括以下步骤:
(1)构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件;
(2)加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合;
(3)为每组映射关系进行一致性排序,并输出最终的映射关系集合。
2.根据权利要求1所述的基于标记语言的节点映射关系抽取方法,其特征在于:所述步骤(1)中,根据标记语言的树状信息结构,以及目标节点的路径和属性,构建目标节点的路径关系映射集合。
3.根据权利要求2所述的基于标记语言的节点映射关系抽取方法,其特征在于:所述步骤(2)中,把目标标记语言文件构建成DOM树,加载一组规则集合,开始深度遍历DOM树,每遍历到与规则中的路径属性匹配的目标节点,就标记此节点为已遍历,然后输出节点数据并进行回溯,继续遍历DOM树,重复上述过程,直到遍历结束。
4.根据权利要求3所述的基于标记语言的节点映射关系抽取方法,其特征在于:所述步骤(2)中,DOM树遍历结束后,得到节点间的多组映射关系集合。
5.一种基于标记语言的节点映射关系抽取系统,其特征在于:该系统包括:
映射关系规则构建模块,其配置来构建目标节点的路径关系映射集合,作为映射关系规则存储到配置文件;
遍历模块,其配置来加载映射关系规则,遍历DOM树,输出路径匹配的节点数据,得到原始映射关系集合;
一致性排序模块,其配置来为每组映射关系进行一致性排序,并输出最终的映射关系集合。
6.根据权利要求5所述的基于标记语言的节点映射关系抽取系统,其特征在于:所述映射关系规则构建模块中,根据标记语言的树状信息结构,以及目标节点的路径和属性,构建目标节点的路径关系映射集合。
7.根据权利要求6所述的基于标记语言的节点映射关系抽取系统,其特征在于:所述遍历模块中,把目标标记语言文件构建成DOM树,加载一组规则集合,开始深度遍历DOM树,每遍历到与规则中的路径属性匹配的目标节点,就标记此节点为已遍历,然后输出节点数据并进行回溯,继续遍历DOM树,重复上述过程,直到遍历结束。
8.根据权利要求7所述的基于标记语言的节点映射关系抽取系统,其特征在于:所述遍历模块中,DOM树遍历结束后,得到节点间的多组映射关系集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610832306.2A CN106407392A (zh) | 2016-09-19 | 2016-09-19 | 一种基于标记语言的节点映射关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610832306.2A CN106407392A (zh) | 2016-09-19 | 2016-09-19 | 一种基于标记语言的节点映射关系抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106407392A true CN106407392A (zh) | 2017-02-15 |
Family
ID=57997953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610832306.2A Pending CN106407392A (zh) | 2016-09-19 | 2016-09-19 | 一种基于标记语言的节点映射关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106407392A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633870A (zh) * | 2017-10-25 | 2018-01-26 | 天津开心生活科技有限公司 | 数据提取方法及装置、存储介质、电子设备 |
CN108009137A (zh) * | 2017-12-22 | 2018-05-08 | 中科鼎富(北京)科技发展有限公司 | 一种基于配置文件的规范文书处理方法、装置及系统 |
CN108595652A (zh) * | 2018-04-27 | 2018-09-28 | 平安科技(深圳)有限公司 | 加载dom节点数据的方法、装置、计算机设备及存储介质 |
CN109471636A (zh) * | 2018-09-14 | 2019-03-15 | 上海交通大学 | 粗粒度可重构体系结构的算子映射方法及系统 |
CN109977271A (zh) * | 2019-04-29 | 2019-07-05 | 华北理工大学 | 一种大数据处理系统及其处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622448A (zh) * | 2012-03-26 | 2012-08-01 | 中山大学 | 一种数字电视互动应用页面标记语言解析方法 |
CN102662969A (zh) * | 2012-03-11 | 2012-09-12 | 复旦大学 | 一种基于网页结构语义的互联网信息对象定位方法 |
CN103870506A (zh) * | 2012-12-17 | 2014-06-18 | 中国科学院计算技术研究所 | 一种网页信息的抽取方法和系统 |
US20150379156A1 (en) * | 2014-06-30 | 2015-12-31 | International Business Machines Corporation | Web pages processing |
-
2016
- 2016-09-19 CN CN201610832306.2A patent/CN106407392A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662969A (zh) * | 2012-03-11 | 2012-09-12 | 复旦大学 | 一种基于网页结构语义的互联网信息对象定位方法 |
CN102622448A (zh) * | 2012-03-26 | 2012-08-01 | 中山大学 | 一种数字电视互动应用页面标记语言解析方法 |
CN103870506A (zh) * | 2012-12-17 | 2014-06-18 | 中国科学院计算技术研究所 | 一种网页信息的抽取方法和系统 |
US20150379156A1 (en) * | 2014-06-30 | 2015-12-31 | International Business Machines Corporation | Web pages processing |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633870A (zh) * | 2017-10-25 | 2018-01-26 | 天津开心生活科技有限公司 | 数据提取方法及装置、存储介质、电子设备 |
CN108009137A (zh) * | 2017-12-22 | 2018-05-08 | 中科鼎富(北京)科技发展有限公司 | 一种基于配置文件的规范文书处理方法、装置及系统 |
CN108009137B (zh) * | 2017-12-22 | 2021-01-29 | 鼎富智能科技有限公司 | 一种基于配置文件的规范文书处理方法、装置及系统 |
CN108595652A (zh) * | 2018-04-27 | 2018-09-28 | 平安科技(深圳)有限公司 | 加载dom节点数据的方法、装置、计算机设备及存储介质 |
CN109471636A (zh) * | 2018-09-14 | 2019-03-15 | 上海交通大学 | 粗粒度可重构体系结构的算子映射方法及系统 |
CN109471636B (zh) * | 2018-09-14 | 2020-07-14 | 上海交通大学 | 粗粒度可重构体系结构的算子映射方法及系统 |
CN109977271A (zh) * | 2019-04-29 | 2019-07-05 | 华北理工大学 | 一种大数据处理系统及其处理方法 |
CN109977271B (zh) * | 2019-04-29 | 2022-12-20 | 重庆憨牛技术创新服务有限公司 | 一种大数据处理系统及其处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407392A (zh) | 一种基于标记语言的节点映射关系抽取方法及系统 | |
CN101464905B (zh) | 一种网页信息抽取的系统及方法 | |
CN109062874A (zh) | 财政数据的获取方法、终端设备及介质 | |
CN107423391B (zh) | 网页结构化数据的信息提取方法 | |
CN106709032A (zh) | 抽取电子表格文档中结构化信息的方法及装置 | |
CN105279277A (zh) | 知识数据的处理方法和装置 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN104699785A (zh) | 一种论文相似度检测方法 | |
Singh et al. | OCR++: a robust framework for information extraction from scholarly articles | |
CN102591612A (zh) | 一种基于标点连续性的通用网页正文提取方法及其系统 | |
CN107391479A (zh) | 模块化成果库的构建方法 | |
CN105654022A (zh) | 一种提取文档结构化信息的方法及装置 | |
CN104598462A (zh) | 提取结构化数据的方法及装置 | |
CN104750835A (zh) | 一种文本分类方法及装置 | |
CN111797772B (zh) | 发票图像自动分类方法、系统、装置 | |
CN112597353A (zh) | 一种文本信息自动提取方法 | |
CN103440315A (zh) | 一种基于主题的Web页面清洗方法 | |
CN110399432A (zh) | 一种表的分类方法、装置、计算机设备及存储介质 | |
Chu et al. | Automatic data extraction of websites using data path matching and alignment | |
CN117390329A (zh) | 网页标注方法、装置及设备 | |
CN104636324A (zh) | 话题溯源方法和系统 | |
CN113392354B (zh) | 一种网页正文解析方法、系统、介质及电子设备 | |
CN104991920A (zh) | 标签的生成方法及装置 | |
CN111125483B (zh) | 网页数据抽取模板生成方法、装置、计算机装置及存储介质 | |
US20220067275A1 (en) | Systems and methods for data extraction from unstructured documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170215 |
|
RJ01 | Rejection of invention patent application after publication |