CN101290624A

CN101290624A - 一种新闻网页元数据自动抽取方法

Info

Publication number: CN101290624A
Application number: CNA200810038788XA
Authority: CN
Inventors: 顾君忠; 杨静; 刘海学; 孟玲玲; 何正华; 费静婷; 王海棠; 刘峰; 闫宇; 秦鹏; 吴芳
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2008-06-11
Filing date: 2008-06-11
Publication date: 2008-10-22
Anticipated expiration: 2028-06-11
Also published as: CN101290624B

Abstract

本发明涉及一种在互联网新闻网页上进行元数据自动抽取的方法，元数据抽取系统向新闻网站服务器发送网页请求，服务器在通过一定的安全检测后将所要求的页面发往元数据抽取模块主机。元数据抽取系统在得到了一定数量的网页集合后，通过DOM技术深入分析每个网页内部的信息，挖掘集合内各个网页间的相互关系，最终得到标准所规定的元数据值。系统将元数据值转化为XML格式后，通过I/O接口向外部存储设备输出，形成XML格式的元数据文件。本发明实现了在无人工干预的情况下，系统依据相关元数据标准从目标文档中自动抽取元数据信息，并将结果进行合理组织和存储的全过程。

Description

一种新闻网页元数据自动抽取方法

技术领域

本发明涉及互联网信息自动抽取技术领域，尤其涉及一种在互联网新闻网页上进行元数据自动抽取的方法。

背景技术

近年来，万维网已发展成为新闻报道至关重要的发布源。由于新闻页面数量的迅猛增长，以及万维网在内容显示方面的多样性优势，针对新闻信息类网页进行组织分类以及分析处理的需求与日俱增。

与网络新闻资源的惊人的增长速度相比，对于资源元数据的抽取、保存以及规范化的工作却远远落后了。当前网上的新闻资源格式林立、标准众多，主要以半结构化数据的形式(HTML)存在于网络中，在很多情况下甚至是不精确的、残缺的或者冗余的。这给网络数字资源的共享带来了高度的复杂性。因此，研究如何在无人工干预的情况下高效、准确地提取网络数字资源元数据信息，就显得非常重要和必要了。新闻类网页元数据的自动抽取意味着在无人工干预的情况下，系统依据依据相关元数据标准从目标文档中自动抽取元数据信息，并将结果进行合理组织和存储的全过程。

Dublin Core(DC)是出版界权威的元数据标准，《EMMS元数据标准》在DC的组织结构上进行了针对场景的扩展，将“知识产权描述类”扩展为“版权信息描述类”，另外增加了“实体及其联系描述类”和“元数据属性描述类”。CRYSTAL系统利用正则表达式模拟谓词演算的方法实现了论文元数据的自动抽取，然而其前提格式转换器将目标文档转换成纯本文，而如果采用VIPs方法为抽取分析提供文档结构反馈支持，可以直接处理Html文档，达到抽取过程的紧耦合。

发明内容

本发明的目的针对现有技术问题，提供一种无需人工干预地根据预定的标准和规则，从新闻网页中自动抽取元数据信息的方法。

本发明的技术方案是这样的：

一种新闻网页元数据自动抽取方法，包括以下步骤，

通过选取界面获得外部原始新闻网页，利用HtmlTidy进行净化预处理，得到规范Html页面；

对得到的上述规范Html页面利用HTMLParser第三方插件进行解析，得到DOM树；

对得到的所述DOM树利用VIPs算法将DOM树分块，得到视觉分块树VBT；

对得到的所述视觉分块树VBT利用信息抽取算法进行抽取，得到元数据值作为抽取结果；

对得到的所述元数据值根据EMMS元数据标准映射成为标准字段的value，获得XML对象生成类；

对得到的所述XML对象生成类利用XmlBean插件输出得到外部元数据XML文件。

采用本发明的技术方案能够实现在无人工干预的情况下高效、准确地提取网络数字资源元数据信息，为信息的分析提取打下了可靠坚实的基础。

附图说明

图1是本发明的系统总体流程图

图2是本发明实施例的硬件环境示意图

具体实施方式

在说明实施例以前，需要重申本发明使用的技术术语的定义如下：

元数据：在本发明的技术方案中，元数据被定义为按照一定的标准描述互联网资源(包括网页，文档，多媒体资源等)的属性及内容的概括性数据的集合；

元数据标准：元数据标准定义了整套元数据的体系架构。标准内容分为元数据字段名称以及字段取值范围，所有字段组织成树状结构。本方法遵循的元数据标准为《EMMS元数据标准》，它对Dublin Core进行了必要扩展，形成了“文件外部属性信息”、“文档内容描述信息”、“版权信息”、“实体以及它们间联系”以及“元数据属性信息”五大结构。元数据标准是元数据自动抽取的目标，是元数据xml文件的Shema的生成依据；

DOM(文档对象模型)：DOM是“Document Object Model”的缩写，是一种供HTML和XML文档使用的应用程序编程接口(API)。它定义了文档的逻辑结构以及对文件进行访问和操作的方法。DOM被设计成平台无关、可使用任意编程语言实现的规范。为了提供准确的、独立于语言的规范，DOM工作组使用了OMG(Object Management Group，对象管理组织)的IDL(Interface DefinitionLanguage，接口定义语言)来定义DOM接口，然后由厂商来具体地实现这些接口。这样既实现了标准的统一，同时又使标准的实现成为可能；

HtmlParser：HTMLParser是一个用来解析HTML文档的java开源项目，它的目的是利用内部定制的词法分析器和语法分析器解析规范网页，把一个规范的HTML页面解析并转化成为完整的抽象标签树。它还提供其他许多诸如标签过滤等网页分析处理功能，对网页元数据的进一步分析起到一个很好的基础设施作用。

以下结合附图1详细本说明的技术方案的实施方式。在附图1中，未做标记的部分为数据初始状态、数据中间处理状态以及数据的最终形态。做标记的斜体部分为数据处理步骤，下面依次说明：

步骤101，本发明的方法可以通过网上选取(通过URL)以及本地选取两种方式选择待抽取的网页。由于HTML页面中常出现语法不规范现象，浏览器对此有很好的兼容，但是解析网页会受此很大影响。HtmlTidy提供了一个HTML的语法检查器以及错误纠正的功能，可以用来清除或修改格式不符合HTML4.0标准的标签。经过本步骤的处理，得到一个在语法上符合HTMLParser处理要求的网页；

步骤102，HtmlParser内部分为词法分析器和语法分析器的包结构，它先对网页进行字符流的词法分析，切割连续字符流为Html语法词汇，然后语法分析器把词汇解析成语义结构，得出整个Html的DOM树；

步骤103，VIPs(Vision-based Page Segmentation)充分利用了字体大小、背景颜色、空白区域等视觉特征，通过制定相应的规则把页面分成了各个视觉信息块。这能在很大程度上满足复杂页面对算法的要求。经过VIPs算法的处理，普通的DOM树被组织成根据视觉特征进行聚类的视觉分块树；

步骤104，在本方法中，针对《EMMS元数据标准》所规定的不同字段采取了不同的算法。根据步骤103得到的结果，网页已经被处理成为一个有组织的纯文本内容集合，其中，每块纯文本连带有其在网页中的位置，以及本身所呈现的视觉信息。信息抽取的具体方法包括正则表达式的匹配法、世博词汇表语义信息指导下的基于统计抽取法以及抽取路径自动生成等算法，它们除了对纯文本进行自然语言解析以外，都直接或间接运用了VBT提供的“文本——视觉属性”配对信息，进行全面和有针对性的抽取，其中数据抽取模块类总体软件架构为三层，其中Extractor为关键类，包括了附图中1的步骤102、步骤103和步骤104部分，经过各种算法的处理，各个元数据字段的结果已经得出。

步骤105，该步骤实现了信息对标准字段的填入，信息抽取步骤得出的纯粹元数据信息必须根据标准填入相应字段才能获得后续处理，元数据字段解释与映射将完成这一步骤。本步骤在不同的字段下有不同的实现，一般为各个抽取函数中的终结处理段，也有个别函数将其放置在循环处理中，如Link()和Image()；

步骤106，在对XML对象进行了必要的初始化后，利用XML生成类对象，本方法将元数据输出为XML文件。本模块输出使用第三方的XmlBean插件，在步骤105阶段把抽取的纯粹元数据填入XML生成类的实例化对象中，在最后阶段由XmlBean负责统一输出到外部文件，这样无论在效率和软件架构上都是最优的。

本发明主要应用于基于语义分块的新闻网页元数据自动抽取系统，实施例的硬件使用环境如附图2所示如下：

输入设备：指文字输入设备，如手写输入板、键盘、触摸屏等。

输出设备：指文字的显示设备，如显示器、投影仪等，同时，输出设备也包括外部存储设备，如硬盘、磁盘阵列等。

处理器：指具有运算能力的终端设备，如PC机、掌上电脑、PDA等

网络接入设备：指帮助处理器接入互联网的设备，如网卡、调制解调器(Modem)等。

其大致流程是：元数据抽取系统向新闻网站服务器发送网页请求，服务器在通过一定的安全检测后将所要求的页面发往元数据抽取模块主机。元数据抽取系统在得到了一定数量的网页集合后，通过DOM技术深入分析每个网页内部的信息，挖掘集合内各个网页间的相互关系，最终得到标准所规定的元数据值。系统将元数据值转化为XML格式后，通过I/O接口向外部存储设备输出，形成XML格式的元数据文件。

总体上，本发明的方法抽取过程的所有步骤都是有机统一的，上下游步骤间有着紧密的数据传递关系，每个具体模块将一种数据形态转化为另一种，整体上实现了新闻网页的元数据高效率自动抽取。

Claims

1、一种新闻网页元数据自动抽取方法，其特征在于，包括以下步骤：

101.通过选取界面获得外部原始新闻网页，利用HtmlTidy进行净化预处理，得到规范Html页面；

102.对得到的所述规范Html页面利用HTMLParser第三方插件进行解析，得到DOM树；

103.对得到的所述DOM树利用VIPs算法将DOM树分块，得到视觉分块树VBT；

104.对得到的所述视觉分块树VBT利用信息抽取算法进行抽取，得到元数据值作为抽取结果；

105.对得到的所述元数据值根据EMMS元数据标准映射成为标准字段的value，获得XML对象生成类；

106.对得到的所述XML对象生成类利用XmlBean插件输出得到外部元数据XML文件。