CN101290624A - 一种新闻网页元数据自动抽取方法 - Google Patents

一种新闻网页元数据自动抽取方法 Download PDF

Info

Publication number
CN101290624A
CN101290624A CNA200810038788XA CN200810038788A CN101290624A CN 101290624 A CN101290624 A CN 101290624A CN A200810038788X A CNA200810038788X A CN A200810038788XA CN 200810038788 A CN200810038788 A CN 200810038788A CN 101290624 A CN101290624 A CN 101290624A
Authority
CN
China
Prior art keywords
metadata
web page
obtains
utilize
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200810038788XA
Other languages
English (en)
Other versions
CN101290624B (zh
Inventor
顾君忠
杨静
刘海学
孟玲玲
何正华
费静婷
王海棠
刘峰
闫宇
秦鹏
吴芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN200810038788XA priority Critical patent/CN101290624B/zh
Publication of CN101290624A publication Critical patent/CN101290624A/zh
Application granted granted Critical
Publication of CN101290624B publication Critical patent/CN101290624B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种在互联网新闻网页上进行元数据自动抽取的方法,元数据抽取系统向新闻网站服务器发送网页请求,服务器在通过一定的安全检测后将所要求的页面发往元数据抽取模块主机。元数据抽取系统在得到了一定数量的网页集合后,通过DOM技术深入分析每个网页内部的信息,挖掘集合内各个网页间的相互关系,最终得到标准所规定的元数据值。系统将元数据值转化为XML格式后,通过I/O接口向外部存储设备输出,形成XML格式的元数据文件。本发明实现了在无人工干预的情况下,系统依据相关元数据标准从目标文档中自动抽取元数据信息,并将结果进行合理组织和存储的全过程。

Description

一种新闻网页元数据自动抽取方法
技术领域
本发明涉及互联网信息自动抽取技术领域,尤其涉及一种在互联网新闻网页上进行元数据自动抽取的方法。
背景技术
近年来,万维网已发展成为新闻报道至关重要的发布源。由于新闻页面数量的迅猛增长,以及万维网在内容显示方面的多样性优势,针对新闻信息类网页进行组织分类以及分析处理的需求与日俱增。
与网络新闻资源的惊人的增长速度相比,对于资源元数据的抽取、保存以及规范化的工作却远远落后了。当前网上的新闻资源格式林立、标准众多,主要以半结构化数据的形式(HTML)存在于网络中,在很多情况下甚至是不精确的、残缺的或者冗余的。这给网络数字资源的共享带来了高度的复杂性。因此,研究如何在无人工干预的情况下高效、准确地提取网络数字资源元数据信息,就显得非常重要和必要了。新闻类网页元数据的自动抽取意味着在无人工干预的情况下,系统依据依据相关元数据标准从目标文档中自动抽取元数据信息,并将结果进行合理组织和存储的全过程。
Dublin Core(DC)是出版界权威的元数据标准,《EMMS元数据标准》在DC的组织结构上进行了针对场景的扩展,将“知识产权描述类”扩展为“版权信息描述类”,另外增加了“实体及其联系描述类”和“元数据属性描述类”。CRYSTAL系统利用正则表达式模拟谓词演算的方法实现了论文元数据的自动抽取,然而其前提格式转换器将目标文档转换成纯本文,而如果采用VIPs方法为抽取分析提供文档结构反馈支持,可以直接处理Html文档,达到抽取过程的紧耦合。
发明内容
本发明的目的针对现有技术问题,提供一种无需人工干预地根据预定的标准和规则,从新闻网页中自动抽取元数据信息的方法。
本发明的技术方案是这样的:
一种新闻网页元数据自动抽取方法,包括以下步骤,
通过选取界面获得外部原始新闻网页,利用HtmlTidy进行净化预处理,得到规范Html页面;
对得到的上述规范Html页面利用HTMLParser第三方插件进行解析,得到DOM树;
对得到的所述DOM树利用VIPs算法将DOM树分块,得到视觉分块树VBT;
对得到的所述视觉分块树VBT利用信息抽取算法进行抽取,得到元数据值作为抽取结果;
对得到的所述元数据值根据EMMS元数据标准映射成为标准字段的value,获得XML对象生成类;
对得到的所述XML对象生成类利用XmlBean插件输出得到外部元数据XML文件。
采用本发明的技术方案能够实现在无人工干预的情况下高效、准确地提取网络数字资源元数据信息,为信息的分析提取打下了可靠坚实的基础。
附图说明
图1是本发明的系统总体流程图
图2是本发明实施例的硬件环境示意图
具体实施方式
在说明实施例以前,需要重申本发明使用的技术术语的定义如下:
元数据:在本发明的技术方案中,元数据被定义为按照一定的标准描述互联网资源(包括网页,文档,多媒体资源等)的属性及内容的概括性数据的集合;
元数据标准:元数据标准定义了整套元数据的体系架构。标准内容分为元数据字段名称以及字段取值范围,所有字段组织成树状结构。本方法遵循的元数据标准为《EMMS元数据标准》,它对Dublin Core进行了必要扩展,形成了“文件外部属性信息”、“文档内容描述信息”、“版权信息”、“实体以及它们间联系”以及“元数据属性信息”五大结构。元数据标准是元数据自动抽取的目标,是元数据xml文件的Shema的生成依据;
DOM(文档对象模型):DOM是“Document Object Model”的缩写,是一种供HTML和XML文档使用的应用程序编程接口(API)。它定义了文档的逻辑结构以及对文件进行访问和操作的方法。DOM被设计成平台无关、可使用任意编程语言实现的规范。为了提供准确的、独立于语言的规范,DOM工作组使用了OMG(Object Management Group,对象管理组织)的IDL(Interface DefinitionLanguage,接口定义语言)来定义DOM接口,然后由厂商来具体地实现这些接口。这样既实现了标准的统一,同时又使标准的实现成为可能;
HtmlParser:HTMLParser是一个用来解析HTML文档的java开源项目,它的目的是利用内部定制的词法分析器和语法分析器解析规范网页,把一个规范的HTML页面解析并转化成为完整的抽象标签树。它还提供其他许多诸如标签过滤等网页分析处理功能,对网页元数据的进一步分析起到一个很好的基础设施作用。
以下结合附图1详细本说明的技术方案的实施方式。在附图1中,未做标记的部分为数据初始状态、数据中间处理状态以及数据的最终形态。做标记的斜体部分为数据处理步骤,下面依次说明:
步骤101,本发明的方法可以通过网上选取(通过URL)以及本地选取两种方式选择待抽取的网页。由于HTML页面中常出现语法不规范现象,浏览器对此有很好的兼容,但是解析网页会受此很大影响。HtmlTidy提供了一个HTML的语法检查器以及错误纠正的功能,可以用来清除或修改格式不符合HTML4.0标准的标签。经过本步骤的处理,得到一个在语法上符合HTMLParser处理要求的网页;
步骤102,HtmlParser内部分为词法分析器和语法分析器的包结构,它先对网页进行字符流的词法分析,切割连续字符流为Html语法词汇,然后语法分析器把词汇解析成语义结构,得出整个Html的DOM树;
步骤103,VIPs(Vision-based Page Segmentation)充分利用了字体大小、背景颜色、空白区域等视觉特征,通过制定相应的规则把页面分成了各个视觉信息块。这能在很大程度上满足复杂页面对算法的要求。经过VIPs算法的处理,普通的DOM树被组织成根据视觉特征进行聚类的视觉分块树;
步骤104,在本方法中,针对《EMMS元数据标准》所规定的不同字段采取了不同的算法。根据步骤103得到的结果,网页已经被处理成为一个有组织的纯文本内容集合,其中,每块纯文本连带有其在网页中的位置,以及本身所呈现的视觉信息。信息抽取的具体方法包括正则表达式的匹配法、世博词汇表语义信息指导下的基于统计抽取法以及抽取路径自动生成等算法,它们除了对纯文本进行自然语言解析以外,都直接或间接运用了VBT提供的“文本——视觉属性”配对信息,进行全面和有针对性的抽取,其中数据抽取模块类总体软件架构为三层,其中Extractor为关键类,包括了附图中1的步骤102、步骤103和步骤104部分,经过各种算法的处理,各个元数据字段的结果已经得出。
步骤105,该步骤实现了信息对标准字段的填入,信息抽取步骤得出的纯粹元数据信息必须根据标准填入相应字段才能获得后续处理,元数据字段解释与映射将完成这一步骤。本步骤在不同的字段下有不同的实现,一般为各个抽取函数中的终结处理段,也有个别函数将其放置在循环处理中,如Link()和Image();
步骤106,在对XML对象进行了必要的初始化后,利用XML生成类对象,本方法将元数据输出为XML文件。本模块输出使用第三方的XmlBean插件,在步骤105阶段把抽取的纯粹元数据填入XML生成类的实例化对象中,在最后阶段由XmlBean负责统一输出到外部文件,这样无论在效率和软件架构上都是最优的。
本发明主要应用于基于语义分块的新闻网页元数据自动抽取系统,实施例的硬件使用环境如附图2所示如下:
输入设备:指文字输入设备,如手写输入板、键盘、触摸屏等。
输出设备:指文字的显示设备,如显示器、投影仪等,同时,输出设备也包括外部存储设备,如硬盘、磁盘阵列等。
处理器:指具有运算能力的终端设备,如PC机、掌上电脑、PDA等
网络接入设备:指帮助处理器接入互联网的设备,如网卡、调制解调器(Modem)等。
其大致流程是:元数据抽取系统向新闻网站服务器发送网页请求,服务器在通过一定的安全检测后将所要求的页面发往元数据抽取模块主机。元数据抽取系统在得到了一定数量的网页集合后,通过DOM技术深入分析每个网页内部的信息,挖掘集合内各个网页间的相互关系,最终得到标准所规定的元数据值。系统将元数据值转化为XML格式后,通过I/O接口向外部存储设备输出,形成XML格式的元数据文件。
总体上,本发明的方法抽取过程的所有步骤都是有机统一的,上下游步骤间有着紧密的数据传递关系,每个具体模块将一种数据形态转化为另一种,整体上实现了新闻网页的元数据高效率自动抽取。

Claims (1)

1、一种新闻网页元数据自动抽取方法,其特征在于,包括以下步骤:
101.通过选取界面获得外部原始新闻网页,利用HtmlTidy进行净化预处理,得到规范Html页面;
102.对得到的所述规范Html页面利用HTMLParser第三方插件进行解析,得到DOM树;
103.对得到的所述DOM树利用VIPs算法将DOM树分块,得到视觉分块树VBT;
104.对得到的所述视觉分块树VBT利用信息抽取算法进行抽取,得到元数据值作为抽取结果;
105.对得到的所述元数据值根据EMMS元数据标准映射成为标准字段的value,获得XML对象生成类;
106.对得到的所述XML对象生成类利用XmlBean插件输出得到外部元数据XML文件。
CN200810038788XA 2008-06-11 2008-06-11 一种新闻网页元数据自动抽取方法 Expired - Fee Related CN101290624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810038788XA CN101290624B (zh) 2008-06-11 2008-06-11 一种新闻网页元数据自动抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810038788XA CN101290624B (zh) 2008-06-11 2008-06-11 一种新闻网页元数据自动抽取方法

Publications (2)

Publication Number Publication Date
CN101290624A true CN101290624A (zh) 2008-10-22
CN101290624B CN101290624B (zh) 2012-02-01

Family

ID=40034882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810038788XA Expired - Fee Related CN101290624B (zh) 2008-06-11 2008-06-11 一种新闻网页元数据自动抽取方法

Country Status (1)

Country Link
CN (1) CN101290624B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807206A (zh) * 2010-03-10 2010-08-18 上海克而瑞信息技术有限公司 一种网络信息垂直搜索与挖掘处理方法
CN101840402A (zh) * 2009-03-18 2010-09-22 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法
CN102186114A (zh) * 2011-05-10 2011-09-14 中山大学 一种基于etl的数字电视互动应用中间件
CN102194156A (zh) * 2010-03-01 2011-09-21 国网信息通信有限公司 一种科技查新方法及系统
CN103279567A (zh) * 2013-06-18 2013-09-04 重庆邮电大学 一种基于AJAX的Web数据采集方法及系统
CN103765407A (zh) * 2011-08-31 2014-04-30 三星电子株式会社 向连接至数字生活网络联盟的设备传送云系统上的内容的电子装置和方法
CN103838796A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页结构化信息抽取方法
CN104182396A (zh) * 2013-05-21 2014-12-03 北大方正集团有限公司 终端、版式文档内容描述优化装置和方法
CN104965849A (zh) * 2015-03-31 2015-10-07 哈尔滨工程大学 一种基于wvp_dom树相似性的网页不变形噪音过滤方法
CN105468688A (zh) * 2015-11-17 2016-04-06 百度在线网络技术(北京)有限公司 一种站点模板的处理方法及装置
CN107436931A (zh) * 2017-07-17 2017-12-05 广州特道信息科技有限公司 网页正文抽取方法及装置
US9871840B2 (en) 2011-08-31 2018-01-16 Samsung Electronics Co., Ltd. Electronic apparatus and method for transferring contents on cloud system to device connected to DLNA

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0615201B1 (en) * 1993-03-12 2001-01-10 Kabushiki Kaisha Toshiba Document detection system using detection result presentation for facilitating user's comprehension
CN100461183C (zh) * 2007-07-10 2009-02-11 北京大学 网络搜索中基于多种规则的元数据自动抽取方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840402A (zh) * 2009-03-18 2010-09-22 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
CN101840402B (zh) * 2009-03-18 2014-05-07 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
CN102194156A (zh) * 2010-03-01 2011-09-21 国网信息通信有限公司 一种科技查新方法及系统
CN101807206A (zh) * 2010-03-10 2010-08-18 上海克而瑞信息技术有限公司 一种网络信息垂直搜索与挖掘处理方法
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法
CN101984434B (zh) * 2010-11-16 2012-09-05 东北大学 基于可扩展标记语言查询的网页数据抽取方法
CN102186114A (zh) * 2011-05-10 2011-09-14 中山大学 一种基于etl的数字电视互动应用中间件
CN102186114B (zh) * 2011-05-10 2013-08-21 中山大学 一种基于etl的数字电视互动应用中间件
CN103765407A (zh) * 2011-08-31 2014-04-30 三星电子株式会社 向连接至数字生活网络联盟的设备传送云系统上的内容的电子装置和方法
US9871840B2 (en) 2011-08-31 2018-01-16 Samsung Electronics Co., Ltd. Electronic apparatus and method for transferring contents on cloud system to device connected to DLNA
CN103838796A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页结构化信息抽取方法
CN104182396A (zh) * 2013-05-21 2014-12-03 北大方正集团有限公司 终端、版式文档内容描述优化装置和方法
CN104182396B (zh) * 2013-05-21 2017-12-05 北大方正集团有限公司 终端、版式文档内容描述优化装置和方法
CN103279567A (zh) * 2013-06-18 2013-09-04 重庆邮电大学 一种基于AJAX的Web数据采集方法及系统
CN104965849A (zh) * 2015-03-31 2015-10-07 哈尔滨工程大学 一种基于wvp_dom树相似性的网页不变形噪音过滤方法
CN104965849B (zh) * 2015-03-31 2018-12-07 哈尔滨工程大学 一种基于wvp_dom树相似性的网页不变形噪音过滤方法
CN105468688A (zh) * 2015-11-17 2016-04-06 百度在线网络技术(北京)有限公司 一种站点模板的处理方法及装置
CN107436931A (zh) * 2017-07-17 2017-12-05 广州特道信息科技有限公司 网页正文抽取方法及装置
CN107436931B (zh) * 2017-07-17 2020-12-22 云润大数据服务有限公司 网页正文抽取方法及装置

Also Published As

Publication number Publication date
CN101290624B (zh) 2012-02-01

Similar Documents

Publication Publication Date Title
CN101290624B (zh) 一种新闻网页元数据自动抽取方法
US8055661B2 (en) Device and method for automatically generating ontology instance
CN100576201C (zh) 用于从自然语言文本开发本体的方法和电子数据处理系统
US9690770B2 (en) Analysis of documents using rules
Plessers et al. Accessibility: a web engineering approach
CN101361063B (zh) 支持基于规则的文档内容挖掘的系统与方法
US20070136698A1 (en) Method, system and apparatus for a parser for use in the processing of structured documents
US20060048107A1 (en) Enhanced compiled representation of transformation formats
KR20080066943A (ko) 부분적 xml 검증을 수행하기 위한 방법, 관련 폼으로저장된 xml 문서 내의 데이터를 수정하기 위한 시스템및 컴퓨터 판독가능 매체
US8589778B2 (en) System and method for processing multi-modal communication within a workgroup
JP2006351002A5 (zh)
Chiarcos POWLA: Modeling linguistic corpora in OWL/DL
US20090019015A1 (en) Mathematical expression structured language object search system and search method
CN101872350A (zh) 网页正文抽取方法和装置
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
US8117537B1 (en) Platform-independent method for computer aided schematic drawings
US9305032B2 (en) Framework for generating programs to process beacons
CN103744987A (zh) 基于dom树匹配的视频网站媒资聚合方法和系统
Liu et al. An XML-enabled data extraction toolkit for web sources
KR101069207B1 (ko) 전자 문서에 의미 정보를 부착하는 시스템 및 방법
US8161376B2 (en) Converting a heterogeneous document
CN102147731A (zh) 基于扩展功能需求描述框架的功能需求自动抽取系统
KR101207375B1 (ko) 수식 컨텐츠 관리 시스템 및 방법
KR20040056298A (ko) 엑스퀘리를 사용하여 통합 스키마를 정의하는 데이터 통합시스템 및 그 방법
CN100338609C (zh) 包装器的维护方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120201

Termination date: 20140611

EXPY Termination of patent right or utility model