CN103116448A

CN103116448A - 一种可视化信息的抽取方法

Info

Publication number: CN103116448A
Application number: CN2013100349770A
Authority: CN
Inventors: 高滨
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2013-01-30
Filing date: 2013-01-30
Publication date: 2013-05-22

Abstract

本发明提供一种可视化信息的抽取方法，信息提取的是通过内嵌浏览器手动选择提取区域，在后台自动形成抽取的方式，信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成，具体抽取步骤如下：用户对一新闻页面的各个新闻要素，包括：信息标题、信息发布时间和信息内容，制定抽取规则，首先，用户用鼠标拖拽选择的内容或将该内容复制到内容框中，通过识别标签抽取规则自动生成。

Description

一种可视化信息的抽取方法

技术领域

本发明涉及一种可视化的信息抽取方法，具体涉及自然语言处理领域，其中的信息提取规则可视化且该方法具有较强的实用性。

背景技术

随着互联网上信息量的爆炸式增长，使用户从Web上获得有用的信息变得日益困难。如何从Web中快速、有效的获取信息仍然是困扰Web用户的一个问题，在这种背景之下，出现了Web信息抽取技术。信息抽取，从20世纪80年代末以来，在Tipster文本项目、MUC( Message Understanding Conference，消息理解会议)和ACE( Automatic Content Extraction，自动内容提取)等因素的推动下，信息采集技术迅速的发展。

基于隐马尔科夫模型的信息抽取方法需要相关领域的专家事先构建出该领域的最优数学模型，且模型参数的制定需要大量的样本数据,抽取效率较低。基于本体实现的表格信息抽取方法不依赖于所抽取的WEB页面的设计格式，也没有对其内容提出任何表示限制，但该方法只适用于一定的应用领域，当应用领域改变时相应的本体需要重新构造。基于自然语言处理方式的信息抽取方法适用于含有大量自由文本且句子成分完整的Web页面，但该方法没有充分利用Web文档的层次结构，且处理速度慢，导致该方法的适用范围较小。

相较于现有技术，本发明具有以下特点：1、抽取规则的直观、简单化制定。现有可视化的抽取规则制定是以网页DOM树的形式。对于结构复杂的网页树，由于网页节点较多，需要唯一确定抽取规则的XPATH路径，且该方法需要具有相关的信息抽取知识，因此抽取规则制定复杂。

发明内容

本发明的目的是提供一种可视化信息的抽取方法。

本发明的目的是按以下方式实现的，信息提取的是通过内嵌浏览器手动选择提取区域，在后台自动形成抽取的方式，信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成。

本发明的有益效果是：本发明解决的技术问题是提供一种可视化的信息抽取方法，信息提取的规则通过内嵌浏览器手动选择提取区域，后台自动形成抽取规则，使得抽取规则的制定简单直观且该规则具有较广的适用性。

本发明提供的信息抽取规则制定区别于传统的信息抽取规则的制定，它是以基于某一类型的信息抽取模板页面，在规则制定页面中内嵌Iframe新闻页面，由用户通过鼠标圈定感兴趣的提取信息区域或文字，系统自动记录用户的鼠标动作，用户只需要确定抽取区域的类型：如信息抽取标题或内容等，抽取规则保存入数据库。该规则适用于来自同一数据源的页面，规则由唯一的前后标识确定，具有较强的适用性。本发明提成的可视化信息提取，方便用户直观快速构建信息提取规则，且抽取规则具有较强的适用性。

具体实施方式

下面对本发明的内容以一个具体实例来描述这一方法的过程。

用户对一新闻页面的各个新闻要素（信息标题、信息发布时间和信息内容）制定抽取规则。首先，用户用鼠标拖拽选择的内容或将该内容复制到内容框中，通过识别标签抽取规则自动生成。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种可视化信息的抽取方法, 其特征在于信息提取的是通过内嵌浏览器手动选择提取区域，在后台自动形成抽取的方式，信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成，具体抽取步骤如下：

用户对一新闻页面的各个新闻要素，包括：信息标题、信息发布时间和信息内容，制定抽取规则，首先，用户用鼠标拖拽选择的内容或将该内容复制到内容框中，通过识别标签抽取规则自动生成。