CN103116448A - 一种可视化信息的抽取方法 - Google Patents
一种可视化信息的抽取方法 Download PDFInfo
- Publication number
- CN103116448A CN103116448A CN2013100349770A CN201310034977A CN103116448A CN 103116448 A CN103116448 A CN 103116448A CN 2013100349770 A CN2013100349770 A CN 2013100349770A CN 201310034977 A CN201310034977 A CN 201310034977A CN 103116448 A CN103116448 A CN 103116448A
- Authority
- CN
- China
- Prior art keywords
- information
- extraction
- news
- user
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种可视化信息的抽取方法,信息提取的是通过内嵌浏览器手动选择提取区域,在后台自动形成抽取的方式,信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成,具体抽取步骤如下:用户对一新闻页面的各个新闻要素,包括:信息标题、信息发布时间和信息内容,制定抽取规则,首先,用户用鼠标拖拽选择的内容或将该内容复制到内容框中,通过识别标签抽取规则自动生成。
Description
技术领域
本发明涉及一种可视化的信息抽取方法,具体涉及自然语言处理领域,其中的信息提取规则可视化且该方法具有较强的实用性。
背景技术
随着互联网上信息量的爆炸式增长,使用户从Web上获得有用的信息变得日益困难。如何从Web中快速、有效的获取信息仍然是困扰Web用户的一个问题,在这种背景之下,出现了Web信息抽取技术。信息抽取,从20世纪80年代末以来,在Tipster文本项目、MUC( Message Understanding Conference,消息理解会议)和ACE( Automatic Content Extraction,自动内容提取)等因素的推动下,信息采集技术迅速的发展。
基于隐马尔科夫模型的信息抽取方法需要相关领域的专家事先构建出该领域的最优数学模型,且模型参数的制定需要大量的样本数据,抽取效率较低。基于本体实现的表格信息抽取方法不依赖于所抽取的WEB页面的设计格式,也没有对其内容提出任何表示限制,但该方法只适用于一定的应用领域,当应用领域改变时相应的本体需要重新构造。基于自然语言处理方式的信息抽取方法适用于含有大量自由文本且句子成分完整的Web页面,但该方法没有充分利用Web文档的层次结构,且处理速度慢,导致该方法的适用范围较小。
相较于现有技术,本发明具有以下特点:1、抽取规则的直观、简单化制定。现有可视化的抽取规则制定是以网页DOM树的形式。对于结构复杂的网页树,由于网页节点较多,需要唯一确定抽取规则的XPATH路径,且该方法需要具有相关的信息抽取知识,因此抽取规则制定复杂。
发明内容
本发明的目的是提供一种可视化信息的抽取方法。
本发明的目的是按以下方式实现的,信息提取的是通过内嵌浏览器手动选择提取区域,在后台自动形成抽取的方式,信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成。
本发明的有益效果是:本发明解决的技术问题是提供一种可视化的信息抽取方法,信息提取的规则通过内嵌浏览器手动选择提取区域,后台自动形成抽取规则,使得抽取规则的制定简单直观且该规则具有较广的适用性。
本发明提供的信息抽取规则制定区别于传统的信息抽取规则的制定,它是以基于某一类型的信息抽取模板页面,在规则制定页面中内嵌Iframe新闻页面,由用户通过鼠标圈定感兴趣的提取信息区域或文字,系统自动记录用户的鼠标动作,用户只需要确定抽取区域的类型:如信息抽取标题或内容等,抽取规则保存入数据库。该规则适用于来自同一数据源的页面,规则由唯一的前后标识确定,具有较强的适用性。本发明提成的可视化信息提取,方便用户直观快速构建信息提取规则,且抽取规则具有较强的适用性。
具体实施方式
下面对本发明的内容以一个具体实例来描述这一方法的过程。
用户对一新闻页面的各个新闻要素(信息标题、信息发布时间和信息内容)制定抽取规则。首先,用户用鼠标拖拽选择的内容或将该内容复制到内容框中,通过识别标签抽取规则自动生成。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种可视化信息的抽取方法, 其特征在于信息提取的是通过内嵌浏览器手动选择提取区域,在后台自动形成抽取的方式,信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成,具体抽取步骤如下:
用户对一新闻页面的各个新闻要素,包括:信息标题、信息发布时间和信息内容,制定抽取规则,首先,用户用鼠标拖拽选择的内容或将该内容复制到内容框中,通过识别标签抽取规则自动生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100349770A CN103116448A (zh) | 2013-01-30 | 2013-01-30 | 一种可视化信息的抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100349770A CN103116448A (zh) | 2013-01-30 | 2013-01-30 | 一种可视化信息的抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103116448A true CN103116448A (zh) | 2013-05-22 |
Family
ID=48414843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013100349770A Pending CN103116448A (zh) | 2013-01-30 | 2013-01-30 | 一种可视化信息的抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103116448A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609150A (zh) * | 2017-08-28 | 2018-01-19 | 湖北省楚天云有限公司 | 一种基于页面元素选取的交互式网络爬虫创建方法及系统 |
CN110334217A (zh) * | 2019-05-10 | 2019-10-15 | 科大讯飞股份有限公司 | 一种要素抽取方法、装置、设备及存储介质 |
CN113743076A (zh) * | 2021-11-08 | 2021-12-03 | 中关村科技软件股份有限公司 | 一种数据提取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1786965A (zh) * | 2005-12-21 | 2006-06-14 | 北大方正集团有限公司 | 一种新闻网页正文信息的提取方法 |
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN101727486A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种Web论坛信息抽取系统 |
CN102360368A (zh) * | 2011-10-09 | 2012-02-22 | 山东大学 | 基于抽取模板可视化定制的Web数据抽取方法 |
-
2013
- 2013-01-30 CN CN2013100349770A patent/CN103116448A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1786965A (zh) * | 2005-12-21 | 2006-06-14 | 北大方正集团有限公司 | 一种新闻网页正文信息的提取方法 |
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN101727486A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种Web论坛信息抽取系统 |
CN102360368A (zh) * | 2011-10-09 | 2012-02-22 | 山东大学 | 基于抽取模板可视化定制的Web数据抽取方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609150A (zh) * | 2017-08-28 | 2018-01-19 | 湖北省楚天云有限公司 | 一种基于页面元素选取的交互式网络爬虫创建方法及系统 |
CN110334217A (zh) * | 2019-05-10 | 2019-10-15 | 科大讯飞股份有限公司 | 一种要素抽取方法、装置、设备及存储介质 |
CN110334217B (zh) * | 2019-05-10 | 2021-10-08 | 科大讯飞股份有限公司 | 一种要素抽取方法、装置、设备及存储介质 |
CN113743076A (zh) * | 2021-11-08 | 2021-12-03 | 中关村科技软件股份有限公司 | 一种数据提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104133848B (zh) | 藏语实体知识信息抽取方法 | |
CN102541874B (zh) | 网页正文内容提取方法及装置 | |
CN106503049A (zh) | 一种基于svm融合多种情感资源的微博情感分类方法 | |
CN103853834B (zh) | 基于文本结构分析的Web文档摘要的生成方法 | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
CN104933027A (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
Peters et al. | Content extraction using diverse feature sets | |
CN102591612B (zh) | 一种基于标点连续性的通用网页正文提取方法及其系统 | |
CN104933130A (zh) | 评论信息的标注方法及装置 | |
CN102117289A (zh) | 一种从网页中抽取评论内容的方法和装置 | |
CN103810251A (zh) | 一种文本提取方法及装置 | |
CN107436931B (zh) | 网页正文抽取方法及装置 | |
CN103116448A (zh) | 一种可视化信息的抽取方法 | |
CN101369208A (zh) | 浏览器用户输入区内容的生成方法 | |
CN108255895A (zh) | 一种使用上下文环境规则的网页数据获取方法 | |
CN108959248A (zh) | 一种实体标注方法和装置、计算机可读存储介质 | |
Ahmed et al. | Web to Semantic Web & Role of Ontology | |
CN105447027A (zh) | 一种pdf文档目录的获取方法及装置 | |
CN104331472B (zh) | 分词训练数据的构造方法和装置 | |
Zhang et al. | Automatic web news extraction based on DS theory considering content topics | |
Kim et al. | HTML Text Extraction Using Tag Path and Text Appearance Frequency | |
Kolkur et al. | Web Data Extraction Using Tree Structure Algorithms-A Comparison | |
Akhter | Information extraction and interactive visualization of road accident related news | |
CN102073647A (zh) | 一种面向e-Science环境的多领域Web文本特征抽取系统及方法 | |
Chiu | The Silent Scream—Interpreting and Appraising Text-based Artwork with Language Barrier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130522 |
|
WD01 | Invention patent application deemed withdrawn after publication |