CN103838790A - 一种网页数据提取方法 - Google Patents

一种网页数据提取方法 Download PDF

Info

Publication number
CN103838790A
CN103838790A CN201210491213.XA CN201210491213A CN103838790A CN 103838790 A CN103838790 A CN 103838790A CN 201210491213 A CN201210491213 A CN 201210491213A CN 103838790 A CN103838790 A CN 103838790A
Authority
CN
China
Prior art keywords
text
webpage
character
script
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210491213.XA
Other languages
English (en)
Inventor
夏铭泽
侯辛酉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd filed Critical DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201210491213.XA priority Critical patent/CN103838790A/zh
Publication of CN103838790A publication Critical patent/CN103838790A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页数据提取方法,包括以下步骤:对中英文网页及文字的判别处理、提取文本、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理和过滤网页数据字符和存储网页文本;本发明能够准确的提取出网页数据的文本信息,并能去除掉一些脚本以及过滤掉一些网页数据字符,保证提取文本的准确性;能够对特殊字符进行特殊的解析处理;能够识别中英文网页并能采取对应的处理措施,避免对网页数据进行错误的处理。

Description

一种网页数据提取方法
技术领域
本发明涉及一种数据采集技术,特别是一种网页数据提取方法;
背景技术
早在1969年,IBM公司开发了一种文档描述性语言GML,用来解决不同系统中文档格式不同的问题;GML是IBM许多文档系统的基础,包括Script和Bookmaster;它在1986年演变成一个国际标准ISO8879,并被称为标准通用标记语言即SGML;SGML是很多大型组织比如飞机、汽车公司和军队的文档标准,是与具体的语言无关的、结构化的、可扩展的语言,这些特点使它受到很多公司欢迎,被用来创建、处理和发布大量的文本信息;
标准通用标记语言即SGML是一种元语言,即用来描述标记语言的语言;HTML文档类型定义是HTML语法的标准定义,HTML语法是用SGML文档类型定义而成的;HTML是在WWW上建立超文本文件的语言,它通过标记和属性对一段文本的语言进行描述;标记是区分文本各组成部分的分界符,用来把HTML文档划分成不同的逻辑部分,如段落、标题和表格等;HTML标记有两种作用:首先是定义文档的结构,以便于浏览器显示该文档;其次提供超文本链接,可以指向网络中另一台计算机上的文件或者文件中的某一位置,这既方便了用户浏览,又可以引导搜索引擎中的网页采集器收集更多的网页;HTML支持在文本中嵌入图像、声音、动画等不同格式的文件,还具有强大的排版功能,利用HTML可以制作不是很复杂且功能强大,支持不同数据格式的文件嵌入,这也是WWW盛行的原因之一,其主要特点如下:
1、简易性——HTML版本升级采用超集方式,从而更加灵活方便;
2、可扩展性——HTML语言的广泛应用带来了加强功能、增加标识符等要求,HTML采取子类元素的方式为系统扩展带来保证;
3、平台无关性——虽然PC机大行其道,但使用MAC等其它机器的也大有人在,HTML可以使用在广泛的平台上,这使得WWW广为盛行;
网页数据信息是搜索引擎采集到的主要信息,它是指导搜索引擎进一步采集、分类和索引的基础;因此网页数据提取技术是决定搜索引擎搜索效率和质量的关键;目前网页数据提取技术主要包括网页超链接提取技术和网页纯文本提取技术,本发明主要介绍了一种网页数据的提取方法。
发明内容
本发明针对以上问题的提出,而研制一种为实现网页数据的提取,首先对网页的结构以及网页的控制符进行了充分的调研分析,并对网页内容和控制符等进行正确的处理和判断的一种网页数据的提取方法;
本发明的技术手段如下:
一种网页数据提取方法,其特征在于包括以下步骤:
A、对中英文网页及文字的判别处理;若超文本网页编码采用GB2312标准则为中文网页,否则为英文网页;对在网页标题及正文中的中文、英文或符号通过字符编码的范围进行判断;
B、提取文本;
B1、对获取的HTML源文件进行过滤处理并去掉其中的标签控制符提取文本信息;
B2、去除脚本;去除脚本的方式包括两种,一种为对HTML进行解析时,若遇到Script开始标签,则查找Script结束标签,查找成功后在该结束标签后继续进行解析;另一种为默认脚本为文本并将其提取出来,然后再判断该文本是否为脚本代码,若是脚本则不予收集;
C、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理;
D、过滤网页数据字符和存储网页文本:对一个网页中的文本进行存储并对各分离的文本之间加上分隔符,同时将标签划分为分隔标签和普通标签,当两个文本之间为普通标签时则两个文本是连续文本;最后过滤网页数据后统一网页数据字符格式。
与现有技术相比,本发明具有以下有益效果:
1、本发明能够准确的提取出网页数据的文本信息,并能去除掉一些脚本以及过滤掉一些网页数据字符,保证提取文本的准确性;
2、本发明能够对特殊字符进行特殊的解析处理;
3、本发明能够识别中英文网页并能采取对应的处理措施,避免对网页数据进行错误的处理。
附图说明
图1是本发明所述的HTML网页纯文本提取的流程图。
具体实施方式
下面结合附图对本发明进行进一步地描述:如图1所示,在HTML网页纯文本提取的工作流程中,首先本发明将待处理的网页文件转换为字符流形式并统一大小写,然后顺序定位到一个控制符开始提取过程。
一种网页数据提取方法,包括以下步骤:
A、对中英文网页及文字的判别处理;其将在超文本中<META>标识内出现charset=gb2312的网页当做中文网页,否则当做英文网页处理,系统的设计不支持BIG5和HZ编码;在网页标题及正文中可能有中文、英文或其它符号,可以通过字符编码的范围对其进行判断;其中英文字母的字符编码范围当字母大写时为0x41-0x5A;当字母小写时为0x61-0x7A;对于简体中文字符集GB2312而言汉字的字符编码范围是0x8140-0xFEA0部分,其中0xA1A1-0xA9EF是中文的标点符号表,本步骤把这个范围的字符当其它符号处理;
B、提取文本;
B1、对获取的HTML源文件进行过滤处理以去掉其中的Tag控制符提取文本信息;首先定位“〈”标识的位置,再定位其后相邻的“〉”标识的位置,然后去掉两个位置间的字符串;或者先定位“〉”标识的位置,再定位其后相邻的“〈”标识的位置,然后累加两个位置间的字符串;
B2、去除脚本;主要是脚本语言代码但也有例外;脚本语言代码是夹在<script>和</script>之间的代码,它是由浏览器解释并执行的,然而脚本代码却具有上面所描述的文本的特征,所以在提取文本时应注意排除它;一种排除的方式是在对HTML进行解析时,如果遇到<script>开始标签,就可以马上找到</script>结束标签,然后在其后继续进行解析;另一种排除方法是姑且把它当作文本提取出来,然后再判断它是否是脚本代码,如果是脚本,就不予收集;
C、特殊字符处理;对HTML语言中的部分特殊字符进行特殊的解析处理,避免乱码现象,具体包括对<>&"&reg;&copy;&trade;&ensp;&emsp;&nbsp;等特殊字符的处理;
D、过滤网页数据字符,存储网页文本;将一个网页中的文本进行存储时,各分离的文本之间应该加上分隔符;但是有些被标签分隔开的文本确实是一个整体,不能将其之间加上分隔符,例如被<br>分隔的文本;因此在实际处理文本时,需根据标签的意义,把标签分为两类:一类是起分隔作用的标签,另一类是不起分隔作用的标签;后一类标签包括:
<A><B><I><EM><T2><BIG><SUB><SUP><FWT><SMALL><STRONG><STRIKE><br>等;这类标签在语义上不起分隔作用,两个文本之间出现这样的标签应认为两个文本是连续的;由于网页中的英文字符有大小写之分,中文字符有全角、半角的差别,它们的不一致性将影响到后面的数据处理;所以在网页数据过滤后要对网页数据字符的格式进行统一。
与现有技术相比,本发明具有以下有益效果:
1、本发明能够准确的提取出网页数据的文本信息,并能去除掉一些脚本以及过滤掉一些网页数据字符,保证提取文本的准确性;
2、本发明能够对特殊字符进行特殊的解析处理;
3、本发明能够识别中英文网页并能采取对应的处理措施,避免对网页数据进行错误的处理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种网页数据提取方法,其特征在于包括以下步骤:
A、对中英文网页及文字的判别处理;若超文本网页编码采用GB2312标准则为中文网页,否则为英文网页;对在网页标题及正文中的中文、英文或符号通过字符编码的范围进行判断;
B、提取文本;
B1、对获取的HTML源文件进行过滤处理并去掉其中的标签控制符提取文本信息;
B2、去除脚本;去除脚本的方式包括两种,一种为对HTML进行解析时,若遇到Script开始标签,则查找Script结束标签,查找成功后在该结束标签后继续进行解析;另一种为默认脚本为文本并将其提取出来,然后再判断该文本是否为脚本代码,若是脚本则不予收集;
C、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理;
D、过滤网页数据字符和存储网页文本:对一个网页中的文本进行存储并对各分离的文本之间加上分隔符,同时将标签划分为分隔标签和普通标签,当两个文本之间为普通标签时则两个文本是连续文本;最后过滤网页数据后统一网页数据字符格式。
CN201210491213.XA 2012-11-27 2012-11-27 一种网页数据提取方法 Pending CN103838790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210491213.XA CN103838790A (zh) 2012-11-27 2012-11-27 一种网页数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210491213.XA CN103838790A (zh) 2012-11-27 2012-11-27 一种网页数据提取方法

Publications (1)

Publication Number Publication Date
CN103838790A true CN103838790A (zh) 2014-06-04

Family

ID=50802299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210491213.XA Pending CN103838790A (zh) 2012-11-27 2012-11-27 一种网页数据提取方法

Country Status (1)

Country Link
CN (1) CN103838790A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021185A (zh) * 2014-06-11 2014-09-03 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置
CN108491536A (zh) * 2018-03-30 2018-09-04 北京智慧正安科技有限公司 法律条文提取方法、装置及计算机可读存储介质
CN111563211A (zh) * 2020-04-01 2020-08-21 深信服科技股份有限公司 一种统一资源定位符提取方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259673A1 (en) * 2008-04-14 2009-10-15 Choi Young Han Method and apparatus for extracting text from internet mail attachment file
CN102591612A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于标点连续性的通用网页正文提取方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259673A1 (en) * 2008-04-14 2009-10-15 Choi Young Han Method and apparatus for extracting text from internet mail attachment file
CN102591612A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于标点连续性的通用网页正文提取方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
常红要: "基于标签分析的网页正文提取技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021185A (zh) * 2014-06-11 2014-09-03 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置
CN104021185B (zh) * 2014-06-11 2017-04-05 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置
CN108491536A (zh) * 2018-03-30 2018-09-04 北京智慧正安科技有限公司 法律条文提取方法、装置及计算机可读存储介质
CN111563211A (zh) * 2020-04-01 2020-08-21 深信服科技股份有限公司 一种统一资源定位符提取方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN101727461B (zh) 一种网页的正文抽取方法
CN104598577B (zh) 一种网页正文的提取方法
US20120290288A1 (en) Parsing of text using linguistic and non-linguistic list properties
US8819028B2 (en) System and method for web content extraction
KR100912502B1 (ko) Pdf 파일을 대상으로 하는 자동 번역 방법
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
US20090046918A1 (en) Systems and methods for notes detection
WO2018044465A1 (en) Multibyte heterogeneous log preprocessing
CN106021392A (zh) 一种新闻关键信息的提取方法及系统
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
CN103699591A (zh) 一种基于示例页面的网页正文提取方法
CN109492177A (zh) 一种基于网页语义结构的网页分块方法
Mazari et al. Automatic Construction of Ontology from Arabic Texts.
CN103902918A (zh) 一种从Word文档中快速提取文字格式的方法和装置
CN103778141A (zh) 一种混合pdf图书目录自动抽取算法
CN103838790A (zh) 一种网页数据提取方法
CN109101491A (zh) 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN102110108B (zh) 一种对小样文件的处理方法及装置
CN102737017B (zh) 一种提取页面主题的方法和装置
Wong et al. Updating the ICE annotation system: Tagging, parsing and validation
Lejeune et al. Daniel: Language independent character-based news surveillance
Haruechaiyasak et al. A collaborative framework for collecting thai unknown words from the web
CN104516941A (zh) 相关文档检索装置、方法及程序
Wei et al. Bibliographic attributes extraction with layer-upon-layer tagging

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604

RJ01 Rejection of invention patent application after publication