CN103838790A

CN103838790A - 一种网页数据提取方法

Info

Publication number: CN103838790A
Application number: CN201210491213.XA
Authority: CN
Inventors: 夏铭泽; 侯辛酉
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04

Abstract

本发明公开了一种网页数据提取方法，包括以下步骤：对中英文网页及文字的判别处理、提取文本、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理和过滤网页数据字符和存储网页文本；本发明能够准确的提取出网页数据的文本信息，并能去除掉一些脚本以及过滤掉一些网页数据字符，保证提取文本的准确性；能够对特殊字符进行特殊的解析处理；能够识别中英文网页并能采取对应的处理措施，避免对网页数据进行错误的处理。

Description

一种网页数据提取方法

技术领域

本发明涉及一种数据采集技术，特别是一种网页数据提取方法；

背景技术

早在1969年，IBM公司开发了一种文档描述性语言GML，用来解决不同系统中文档格式不同的问题；GML是IBM许多文档系统的基础，包括Script和Bookmaster；它在1986年演变成一个国际标准ISO8879，并被称为标准通用标记语言即SGML；SGML是很多大型组织比如飞机、汽车公司和军队的文档标准，是与具体的语言无关的、结构化的、可扩展的语言，这些特点使它受到很多公司欢迎，被用来创建、处理和发布大量的文本信息；

标准通用标记语言即SGML是一种元语言，即用来描述标记语言的语言；HTML文档类型定义是HTML语法的标准定义，HTML语法是用SGML文档类型定义而成的；HTML是在WWW上建立超文本文件的语言，它通过标记和属性对一段文本的语言进行描述；标记是区分文本各组成部分的分界符，用来把HTML文档划分成不同的逻辑部分，如段落、标题和表格等；HTML标记有两种作用：首先是定义文档的结构，以便于浏览器显示该文档；其次提供超文本链接，可以指向网络中另一台计算机上的文件或者文件中的某一位置，这既方便了用户浏览，又可以引导搜索引擎中的网页采集器收集更多的网页；HTML支持在文本中嵌入图像、声音、动画等不同格式的文件，还具有强大的排版功能，利用HTML可以制作不是很复杂且功能强大，支持不同数据格式的文件嵌入，这也是WWW盛行的原因之一，其主要特点如下：

1、简易性——HTML版本升级采用超集方式，从而更加灵活方便；

2、可扩展性——HTML语言的广泛应用带来了加强功能、增加标识符等要求，HTML采取子类元素的方式为系统扩展带来保证；

3、平台无关性——虽然PC机大行其道，但使用MAC等其它机器的也大有人在，HTML可以使用在广泛的平台上，这使得WWW广为盛行；

网页数据信息是搜索引擎采集到的主要信息，它是指导搜索引擎进一步采集、分类和索引的基础；因此网页数据提取技术是决定搜索引擎搜索效率和质量的关键；目前网页数据提取技术主要包括网页超链接提取技术和网页纯文本提取技术，本发明主要介绍了一种网页数据的提取方法。

发明内容

本发明针对以上问题的提出，而研制一种为实现网页数据的提取，首先对网页的结构以及网页的控制符进行了充分的调研分析，并对网页内容和控制符等进行正确的处理和判断的一种网页数据的提取方法；

本发明的技术手段如下：

一种网页数据提取方法，其特征在于包括以下步骤：

A、对中英文网页及文字的判别处理；若超文本网页编码采用GB2312标准则为中文网页，否则为英文网页；对在网页标题及正文中的中文、英文或符号通过字符编码的范围进行判断；

B、提取文本；

B1、对获取的HTML源文件进行过滤处理并去掉其中的标签控制符提取文本信息；

B2、去除脚本；去除脚本的方式包括两种，一种为对HTML进行解析时，若遇到Script开始标签，则查找Script结束标签，查找成功后在该结束标签后继续进行解析；另一种为默认脚本为文本并将其提取出来，然后再判断该文本是否为脚本代码，若是脚本则不予收集；

C、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理；

D、过滤网页数据字符和存储网页文本：对一个网页中的文本进行存储并对各分离的文本之间加上分隔符，同时将标签划分为分隔标签和普通标签，当两个文本之间为普通标签时则两个文本是连续文本；最后过滤网页数据后统一网页数据字符格式。

与现有技术相比，本发明具有以下有益效果：

1、本发明能够准确的提取出网页数据的文本信息，并能去除掉一些脚本以及过滤掉一些网页数据字符，保证提取文本的准确性；

2、本发明能够对特殊字符进行特殊的解析处理；

3、本发明能够识别中英文网页并能采取对应的处理措施，避免对网页数据进行错误的处理。

附图说明

图1是本发明所述的HTML网页纯文本提取的流程图。

具体实施方式

下面结合附图对本发明进行进一步地描述：如图1所示，在HTML网页纯文本提取的工作流程中，首先本发明将待处理的网页文件转换为字符流形式并统一大小写，然后顺序定位到一个控制符开始提取过程。

一种网页数据提取方法，包括以下步骤：

A、对中英文网页及文字的判别处理；其将在超文本中<META>标识内出现charset=gb2312的网页当做中文网页，否则当做英文网页处理，系统的设计不支持BIG5和HZ编码；在网页标题及正文中可能有中文、英文或其它符号，可以通过字符编码的范围对其进行判断；其中英文字母的字符编码范围当字母大写时为0x41-0x5A；当字母小写时为0x61-0x7A；对于简体中文字符集GB2312而言汉字的字符编码范围是0x8140-0xFEA0部分，其中0xA1A1-0xA9EF是中文的标点符号表，本步骤把这个范围的字符当其它符号处理；

B、提取文本；

B1、对获取的HTML源文件进行过滤处理以去掉其中的Tag控制符提取文本信息；首先定位“〈”标识的位置，再定位其后相邻的“〉”标识的位置，然后去掉两个位置间的字符串；或者先定位“〉”标识的位置，再定位其后相邻的“〈”标识的位置，然后累加两个位置间的字符串；

B2、去除脚本；主要是脚本语言代码但也有例外；脚本语言代码是夹在<script>和</script>之间的代码，它是由浏览器解释并执行的，然而脚本代码却具有上面所描述的文本的特征，所以在提取文本时应注意排除它；一种排除的方式是在对HTML进行解析时，如果遇到<script>开始标签，就可以马上找到</script>结束标签，然后在其后继续进行解析；另一种排除方法是姑且把它当作文本提取出来，然后再判断它是否是脚本代码，如果是脚本，就不予收集；

D、过滤网页数据字符，存储网页文本；将一个网页中的文本进行存储时，各分离的文本之间应该加上分隔符；但是有些被标签分隔开的文本确实是一个整体，不能将其之间加上分隔符，例如被<br>分隔的文本；因此在实际处理文本时，需根据标签的意义，把标签分为两类：一类是起分隔作用的标签，另一类是不起分隔作用的标签；后一类标签包括：

<A><B><I><EM><T2><BIG><SUB><SUP><FWT><SMALL><STRONG><STRIKE><br>等；这类标签在语义上不起分隔作用，两个文本之间出现这样的标签应认为两个文本是连续的；由于网页中的英文字符有大小写之分，中文字符有全角、半角的差别，它们的不一致性将影响到后面的数据处理；所以在网页数据过滤后要对网页数据字符的格式进行统一。

与现有技术相比，本发明具有以下有益效果：

2、本发明能够对特殊字符进行特殊的解析处理；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种网页数据提取方法，其特征在于包括以下步骤：

B、提取文本；