CN103870606A

CN103870606A - 一种网页信息提取系统及提取方法

Info

Publication number: CN103870606A
Application number: CN201410138234.2A
Authority: CN
Inventors: 张啸晨; 郭少鹏; 吕强; 贺文磊
Original assignee: SHANGHAI YUTIAN INFORMATION TECHNOLOGY CO LTD
Current assignee: SHANGHAI YUTIAN INFORMATION TECHNOLOGY CO LTD
Priority date: 2014-04-08
Filing date: 2014-04-08
Publication date: 2014-06-18
Anticipated expiration: 2034-04-08
Also published as: CN103870606B

Abstract

本发明公开了一种网页信息提取系统及提取方法，属于网络信息提取技术领域，系统包括网页信息捕捉单元；网址过滤单元，连接网页信息捕捉单元；网页信息提取单元，分别连接网页信息捕捉单元和网址过滤单元；方法包括：预设多个标准网址信息；获取网页的网址信息和网页编码信息；将匹配于标准网址信息的网址信息标记为有效网址信息；提取网页编码信息，转换网页编码信息的编码类型并保存；用空白信息替代网页编码信息中的超文本标签；将网页编码信息划分为多个信息块，并计算信息块中的字节密度；提取密度骤升与密度骤降的信息块之间的网页编码信息并输出；上述技术方案的有益效果是：剔除无用信息，解决兼容性问题，提升信息获取精确性。

Description

一种网页信息提取系统及提取方法

技术领域

本发明涉及网络信息提取技术领域，尤其涉及一种网页信息提取系统及提取方法。

背景技术

在如今信息爆炸的时代，网络扮演着非常重要的角色。网络上包括海量的数据，各种类型以及各种结构的数据都混杂在一起，这就给抓取网络上的正文信息带来了不小的麻烦。

现有技术中，往往需要在网页上获取相关的网页内容，以便于进行后续处理，例如对网页内容进行分析从而获知相关网页发布的信息内容。

通常，现有技术中，在网页上获取相关的网页内容时，会遇到以下几个问题：

1）由于从网络上下载的页面中包括很多无用的广告页面以及一些无效页面，会给获取正文信息的过程带来很多干扰；

2）对于网络上存在的各种结构和各种编码的页面，在获取正文信息时会遇到编码兼容性的问题。

发明内容

根据现有技术中存在的缺陷，现提供一种网页信息提取系统及提取方法，具体包括：

一种网页信息提取系统，其中，包括：

网页信息捕捉单元，用于在浏览器侧下载预设的网页，并捕捉所述网页的网址信息和网页编码信息；

网址过滤单元，连接所述网页信息捕捉单元，预设有多个标准网址信息，并用于根据预设的所述标准网址信息对所述网址信息进行匹配，以获得匹配于所述标准网址信息的有效网址信息；

网页信息提取单元，分别连接所述网页信息捕捉单元和所述网址过滤单元，用于提取对应所述有效网址信息的所述网页编码信息，并将所述网页编码信息分为多个信息块，查找到字节密度骤升的所述信息块和字节密度骤降的所述信息块；

所述网页信息提取单元将位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息确定为网页信息，并输出所述网页信息。

优选的，该网页信息提取系统，其中，所述网址过滤单元包括：

网址分割模块，用于接收所述网页信息捕捉单元捕获的网址信息，并将所述网址信息分割为域名信息、URL路径信息以及URL实体信息；

标准网址存储模块，保存有所述标准网址信息，所述标准网址信息包括标准域名信息和标准URL路径信息；

网址匹配模块，分别连接所述网址分割模块和所述标准网址存储模块，用于将所述域名信息与所述标准域名信息进行匹配，以及将所述URL路径信息与所述标准URL路径信息匹配，并将匹配成功的所述网址信息标记为有效网址信息。

优选的，该网页信息提取系统，其中，所述网页信息提取单元中包括：

编码转换模块，用于根据所述网页编码信息的编码类型选择相应的解码方式，以将所述网页编码信息的编码类型转换成对应的UTF-8编码UTF-8编码类型；

编码存储模块，连接所述编码转换模块，用于保存经过转换的所述网页编码信息；

第一符号转换模块，连接所述编码存储模块，采用空白信息替代所述编码存储模块中保存的所述网页编码信息中的超文本标签；

信息密度计算模块，连接所述第一符号转换模块，用于将经过替代后的所述网页编码信息分割为多个行数相等的连续的信息块，并计算每个所述信息块的字节密度；

网页信息提取模块，连接所述信息密度计算模块，用于根据所述信息块的字节密度的变化趋势，提取位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息，并将被提取的所述网页编码信息作为网页信息输出。

优选的，该网页信息提取系统，其中，所述网页信息提取单元中还包括：

第二符号转换模块，连接于所述编码存储模块与所述第一符号转换模块之间，采用换行符替代所述网页编码信息中的分段符，并将经过替代后的所述网页编码信息发送至所述第一符号转换模块中。

优选的，该网页信息提取系统，其中，所述信息密度计算模块还直接连接所述编码存储模块，用于直接提取保存于所述编码存储模块中的所述网页编码信息，并进行划分和信息密度计算；

所述网页信息提取模块中包括：

符号查询模块，根据位于字节密度骤降的所述信息块之前的最接近的区块分隔符，查找位于字节密度骤降的所述信息块之后的对应的区块分隔符；

所述网页信息提取模块将位于两个相应的所述区块分隔符之间的所述网页编码信息作为所述网页信息并输出。

一种网页信息提取方法，其中，包括：

步骤1，预设多个标准网址信息；

步骤2，在浏览器侧下载一个预设的网页，并获取所述网页的网址信息和对应的网页编码信息；

步骤3，将匹配于所述标准网址信息的所述网址信息标记为有效网址信息；

步骤4，提取对应所述有效网址信息的所述网页编码信息，并将所述网页编码信息的编码类型转换为UTF-8编码类型，随后保存经过转换的所述网页编码信息；

步骤5，采用空白信息替代经过转换后的所述网页编码信息中的超文本标签；

步骤6，将所述网页编码信息划分为多个行数相等的连续的信息块，并计算每个所述信息块中的字节密度；

步骤7，提取位于字节密度骤升的所述信息块与字节密度骤降的所述信息块之间的所述网页编码信息，以作为对应所述网页编码信息的网页信息并输出。

优选的，该网页信息提取方法，其中，所述标准网址信息中包括标准域名信息和标准URL路径信息；

所述步骤3具体包括：

步骤31，将所述网址信息分割为域名信息、URL路径信息和URL实体信息；

步骤32，将经过分割的所述网址信息中的所述域名信息与所述标准网址信息的所述标准域名信息进行匹配：

若所述域名信息匹配于所述标准域名信息，则转至步骤33；

若所述域名信息不匹配于所述标准域名信息，则返回所述步骤2；

步骤33，将经过分割的所述网址信息中的所述URL路径信息与对应所述标准域名信息的所述标准URL路径信息进行匹配：

若所述URL路径信息匹配于对应所述标准域名信息的所述标准URL路径信息，则将所述网址信息标记为有效网址信息，随后转至所述步骤4；

若所述URL路径信息不匹配于对应所述标准域名信息的所述标准URL路径信息，则返回所述步骤2。

优选的，该网页信息提取方法，其中，所述步骤5中，在采用空白信息替代所述网页编码信息中的超文本标签之前，首先采用换行符替代所述网页编码信息中的分段符。

优选的，该网页信息提取方法，其中，所述步骤4中，对网页编码信息的编码类型进行转换并且保存之后，直接转至所述步骤6；

所述步骤6中，将所述网页编码信息划分为多个行数相等的连续的信息块，并计算每个所述信息块中的字节密度后，转至步骤7b；

步骤7b，根据位于字节密度骤降的所述信息块之前的最接近的区块分隔符，查找位于字节密度骤降的所述信息块之后的对应的区块分隔符，随后将位于两个对应的所述区块分隔符之间的所述网页编码信息作为所述网页信息并输出。

上述技术方案的有益效果是：剔除网页上的无用信息和广告信息，解决网页编码结构的兼容性问题，提升在网页上获取网页内容的准确性，为后续处理做好准备。

附图说明

图1是本发明的较佳的实施例中，一种网页信息提取系统的结构示意图；

图2是本发明的较佳的实施例中，标准网址信息的树形存储结构示意图；

图3-4是本发明的较佳的实施例中，一种网页信息提取方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

如图1所示，本发明的较佳的实施例中，一种网页信息提取系统具体包括：

网页信息捕捉单元1，用于在浏览器侧下载预设的网页，并捕捉网页的网址信息和网页编码信息；

本发明的较佳的实施例中，网址信息即网页地址，网页编码信息即呈现网页中所有数据内容的编码信息，例如一个网页的所有HTML编码。

网址过滤单元2，连接网页信息捕捉单元1；本发明的较佳的实施例中，在网址过滤单元2中预设有多个标准网址信息，该网址过滤单元2根据预设的标准网址信息对网址信息进行匹配，以获得匹配于标准网址信息的有效网址信息。

本发明的较佳的实施例中，上述标准网址信息中包括标准域名信息和标准URL路径信息；进一步地，本发明的较佳的实施例中，一个标准网址信息由标准域名信息和对应该标准域名信息的标准URL路径信息构成。

网页信息提取单元3，分别连接网页信息捕捉单元1和网址过滤单元2，用于提取对应有效网址信息的网页编码信息，并将网页编码信息分为多个信息块，查找到字节密度骤升的信息块和字节密度骤降的信息块；信息块的划分方法参照下文详述。

本发明的较佳的实施例中，网页信息提取单元3将位于字节密度骤升的信息块和字节密度骤降的信息块之间的网页编码信息确定为网页信息，并输出网页信息。

进一步地，本发明的较佳的实施例中，上述网址过滤单元2中具体包括：

网址分割模块21，用于接收网页信息捕捉单元捕获的网址信息，并将网址信息分割为域名信息、URL路径信息以及URL实体信息；

标准网址存储模块22，保存有标准网址信息，标准网址信息包括标准域名信息和标准URL路径信息；

网址匹配模块23，分别连接网址分割模块21和标准网址存储模块22，用于将域名信息与标准域名信息进行匹配，以及将URL路径信息与标准URL路径信息匹配，并将匹配成功的网址信息标记为有效网址信息。

本发明的较佳的实施例中，以http://example.com为例：

在标准网址存储模块22中保存有该网址下的多个标准网址信息。本发明的较佳的实施例中，在标准网址存储模块22中保存有两个标准网址信息：http://example.com/example1;http://example.com/example2;则该标准网址信息包括有标准域名信息和标准URL路径信息，分别为：

标准域名信息为example.com;

标准URL路径信息分别为：example1和example2；

如图2所示，建立标准网址信息的树形存储结构，使得标准域名信息对应于标准URL路径信息。

本发明的较佳的实施例中，网页信息捕捉单元1捕捉到多个网络链接：

http://example.com/example1/12345678.html；

http://example.com/example2/87654321.html；

http://example.com/example3/12345678.html；

将上述网络链接进行分割，即：

example被划分为域名信息；

example1、example2和example3被划分为URL路径信息；

12345678和87654321被划分为URL实体信息。

因此，本发明的较佳的实施例中，在比对上述网址信息时，首先比对域名信息和保存于标准网址存储模块22中的标准域名信息，则上述三个网络链接的域名信息均匹配于标准域名信息；

随后，比对URL路径信息和保存于标准网址存储模块22中，对应于上述标准域名信息的标准URL路径信息（本发明的较佳的实施例中，即对应于example的标准URL路径信息），则上述三个网络链接中，前两个网络链接匹配于标准URL路径信息，而第三个网络链接不匹配于标准URL路径信息。因此，上述三个网络链接中，将前两个网络链接标记为有效网址信息。

本发明的较佳的实施例中，上述网页信息提取单元3中具体包括：

编码转换模块31，用于根据网页编码信息的编码类型选择相应的解码方式，以将网页编码信息的编码类型转换成对应的UTF-8编码UTF-8编码类型；

本发明的较佳的实施例中，由于下载的网页，其编码结构和类型可能各不一样，因此在编码转换之前，需要首先对待转换的网页编码信息进行编码确认，以确定该网页编码信息的编码类型，随后再采用相应的解码方式对其解码，以将该网页编码信息转换成UTF-8编码的信息。本发明的较佳的实施例中所述的UTF-8编码类型，是是一种针对Unicode编码（万国码）的可变长度字符编码，也是一种前缀码。UTF-8可以用来表示Unicode编码标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部份修改，即可继续使用，因此能够解决目前网页编码信息中由于编码类型和编码结构的不同导致的兼容性问题。

编码存储模块32，连接编码转换模块31，用于保存经过转换的网页编码信息；

第一符号转换模块33，连接编码存储模块32，采用空白信息替代编码存储模块31中保存的网页编码信息中的超文本标签；

本发明的较佳的实施例中，上述超文本标签即HTML标签，是指在网页编码信息中出现的由尖括号包围的关键词，例如符号<html>、<div>或者<p>，通常用于描述网页信息的格式，但并不作为网页的实体内容。因此，在提取网页的实体内容时，需要将这些超文本标签去除，并在其去除的地方填充进相应的空白信息（与被去除的超文本标签长度相同）以保留其位置，以防弄乱整个网页编码信息。

信息密度计算模块34，连接第一符号转换模块33，用于将经过替代后的网页编码信息分割为多个行数相等的连续的信息块，并计算每个信息块的字节密度；

本发明的较佳的实施例中，信息密度计算模块34提取由第一符号转换模块33替换处理后的网页编码信息，此时网页编码信息中仅剩下一行行的字节信息。信息密度计算模块34首先对该网页编码信息进行分块，具体分块规则为：

1）每个信息块中包括N行（N=2k-1，k为正整数）；

2）以信息块中第k行的行号作为该信息块的序列号。

随后，信息密度计算模块34计算每个信息块中包括的字节的密度。

网页信息提取模块35，连接信息密度计算模块34，用于根据信息块的字节密度的变化趋势，提取位于字节密度骤升的信息块和字节密度骤降的信息块之间的网页编码信息，并将被提取的网页编码信息作为网页信息输出。

本发明的较佳的实施例中，由于信息块的划分是连续的，因此，依次将相邻两个信息块的字节密度进行比较，以得出一个信息块的字节密度变化趋势。由于在网页编码信息中，正文代码在物理位置上会很靠近，且大多数都是文字，字节占用较多。因此，若有出现信息块的字节密度变化骤升的情况，则说明可能在网页编码信息的对应位置开始出现网页信息；相应地，出现信息块的字节密度变化骤降的情况，则说明可能在网页编码信息的对应位置，网页信息结束。因此，位于字节密度骤升的信息块和字节密度骤降的信息块之间的网页编码信息，即为该网页编码信息中的网页信息。本发明的较佳的实施例中，内容提取单元35将这段网页编码信息标记为网页信息，提取并输出。

本发明的较佳的实施例中，上述系统结构的设置建立在HTML编码每行都表示一个完整的语义的前提上。在某些情况下，一些网页的HTML编码，每行不一定表示一个完整的语义，而采用分段符（例如<p>符号）来对编码进行分段。在这种情况下，只需要在编码存储模块32和第一符号转换模块33之间设置一个第二符号转换模块36，在第一符号转换模块33对网页编码信息进行转换之前，先采用换行符替代网页编码信息中的分段符，以将网页编码信息“纠正”为一行表示一段完整语义的格式，随后将经过替代的网页编码信息发送至第一符号转换模块33中进行后续转换。

本发明的较佳的实施例中，在某些网页中，可能会出现网页正文的开头或者结尾处的字节密度过稀，从而导致无法查找骤升点和骤降点的方式准确找到网页编码信息中的网页信息，而这种情况下，往往网页信息处于两个对应的区块分隔符之间（例如<div>和</div>之间）。因此，在这种情况下，上述信息密度计算模块34还直接连接于上述编码存储模块32，用于绕过上述第一符号转换模块33和第二符号转换模块36，直接提取编码存储模块32中保存的经过编码转换的网页编码信息，随后直接进行信息块划分和字节密度计算。

随后，本发明的较佳的实施例中，在网页信息提取模块35中设置一符号查询部件351。网页信息提取模块35同样查找到字节密度骤降的信息块，随后符号查询部件351查询以该信息块为中心，向前查询最接近该信息块的区块分隔符（例如<div>符号），并向后查询最接近该信息块的对应于上述区块分隔符的另一个区块分隔符（例如</div>）。则在两个对应的区块分隔符之间的网页编码信息即为所要提取的网页信息。网页信息提取模块35输出提取到的网页信息。

本发明的较佳的实施例中，上述被提取的网页信息实际为整个网页编码信息中描述实体内容的正文信息。

本发明的较佳的实施例中，如图3所示，为采用上述网页信息提取系统实现的一种网页信息提取方法，具体包括：

步骤1，预设多个标准网址信息；

本发明的较佳的实施例中，如上文中所述，每个标准网址信息包括标准域名信息和对应的标准URL路径信息。

步骤2，在浏览器侧下载一个预设的网页，并获取网页的网址信息和对应的网页编码信息；

步骤3，将匹配于标准网址信息的网址信息标记为有效网址信息；

步骤4，提取对应有效网址信息的网页编码信息，并将网页编码信息的编码类型转换为UTF-8编码类型，随后保存经过转换的网页编码信息；

本发明的较佳的实施例中，首先对网页编码信息进行编码确认，以确定该网页编码信息的编码类型，随后采用对应的解码方式将网页编码信息的编码类型转换成UTF-8编码类型。

步骤5，采用空白信息替代经过转换后的网页编码信息中的超文本标签；

本发明的较佳的实施例中，在一种如上文中的情况下，在采用空白信息替代经过转换后的网页编码信息中的超文本标签之前，首先采用换行符替代网页编码信息中的分段符。

步骤6，将网页编码信息划分为多个行数相等的连续的信息块，并计算每个信息块中的字节密度；

步骤7，提取位于字节密度骤升的信息块与字节密度骤降的信息块之间的网页编码信息，以作为对应网页编码信息的网页信息并输出。

本发明的较佳的实施例中，当出现如上文中所述的情况时（即需要采用区块分隔符来确定网页信息的位置时），在步骤4中，对网页编码信息的编码类型进行转换并且保存之后，直接转至步骤6；

步骤6中，将网页编码信息划分为多个行数相等的连续的信息块，并计算每个信息块中的字节密度后，转至步骤7b；

步骤7b，根据位于字节密度骤降的信息块之前的最接近的区块分隔符，查找位于字节密度骤降的信息块之后的对应的区块分隔符，随后将位于两个对应的区块分隔符之间的网页编码信息作为网页信息并输出。

本发明的较佳的实施例中，如图4所示，上述步骤3具体包括:

步骤31，将网址信息分割为域名信息、URL路径信息和URL实体信息；

步骤32，将经过分割的网址信息中的域名信息与标准网址信息的标准域名信息进行匹配：

若域名信息匹配于标准域名信息，则转至步骤33；

若域名信息不匹配于标准域名信息，则返回步骤2；

步骤33，将经过分割的网址信息中的URL路径信息与对应标准域名信息的标准URL路径信息进行匹配：

若URL路径信息匹配于对应标准域名信息的标准URL路径信息，则将网址信息标记为有效网址信息，随后转至步骤4；

若URL路径信息不匹配于对应标准域名信息的标准URL路径信息，则返回步骤2。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种网页信息提取系统，其特征在于，包括：

2.如权利要求1所述的网页信息提取系统，其特征在于，所述网址过滤单元包括：

3.如权利要求2所述的网页信息提取系统，其特征在于，所述网页信息提取单元中包括：

4.如权利要求3所述的网页信息提取系统，其特征在于，所述网页信息提取单元中还包括：

5.如权利要求3所述的网页信息提取系统，其特征在于，所述信息密度计算模块还直接连接所述编码存储模块，用于直接提取保存于所述编码存储模块中的所述网页编码信息，并进行划分和信息密度计算；

所述网页信息提取模块中包括：

6.一种网页信息提取方法，其特征在于，包括：

步骤1，预设多个标准网址信息；

7.如权利要求6所述的网页信息提取方法，其特征在于，所述标准网址信息中包括标准域名信息和标准URL路径信息；

所述步骤3具体包括：

若所述域名信息匹配于所述标准域名信息，则转至步骤33；

8.如权利要求6所述的网页信息提取方法，其特征在于，所述步骤5中，在采用空白信息替代所述网页编码信息中的超文本标签之前，首先采用换行符替代所述网页编码信息中的分段符。

9.如权利要求6所述的网页信息提取方法，其特征在于，所述步骤4中，对网页编码信息的编码类型进行转换并且保存之后，直接转至所述步骤6；