CN101620608A

CN101620608A - 信息采集方法及系统

Info

Publication number: CN101620608A
Application number: CN200810126496A
Authority: CN
Inventors: 蓝培瑜
Original assignee: NATIONAL ADMINISTRATION FOR CODE ALLOCATION TO ORGANIZATIONS
Current assignee: NATIONAL ADMINISTRATION FOR CODE ALLOCATION TO ORGANIZATIONS
Priority date: 2008-07-04
Filing date: 2008-07-04
Publication date: 2010-01-06

Abstract

本发明涉及一种信息采集方法，包括：根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址；对一个或多个网页链接地址执行去重操作，并将去重结果存入地址列表数据文件；修补地址列表数据文件所对应的内容信息的HTML标签，并对修补后的网页内容进行文本信息提取；对提取的文本信息进行自动分类，然后对分类后的文本信息进行分词处理，并提取文本信息的摘要；将文本信息的分类结果、分词操作得到的词条以及摘要输出。本发明还涉及一种信息采集系统。本发明在信息采集过程中通过对网页中的内容信息进行HTML标签的修补，实现对各种网页格式的内容的采集；通过对网页链接地址进行哈希转换，增加网页链接地址去重的效率。

Description

信息采集方法及系统

技术领域

本发明涉及互联网信息处理技术，尤其涉及一种Internet信息定向采集处理的方法及系统。

背景技术

随着Internet的发展和日益普及，经济全球化与科技创新的竞争日益剧烈，很多技术的前沿信息都率先在Internet上公布，全球经济的发展呈现出对Internet中知识的扩散和应用的依赖，这使得Internet信息的数量呈几何级增长，在这个巨大的、异构的信息海洋中，蕴含着具有巨大潜在价值的信息和知识，采集和利用这些信息和知识已经成为国家、企业、个人的迫切需求。

此外，这些Internet信息90％以上为非结构化的信息，如各类电子文档、网页、多媒体内容等，仅有不到10％的信息内容为数字等结构化信息，在管理与利用这些非结构化的信息资源时现有的信息管理方式管理起来比较困难。

为了利用海量的非结构化信息占绝大多数的Internet信息，现有的以搜索引擎为主要产品的快速搜索技术为人们提供了一种查找信息的渠道，而这种快速搜索是建立在Internet信息采集的基础上。

现有的Internet信息采集系统主要是利用网页中存在的链接地址直接获取到页面内容或者二进制文件，在现有的信息采集系统中，由于当前各种先进技术的运用，许多网站的格局千变万化，对于动态生成的网页和利用脚本生成的网页，难以进行采集。另外，由于URL链接地址数量巨大，为了避免浪费系统资源，需要对地址进行去重操作，现有的去重操作均是对地址直接进行去重，由于这些地址会占去很大的存储空间，因此去重效率比较低下。

发明内容

本发明的目的是提出一种信息采集方法及系统，能够对各种网页格式的网页进行内容的提取，来实现网页信息的采集。

为实现上述目的，本发明提供了一种信息采集方法，包括以下步骤：

根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址；

对所述一个或多个网页链接地址执行去重操作，并将去重后得到的结果存入地址列表数据文件；

修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签，并对修补后的网页内容进行文本信息提取；

对提取的文本信息进行自动分类，然后对分类后的文本信息进行分词处理，并提取所述文本信息的摘要；

将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。

进一步的，还包括预先设置采集任务模板的操作，具体为：在超文本标记语言页面标签树结构的各个节点中保存用户输入的采集任务的要求。

进一步的，所述对所述一个或多个网页链接地址执行去重操作，并将去重后得到结果存入地址列表数据文件的操作具体为：将所述一个或多个网页链接地址进行哈希变换，生成与所述一个或多个网页链接地址对应的标识码列表，对所述标识码列表进行去重操作，将去重后的标识码列表存入地址列表数据文件。

进一步的，修补超文本标记语言标签的操作具体为：根据预先构造的超文本标记语言解析器，对所述地址列表数据文件所对应的内容信息的超文本标记语言标签进行修补。

进一步的，对修补后的网页内容进行文本信息提取的操作具体为：对修补后的网页内容中的文本格式数据和/或能够提取出文本信息的二进制格式数据进行文本信息提取。

进一步的，从二进制格式数据中提取文本信息的操作具体为：根据所述二进制格式数据的文件格式选择对应的提取插件对文本信息进行提取。

进一步的，当对修补后的网页内容进行文本信息提取的操作失败时，重新对超文本标记语言解析器进行构造，并根据重新构造的超文本标记语言解析器对网页内容进行修补。

进一步的，对提取的文本信息进行自动分类的操作具体为：通过百分比阈值确定法确定分类阈值，并根据所述分类阈值对提取的文本信息进行自动分类。

进一步的，在对分类后的文本信息进行分词处理之前，还包括语种识别的操作，并根据识别出的语种选择分词方式。

进一步的，所述分词处理的操作具体为：

根据预设的分词词典对所述分类后的文本信息进行正向最大匹配分词及逆向最大匹配分词；

判断所述正向最大匹配分词及逆向最大匹配分词得到的词条是否匹配，如果匹配，则确定正向最大匹配分词或逆向最大匹配分词得到的词条为分词结果，否则确定正向最大匹配分词和逆向最大匹配分词得到的权重较大的词条为分词结果。

进一步的，所述提取文本信息的摘要的操作具体为：

提取分词处理后得到的词条的类别特征，并计算该词条的权重；

根据所述词条的权重计算文本信息中各个句子的权重，并依据所述各个句子中的权重进行排序；

取出权重较大的排序前预设位数的句子作为文摘句，以原文顺序输出文摘句的集合；

对所述文摘句的集合进行平滑方法和缩句处理，得到所述文本信息的摘要。

为实现上述目的，本发明提供了一种信息采集系统，包括：

地址获取模块，用于根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址；

地址去重模块，用于对所述一个或多个网页链接地址执行去重操作，并将去重后得到的结果存入地址列表数据文件；

标签修补模块，用于修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签；

文本信息提取模块，用于对修补后的网页内容进行文本信息提取；

自动分类模块，用于对提取的文本信息进行自动分类；

分词处理模块，用于对分类后的文本信息进行分词处理；

摘要提取模块，用于提取所述文本信息的摘要；

结果输出模块，用于将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。

基于上述技术方案，本发明在信息采集过程中通过对网页中的内容信息进行HTML标签的修补，实现对各种网页格式的内容的采集；通过对网页链接地址进行哈希转换，增加网页链接地址去重的效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明信息采集方法的一实施例的流程示意图。

图2为本发明信息采集方法的去重操作的流程示意图。

图3为本发明信息采集方法的分词处理的流程示意图。

图4为本发明信息采集方法的摘要提取的流程示意图。

图5为本发明信息采集系统的一实施例的结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

如图1所示，为本发明信息采集方法的一实施例的流程示意图。在本实施例中，信息采集过程包括以下步骤：

步骤101、根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址；

步骤102、对所述一个或多个网页链接地址执行去重操作，并将去重后得到的结果存入地址列表数据文件；

步骤103、修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签；

步骤104、对修补后的网页内容进行文本信息提取；

步骤105、对提取的文本信息进行自动分类；

步骤106、然后对分类后的文本信息进行分词处理，并提取所述文本信息的摘要；

步骤107、将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。

在步骤101中提到的采集任务模板可以采用用户预先设置的方式，用户可以利用模板定制的方式制作自己要采集对象的任务模板，任务模板可以指导采集器进行定向采集。模板的可自己定制性极大的灵活了用户的操作，用户可以对每一个站点中大量的数据中自己感兴趣的栏目制定模板，这样就可以直接采集那个栏目中的内容，不会出现对整个站点到内容全部采集，而后再进行处理获取到自己想要的信息数据，不仅加快的采集的速度，而且节约的网络资源。

本发明的这种设置方式摆脱了传统的模板定制方式，利用HTML中各个标签节点形成一颗直观的树形结构，用户只需要根据自身的需求选择节点就可以直接制作成为采集任务模板。

由于通过步骤101获取到的大量的URL地址存在众多的重复链接，考虑到效率原因，必须对地址进行去重操作，现有技术中的地址去重思路适用于本实施例，例如先将所有的URL地址存入数据库，做好索引后，利用数据库的查找来判断该URL是否被重复下载，或者利用文件存储，并建立基于文件的查找索引，通过文件的查找来该URL是否被重复下载。

由于互联网中的网页数量极其庞大，假设有4亿左右的网页，而每一个URL的平均长度假设为25个字符，那么存储这些网页的URL地址需要的空间为8G左右，很显然面对如此大的文件，现有的去重机制无法快速的进行URL查找，也就不能保证快速的下载和去重。为了进一步解决此问题，在另一个实施例中采用了哈希转换的方式文来实现URL的快速去重。

如图2所示，为本发明信息采集方法的去重操作的流程示意图。该去重操作包括以下步骤：

步骤201、将从互联网上获取到的一个或多个网页链接地址进行哈希变换(例如采用CRC32转换)，生成与一个或多个网页链接地址对应的标识码列表，标识码与网页链接地址一一对应；

步骤202、对该标识码列表进行去重操作，也就是去掉重复的标识码；

步骤203、将去重后的标识码列表存入地址列表数据文件。

当采用CRC32转换时，可以生成一个与地址唯一对应的4字节32位的编码，远小于URL地址的平均长度，这是因为哈希转换可以快速的进行定位，极大的提高了去重效率。系统的实际运行证明这种URL去重机制的速度比传统的URL去重机制处理速度快2个以上的数量级，具有极好的应用和推广价值。

在采集网页信息的时候，一般会识别网页的HTML代码，而在代码部分会有META标识。通过这些标识，可以获知该网页是否需要被抓取，以及该网页中的链接是否需要被继续跟踪等信息。在信息采集过程中，抓取下来的网页可能包括各种格式，包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后，需要把这些文件中的文本信息提取出来。对于如何准确提取这些文档的信息，一方面对搜索引擎的搜索准确性有重要作用，另一方面对于信息采集系统正确跟踪其它链接有一定影响。

为了获取各种网页格式的网页中的内容，在本实施例中构造了具备较强容错能力的HTML解析器，通过大量的样例学习，提取了对访问内容相关度很低的标签(大约有10～20个)，认为是可忽视标签库。具体数据结构描述如下：

struct_tagElement//对象结构体；

{char＊tagName； //标签的名称；

_tagElement＊parentElement；//父标签节点；

unsigned int index；//此标签处在父标签节点的孩子节点中的位置；

unsigned int childCount；//此标签所含孩子节点的个数；

int＊childElements；//此标签的孩子节点；

bool is Text；//此标签所代表的内容是否为文本内容；

char＊text；//存储文本内容。

这样通过预先构造的HTML解析器，对前面提到的地址列表数据文件所对应的内容信息的HTML标签进行修补，这样就可以对各种网页格式的网页中的内容进行提取。

由于网页内容中可能有文本格式的数据以及二进制格式的数据，因此对于文本格式数据可以直接提取出文本信息，而对于二进制格式的数据，可以通过选择预先设定的与该格式对应的提取插件进行文本信息的提取。当然，一般要求这些二进制格式的数据中应该可以提取出文本信息，例如pdf格式、word格式、ppt格式等。

本实施例里还可以通过设置一个插件管理服务程序对不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好，以后每发现一种新的类型，就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

由于网页的更新通常是比较快的，可能会出现一些新的网页格式，因此当对修补后的网页内容进行文本信息提取的操作失败时，需要重新对HTML解析器进行构造，并根据重新构造的HTML解析器对网页内容进行修补。在网页的提取过程中，也可以通过对新提取的网页的属性(例如生成时间等)与以前提取的网页的属性的比较，来减少一些不必要的更新。

在文本信息的自动分类中，一般需要先确定分类阈值，然后根据该分类阈值对文本信息进行自动分类。其中确定分类阈值的方式可采用百分比阈值确定法，首先依据上述训练算法和分类算法构造分类器，然后对于要确定阈值的类，用分类器分类该类中所有的训练文本，从而每个文本都得到一个相关的值，以上述算法为例：

简单向量距离分类法：文本与本类中心向量间的相似度值

KNN算法：K个邻居中的类权重

然后按递减顺序排列所有本类训练文本得到的值，假定本类有n篇文本，那么这些文本的值为d₁，d₂......d_n，那么本类阈值y确定如下：

y＝d_sn％

其中，s为初始值，根据训练文本的质量程度，可以确定为80或更高，这样就确定了本类的初始阈值，可以想象，S越大，该分类器的查全率就越高，准确度就越低，相反地，S越小，查全率就越低，准确率就越高，然后根据测试进行调整。

相应地，调整阈值可以转化为调整s值，如果对查全率满意而对准确率不满意，那么可以减少s值，否则就增加s值。

在文本信息的自动分类上，可采用现有的K-NN算法或者SVM算法，或者采用效果更好的K-NN与SVM相结合的分类算法。这种改进算法中将文本分类与聚类技术相结合，利用文本聚类技术构造文档类别的代表点来优化K-NN算法，同时利用sigmoid函数对SVM输出结果进行概率转换以提高SVM的性能，在融合的策略上利用CLA置信度估计将K-NN的输出类别作为SVM分类器的输入候选，利用SVM对K-NN算法的分类决策中由于只统计临近样本的个数而导致的结果不够精确的情况进行改进。

在对文本信息进行自动分类后，需要对分类后的文本信息进行分词处理，具体的处理参见图3，包括以下步骤：

步骤301、根据预设的分词词典对所述分类后的文本信息进行正向最大匹配分词及逆向最大匹配分词；

步骤302、判断所述正向最大匹配分词及逆向最大匹配分词得到的词条是否匹配，如果匹配，则执行步骤303，否则执行步骤304；

步骤303、确定正向最大匹配分词或逆向最大匹配分词得到的词条为分词结果；

步骤304、确定正向最大匹配分词和逆向最大匹配分词得到的权重较大的词条为分词结果。

在对分类后的文本信息进行分词处理之前，还可以增加语种识别的操作，根据识别出的语种选择分词方式，例如对于英语按照单词获词组进行切分，对于汉语按照单字或词语进行切分等。

除了要对文本信息进行分词处理，还需要对文本信息的摘要进行提取，提取操作参见图4，包括以下步骤：

步骤401、提取分词处理后得到的词条的类别特征，并计算该词条的权重；

步骤402、根据所述词条的权重计算文本信息中各个句子的权重，并依据所述各个句子中的权重进行排序；

步骤403、取出权重较大的排序前预设位数的句子作为文摘句，以原文顺序输出文摘句的集合；

步骤404、对所述文摘句的集合进行平滑方法和缩句处理，得到所述文本信息的摘要。

在上述摘要生成的算法中，部分元数据如对标题的分析、作者、主题词的提取，也可以作为中间结果也将被输出和保存，以形成完整的符合基本文献规范的元数据体系。

最后，经过上述过程，把系统中采集到的文本信息的分类结果、分词操作得到的词条以及摘要转化为数据资源形成文件输出。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

如图5所示，为本发明信息采集系统的一实施例的结构示意图。在本实施例中包括以下模块：地址获取模块1，用于根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址。地址去重模块2用于对该一个或多个网页链接地址执行去重操作，并将去重后得到的结果存入地址列表数据文件。标签修补模块3用于修补该地址列表数据文件所对应的内容信息的超文本标记语言标签。文本信息提取模块4用于对修补后的网页内容进行文本信息提取。自动分类模块5用于对提取的文本信息进行自动分类。分词处理模块6用于对分类后的文本信息进行分词处理。摘要提取模块7用于提取该文本信息的摘要。结果输出模块8用于将该文本信息的分类结果、分词操作得到的词条以及摘要输出。

本发明在信息采集过程中通过对网页中的内容信息进行HTML标签的修补，实现对各种网页格式的内容的采集；通过对网页链接地址进行哈希转换，增加网页链接地址去重的效率。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1、一种信息采集方法，包括以下步骤：

2、根据权利要求1所述的信息采集方法，其中还包括预先设置采集任务模板的操作，具体为：

在超文本标记语言页面标签树结构的各个节点中保存用户输入的采集任务的要求。

3、根据权利要求1所述的信息采集方法，其中所述对所述一个或多个网页链接地址执行去重操作，并将去重后得到结果存入地址列表数据文件的操作具体为：

将所述一个或多个网页链接地址进行哈希变换，生成与所述一个或多个网页链接地址对应的标识码列表，对所述标识码列表进行去重操作，将去重后的标识码列表存入地址列表数据文件。

4、根据权利要求1所述的信息采集方法，其中修补超文本标记语言标签的操作具体为：

根据预先构造的超文本标记语言解析器，对所述地址列表数据文件所对应的内容信息的超文本标记语言标签进行修补。

5、根据权利要求4所述的信息采集方法，其中对修补后的网页内容进行文本信息提取的操作具体为：

对修补后的网页内容中的文本格式数据和/或能够提取出文本信息的二进制格式数据进行文本信息提取。

6、根据权利要求5所述的信息采集方法，其中从二进制格式数据中提取文本信息的操作具体为：

根据所述二进制格式数据的文件格式选择对应的提取插件对文本信息进行提取。

7、根据权利要求4所述的信息采集方法，其中当对修补后的网页内容进行文本信息提取的操作失败时，重新对超文本标记语言解析器进行构造，并根据重新构造的超文本标记语言解析器对网页内容进行修补。

8、根据权利要求1所述的信息采集方法，其中对提取的文本信息进行自动分类的操作具体为：

通过百分比阈值确定法确定分类阈值，并根据所述分类阈值对提取的文本信息进行自动分类。

9、根据权利要求1所述的信息采集方法，其中在对分类后的文本信息进行分词处理之前，还包括语种识别的操作，并根据识别出的语种选择分词方式。

10、根据权利要求9所述的信息采集方法，其中所述分词处理的操作具体为：

11、根据权利要求1所述的信息采集方法，其中所述提取文本信息的摘要的操作具体为：

12、一种信息采集系统，包括：

自动分类模块，用于对提取的文本信息进行自动分类；

分词处理模块，用于对分类后的文本信息进行分词处理；

摘要提取模块，用于提取所述文本信息的摘要；