CN103049542A

CN103049542A - 一种面向领域的网络信息搜索方法

Info

Publication number: CN103049542A
Application number: CN2012105766963A
Authority: CN
Inventors: 张健; 冯飞; 胡亮; 齐林; 张小栓; 徐晓莉; 邢晓辉; 魏宗洋; 王楠; 甘露; 刘菁
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2013-04-17

Abstract

本发明提供了一种面向领域的网络信息搜索方法，可以将数据信息统一在同一平台，搜索多数据源的信息，支持多种数据格式，包括结构化、半结构化和非结构化数据。该网络信息采集方法步骤如下：领域专家指定领域网站集，同时根据领域特点提出关键词，建立领域关键词库；根据链接和内容分析编写信息采集策略，然后在领域网站采集目标网页；将采集的网页信息进行抽取过滤分类，并建立数据库，根据倒排索引进行信息存储。具体操作包含以下三个模块：网页采集蜘蛛模块，分类器训练模块和数据索引模块。本发明具有较高的适应性和主题相关性，以此为核心的垂直搜索引擎具有较高的查全率和查准率。

Description

一种面向领域的网络信息搜索方法

技术领域

本发明是一种面向领域的网络信息搜索方法，涉及到主题爬虫采集策略改进和网页内容抽取分类等相关技术。

背景技术

随着网页信息迅速的增长，目前网页总量已经超过35亿，并且每天以一百万速度在增加，这就会造成通用搜索引擎索引的网页信息时效性差，很难满足不同专业用户的需求，Internet的迅速发展对WEB信息的搜索提出了巨大的挑战。所以面对领域的垂直搜索引擎就应运而生。

基于主题网络爬虫的搜索引擎(即第4代搜索引擎)已经成为当前搜索引擎的热点研究方向。垂直搜索引擎专注某一特定的领域，使信息处理量大大降低，可以让搜索引擎在实时处理、主题识别过滤，主题搜索方面有着强大的功能。相对于通用搜索引擎强调“大而广”的覆盖面，主题搜索的目标是尽力做到“专、精、深”。但是面向某一领域的网页信息还是大量的，不可能全部都获取.即使可以全部获取，按照调查表明，用户也不会全部浏览，这就需要一定的抓取策略和有效地分类尽可能抓取重要性高的网页，并方便的提供给用户检索。

同时，因为不同的领域数据结构也有很大的差异性，所以在具体设计领域的网络信息搜索方法时应该具有针对性，更好的符合领域的特点。

发明内容

本发明的目的是根据现有的网络发展现状，提出了一种面向领域的网络信息搜索方法，通过对链接和内容分析编写蜘蛛采集策略提高主题相关性，并将采集的网页进行内容抽取并分类，建立索引存储在数据库中，为将来的用户检索提供领域数据源。

为了实现上述的目的，本发明的技术方案如下：

本发明提出的面向领域的网络信息搜索方法步骤是首先咨询领域专家的意见，归纳总结出领域网站集合，然后通过网络蜘蛛收集一些典型的网页构成训练文档集合，通过上述领域网站集人工识别出相关性和非相关性，利用机器学习的方法根据领域特点，结合专家意见建立能够充分代表领域特点的语料库，在训练集合上建模得到网页自动分类器，编写网络信息采集策略，通过链接和内容的分析指导蜘蛛采集领域相关性高的目标网页，利用网页分析器获取抽取网页的领域相关信息，并建立倒排索引存放到数据库中。

具体步骤包括了三大模块：网页采集蜘蛛模块，分类器训练模块和数据索引模块，流程见图1：

上述网页采集蜘蛛模块和数据库数据索引模块的功能是得到领域相关性高的网页内容，并建立倒排索引表存放到数据库中，为将来的用户检索提供领域知识源，相应的流程见图2：具体步骤如下：

(1)把领域专家提供的网站集作为蜘蛛搜索的起始网页，并存放到初始爬行队列中；蜘蛛读取初始URL，然后开始采集网页，并抽取其中新的URL存放到队列中，根据蜘蛛设定的采集深度循环采集，直到触发停止条件或者达到深度要求停止采集；

(2)采集条件的设定主要是通过搜索策略算法，根据链接分析和内容分析双重约束条件设定来增加相关性；在蜘蛛采集网页时，首先根据链接分析进行预测，判定PAGERANK值高低，值高的网页具有更高的优先权，优先下载这类的网页；

具体的参数说明如下：u是被研究的网页，v_i是链接u的网页，是网页v向外链接的网页个数，r是没有直接链接u的网页，但是它有可能指向图中的任何的一个网页，共N个，所以其贡献度为PR(r)/N，d是阻尼系数(0＜d＜1，合理的取值是0.75～0.9，文献中经常使用的是0.85)。

网页u的PR值可以由链接到它的网页的PageRank值和Web图中汇点的PageRank值表示，公式如下：

PR (u) = (1 - d) + d * (\underset{v &RightArrow; u}{Σ} \frac{PR (v_{i})}{C_{v_{i}}} + \underset{r &Element; Γ}{Σ} \frac{PR (r)}{N}) - - - (1)

根据公式可以得出每个网页的PR值，但是由于最初的时候网页并没有PR值，这就需要给初始网页设定一个PR值；初始值根据算法的假设，会赋予每个网页相同的重要性得分，可以使任意值，通过迭代递归计算最终来得到每个页面的PageRank值，直到收敛，即无限趋近一个很小的数ξ。计算步骤举例说明，如下一个Web网页图：

根据上述公式(1)，可以计算图中各个网页节点的PageRank值：

PR (W_{0}) = d * (PR (W_{1}) + \frac{PR (W_{2})}{2} + PR (H_{O}) + \frac{PR (M_{0})}{6}) + (1 - d)

PR (W_{1}) = d * (\frac{PR (W_{0})}{3} + \frac{PR (M_{0})}{6}) + (1 - d)

PR (W_{1}) = d * (\frac{PR (W_{0})}{3} + \frac{PR (M_{0})}{6}) + (1 - d)

PR (H_{0}) = d * (\frac{PR (W_{0})}{3} + PR (H_{0}) + \frac{PR (M_{0})}{6}) + (1 - d)

PR (H_{1}) = d * (\frac{PR (M_{0})}{6}) + (1 - d)

PR (M_{0}) = d * (\frac{PR (W_{2})}{2} + \frac{PR (M_{0})}{6}) + (1 - d)

带入d的值，便可以算出每个页面的PR值。但是由于每个页面之间可能互有链接，其中的一个页面的PR值变化，与其相连的页面PR值也变化，所以还要进行迭代计算；用的方法是不动点迭代。根据公式(1)，使用迭代公式计算新的近似值：

P R^{(n + 1)} (u) = (1 - d) + d * (\underset{v &RightArrow; u}{Σ} \frac{P R^{(n)} (v_{i})}{C_{v_{i}}} + \underset{r &Element; Γ}{Σ} \frac{P R^{(n)} (r)}{N}) - - - (2)

对公式(2)不断进行迭代，最终得到比较稳定的数值即是其PR值。

(3)对网页进行预处理，根据DOM模型抽取的网页内容信息，采用TF/IDF算法计算特征项权重，来获取更高的领域相关度；建立向量空间模型进行文本表示，具体操作包括：采用GBK网页编码方式，利用URL判重器去除以前出现的URL，消除HTML代码中的不规范标记，噪声过滤和除去网页上非相关内容，然后进行中文分词，根据建立的停用词表去除停用词，并建立文档向量。

基于DOM的Web网页信息的提取的一般过程是：首先需要将网页的HTML文件解析成DOM树，这样对Web网页中信息的提取就转化为对相应树节点的查找，并且可以调用DOM提供的编程接口对树节点进行访问和操作；生成用于提取信息的提取模式；使用提取模式在DOM树中定位查找，以提取出信息；将HTML文档解析成DOM树的处理过程如下：

首先找出网页中所有的开始标记，将其名称存入标记表；接着逐次找出网页中每个标记，并检查其是不是一个有开始标记与其对应的结束标记或者是注释标记，如果是没有对应开始标记的结束标记或者是注释标记，就删除该标记；否则，如果是有对应开始标记的结束标记，就将这个结束标记与其开始标记之间的内容存储到标记表中，这个内容就是叶节点，重复操作，直到网页中每个标记都处理完之后，就建立了一个由标记及其所包含内容构成的表，整棵树被分解成n棵子树存入表中；

然后，将<html>标记设置为根节点，将表中n棵子树顺次添加到根节点下，形成一棵n叉树；

一篇文档的关键词包含了文档的大部分信息，而且关键词数量远低于文档含有词的数量，因此，如果使用文档的关键词来建立文档向量模型，文档维数会大大降低，而对文档信息的影响较小。

(4)利用分类器模块建立SVM分类模型，对建立的文档向量进行判别分类，留下领域相关性高的网页；

(5)建立全文索引库，构建基于倒排表的全文索引库，保存通过算法分类的领域相关度高的网页；

上述的分类器模块的功能是可以得到自动判别采集来的网页的领域主题相关性，相应的流程图见图3：

具体步骤如下：

(1)根据领域网站集，通过蜘蛛从中采集一些网页作为训练网页，同时也采集一定数量的有代表性的网页作为测试网页；

(2)采用人工标注方式，领域相关性的和非相关性的网页；

(3)对网页进行预处理，基于向量空间模型进行文本表示，建立训练文档矩阵，消除HTML代码中的不规范标记，噪声和网页上非相关内容，然后进行中文分词，并建立文档向量，标注信息点；

(4)采用精确度高的支持向量机分类模型进行分类器训练。(支持向量机SVM在解决小样本、非线性及高维模式识别问题上表现出许多特有的优势，并在很多领域得到成功的应用；在充分训练情况下，分类准确率可达90％以上)；

(5)将标注信息点的网页和分类器参数以及文档向量设置参数存储在训练样本数据库。

本发明与现有技术相比，本发明卓越的优点和鲜明的特点是具有较高的适应性，根据领域本身的特定和主题相关性制定合适贴切的网页采集策略，而且以此为核心的垂直搜索引擎具有较高的查全率和查准率。

附图说明：

图1本发明采集系统技术路线图

图2是本发明的蜘蛛网页采集模块流程示意图。

图3是网页信息采集分类训练模块示意图。

图4是根据调研问卷总结出的领域网站集合。

图5是据调研情况总结出常用关键词。

图6是蜘蛛网页采集模块初始设置功能界面。

图7是根据领域需要对网页内容抽取的功能界面。

具体实施方式

下面结合附图，对本发明的应用实施案例进行进一步的详细描述。

本发明选取盐湖产业领域为例，开发了一种面向领域的网络信息搜索方法。具体流程如下：

第一步，首先由领域专家精心提供领域网站集合，选为蜘蛛的初始URL，并作为训练网页进行分类器训练。本案例根据调研问卷总结出的领域网站集合，见图4：

可以看出，盐湖化工人员更倾向于化工类网站和知网类的文献类网站，可以把这些网站作为初始的URL，放到待抓取URL队列中，为将来的爬虫采集提供网址。下面举了一些相关的网址URL：

中国化工网：http://china.chemnet.com/

中国化工设备网：http://www.ccen.net/

中国柴达木门户网站：http://www.haixi.gov.cn/sites/main/indexzww.jsp

中国科学院青海盐湖研究所：http://www.isl.cas.cn/

青海省工业经济信息网：http://www.qhec.gov.cn/

盐湖化工百度贴吧：http://tieba.baidu.com/f？kw＝％D1％CE％BA％FE％BB％AF％B9％A4

青海格尔木门户网站：http://www.gem.gov.cn/

中国知网：http://www.cnki.net/

国家知识产权局——专利检索：http://www.sipo.gov.cn/

第二步，随机选取一些非领域内的网站，结合上一步领域内网站，根据领域专家提供的领域词库进行分类训练和测试。比如本发明收集的领域词库主要包括盐湖领域的盐湖制造工艺，盐湖产品，盐湖企业信息等内容，如下表所示，根据数据库第二范式建立了数据表，预先定义了分类体系。

企业信息表要素维度包括：企业简介，企业地址，企业联系方式，企业法人和注册资金，资源区域等；

企业产品结构表要素维度包括：钾盐，镁盐，硼盐等。

利用建立的领域词库对网页进行人工主题过滤，主题相关的标价1，主题不相关标记0，，然后进行预处理，去除噪声等干扰信息，并建立向量空间模型，利用分类器模块建立SVM分类模型和机器学习算法在训练集合上建模并得到网页自动分类器。本发明用到的停用词表如下所示：

表示数量类(一到十等)；表示顺序类(第一，首先，然后，其次，最后等)；表示单位类(个，只，组等)；表示程度类(慢，快，满，足够等)；表示语气类(哎，啊，了，啦等)；表示介词类(在，中，如何，仍然等)；表示关联类(不仅，和，并且等)等虚词类。

本发明建立的领域词库如下所示：

地名类(柴达木，青海，格尔木，德令哈，海西州，察尔汗，盐湖)，资源类(钾、镁、铅、锌、锶、钠，卤水，天然气，锂矿、锶矿、芒硝、化肥用蛇纹岩、钾盐、镁盐、石棉，石油，煤，石油和天然气，石油燃料，汽油，柴油，航空煤油)；产品类(碱类，钾肥，氯化物，卤化物，碳酸化合物，硫酸化合物等)；标准类(国家安全生产标准，合同法相关标准，测量标准等)。

同时，根据调研情况总结出以下常用关键词，见图5：

可以看出，盐湖化工经常用的关键词是标准类，工艺类的。这和其余的化工类还是有些区别的，尤其是在工艺流程方面，盐湖化工相比化工更为具体。

第三步，采集条件的设定主要是通过搜索策略算法，根据链接分析和内容分析双重约束条件设定来增加相关性。在蜘蛛采集网页时，首先根据链接分析进行预测，判定PAGERANK值高低，值高的网页具有更高的优先权，优先下载这类的网页；根据抽取的网页内容信息，采用TFIDF提取特征项，来获取更高的领域相关度。

不仅如此，为了获得更好地用户体验和主题相关性，本案例创新的加入了关键词自动提取功能。将网页抽取到的内容进行关键词统计，选出出现频率最多的4～5个词组，然后采用非线性函数和“成对比较法”相结合的方法来计算候选词的权重，最终确定候选词权值的计算，选项权重值高的作为关键词，提高了关键词抽取的精度，根据抽取到的关键词和领域词库里的关键词进行相似度计算，提高主题相关性。

把领域专家提供的网站集作为蜘蛛搜索的起始网页，并存放到初始爬行队列中；蜘蛛读取初始URL，然后开始采集网页，并抽取其中新的URL存放到队列中，根据蜘蛛设定的采集深度循环采集，直到触发停止条件或者达到深度要求停止采集。见图6：所示，设定蜘蛛开始采集的初始URL，采集深度等设置参数。同时，采集到的网页存放到制定目录下面，生成文本文件。

第四步，根据DOM模型抽取的网页内容信息的预处理，根据网页格式前后缀名填写在对应的空白处，便可以将内容自定义抽取并进行保存，见图7。

第五步，根据网页抽取的信息组成网页索引信息，按照倒排索引建立索引库，保存网页信息。并提供一个接口，为将来用户的检索做准备。

Claims

1.一种面向领域的网络信息搜索方法，其特征在于：

首先咨询领域专家的意见，归纳总结领域网站集；再通过网络蜘蛛收集一些典型的网页构成训练文档集合，通过上述领域网站集人工识别出相关性和非相关性；然后根据专家意见建立能够充分代表该领域的名词库，根据领域名词库定义，利用网页分析器获取网页中该领域的相关信息；接着根据领域特点并利用机器学习的方法，在训练集合上建模得到网页自动分类器；再接着编写网络信息采集策略，通过链接和内容的分析指导蜘蛛采集充足的领域相关性高的目标网页，并利用分类器进行判别分类；最后将抽取出来的领域信息存放到数据库中，为将来用户检索提供领域数据源；具体步骤包括了三大模块：网页采集蜘蛛模块，分类器训练模块和数据索引模块。

2.根据权利要求1所述的面向领域的网络信息搜索方法，其特征在于所述的分类器训练模块功能可以得到自动判别采集来的网页的领域主题相关性，具体步骤如下：

(2)采用人工标注方式，标注领域相关性的和非相关性的网页；

(3)对网页进行预处理，根据DOM模型抽取的网页内容信息，采用TF/IDF算法计算特征项权重，来获取更高的领域相关度，建立向量空间模型进行文本表示；具体操作包括：采用GBK网页编码方式，利用URL判重器去除以前出现的URL，消除HTML代码中的不规范标记，噪声过滤和除去网页上非相关内容，然后进行中文分词，根据建立的停用词表去除停用词，并建立文档向量；

(4)抽取的关键词作为特征项，并生成属性集，合并训练集中所有网页的关键词生成属性集，该属性集包含训练集中所有网页的关键词，并且去除了其中重复的，然后利用该属性集对网页进行分词并建立文档向量模型，在训练集上训练分类器进行分类，并在测试集上测试分类器性能；

3.根据权利要求1所述的面向领域的网络信息搜索方法，其特征在于网页采集蜘蛛模块和数据索引模块的功能可以通过网页采集蜘蛛模块采集来的网页，利用数据索引模块建立索引，得到基于倒排表的全文索引库，作为将来用户的查询检索的数据库，具体步骤如下：

(2)采集条件的设定主要是通过搜索策略算法，根据链接分析和内容分析双重约束条件设定来增加相关性；在蜘蛛采集网页时，首先根据链接分析进行预测，判定PAGERANK值高低，来对待定的URL排序，值高的网页链接具有更高的优先权，优先下载这类的网页；

(3)网页预处理，根据DOM模型抽取的网页内容信息，采用TF/IDF算法提取特征项，来获取更高的领域相关度；建立向量空间模型进行文本表示；具体操作包括：采用GBK网页编码方式，利用URL判重器去除以前出现的URL，消除HTML代码中的不规范标记，噪声过滤和除去网页上非相关内容，然后进行中文分词，根据建立的停用词表去除停用词，并建立文档向量；

(4)利用分类器模块建立SVM分类模型，把抽取的关键词作为特征项，对建立的文档向量进行判别分类；根据分类结果进行领域主题相关性过滤；

(5)建立全文索引库，构建基于倒排表的全文索引库，保存通过算法分类的领域相关度高的网页。