CN103838801A

CN103838801A - 一种网页主题信息抽取方法

Info

Publication number: CN103838801A
Application number: CN201210495346.4A
Authority: CN
Inventors: 郑世超; 刘立堂
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04

Abstract

本发明公开了一种网页主题信息抽取方法，包括以下步骤：使用树状信息的结构表示法表示个性化服务问题；进行结构化问题的逻辑化表示；进行个性化服务问题有序求解。由于本发明使用树状信息的结构表示法来描述个性化服务问题，将各种领域和形式的个性化服务问题使用服务内容要素、服务对象要素和其他要素这三个基本要素表示，将个性化服务问题分为基本要素、基本信息和子信息三个层次，所以可以使大部分领域信息系统的个性化服务问题结构化，进而可以由此设定个性化服务的推荐规则；本发明采用加权搜索所有解的方法，与顾客最近购买纪录相关的推理结果权值最大，以后根据购买顺序依次降低，因此推荐出新的服务对象感兴趣的资源。

Description

一种网页主题信息抽取方法

技术领域

本发明涉及一种网络技术，特别是一种网页主题信息抽取的方法。

背景技术

随着互联网的普及，信息技术的发展，形成了大量的信息资源。网络资源的不断丰富和网络信息量的不断膨胀，人们对网络的依赖性越来越强，却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便。从海量的信息中抽取出有用的资源，是当前迫切需要解决的问题，而Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中，使用户不能迅速获取主题信息，限制了Web的可用性，服务对象在查询信息时往往会迷失他们的目标，或者是得到一些比较偏颇的结果。因此很多服务对象在浏览搜索结果时，往往花费大量的时间和精力查看一些与自己搜索的服务无关的页面，这使得很多服务对象对搜索引擎丧失信心，从而导致服务对象的流失。信息抽取有助于解决这一问题，信息抽取技术就是在这种背景下产生的。

目前国内外研究较多的是从网上抽取一些具有格式的信息，如会议论文信息，商品信息，图书信息。这些研究的主要目的是要把网页中的无结构化数据或半结构化数据变成结构化数据。信息抽取的另外一个重要方向是提取出网页中的标题和正文等主题内容，利用网页的主题内容代替原始网页不仅能够缩短用户的浏览的时间，而且可以显著提高网页自动文摘和自动分类等应用的准确性。

有些信息是需要分类储存的，就像在用户浏览多个网页的同时，对一些相同的信息需要进行归类整合，并且根据自己定义的主题进行分类，这样便于信息的统一管理，这对于一些提供RSS定制功能的网站来说很容易，只要用户在网站上定制RSS种子，那么一些信息就会按照用户的定制主动的“推”给用户，但是对于一些非商业性质的网站，如学校，政府，公安信息网站要进行自己定制主题下信息的自动获取，就需要一些主动的“抓”操作，这就是要进行自动的自定义主题信息抽取。

信息抽取是指给出属于同一类型的若干样本网页，找出它们的源数据集的嵌套结构，并将源数据集从网页中抽取出来。即通过对原文档信息内容和结构的分析，抽取出有意义的事实，生成结构化的有价值的信息。Web信息抽取(WebInformation Extraction，简称为Web IE)，是将Web作为信息源的一类信息抽取，就是从半结构化的Web文档中抽取数据。其核心是将分散Internet上的半结构化的HTML页面中的隐含的信息点抽取出来，并以更为结构化、语义更为清晰的形式表示，为用户在Web中查询数据，应用程序直接利用Web中的数据提供便利。将信息从网页中抽取出来通常是由包装器(Wrapper)完成的，所谓包装器就是一个能够将数据从HTML网页中抽取出来并且将它们还原为如XML的结构化数据的软件程序。Wrapper方法能够代替人或者其他的软件而自主地工作，能够将一种格式的数据或检索结果转换为另一格式的数据。随着电子技术与电子商务的发展与应用，Web半结构化数据的抽取技术具有越来越重要的理论和现实意义。

发明内容

本发明的目标就是要设计抽取出网页正文部分，去除无关链接、图片等噪音内容方法。

为了实现上述目的，本发明的技术方案如下：一种网页主题信息抽取方法：包括以下步骤：

A、主题信息抽取方法

将布局标签分块，用TABLE和TD标签结点作为分块结点，块内的语义属性是contentlength和linkcount，分别是文字数和链接数，一个STU-DOM结点的主题相关度表示该结点与HTML文档主题的关联程度，

主题相关度含两部分：局部相关度(local correlativity)和上下文相关度contextual correlativity；局部相关度由块内链接和内容决定，其计算公式可以表达为

LocalCorrelativity(STUi)＝LinkCount(STUi)/Contentlength(STUi)

\begin{matrix} LinkCount (STUi) = Σ_{j = 1}^{N} LinkCount (STUCij) \\ CountentLength (STUi) = Σ_{j = 1}^{N} ContentLength (STUCij) \end{matrix}

其中，STUCij表示STUi的第j个子树，LinkCount(STUi)是STUi的linkcount属性值，用其所有子树中的链接数之和计算，CountentLength(STUi)是STUi的contentlength属性值，用其所有子树中的非链接文字的字符数之和计算；

上下文相关度由块内链接和父块内容决定，其计算公式可以表达为：

ContextualCorrelativity(STUi)＝LinkCount(STUi)/ContentLength(STUPi)

其中，STUPi表示STUi的父STU结点，在STU-DOM树中是具有语义属性的最近祖先结点；语义分析器用上述算法对STU结点进行上下文语义分析，计算contentlength和linkcount属性值；

B、网页文本语义获取的方法

B1、基于布局标签的粗粒度划分

对于HTML网页最常用的抽象表示方法就是构造网页的标签树；本方法对网页的HTML标签文档进行粗粒度划分；

B2、网页文本语义获取方法研究

网页文本语义获取包括整个网页以及网页中各个语义块的文本语义获取，作为网页的量化表示，本方法以特征向量作为网页和语义块的文本语义信息；

B21、网页特征向量获取

根据大量的实验分析，总结出了重要信息标签的合理权值；

网页特征权值计算步骤如下：

首先确定系统的分词词典为：{t₁，t₂，...,t_n}，利用分词系统FreeICTCLASLinux对网页进行分词，分词后的网页p的特征项集合可以表示为：

其中，t_k(1≤k≤N)是网页p中出现的特征项，m_k(1≤k≤N)是每个特征项出现的次数；

对于网页每个特征项，它们的权值可以通过公式计算获得：

WT′(t_i,p)＝WTL(t_i,p)×DS(p)×IDF(t_i)

其中，WT(t_i,p)表示特征项t_i在网页p中权值，由三部分组成：

特征项标签权值WTL(t_i,p)；文档特征项长度因子DS(p)；特征项的倒置文档频率IDF(t)；

特征项t_i在网页p中权值可以通过公式计算获得：

WTL (t_{i}, p) = w_{0} + Σ_{j = 1}^{m_{i}} W L_{j}

其中，w₀为特征项初始权值，为t_i出现的所有重要信息标签权值之和；

文档特征项目长度因子可以通过公式计算获得：

DS(p)＝log(L_max/L(p))

其中L_max表示所有网页中特征项最多的个数，L(p)表示网页p特征项个数；

沿用IDF计算方法；根据以上分析，特征权值公式可以展开为：

WT′(t_i,p)＝WTL(t_i,p)×log(L_max/L(p))×log(N/T(t_i))

其中，N代表保存在本地的网页总量，T(t_i)是包含特征项t_i的网页的总量；

最后，对WT′(t_i,p)进行归一化处理，其中WT_max是网中特征项权值最大值；

WT (t_{i}, p) = \frac{{WT}^{'} (t_{i}, p)}{{WT}_{\max}}

通过此公式的计算方式，获得网页p中每个特征项的特征权值，则网页可以用以下特征向量形式表示：WB(p)＝[WT(t₁,p),WT(t₂,p)，...,WT(t_N,p)]，则WB(p)作为网页的特征向量；

B22、语义块特征向量获取

本方法首先根据语义块权值传递规则来计算语义块权值因子，然后结合TF*IDF方法，给出BW*TF*IBF方法计算特征项的局部特征权值，从而用特征向量形式来量化表示语义块；

叶子语义块中出现的重要标签权值，计算每个语义块的权值传递方法如下：

每个语义块的初始权值为1；

为每个重要信息标签赋予一个影响因子；根据叶子语义块出现的标签来累加计算出该叶子语义块的影响因子；

对于每个叶子语义块，如果影响因子为λ，则该叶子语义块的权值变为当前权值的平方，它的父语义块和兄弟语义块的权值为当前值的倍，然后以该父语义块为变化源，按照上述规则再向外扩展一次，直到遇到<body>标签；

其中，块权值BW：表示语义块的权值，通过语义块权值传递规则获得；词频TF：表示特征项在语义块中出现的频率；词语倒排块频率IBF：表示特征项在叶子语义块中分布情况的量化；

叶子语义块中特征权值由公式计算：

w_{ij} = \frac{({bw}_{j} \times {tf}_{ij}) \times \log (\frac{BN}{n_{i}})}{\sqrt{Σ_{i = 1}^{N} {({bw}_{j} \times {tf}_{ij})}^{2} {[\log (\frac{BN}{n_{i}})]}^{2}}}

其中，w_ij是特征i在叶子语义块j中的特征项权值，即局部特征权值；bw_j表示语义块S_j的权值，它的值由语义块权值传递规则求得；tf_ij表示特征项i在语义块S_j中的词频；BN表示网页中语义块的总数；N表示网页中不同特征项的总数；n_k表示出现特征项i的语义块的个数；

获得特征项局部特征权值后，网页P的叶子语义块S_j的特征向量表示为WSB(P,S_j)＝[ω_1j,ω_2j，...,ω_Nj]，获得了网页和语义块的特征向量表示后，将其作为网页和语义块的文本语义属性，添加到已经构造好粗粒度划分DOM树中；本方法构造的网页粗粒度划分DOM树，克服了HTML缺乏语义描述不足的缺点，同时由于基于DOM树规范，可以方便的访问、修改、添加和删除DOM树中语义块节点；

C、基于分块的网页主题信息抽取流程

C1、网页表示模块

本方法首先对网页HTML标签文档进行清洗，然后对网页HTML标签文档基于容器标签的粗粒度划分，构造网页粗粒度划分DOM树，最后获取网页和语义块的特征向量表示作为网页和语义块的文本语义属性；

C2、主题信息抽取模块

本方法首先对语义块和网页类型进行判别，然后基于网页类型，分别抽取出主题型网页、目录型网页和图片型网页的主题信息；抽取的主题信息包括网页的标签和正文。

附图说明

本发明共有附图1张，其中：

图1是本发明的主题信息抽取算法流程图

具体实施方式

本发明是一种网页主题信息抽取方法，具体实施包括以下步骤：

A、主题信息抽取方法在应用背景下，本方法主要研究了上面提到基于HTML结构的方法，在Web信息检索领域，检索结果的相关性和检索的速度是评价一个Web检索系统的两个指标。如果不去除原始网页中的噪音内容，检索系统对噪音内容也建立索引，从而导致仅仅因为查询词在某网页的噪音内容中出现，而把该网页作为结果返回，而网页内容的主题内容可能和这个查询词完全无关。针对这个问题，

将布局标签分块，分块结点决定了分块的粒度，用TABLE和TD标签结点作为分块结点，块内的语义属性是contentlength和linkcount，他分别是文字数和链接数，一个STU-DOM结点的主题相关度表示该结点与HTML文档主题的关联程度，主题相关度含两部分：局部相关度(local correlativity)和上下文相关度(contextual correlativity)。局部相关度由块内链接和内容决定，其计算公式可以表达为

LocalCorrelativity(STUi)＝LinkCount(STUi)/Contentlength(STUi)

\begin{matrix} LinkCount (STUi) = Σ_{j = 1}^{N} LinkCount (STUCij) \\ CountentLength (STUi) = Σ_{j = 1}^{N} ContentLength (STUCij) \end{matrix}

其中，STUCij表示STUi的第j个子树，LinkCount(STUi)是STUi的linkcount属性值，用其所有子树中的链接数之和计算，CountentLength(STUi)是STUi的contentlength属性值，用其所有子树中的非链接文字的字符数之和计算。

ContextualCorrelativity(STUi)＝LinkCount(STUi)/ContentLength(STUPi)

其中，STUPi表示STUi的父STU结点，在STU-DOM树中是具有语义属性的最近祖先结点。语义分析器用上述算法对STU结点进行上下文语义分析，计算contentlength和linkcount属性值。

但是这种方法经大量实验分析发现，相关度阈值对提取结果有重要影响，可根据实际应用调整阈值大小，适当增加局部相关度阈值可以删除更多无关链接，减少冗余度；适当减小上下文相关度阈值可以保留正文中较多的链接列表，增加完整性。但阈值选取不当可能导致提取效果不理想，如删除主题链接或保留无关链接。

B、网页文本语义获取的方法

本方法基于布局标签的粗粒度划分主要思想是：以布局标签作为划分标签，将布局标签内的内容作为一个语义块，对重要信息标签内的文本赋予相应的权值，并去除过滤标签，本方法给出的基于布局标签的粗粒度划分算法如下：

输出：网页粗粒度划分的标签树CGDHTree()(Coarse-grained division htmltree)

算法：

(1)Tidy();//对网页进行HTML代码清洗

(2)=root();//获取网页的根标签，本算法将<html>标签作为根标签

(5)InitializeCGDHTree();//初始化网页的粗粒度划分标签树

(6)SetCGDHTreeHead(,);//将作为根节点

(7)while(!=NULL)//只要还有没有处理的标签

(8)if(is LayoutType)//如果是布局标签

(9)AddCGDHTree(,)//将加入到网页的CGDHTree树中

(10)enstack(,);

(11)if(is FilteredType)//是需要被过滤的标签

(12)=getstack();

(13)continue;

(14)if(is ImportType)//是重要信息标签

(15)AddTextValue();//对所包含的文本增加权值

(16)enstack(,);

(17)if(is CloseTpye)//是结束标签

(18)destack()

(19)if(is ArchorTpye)//是锚标签

(20)destack()

(21)=getstack();

根据DOM规范(http://www，w3.org/DOM/)，将网页粗粒度划分HTML标签树映射为网页的DOM树模型表示，实现网页基于粗粒度划分的DOM树表示。

B2、网页文本语义获取方法研究

网页文本语义获取包括整个网页以及网页中各个语义块的文本语义获取，作为网页的量化表示，本方法以特征向量作为网页和语义块的文本语义信息。

(1)网页特征向量获取

由于网页信息中含有大量的HTML标签，传统的向量空间模型中TF*IDF表示方法并不适用，在对网页中特征权值进行计算时必须考虑不同重要信息标签中内容重要性不同的特点。根据大量的实验分析，总结出了重要信息标签的合理权值，信息标签权值表中给出了各个重要信息标签的权值。。

本方法的网页特征权值计算步骤如下：

①首先确定系统的分词词典为：{t₁，t₂，...,t_n}，利用中国科学院计算技术研究所张华平博士等人开发的分词系统FreeICTCLASLinux(Institute ofComputing Technology，Chinese Lexical Analysis System)对网页进行分词，分词后的网页p的特征项集合可以表示为：

其中，t_k(1≤k≤N)是网页p中出现的特征项，m_k(1≤k≤N)是每个特征项出现的次数。

②对于网页每个特征项，它们的权值可以通过公式计算获得：

WT′(t_i,p)＝WTL(t_i,p)×DS(p)×IDF(t_i)

其中，WT(t_i,p)表示特征项t_i在网页p中权值，它由三部分组成：特征项标签权值WTL(t_i,p)；文档特征项长度因子DS(p)；特征项的倒置文档频率IDF(t)。

特征项t_i在网页p中权值可以通过公式计算获得：

WTL (t_{i}, p) = w_{0} + Σ_{j = 1}^{m_{i}} W L_{j}

其中，w₀为特征项初始权值，

为t_i出现的所有重要信息标签权值之和。

文档特征项目长度因子可以通过公式计算获得：

DS(p)＝log(L_max/L(p))

考虑到相同的特征项出现在不同的网页中，网页的长度越长，特征项可能获得的权值也就越高，所以一个特征项的权值应该在某种程度上受到网页长度的影响。其中L_max表示所有网页中特征项最多的个数，L(p)表示网页p特征项个数。

同时，为了区分高频率和低频率词对网页的影响程度，本方法沿用了IDF计算方法。根据以上分析，特征权值公式可以展开为：

WT′(t_i,p)＝WTL(t_i,p)×log(L_max/L(p))×log(N/T(t_i))

其中，N代表保存在本地的网页总量，T(t_i)是包含特征项t_i的网页的总量。

③最后，对WT′(t_i,p)进行归一化处理，其中WT_max是网中特征项权值最大值。

WT (t_{i}, p) = \frac{{WT}^{'} (t_{i}, p)}{{WT}_{\max}}

通过此公式的计算方式，获得网页p中每个特征项的特征权值，则网页可以用以下特征向量形式表示：WB(p)＝[WT(t₁,p),WT(t₂,p),...,WT(t_N,p)]，则WB(p)作为网页的特征向量。

(2)语义块特征向量获取

获取了网页特征向量表示后，在网页的主题相关度评价时，可以利用特征向量运算来计算网页的相关度。但在网页主题信息抽取中，本方法是在网页内部以内容块为单位进行主题相关度计算，而不是网页间的比较，因此还需要合理计算语义块的特征向量表示。

在计算网页特征向量表示时，每个特征项获取一个特征权值，本方法称此特征权值为全局特征权值，是以整个网页为单位。而以语义块为单位来计算特征项的权值，为特征项的局部特征权值。本方法首先根据语义块权值传递规则[25]来计算语义块权值因子，然后结合方法，给出方法计算特征项的局部特征权值，从而用特征向量形式来量化表示语义块。

C、基于分块的网页主题信息抽取流程

图1给出了本方法给出的基于分块的网页主题信息抽取算法流程图，可以看出算法主要有两个模块组成。网页表示模块和主题信息抽取阶段，获取的主题信息有：网页标题和正文信息，主题相关链接的链接描述文档信息。在网页表示模块中本方法首先对网页HTML标签文档进行清洗，然后对网页HTML标签文档基于容器标签的粗粒度划分，构造网页粗粒度划分DOM树，最后获取网页和语义块的特征向量表示作为网页和语义块的文本语义属性。在主题信息抽取模块中本方法首先对语义块和网页类型进行判别，然后基于网页类型，分别抽取出主题型网页、目录型网页和图片型网页的主题信息。抽取的主题信息包括网页的标签和正文。

Claims

1.一种网页主题信息抽取方法，其特征在于：包括以下步骤：

A、主题信息抽取方法

LocalCorrelativity(STUi)＝LinkCount(STUi)/Contentlength(STUi)

\begin{matrix} LinkCount (STUi) = Σ_{j = 1}^{N} LinkCount (STUCij) \\ CountentLength (STUi) = Σ_{j = 1}^{N} ContentLength (STUCij) \end{matrix}

ContextualCorrelativity(STUi)＝LinkCount(STUi)/ContentLength(STUPi)

B、网页文本语义获取的方法

B1、基于布局标签的粗粒度划分

B2、网页文本语义获取方法研究

B21、网页特征向量获取

根据大量的实验分析，总结出了重要信息标签的合理权值；

网页特征权值计算步骤如下：

对于网页每个特征项，它们的权值可以通过公式计算获得：

WT′(t_i,p)＝WTL(t_i,p)×DS(p)×IDF(t_i)

其中，WT(t_i,p)表示特征项t_i在网页p中权值，由三部分组成：

特征项t_i在网页p中权值可以通过公式计算获得：

WTL (t_{i}, p) = w_{0} + Σ_{j = 1}^{m_{i}} W L_{j}

其中，w₀为特征项初始权值，

为t_i出现的所有重要信息标签权值之和；

文档特征项目长度因子可以通过公式计算获得：

DS(p)＝log(L_max/L(p))

WT′(t_i,p)＝WTL(t_i,p)×log(L_max/L(p))×log(N/T(t_i))

WT (t_{i}, p) = \frac{{WT}^{'} (t_{i}, p)}{{WT}_{\max}}

通过此公式的计算方式，获得网页p中每个特征项的特征权值，则网页可以用以下特征向量形式表示：WB(p)＝[WT(t₁,p),WT(t₂,p),...,WT(t_N,p)]，则WB(p)作为网页的特征向量；

B22、语义块特征向量获取

每个语义块的初始权值为1；

对于每个叶子语义块，如果影响因子为λ，则该叶子语义块的权值变为当前权值的平方，它的父语义块和兄弟语义块的权值为当前值的

倍，然后以该父语义块为变化源，按照上述规则再向外扩展一次，直到遇到<body>标签；

叶子语义块中特征权值由公式计算：

w_{ij} = \frac{({bw}_{j} \times {tf}_{ij}) \times \log (\frac{BN}{n_{i}})}{\sqrt{Σ_{i = 1}^{N} {({bw}_{j} \times {tf}_{ij})}^{2} {[\log (\frac{BN}{n_{i}})]}^{2}}}

C、基于分块的网页主题信息抽取流程

C1、网页表示模块

C2、主题信息抽取模块