CN106970938A - 面向聚焦的Web网页获取和信息抽取方法 - Google Patents

面向聚焦的Web网页获取和信息抽取方法 Download PDF

Info

Publication number
CN106970938A
CN106970938A CN201710076819.XA CN201710076819A CN106970938A CN 106970938 A CN106970938 A CN 106970938A CN 201710076819 A CN201710076819 A CN 201710076819A CN 106970938 A CN106970938 A CN 106970938A
Authority
CN
China
Prior art keywords
cluster
text
url
web page
vision unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710076819.XA
Other languages
English (en)
Inventor
朱文浩
金鑫
姚滕俊
陈洁
胡冠男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201710076819.XA priority Critical patent/CN106970938A/zh
Publication of CN106970938A publication Critical patent/CN106970938A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及面向聚焦的Web网页获取和信息抽取方法,其包括以下步骤:1.创建一个基于URL结构过滤的非监督的聚焦爬虫。2.在新闻领域可以采取基于视觉单位的Web网页信息抽取技术,根据视觉特征和文本特征自顶向下寻找DOM树的最小视觉单位,获得多个视觉单位后,通过分析目标信息区别于非目标信息的特征检测找出目标信息所在的视觉块。3.利用基于增量聚类的非模型Web网页信息抽取方法以获得较好的适应性。本发明基于URL结构过滤的非监督聚焦爬虫相较于基于内容的聚焦爬虫,可以达到更高的收获率和执行效率,该方法克服了传统网页信息抽取中针对不同的网站制作不同的包装器的缺点,提高了抽取方法的适应能力。

Description

面向聚焦的Web网页获取和信息抽取方法
技术领域
本发明涉及一种面向聚焦的Web网页获取和信息抽取方法。
背景技术
信息抽取能准确而高效的从网页中抽取用户感兴趣的信息,不仅可以方便用户对信息的查找,而且可以为文本处理技术的研究提供方便的数据清洗服务。聚焦爬虫作为信息抽取的数据来源,聚焦爬虫的设计显得尤为重要。现有的对聚焦爬虫的研究主要从三个方面进行分析:分析网页内容、分析链接拓扑结构和分析URL。分析网页内容和分析链接拓扑结构的方法都需要下载网页,导致速度较慢。分析URL的方法根据URL的相似性指导爬虫的执行,不需要下载过多主题无关的网页,大大提高爬虫的效率。然而由于Web网页的海量性和异构性,聚焦爬虫面临着速度和适应性的问题。
传统的Web信息抽取技术有基于规则的方法、基于统计的方法和基于本体的方法。这三种方法各有优缺点。Web信息抽取面临的问题主要包括以下方面。
(1)面对成百上千亿的网页数量,自动高效地从海量Web信息中抽取目标信息是一大难点。
(2)Web网页的呈现方式多种多样,来自不同网站的网页之间信息的呈现形式差异性更大,网页的异构性给Web信息抽取带来了巨大的挑战。
(3)由于动态网页技术的广泛应用,网页的样式和布局随时可能改变,网页的这种动态性增加了Web信息抽取的难度。
发明内容
本发明的目的在于提供一种面向聚焦的Web网页获取和信息抽取方法,在海量的Web信息中,在用户提供少量稀疏样本的情况下,快速获取主题结构相似的网页,并在此基础上抽取用户感兴趣的信息,为普通用户提供方便可用的Web信息抽取服务以及为信息抽取技术提供语料库。
为达到以上目的,本发明的构思是:首先创建一个基于URL结构过滤的非监督的聚焦爬虫。URL在一定程度上反映了网页结构和分类的情况,从URL相似性出发,实现了URL相似性的计算方法和非监督的权重调节机制来拟合URL对网页分类的反映情况,从而能够提高爬虫的效率。然后可以利用基于视觉单位的Web网页信息抽取技术在新闻领域进行信息抽取。所谓视觉单位是指新闻网页中排版风格统一的模块。由于建模的Web信息抽取方法很难做到较好的适应性,因此可以考虑数据驱动的Web网页信息抽取,利用增量聚类方法对网页信息进行抽取。大致思想为:首先利用聚类算法将训练样本分为多个类别,然后将候选信息节点与这些类对比,如果可以找到与自身匹配的类,那么此候选信息被选中,作为目标信息输出。
根据上述发明构思,本发明采用如下技术方案:
一种面向聚焦的Web网页获取和信息抽取方法,具体操作步骤如下:
a.创建一个基于URL结构过滤的非监督的聚焦爬虫,以URL相似度作为网页相似度的依据来指导爬虫的搜索行为,通过分析URL各个元素的特征,分别比较URL中各个元素的相似程度来衡量两个URL是否相似;
b.在新闻领域采取基于视觉单位的Web网页信息抽取技术,根据视觉特征和文本特征自顶向下寻找DOM树的最小视觉单位,获得多个视觉单位后,通过分析目标信息区别于非目标信息的特征检测找出目标信息所在的视觉块;
c.利用基于增量聚类的非模型Web网页信息抽取方法以获得较好的适应性。
所述步骤a包括:
a-1.分解URL结构并将其向量化;
a-2.计算网页的相似度;
a-3.对不同URL元素赋予不同的权重,根据数据的更新不断调节权重,元素的取值种类越少,此元素越是代表着网页的粗分类;URL元素所在位置的取值越多,代表网页分类粒度越细,权重越高的元素代表网页分类粒度越粗。
所述步骤a-1的具体实现方法如下:
基本URL元素分解为服务器名称、目录和文件名称;例如,URL:htttp://edition.cnn.com//2014/06/06/sport/football/world-cup-franck-ribery-injured-france/index.html?hpt=isp_c2,其服务器名称是edition.cnn.com,向量化后为{edition,cnn,edition.cnn.com},第一维表示子领域名称,第二维表示主领域名称,第三维表示服务器的名称;URL目录以“/”分割,目录2014/06/06由于表示时间,多个子目录作为一个子目录描述,将其向量化后为{2014/06/06,Digital},目录Sport向量化后为{sport,String},其中第一维表示该子目录本身,第二维表示子目录的取值类型,String、Digital、Mix分别表示字母型、数字型、混合型;其他目录类似地进行向量化;文件名称为“index.html?hpt=isp_c2”,向量化后为{index,html,Yes,index.html,String,yes},文件名称特征使用一个六维向量表示,第一维表示文件名称中点前缀字符,第二维表示点后缀字符,第三维表示文件名称中是否有点号:yes表示有点号,no表示无点号,当文件名称中没有点号的时候,文件名称特征向量的点前缀和点后缀取值为0,第四维表示文件名称,第五维表示结尾字符串类型,最后一维表示是否有结尾参数。
所述步骤a-2的具体实现方法如下:
网页的相似度由三个方面来判断,分别是数据源相似性、领域相似性和布局相似性;数据源相似性指服务器名称是否相似,领域相似性指网页是否相似,布局相似性指网页的布局是否相似,主要通过URL中的文件名称和目录深度判断,由于向量的元素都是字符串类型的,我们采用字符串的编辑距离来计算两个向量的相似度;字符串的编辑距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数;许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;使用ED(S1,S2)表示字符串S1和字符串S2的编辑距离,向量v和向量w的相似度为:
式中vi和wi分别是向量v和w的第i个元素,n表示向量的大小;S(v,w)表示向量v、w之间的相似度,L为字符串长度计算函数,L(vi)表示向量的第i个元素vi的字符长度;Max(L(vi),L(wi))表示求L(vi)和L(wi)中的最大值;
网页相似度计算的具体步骤如下:
a-2-1.数据源相似度计算:根据式(1)中两个向量相似度的计算方法计算数据源相似度S(DN1,DN2),DN1和DN2分别表示两个服务器名称的向量;
a-2-2.领域相似度计算:计算公式如下:
式中,S(D1,D2)表示领域相似度,S(subD1j,subD2j)为两个子目录的相似度,subD1j和subD2j分别表示两个URL中第j级子目录的向量,j的取值从1开始,1表示最左边的目录,m表示两个URL中目录深度最小值;wj为每个子目录相似度的权重;
a-2-3.布局相似度的计算:公式如下:
St=wfS(f1,f2)+wddSdd
St表示两个URL的布局相似性,S(f1,f2)代表两个URL的文件名称相似度,f1,f2分别表示两个URL的文件名称向量,Sdd表示目录深度相似度,目录深度相同取值为1,否则为0;wf,wdd分别为文件名称和目录深度在布局相似度计算中的权重;
a-2-4.URL相似度计算:计算公式如下:
SM=wdnS(DN1,DN2)+wdS(D1,D2)+wtSt
其中wdn+wd+wt=1,wd=∑wj,wt=wf+wdd
其中wdn,wd,wt分别表示数据源相似性、领域相似性和布局相似性在URL相似度计算中的权重,其中wd为多级子目录权重wj的总和。
所述步骤b包括:
b-1.利用DOM识别网页中的视觉单位:DOM是W3C组织推荐的处理可扩展标记语言的标准编程接口,HTML文档中的所有成分解析为DOM后组成了一个节点树,视觉单位的识别就是根据网页的视觉特征将这些信息块分割开,最终找到DOM树中表示这些信息块的最小子树;
b-2.从视觉单位中选取包含新闻正文的目标视觉块,即对新闻正文进行抽取;对视觉单位定义了如下特征:
定义1,面积占比定义:指视觉单位面积与整个网页面积的比值;视觉单位面积越大,该视觉单位包含正文的可能性越大;计算方法如下:
其中A(vu)表示该视觉单位的面积,A(page)表示整个网页的面积,Sa为面积占比;显然,该信息块面积越大,Sa的值越大,包含正文的概率也就越大;
定义2,标点符号定义:视觉单位中是否包含句子结束符号,如果包含结束标点符号特征值为1用Sp表示,否则为0;链接文本中一般不包含句子结束标点,而正文文本中基本上都包含;
定义3,链接文本密度定义:视觉单位中包含的链接文本长度与总文本长度的比值;计算方法如下:
其中L(Text)表示视觉单位中文本的长度,L(LinkText)表示链接文本的长度,Sld为链接文本密度;链接文本所占的比例越大,Sld的值就越大,该视觉单位为正文部分的可能性越小;
定义4,文本密度定义:视觉单位中包含的非链接文本长度与总文本长度的比值;计算方法如下:
其中L(NoHyperlinkText)表示非链接文本的长度,Std为文本密度;非链接文本所占的比例越大,Std的值就越大,该信息块为正文部分的可能性越大;
定义5,文本长度定义:视觉单位中包含的文本长度;计算方法如下:
其中Min(L)表示视觉单位中包含的文本长度的最小值,Max(L)为最大值,L(Text)为当前视觉单位包含的文本长度,Sl为相对文本长度;
根据以上定义,视觉单位(vu)的得分为:
Score(vu)=waSa+wpSp–wldSld+wtdStd+wlSl
Wa+wp+wld+wtd+wl=1
Score(vu)表示视觉单位的得分,Wa,wp,wld,wtd,wl分别为视觉单位面积、标点符号、链接文本密度、文本密度和文本长度特征的权重;通过对每个视觉单位打分,筛选出得分最高的视觉单位,认为是正文部分。
所述步骤c包括:
c-1.所述增量聚类方法的前提和假设为需要聚类的数据类型有限,简化增量聚类的复杂性,在数据类别有限的情况下,新数据加入时能够简化聚类结构变化的判断方法,只需考虑新加入的点是否属于已有的簇,如果属于则将此数据归入所属的簇中,聚类中心不变,如果不属于则将其存储起来,待数量达到一定值时重新将所有数据做聚类;由于数据类型的有限性,随着数据的不断增加,需要重新聚类的情况会越来越少;
c-2.利用有限增量聚类方法对网页新闻网页进行聚类,采用的聚类方法是Kmeans方法;
c-3.将新闻网页特征化,并与步骤c-2得到的聚类中心对比,最后得到包含正文的DOMnode,信息抽取结束。
所述步骤c-2包括两个主要内容,Kmeans方法K值的确定以及增量聚类方法的具体实现;
c-2-1.K值的确定基于全局和局部稳定度的评价;全局稳定度用来衡量聚类结果簇间的相似程度,一个较好的聚类结果应该具有较大簇间距离;局部稳定度用来衡量聚类结果簇内是否紧凑;为了计算全局和局部稳定度,定义了如下几个指标:
定义6,簇内平均距离定义:簇内平均距离是指每个空间点到聚类中心的距离的平均;假设N个空间对象被聚类为K个簇,使用欧几里得距离计算簇内平均距离:
其中是簇内平均距离,p表示空间对象,mi为簇Ci的均值即簇的聚类中心,ni表示Ci所包含的对象数量;
定义7,簇间平均距离定义:簇间平均距离是指所有聚类中心的平均距离;假设N个空间对象被聚类为K个簇,簇间平均距离为:
其中表示簇间平均距离,mi和mj分别是簇Ci和Cj的均值;
定义8,簇密度定义:簇密度是指簇内包含的空间对象数与簇内平均距离的比值;假设N个空间对象被聚类为K个簇,簇密度的值为:
其中,fi为Ci的簇密度,ni和的含义如前所述,表示所有簇的平均密度;
聚类效果的评价从两个方面进行:一是,从全局的角度考察,一个较好的聚类具有簇间低耦合的特点,用簇间平均距离与聚类个数的比值来衡量;二是,从局部的角度考虑,簇内是否紧凑,用簇的平均密度来衡量;簇的平均密度越大说明单位距离内簇包含的空间点越多,局部也就越稳定;
用S表示全局稳定度,计算方法如下:
在衡量聚类是否有效时,既要保证局部稳定又要保证聚类全局稳定,因此聚类有效性函数K取使Function值最大的K值;
c-2-2.增量聚类方法的具体实现方法如下:
定义9,隶属度定义:假设N个空间对象被聚类为K个簇,定义空间对象p属于簇Ci的隶属度为Ci的簇内平均距离与对象p到Ci聚类中心距离的比值:
其中γi为p到簇Ci的隶属度,表示Ci的簇内平均距离,mi表示Ci的聚类中心;从上式知,当p与簇Ci的距离大于时,p应该不属于Ci,此时γi的取值小于0.5;当γi的取值大于等于0.5时,p与Ci的距离越小,γi的取值就越大,p属于Ci的可能性也越大;
增量的聚类方法过程如下:
c-2-2-1.设置增量样本缓冲区存放待聚类的样本;
c-2-2-2.每新来一个样本,将其放入缓冲区中;
c-2-2-3.检测缓冲区,当缓冲区样本数量大于一定值时,对缓冲区中每个样本计算γi,如果存在任一个簇γi值大于等于0.5,将当前样本加入γi值最大的簇,该簇的聚类中心不变,并将样本从缓冲区中删除,否则不做任何动作;
c-2-2-4.当缓冲区中所有的样本都不能被归入到已有簇时,将所有样本重新做一次聚类;
步骤c-2-2-3中提到的簇的聚类中心不变是为了防止新加入的对象改变聚类结构,对于新加入的数据,不属于已有聚类的样本放在缓冲区中,这种样本属于新的簇,等数量达到一定量后,再将所有数据重新聚类一次,达到一次全部调整的效果。
本发明的方法,与现有技术相比,具有以下突出的实质性特点和显著优点:
一、基于URL结构过滤的非监督聚焦爬虫相较于基于内容的聚焦爬虫,可以达到更高的收获率和执行效率,相较于基于URL分析的爬虫,本发明在不需要用户提供样本的同时,可以达到同样的效果。
二、基于视觉特征的网页分割算法都部分依赖于HTML标签,本发明提出的基于视觉单位的新闻正文抽取方法,其中视觉单位识别时所用的规则独立于HTML标签。
三、本发明提出的基于增量聚类的非模型Web信息抽取方法是一种数据驱动的方法,不需要构建抽取模型,通过数据的对比就可以准确抽取出目标信息,该方法克服了传统网页信息抽取中针对不同的网站制作不同的包装器的缺点,提高了抽取方法的适应能力。
附图说明
图1为非监督的权重调节机制的权重调节过程图。
图2为视觉单位识别过程图。
图3为基于增量聚类的非模型信息抽取方法的新闻正文抽取过程图。
具体实施方式
以下结合附图对本发明的具体实施做进一步详细说明。
图1展示了基于URL结构过滤的非监督的聚焦爬虫对URL中各元素权重的调节过程。权重的计算过程如下。
a.权重初始化,为每个URL元素权重设定初始值。
b.根据设定的权重计算URL的相似度,并指导爬虫的执行。
c.在获得一定量的URL数据后,对权重进行更新,回到步骤2.
步骤a的实现方法如下。
首先为每个URL元素权重设定初始值,获得一定量URL数据用于统计URL元素的权重。初始值的设定遵循元素位置越往左越能代表网页粗分类的大致规律,其值为:
其中k表示URL中子目录的个数,w0位服务器名称的权重,w1到wk依次为URL中子目录的权重。权重参数wf、wdd和wt的初始值根据经验值给出。
步骤c是权重更新机制,具体的操作方法如下。
获得一定量数据后,将统计每个元素出现的频率记为word_pv。当word_pv小于γ时舍弃。统计每个元素的权重为:
其中word_pvj是指大于γ的词的频率,i,k的含义如前所述,n表示第i个元素所在位置上词频大于γ的词数,Num(url)表示爬虫获取的URL总数。权重更新完成后将所有权重归一化,用于URL相似度的计算。
从公式中可以看出,当越多的高频词出现在元素位置上的时候,此元素的权重值就越大,代表此元素代表网页的分类粒度越粗。
图2是视觉单位识别的流程图。其具体步骤如下。
a.通过爬虫获得Web网页上的网页数据。
b.通过网页解析获得Web网页中最大的DOM节点。
c.判断该节点是否可分割,判断的方法由网页的分割规则确定。
d.如果不可再分,将其存入视觉单位库。
e.如果可分则获得其孩子节点继续以上过程,直到没有不可分割的DOM节点为止。
其中节点的分为文本节点和连接节点,分别定义如下。
定义10文本节点定义:定义DOM树节点中的文本节点为非链接文本长度与文本长度比值(即文本密度)大于一定阈值a的DOM节点。如果一个DOM树节点的所有孩子节点都是文本节点,则此DOM树节点也是文本节点。
定义11链接节点定义:链接节点是指锚文本密度超过一定阈值β的DOM节点,其中锚文本密度是指链接文本与节点中所有文本的比值。如果一个DOM树节点的所有孩子节点都是链接节点,则此DOM树节点也是链接节点。
本发明中的文本节点和链接节点的定义独立于HTML标签,有利于提高网页正文抽取系统的通用性。
步骤c涉及的分割规则如下:
规则1:如果当前DOM节点的文本长度为0,则删除此节点。
规则2:DOM节点的背景颜色:如果当前节点的孩子节点中有一个节点的背景颜色与其他节点背景颜色不同,那么将分割该DOM节点。
规则3:节点字体颜色:如果当前节点的孩子节点中有一个节点的字体颜色与其它节点不同,那么将分割该DOM节点。
规则4:如果当前节点的孩子节点都是文本节点,则不再分割此节点。
规则5:如果当前节点的孩子节点都是链接节点,则不再分割此节点。
图3是利用增量聚类的非模型信息抽取方法对新闻正文进行抽取的流程图,具体的实现步骤如下。
由图可知,其过程分为聚类和正文抽取两个阶段。聚类阶段的具体步骤如下。
a.从新闻网页中获取训练样本。
b.将训练样本进行特征化表示。
C.利用特征化表示后的训练样本进行Kmeans聚类并得到聚类中心。
其中在特征化的过程中,考虑了新闻正文的5个特征:
(1)文本长度,即DOM树节点内包含的文本字符串长度。新闻网站中,根据新闻类型的不同新闻正文部分有长有短。
(2)平均段落文本长度,即正文文本长度与段落个数的比值。一般,不同类型的新闻网页,不同的作者,新闻正文部分段落平均文本长度也不同。同时,此特征还可以区分新闻正文部分和用户评论信息,用户评论信息的平均文本长度一般较短。
(3)链接文本长度,指DOM树节点中包含的超链接中锚文本的长度,主要用来区分正文部分与导航栏、推荐阅读等信息。
(4)图片个数,此特征表示DOM树节点中包含的图片个数,在新闻网站中,不同类型的新闻正文部分包含图片的个数也是不同的。
(5)句号个数,指DOM树节点中文本包含的句号个数。在新闻正文抽取过程中,一些短新闻容易和一些包含少量文字的非正文节点混淆,利用句号个数这一特征在一定程度上可以区分这种情况。
本发明采用以上这五个特征来量化网页总DOM树节点。然后利用Kmeans算法将其聚类。
正文抽取阶段的具体步骤如下。
a.对获得的新闻网页进行预处理。将网页中与新闻正文没有关系的DOM树节点去掉,如脚本标签。根据超链接个数所占比例删除一些只包含超链接的节点。经过网页预处理后删除一些候选节点。
b.将网页特征化。将候选节点按照上述五个特征计算特征值,用向量的形式表示。
c.将特征向量与聚类过程得到的聚类中心进行对比,得到包含正文的DOM节点。
其中步骤c的具体实现方法如下。
c-1.依次计算每个候选节点pj到簇Cj的隶属度γij,(i为从1到k的整数,j为1到M的整数),选取γij的最大值γj_max。当γj_max大于或等于0.5时将此候选节点和γj_max加入到集合D中。当γj_max小于0.5时舍弃该候选节点。
c-2.将集合D中的候选节点按照隶属度排序,取隶属度最大的节点。
c-3.判断按隶属度排序后的节点序列是否前一个节点为后一个节点的父节点,即是否依次嵌套,找到最小的嵌套点作为正文节点输出。

Claims (7)

1.一种面向聚焦的Web网页获取和信息抽取方法,其特征在于,具体操作步骤如下:
a.创建一个基于URL结构过滤的非监督的聚焦爬虫,以URL相似度作为网页相似度的依据来指导爬虫的搜索行为,通过分析URL各个元素的特征,分别比较URL中各个元素的相似程度来衡量两个URL是否相似;
b.在新闻领域采取基于视觉单位的Web网页信息抽取技术,根据视觉特征和文本特征自顶向下寻找DOM树的最小视觉单位,获得多个视觉单位后,通过分析目标信息区别于非目标信息的特征检测找出目标信息所在的视觉块;
c.利用基于增量聚类的非模型Web网页信息抽取方法以获得较好的适应性。
2.根据权利要求1所述的面向聚焦的Web网页获取和信息抽取方法,其特征在于,所述步骤a包括:
a-1.分解URL结构并将其向量化;
a-2.计算网页的相似度;
a-3.对不同URL元素赋予不同的权重,根据数据的更新不断调节权重,元素的取值种类越少,此元素越是代表着网页的粗分类;URL元素所在位置的取值越多,代表网页分类粒度越细,权重越高的元素代表网页分类粒度越粗。
3.根据权利要求2所述的面向聚焦的Web网页获取和信息抽取方法,其特征在于,所述步骤a-1的具体实现方法如下:
基本URL元素分解为服务器名称、目录和文件名称;例如,URL:htttp://edition.cnn.com//2014/06/06/sport/football/world-cup-franck-ribery-injured-france/index.html?hpt=isp_c2,其服务器名称是edition.cnn.com,向量化后为{edition,cnn,edition.cnn.com},第一维表示子领域名称,第二维表示主领域名称,第三维表示服务器的名称;URL目录以“/”分割,目录2014/06/06由于表示时间,多个子目录作为一个子目录描述,将其向量化后为{2014/06/06,Digital},目录Sport向量化后为{sport,String},其中第一维表示该子目录本身,第二维表示子目录的取值类型,String、Digital、Mix分别表示字母型、数字型、混合型;其他目录类似地进行向量化;文件名称为“index.html?hpt=isp_c2”,向量化后为{index,html,Yes,index.html,String,yes},文件名称特征使用一个六维向量表示,第一维表示文件名称中点前缀字符,第二维表示点后缀字符,第三维表示文件名称中是否有点号:yes表示有点号,no表示无点号,当文件名称中没有点号的时候,文件名称特征向量的点前缀和点后缀取值为0,第四维表示文件名称,第五维表示结尾字符串类型,最后一维表示是否有结尾参数。
4.根据权利要求2所述的面向聚焦的Web网页获取和信息抽取方法,其特征在于,所述步骤a-2的具体实现方法如下:
网页的相似度由三个方面来判断,分别是数据源相似性、领域相似性和布局相似性;数据源相似性指服务器名称是否相似,领域相似性指网页是否相似,布局相似性指网页的布局是否相似,主要通过URL中的文件名称和目录深度判断,由于向量的元素都是字符串类型的,我们采用字符串的编辑距离来计算两个向量的相似度;字符串的编辑距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数;许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;使用ED(S1,S2)表示字符串S1和字符串S2的编辑距离,向量v和向量w的相似度为:
S ( v , w ) = &Sigma; i = 0 i < n ( M a x ( L ( v i ) , L ( w i ) ) - E D ( v i , w i ) ) / M a x ( L ( v i ) , L ( w i ) ) n - - - ( 1 )
式中vi和wi分别是向量v和w的第i个元素,n表示向量的大小;S(v,w)表示向量v、w之间的相似度,L为字符串长度计算函数,L(vi)表示向量的第i个元素vi的字符长度;Max(L(vi),L(wi))表示求L(vi)和L(wi)中的最大值;
网页相似度计算的具体步骤如下:
a-2-1.数据源相似度计算:根据式(1)中两个向量相似度的计算方法计算数据源相似度S(DN1,DN2),DN1和DN2分别表示两个服务器名称的向量;
a-2-2.领域相似度计算:计算公式如下:
S ( D 1 , D 2 ) = &Sigma; j = 1 m w j S ( s u b D 1 j , s u b D 2 j )
式中,S(D1,D2)表示领域相似度,S(subD1j,subD2j)为两个子目录的相似度,subD1j和subD2j分别表示两个URL中第j级子目录的向量,j的取值从1开始,1表示最左边的目录,m表示两个URL中目录深度最小值;wj为每个子目录相似度的权重;
a-2-3.布局相似度的计算:公式如下:
St=wfS(f1,f2)+wddSdd
St表示两个URL的布局相似性,S(f1,f2)代表两个URL的文件名称相似度,f1,f2分别表示两个URL的文件名称向量,Sdd表示目录深度相似度,目录深度相同取值为1,否则为0;wf,wdd分别为文件名称和目录深度在布局相似度计算中的权重;
a-2-4.URL相似度计算:计算公式如下:
SM=wdnS(DN1,DN2)+wdS(D1,D2)+wtSt
其中wdn+wd+wt=1,wd=∑wj,wt=wf+wdd
其中wdn,wd,wt分别表示数据源相似性、领域相似性和布局相似性在URL相似度计算中的权重,其中wd为多级子目录权重wj的总和。
5.根据权利要求1所述的面向聚焦的Web网页获取和信息抽取方法,其特征在于,所述步骤b包括:
b-1.利用DOM识别网页中的视觉单位:DOM是W3C组织推荐的处理可扩展标记语言的标准编程接口,HTML文档中的所有成分解析为DOM后组成了一个节点树,视觉单位的识别就是根据网页的视觉特征将这些信息块分割开,最终找到DOM树中表示这些信息块的最小子树;
b-2.从视觉单位中选取包含新闻正文的目标视觉块,即对新闻正文进行抽取;对视觉单位定义了如下特征:
定义1,面积占比定义:指视觉单位面积与整个网页面积的比值;视觉单位面积越大,该视觉单位包含正文的可能性越大;计算方法如下:
S a = A ( v u ) A ( p a g e )
其中A(vu)表示该视觉单位的面积,A(page)表示整个网页的面积,Sa为面积占比;显然,该信息块面积越大,Sa的值越大,包含正文的概率也就越大;
定义2,标点符号定义:视觉单位中是否包含句子结束符号,如果包含结束标点符号特征值为1用Sp表示,否则为0;链接文本中一般不包含句子结束标点,而正文文本中基本上都包含;
定义3,链接文本密度定义:视觉单位中包含的链接文本长度与总文本长度的比值;计算方法如下:
S l d = L ( L i n k T e x i ) L ( T e x t )
其中L(Text)表示视觉单位中文本的长度,L(LinkText)表示链接文本的长度,Sld为链接文本密度;链接文本所占的比例越大,Sld的值就越大,该视觉单位为正文部分的可能性越小;
定义4,文本密度定义:视觉单位中包含的非链接文本长度与总文本长度的比值;计算方法如下:
S t d = L ( N o H y p e r l i n k T e x t ) L ( T e x t )
其中L(NoHyperlinkText)表示非链接文本的长度,Std为文本密度;非链接文本所占的比例越大,Std的值就越大,该信息块为正文部分的可能性越大;
定义5,文本长度定义:视觉单位中包含的文本长度;计算方法如下:
S l = L ( T e x t ) - M i n ( L ) H a x ( L ) - M i n ( L )
其中Min(L)表示视觉单位中包含的文本长度的最小值,Max(L)为最大值,L(Text)为当前视觉单位包含的文本长度,Sl为相对文本长度;
根据以上定义,视觉单位(vu)的得分为:
Score(vu)=waSa+wpSp–wldSld+wtdStd+wlSl
Wa+wp+wld+wtd+wl=1
Score(vu)表示视觉单位的得分,Wa,wp,wld,wtd,wl分别为视觉单位面积、标点符号、链接文本密度、文本密度和文本长度特征的权重;通过对每个视觉单位打分,筛选出得分最高的视觉单位,认为是正文部分。
6.根据权利要求1所述的面向聚焦的Web网页获取和信息抽取方法,其特征在于,所述步骤c包括:
c-1.所述增量聚类方法的前提和假设为需要聚类的数据类型有限,简化增量聚类的复杂性;在数据类别有限的情况下,新数据加入时能够简化聚类结构变化的判断方法,只需考虑新加入的点是否属于已有的簇,如果属于则将此数据归入所属的簇中,聚类中心不变,如果不属于则将其存储起来,待数量达到一定值时重新将所有数据做聚类;由于数据类型的有限性,随着数据的不断增加,需要重新聚类的情况会越来越少;
c-2.利用有限增量聚类方法对网页新闻网页进行聚类,采用的聚类方法是Kmeans方法;
c-3.将新闻网页特征化,并与步骤c-2得到的聚类中心对比,最后得到包含正文的DOMnode,信息抽取结束。
7.根据权利要求6所述的面向聚焦的Web网页获取和信息抽取方法,其特征在于,所述步骤c-2包括两个主要内容,Kmeans方法K值的确定以及增量聚类方法的具体实现;
c-2-1.K值的确定基于全局和局部稳定度的评价;全局稳定度用来衡量聚类结果簇间的相似程度,一个较好的聚类结果应该具有较大簇间距离;局部稳定度用来衡量聚类结果簇内是否紧凑;为了计算全局和局部稳定度,定义了如下几个指标:
定义6,簇内平均距离定义:簇内平均距离是指每个空间点到聚类中心的距离的平均;假设N个空间对象被聚类为K个簇,使用欧几里得距离计算簇内平均距离:
d &OverBar; i = &Sigma; p &Element; c i ( p - m i ) 2 n i
其中是簇内平均距离,p表示空间对象,mi为簇Ci的均值即簇的聚类中心,ni表示Ci所包含的对象数量;
定义7,簇间平均距离定义:簇间平均距离是指所有聚类中心的平均距离;假设N个空间对象被聚类为K个簇,簇间平均距离为:
D &OverBar; = &Sigma; i = 1 , j = 1 K ( m i - m j ) 2 2 K
其中表示簇间平均距离,mi和mj分别是簇Ci和Cj的均值;
定义8,簇密度定义:簇密度是指簇内包含的空间对象数与簇内平均距离的比值;假设N个空间对象被聚类为K个簇,簇密度的值为:
f i = n i d i
f &OverBar; = &Sigma; i = 1 K f i K
其中,fi为Ci的簇密度,ni和的含义如前所述,表示所有簇的平均密度;
聚类效果的评价从两个方面进行:一是,从全局的角度考察,一个较好的聚类具有簇间低耦合的特点,用簇间平均距离与聚类个数的比值来衡量;二是,从局部的角度考虑,簇内是否紧凑,用簇的平均密度来衡量;簇的平均密度越大说明单位距离内簇包含的空间点越多,局部也就越稳定;
用S表示全局稳定度,计算方法如下:
S = D &OverBar; K
在衡量聚类是否有效时,既要保证局部稳定又要保证聚类全局稳定,因此聚类有效性函数K取使Function值最大的K值;
c-2-2.增量聚类方法的具体实现方法如下:
定义9,隶属度定义:假设N个空间对象被聚类为K个簇,定义空间对象p属于簇Ci的隶属度为Ci的簇内平均距离与对象p到Ci聚类中心距离的比值:
&gamma; i = d &OverBar; i ( p - m i ) 2 + d &OverBar; i
其中γi为p到簇Ci的隶属度,表示Ci的簇内平均距离,mi表示Ci的聚类中心;从上式知,当p与簇Ci的距离大于时,p应该不属于Ci,此时γi的取值小于0.5;当γi的取值大于等于0.5时,p与Ci的距离越小,γi的取值就越大,p属于Ci的可能性也越大;
增量的聚类方法过程如下:
c-2-2-1.设置增量样本缓冲区存放待聚类的样本;
c-2-2-2.每新来一个样本,将其放入缓冲区中;
c-2-2-3.检测缓冲区,当缓冲区样本数量大于一定值时,对缓冲区中每个样本计算γi,如果存在任一个簇γi值大于等于0.5,将当前样本加入γi值最大的簇,该簇的聚类中心不变,并将样本从缓冲区中删除,否则不做任何动作;
c-2-2-4当缓冲区中所有的样本都不能被归入到已有簇时,将所有样本重新做一次聚类;
步骤c-2-2-3中提到的簇的聚类中心不变是为了防止新加入的对象改变聚类结构,对于新加入的数据,不属于已有聚类的样本放在缓冲区中,这种样本属于新的簇,等数量达到一定量后,再将所有数据重新聚类一次,达到一次全部调整的效果。
CN201710076819.XA 2017-02-13 2017-02-13 面向聚焦的Web网页获取和信息抽取方法 Pending CN106970938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710076819.XA CN106970938A (zh) 2017-02-13 2017-02-13 面向聚焦的Web网页获取和信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710076819.XA CN106970938A (zh) 2017-02-13 2017-02-13 面向聚焦的Web网页获取和信息抽取方法

Publications (1)

Publication Number Publication Date
CN106970938A true CN106970938A (zh) 2017-07-21

Family

ID=59335003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710076819.XA Pending CN106970938A (zh) 2017-02-13 2017-02-13 面向聚焦的Web网页获取和信息抽取方法

Country Status (1)

Country Link
CN (1) CN106970938A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284086A (zh) * 2018-08-17 2019-01-29 浙江工业大学 面向需求自适应的Web服务动态演化方法
CN109344733A (zh) * 2018-09-11 2019-02-15 中共中央办公厅电子科技学院 一种基于视觉特征的网页关键内容检测系统及方法
CN109388665A (zh) * 2018-09-30 2019-02-26 吉林大学 作者关系在线挖掘方法及系统
CN110866555A (zh) * 2019-11-11 2020-03-06 广州国音智能科技有限公司 增量数据的聚类方法、装置、设备及可读存储介质
CN111104636A (zh) * 2019-12-30 2020-05-05 上海海事大学 一种基于多视角学习的网页船期数据抽取方法
CN112148947A (zh) * 2020-09-28 2020-12-29 微梦创科网络科技(中国)有限公司 一种批量挖掘刷评用户的方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
戴松: "面向聚焦的Web网页获取和信息抽取方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284086A (zh) * 2018-08-17 2019-01-29 浙江工业大学 面向需求自适应的Web服务动态演化方法
CN109284086B (zh) * 2018-08-17 2021-05-18 浙江工业大学 面向需求自适应的Web服务动态演化方法
CN109344733A (zh) * 2018-09-11 2019-02-15 中共中央办公厅电子科技学院 一种基于视觉特征的网页关键内容检测系统及方法
CN109388665A (zh) * 2018-09-30 2019-02-26 吉林大学 作者关系在线挖掘方法及系统
CN109388665B (zh) * 2018-09-30 2020-10-09 吉林大学 作者关系在线挖掘方法及系统
CN110866555A (zh) * 2019-11-11 2020-03-06 广州国音智能科技有限公司 增量数据的聚类方法、装置、设备及可读存储介质
CN111104636A (zh) * 2019-12-30 2020-05-05 上海海事大学 一种基于多视角学习的网页船期数据抽取方法
CN111104636B (zh) * 2019-12-30 2023-03-24 上海海事大学 一种基于多视角学习的网页船期数据抽取方法
CN112148947A (zh) * 2020-09-28 2020-12-29 微梦创科网络科技(中国)有限公司 一种批量挖掘刷评用户的方法及系统
CN112148947B (zh) * 2020-09-28 2024-03-22 微梦创科网络科技(中国)有限公司 一种批量挖掘刷评用户的方法及系统

Similar Documents

Publication Publication Date Title
CN106970938A (zh) 面向聚焦的Web网页获取和信息抽取方法
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
Zhang et al. Ad hoc table retrieval using semantic similarity
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN108415902B (zh) 一种基于搜索引擎的命名实体链接方法
CN106372060B (zh) 搜索文本的标注方法和装置
CN103927302B (zh) 一种文本分类方法和系统
US10565233B2 (en) Suffix tree similarity measure for document clustering
CN105045875B (zh) 个性化信息检索方法及装置
CN104268148B (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
CN101388022B (zh) 一种融合文本语义和视觉内容的Web人像检索方法
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
US7516397B2 (en) Methods, apparatus and computer programs for characterizing web resources
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN105824959A (zh) 舆情监控方法及系统
CN105654144B (zh) 一种基于机器学习的社交网络本体构建方法
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN103823824A (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170721