CN102262658B - 一种基于实体的自底向上Web数据抽取方法 - Google Patents

一种基于实体的自底向上Web数据抽取方法 Download PDF

Info

Publication number
CN102262658B
CN102262658B CN 201110196449 CN201110196449A CN102262658B CN 102262658 B CN102262658 B CN 102262658B CN 201110196449 CN201110196449 CN 201110196449 CN 201110196449 A CN201110196449 A CN 201110196449A CN 102262658 B CN102262658 B CN 102262658B
Authority
CN
China
Prior art keywords
attribute
entity
sequence
pattern
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110196449
Other languages
English (en)
Other versions
CN102262658A (zh
Inventor
申德荣
刘桐
寇月
聂铁铮
于戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN 201110196449 priority Critical patent/CN102262658B/zh
Publication of CN102262658A publication Critical patent/CN102262658A/zh
Application granted granted Critical
Publication of CN102262658B publication Critical patent/CN102262658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于实体的自底向上Web数据抽取方法,属于网络数据管理领域,具体步骤包括:选择Web数据页面、划分文本、标注实体属性、抽取属性序列重复模式抽取、化简结果模式;本发明的Web数据抽取方法,可以更广泛的抽取复杂Web页面的结构化数据,有效避免先前抽取技术对页面结构的过度依赖,适应性好,准确度高。

Description

一种基于实体的自底向上Web数据抽取方法
技术领域
本发明属于网络数据管理领域,特别涉及一种针对Web数据页面的自底向上抽取方法。
背景技术
随着网络信息量的日益扩大,结构单一的Web页面已经不能够满足数据的承载,主题多样、结构复杂的Web页面数量在当今的互联网络中不断增长。这在拓展人们视线的同时也给Web数据的应用带来很多问题。Web页面复杂度和噪声信息量与日俱增,甚至同主题、同数据源的页面都存在很大的偏差,使得网页中高质量的结构化数据越来越难以被有效的分析和整合,信息的利用率明显下降。所以,从复杂、多样的Web页面中提取信息并将其转换为结构化数据变得日益重要。然而,如何准确而高效的从无结构化或者半结构化的HTML页面中抽取结构化数据成为人们研究的课题,同时也是巨大的挑战。近年来,研究出的有代表性的方法有RoadRunner、ViPER、MDR。除此之外,随着技术的发展,一些在实体领域提出的技术也被应用到Web数据抽取上面。
RoadRunner方法需要事先选择一些Web页面作为它的训练集,然后通过比较这些HTML文档内容上的异同来发现样本的结构特征,进而由此推导出包装器的抽取规则。RoadRunner方法较比人工标注的方式明显提高了扩展性,并且可以处理一些嵌套的结构。但是,对于训练集未涉及的页面该方法依然不能很好的适用。
ViPER是基于页面可视化特征的抽取方法,它主要通过模拟人眼对页面的识别过程来完成抽取。然而,ViPER需要实现建立可视化模型,这将耗费大量的时间,而且当页面有用信息和噪声混杂分散存在的时候,ViPER的抽取效果也不尽如人意。
MDR方法通过分析包含多记录的单个HTML页面来进行包装器抽取规则的推导,主要基于页面的DOM树特征,分析出DOM树中节点的重复模式,识别并划分页面中包含的记录,并以节点路径标识记录中的属性。后来,改进的MDR II方法采用树的结构信息来定位节点,但无论是MDR还是MDR II均无法摆脱对于页面DOM树的过分依赖,当某一标识下的属性发生改变时,它们无法保证抽取的准确性。所以,该类方法比较适用于结构简单的页面抽取,对于复杂的页面并不适合。
近年来,一些研究在这些典型技术的基础上提出了新的方法,但大多是直接或者间接基于页面结构来推导抽取规则的,所以,这些方法在处理结构复杂、数据分散的Web页面的时候,查全率会明显的下降。实体抽取技术的发展,给解决这一问题带来了转机,但是目前的方法更多只关注实体抽取而忽略了它们之间的联系,若要取得高质量的结构化数据还需要很多工作,但无疑它为我们提供了良好的契机。
发明内容
针对已有Web数据抽取方法的不足,本发明提供了一种基于实体的自底向上的Web数据抽取方法。
本发明采用的技术方案的具体步骤如下:
步骤1.选择Web数据页面:对于DeepWeb响应页面,需要输入查询词来获得;Web页面可以看作是由HTML语言描述的文本字符串,使用DOM解析工具(HtmlAgilityPack)将其解析成为标签和文本;然后,在DOM树中删除所有script节点和comment节点,对HTML文档进行最基本的去噪并做规范化处理,得到符合XML标准的文档D;D可以表示为:(T,M,S),其中T是DOM树中所有标签节点的集合,M是DOM树文本节点中的分隔符的集合,S是DOM树文本节点中除了T和M之外所有的文本字符串。
步骤2.划分文本:对于给定的文档D,按照下面两个条件将S划分为有序的字符串序列:
(1)对于每一个t∈T,m∈M,都以此为分隔在S上做一次划分;
(2)对于相邻的子字符串且对应的文本节点在DOM树中深度相差一级的划分,予以合并操作;文本S经过以上划分后得到有序序列Slist=<s1,s2,...,sn>,其中
Figure BDA0000075513570000022
每一个si都对应文档D中的一段文本字符串,这里si被称为实体;
步骤3.标注实体属性:即赋予Slist中的每个实体一个实体类型的名称;每类Web主题都包含特定的实体类型集,那么给定一个主题,也就确定下来该领域的实体类型集A;对于每个实体类型a∈A,采用一个二级抽取模型,第一级L1定义查全规则ra1∈R1,第二级L2定义查准规则ra2∈R2,其中R1是该主题所有实体类型的查全属性集合,R2是该主题所有实体类型的查准属性集合;这样做能够很好的将查全率与查准率的相互依赖性拆开,保证信息的最小丢失和最大收益;给定
Figure BDA0000075513570000023
B代表能够匹配该实体的规则集,A代表匹配B中某条规则后得到的属性标签;具体标注过程如下:
(1)将R1中的每一条规则rx1在Slist上进行匹配,规则rx1会将所有匹配它的实体添加x属性,若某一实体sx匹配rx1,则将属性x添加到sx的属性列表中,x∈A;经过规则
集R1匹配后的实体属性序列可以表示为:
{ < U r x 1 1 x 1 , U r x 2 1 x 2 , . . . , U r x n 1 x n > | x 1 , x 2 , . . . , x n &Element; A , r x 1 1 , r x 2 1 , . . . , r x n 1 &Element; R 1 }
(2)将R2中的每一条规则rx2在Slist上进行匹配,规则rx2会将所有匹配它的实体唯一标识x属性,若某一实体sx匹配rx2则sx的属性唯一确定为x,删除sx的其它属性,x∈A。假设s1的属性被确定为x1,sn的属性被确定为xn,那么经过规则集R2匹配后的实体属性序列可以表示为:
{ < x 1 , U r x 2 1 x 2 , . . . , x n > | x 1 , x 2 , . . . , x n &Element; A , r x 1 1 , r x 2 1 , . . . , r x n 1 &Element; R 1 }
用Alist表示上面的序列,它是一个拥有部分确定属性的实体属性序列。
步骤4.属性序列重复模式抽取:设集合I为所有实体在文本中的索引的集合即Ind={Index(si,D)|i∈Z+},Z+是正整数集合;定义集合AI={(a,ind)|a∈Alist,ind∈I},具体过程如下:
(1)选择起始关键属性,即找到(ak,indk)满足:
( a k , ind k ) = arg ( min ( sum ( ind a m ) count ( a m ) ) ) , m &Element; [ 1 , SN ]
其中,sum函数求出所有被标注包含有am属性的实体的索引值的和,count函数计算出被标注为包含am属性实体的个数,SN为该主题的实体类型数量。
(2)在Alist中从ak开始遍历,创建一个队列Q记录遍历过的属性序列,每当遇到包含ak的属性ax,则将Q中已有的属性序列作为一个重复模式Pr添加到候选模式集合P中,并将ax加入队列作为下一个属性序列的开始;若某一序列只包含一个元素,则将其添加到上一序列,并移除该元素的ak标签;若P中已经包含Pr,则将Pr的支持参数Support(Pr)增加1;反之则将Pr支持数初始化为0,重复执行以上步骤直到整个Alist遍历完毕;模式Pr可以表示为<a1,a2,...,arn>,xi∈A,rn为Pr中包含的实体属性数量,则生成的候选模式集合P可以表示为{P1,P2,...,Ppn},P中的每个元素都代表D中唯一的重复模式,pn是从D中抽取出的不同重复模式数量。
(3)根据rn将P中的模式分组,保证同一组的模式都具有相同的rn,不同组的模式都具有不同的rn;将经过分组后的P表示为G={gl1,gl2,...,glgn},li是每组模式rn的值,gn是组的数目;对任意组gli中的所有模式做两两交运算,给定两个具有相同rn的模式P1=<a1,a2,...,arn>,P2=<b1,b2,...,brn>,定义P1与P2的交运算如下:对于每对属性ap1∈P1,ap2∈P2,做集合交运算ap1∩ap2;所以P1∩P2=<a1∩b1,a2∩b2,...,arn∩brn>;对于没有Φ元素的交运算结果P,将这两个模式用P代替;对于有Φ元素的P,将这两个模式予以保留;因此,在算法结束时每组都可能包含一个或者多个结果模式,且大多数结果模式只包含单一属性;少数复杂的模式在交运算之后仍然包含多标签属性,对于这类结果模式,将遵循保证模式内包含最大实体类型数目的原则拆分多标签属性;假设某一结果模式Pc=<x1,x2∪x3,x3,x4>,根据分裂后的信息增益,将其输出为<x1,x2,x3,x4>;经过完整算法,G可以表示为:
U i = 1 gn U j = 1 cn i P rn i j c
其中cni是组gi中包含的结果模式数目,
Figure BDA0000075513570000042
是长度为rni的组中的一个结果模式;
将G中的结果模式重新按照初始顺序构建为P。
(4)选择P中全部Support相同且在D中相邻出现的模式,对于每对符合条件的P1,P2,若P1或P2具有包含ak属性的多标签属性且P1∪P2∈P,则用P1∪P2代替P1和P2,并将Support(P1∪P2)增加Support(P1);对于那些Support数仍为1且包含较少的实体类型或者包含较多不确定属性标签的模式删除;最终,通过一个阈值σ控制输出P中符合条件的结果模式集合Pc,σ是大于0的正整数。
步骤5.化简结果模式:对Pc中的每个模式建立有限自动机,按照模式的序列顺序设立初始状态和终止状态,每遇到一个特定的属性都会转移到指定的状态;当模式序列遍历结束时,自动机同时创建完毕,输出满足以下两个条件的序列为化简后的模式:
(a)保证每个属性值被至少访问一次;
(b)该序列是满足(a)条件的从初始状态到终止状态的最短路径;
最后,删除化简后产生重复冗余的模式。
本发明的有益效果:采用本发明的Web数据抽取方法,可以更广泛的抽取复杂Web页面的结构化数据,有效避免先前抽取技术对页面结构的过度依赖,适应性好,准确度高。
附图说明
图1为本发明总体流程图
图2为本发明实体属性标注流程图
图3为本发明属性重复模式抽取流程图
图4为本发明所选示例页面截图
图5为本发明所选示例化简结果模式自动机示意图。
具体实施方式
下面结合附图对本发明的基于实体的自底向上Web数据抽取方法做进一步详细描述。
实施例:
步骤1、选择Web数据页面:选择流行的机票预订网站“淘宝机票”http://ipiao.taobao.com/2010/home.htm?TBG=66409.71436.28&ad_id=&am_id=&cm_id=1400381961b2c34cffa7&pm_id=作为数据源,航班始发地选择沈阳市,目的地选择深圳,日期选择2011/5/11,点击搜索返回机票结果页面(见附图4),将该页面的HTML源代码最为输入。
步骤2、划分文本:完成对结果页面D的预处理后,对D进行文本划分,得到的的文本序列Slist为<“航班信息(沈阳-深圳)”,”共8个航班信息,共217个机票商家”,”深圳航空”,”¥2050”,”起(不含税)”,”详情”,”航班信息”,”起抵时间”,”机型”,”机建/燃油”,”价格”,”联系”,”选择”,”操作”,”深圳航空ZH9828”,”14:25”,”桃仙机场”,”18:25”,”宝安国际机场”,”319”,”¥965”,”(4.2折)”,”千翼航空”,”海南航空HU7730”,”17:50”,”桃仙机场”,”23:00”,”宝安国际机场”,”738”,”¥1288”,”(5.6折)”,”乐到网”,”深圳航空ZH9898”,”09:30”,”桃仙机场”,”13:35”,”宝安国际机场”,”320”,”¥1363”,”(6.0折)”,”爱特博旅运”,”深圳航空ZH9980”,”19:05”,”桃仙机场”,”23:10”,”宝安国际机场”,”320”,”¥1363”,”(6.0折)”,”爱特博旅运”,”南方航空CZ6303”,”16:00”,”桃仙机场”,”19:50”,”宝安国际机场”,”M90”,”¥1749”,”(7.7折)”,”千翼航空”,”南方航空CZ6309”,”18:15”,”桃仙机场”,”22:20”,”宝安国际机场”,”319”,”¥1749”,”(7.7折)”,”千翼航空”,”南方航空CZ6311”,”08:30”,”桃仙机场”,”13:45”,”宝安国际机场”,”320”,”¥1749”,”(7.7折)”,”千翼航空”,”深圳航空ZH9842”,”15:55”,”桃仙机场”,”21:15”,”宝安国际机场”,”320”,”¥4357”,”(头等舱)”,”天旺航空”>。
步骤3、标注实体属性:订票主题的抽取规则定义如下:
  第一级规则级R1   第二级规则集R2
 航班(F)   \C{4,8}([\w\d]{6})?   \C{2}航空\w{2}\d{4}
 时间(T)   \d{1,2}[:点]\d{1,2}   ([01][0-9])|(2[0-4])[:点]([0-5][0-9])|(60)
 机场(A)   \C{2,8}   \C{2,4}机场
 机型(N)   [\d\w\C]{3,5}   (M90)|(波音747)|(A380)
 价格(P)   ¥?\d{3,5}(元|RMB)?   ¥\d{3,4}
 折扣(D)   \d\?\d折?   [1-9].\d折
 舱位(S)   \C{2,3}   \C{2}舱
 商家(B)   [\C\d\w]{2,8}   天旺航空|千翼航空
 杂项(O)   未匹配以上  ——
为了便于理解,上表中抽取规则以简易的伪正则表达式书写,目的在于体现R1和R2规则抽取意图的差别;特殊的,我们把未匹配任何属性标签的实体标注为O;
(1)Slist经过R1处理后,得到的Alist如下:
<{O},{O},{F, A,N,B},{P},{O},{A,B},{F, A,N,B},{F, A,N,B},{A,B},{O},{A,B},{A,B},{A,B},{A,B},{F},{T},{F, A,N,B},{T},{F, A,B},{N,P,B},{P},{D},{F, A,N,B},{F},{T},{F, A,N,B},{T},{F, A,B},{N,P,B},{P},{D},{A,N,B},{F},{T},{F, A,N,B},{T},{F,A,B},{N,P,B},{P},{D},{F, A,N,B},{F},{T},{F, A,N,B},{T},{F, A,B},{N,P,B},{P},{D},{F, A,N,B},{F},{T},{F, A,N,B},{T},{F, A,B},{N,B},{P},{D},{F, A,N,B},{F},{T},{F, A,N,B},{T},{F, A,B},{N,P,B},{P},{D},{F, A,N,B},{F},{T},{F, A,N,B},{T},{F, A,B},{N,P,B},{P},{D},{F, A,N,B},{F},{T},{F, A,N,B},{T},{F, A,B},{N,P,B},{P},{A,N,S,B},{F, A,N,B}>
(2)Slist经过R2处理后,得到的Alist如下:
<{O},{O},{F, A,N,B},{P},{O},{A,B},{F, A,N,B},{F, A,N,B},{A,B},{O},{A,B},{A,B},{A,B},{A,B},{F},{T},{A},{T},{A},{N,P,B},{P},{D},{B},{F},{T},{A},{T},{A},{N,P,B},{P},{D},{A,N,B},{F},{T},{A},{T},{A},{N,P,B},{P},{D},{F, A,N,B},{F},{T},{A},{T},{A},{N,P,B},{P},{D},{F, A,N,B},{F},{T},{A},{T},{A},{N},{P},{D},{B},{F},{T},{A},{T},{A},{N,P,B},{P},{D},{B},{F},{T},{A},{T},{A},{N,P,B},{P},{D},{B},{F},{T},{A},{T},{A},{N,P,B},{P},{S},{B}>
步骤4、将上面最终得到的Alist做如下操作,以获得模式结合P:
(1)对F,T,A,N,P,D,S,B计算对应实体在页面中的索引平均值,选择最小的索引平均值indk,根据(ak,indk)的对应关系确定ak=F;
(2)由此对Alist进行重复模式的抽取,以包含F的属性作为抽取的依据,抽取结果如下:
P={<{F, A,N,B},{P},{A,B},{A,N,B}>,<{F, A,N,B},{A,B},{A,B},{A,B},{A,B},{A,B}>,<{F},{T},{A},{T},{A},{N,P,B},{P},{D},{B}>,<{F},{T},{A},{T},{A},{N,P,B},{P},{D},{A,N,B}>,<{F},{T},{A},{T},{A},{N,P,B},{P},{S},{B}>},它们的Support及rn如下表所示:
  P   rn   Support
  <{F, A,N,B},{P},{A,B},{A,N,B}>   4   1
  <{F, A,N,B},{A,B},{A,B},{A,B},{A,B},{A,B}>   6   1
  <{F},{T},{A},{T},{A},{N,P,B},{P},{D},{B}>   9   4
  <{F},{T},{A},{T},{A},{N,P,B},{P},{D},{A,N,B}>   9   3
  <{F},{T},{A},{T},{A},{N,P,B},{P},{S},{B}>   9   1
(3)根据上表,将P按照rn分组,结果如下:
G={{<{F},{T},{A},{T},{A},{N,P,B},{P},{D},{B}>,<{F},{T},{A},{T},{A},{N,P,B},{P},{D},{A,N,B}>,<{F},{T},{A},{T},{A},{N,P,B},{P},{S},{B}>},{<{F, A,N,B},{P},{A,B},{A,N,B}>},{<{F, A,N,B},{A,B},{A,B},{A,B},{A,B},{A,B}>}}
(a)g1={<{F},{T},{A},{T},{A},{N,P,B},{P},{D},{B}>,<{F},{T},{A},{T},{A},{N,P,B},{P},{D},{A,N,B}>,<{F},{T},{A},{T},{A},{N,P,B},{P},{S},{B}>}。
对其组内模式进行交运算,结果如下:
g1={<{F},{T},{A},{T},{A},{N,P,B},{P},{D},{B}>,<{F},{T},{A},{T},{A},{N,P,B},{P},{S},{B}>}。
在两个模式中均已存在准确的P、B属性,那么根据最大属性种类增益原则,将多标签属性分裂后结果如下:
g1={<{F},{T},{A},{T},{A},{N},{P},{D},{B}>,<{F},{T},{A},{T},{A},{N},{P},{S},{B}>}。
(b)g2={<{F, A,N,B},{P},{A,B},{A,N,B}>}。
由于集合中只有一个模式,所以集合交运算后g2不变。又由于g2中不确定属性较多,且无法通过最大增益原则将多属性标签单一化,故g2不做处理。
(c)g3={<{F, A,N,B},{A,B},{A,B},{A,B},{A,B},{A,B}>},处理方式同g2
(4)经过(3)步骤的处理,得到模式结合P以及对应Support如下表:
  P   rn   Support
  1   <{F, A,N,B},{P},{A,B},{A,N,B}>   4   1
  2   <{F, A,N,B},{A,B},{A,B},{A,B},{A,B},{A,B}>   6   1
  3   <{F},{T},{A},{T},{A},{N},{P},{D},{B}>   9   7
  4   <{F},{T},{A},{T},{A},{N},{P},{S},{B}>   9   1
模式1和模式2包含了太多的不确定属性标签且它们的Support为1,故将P1和P2判断为噪声信息,予以删除;因此,得到的结果模式如下:
(a)若σ=1,P={<{F},{T},{A},{T},{A},{N},{P},{D},{B}>,<{F},{T},{A},{T},{A},{N},{P},{S},{B}>}。
(b)若1<σ<7,P={<{F},{T},{A},{T},{A},{N},{P},{D},{B}>}
两种情况下P的an值均为7。
步骤5、选择P={<{F},{T},{A},{T},{A},{N},{P},{D},{B}>,<{F},{T},{A},{T},{A},{N},{P},{S},{B}>}的情况,对P中的模式进行化简,建立的有限自动机如附图5所示。
最终,得到化简后的结果模式为:
P={<{F},{T},{A},{N},{P},{D},{B}>,<{F},{T},{A},{N},{P},{S},{B}>}
步骤6、最终得到的结构化数据见表一:
表一
Figure BDA0000075513570000081
该数据源的其他页均可以用模式P进行抽取,获得如上表样式的结构化数据。

Claims (1)

1.一种基于实体的自底向上Web数据抽取方法,其特征在于:具体步骤如下:
步骤1. 选择Web数据页面:对于DeepWeb响应页面,需要输入查询词来获得;Web页面可以看作是由HTML语言描述的文本字符串,使用DOM解析工具HtmlAgilityPack将其解析成为标签和文本;然后,在DOM树中删除所有script节点和comment节点,对HTML文档进行最基本的去噪并做规范化处理,得到符合XML标准的文档D;D可以表示为:(T,M,S),其中T是DOM树中所有标签节点的集合,M是DOM树文本节点中的分隔符的集合,S是DOM树文本节点中除了T和M之外所有的文本字符串;
步骤2. 划分文本:对于给定的文档D,按照下面两个条件将S划分为有序的字符串序列:(1)对于每一个t                                               
Figure 986510DEST_PATH_IMAGE002
T,m
Figure 958008DEST_PATH_IMAGE002
M,都以此为分隔在S上做一次划分;
(2)对于相邻的子字符串且对应的文本节点在DOM树中深度相差一级的划分,予以合并操作;文本S经过以上划分后得到有序序列Slist = <s1,s2,…,sn>,其中si
Figure 279399DEST_PATH_IMAGE004
S,且s1
Figure 160899DEST_PATH_IMAGE006
s2
Figure 50488DEST_PATH_IMAGE006
Figure 485845DEST_PATH_IMAGE006
sn
Figure 361660DEST_PATH_IMAGE004
S;每一个si都对应文档D中的一段文本字符串,这里si被称为实体;
步骤3. 标注实体属性:即赋予Slist中的每个实体一个实体类型的名称;每类Web主题都包含特定的实体类型集,那么给定一个主题,也就确定下来实体类型集A;对于每个实体类型aA,采用一个二级抽取模型,第一级L1定义查全规则ra1
Figure 282790DEST_PATH_IMAGE002
R1,第二级L2定义查准规则ra2
Figure 104247DEST_PATH_IMAGE002
R2,其中R1是该主题所有实体类型的查全属性集合,R2是该主题所有实体类型的查准属性集合;这样做能够很好的将查全率与查准率的相互依赖性拆开,保证信息的最小丢失和最大收益;给定
Figure 33020DEST_PATH_IMAGE008
, B代表能够匹配该实体的规则集,A代表匹配B中某条规则后得到的属性标签;具体标注过程如下:
将R1中的每一条规则rx1在Slist上进行匹配,规则rx1会将所有匹配它的实体添加x属性,若某一实体sx匹配rx1,则将属性x添加到sx的属性列表中,xA;经过规则集R1匹配后的实体属性序列可以表示为:
Figure 104192DEST_PATH_IMAGE010
将R2中的每一条规则rx2在Slist上进行匹配,规则rx2会将所有匹配它的实体唯一标识x属性,若某一实体sx匹配rx2,则sx的属性唯一确定为x,删除sx的其它属性,xA;假设s1的属性被确定为x1,sn的属性被确定为xn,那么经过规则集R2匹配后的实体属性序列可以表示为:
Figure 755196DEST_PATH_IMAGE012
    用Alist表示上面的序列,它是一个拥有部分确定属性的实体属性序列;
步骤4. 抽取属性序列重复模式:设集合I为所有实体在文本中的索引的集合即Ind = {Index(si, D)|iZ+},Z+是正整数集合;定义集合AI = {(a, ind)|a
Figure 602508DEST_PATH_IMAGE002
Alist, indI},具体过程如下:
选择起始关键属性,即找到(ak, indk)满足:
其中,sum函数求出所有被标注包含有am属性的实体的索引值的和,count函数计算出被标注为包含am属性实体的个数,SN为该主题的实体类型数量;
在Alist中从ak开始遍历,创建一个队列Q记录遍历过的属性序列,每当遇到包含ak的属性ax,则将Q中已有的属性序列作为一个重复模式Pr添加到候选模式集合P中,并将ax加入队列作为下一个属性序列的开始;若某一序列只包含一个元素,则将其添加到上一序列,并移除该元素的ak标签;若P中已经包含Pr,则将Pr的支持参数Support(Pr)增加1;反之则将Pr的支持参数初始化为0,重复执行以上步骤直到整个Alist遍历完毕;模式Pr可以表示为<a1, a2, …, arn>,xi
Figure 93292DEST_PATH_IMAGE002
A,rn为Pr中包含的实体属性数量,则生成的候选模式集合P可以表示为{P1, P2, …, Ppn},P中的每个元素都代表D中唯一的重复模式,pn是从D中抽取出的不同重复模式数量;
根据rn将P中的模式分组,保证同一组的模式都具有相同的rn,不同组的模式都具有不同的rn;将经过分组后的P表示为G = {gl1, gl2, …, glgn},li是每组模式rn的值,gn是组的数目;对任意组gli中的所有模式做两两交运算,给定两个具有相同rn的模式P1 = <a1, a2, …, arn>,P2 = <b1, b2, …, brn>,定义P1与P2的交运算如下:对于每对属性ap1
Figure 56700DEST_PATH_IMAGE002
P1,ap2
Figure 199099DEST_PATH_IMAGE002
P2,做集合交运算ap1
Figure 7786DEST_PATH_IMAGE016
ap2;所以P1
Figure 427397DEST_PATH_IMAGE016
P2 = <a1
Figure 561707DEST_PATH_IMAGE016
b1, a2
Figure 925823DEST_PATH_IMAGE016
b2, …, arn
Figure 803780DEST_PATH_IMAGE016
brn>;对于没有
Figure 225969DEST_PATH_IMAGE018
元素的交运算结果
Figure 140967DEST_PATH_IMAGE020
,将这两个模式用代替;对于有
Figure 674027DEST_PATH_IMAGE018
元素的
Figure 927285DEST_PATH_IMAGE020
,将这两个模式予以保留;因此,在算法结束时每组都可能包含一个或者多个结果模式,且大多数结果模式只包含单一属性;少数复杂的模式在交运算之后仍然包含多标签属性,对于这类结果模式,将遵循保证模式内包含最大实体类型数目的原则拆分多标签属性;假设某一结果模式Pc = <x1, x2
Figure 403397DEST_PATH_IMAGE006
x3, x3, x4>,根据分裂后的信息增益,将其输出为<x1, x2, x3, x4>;经过完整算法,G可以表示为:
Figure 617472DEST_PATH_IMAGE022
其中cni是组gi中包含的结果模式数目,
Figure 961866DEST_PATH_IMAGE024
是长度为rni的组中的一个结果模式;将G中的结果模式重新按照初始顺序构建为P;
选择P中全部Support相同且在D中相邻出现的模式,对于每对符合条件的P1,P2,若P1或P2具有包含ak属性的多标签属性且P1
Figure 335209DEST_PATH_IMAGE006
P2
Figure 592009DEST_PATH_IMAGE002
P,则用P1 P2代替P1和P2,并将Support(P1
Figure 316831DEST_PATH_IMAGE006
P2)增加Support(P1);对于那些Support数仍为1且包含较少的实体类型或者包含较多不确定属性标签的模式删除;最终,通过一个阈值
Figure 544681DEST_PATH_IMAGE026
控制输出P中符合条件的结果模式集合Pc
Figure 97016DEST_PATH_IMAGE026
是大于0的正整数;
步骤5. 化简结果模式:对Pc中的每个模式建立有限自动机,按照模式的序列顺序设立初始状态和终止状态,每遇到一个特定的属性都会转移到指定的状态;当模式序列遍历结束时,自动机同时创建完毕,输出满足以下两个条件的序列为化简后的模式:
(a) 保证每个属性值被至少访问一次;
(b) 该序列是满足(a)条件的从初始状态到终止状态的最短路径;
最后,删除化简后产生重复冗余的模式。
CN 201110196449 2011-07-13 2011-07-13 一种基于实体的自底向上Web数据抽取方法 Active CN102262658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110196449 CN102262658B (zh) 2011-07-13 2011-07-13 一种基于实体的自底向上Web数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110196449 CN102262658B (zh) 2011-07-13 2011-07-13 一种基于实体的自底向上Web数据抽取方法

Publications (2)

Publication Number Publication Date
CN102262658A CN102262658A (zh) 2011-11-30
CN102262658B true CN102262658B (zh) 2013-10-16

Family

ID=45009287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110196449 Active CN102262658B (zh) 2011-07-13 2011-07-13 一种基于实体的自底向上Web数据抽取方法

Country Status (1)

Country Link
CN (1) CN102262658B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446199B (zh) * 2010-09-30 2015-04-22 易搜比控股公司 简易信息聚合文件的整合方法
CN102567469A (zh) * 2011-12-12 2012-07-11 中国建设银行股份有限公司 计算机通信系统及其数据管理方法
CN103218453A (zh) * 2013-04-28 2013-07-24 南京龙渊微电子科技有限公司 一种文件拆分方法及装置
EP3055786A4 (en) * 2013-10-09 2017-05-17 Google, Inc. Automatic definition of entity collections
CN103853823B (zh) * 2014-02-26 2017-01-18 中国科学院计算技术研究所 一种面向在线百科的实体属性抽取方法及系统
CN105824801B (zh) * 2015-03-16 2018-06-15 国家计算机网络与信息安全管理中心 一种基于自动机的实体关系快速抽取方法
CN108563637A (zh) * 2018-04-13 2018-09-21 北京理工大学 一种融合三元组知识库的句子实体补全方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7581170B2 (en) * 2001-05-31 2009-08-25 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML
CN102063493A (zh) * 2010-12-30 2011-05-18 北京大学 基于正则表达式组和控制逻辑的内容抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7581170B2 (en) * 2001-05-31 2009-08-25 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML
CN102063493A (zh) * 2010-12-30 2011-05-18 北京大学 基于正则表达式组和控制逻辑的内容抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Tiezheng Nie et.al.A Novel Approach for Web Data Extraction Based on XML Encoding.《2010 Seventh International Conference on Fuzzy Systems and Knowledge Discovery》.2010,2417-2421. *
杨少华等.针对模版生成网页的一种数据自动抽取方法.《Journal of Software 软件学报》.2008,第19卷(第2期),209-223. *

Also Published As

Publication number Publication date
CN102262658A (zh) 2011-11-30

Similar Documents

Publication Publication Date Title
CN102262658B (zh) 一种基于实体的自底向上Web数据抽取方法
CN104881488B (zh) 基于关系表的可配置信息抽取方法
CN103268348B (zh) 一种用户查询意图识别方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN102254009B (zh) 一种网页表格数据抽取的方法
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN105893641A (zh) 一种职位推荐方法
CN103559199B (zh) 网页信息抽取方法和装置
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN106201465A (zh) 面向开源社区的软件项目个性化推荐方法
CN104933239A (zh) 一种基于混合模型的个性化职位信息推荐系统及实现方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN100354865C (zh) 仿人工细粒度网页信息采集方法
CN106354844B (zh) 基于文本挖掘的服务组合包推荐系统及方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN102651002A (zh) 一种网页信息抽取方法及其系统
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN102193951A (zh) 信息抽取的方法及系统
CN103246719B (zh) 一种基于Web的网络信息资源整合方法
CN105677638A (zh) Web信息抽取方法
CN104077295A (zh) 一种数据标签的挖掘方法及系统
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
US8239425B1 (en) Isolating desired content, metadata, or both from social media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant