CN102495892A - 一种网页信息抽取方法 - Google Patents
一种网页信息抽取方法 Download PDFInfo
- Publication number
- CN102495892A CN102495892A CN2011104098753A CN201110409875A CN102495892A CN 102495892 A CN102495892 A CN 102495892A CN 2011104098753 A CN2011104098753 A CN 2011104098753A CN 201110409875 A CN201110409875 A CN 201110409875A CN 102495892 A CN102495892 A CN 102495892A
- Authority
- CN
- China
- Prior art keywords
- attribute
- attributes
- property value
- conf
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公布了一种网页信息抽取方法,具体涉及一种从网络百科数据源提取概念属性并对其进行处理的方法。包括:构建实例列表,从多源异构数据源中提取列表中实例的候选属性;对提取到的属性进行同义归纳,将同义属性放在同一个集合中;对归纳后的属性进行细分类;分析分类后的属性所对应的属性值类型;将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。利用本发明的方案,可以从网页中抽取出高质量的概念属性信息,可以用来更好地进行知识库的构建以及其他的自然语言处理任务,例如属性值的提取、文本分类以及搜索引擎中查询日志的分类等。
Description
技术领域
本发明提供一种网页信息抽取方法,具体涉及一种从网络百科数据源提取概念属性并对其进行处理的方法。
背景技术
在互联网文本呈现爆炸式增长的今天,如何合理有效地组织信息和表示知识,建立良好的知识库以便于人们能从海量的网页中迅速快捷地获得自己想要的知识,是一项很重要的研究工作。在知识库的构建中,概念和属性是知识表示的核心要素。概念是反映客观事物及其特有属性的对象,而属性是对概念所具有的特征的刻画,从属性信息能够更全面地了解一个概念的特性。因此,在知识库的自动构建中,找出一种良好的概念属性的自动提取方法是非常重要的。
当前国内外的研究学者提出了很多的方法用来从结构化的或者非结构化的文本中提取概念属性。谷歌公司的Pasca等人以web搜索引擎查询日志为语料,利用手工指定的模板去抽取指定概念的属性列表,还有一些人用web上存在的结构化的数据,例如HTML标签表格,以及维基百科特有的信息框去获得概念属性。
但是当前的这些方法都存在一个问题,即仅仅只是提取出了一些候选属性,并没有对提取出的属性进行后期的处理,导致提取出的候选属性粒度比较粗糙,准确度不高,出现很多一义多词的表达,质量比较差,得经过人工的挑选才能加入到知识库中。并且这些方法没有对属性进行评价,因为有些属性会和目标概念联系得比较紧,有些联系得则比较弱,将联系较紧的属性挑选出来能够有利于进行概念的分类。比如搜索引擎公司有项任务是查询日志的分类,当获取了和相关概念联系比较紧的属性后,就可以通过判断查询日志中是否包含了这些属性来更好地进行分类任务。
发明内容
本发明的目的是提供一种网页信息抽取方法,能够从百科类网站中提取概念属性,提取出的属性能直接用来进行知识库的建设以及其他的自然语言处理任务。
本发明提供的技术方案如下:
一种网页信息抽取方法,包括如下步骤:
A.构建实例列表,从多源异构数据源中提取列表中实例的候选属性;
B.对提取到的属性进行同义归纳,将同义属性放在同一个集合中;
C.对归纳后的属性进行细分类;
D.分析分类后的属性所对应的属性值类型;
E.将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。
步骤A所述数据源为百科类网页数据。
所述百科类网站包括:百度百科、维基百科、互动百科等。
所述步骤A的实现方法如下:
第一步:构建实例列表,获取百科网页数据:根据实例列表中的每一个实例,到百科数据源中获得该实例词条对应的网页;
第二步:对网页数据进行分析:对获取到的网页内容进行字符串处理,抽取出指定的结构化数据;
第三步:挑选候选属性:对于每一种数据源,先单独统计该数据源中出现的属性,给每个属性一个权重,所述属性的权重为该属性出现在该数据源中的频率;然后再对不同数据源中的属性进行融合,将每个属性在不同的数据源中的置信度值累加起来作为其最后的权重;最后将属性按照权重大小排序,只选择出前N个属性作为候选属性,所述N为人工指定的常数。
所述步骤B的实现方法如下:
B1.抽取属性对应的属性值;
B2.计算属性之间的相似性;
B3.用启发式过滤规则对相似性属性对进行挑选;
B4.合并相似属性对,将同义属性放在同一个集合中。
所述步骤B2的实现方法如下:
对于任意两个不同的属性att1和att2,计算其相似性值,将属性att1和att2表示为att1={(V1,Conf1),(V2,Conf2),…,(VN,ConfN)}和att2={(V′1,Conf′1),(V′2,Conf′2),…,(V′N,Conf′N)},其中Vk和V′k是第k个属性值,Confk和Conf′k是属性值在该属性中的权重,定义下面的公式来计算两个属性的相似性:
Sim(att1,att2)为属性att1和att2的相似性值,若att1和att2存在两个属性值Vi和Vj相等,则令这两个相等的属性值的相似性值为Vi和Vj中权重较小的那个,最后将所有的属性值相等时获得的相似性值累加,得到两个属性最后的相似性值。
所述步骤B3的实现方法如下:
1)在提取属性所对应的属性值的时候,同时也记录拥有该属性和属性值的实例列表,在进行相似度计算的时候,若是发现两个属性有相同的属性值,则要对比拥有该属性和属性值的实例列表,若是有m个实例都相同,则给这两个属性的相似性值增加m*0.5;
2)将在同一个信息框中出现的所有属性抽取出来放在一个单独的集合中,则同一个集合中的属性互斥,每一个这样的集合称为一条互斥规则,对于上一步提取出的结果,若两个候选的相似属性对出现在某一条互斥规则中,则将其从候选相似对中去掉;
3)对方法2)中的每条互斥规则,开始时令其中的每个属性都属于一个单独的不同的类,对于一个类中的属性,若是有其他的属性和它满足前后缀关系,就将这些属性都加入到这个类中,在执行这条规则的时候,只有不同类中的属性对才看作互斥的属性对,将其从候选相似对列表中去掉。
所述步骤C,把属性分为一般属性和特殊属性两类,用特异性值来区分所述两类属性,当属性的特异性值大于指定阈值时,认为该属性是特殊属性,否则为一般属性。
所述特异性值的计算方法为:对于属性a,首先在百科词条中搜索该属性a,取出和该属性a相关的前M个词条,然后将这M个词条在目标实例列表中查找,看所述前M个词条中有多少个出现在该列表中,将个数记作Na,则属性a的特异性值为Na/M,所述M为人工指定的常数。
所述步骤D的实现方法如下:
D1.对于某个属性,利用中科院分词系统将其具有的属性值进行分词和词性标注;
D2.统计所有的词,将相同词性的词看作一类,记录每个不同类型的词性的词的频率,然后按照频率对出现过的不同的词性进行排序;
D3.挑出几个代表性的词性来表示该属性的属性值的词性信息;
D4.对挑选出的词性信息进行分析,获得其值的类型信息。
本发明的有益效果:利用本发明的方案,可以从网页中抽取出高质量的概念属性信息,可以用来更好地进行知识库的构建以及其他的自然语言处理任务,例如属性值的提取、文本分类以及搜索引擎中查询日志的分类等。
附图说明
图1本发明的流程图。
具体实施方式
假定需要提取的是概念“明星”类的所有属性,输入则是概念“明星”的目标实例列表,即刘德华、章子怡等明星集合。首先,从各类网络百科数据源中抽取出概念实例列表对应的候选属性,以及这些属性所对应的属性值;然后利用这些属性值信息对候选属性进行同义归纳,找出含义相似的属性并将其合并在一起;接着再利用web资源对候选属性进行评价,挑选出和目标概念联系紧密的属性;最后,对属性的属性值进行分析,预测每个属性所对应的属性值的类型。下面对每个具体的步骤做详细的描述(流程参见图1)。
A.构建实例列表,从多源异构数据源中提取列表中实例的候选属性
在web页中存在着很多结构化的数据,其中包含了大量的概念属性的信息,例如百度百科的名片,维基百科以及互动百科的信息框等。由于百科数据的海量性,从这些结构化的数据中就能得到大量的属性信息,并且相比于基于纯文本的属性名抽取,从结构化数据中获得的属性名通常非常准确。在这些结构化数据中,除了能得到属性信息外,还能得到每个属性所对应的属性值的信息。这些属性值的信息不仅对于构建知识库有重大的作用,而且还可以用来进行属性的挑选。
因为互联网上的数据冗余度很高,百科上的资源也没有一套统一的标准表示概念实例的属性和属性值信息,因此从各个百科资源上获得的数据都是杂乱的,会出现各种各样的关于属性的表达,往往会达到上千种不同的属性名。如何挑选出目标概念最具有代表性的属性集合是一个很重要的工作。
对于某一个属性,出现在这几类百科数据中的次数越多,表示有越多的概念实例拥有这个属性,证明该属性是一个比较好的属性的几率就越大。因此可以通过统计属性的频次信息,来对每个属性进行评价,挑选出好的属性。并且由于每个数据源拥有的属性个数不同,为了减少不同数据源的影响,本发明先对单个的数据源做了归一化处理。算法的具体步骤如下:
第一步:获取百科网页数据
首先,根据已有的实例列表中的每一个实例(如“刘德华”),到百科数据源中获得实例词条所在的网页,这里的百科数据源包括百度百科、互动百科、维基百科等。因为对于一个特殊的实体实例,无论是在百度百科,还是维基或互动百科中,都很可能存在一个页面描述该实体实例。而且由于百科网页URL都十分规整,只需将实体实例名经过字符编码变换,然后加上相同的前后缀,就可以得到该实例所属的网页URL,进而可以获取到整个网页。
第二步:对网页数据进行分析
对获取到的网页内容进行字符串处理,抽取出指定的结构化数据:如:对百度百科,只抽取出网页中的名片部分;对互动百科和维基百科,只抽取出网页中的信息框部分。这些结构化数据是每个实例所具有的属性和其相应的属性值。
第三步:挑选候选属性
对于每一种数据源,先单独统计该数据源中出现的属性,给每个属性一个权重,所述属性的权重为该属性出现在该数据源中的频率。对于数据源di中的属性att,定义att在di中的权重的计算公式为:
上面的公式中,Confdi(att)为属性att在数据源di中的权重,分子Fredi(att)是属性att在数据源di中出现的频次,分母是di中所有属性在di中出现的频次之和,a为di中的属性。
然后再对不同数据源中的属性进行融合,将每个属性在不同的数据源中的置信度值累加起来作为其最后的权重。
这里,ConfD(att)是属性att最后的权重值,D是所有的数据源合集,Confdi(att)为公式(1)求出的属性att在数据源di中的权重。一个属性最后的权重,分别为它们在各个数据源中的权重之和。
最后将属性按照权重大小排序,只选择出前N(例如,N可以取100)个属性作为候选属性。
B.对提取到的属性进行同义归纳,将同义属性放在同一个集合中
通过百科数据抽取出的候选属性名中,由于数据都是人工编辑的并且没有指定统一的属性槽,有些实体信息框中包含的属性名指的是同一种属性但用的是不同形式的表达,特别是百度百科名片中的数据,因此会造成很多同义属性名的情况,例如“信仰”和“宗教信仰”,“属相”和“生肖”,“去世时间”和“去世日期”等等。因此有必要对上一步获得的候选属性进行归纳,将同义属性都放在同一个集合中,它们之间可以互相替换。这样可以减少冗余,也有利于属性值抽取的时候,可以利用同义的属性名进行扩充。
同义的属性一般都具有相同或相似的属性值。因此只需从抽取出的数据中将每个属性所对应的所有的属性值取出来,然后对比不同属性的属性值之间的相似性,相似性越高,是同义的属性的可能性越大。该方法比传统的基于上下文的相似性计算方法具有更高的准确率,是因为其计算相似性时利用的属性值信息比上下文更准确。
下面给出计算属性名之间相似性的具体步骤:
B1.抽取属性对应的属性值
对候选属性列表中的每一个属性,通过A2可以抽取出该属性对应的所有的属性值。一个属性值出现的次数越多,表示该属性值可信度越高,为了防止错误属性值的干扰,本发明记录每个属性值作为该属性的值出现的频次,然后将频次除以该属性对应的所有的属性值的频次之和进行归一化处理,作为该属性值的置信度值。
B2.计算属性之间的相似性
对于任意两个不同的属性att1和att2,计算其相似性值。将属性att1和att2表示为att1={(V1,Conf1),(V2,Conf2),…,(VN,ConfN)}和att2={(V′1,Conf′1),(V′2,Conf′2),…,(V′N,Conf′N)},其中Vk和V′k是第k个属性值,Confk和Conf′k是属性值在该属性中的权重。定义下面的公式来计算两个属性的相似性:
Sim(att1,att2)为属性att1和att2的相似性值。若att1和att2存在两个属性值Vi和Vj相等,则令这两个相等的属性值的相似性值为Vi和Vj中权重较小的那个,最后将所有的属性值相等时获得的相似性值累加,得到两个属性最后的相似性值,然后按照相似性值的大小进行排序。
B3.用启发式过滤规则对相似性属性对进行挑选
上面的基于属性值的相似性的计算方法存在一个问题:若两个属性,它们的属性值非常相似,则按照此方法计算出来的相似性值就会特别高,但是它们可能不是同义的或者甚至是反义的。例如对处理“明星”概念的属性时,这样的相似属性对有“出生年月”和“出道日期”、“出生地”和“出道地点”、“出生日期”和“去世日期”等等。因此需要找出一种方法过滤掉这种属性值很相似的属性对,为此,本发明用如下方法来处理该问题。
1)对于两个不同的属性,若对于同一个实例同时拥有这两个属性,并且这两个属性的属性值都相同,则这两个属性很有可能是同义的。因此,在提取属性所对应的属性值的时候,同时也记录拥有该属性和属性值的实例列表,在进行相似度计算的时候,若是发现两个属性有相同的属性值,则要对比拥有该属性和属性值的实例列表,若是有m个实例都相同,则给这两个属性的相似性值增加m*0.5。通过这种方法,能提高某些特别相似的属性对的权重。
2)一般地,出现在同一个实例的信息框或名片中的多个属性,他们互相之间不是同义属性。本发明将同一个信息框中出现的所有属性抽取出来放在一个单独的集合中,则同一个集合中的属性互斥,即同一个集合中的属性不可能相似,每一个这样的集合称为一条互斥规则。对于上一步提取出的结果,若两个候选的相似属性对出现在某一条互斥规则中,则将其从候选相似对中去掉。这样能筛选掉许多无关的属性对。
3)方法2)能去掉很大一部分无关的属性对,但是还有一些无法筛掉。比如“出生地”和“出道地点”出现在方法2)所述的某一条互斥规则中,它们能够被挑选出且被去掉,但是可能“出生地点”和“出道地点”这样的属性对因为没有出现在任一条互斥规则中,则它们就不会被挑选出来。但是,“出生地”和“出生地点”这样互为前后缀的属性对实际上是同义的,如果能够提前知道这样的属性对是同义的,若同义对中的一个属性和其他的某个属性不相似,则由于传递性,同义对中的另外一个属性和该属性肯定也不相似。因此,本发明如下进行进一步的过滤:进行方法3)之前,对方法2)中的每条规则,令其中的每个属性都属于一个单独的不同的类,对于一个类中的属性,若是有其他的属性和它满足前后缀关系,就将这些属性都加入到这个类中,在执行这条规则的时候,只有不同类中的属性对才看作互斥的属性对,就将其从候选相似对列表中去掉。经过这样的处理,会进一步删除掉一些无关的属性对。
B4.合并相似属性对
最后将剩下的相似属性对按照相似性值进行筛选,只保留最相似的属性对,然后对保留的属性对进行归并,将所有的具有相似关系的属性放在同一个集合中。即若A1与A2相似,A2又与A3相似,就将A1、A2、A3放在同一个集合中。最终生成的属性集合,每个属性只属于一个集合,但是每个集合可能包含多个属性。每个集合选出一个代表该集合的属性,对于那些有多个属性的集合,根据第一步挑选所有属性得到的每个属性的权值,选出权值最大的属性作为代表属性。
C.对归纳后的属性进行细分类
本发明将属性分为两类:一般属性和特殊属性。所谓一般属性是指对于除了目标概念实例外,其他概念实例也可能具有的属性,例如对于明星概念的属性:“出生年月、学历、籍贯”等等,因为其他人物概念也会拥有这些概念,所以将这些概念称之为一般属性。特殊属性是指对于目标概念实例列表中,该概念实例下所独有的属性,对于明星概念,这样的属性有“经纪人、经纪公司、唱片公司”等等,即其他类型的人物不具有这些属性。还有一类属性也可看作特殊属性,这类属性可能被其他的概念实例所拥有,但是更多的只是和目标概念实例一起出现,例如对于明星类的属性“演奏乐器”,“演奏乐器”一般更多的是和某个明星联系在一起,可能其他公众人物实例也会拥有该属性但是在一般的话题中却很少被提起。这类属性有个共同的特点,就是当人们看到某个实例拥有这类特殊属性时,就能联想到该实例是属于目标概念下的实例,因此特殊属性是和目标概念联系比较紧密的属性。
下面对所有属性进行评价,给每个属性计算一个特异性值,若特异性值大于一个指定的阈值,就表示该属性是一个特殊属性;反之特异性值小于等于这个阈值,就表示该属性是一个一般属性。本发明提出了两种方法用来计算属性的特异性值:
●基于种子列表的属性特异性计算
特殊属性仅仅属于目标概念实例,而很少出现在其他概念实例周围。由此可知,若某个属性出现在目标概念实例周围的次数越多,并且它出现在其他目标概念实例周围的次数越少,则其越有可能是一个特殊属性。因此本发明采用通过构造消极实例列表的方法,去计算每个属性的特异性值。
首先,从目标概念实例列表中随机选择一些目标实例列表作为积极实例种子列表,然后随机选择一些其他和目标概念接近的实例组成消极实例种子列表。例如若目标概念是明星概念,则选择的消极实例为政治人物、财经人物、互联网人物等,若目标概念是大学概念,则选择的消极实例为其他公共组织,例如公司,社会机构部门等等。这里所选的消极实例的属性最好和积极实例的属性有一些交集,这样才能更好的找出积极属性中的特殊属性。
然后,对于每个积极实例和消极实例,去几类百科数据源中抽取出该实例所属的页面,和前面所述的方法一样,从网页中的结构化数据抽取出实例在页面中包含的所有属性。
最后,对上一步获得的候选属性列表中的每个属性,统计该属性作为积极实例的属性的次数记为N1,该属性作为消极实例的属性的次数记为N2,将N1/(N1+N2)的比值作为该属性的特异性值。然后将每个属性按照其特异性值进行排序,所有特异性值大于阈值t1(t1为自定义常量,如t1=0.01)的都可看做特殊属性,其他的都被认为是一般属性。
这种做法人工干预的因素比较大,选取的种子好,结果就好,选取的种子差,结果就差。
●基于百度百科搜索词条的属性特异性计算
鉴于上一种方法人工干预的因素比较大,因此本发明试图通过找出一种人工参与比较少的方法去得到概念属性的特异性值。把每个属性作为关键词在百科词条中进行搜索,若返回的词条中包含目标概念实例集合的个数越多,则证明该关键词的特异性就越强。因为若该属性的特异性不高,就会返回很多和目标集合无关的词条,因此本发明通过该方法去计算属性的特异性值。
具体的做法是,假设对于属性a,首先将a在百科词条中搜索,取出和该属性相关的前M(M为自定义常量,如M=100)个词条,然后将这M个词条在目标实例列表中查找,看这前M个词条中有多少个出现在了该列表中,将个数记作Na,则属性a的特异性值为Na/M,特异性值大于阈值t2(t2为自定义常量,如t2=0.1)的都可看做特殊属性,其他的都被认为是一般属性。
该方法巧妙地运用了网络词条的搜索功能,人工干预的因素很小,而且求出的属性特异性值的结果也很好。
以上的两种方法都可以用来进行属性特异性的计算,前面一种需要人工指定消极实例列表,而后面一种方法自动化程度较高。若是需要特意比较两个不同概念的属性可以用第一种基于种子列表的方法,得到的结果更好一点;否则可以用第二种,需要人工参与比较少,结果也很好。
D.分析分类后的属性所对应的属性值类型
步骤如下:
D1.对于某个属性,利用中科院分词系统(ICTCLAS,基于多层隐马尔科夫模型的汉语词法分析系统(Institute of Computing Technology,Chinese Lexical Analysis System),它包括了中文分词,词性标注和未登录词识别等)将其具有的属性值进行分词和词性标注;
D2.统计所有的词,将相同词性的词看作一类,记录每个不同类型的词性的词的频率,例如动词出现的频率、名词出现的频率等,然后按照频率对出现过的不同的词性进行排序;
D3.挑出几个代表性的词性来表示该属性的属性值的词性信息。因为一个属性其值可能会包含多个词性的词,因此需要按照词性的频率信息挑选出几个最具代表性的词性。由于抽取的属性值通常都较短,很多情况是由一个词语或短语组成,因此本发明没有做一些停用词(例如助词介词等无关词)词性过滤的处理。本发明中,若某个词性的频率>最大的词性的频率*0.4,就将该词性挑选出来。
D4.对挑选出的词性进行分析,获得其值的类型信息。通过属性值词性信息映射属性值类型的规则如下:
◆若挑选出的词性中含有“w”(ICTCLAS中标注出的表示标点符号的词性),则表示该属性值是多值类型的,即会有多个不同的值;
◆若挑选出的词性中含有“t”(ICTCLAS中标注出的表示时间词的词性),则表示该属性值是时间类型的;
◆若挑选出的词性中含有“m”(ICTCLAS中标注出的表示数词的词性),则表示该属性值含有数字;
◆若挑选出的词性中含有“nr”(ICTCLAS中标注出的表示人名词的词性),则表示该属性值是一个人名;
◆若挑选出的词性中含有“ns”(ICTCLAS中标注出的表示地名词的词性),则表示该属性值是一个地名;
◆若挑选出的词性中含有“nt”(ICTCLAS中标注出的表示机构名词的词性),则表示该属性值是一个机构名;
通过最后产生的属性值的词性信息到类型信息映射的规则,就能知道满足该规则的属性的取值类型。知道这些类型信息,对于后面的属性值的提取具有很重要的指导作用。例如:假如通过该方法预测到某个属性的值的类型是一个机构名,则制定该属性的属性值的提取模板时就可以让属性值出现的位置限制为是一个机构名,这样能大大提高提取结果的准确率。
E.将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中
最后生成的属性提取结果可以推荐给用户,也可以直接加入到知识库中,而不需要手工挑选耗费人力物力。并且这些结果能够直接用来进行辅助其他的自然语言处理研究任务或被直接用在工业中,例如提高搜索引擎的搜索结果,有利于更好的进行查询关键词的意图理解和分类识别、文本分类等等任务。
比如需要构建一个明星知识库,明星库中得尽可能全的包含所有的明星以及和这些明星相关的属性。这个时候可以通过本发明列出的方法,首先从几类百科数据源中得到和明星相关的数据,然后利用该属性处理技术找出质量高的属性和其他的属性值类型的信息,最后将这些数据都加入到构建的明星知识库中。对于明星领域,该知识库的数据因为是抽取多种数据源并且多层筛选技术得到的,所以比其他百科数据中的资源有更高的利用价值。
Claims (10)
1.一种网页信息抽取方法,包括如下步骤:
A.构建实例列表,从多源异构数据源中提取列表中实例的候选属性;
B.对提取到的属性进行同义归纳,将同义属性放在同一个集合中;
C.对归纳后的属性进行细分类;
D.分析分类后的属性所对应的属性值类型;
E.将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。
2.如权利要求1所述的网页信息抽取方法,其特征是,步骤A所述数据源为百科类网页数据。
3.如权利要求2所述的网页信息抽取方法,其特征是,所述百科类网站包括:百度百科、维基百科、互动百科。
4.如权利要求1所述的网页信息抽取方法,其特征是,所述步骤A的实现方法如下:
第一步:构建实例列表,获取百科网页数据:根据实例列表中的每一个实例,到百科数据源中获得该实例词条对应的网页;
第二步:对网页数据进行分析:对获取到的网页内容进行字符串处理,抽取出指定的结构化数据;
第三步:挑选候选属性:对于每一种数据源,先单独统计该数据源中出现的属性,给每个属性一个权重,所述属性的权重为该属性出现在该数据源中的频率;然后再对不同数据源中的属性进行融合,将每个属性在不同的数据源中的置信度值累加起来作为其最后的权重;最后将属性按照权重大小排序,只选择出前N个属性作为候选属性,所述N为人工指定的常数。
5.如权利要求4所述的网页信息抽取方法,其特征是,所述步骤B的实现方法如下:
B1.抽取属性对应的属性值;
B2.计算属性之间的相似性;
B3.用启发式过滤规则对相似性属性对进行挑选;
B4.合并相似属性对,将同义属性放在同一个集合中。
6.如权利要求5所述的网页信息抽取方法,其特征是,所述步骤B2的实现方法如下:
对于任意两个不同的属性att1和att2,计算其相似性值,将属性att1和att2表示为att1={(V1,Conf1),(V2,Conf2),…,(VN,ConfN)}和att2={(V′1,Conf′1),(V′2,Conf′2),…,(V′N,Conf′N)},其中Vk和V′k是第k个属性值,Confk和Conf′k是属性值在该属性中的权重,定义下面的公式来计算两个属性的相似性:
Sim(att1,att2)为属性att1和att2的相似性值,若att1和att2存在两个属性值Vi和Vj相等,则令这两个相等的属性值的相似性值为Vi和Vj中权重较小的那个,最后将所有的属性值相等时获得的相似性值累加,得到两个属性最后的相似性值。
7.如权利要求6所述的网页信息抽取方法,其特征是,所述步骤B3的实现方法如下:
1)在提取属性所对应的属性值的时候,同时也记录拥有该属性和属性值的实例列表,在进行相似度计算的时候,若是发现两个属性有相同的属性值,则要对比拥有该属性和属性值的实例列表,若是有m个实例都相同,则给这两个属性的相似性值增加m*0.5;
2)将在同一个信息框中出现的所有属性抽取出来放在一个单独的集合中,则同一个集合中的属性互斥,每一个这样的集合称为一条互斥规则,对于上一步提取出的结果,若两个候选的相似属性对出现在某一条互斥规则中,则将其从候选相似对中去掉;
3)对方法2)中的每条规则,开始时令其中的每个属性都属于一个单独的不同的类,对于一个类中的属性,若是有其他的属性和它满足前后缀关系,就将这些属性都加入到这个类中,在执行这条规则的时候,只有不同类中的属性对才看作互斥的属性对,将其从候选相似对列表中去掉。
8.如权利要求1所述的网页信息抽取方法,其特征是,所述步骤C,把属性分为一般属性和特殊属性两类,用特异性值来区分所述两类属性,当属性的特异性值大于指定阈值时,认为该属性是特殊属性,否则为一般属性。
9.如权利要求8所述的网页信息抽取方法,其特征是,所述特异性值的计算方法为:对于属性a,首先在百科词条中搜索该属性a,取出和该属性a相关的前M个词条,然后将这M个词条在目标实例列表中查找,看所述前M个词条中有多少个出现在该列表中,将个数记作Na,则属性a的特异性值为Na/M,所述M为人工指定的常数。
10.如权利要求1所述的网页信息抽取方法,其特征是,所述步骤D的实现方法如下:
D1.对于某个属性,利用中科院分词系统将其具有的属性值进行分词和词性标注;
D2.统计所有的词,将相同词性的词看作一类,记录每个不同类型的词性的词的频率,然后按照频率对出现过的不同的词性进行排序;
D3.挑出几个代表性的词性来表示该属性的属性值的词性信息;
D4.对挑选出的词性信息进行分析,获得其值的类型信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104098753A CN102495892A (zh) | 2011-12-09 | 2011-12-09 | 一种网页信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104098753A CN102495892A (zh) | 2011-12-09 | 2011-12-09 | 一种网页信息抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102495892A true CN102495892A (zh) | 2012-06-13 |
Family
ID=46187717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104098753A Pending CN102495892A (zh) | 2011-12-09 | 2011-12-09 | 一种网页信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102495892A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102738A (zh) * | 2014-07-28 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种扩充实体库的方法及装置 |
CN104166653A (zh) * | 2013-05-17 | 2014-11-26 | 北京百度网讯科技有限公司 | 网站的三元组挖掘方法以及三元组挖掘装置 |
CN104252660A (zh) * | 2013-12-04 | 2014-12-31 | 深圳市华傲数据技术有限公司 | 一种属性集推荐方法和装置 |
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和系统 |
CN105138631A (zh) * | 2015-08-20 | 2015-12-09 | 小米科技有限责任公司 | 知识库的构建方法及装置 |
CN105335378A (zh) * | 2014-06-25 | 2016-02-17 | 富士通株式会社 | 多数据源的信息处理装置、服务器及方法 |
CN105468637A (zh) * | 2014-09-05 | 2016-04-06 | 北京联嘉众赢网络技术有限公司 | 一种数据库更新方法及装置 |
CN105550336A (zh) * | 2015-12-22 | 2016-05-04 | 北京搜狗科技发展有限公司 | 单一实体实例的挖掘方法和装置 |
CN105718433A (zh) * | 2014-12-05 | 2016-06-29 | 富士通株式会社 | 表格语义化装置和方法 |
CN105893556A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇虎科技有限公司 | 基于百科内容的词条分类方法及装置 |
CN106156170A (zh) * | 2015-04-16 | 2016-11-23 | 北大方正集团有限公司 | 舆情分析方法及装置 |
CN106886535A (zh) * | 2015-12-16 | 2017-06-23 | 大唐软件技术股份有限公司 | 一种适配多种数据源的数据抽取方法和装置 |
CN106951539A (zh) * | 2017-03-23 | 2017-07-14 | 苏州大学 | 一种信息真伪验证方法及系统 |
CN107544958A (zh) * | 2017-07-12 | 2018-01-05 | 清华大学 | 术语抽取方法和装置 |
CN107590119A (zh) * | 2016-07-07 | 2018-01-16 | 北京国双科技有限公司 | 人物属性信息抽取方法及装置 |
CN107657035A (zh) * | 2017-09-28 | 2018-02-02 | 北京百度网讯科技有限公司 | 用于生成有向无环图的方法和装置 |
WO2018072501A1 (en) * | 2016-10-21 | 2018-04-26 | Boe Technology Group Co., Ltd. | Information extraction apparatus and method |
CN109815343A (zh) * | 2019-01-28 | 2019-05-28 | 北京百度网讯科技有限公司 | 获得知识图谱中的数据模型的方法、装置、设备和介质 |
CN110287302A (zh) * | 2019-06-28 | 2019-09-27 | 中国船舶工业综合技术经济研究院 | 一种国防科技领域开源信息置信度确定方法及系统 |
CN110489475A (zh) * | 2019-08-14 | 2019-11-22 | 广东电网有限责任公司 | 一种多源异构数据处理方法、系统及相关装置 |
CN111753095A (zh) * | 2019-03-29 | 2020-10-09 | 富士通株式会社 | 用于生成知识库的方法和装置 |
CN112199960A (zh) * | 2020-11-12 | 2021-01-08 | 北京三维天地科技股份有限公司 | 一种标准知识元粒度解析系统 |
CN113139143A (zh) * | 2021-03-31 | 2021-07-20 | 杭州电子科技大学 | 面向智慧校园的网页表数据与关系型数据库数据集成方法 |
CN113468379A (zh) * | 2020-03-31 | 2021-10-01 | 上海依图网络科技有限公司 | 数据源的处理方法、装置及智能分析平台 |
CN113535968A (zh) * | 2020-04-20 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 数据关键属性的提取方法和装置 |
CN113626385A (zh) * | 2021-07-07 | 2021-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种基于文本数据读取的方法和系统 |
CN113157996B (zh) * | 2020-01-23 | 2022-09-16 | 久瓴(上海)智能科技有限公司 | 文档信息处理方法、装置、计算机设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1407438A (zh) * | 2001-09-07 | 2003-04-02 | 深圳市中兴通讯股份有限公司上海第二研究所 | 海量数据处理方法和系统 |
CN101615193A (zh) * | 2009-07-07 | 2009-12-30 | 北京大学 | 一种基于百科数据提取集成的查询系统 |
-
2011
- 2011-12-09 CN CN2011104098753A patent/CN102495892A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1407438A (zh) * | 2001-09-07 | 2003-04-02 | 深圳市中兴通讯股份有限公司上海第二研究所 | 海量数据处理方法和系统 |
CN101615193A (zh) * | 2009-07-07 | 2009-12-30 | 北京大学 | 一种基于百科数据提取集成的查询系统 |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166653A (zh) * | 2013-05-17 | 2014-11-26 | 北京百度网讯科技有限公司 | 网站的三元组挖掘方法以及三元组挖掘装置 |
CN104166653B (zh) * | 2013-05-17 | 2017-10-31 | 北京百度网讯科技有限公司 | 网站的三元组挖掘方法以及三元组挖掘装置 |
CN104252660B (zh) * | 2013-12-04 | 2018-03-20 | 深圳市华傲数据技术有限公司 | 一种属性集推荐方法和装置 |
CN104252660A (zh) * | 2013-12-04 | 2014-12-31 | 深圳市华傲数据技术有限公司 | 一种属性集推荐方法和装置 |
CN105335378A (zh) * | 2014-06-25 | 2016-02-17 | 富士通株式会社 | 多数据源的信息处理装置、服务器及方法 |
CN104102738A (zh) * | 2014-07-28 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种扩充实体库的方法及装置 |
CN105468637A (zh) * | 2014-09-05 | 2016-04-06 | 北京联嘉众赢网络技术有限公司 | 一种数据库更新方法及装置 |
CN105718433A (zh) * | 2014-12-05 | 2016-06-29 | 富士通株式会社 | 表格语义化装置和方法 |
CN105718433B (zh) * | 2014-12-05 | 2019-01-22 | 富士通株式会社 | 表格语义化装置和方法 |
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和系统 |
CN106156170A (zh) * | 2015-04-16 | 2016-11-23 | 北大方正集团有限公司 | 舆情分析方法及装置 |
CN106156170B (zh) * | 2015-04-16 | 2019-05-14 | 北大方正集团有限公司 | 舆情分析方法及装置 |
CN105138631B (zh) * | 2015-08-20 | 2019-10-11 | 小米科技有限责任公司 | 知识库的构建方法及装置 |
US10331648B2 (en) | 2015-08-20 | 2019-06-25 | Xiaomi Inc. | Method, device and medium for knowledge base construction |
CN105138631A (zh) * | 2015-08-20 | 2015-12-09 | 小米科技有限责任公司 | 知识库的构建方法及装置 |
CN106886535A (zh) * | 2015-12-16 | 2017-06-23 | 大唐软件技术股份有限公司 | 一种适配多种数据源的数据抽取方法和装置 |
CN105550336A (zh) * | 2015-12-22 | 2016-05-04 | 北京搜狗科技发展有限公司 | 单一实体实例的挖掘方法和装置 |
CN105550336B (zh) * | 2015-12-22 | 2018-12-18 | 北京搜狗科技发展有限公司 | 单一实体实例的挖掘方法和装置 |
CN105893556A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇虎科技有限公司 | 基于百科内容的词条分类方法及装置 |
CN105893556B (zh) * | 2016-03-31 | 2020-04-14 | 北京奇虎科技有限公司 | 基于百科内容的词条分类方法及装置 |
CN107590119A (zh) * | 2016-07-07 | 2018-01-16 | 北京国双科技有限公司 | 人物属性信息抽取方法及装置 |
WO2018072501A1 (en) * | 2016-10-21 | 2018-04-26 | Boe Technology Group Co., Ltd. | Information extraction apparatus and method |
US10546065B2 (en) | 2016-10-21 | 2020-01-28 | Boe Technology Group Co., Ltd. | Information extraction apparatus and method |
CN106951539A (zh) * | 2017-03-23 | 2017-07-14 | 苏州大学 | 一种信息真伪验证方法及系统 |
CN107544958A (zh) * | 2017-07-12 | 2018-01-05 | 清华大学 | 术语抽取方法和装置 |
CN107544958B (zh) * | 2017-07-12 | 2020-02-18 | 清华大学 | 术语抽取方法和装置 |
CN107657035A (zh) * | 2017-09-28 | 2018-02-02 | 北京百度网讯科技有限公司 | 用于生成有向无环图的方法和装置 |
CN107657035B (zh) * | 2017-09-28 | 2021-10-22 | 北京百度网讯科技有限公司 | 用于生成有向无环图的方法和装置 |
CN109815343A (zh) * | 2019-01-28 | 2019-05-28 | 北京百度网讯科技有限公司 | 获得知识图谱中的数据模型的方法、装置、设备和介质 |
CN109815343B (zh) * | 2019-01-28 | 2021-01-22 | 北京百度网讯科技有限公司 | 获得知识图谱中的数据模型的方法、装置、设备和介质 |
US11556812B2 (en) | 2019-01-28 | 2023-01-17 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and device for acquiring data model in knowledge graph, and medium |
CN111753095A (zh) * | 2019-03-29 | 2020-10-09 | 富士通株式会社 | 用于生成知识库的方法和装置 |
CN110287302A (zh) * | 2019-06-28 | 2019-09-27 | 中国船舶工业综合技术经济研究院 | 一种国防科技领域开源信息置信度确定方法及系统 |
CN110287302B (zh) * | 2019-06-28 | 2021-03-30 | 中国船舶工业综合技术经济研究院 | 一种国防科技领域开源信息置信度确定方法及系统 |
CN110489475A (zh) * | 2019-08-14 | 2019-11-22 | 广东电网有限责任公司 | 一种多源异构数据处理方法、系统及相关装置 |
CN113157996B (zh) * | 2020-01-23 | 2022-09-16 | 久瓴(上海)智能科技有限公司 | 文档信息处理方法、装置、计算机设备及可读存储介质 |
CN113468379A (zh) * | 2020-03-31 | 2021-10-01 | 上海依图网络科技有限公司 | 数据源的处理方法、装置及智能分析平台 |
CN113535968A (zh) * | 2020-04-20 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 数据关键属性的提取方法和装置 |
CN112199960B (zh) * | 2020-11-12 | 2021-05-25 | 北京三维天地科技股份有限公司 | 一种标准知识元粒度解析系统 |
CN112199960A (zh) * | 2020-11-12 | 2021-01-08 | 北京三维天地科技股份有限公司 | 一种标准知识元粒度解析系统 |
CN113139143A (zh) * | 2021-03-31 | 2021-07-20 | 杭州电子科技大学 | 面向智慧校园的网页表数据与关系型数据库数据集成方法 |
CN113139143B (zh) * | 2021-03-31 | 2022-07-12 | 杭州电子科技大学 | 面向智慧校园的网页表数据与关系型数据库数据集成方法 |
CN113626385A (zh) * | 2021-07-07 | 2021-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种基于文本数据读取的方法和系统 |
CN113626385B (zh) * | 2021-07-07 | 2022-07-15 | 厦门市美亚柏科信息股份有限公司 | 一种基于文本数据读取的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102495892A (zh) | 一种网页信息抽取方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN106708966B (zh) | 基于相似度计算的垃圾评论检测方法 | |
Caldarola et al. | An approach to ontology integration for ontology reuse | |
CN107577759A (zh) | 用户评论自动推荐方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
US20080195568A1 (en) | Methodologies and analytics tools for identifying white space opportunities in a given industry | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN104408148A (zh) | 一种基于通用百科网站的领域百科构建系统 | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
CN106933800A (zh) | 一种金融领域的事件句抽取方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN102054029A (zh) | 一种基于社会网络和人名上下文的人物信息消歧处理方法 | |
CN106326259A (zh) | 搜索引擎中商品标签的构建方法、系统及搜索方法和系统 | |
Labusch et al. | Named Entity Disambiguation and Linking Historic Newspaper OCR with BERT. | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
CN112307314A (zh) | 搜索引擎精选摘要的生成方法和装置 | |
Long et al. | Joint learning for legal text retrieval and textual entailment: leveraging the relationship between relevancy and affirmation | |
Chaudary et al. | Extraction of useful information from Crude Job Descriptions | |
Lynch | An analysis of predicting job titles using job descriptions | |
CN112650817A (zh) | 关键词汇扩展方法及系统、电子设备及存储介质 | |
CN107341169B (zh) | 一种基于信息检索的大规模软件信息站标签推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120613 |