CN106156143A - 网页处理装置和网页处理方法 - Google Patents

网页处理装置和网页处理方法 Download PDF

Info

Publication number
CN106156143A
CN106156143A CN201510172386.9A CN201510172386A CN106156143A CN 106156143 A CN106156143 A CN 106156143A CN 201510172386 A CN201510172386 A CN 201510172386A CN 106156143 A CN106156143 A CN 106156143A
Authority
CN
China
Prior art keywords
webpage
resource description
description framework
predicate
semantic segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510172386.9A
Other languages
English (en)
Inventor
方瑞玉
缪庆亮
房璐
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201510172386.9A priority Critical patent/CN106156143A/zh
Priority to JP2016078718A priority patent/JP2016201112A/ja
Publication of CN106156143A publication Critical patent/CN106156143A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种网页处理装置和网页处理方法,用于在实体网页中嵌入资源描述框架属性(RDFa),该装置包括:第一识别单元,其用于识别网页的实体类型,所述实体类型对应有至少一个RDFa;第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;第一确定单元,根据预先确定的语义片段与RDFa的对应关系,确定所述网页中每个语义片段所对应的所述实体类型中的RDFa,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的RDFa。根据本发明实施例,无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。

Description

网页处理装置和网页处理方法
技术领域
本发明信息技术领域,尤其涉及一种网页处理装置和网页处理方法。
背景技术
近年来,互联网上的文本信息呈爆炸式增长,其中绝大多数为未经组织的页面,而非结构化文本。
网页语义标注是把非机器可读、非结构化的网页文本转换成可被机器读取格式的文本。使用资源描述框架属性(Resource Description Framework attribute,RDFa)对超文本标记语言(Hyper Text Mark-up Language,HTML)网页中的语义属性进行注解,成为了互联网语义标注的一种可行方案。
目前,将资源描述框架属性(RDFa)嵌入到超文本标记语言(HTML)页面通常需要页面编撰者手动完成,需要消耗大量的时间和人力。为此,研究者们开发出自动或半自动的方法来完成页面语义标注和信息抽取等工作。网页页面的自动语义标注通常为有监督的标注方法,即由人工对训练网页进行预先标注,并根据训练网页构造分类器,用来将资源描述框架属性(RDFa)嵌入到待标注的网页中。在上述有监督的标注方法中,训练网页的数量越多,自动标注的准确度越高。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本申请的发明人发现,上述有监督的自动标注方法仅适用于人为组织的小规模、良定义的语义标签的场合,而在人工标注的训练网页数量不足的场合下,使用该方法进行标注的准确度会受到影响,并且分类器也不能扩展到被用于其它的场合,因此不具备良好的扩展性。
本申请的实施例提供一种网页处理装置和网页处理方法,基于弱监督(weak/distant supervision)的方式构造资源描述框架属性与网页中语义分段的对应关系,并根据该对应关系在实体类型网页的语义分段中嵌入相应的资源描述框架属性。
根据本发明实施例的第一方面,提供一种网页处理装置,用于在实体网页中嵌入资源描述框架属性(Resource Description Framework attribute,RDFa),该装置包括:
第一识别单元,其用于识别网页的实体类型(entity type),所述实体类型对应至少一个资源描述框架属性(RDFa);
第一划分单元,其基于所述网页的视觉结构(visual structure)以及所述实体类型,将所述网页划分为至少一个语义片段(semantic fragment);
第一确定单元,根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性(RDFa),其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及
嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。
根据本发明实施例的第二方面,提供一种网页处理方法,用于在实体网页中嵌入资源描述框架属性(Resource Description Framework attribute,RDFa),该方法包括:
识别网页的实体类型(entity type),所述实体类型对应至少一个资源描述框架属性(RDFa);
基于所述网页的视觉结构(visual structure)以及所述实体类型,将所述网页划分为至少一个语义片段(semantic fragment);
根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性(RDFa),其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及
在所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。
本发明的有益效果在于:该方法无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请实施例1的网页处理方法的一个流程示意图;
图2是本实施例1的实体网页的一个示意图;
图3是本实施例1的将网页划分为语义片断的方法的一个流程示意图;
图4是本实施例1的网页的树状结构的一个示意图;
图5是本实施例1的识别触发词的方法的一个流程示意图;
图6是本申请实施例1的预先确定语义片段与RDFa的对应关系的方法的一个流程图;
图7是本实施例1的检索得到训练网页的方法的一个流程示意图;
图8是本申请实施例2的网页处理装置的一个组成结构示意图;
图9是实施例2的第一划分单元的一个组成结构示意图;
图10是实施例2的第二识别单元的一个组成结构示意图;
图11是本实施例2的第二确定单元的一个组成结构示意图;
图12是本实施例2的检索单元的一个组成结构示意图。
具体实施方式
参照附图,通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
实施例1
本申请实施例1提供一种网页处理方法,用于在实体网页中嵌入资源描述框架属性(Resource Description Framework attribute,RDFa)。图1是本申请实施例1的网页处理方法的一个流程示意图。如图1所示,该方法包括:
S101、识别网页的实体类型(entity type),所述实体类型对应至少一个资源描述框架属性(RDFa);
S102、基于所述网页的视觉结构(visual structure)以及所述实体类型,将所述网页划分为至少一个语义片段(semantic fragment);
S103、根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性(RDFa);
S104、在所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。
在本实施例中,步骤S103中的语义片段与资源描述框架属性(RDFa)之间的对应关系是基于网页检索所获得的训练网页而确定的,而不是基于人工标注的训练网页确定的,因此,本实施例是采用弱监督的方法来构造上述对应关系,无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。
在本实施例中,实体网页是指该网页内容仅描述属于某一类型的实体的相关内容,例如,该实体网页的内容仅描述某人物的相关内容、某个建筑物的相关内容、或某个公司的相关内容、某件文艺作品的相关内容等,其中,人物、建筑物、公司或文艺作品等就是该实体网页的实体类型。
在本实施例中,每一实体类型都可以对应至少一个资源描述框架属性(RDFa),该资源描述框架属性(RDFa)用来对实体类型做更进一步的描述,例如,当实体类型是人物时,其对应的资源描述框架属性(RDFa)例如可以包括人物的出生日期、学习经历、工作经历和/或居住地等,其中,“出生日期”、“学习经历”、“工作经历”和“居住地”等词语可以用于描述资源描述框架属性(RDFa)的属性名称,并且,上述出生日期、学习经历、工作经历和/或居住地的具体内容就是相应的资源描述框架属性(RDFa)的属性值。
在现有的知识库(knowledge base)中,例如Freebase或DBPedia等本体库(ontology)中,每个网页都可以具有特定的实体类型,其中,Freebase中网页的topic即为实体类型,DBPedia中网页的concept即为实体类型;并且,不同的实体类型的资源描述框架属性(RDFa)和/或资源描述框架属性(RDFa)在页面中的组织形式可以不相同,例如,人物和公司所包含的资源描述框架属性(RDFa)就可以不同。
在本实施例中,可以由本体库来规定实体类型所对应的资源描述框架属性(RDFa),也就是说,在不同的本体库中,相同的实体类型可以对应不同的一组资源描述框架属性(RDFa)。例如,对于实体类型“人物”,在本体库DBPedia中规定了该实体类型对应的资源描述框架属性(RDFa)为“出生日期”和“工作经历”等;在本体库Freebase中,规定了该实体类型对应的资源描述框架属性(RDFa)为“出生日期”、“工作经历”、以及“是否结婚”等。在本实施例中,每个网页可以被表示为三元组项目<S,P,O>,其中,S、P、O分别为该网页的主语、谓语、宾语。对于现有的知识库(knowledge base)中与某个三元组项目相关的网页而言,主语S对应于该网页的实体类型,谓语P可以有多个,分别与该实体类型所包含的资源描述框架属性(RDFa)所对应,宾语O表示资源描述框架属性(RDFa)的值。
在本实施例的S101中,可以采用多种方法来识别网页的实体类型。例如,可以根据现有的知识库中的网页及其实体类型构建分类器,并使用该分类器对网页进行分类,以识别该网页的实体类型,其中,构建分类器的具体方法可以参考现有技术,本实施例不再赘述。
在本实施例的S102中,可以根据网页的视觉结构和该网页的实体类型中的资源描述框架属性(RDFa)所对应的谓语,将该网页划分为至少一个语义片断。该语义片段是该页面中相互分离的区块(block),每个语义片段具有单一的语义信息,例如,实体类型为人物的页面上,有的语义片断描述人物的工作经历、有的语义片段描述人物的论文发表情况等。
图2是本实施例1的实体网页的一个示意图,其中,该网页200的实体类型为人物,语义片断201-204分别对应相应的资源描述框架属性(RDFa),“王**”为该网页的主语S,“出生日期”、“学习经历”、“工作经历”和“居住地”等词语是该网页的谓语P,可以对应不同的资源描述框架属性(RDFa),其具体内容是宾语O,也是资源描述框架属性(RDFa)的属性值。
在本实施例中,该视觉结构例如可以是网页的文档对象模型树状(DocumentObject Model Tree,DOM Tree)结构。以下的说明将以此树状结构为例,但本实施例不限于此,还可以是其他的结构。
图3是本实施例1的将网页划分为语义片断的方法的一个流程示意图,如图3所示,该方法包括:
S301,识别该网页中的触发词;
S302,根据该触发词在该网页的树状结构中所处的第一节点的位置,以及该树状结构中与该第一节点处于同一层次的第二节点的位置,将该页面划分为至少一个语义片断。
在本实施例中,触发词可以用于描述资源描述框架属性(RDFa)的属性名称,并且用于引导资源描述框架属性的属性值,例如,图2所示的词语“学习经历”即为一个触发词。
图4是本实施例1的网页的树状结构的一个示意图,与图2的实体网页对应。如图4所示,该网页的树状结构具有多个层次的节点,其中,节点4011-4014处于同一层次,节点4021-4024是4014的子节点,4025和4026是4011的子节点,4031-4033是4026的子节点。
在本实施例的S301中,当把节电4011所对应的“工作经历”识别为网页中的触发词时,节点4011为第一节点,与节点4011处于同一层次的节点4012、4013和4014为第二节点。
在本实施例的上述步骤S302中,以第一节点和第二节点为划分的锚点,将该网页划分为4个语义片断,与图2的201-204对应。根据锚点对网页进行划分的具体方式可以参考现有技术,本申请实施例不再赘述。
图5是本实施例1的识别触发词的方法的一个流程示意图,如图5所示,该方法可以包括:
S501,根据实体类型中的资源描述框架属性(RDFa)所对应的谓语,提取包含该谓语的文本片断;
S502,从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。
在上述S501中,可以提取该网页的实体类型的资源描述框架属性(RDFa)所对应的多个谓语中的一个谓语,在该网页中提取包含该谓语的全部文本片断,得到文本片断的集合,例如,可以提取包含谓语“工作经历”的文本片断,例如,可以提取出图2的“工作经历”中的文本片断,也会提取出图2的“学习经历”中大学阶段的文本片断“……,还在学生会任职,有学生‘工作经历’”。
在上述S502中,可以在S501所获得的文本片断的集合中,识别出将该谓语作为触发词的文本片断,进而确定该触发词在该网页的树状结构中所处的节点。
在本实施例中,例如可以根据采用传统的机器学习算法所构建的分类器,来识别触发词。构建该分类器的方法可以参考现有技术,例如,可以根据触发词的特征来构建该分类器,该触发词的特征例如可以包括:作为触发词的谓语所在的文本片段的长度、作为触发词的谓语所在节点的儿子节点的个数、以及儿子节点是否都包含文本区域、儿子节点所限定的文本区域是否包含描述属性值的词汇等。
例如,对图2而言,“工作经历”一栏中的“工作经历”一词可以被识别为触发词,而“学习经历”中出现的“工作经历”不能被识别为触发词。
在本实施例的S102中,在将实体网页划分为语义片断时,不仅考虑该网页的视觉结构,还考虑该网页的谓语,因此,能够更为准确地划分语义片断。
在本实施例的S103中,根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定该网页中每个语义片段所对应的资源描述框架属性(RDFa)。
在本实施例的S104中,可以将所确定的资源描述框架属性(RDFa)、该页面的实体类型、以及包含主语的文本等进行合成,以生成超文本标记语言(HTML)语句,嵌入到该网页的原始的超文本标记语言(HTML)页面上。
在本实施例中,步骤S103所涉及的预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,可以基于网页检索所获得的训练网页来确定。
图6是本申请实施例1的预先确定语义片段与资源描述框架属性(RDFa)的对应关系的方法的一个流程图。如图6所示,该方法可以包括:
S601,检索与知识库中的主语相关的网页,作为训练网页;
S602,识别每一个训练网页的实体类型,并将每一个训练网页都划分为至少一个语义片断;
S603,根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;
S604,根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性(RDFa)的对应关系,生成语义片段与资源描述框架属性(RDFa)的对应关系。
在上述S601中,可以对知识库中的任意一个主语S,在互联网的所有网页中检索与该主语S相关的网页,作为训练网页。
图7是本实施例1的检索得到训练网页的方法的一个流程示意图,如图7所示,该方法可以包括:
S701,生成与该主语相关的查询语句集合;
S702,根据该查询语句集合进行检索,以得到检索网页集合;
S703,过滤该检索网页集合中的噪声网页,得到所述训练网页。
在本实施例的S701中,可以从知识库的网页中提取包含该主语S的三元组集合<S,P,O>,根据该三元组集合构造查询语句集合,其中,每个查询语句可以包含该主语S和任意N个不同的谓语P,N为自然数。
在本实施例的S702中,可以利用搜索引擎,根据查询语句集合,在互联网的所有网页中或部分网页中进行检索,以得到检索网页集合。其中,对于每一个查询语句,可以保留M个最相关的检索网页,M为自然数。
在本实施例的S703中,可以根据网页的特征来设定量化的特征函数,并结合机器学习算法,来过滤噪声网页。其中,该网页的特征例如可以包括:是否在页面顶端提及主语,页面内是否含有主语相关的谓语提及,页面内是否含有主语相关的宾语提及,以及页面内所包含的知识库中完整的三元组的个数等。在本实施例中,过滤噪声网页的算法例如可以是主页识别、消歧等现有的算法,但本实施例并不限于此,也可以是其它的算法。
经过步骤S703过滤后所剩余的网页,可以作为训练网页,用于S602-S604。
在S602中,识别每个训练网页的实体类型并将其划分为语义片断,具体的识别实体类型的方法和划分语义片断的方法可以参考上述对S101和S102的说明,此处不再赘述。
在S603中,可以提取每个语义片断中的谓语,并形成一系列<谓语,谓语所在的语义片断的特征词>二值对,进而,根据上述的一系列<谓语,谓语所在的语义片断的特征词>二值对来构造指示特定谓语的分类器,即,生成语义片断与该语义片断中包含的谓语的对应关系。
在S604中,可以根据S603中所生成的语义片断与谓语的对应关系,以及谓语与资源描述框架属性(RDFa)的对应关系,生成语义片段与资源描述框架属性(RDFa)的对应关系。
在本实施例中,谓语与资源描述框架属性(RDFa)的对应关系可以是预先定义的,例如,可以根据知识库中的网页来预先定义。
在本实施例中,基于网页检索所获得的训练网页来确定语义片段与资源描述框架属性(RDFa)的对应关系,并根据该对应关系确定实体网页中各语义片的资源描述框架属性(RDFa),由此,无需对训练网页进行预先的人工标注就能够对实体网页进行准确地进行RDFa语义标注,从而节省时间和人力,并且具有良好的扩展性;并且,根据网页的视觉结构和该网页的谓语,将实体网页划分为语义片断时,因此,能够更为准确地划分语义片断。
实施例2
本申请实施例2提供一种网页处理装置,用于在实体网页中嵌入资源描述框架属性,对应于实施例1的网页处理方法。
图8是本申请实施例2的网页处理装置的一个组成结构示意图,如图8所示,该网页处理装置800包括第一识别单元801、第一划分单元802、第一确定单元803、以及嵌入单元804。
其中,第一识别单元801用于识别网页的实体类型(entity type);第一划分单元802基于该网页的视觉结构(visual structure)以及实体类型,将该网页划分为至少一个语义片段(semantic fragment);第一确定单元803根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定该网页中每个语义片段所对应的所述实体类型中的资源描述框架属性(RDFa),其中,所述对应关系是基于网页检索所获得的训练网页而确定的;嵌入单元804用于所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。
图9是实施例2的第一划分单元802的一个组成结构示意图,如图9所示,该第一划分单元802可以包括第二识别单元901和第二划分单元902,其中,第二识别单元901用于识别所述网页中的触发词;第二划分单元902根据该触发词在所述网页的树状结构中所处的第一节点的位置,以及所述树状结构中与所述第一节点处于同一层次的第二节点的位置,将所述页面划分为至少一个语义片断。
图10是实施例2的第二识别单元的一个组成结构示意图,如图10所示,该第二识别单元901可以包括提取单元1001和第三识别单元1002,其中,提取单元1001根据实体类型中的资源描述框架属性(RDFa)所对应的谓语,提取包含该谓语的文本片断;第三识别单元1002用于从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。
在本实施例中,如图8所示,该网页处理装置800还可以包括第二确定单元805,用于确定语义片段与资源描述框架属性(RDFa)的对应关系。
图11是本实施例2的第二确定单元的一个组成结构示意图,如图11所示,该第二确定单元805可以包括检索单元1101、第四识别单元1102、第三划分单元1103、第一生成单元1104和第二生成单元1105。
其中,检索单元1101用于检索与知识库中的主语相关的网页,作为训练网页;第四识别单元1102用于识别每一个训练网页的实体类型;第三划分单元1103用于将每一个训练网页都划分为至少一个语义片断;第一生成单元1104用于根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;第二生成单元1105用于根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性(RDFa)的对应关系,生成语义片段与资源描述框架属性(RDFa)的对应关系。
在本实施例中,第四识别单元1102可以和第一识别单元801具有相同的结构和功能,因此,也可以不单独设置第四识别单元1102,而是使用第一识别单元801来实现第四识别单元1102的功能,由此,可以使该装置的结构更简单。
在本实施例中,第三划分单元1103可以和第一划分单元802具有相同的结构和功能,因此,也可以不单独设置第三划分单元1103,而是使用第一划分单元802来实现第三划分单元1103的功能,由此,可以使该装置的结构更简单。
图12是本实施例2的检索单元的一个组成结构示意图,如图12所示,该检索单元1101可以包括第三生成单元1201、检索子单元1202、以及过滤单元1203,其中,第三生成单元1201用于生成与主语相关的查询语句集合;检索子单元1202用于根据所述查询语句集合进行检索,以得到检索网页集合;过滤单元1203用于过滤所述检索网页集合中的噪声网页,得到所述训练网页。
在本实施例中,关于该网页处理装置的各单元的说明,可以参考实施例1中对于各步骤的说明,本实施例不再赘述。
根据本实施例的网页处理装置,能够基于网页检索所获得的训练网页来确定语义片段与资源描述框架属性(RDFa)的对应关系,并根据该对应关系确定实体网页中各语义片的资源描述框架属性(RDFa),由此,无需对训练网页进行预先的人工标注就能够对实体网页进行准确地进行RDFa语义标注,从而节省时间和人力,并且具有良好的扩展性;并且,根据网页的视觉结构和该网页的谓语,将实体网页划分为语义片断时,因此,能够更为准确地划分语义片断。
本申请实施例还提供一种计算机可读程序,其中当在信息处理装置或用户设备中执行所述程序时,所述程序使得计算机在所述信息处理装置或用户设备中执行实施例1所述的网页处理方法。
本申请实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在信息处理装置或用户设备中执行实施例1所述的网页处理方法。
本申请实施例还提供一种计算机可读程序,其中当在信息处理装置或基站中执行所述程序时,所述程序使得计算机在所述信息处理装置或基站中执行实施例1所述的网页处理方法。
本申请实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在信息处理装置或基站中执行实施例1所述的网页处理方法。
本申请以上的装置和方法可以由硬件实现,也可以由硬件结合软件实现。本申请涉及这样的计算机可读程序,当该程序被逻辑部件所执行时,能够使该逻辑部件实现上文所述的装置或构成部件,或使该逻辑部件实现上文所述的各种方法或步骤。本申请还涉及用于存储以上程序的存储介质,如硬盘、磁盘、光盘、DVD、flash存储器等。
以上结合具体的实施方式对本申请进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的精神和原理对本申请做出各种变型和修改,这些变型和修改也在本申请的范围内。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1、一种网页处理装置,用于在实体网页中嵌入资源描述框架属性(ResourceDescription Framework attribute,RDFa),该装置包括:
第一识别单元,其用于识别网页的实体类型(entity type),所述实体类型对应至少一个资源描述框架属性(RDFa);
第一划分单元,其基于所述网页的视觉结构(visual structure)以及所述实体类型,将所述网页划分为至少一个语义片段(semantic fragment);
第一确定单元,根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性(RDFa),其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及
嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。
附记2、如附记1所述的网页处理装置,其中,所述第一划分单元包括:
第二识别单元,其用于识别所述网页中的触发词;
第二划分单元,其根据该触发词在所述网页的树状结构中所处的第一节点的位置,以及所述树状结构中与所述第一节点处于同一层次的第二节点的位置,将所述页面划分为至少一个语义片断,
其中,所述触发词用于描述所述资源描述框架属性的属性名称,并且用于引导所述资源描述框架属性的属性值。
附记3、如附记2所述的网页处理装置,其中,所述第二识别单元包括:
提取单元,其根据所述实体类型的资源描述框架属性(RDFa)所对应的谓语,提取包含该谓语的文本片断;
第三识别单元,其用于从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。
附记4、如附记1所述的网页处理装置,其中,所述装置还包括第二确定单元,其用于确定语义片段与资源描述框架属性(RDFa)的对应关系。
附记5、如附记4所述的网页处理装置,其中,所述第二确定单元包括:
检索单元,其用于检索与知识库中的主语相关的网页,作为训练网页;
第四识别单元,其用于识别每一个训练网页的实体类型;
第三划分单元,其用于将每一个训练网页都划分为至少一个语义片断;
第一生成单元,其用于根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;
第二生成单元,其用于根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性(RDFa)的对应关系,生成语义片段与资源描述框架属性(RDFa)的对应关系。
附记6、如附记5所述的网页处理方法,其中,所述检索单元包括;
第三生成单元,其用于生成与所述主语相关的查询语句集合;
检索子单元,其用于根据所述查询语句集合进行检索,以得到检索网页集合;
过滤单元,其用于过滤所述检索网页集合中的噪声网页,得到所述训练网页。
附记7、一种网页处理方法,用于在实体网页中嵌入资源描述框架属性(ResourceDescription Framework attribute,RDFa),该方法包括:
识别网页的实体类型(entity type),所述实体类型对应至少一个资源描述框架属性(RDFa);
基于所述网页的视觉结构(visual structure)以及所述实体类型,将所述网页划分为至少一个语义片段(semantic fragment);
根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性(RDFa),其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及
在所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。
附记8、如附记7所述的网页处理方法,其中,将所述网页划分为至少一个语义片段包括:
识别所述网页中的触发词;
根据该触发词在所述网页的树状结构中所处的第一节点的位置,以及所述树状结构中与所述第一节点处于同一层次的第二节点的位置,将所述页面划分为至少一个语义片断,
其中,所述触发词用于描述所述资源描述框架属性的属性名称,并且用于引导所述资源描述框架属性的属性值。
附记9、如附记8所述的网页处理方法,其中,识别所述网页中的触发词包括:
根据所述实体类型的资源描述框架属性(RDFa)所对应的谓语,提取包含该谓语的文本片断;
从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。
附记10、如附记7所述的网页处理方法,其中,预先确定语义片段与资源描述框架属性(RDFa)的对应关系包括:
检索与知识库中的主语相关的网页,作为训练网页;
识别每一个训练网页的实体类型,并将每一个训练网页都划分为至少一个语义片断;
根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;
根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性(RDFa)的对应关系,生成语义片段与资源描述框架属性(RDFa)的对应关系。
附记11、如附记10所述的网页处理方法,其中,检索与知识库中的主语相关的网页,作为训练网页包括;
生成与所述主语相关的查询语句集合;
根据所述查询语句集合进行检索,以得到检索网页集合;
过滤所述检索网页集合中的噪声网页,得到所述训练网页。

Claims (10)

1.一种网页处理装置,用于在实体网页中嵌入资源描述框架属性,该装置包括:
第一识别单元,其用于识别网页的实体类型,所述实体类型对应至少一个资源描述框架属性;
第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;
第一确定单元,根据预先确定的语义片段与资源描述框架属性的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及
嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的资源描述框架属性。
2.如权利要求1所述的网页处理装置,其中,所述第一划分单元包括:
第二识别单元,其用于识别所述网页中的触发词;其中,所述触发词用于描述所述实体类型对应的资源描述框架属性的属性名称,并且用于引导所述实体类型对应的资源描述框架属性的属性值;
第二划分单元,其根据该触发词在所述网页的树状结构中所处的第一节点的位置,以及所述树状结构中与所述第一节点处于同一层次的第二节点的位置,将所述页面划分为至少一个语义片断。
3.如权利要求2所述的网页处理装置,其中,所述第二识别单元包括:
提取单元,其根据所述实体类型中的资源描述框架属性所对应的谓语,提取包含该谓语的文本片断;
第三识别单元,其用于从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。
4.如权利要求1所述的网页处理装置,其中,所述装置还包括第二确定单元,其用于确定语义片段与资源描述框架属性的对应关系。
5.如权利要求4所述的网页处理装置,其中,所述第二确定单元包括:
检索单元,其用于检索与知识库中的主语相关的网页,作为所述训练网页;
第四识别单元,其用于识别每一个训练网页的实体类型;
第三划分单元,其用于将每一个训练网页都划分为至少一个语义片断;
第一生成单元,其用于根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;
第二生成单元,其用于根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性的对应关系,生成所述语义片段与资源描述框架属性的对应关系。
6.如权利要求5所述的网页处理方法,其中,所述检索单元包括;
第三生成单元,其用于生成与所述主语相关的查询语句集合;
检索子单元,其用于根据所述查询语句集合进行检索,以得到检索网页集合;
过滤单元,其用于过滤所述检索网页集合中的噪声网页,得到所述训练网页。
7.一种网页处理方法,用于在实体网页中嵌入资源描述框架属性,该方法包括:
识别网页的实体类型,所述实体类型对应至少一个资源描述框架属性;
基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;
根据预先确定的语义片段与资源描述框架属性的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及
在所述网页的每个语义片段中嵌入对应的资源描述框架属性。
8.如权利要求7所述的网页处理方法,其中,将所述网页划分为至少一个语义片段包括:
识别所述网页中的触发词,其中,所述触发词用于描述所述实体类型所对应的资源描述框架属性的属性名称,并且用于引导所述实体类型中的资源描述框架属性的属性值;以及
根据该触发词在所述网页的树状结构中所处的第一节点的位置,以及所述树状结构中与所述第一节点处于同一层次的第二节点的位置,将所述页面划分为至少一个语义片断。
9.如权利要求8所述的网页处理方法,其中,识别所述网页中的触发词包括:
根据所述实体类型中的资源描述框架属性所对应的谓语,提取包含该谓语的文本片断;以及
从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。
10.如权利要求7所述的网页处理方法,其中,预先确定语义片段与资源描述框架属性的对应关系包括:
检索与知识库中的主语相关的网页,作为所述训练网页;
识别每一个训练网页的实体类型,并将每一个训练网页都划分为至少一个语义片断;
根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;
根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性的对应关系,生成所述语义片段与资源描述框架属性的对应关系。
CN201510172386.9A 2015-04-13 2015-04-13 网页处理装置和网页处理方法 Pending CN106156143A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510172386.9A CN106156143A (zh) 2015-04-13 2015-04-13 网页处理装置和网页处理方法
JP2016078718A JP2016201112A (ja) 2015-04-13 2016-04-11 ウェブページ処理装置及びウェブページ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510172386.9A CN106156143A (zh) 2015-04-13 2015-04-13 网页处理装置和网页处理方法

Publications (1)

Publication Number Publication Date
CN106156143A true CN106156143A (zh) 2016-11-23

Family

ID=57336692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510172386.9A Pending CN106156143A (zh) 2015-04-13 2015-04-13 网页处理装置和网页处理方法

Country Status (2)

Country Link
JP (1) JP2016201112A (zh)
CN (1) CN106156143A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694208A (zh) * 2017-04-11 2018-10-23 富士通株式会社 用于构造数据库的方法和装置
CN108694206A (zh) * 2017-04-11 2018-10-23 富士通株式会社 信息处理方法和装置
CN109344187A (zh) * 2018-08-28 2019-02-15 合肥工业大学 一种司法判决书案情信息结构化处理系统
CN110728148A (zh) * 2018-06-29 2020-01-24 富士通株式会社 实体关系抽取方法和装置
CN112989766A (zh) * 2021-05-11 2021-06-18 金锐同创(北京)科技股份有限公司 文档标注信息的处理方法、装置及终端设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339457B (zh) * 2018-12-18 2023-09-08 富士通株式会社 用于从网页抽取信息的方法和设备及存储介质
CN110175020B (zh) * 2019-04-10 2023-08-22 创新先进技术有限公司 框架属性信息扩展方法和装置、框架加载方法和装置
CN111506844B (zh) * 2020-04-08 2023-07-14 聚好看科技股份有限公司 页面处理方法、设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526898A (zh) * 2009-04-17 2009-09-09 武汉大学 面向语义Web服务程序设计的语义数据表示和处理方法
CN102332013A (zh) * 2011-09-14 2012-01-25 王楠 基于owl的互联网语言本体学习系统
CN102567314A (zh) * 2010-12-07 2012-07-11 中国电信股份有限公司 知识查询装置和方法
CN102779161A (zh) * 2012-06-14 2012-11-14 杜小勇 基于rdf知识库的语义标注方法
CN103970820A (zh) * 2014-01-23 2014-08-06 河海大学 Web多媒体资源开放标注数据的可视化方法及装置
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526898A (zh) * 2009-04-17 2009-09-09 武汉大学 面向语义Web服务程序设计的语义数据表示和处理方法
CN102567314A (zh) * 2010-12-07 2012-07-11 中国电信股份有限公司 知识查询装置和方法
CN102332013A (zh) * 2011-09-14 2012-01-25 王楠 基于owl的互联网语言本体学习系统
CN102779161A (zh) * 2012-06-14 2012-11-14 杜小勇 基于rdf知识库的语义标注方法
CN103970820A (zh) * 2014-01-23 2014-08-06 河海大学 Web多媒体资源开放标注数据的可视化方法及装置
CN104239513A (zh) * 2014-09-16 2014-12-24 西安电子科技大学 一种面向领域数据的语义检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
荆涛: ""面向领域网页的语义标注若干问题研究"", 《中国博士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694208A (zh) * 2017-04-11 2018-10-23 富士通株式会社 用于构造数据库的方法和装置
CN108694206A (zh) * 2017-04-11 2018-10-23 富士通株式会社 信息处理方法和装置
CN110728148A (zh) * 2018-06-29 2020-01-24 富士通株式会社 实体关系抽取方法和装置
CN110728148B (zh) * 2018-06-29 2023-07-14 富士通株式会社 实体关系抽取方法和装置
CN109344187A (zh) * 2018-08-28 2019-02-15 合肥工业大学 一种司法判决书案情信息结构化处理系统
CN109344187B (zh) * 2018-08-28 2021-11-12 合肥工业大学 一种司法判决书案情信息结构化处理系统
CN112989766A (zh) * 2021-05-11 2021-06-18 金锐同创(北京)科技股份有限公司 文档标注信息的处理方法、装置及终端设备

Also Published As

Publication number Publication date
JP2016201112A (ja) 2016-12-01

Similar Documents

Publication Publication Date Title
CN106156143A (zh) 网页处理装置和网页处理方法
CN108376160B (zh) 一种中文知识图谱构建方法和系统
Chen et al. Websrc: A dataset for web-based structural reading comprehension
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN104679728B (zh) 一种文本相似度检测方法
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
TWI695277B (zh) 自動化網站資料蒐集方法
CN102262634B (zh) 一种自动问答方法及系统
CN109145153A (zh) 意图类别的识别方法和装置
CN104933164A (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
CN101887443A (zh) 一种文本的分类方法及装置
CN105718585B (zh) 文档与标签词语义关联方法及其装置
GB2555207A (en) System and method for identifying passages in electronic documents
CN111143521A (zh) 基于知识图谱的法条检索方法、系统、装置及存储介质
CN104008180A (zh) 结构化数据与图片的关联方法与关联装置
CN109472022A (zh) 基于机器学习的新词识别方法及终端设备
CN111199151A (zh) 数据处理方法、及数据处理装置
CN105740310A (zh) 一种用于问答系统中的自动答案摘要方法及系统
CN106294398A (zh) 信息处理装置和信息处理方法
CN103257975A (zh) 一种搜索方法、装置及系统
CN113901783B (zh) 面向领域的文档查重方法及系统
CN105159885A (zh) 一种兴趣点名称的识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161123