CN106126710B - 确定不同网页中的实体一致性的方法及装置 - Google Patents

确定不同网页中的实体一致性的方法及装置 Download PDF

Info

Publication number
CN106126710B
CN106126710B CN201610509364.1A CN201610509364A CN106126710B CN 106126710 B CN106126710 B CN 106126710B CN 201610509364 A CN201610509364 A CN 201610509364A CN 106126710 B CN106126710 B CN 106126710B
Authority
CN
China
Prior art keywords
entity data
webpage
entity
encyclopedic
category information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610509364.1A
Other languages
English (en)
Other versions
CN106126710A (zh
Inventor
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201610509364.1A priority Critical patent/CN106126710B/zh
Publication of CN106126710A publication Critical patent/CN106126710A/zh
Application granted granted Critical
Publication of CN106126710B publication Critical patent/CN106126710B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种确定不同网页中的实体一致性的方法及装置。该方法包括:提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据;获取待判断的第一实体名称对应的百科网页;基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致。本发明实施例基于至少一个关联实体数据能够简单、准确地判断出百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是否一致。

Description

确定不同网页中的实体一致性的方法及装置
技术领域
本发明涉及互联网应用技术领域,特别是一种确定不同网页中的实体一致性的方法及装置。
背景技术
知识图谱,旨在描述真实世界中存在的各种实体,实体可以是现实中一个事物,也可以是一个概念等。比如,一个公司就是一个实体,一个术语也是一个实体,等等。每个实体用一个全局唯一确定的ID(Identity,身份标识号)来标识。每个属性-属性值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的网状图,网状图中的节点表示实体,而网状图中的边则由属性或关系构成。知识图谱主要就是构建和维护上述的实体和关系,可以为搜索中的推荐系统、语义理解、问题回答等提供支持。此外,知识图谱并不是一张静态的网状图,它会根据外界的变化进行自我调整与更新。
在知识图谱领域,面临实体对齐的问题,即,从不同网页中抽取的实体,如何判断这些实体是否是同一个,或者这些实体是否具有相同或相近的含义。比如,从网页http://movie.douban.com/subject/24751756/中抽取的实体中有一个名为“冯小刚”的实体,从网页http://baike.baidu.com/view/1678.htm中抽取的实体中也有一个名为“冯小刚”的实体。如何判断这两个“冯小刚”指的是同一个实体呢,目前亟待解决这一技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定不同网页中的实体一致性的方法及相应的装置。
依据本发明的一方面,提供了一种确定不同网页中的实体一致性的方法,包括:
提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据;
获取待判断的第一实体名称对应的百科网页;
基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致。
可选地,基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致,包括:
判断所述百科网页中是否包含所述至少一个关联实体数据;以及
若是,则确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是一致的。
可选地,判断所述百科网页中是否包含所述至少一个关联实体数据,包括:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符;以及
若存在,则确定所述百科网页中包含该关联实体数据。
可选地,判断所述百科网页中是否包含所述至少一个关联实体数据,包括:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据是否存在超链接;以及
若存在,则确定所述百科网页中包含该关联实体数据。
可选地,提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据,包括:
从资源站点的网页中提取出包含类别信息的第一实体数据;
基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据。
可选地,基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据,包括:
确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息;
利用所述至少一个关联类别信息,从所述资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据。
可选地,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息,包括:
确定所述资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取实体数据的一个或多个类别信息字段;
基于所述一个或多个类别信息字段,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息。
可选地,获取待判断的第一实体名称对应的百科网页,包括:
将所述待判断的第一实体名称与百科库中的百科词条进行匹配,得到匹配的百科词条;
获取所述匹配的百科词条对应的百科网页。
可选地,所述方法还包括:
将所述第一实体数据对应的实体名称作为所述待判断的第一实体名称。
依据本发明的另一方面,还提供了一种确定不同网页中的实体一致性的装置,包括:
提取模块,适于提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据;
获取模块,适于获取待判断的第一实体名称对应的百科网页;
确定模块,适于基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致。
可选地,所述确定模块还适于:
判断所述百科网页中是否包含所述至少一个关联实体数据;以及
若是,则确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是一致的。
可选地,所述确定模块还适于:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符;以及
若存在,则确定所述百科网页中包含该关联实体数据。
可选地,所述确定模块还适于:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据是否存在超链接;以及
若存在,则确定所述百科网页中包含该关联实体数据。
可选地,所述提取模块还适于:
从资源站点的网页中提取出包含类别信息的第一实体数据;
基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据。
可选地,所述提取模块还适于:
确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息;
利用所述至少一个关联类别信息,从所述资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据。
可选地,所述提取模块还适于:
确定所述资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取实体数据的一个或多个类别信息字段;
基于所述一个或多个类别信息字段,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息。
可选地,所述获取模块还适于:
将所述待判断的第一实体名称与百科库中的百科词条进行匹配,得到匹配的百科词条;
获取所述匹配的百科词条对应的百科网页。
可选地,所述获取模块还适于:
将所述第一实体数据对应的实体名称作为所述待判断的第一实体名称。
在本发明实施例中,提取资源站点的网页中的第一实体数据以及与第一实体数据相关联的至少一个关联实体数据,获取待判断的第一实体名称对应的百科网页。随后,基于至少一个关联实体数据,确定百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是否一致。由于至少一个关联实体数据是资源站点的网页中的数据,且与第一实体数据相关联,因而本发明实施例基于至少一个关联实体数据能够判断出百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是否一致。
进一步地,如果百科网页中也包含至少一个关联实体数据,则说明待判断的第一实体名称与第一实体数据相关联的实体很多是相同的,则它们是同一个实体的概率很大,可以确定两个实体是一致的。并且,本发明实施例可以直接在百科网页中查找匹配是否包含至少一个关联实体数据,无需从百科网页中提取与待判断的第一实体名称相关联的实体,然后去判断其中是否包括至少一个关联实体数据,判断的效率高、准确性也高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一实施例的确定不同网页中的实体一致性的方法的流程图;以及
图2示出了根据本发明一实施例的确定不同网页中的实体一致性的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种确定不同网页中的实体一致性的方法。图1示出了根据本发明一实施例的确定不同网页中的实体一致性的方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S106:
步骤S102,提取资源站点的网页中的第一实体数据以及与第一实体数据相关联的至少一个关联实体数据;
步骤S104,获取待判断的第一实体名称对应的百科网页;
步骤S106,基于至少一个关联实体数据,确定百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是否一致。
在该步骤中,待判断的第一实体名称与第一实体数据是否一致可以是指这两个实体是否是同一个,或者这两个实体是否具有相同或相近的含义。
在本发明实施例中,提取资源站点的网页中的第一实体数据以及与第一实体数据相关联的至少一个关联实体数据,获取待判断的第一实体名称对应的百科网页。随后,基于至少一个关联实体数据,确定百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是否一致。由于至少一个关联实体数据是资源站点的网页中的数据,且与第一实体数据相关联,因而本发明实施例基于至少一个关联实体数据能够判断出百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是否一致。
上文步骤S102中提及的资源站点可以是提供某些特定领域的资源数据的站点,这些站点提供了有关这个领域的全部深度信息或者相关服务。例如,资源站点“豆瓣电影”提供了影视信息、用户评论等资源数据;资源站点“读书”提供了图书详情、书榜、书评等资源数据,等等,本发明不限于此。
在本发明的可选实施例中,步骤S102从资源站点的网页中提取的第一实体数据可以是网页中的任意实体数据,也可以是具有类别信息的实体数据,等等,本发明不限于此。
若第一实体数据是网页中的任意实体数据,则本发明实施例可以从资源站点的网页中提取多个实体数据,并从多个实体数据中选取任意实体数据,进而确定与该任意实体数据相关联的至少一个关联实体数据。例如,从资源站点“豆瓣电影”的网页http://movie.douban.com/subject/24751756/中可以提取出如下表1的实体数据,在表1中,实体数据可以包括实体类别和实体名称。另外,表1最后一行的省略号表示还有其他实体数据,这里未全部示出。
表1
实体类别 实体名称
电影 老炮儿
导演 管虎
编剧 管虎、董润年
主演 冯小刚、许晴、张涵予、刘桦、李易峰、吴亦凡、梁静等
...... ......
从表1中选取第一实体数据“冯小刚”,并且挖掘出第一实体数据“冯小刚”相关联的至少一个关联实体数据,如“老炮儿”、“管虎”、“董润年”、“许晴”、“张涵予”、“刘桦”、“李易峰”、“吴亦凡”、“梁静”等。在这些关联实体数据中,因为网页http://movie.douban.com/subject/24751756/中主要在介绍的是《老炮儿》,处于标题位置,因而可以在至少一个关联实体数据中将“老炮儿”排序在最前面。需要说明的是,此处举例仅是示意的,并不对本发明进行限制。
若第一实体数据是具有类别信息的实体数据,则本发明实施例首先从资源站点的网页中提取出包含类别信息的第一实体数据,进而基于第一实体数据的类别信息,从资源站点的网页中提取与第一实体数据相关联的至少一个关联实体数据。
进一步地,在基于第一实体数据的类别信息,从资源站点的网页中提取与第一实体数据相关联的至少一个关联实体数据时,本发明实施例提供了一种可选的方案,即,确定与第一实体数据的类别信息相关联的至少一个关联类别信息,随后利用至少一个关联类别信息,从资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据。
举例来说,仍然以上述资源站点“豆瓣电影”为例,从资源站点“豆瓣电影”的网页http://movie.douban.com/subject/24751756/中提取出包含类别信息的第一实体数据,即主演“冯小刚”,进而基于“冯小刚”的类别信息“主演”,确定与“主演”相关联的至少一个关联类别信息,如“电影”、“导演”、“编剧”、“主演”等。随后,利用至少一个关联类别信息,从资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据,即将“电影”对应的字段值“老炮儿”、“导演”对应的字段值“管虎”、“编剧”对应的字段值“管虎、董润年”、“主演”对应的字段值“许晴、张涵予、刘桦、李易峰、吴亦凡、梁静”等作为关联实体数据。
在本发明的可选实施例中,确定与第一实体数据的类别信息相关联的至少一个关联类别信息,可以确定资源站点的网页的资源类别,根据资源站点的网页的资源类别,确定用于提取实体数据的一个或多个类别信息字段。进而基于一个或多个类别信息字段,确定与第一实体数据的类别信息相关联的至少一个关联类别信息。以上述举例为例,确定资源站点“豆瓣电影”的网页的资源类别为电影,进而确定一个或多个类别信息字段为“电影”、“导演”、“编剧”、“主演”、“类型”等,从而确定与第一实体数据“冯小刚”的类别信息“主演”相关联的至少一个关联类别信息为“电影”、“导演”、“编剧”、“主演”等。
上文步骤S104中获取待判断的第一实体名称对应的百科网页,本发明实施例提供了一种可选的方案,即,将待判断的第一实体名称与百科库中的百科词条进行匹配,得到匹配的百科词条,进而获取匹配的百科词条对应的百科网页。这里,可以直接将第一实体数据对应的实体名称作为待判断的第一实体名称。例如,将第一实体数据“冯小刚”对应的实体名称“冯小刚”作为待判断的第一实体名称,获取到待判断的第一实体名称“冯小刚”的百科网页http://baike.baidu.com/view/1678.htm。接下来,上文步骤S106需要确定百科网页http://baike.baidu.com/view/1678.htm中的“冯小刚”与资源站点“豆瓣电影”的网页http://movie.douban.com/subject/24751756/中的“冯小刚”是不是同一个,或者两个实体是否具有相同或相近的含义。
在本发明的可选实施例中,如果百科网页中也包含至少一个关联实体数据,则说明待判断的第一实体名称与第一实体数据相关联的实体很多是相同的,则它们是同一个实体的概率很大,可以确定两个实体是一致的。即,本发明实施例提供了一种可选地实施上文步骤S106的方案,在该方案中,可以判断百科网页中是否包含至少一个关联实体数据,若是,则确定百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是一致的。反之,若百科网页中不包含至少一个关联实体数据中的任一关联实体数据,则可以确定百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是不一致的。
进一步地,本发明实施例可以通过分隔符或者超链关系来判断百科网页中是否包含至少一个关联实体数据,下面将分别进行详细介绍。
方式一,通过分隔符关系来判断。即,在百科网页中查找至少一个关联实体数据,若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符;若存在,则确定百科网页中包含该关联实体数据。这里,指定的分隔符可以是竖杠、斜杠、括号、书名号、空格等,本发明不限于此。
方式二,通过超链关系来判断。即,在百科网页中查找至少一个关联实体数据,若查找到,则进一步判断查找到的关联实体数据是否存在超链接;若存在,则确定百科网页中包含该关联实体数据。通常,在百科网页中,触发某个数据的超链接可以直接链接至该数据对应的百科网页。
以上方式一或方式二分别介绍了如何判断百科网页中是否包含至少一个关联实体数据,在实际应用中,也可以采用上述方式一和方式二结合的方式来判断百科网页中是否包含至少一个关联实体数据。即,在百科网页中查找至少一个关联实体数据,若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符;若查找到的关联实体数据的左右存在指定的分隔符,继续判断查找到的关联实体数据是否存在超链接;若查找到的关联实体数据存在超链接,则确定百科网页中包含该关联实体数据。由此可见,本发明实施例可以直接在百科网页中查找匹配是否包含至少一个关联实体数据,无需从百科网页中提取与待判断的第一实体名称相关联的实体,然后去判断其中是否包括至少一个关联实体数据,判断的效率高、准确性也高。
下面通过一具体实施例详细介绍本发明的确定不同网页中的实体一致性的方法的实现过程。
如前文所述,根据资源站点的网页的结构,首先可以从资源站点“豆瓣电影”的网页http://movie.douban.com/subject/24751756/中提取第一实体数据,如“冯小刚”以及与其相关联的至少一个关联实体数据,如“老炮儿”、“管虎”、“董润年”、“许晴”、“张涵予”、“刘桦”、“李易峰”、“吴亦凡”、“梁静”等。在这些关联实体数据中,因为上述网页中主要在介绍的是《老炮儿》,处于标题位置,因而可以在至少一个关联实体数据中将“老炮儿”排序在最前面。
其次,获取待判断的第一实体名称“冯小刚”对应的百科网页http://baike.baidu.com/view/1678.htm,接下来要确定百科网页中介绍的“冯小刚”与资源站点“豆瓣电影”的网页中的“冯小刚”是不是同一个,或者两个实体是否具有相同或相近的含义。
接下来,判断百科网页中是否包含至少一个关联实体数据(如“老炮儿”、“管虎”、“董润年”、“许晴”、“张涵予”、“刘桦”、“李易峰”、“吴亦凡”、“梁静”等),若百科网页中包含至少一个关联实体数据,则确定百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是一致的。
比如,百科网页http://baike.baidu.com/view/1678.htm中包含了关联实体数据“老炮儿”,左右有分隔符“《”和“》”,另外也是一个超链(对应的url为http://baike.baidu.com/subview/10701921/16783450.htm)。另外,也包含关联实体数据“管虎”和“许晴”,这些实体左右分隔符为空格,并且同时为超链。
因为百科网页http://baike.baidu.com/view/1678.htm中包含了与从网页http://movie.douban.com/subject/24751756/中提取的实体“冯小刚”的相关联的实体,所以可以判断出百科网页http://movie.douban.com/subject/24751756/中所说的实体“冯小刚”和网页http://baike.baidu.com/view/1678.htm中所说的实体“冯小刚”是同一个实体。
本发明实施例可以直接在百科网页中查找匹配是否包含至少一个关联实体数据,无需从百科网页中提取与待判断的第一实体名称相关联的实体,然后去判断其中是否包括至少一个关联实体数据,判断的效率高、准确性也高。
需要说明的是,在实际应用中,上述所有可选实施方式可以采用结合的方式任意组合,形成本发明的可选实施例,在此不再一一赘述。
基于上文各个实施例提供的确定不同网页中的实体一致性的方法,基于同一发明构思,本发明实施例还提供了一种确定不同网页中的实体一致性的装置。图2示出了根据本发明一实施例的确定不同网页中的实体一致性的装置的结构示意图。如图2所示,该装置至少可以包括提取模块210、获取模块220以及确定模块230。
现介绍本发明实施例的确定不同网页中的实体一致性的装置的结构示意图装置的各组成或器件的功能以及各部分间的连接关系:
提取模块210,适于提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据;
获取模块220,与提取模块210相耦合,适于获取待判断的第一实体名称对应的百科网页;
确定模块230,与获取模块220相耦合,适于基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致。
在本发明一实施例中,上述确定模块230还适于:
判断所述百科网页中是否包含所述至少一个关联实体数据;以及
若是,则确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是一致的。
在本发明一实施例中,上述确定模块230还适于:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符;以及
若存在,则确定所述百科网页中包含该关联实体数据。
在本发明一实施例中,上述确定模块230还适于:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据是否存在超链接;以及
若存在,则确定所述百科网页中包含该关联实体数据。
在本发明一实施例中,上述提取模块210还适于:
从资源站点的网页中提取出包含类别信息的第一实体数据;
基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据。
在本发明一实施例中,上述提取模块210还适于:
确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息;
利用所述至少一个关联类别信息,从所述资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据。
在本发明一实施例中,上述提取模块210还适于:
确定所述资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取实体数据的一个或多个类别信息字段;
基于所述一个或多个类别信息字段,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息。
在本发明一实施例中,上述获取模块220还适于:
将所述待判断的第一实体名称与百科库中的百科词条进行匹配,得到匹配的百科词条;
获取所述匹配的百科词条对应的百科网页。
在本发明一实施例中,上述获取模块220还适于:
将所述第一实体数据对应的实体名称作为所述待判断的第一实体名称。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明实施例中,提取资源站点的网页中的第一实体数据以及与第一实体数据相关联的至少一个关联实体数据,获取待判断的第一实体名称对应的百科网页。随后,基于至少一个关联实体数据,确定百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是否一致。由于至少一个关联实体数据是资源站点的网页中的数据,且与第一实体数据相关联,因而本发明实施例基于至少一个关联实体数据能够判断出百科网页中的待判断的第一实体名称与资源站点的网页中的第一实体数据是否一致。
进一步地,如果百科网页中也包含至少一个关联实体数据,则说明待判断的第一实体名称与第一实体数据相关联的实体很多是相同的,则它们是同一个实体的概率很大,可以确定两个实体是一致的。并且,本发明实施例可以直接在百科网页中查找匹配是否包含至少一个关联实体数据,无需从百科网页中提取与待判断的第一实体名称相关联的实体,然后去判断其中是否包括至少一个关联实体数据,判断的效率高、准确性也高。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定不同网页中的实体一致性的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例的一方面,提供了A1、一种确定不同网页中的实体一致性的方法,包括:
提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据;
获取待判断的第一实体名称对应的百科网页;
基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致。
A2、根据A1所述的方法,其中,基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致,包括:
判断所述百科网页中是否包含所述至少一个关联实体数据;以及
若是,则确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是一致的。
A3、根据A1或A2所述的方法,其中,判断所述百科网页中是否包含所述至少一个关联实体数据,包括:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符;以及
若存在,则确定所述百科网页中包含该关联实体数据。
A4、根据A1-A3中任一项所述的方法,其中,判断所述百科网页中是否包含所述至少一个关联实体数据,包括:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据是否存在超链接;以及
若存在,则确定所述百科网页中包含该关联实体数据。
A5、根据A1-A4中任一项所述的方法,其中,提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据,包括:
从资源站点的网页中提取出包含类别信息的第一实体数据;
基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据。
A6、根据A1-A5中任一项所述的方法,其中,基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据,包括:
确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息;
利用所述至少一个关联类别信息,从所述资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据。
A7、根据A1-A6中任一项所述的方法,其中,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息,包括:
确定所述资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取实体数据的一个或多个类别信息字段;
基于所述一个或多个类别信息字段,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息。
A8、根据A1-A7中任一项所述的方法,其中,获取待判断的第一实体名称对应的百科网页,包括:
将所述待判断的第一实体名称与百科库中的百科词条进行匹配,得到匹配的百科词条;
获取所述匹配的百科词条对应的百科网页。
A9、根据A1-A8中任一项所述的方法,其中,还包括:
将所述第一实体数据对应的实体名称作为所述待判断的第一实体名称。
本发明实施例的另一方面,还提供了B10、一种确定不同网页中的实体一致性的装置,包括:
提取模块,适于提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据;
获取模块,适于获取待判断的第一实体名称对应的百科网页;
确定模块,适于基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致。
B11、根据B10所述的装置,其中,所述确定模块还适于:
判断所述百科网页中是否包含所述至少一个关联实体数据;以及
若是,则确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是一致的。
B12、根据B10或B11所述的装置,其中,所述确定模块还适于:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符;以及
若存在,则确定所述百科网页中包含该关联实体数据。
B13、根据B10-B12中任一项所述的装置,其中,所述确定模块还适于:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据是否存在超链接;以及
若存在,则确定所述百科网页中包含该关联实体数据。
B14、根据B10-B13中任一项所述的装置,其中,所述提取模块还适于:
从资源站点的网页中提取出包含类别信息的第一实体数据;
基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据。
B15、根据B10-B14中任一项所述的装置,其中,所述提取模块还适于:
确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息;
利用所述至少一个关联类别信息,从所述资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据。
B16、根据B10-B15中任一项所述的装置,其中,所述提取模块还适于:
确定所述资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取实体数据的一个或多个类别信息字段;
基于所述一个或多个类别信息字段,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息。
B17、根据B10-B16中任一项所述的装置,其中,所述获取模块还适于:
将所述待判断的第一实体名称与百科库中的百科词条进行匹配,得到匹配的百科词条;
获取所述匹配的百科词条对应的百科网页。
B18、根据B10-B17中任一项所述的装置,其中,所述获取模块还适于:
将所述第一实体数据对应的实体名称作为所述待判断的第一实体名称。

Claims (10)

1.一种确定不同网页中的实体一致性的方法,包括:
提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据;
获取待判断的第一实体名称对应的百科网页;
基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致;
其中,所述确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致,具体包括:
判断所述百科网页中是否包含所述至少一个关联实体数据;以及
若是,则确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是一致的;
其中,将所述第一实体数据对应的实体名称作为所述待判断的第一实体名称;
判断所述百科网页中是否包含所述至少一个关联实体数据,包括:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符和/或判断查找到的关联实体数据是否存在超链接;以及
若存在,则确定所述百科网页中包含该关联实体数据。
2.根据权利要求1所述的方法,其中,提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据,包括:
从资源站点的网页中提取出包含类别信息的第一实体数据;
基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据。
3.根据权利要求2所述的方法,其中,基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据,包括:
确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息;
利用所述至少一个关联类别信息,从所述资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据。
4.根据权利要求3所述的方法,其中,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息,包括:
确定所述资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取实体数据的一个或多个类别信息字段;
基于所述一个或多个类别信息字段,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息。
5.根据权利要求1所述的方法,其中,获取待判断的第一实体名称对应的百科网页,包括:
将所述待判断的第一实体名称与百科库中的百科词条进行匹配,得到匹配的百科词条;
获取所述匹配的百科词条对应的百科网页。
6.一种确定不同网页中的实体一致性的装置,包括:
提取模块,适于提取资源站点的网页中的第一实体数据以及与所述第一实体数据相关联的至少一个关联实体数据;
获取模块,适于获取待判断的第一实体名称对应的百科网页;
确定模块,适于基于所述至少一个关联实体数据,确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致;
其中,所述确定模块确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是否一致,具体包括:
判断所述百科网页中是否包含所述至少一个关联实体数据;以及
若是,则确定所述百科网页中的所述待判断的第一实体名称与所述资源站点的网页中的所述第一实体数据是一致的;
其中,将所述第一实体数据对应的实体名称作为所述待判断的第一实体名称;
所述确定模块还适于:
在所述百科网页中查找所述至少一个关联实体数据;
若查找到,则进一步判断查找到的关联实体数据的左右是否存在指定的分隔符和/或判断查找到的关联实体数据是否存在超链接;以及
若存在,则确定所述百科网页中包含该关联实体数据。
7.根据权利要求6所述的装置,其中,所述提取模块还适于:
从资源站点的网页中提取出包含类别信息的第一实体数据;
基于所述第一实体数据的类别信息,从所述资源站点的网页中提取与所述第一实体数据相关联的至少一个关联实体数据。
8.根据权利要求7所述的装置,其中,所述提取模块还适于:
确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息;
利用所述至少一个关联类别信息,从所述资源站点的网页中分别提取各个关联类别信息对应的字段值作为关联实体数据。
9.根据权利要求8所述的装置,其中,所述提取模块还适于:
确定所述资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取实体数据的一个或多个类别信息字段;
基于所述一个或多个类别信息字段,确定与所述第一实体数据的类别信息相关联的至少一个关联类别信息。
10.根据权利要求6所述的装置,其中,所述获取模块还适于:
将所述待判断的第一实体名称与百科库中的百科词条进行匹配,得到匹配的百科词条;
获取所述匹配的百科词条对应的百科网页。
CN201610509364.1A 2016-06-30 2016-06-30 确定不同网页中的实体一致性的方法及装置 Expired - Fee Related CN106126710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610509364.1A CN106126710B (zh) 2016-06-30 2016-06-30 确定不同网页中的实体一致性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610509364.1A CN106126710B (zh) 2016-06-30 2016-06-30 确定不同网页中的实体一致性的方法及装置

Publications (2)

Publication Number Publication Date
CN106126710A CN106126710A (zh) 2016-11-16
CN106126710B true CN106126710B (zh) 2020-05-19

Family

ID=57468845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610509364.1A Expired - Fee Related CN106126710B (zh) 2016-06-30 2016-06-30 确定不同网页中的实体一致性的方法及装置

Country Status (1)

Country Link
CN (1) CN106126710B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN104408148A (zh) * 2014-12-03 2015-03-11 复旦大学 一种基于通用百科网站的领域百科构建系统
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN104408148A (zh) * 2014-12-03 2015-03-11 复旦大学 一种基于通用百科网站的领域百科构建系统
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统

Also Published As

Publication number Publication date
CN106126710A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
US10248662B2 (en) Generating descriptive text for images in documents using seed descriptors
KR101527259B1 (ko) 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템
US8555157B1 (en) Document update generation
JP5436665B2 (ja) 同時選択画像の分類
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US8645353B2 (en) Anchor image identification for vertical video search
US8645354B2 (en) Scalable metadata extraction for video search
US20070233808A1 (en) Propagating useful information among related web pages, such as web pages of a website
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN111224923B (zh) 一种仿冒网站的检测方法、装置及系统
CN103823907A (zh) 一种整合在线视频资源地址的方法、装置及引擎
US20150058339A1 (en) Method for automating search engine optimization for websites
JP6580708B2 (ja) 対応するリソースへのアプリケーション部分ディープリンク
CN108319635A (zh) 一种多平台音乐资源整合播放的方法、电子设备及存储介质
CN110008393B (zh) 一种用于获取网站信息的方法及设备
JP2017068547A (ja) 情報提供装置、プログラム及び情報提供方法
US20090006354A1 (en) System and method for knowledge based search system
CN104537080A (zh) 资讯推荐方法和系统
WO2015149550A1 (zh) 确定网站内链接等级的方法及装置
CN106126710B (zh) 确定不同网页中的实体一致性的方法及装置
CN105653674A (zh) 智能终端的文件管理方法及系统
CN104808995A (zh) 一种用于跨应用收藏应用内容的方法和装置
CN114003799A (zh) 事件推荐方法、装置和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200519

CF01 Termination of patent right due to non-payment of annual fee