CN105468583A - 一种实体关系的获取方法及装置 - Google Patents

一种实体关系的获取方法及装置 Download PDF

Info

Publication number
CN105468583A
CN105468583A CN201510903342.9A CN201510903342A CN105468583A CN 105468583 A CN105468583 A CN 105468583A CN 201510903342 A CN201510903342 A CN 201510903342A CN 105468583 A CN105468583 A CN 105468583A
Authority
CN
China
Prior art keywords
sample
text
entities
entity
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510903342.9A
Other languages
English (en)
Inventor
葛宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510903342.9A priority Critical patent/CN105468583A/zh
Publication of CN105468583A publication Critical patent/CN105468583A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明实施例提供了一种实体关系的获取方法及装置。一方面,本发明实施例通过根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,每个所述样本组中包含两个样本实体;从而,对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板;进而,利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。因此,本发明实施例提供的技术方案能够自动获得实体与实体之间的关系,提高了实体与实体之间的关系的获取效率,降低了实体与实体之间的关系的获取成本。

Description

一种实体关系的获取方法及装置
【技术领域】
本发明涉及互联网应用技术领域,尤其涉及一种实体关系的获取方法及装置。
【背景技术】
知识图谱中主要包含实体以及实体与实体之间的关系,因此获得两个实体之间的关系是构建和完善知识图谱必不可少的步骤。现有技术中,一些实体与实体之间的关系,如公司与公司之间的关系、机构与机构之间的关系等,是与市场相关的知识图谱中的重要信息。
现有技术中,与市场相关的知识图谱中实体与实体之间的关系主要根据实体的共现数据来获取,然而,这种方法只能获得实体之间存在共现关系,如果想要准确地获得实体与实体之间的真实关系,就需要人工采集实体与实体之间的关系并添加到知识图谱中,这种人工采集实体间关系的方式效率比较低,成本比较高。
【发明内容】
有鉴于此,本发明实施例提供了一种实体关系的获取方法及装置,能够自动获得实体与实体之间的关系,提高了实体与实体之间的关系的获取效率,降低了实体与实体之间的关系的获取成本。
本发明实施例的一方面,提供一种实体关系的获取方法,包括:
根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,每个所述样本组中包含两个样本实体;
对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板;
利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,包括:
对所述网页文本进行切词,以获得切词结果;
利用各样本组中的两个样本实体,在所述切词结果中进行字符匹配,从网页文本中抽取同时包含一个样本组中两个样本实体的文本片段。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板,包括:
在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词;
对获得的两个样本实体进行数据泛化处理,生成实体关系模板;所述实体关系模板包括一个样本实体的属性、所述至少一个动词以及另一个样本实体的属性。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词,包括:
对于每个包含样本组的样本片段,计算该文本片段中包含的两个样本实体之间的文本距离;
将所述文本距离与预设的第一距离阈值进行比较;
若所述文本距离小于或者等于所述第一距离阈值,从该文本片段中提取包含的两个样本实体以及两个样本实体之间的至少一个动词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体,包括:
利用所述实体关系模板,在各网页文本中进行字符匹配,以获得与实体关系模板相匹配的文本片段;
从与实体关系模板相匹配的文本片段中抽取两个目标实体;
根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体,包括:
计算抽取出的两个目标实体在相应的文本片段中的文本距离;
将所述文本距离与预设的第二距离阈值进行比较;
若比较结果为所述文本距离小于或者等于所述第二距离阈值,将抽取出的两个目标实体作为符合所述指定关系的两个目标实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:将所述指定关系和符合所述指定关系的两个目标实体添加到知识图谱。
本发明实施例的一方面,提供一种实体关系的获取装置,包括:
文本抽取模块,用于根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,每个所述样本组中包含两个样本实体;
模板生成模块,用于对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板;
关系获取模块,用于利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述文本抽取模块,具体用于:
对所述网页文本进行切词,以获得切词结果;
利用各样本组中的两个样本实体,在所述切词结果中进行字符匹配,从网页文本中抽取同时包含一个样本组中两个样本实体的文本片段。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述模板生成模块,具体用于:
在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词;
对获得的两个样本实体进行数据泛化处理,生成实体关系模板;所述实体关系模板包括一个样本实体的属性、所述至少一个动词以及另一个样本实体的属性。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述模板生成模块用于在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词时,具体用于:
对于每个包含样本组的样本片段,计算该文本片段中包含的两个样本实体之间的文本距离;
将所述文本距离与预设的第一距离阈值进行比较;
若所述文本距离小于或者等于所述第一距离阈值,从该文本片段中提取包含的两个样本实体以及两个样本实体之间的至少一个动词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述关系获取模块,具体用于:
利用所述实体关系模板,在各网页文本中进行字符匹配,以获得与实体关系模板相匹配的文本片段;
从与实体关系模板相匹配的文本片段中抽取两个目标实体;
根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述关系获取模块用于根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体时,具体用于:
计算抽取出的两个目标实体在相应的文本片段中的文本距离;
将所述文本距离与预设的第二距离阈值进行比较;
若比较结果为所述文本距离小于或者等于所述第二距离阈值,将抽取出的两个目标实体作为符合所述指定关系的两个目标实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
信息处理模块,用于将所述指定关系和符合所述指定关系的两个目标实体添加到知识图谱。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例提供的技术方案能够根据给定的关系以及样本实体,自动获得符合该关系的其他实体与实体之间的关系,这样,即实现了为该关系挖掘出更多符合实体,也确定了挖掘出的实体与实体之间的关系,本发明实施例能够解决现有技术中只能获得实体间共现关系的问题,而且与现有技术中人工采集实体间关系的方式相比,本发明实施例所提供的技术方案提高了实体与实体之间的关系的获取效率,降低了实体与实体之间的关系的获取成本。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的实体关系的获取方法的流程示意图;
图2是本发明实施例所提供的实体关系的获取方法的实施例的流程示意图;
图3是本发明实施例所提供的实体关系的获取装置的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例一
本发明实施例给出一种实体关系的获取方法,请参考图1,其为本发明实施例所提供的实体关系的获取方法的流程示意图,如图所示,该方法包括以下步骤:
S101,根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,每个所述样本组中包含两个样本实体。
具体的,本发明实施例中,可以根据指定关系以及符合指定关系的至少一个样本组,挖掘出符合该指定关系的其他实体组,从而实现对符合该指定关系的实体组进行扩充,并且对于获得的若干实体组可以确定若干实体组中两个目标实体之间的真实关系,实现了实体间关系的自动获取。
本发明实施例中,根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段的方法可以包括但不限于:
首先,对所述网页文本进行切词,以获得切词结果。然后,利用各样本组中的两个样本实体,在所述切词结果中进行字符匹配,从网页文本中抽取同时包含一个样本组中两个样本实体的文本片段。
请参考图2,其为本发明实施例所提供的实体关系的获取方法的实施例的流程示意图,如图2所示,本发明实施例中,可以先给定需要挖掘实体组的若干实体间关系,即上述指定关系。然后,为各指定关系配置符合每个指定关系的至少一个样本组。其中,各样本组中可以包含两个样本实体,这两个样本实体间的关系符合相应的指定关系。
以实体是公司为例,所述指定关系可以包括但不限于:子公司与母公司关系、合作关系、供应链关系和其他关系等,例如,所述其他关系可以包括:并购关系、收购关系或者注资关系等。
在一个具体的实现过程中,可以对大量的网页文本中各网页文本进行切词,以获得切词结果。然后,利用每个样本组中的两个样本实体,在各网页文本的切词结果中进行字符匹配。若经过匹配后,发现某网页文本的切词结果中同时包含一个样本组中的两个样本实体,则从该网页文本中,抽取出包含这两个样本实体的文本片段,这样,就可以抽取出大量的文本片段。
其中,所述文本片段可以是一段文本,或者,也可以是一句文本,本发明实施例对此不进行特别限定。
如图2所示,以实体是公司为例,利用样本组<公司1,公司2>,可以在新闻类网页文本的切词结果中进行字符匹配,若发现某个新闻类网页文本中既包含公司1,也包含公司2,则将该新闻类网页文本中包含公司1和公司2的文本片段提取出来。
S102,对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板。
具体的,如图2所示,在S101中获得包含各样本组的若干文本片段之后,可以对包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板。
需要说明的是,数据泛化处理是一个相对底层概念到更高层概念且对与任务相关的数据进行抽样描述的一个分析过程。获得的包含各样本组的若干文本片段中,每个文本片段中都包含很多信息,这些信息中有些信息与样本实体有密切关系,有些信息与样本实体无关,因此,本发明实施例中,需要通过数据泛化处理,将文本片段中与样本实体以及实体间关系无关的文本内容删除,保留与样本实体有关以及与实体间关系有关的文本内容。
举例说明,本发明实施例中,对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板的方法可以包括但不限于:
首先,在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词。然后,对获得的两个样本实体进行数据泛化处理,生成实体关系模板;所述实体关系模板包括一个样本实体的属性、所述至少一个动词以及另一个样本实体的属性。
在一个具体的实现过程中,对于每个文本片段,可以将文本片段中与样本实体无关的文本内容删除,以及将与实体间关系无关的文本内容删除,如时间、副词或者形容词等,并保留该文本片段中包含的两个样本实体,以及两个样本实体之间出现的至少一个动词。
例如,对于文本片段“据《财富》网站周一消息,阿里巴巴集团及创始人马云当前正考虑收购《南华早报》,且谈判已经进入最后阶段”,可以提取出其中的两个样本实体,如“阿里巴巴集团”和“南华早报”,以及这两个样本实体之间的动词,如“收购”,这样,文本片段中其余的文本内容由于与两个样本实体及样本实体间关系无关或者相关性较低而不被保留。
在一个具体的实现过程中,对于各文本片段中每个文本片段中提取出的两个样本实体,需要进一步进行数据泛化处理,可以将提取出的样本实体抽象概述成样本实体的属性,从而可以模糊样本实体的名称,将其抽象概述成一类实体。然后,对于经过数据泛化处理后获得的样本实体的数据,可以生成实体关系模板。
例如,对两个样本实体,如“阿里巴巴集团”和“南华早报”进行数据泛化处理,获得“集团”和“机构”,生成的实体关系模板为:<集团,收购,机构>。
或者,又例如,对于两个样本实体,如“xxxx股份公司”和“xxx有限公司”进行数据泛化处理,获得“股份公司”和“有限公司”,生成的实体关系模板可以为<股份公司,收购,有限公司>。
可选地,在本实施例的一个可能的实现方式中,在从各文本片段中提取包含的两个样本实体以及样本实体之间的至少一个动词之前,可以先计算各文本片段中包含的两个样本实体之间的文本距离,然后,将计算出的文本距离与预设的第一距离阈值进行比较。
若计算出的所述文本距离小于或者等于所述第一距离阈值,则认为两个样本实体之间的文本距离比较小,两个实体之间的关系比较明确,则进一步从该文本片段中提取包含的两个样本实体以及两个样本实体之间的至少一个动词。
反之,若计算出的所述文本距离大于所述第一距离阈值,则认为两个样本实体之间的文本距离比较大,两个样本实体之间的关系不够明确,则删除该文本片段,不从该文本片段中提取包含的两个样本实体以及两个样本实体之间的动词。
可以理解的是,本发明实施例中,在从各文本片段中提取包含的两个样本实体以及样本实体之间的至少一个动词之前,先根据包含的样本实体之间的文本距离,对各文本片段进行筛选,对于包含的两个样本实体之间关系不太明确的文本片段进行删除,从而可以避免生成不准确的实体关系模板,进而可以避免使用不准确的实体关系模板获取目标实体,提高了获取实体间关系的准确性。
S103,利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。
具体的,如图2所示,在S102中,生成实体关系模板之后,可以利用生成的实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。
举例说明,本发明实施例中,利用实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体的方法可以包括但不限于:
首先,利用所述实体关系模板,在各网页文本中进行字符匹配,以获得与实体关系模板相匹配的文本片段。然后,从与实体关系模板相匹配的文本片段中抽取两个目标实体。最后,根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体。
在一个具体的实现过程中,对于S102中生成的每个实体关系模板,都用于在各网页文本中进行字符匹配,从而可以获得与该实体关系模板相匹配的网页文本,进而可以从该网页文本中抽取出与实体关系模板匹配的文本片段。这样,对于每个实体关系模板都可以找到一个或者多个相匹配的文本片段。
进一步的,在获得与实体关系模板相匹配的文本片段之后,对每个文本片段进行切词,以获得每个文本片段的切词结果,进而可以利用样本实体的属性在各切词结果中进行字符匹配,从而可以从文本片段中抽取出具有该样本实体的属性的目标实体。由于实体关系模板中包含两个样本实体的属性,因此与实体关系模板相匹配的文本片段中可以抽取出两个具有样本实体的属性的目标实体,这两个目标实体组成的实体组符合所述指定关系,这两个目标实体间的关系符合所述指定关系,从而可以确定这两个目标实体间的关系就是所述指定关系,即获得了实体关系。
例如,实体关系模板为:<股份公司,收购,有限公司>,利用该实体关系模板找到与该模板相匹配的文本片段,然后分别利用样本实体的属性,如“股份公司”和“有限公司”,从文本片段中抽取出两个目标实体“xxx股份公司”以及“xxxx有限公司”,这两个目标实体可以作为符合所述指定关系的两个目标实体,从而可以实现为某指定关系找到更多符合该指定关系的实体组,以及确定了该两个目标实体间的关系是该指定关系。
可选地,在本实施例的一个可能的实现方式中,根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体的方法可以包括但不限于:
首先,在抽取出两个目标实体之后,可以先计算抽取出的两个目标实体在相应的文本片段中的文本距离。然后,将抽取出的两个目标实体在相应的文本片段中的文本距离与预设的第二距离阈值进行比较。若比较结果为该文本距离小于或者等于所述第二距离阈值,表示两个目标实体之间的文本距离比较小,两个目标实体之间的关系比较明确,从而可以将抽取出的两个目标实体作为符合所述指定关系的两个目标实体。
反之,若比较结果为该文本距离大于所述第二距离阈值,表示两个目标实体之间的文本距离比较大,两个目标实体之间的关系不够明确,因此,对抽取出的两个目标实体进行丢弃处理,不将这两个目标实体作为符合指定关系的两个目标实体,以避免获取错误的实体间关系。
可以理解的是,所述第一距离阈值与所述第二距离阈值可以相等,或者,也可以不等,本发明实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在S103中获得符合指定关系的两个目标实体之后,可以将所述指定关系和符合所述指定关系的两个目标实体添加到知识图谱。
例如,可以在知识图谱中所述指定关系下添加获得的实体组,每个实体组中包含两个目标实体。或者,也可以在知识图谱中每个目标实体上,为该目标实体标注上另一目标实体,以及标注上与另一目标实体之间的指定关系。
以目标实体是公司为例,可以在与商业有关的知识图谱或者市场有关的知识图谱中添加两个公司之间的关系以及为指定关系添加公司组,表示公司组中的两个公司具有该指定关系。从而可以实现公司间关系的挖掘,得到两个公司之间的关系性质,公司之间的关系可以用于揭示公司的商业战略、市场活动版图、处理商业竞争情报等,因此,公司之间的关系在实际生活中具有极大作用。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图3,其为本发明实施例所提供的实体关系的获取装置的功能方块图。如图所示,该装置包括:
文本抽取模块31,用于根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,每个所述样本组中包含两个样本实体;
模板生成模块32,用于对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板;
关系获取模块33,用于利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。
在一个具体的实现过程中,所述文本抽取模块31,具体用于:
对所述网页文本进行切词,以获得切词结果;
利用各样本组中的两个样本实体,在所述切词结果中进行字符匹配,从网页文本中抽取同时包含一个样本组中两个样本实体的文本片段。
在一个具体的实现过程中,所述模板生成模块32,具体用于:
在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词;
对获得的两个样本实体进行数据泛化处理,生成实体关系模板;所述实体关系模板包括一个样本实体的属性、所述至少一个动词以及另一个样本实体的属性。
在一个具体的实现过程中,所述模板生成模块32用于在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词时,具体用于:
对于每个包含样本组的样本片段,计算该文本片段中包含的两个样本实体之间的文本距离;
将所述文本距离与预设的第一距离阈值进行比较;
若所述文本距离小于或者等于所述第一距离阈值,从该文本片段中提取包含的两个样本实体以及两个样本实体之间的至少一个动词。
在一个具体的实现过程中,所述关系获取模块33,具体用于:
利用所述实体关系模板,在各网页文本中进行字符匹配,以获得与实体关系模板相匹配的文本片段;
从与实体关系模板相匹配的文本片段中抽取两个目标实体;
根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体。
在一个具体的实现过程中,所述关系获取模块33用于根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体时,具体用于:
计算抽取出的两个目标实体在相应的文本片段中的文本距离;
将所述文本距离与预设的第二距离阈值进行比较;
若比较结果为所述文本距离小于或者等于所述第二距离阈值,将抽取出的两个目标实体作为符合所述指定关系的两个目标实体。
可选地,在本实施例的一个可能的实现方式中,所述装置还包括:
信息处理模块34,用于将所述指定关系和符合所述指定关系的两个目标实体添加到知识图谱。
由于本实施例中的各单元能够执行图1所示的方法,本实施例未详细描述的部分,可参考对图1的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,通过根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,每个所述样本组中包含两个样本实体;从而,对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板;进而,利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。
本发明实施例提供的技术方案能够根据给定的关系以及样本实体,自动获得符合该关系的其他实体与实体之间的关系,这样,即实现了为该关系挖掘出更多符合实体,也确定了挖掘出的实体与实体之间的关系,本发明实施例能够解决现有技术中只能获得实体间共现关系的问题,而且与现有技术中人工采集实体间关系的方式相比,本发明实施例所提供的技术方案提高了实体与实体之间的关系的获取效率,降低了实体与实体之间的关系的获取成本。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种实体关系的获取方法,其特征在于,所述方法包括:
根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,每个所述样本组中包含两个样本实体;
对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板;
利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。
2.根据权利要求1所述的方法,其特征在于,所述根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,包括:
对所述网页文本进行切词,以获得切词结果;
利用各样本组中的两个样本实体,在所述切词结果中进行字符匹配,从网页文本中抽取同时包含一个样本组中两个样本实体的文本片段。
3.根据权利要求1所述的方法,其特征在于,对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板,包括:
在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词;
对获得的两个样本实体进行数据泛化处理,生成实体关系模板;所述实体关系模板包括一个样本实体的属性、所述至少一个动词以及另一个样本实体的属性。
4.根据权利要求3所述的方法,其特征在于,在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词,包括:
对于每个包含样本组的样本片段,计算该文本片段中包含的两个样本实体之间的文本距离;
将所述文本距离与预设的第一距离阈值进行比较;
若所述文本距离小于或者等于所述第一距离阈值,从该文本片段中提取包含的两个样本实体以及两个样本实体之间的至少一个动词。
5.根据权利要求1所述的方法,其特征在于,利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体,包括:
利用所述实体关系模板,在各网页文本中进行字符匹配,以获得与实体关系模板相匹配的文本片段;
从与实体关系模板相匹配的文本片段中抽取两个目标实体;
根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体。
6.根据权利要求5所述的方法,其特征在于,所述根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体,包括:
计算抽取出的两个目标实体在相应的文本片段中的文本距离;
将所述文本距离与预设的第二距离阈值进行比较;
若比较结果为所述文本距离小于或者等于所述第二距离阈值,将抽取出的两个目标实体作为符合所述指定关系的两个目标实体。
7.根据权利要求1或5或6所述的方法,其特征在于,所述方法还包括:将所述指定关系和符合所述指定关系的两个目标实体添加到知识图谱。
8.一种实体关系的获取装置,其特征在于,所述装置包括:
文本抽取模块,用于根据符合指定关系的至少一个样本组,从网页文本中抽取包含各样本组的文本片段,每个所述样本组中包含两个样本实体;
模板生成模块,用于对所述包含各样本组的文本片段进行数据泛化处理,以生成实体关系模板;
关系获取模块,用于利用所述实体关系模板,从网页文本中抽取出符合所述指定关系的两个目标实体。
9.根据权利要求8所述的装置,其特征在于,所述文本抽取模块,具体用于:
对所述网页文本进行切词,以获得切词结果;
利用各样本组中的两个样本实体,在所述切词结果中进行字符匹配,从网页文本中抽取同时包含一个样本组中两个样本实体的文本片段。
10.根据权利要求8所述的装置,其特征在于,所述模板生成模块,具体用于:
在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词;
对获得的两个样本实体进行数据泛化处理,生成实体关系模板;所述实体关系模板包括一个样本实体的属性、所述至少一个动词以及另一个样本实体的属性。
11.根据权利要求10所述的装置,其特征在于,所述模板生成模块用于在所述包含各样本组的文本片段中,获取包含的两个样本实体,以及获取两个样本实体之间的至少一个动词时,具体用于:
对于每个包含样本组的样本片段,计算该文本片段中包含的两个样本实体之间的文本距离;
将所述文本距离与预设的第一距离阈值进行比较;
若所述文本距离小于或者等于所述第一距离阈值,从该文本片段中提取包含的两个样本实体以及两个样本实体之间的至少一个动词。
12.根据权利要求8所述的装置,其特征在于,所述关系获取模块,具体用于:
利用所述实体关系模板,在各网页文本中进行字符匹配,以获得与实体关系模板相匹配的文本片段;
从与实体关系模板相匹配的文本片段中抽取两个目标实体;
根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体。
13.根据权利要求12所述的装置,其特征在于,所述关系获取模块用于根据抽取出的两个目标实体,获得符合所述指定关系的两个目标实体时,具体用于:
计算抽取出的两个目标实体在相应的文本片段中的文本距离;
将所述文本距离与预设的第二距离阈值进行比较;
若比较结果为所述文本距离小于或者等于所述第二距离阈值,将抽取出的两个目标实体作为符合所述指定关系的两个目标实体。
14.根据权利要求8或12或13所述的装置,其特征在于,所述装置还包括:
信息处理模块,用于将所述指定关系和符合所述指定关系的两个目标实体添加到知识图谱。
CN201510903342.9A 2015-12-09 2015-12-09 一种实体关系的获取方法及装置 Pending CN105468583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510903342.9A CN105468583A (zh) 2015-12-09 2015-12-09 一种实体关系的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510903342.9A CN105468583A (zh) 2015-12-09 2015-12-09 一种实体关系的获取方法及装置

Publications (1)

Publication Number Publication Date
CN105468583A true CN105468583A (zh) 2016-04-06

Family

ID=55606299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510903342.9A Pending CN105468583A (zh) 2015-12-09 2015-12-09 一种实体关系的获取方法及装置

Country Status (1)

Country Link
CN (1) CN105468583A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844413A (zh) * 2016-11-11 2017-06-13 南京缘长信息科技有限公司 实体关系抽取的方法及装置
CN106897270A (zh) * 2017-03-10 2017-06-27 吉林大学 一种文本中知识领域识别方法及系统
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN106909662A (zh) * 2017-02-27 2017-06-30 腾讯科技(上海)有限公司 知识图谱构建方法及装置
CN106934032A (zh) * 2017-03-14 2017-07-07 软通动力信息技术(集团)有限公司 一种城市知识图谱构建方法及装置
CN108182179A (zh) * 2018-01-29 2018-06-19 北京神州泰岳软件股份有限公司 一种自然语言处理方法及装置
CN109597894A (zh) * 2018-09-30 2019-04-09 阿里巴巴集团控股有限公司 一种关联模型生成方法及装置、一种数据关联方法及装置
CN109960806A (zh) * 2019-03-26 2019-07-02 北京博瑞彤芸文化传播股份有限公司 一种自然语言处理方法
CN109960807A (zh) * 2019-03-26 2019-07-02 北京博瑞彤芸文化传播股份有限公司 一种基于上下文关联的智能语义匹配方法
CN109960805A (zh) * 2019-03-26 2019-07-02 北京博瑞彤芸文化传播股份有限公司 一种基于语义领域划分的智能语义匹配方法
CN109977405A (zh) * 2019-03-26 2019-07-05 北京博瑞彤芸文化传播股份有限公司 一种智能语义匹配方法
CN110008471A (zh) * 2019-03-26 2019-07-12 北京博瑞彤芸文化传播股份有限公司 一种基于拼音转换的智能语义匹配方法
CN110019843A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 知识图谱的处理方法及装置
US10664660B2 (en) 2017-11-23 2020-05-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for extracting entity relation based on deep learning, and server
CN108829854B (zh) * 2018-06-21 2021-08-31 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2257896A2 (en) * 2008-01-30 2010-12-08 Thomson Reuters Global Resources Financial event and relationship extraction
CN102508830A (zh) * 2011-11-28 2012-06-20 北京工商大学 从新闻文档中抽取社会网络的方法和系统
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN104133916A (zh) * 2014-08-14 2014-11-05 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2257896A2 (en) * 2008-01-30 2010-12-08 Thomson Reuters Global Resources Financial event and relationship extraction
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN102508830A (zh) * 2011-11-28 2012-06-20 北京工商大学 从新闻文档中抽取社会网络的方法和系统
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN104133916A (zh) * 2014-08-14 2014-11-05 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐健 等: "实体关系抽取的技术方法综述", 《现代图书情报技术》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844413A (zh) * 2016-11-11 2017-06-13 南京缘长信息科技有限公司 实体关系抽取的方法及装置
CN106844413B (zh) * 2016-11-11 2020-12-08 南京柯基数据科技有限公司 实体关系抽取的方法及装置
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN106909662A (zh) * 2017-02-27 2017-06-30 腾讯科技(上海)有限公司 知识图谱构建方法及装置
CN106897270A (zh) * 2017-03-10 2017-06-27 吉林大学 一种文本中知识领域识别方法及系统
CN106897270B (zh) * 2017-03-10 2020-01-24 吉林大学 一种文本中知识领域识别方法及系统
CN106934032B (zh) * 2017-03-14 2019-10-18 北京软通智城科技有限公司 一种城市知识图谱构建方法及装置
CN106934032A (zh) * 2017-03-14 2017-07-07 软通动力信息技术(集团)有限公司 一种城市知识图谱构建方法及装置
US10664660B2 (en) 2017-11-23 2020-05-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for extracting entity relation based on deep learning, and server
CN108182179A (zh) * 2018-01-29 2018-06-19 北京神州泰岳软件股份有限公司 一种自然语言处理方法及装置
CN108182179B (zh) * 2018-01-29 2019-07-30 北京神州泰岳软件股份有限公司 一种自然语言处理方法及装置
CN108829854B (zh) * 2018-06-21 2021-08-31 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110019843A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 知识图谱的处理方法及装置
WO2020063092A1 (zh) * 2018-09-30 2020-04-02 北京国双科技有限公司 知识图谱的处理方法及装置
CN109597894A (zh) * 2018-09-30 2019-04-09 阿里巴巴集团控股有限公司 一种关联模型生成方法及装置、一种数据关联方法及装置
CN109597894B (zh) * 2018-09-30 2023-10-03 创新先进技术有限公司 一种关联模型生成方法及装置、一种数据关联方法及装置
CN109977405A (zh) * 2019-03-26 2019-07-05 北京博瑞彤芸文化传播股份有限公司 一种智能语义匹配方法
CN110008471A (zh) * 2019-03-26 2019-07-12 北京博瑞彤芸文化传播股份有限公司 一种基于拼音转换的智能语义匹配方法
CN109960805A (zh) * 2019-03-26 2019-07-02 北京博瑞彤芸文化传播股份有限公司 一种基于语义领域划分的智能语义匹配方法
CN109960807A (zh) * 2019-03-26 2019-07-02 北京博瑞彤芸文化传播股份有限公司 一种基于上下文关联的智能语义匹配方法
CN109960806A (zh) * 2019-03-26 2019-07-02 北京博瑞彤芸文化传播股份有限公司 一种自然语言处理方法

Similar Documents

Publication Publication Date Title
CN105468583A (zh) 一种实体关系的获取方法及装置
EP2668594B1 (en) Formatting data by example
CN102722498B (zh) 搜索引擎及其实现方法
CN101772766B (zh) 以用户为中心的信息搜索的方法和系统
US10970466B2 (en) Inserting links that aid action completion
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN102737021B (zh) 搜索引擎及其实现方法
CN102722499B (zh) 搜索引擎及其实现方法
CN105045847B (zh) 一种从文本信息中提取中文机构单位名称的方法
CN105095441A (zh) 一种信息获取方法及装置
US11019012B2 (en) File sending in instant messaging application
CN105426759A (zh) Url的合法性识别方法及装置
CN107330079B (zh) 基于人工智能呈现辟谣信息的方法和装置
US9679198B2 (en) Ingestion plan based on table uniqueness
CN102567473A (zh) 网络信息检索系统及检索方法
CN105550253A (zh) 一种类型关系的获取方法及装置
US9424249B1 (en) Encoding text units
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN107169011B (zh) 基于人工智能的网页原创性识别方法、装置及存储介质
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
Yang et al. Tour: Dynamic topic and sentiment analysis of user reviews for assisting app release
US8990170B2 (en) Method and apparatus for detecting an address update
CN105138708A (zh) 一种兴趣点名称的识别方法和装置
CN110287338B (zh) 行业热点确定方法、装置、设备和介质
CN115238078A (zh) 一种网页信息抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160406