CN111177315B - 知识图谱的更新方法、装置及计算机可读存储介质 - Google Patents
知识图谱的更新方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111177315B CN111177315B CN201911315927.3A CN201911315927A CN111177315B CN 111177315 B CN111177315 B CN 111177315B CN 201911315927 A CN201911315927 A CN 201911315927A CN 111177315 B CN111177315 B CN 111177315B
- Authority
- CN
- China
- Prior art keywords
- entity
- relation
- tuple
- relationship
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
一种知识图谱的更新方法、装置及计算机可读存储介质,包括:对输入的非结构化文本进行语句分析处理;利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;根据获得的实体关系元组更新知识图谱。由于对输入的非结构化文本进行了语句分析处理,并利用预先构建的实体关系元组抽取模型抽取了语句分析处理后的非结构化文本中的实体关系元组,因此实现了根据非结构化文本更新知识图谱,从而加快了知识图谱的更新频率,保证了后续知识图谱应用的顺利进行。
Description
技术领域
本文涉及数据处理技术,尤指一种知识图谱的更新方法、装置及计算机可读存储介质。
背景技术
知识图谱以结构化方式来展现客观世界中实体及它们之间的关系,知识图谱能够将文本、网络信息表达成人们极易理解的形式,从而提供了一种组织、管理和理解海量信息的能力。
相关技术中,知识图谱偏静态管理,即知识图谱中的更新往往依靠结构化文本或表格等容易解析的静态文本。
然而,这种更新方法仅仅所依赖的文本来源并且数量都较少,因此致使知识图谱的更新频率较慢,从而影响知识图谱的应用。
发明内容
本申请提供了一种知识图谱的更新方法、装置及计算机可读存储介质,能够根据非结构化文本更新知识图谱,从而加快知识图谱的更新频率,保证后续知识图谱应用的顺利进行。
本申请提供了一种知识图谱的更新方法,包括:
对输入的非结构化文本进行语句分析处理;
利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;
根据获得的实体关系元组更新知识图谱。
所述对输入的非结构化文本进行语句分析处理,包括:
将输入的非结构化文本按照标点符号划分为若干个语句;
对每个语句进行依存关系分析,得到每个语句的依存关系集合;
根据所述依存关系集合中的主谓关系对存在零指代的语句进行零指代消解;
根据所述依存关系集合中的并列关系对存在并列子句的语句进行划分。
所述根据依存关系集合中的主谓关系对存在零指代的语句进行零指代消解,包括:
获取第一个语句的依存关系结合,并根据第一个语句的依存关系集合获取所述第一语句的主谓关系SBV节点;
依次获取其他语句的依存关系集合,并每当获得一个语句的依存关系集合执行以下操作:
根据获得的语句的依存集合判断获得的语句中是否存在SBV节点;
当获得的语句中不存在SBV节点,将上一个语句的SBV节点插入获得的语句的第一个位置。
所述实体关系元组抽取模型包括:动词结构实体关系元组抽取模型、定语结构实体关系元组抽取模型、并列结构实体关系元组抽取模型和固定结构实体关系元组抽取模型。
所述动词结构实体关系元组抽取模型包括:及物动词关系结构实体关系元组抽取模型、轻动词关系结构实体关系元组抽取模型、不及物动词关系结构实体关系元组抽取模型。
所述及物动词关系结构实体关系元组抽取模型包括:从满足主语为依赖于主谓关系SBV标记的谓词pred的第一实体且宾语为依赖于动宾关系VOB标记的谓词pred的第二实体的语句中抽取实体关系元组(第一实体,谓词pred,第二实体)的模型;从满足第一实体依赖于SBV标记的谓词pred、介词prep依赖于状中关系ADV标记的谓词pred、第二实体依赖于介宾关系POB标记的介词prep并且名词依赖于VOB标记的谓词pred的语句中抽取实体关系元组(第一实体,谓词pred,第二实体)的模型;从满足第一实体依赖于SBV标记的谓词pred、介词prep依赖于动补关系CMP标记的谓词pred,并且第二实体依赖于POB标记的介词prep的语句中抽取实体关系元组(第一实体,谓词pred+介词prep,第二实体)的模型;
所述轻动词关系结构实体关系元组抽取模型包括:从满足主语为直接依赖于SBV标记的轻动词pred的第一实体,并且介词宾语为间接依赖于POB标记的轻动词pred的第二实体的语句中抽取实体关系元组(第一实体,谓词,第二实体)的模型;从满足主语为直接依赖于SBV标记的轻动词pred的第一实体,并且介词宾语为间接依赖于POB标记的轻动词pred的第二实体,并且介词呈被动语态的语句中抽取实体关系元组(第二实体,谓词,第一实体)的模型;
所述不及物动词关系结构实体关系元组抽取模型包括:将介词位于不及物动词的左侧,且谓词仅用为关系词的语句抽取为实体关系元组(第一实体,谓词,第二实体)的模型;将介词位于不及物动词的右侧,且谓词仅用为关系词的语句抽取为实体关系元组(第一实体,谓词+介词,第二实体)的模型。
所述定语结构实体关系元组抽取模型包括:从满足第一实体和第二实体都依赖于ATT标记的修饰词的语句中抽取实体关系元组(第一实体,修饰词,第二实体)的模型。
所述并列结构实体关系元组抽取模型包括:从出现并列连词的语句中抽取实体关系元组(第一实体,谓词,第三实体)(第二实体,谓词,第三实体),或(第一实体,谓词,第二实体)(第一实体,谓词,第三实体),或(第一实体,第一谓词,第二实体)(第一实体,第二谓词,第三实体)的模型。
所述固定结构实体关系元组抽取模型包括:特定句式结构实体关系元组抽取模型、“是”结构实体关系元组抽取模型、“的”结构实体关系元组抽取模型。
所述特定句式结构实体关系元组抽取模型包括:将“表示人名的第一实体+‘,’+表示机构名的第二实体+表示关系的名词”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;
所述“是”结构实体关系元组抽取模型包括:将“第一实体是第二实体的名词”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;将“第一实体的名词是第二实体”的语句抽取为实体关系元组(第二实体,名词,第一实体)的模型;
所述“的”结构实体关系元组抽取模型包括:将“第一实体+‘的’+名词+第二实体”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;将“动词+第一实体+‘的’+第二实体”的语句抽取为实体关系元组(第一实体,动词,第二实体)的模型。
所述利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组之后,且所述根据获得的实体关系元组更新知识图谱之前,还包括:
判断获得的实体关系元组中的关系词是否存在于预先建立的关系词集合中;其中,所述关系词为连接所述实体关系元组中两个实体之间关系的词语,且包括:谓词、介词、修饰词、名词、动词;
当获得的实体关系元组中的关系词不存在于所述关系词集合中,删除该实体关系元组;
所述根据获得的实体关系元组更新知识图谱,包括:
根据获得的关系词存在于所述关系词集合中的目标实体关系元组更新所述知识图谱。
所述根据获得的关系词存在于关系词集合中的目标实体关系元组更新知识图谱,包括:
当所述目标实体关系元组中的实体均不存在于所述知识图谱中,将所述目标实体关系元组导入所述知识图谱;
当所述目标实体关系元组中的至少一个实体存在于所述知识图谱中,获取所述非结构化文本的特征向量,并根据所述非结构化文本的特征向量和所述目标实体关系元组更新所述知识图谱。
所述获取非结构化文本的特征向量,包括:
将所述非结构化文本进行分词并去停用词;
对经过处理的非结构化文本统计词频;
获取词频位于前N位的词的词向量,并将这些词向量进行加法运算以得到所述非结构化文本的特征向量。
所述根据非结构化文本的特征向量和目标实体关系元组更新知识图谱,包括:
在所述知识图谱中查找与第一目标实体的名称相同的候选节点;其中,所述第一目标实体为所述目标实体关系元组中存在于所述知识图谱中的实体;
将所述目标实体关系元组中不存在于所述知识图谱中的第二目标实体的得分记为0;
获取所有所述候选节点的特征向量,并根据所述非结构化文本的特征向量和每个所述候选节点的特征向量计算所述非结构化为本与每个所述候选节点的相似度,并将所有相似度中最大相似度作为所述第一目标实体的得分;
根据所述目标实体关系元组中两个实体的得分更新所述知识图谱。
所述获取所有候选节点的特征向量,包括:
对每个所述候选节点进行如下操作:
获取所述候选节点的名称、属性、包含所述第一目标实体的关系对应的词向量;
将获得的所有词向量进行加法运算以得到所述候选节点的特征向量。
所述根据目标实体元组中两个实体的得分更新知识图谱,包括:
若所述目标实体元组中两个实体的得分均达到预设阈值且两个实体之间的关系与所述目标实体元组中的关系词所表示的关系不同,在所述两个实体之间创建一条名称为所述目标实体元组中的关系词的边;
若所述目标实体元组中两个实体的得分均未达到预设阈值,在所述知识图谱中创建两个节点分别存放所述目标实体元组中的两个实体,并在所述两个实体之间创建一条名称为所述目标实体元组中的关系词的边;
若所述目标实体元组中有一个实体达到所述预设阈值,创建一个节点用于存放目标实体元组中另一个实体,并在所述两个实体之间创建一条名称为所述目标实体元组中的关系词的边。
本申请还提供了一种知识图谱的更新装置,包括:
预处理模块,用于对输入的非结构化文本进行语句分析处理;
第一处理模块,用于利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;
第二处理模块,用于根据获得的实体关系元组更新知识图谱。
本申请还提供了一种知识图谱的更新装置,包括:处理器和存储器,其中,存储器中写入有以下可被处理器执行的命令:
对输入的非结构化文本进行语句分析处理;
利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;
根据获得的实体关系元组更新知识图谱。
本申请还提供了一种计算机可读存储介质,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
对输入的非结构化文本进行语句分析处理;
利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;
根据获得的实体关系元组更新知识图谱。
与相关技术相比,本申请包括:对输入的非结构化文本进行语句分析处理;利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;根据获得的实体关系元组更新知识图谱。由于对输入的非结构化文本进行了语句分析处理,并利用预先构建的实体关系元组抽取模型抽取了语句分析处理后的非结构化文本中的实体关系元组,因此实现了根据非结构化文本更新知识图谱,从而加快了知识图谱的更新频率,保证了后续知识图谱应用的顺利进行。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的一种知识图谱的更新方法的流程示意图;
图2为本申请实施例提供的一种依存关系集合示意图;
图3为本申请实施例提供的另一种依存关系集合示意图;
图4为本申请实施例提供的一种实体关系元组抽取模型示意图;
图5为本申请实施例提供的又一种依存关系集合示意图;
图6为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图7为本申请实施例提供的又一种依存关系集合示意图;
图8为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图9为本申请实施例提供的又一种依存关系集合示意图;
图10为本申请实施例提供的又一种依存关系集合示意图;
图11为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图12为本申请实施例提供的又一种依存关系集合示意图;
图13为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图14为本申请实施例提供的又一种依存关系集合示意图;
图15为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图16为本申请实施例提供的又一种依存关系集合示意图;
图17为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图18为本申请实施例提供的又一种依存关系集合示意图;
图19为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图20为本申请实施例提供的又一种依存关系集合示意图;
图21为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图22为本申请实施例提供的又一种依存关系集合示意图;
图23为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图24为本申请实施例提供的又一种依存关系集合示意图;
图25为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图26为本申请实施例提供的又一种依存关系集合示意图;
图27为本申请实施例提供的另一种实体关系元组抽取模型示意图;
图28为本申请实施例提供的一种知识图谱的更新装置的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
本申请实施例提供一种知识图谱的更新方法,如图1所示,包括:
步骤101、对输入的非结构化文本进行语句分析处理。
在一种示例性实例中,对输入的非结构化文本进行语句分析处理,包括:
首先、将输入的非结构化文本按照标点符号划分为若干个语句。
在一种示例性实例中,标点符号包括:句号、分号、感叹号。
其次、对每个语句进行依存关系分析,得到每个语句的依存关系集合。
在一种示例性实例中,语句经过依存关系分析,词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词(或称支配词),另一个是修饰词(或称从属词),并且依存关系用一个有向弧(称为依存弧)表示,依存弧的方向为由从属词指向支配词。
在一种示例性实例中,依存关系集合包括:主谓关系(SuBject-Verb,SBV)、动宾关系(Verb-OBject,VOB)、定中关系(ATTribute,ATT)、状中关系(ADVerbial,ADV)、介宾关系(Preposition-OBject,POB)、动补关系(CoMPlement,CMP)、并列关系(COOrdinate,COO)、左附加关系(Left ADjunct,LAD)、右附加关系(Right ADjunct,RAD)、核心关系(HEAD,HED)以及核心动词与标点符号之间的关系WP。
在一种示例性实例中,假设语句为:A公司将努力参与中国的S工程建设,则对应的依存关系集合可以如图2所示。
接着、根据依存关系集合中的主谓关系对存在零指代的语句进行零指代消解。
在一种示例性实例中,根据依存关系集合中的主谓关系对存在零指代的语句进行零指代消解,包括:
首先、获取第一个语句的依存关系结合,并根据第一个语句的依存关系集合获取第一语句的主谓关系SBV节点。
其次、依次获取其他语句的依存关系集合,并每当获得一个语句的依存关系集合执行以下操作:
根据获得的语句的依存集合判断获得的语句中是否存在SBV节点;当获得的语句中不存在SBV节点,将上一个语句的SBV节点插入获得的语句的第一个位置。
在一种示例性实例中,零指代消解的输入为依存句法结构列表(对应上述实施例中的依存关系集合)DPL,L为列表长度,DPL的元素结构类似图2,消解步骤如下:
首先、获取DPL的第一个元素的SBV节点,记为SBVroot(该节点是整个文本的主语节点,一般不会省略)。
其次、从DPL的第2个元素到最后一个元素,执行如下步骤:
如果当前元素有SBV节点,则将其SBV赋值到SBVroot。
如果当前元素无SBV节点,则把SBVroot插入到当前元素的第一个位置,并调整指针位置。
最后、根据依存关系集合中的并列关系对存在并列子句的语句进行划分。
在一种示例性实例中,假设并列子句列表为DP,并列子句的划分包括对输入的根节点(与第一个主语连接的谓语)执行如下步骤:
首先、如果当前节点依存关系是核心关系,当前节点是动词性节点,且当前节点的直接子节点依存关系是SBV,则把当前节点加入DP列表。
其次、如果当前节点依存关系是并列关系,当前节点是动词性节点,且当前节点的直接子节点依存关系是SBV,则把当前节点加入DP列表。
最后、对当前节点的子节点进行零指代消解。
步骤102、利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组。
在一种示例性实例中,实体关系元组抽取模型包括:动词结构实体关系元组抽取模型、定语结构实体关系元组抽取模型、并列结构实体关系元组抽取模型和固定结构实体关系元组抽取模型。
在一种示例性实例中,动词结构实体关系元组抽取模型包括:及物动词关系结构实体关系元组抽取模型、轻动词关系结构实体关系元组抽取模型、不及物动词关系结构实体关系元组抽取模型。
在一种示例性实例中,及物动词关系结构实体关系元组抽取模型包括:从满足主语为依赖于主谓关系SBV标记的谓词pred的第一实体且宾语为依赖于动宾关系VOB标记的谓词pred的第二实体的语句中抽取实体关系元组(第一实体,谓词pred,第二实体)的模型;从满足第一实体依赖于SBV标记的谓词pred、介词prep依赖于状中关系ADV标记的谓词pred、第二实体依赖于介宾关系POB标记的介词prep并且名词依赖于VOB标记的谓词pred的语句中抽取实体关系元组(第一实体,谓词pred,第二实体)的模型;从满足第一实体依赖于SBV标记的谓词pred、介词prep依赖于动补关系CMP标记的谓词pred,并且第二实体依赖于POB标记的介词prep的语句中抽取实体关系元组(第一实体,谓词pred+介词prep,第二实体)的模型。
在一种示例性实例中,假设一种及物动词关系结构的依存关系集合如图3所示,实体“张三”和“西安”都依赖于谓词“访问”,对应的实体关系元组抽取模型如图4所示。
在一种示例性实例中,在及物动词后无动词宾语,而是用“介-宾”短语来修饰动词,另一种及物动词关系结构的依存关系集合如图5所示,这里实体“张三”是主语,依赖于谓词“视察”,同时介词“在”依赖于ADV标记的动词“视察”,还有个实体“上海”依赖于POB标记的介词“在”,对应的实体关系元组抽取模型如图6所示。
在一种示例性实例中,又一种及物动词关系结构的依存关系集合如图7所示,对应的实体关系元组抽取模型如图8所示。
在一种示例性实例中,轻动词关系结构实体关系元组抽取模型包括:从满足主语为直接依赖于SBV标记的轻动词pred的第一实体,并且介词宾语为间接依赖于POB标记的轻动词pred的第二实体的语句中抽取实体关系元组(第一实体,谓词,第二实体)的模型;从满足主语为直接依赖于SBV标记的轻动词pred的第一实体,并且介词宾语为间接依赖于POB标记的轻动词pred的第二实体,并且介词呈被动语态的语句中抽取实体关系元组(第二实体,谓词,第一实体)的模型。
在一种示例性实例中,一种轻动词关系结构的依存关系集合如图9所示,“对...进行…”是中文轻动词结构。作为主语的“张三”直接依赖于SBV标记的轻动词“进行”。同时,作为介词宾语的“中国”间接依赖于POB标记的轻动词,对应的实体关系元组抽取模型如图6所示。在特殊情况下,如果介词呈被动语态,如“由”或“被”,则交换实体位置。
在一种示例性实例中,不及物动词关系结构实体关系元组抽取模型包括:将介词位于不及物动词的左侧,且谓词仅用为关系词的语句抽取为实体关系元组(第一实体,谓词,第二实体)的模型;将介词位于不及物动词的右侧,且谓词仅用为关系词的语句抽取为实体关系元组(第一实体,谓词+介词,第二实体)的模型。
在一种示例性实例中,当介词位于不及物动词的左侧时,对应的实体关系元组抽取模型如图6所示,但谓词仅仅用为关系词。当介词位于动词右侧时,对应的实体关系元组抽取模型如图7所示。
在一种示例性实例中,定语结构实体关系元组抽取模型包括:定语结构实体关系元组抽取模型包括:从满足第一实体和第二实体都依赖于ATT标记的修饰词的语句中抽取实体关系元组(第一实体,修饰词,第二实体)的模型。
在一种示例性实例中,一种定语结构的依存关系集合如图10所示,“A公司”和“总经理”都是实体“张三”的定语。同时,“总经理”也表达了实体对“张三”和“A公司”的语义关系,对应的实体关系元组抽取模型如图11所示。
在一种示例性实例中,并列结构实体关系元组抽取模型包括:从出现并列连词的语句中抽取实体关系元组(第一实体,谓词,第三实体)(第二实体,谓词,第三实体),或(第一实体,谓词,第二实体)(第一实体,谓词,第三实体),或(第一实体,第一谓词,第二实体)(第一实体,第二谓词,第三实体)的模型。
在一种示例性实例中,并列结构往往表现为多个命名实体或名词词组并列存在,并列的成分通常使用逗号或连词连接(如“和”、“与”,“及”等)。对于并列实体,在做句法分析时通常使用COO来标记它们之间并列关系,而用LAD来标识它们之间的连词与其中某个实体的依赖关系。
在一种示例性实例中,一种并列结构的依存关系集合如图12所示,对应的实体关系元组抽取模型如图13所示;另一种并列结构的依存关系集合如图14所示,对应的实体关系元组抽取模型如图15所示;又一种并列结构的依存关系集合如图16所示,对应的实体关系元组抽取模型如图17所示。
在一种示例性实例中,并列结构模型必须与其他实体关系元组抽取模型结合使用。
在一种示例性实例中,固定结构实体关系元组抽取模型包括:特定句式结构实体关系元组抽取模型、“是”结构实体关系元组抽取模型、“的”结构实体关系元组抽取模型。
在一种示例性实例中,特定句式结构实体关系元组抽取模型包括:将“表示人名的第一实体+‘,’+表示机构名的第二实体+表示关系的名词”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型。
在一种示例性实例中,特定句式结构的依存关系集合如图18所示,对应的实体关系元组抽取模型如图19所示。
在一种示例性实例中,“是”结构实体关系元组抽取模型包括:将“第一实体是第二实体的名词”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;将“第一实体的名词是第二实体”的语句抽取为实体关系元组(第二实体,名词,第一实体)的模型。
在一种示例性实例中,一种“是”结构的依存关系集合如图20所示,对应的实体关系元组抽取模型如图21所示;另一种“是”结构的依存关系集合如图22所示,对应的实体关系元组抽取模型如图23所示。语句“张三的父亲是李四”和“李四是张三的父亲”,“父亲”表达了“张三”和“李四”的语义关系,对于这种句式,可提取出三元组(张三,父亲,李四)。
在一种示例性实例中,“的”结构实体关系元组抽取模型包括:将“第一实体+‘的’+名词+第二实体”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;将“动词+第一实体+‘的’+第二实体”的语句抽取为实体关系元组(第一实体,动词,第二实体)的模型。
在一种示例性实例中,一种“的”结构的依存关系集合如图24所示,对应的实体关系元组抽取模型如图25所示;另一种“的”结构的依存关系集合如图26所示,对应的实体关系元组抽取模型如图27所示。对于语句“张三的母亲李四……”,则可以提取出(张三,母亲,李四);对于语句“位于陕西的西安是座古城”,则可以提取出(西安,位于,陕西)。
步骤103、根据获得的实体关系元组更新知识图谱。
在一种示例性实例中,实体关系元组可以表示为:relationTuples={tuple_i}(i=1,2,…,n),其中tuple_i表示元组(Entity1,relation_word,Entity2)。
在一种示例性实例中,利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组之后,且根据获得的实体关系元组更新知识图谱之前,还包括:
首先、判断获得的实体关系元组中的关系词是否存在于预先建立的关系词集合中;其中,关系词为连接实体关系元组中两个实体之间关系的词语,且包括:谓词、介词、修饰词、名词、动词。
在一种示例性实例中,对于实体关系元组tuple_i,若它的关系词relation_word在现有的关系词库(对应上述实施例中的预先建立的关系词集合)relationDatabase中,则保留tuple_i,否则将其删除。
其次、当获得的实体关系元组中的关系词不存在于关系词集合中,删除该实体关系元组。
根据获得的实体关系元组更新知识图谱,包括:
根据获得的关系词存在于关系词集合中的目标实体关系元组更新知识图谱。
在一种示例性实例中,根据获得的关系词存在于关系词集合中的目标实体关系元组更新知识图谱,包括:
首先、当目标实体关系元组中的实体均不存在于知识图谱中,将目标实体关系元组导入知识图谱。
在一种示例性实例中,将目标实体关系元组导入知识图谱指的是:即新建两个节点分别存放两个实体,并新建一条边,边的名称为relation_word。
其次、当目标实体关系元组中的至少一个实体存在于知识图谱中,获取非结构化文本的特征向量,并根据非结构化文本的特征向量和目标实体关系元组更新知识图谱。
在一种示例性实例中,获取非结构化文本的特征向量,包括:
首先、将非结构化文本进行分词并去停用词。
其次、对经过处理的非结构化文本统计词频。
最后、获取词频位于前N位的词的词向量,并将这些词向量进行加法运算以得到非结构化文本的特征向量。
在一种示例性实例中,根据非结构化文本的特征向量和目标实体关系元组更新知识图谱,包括:
首先、在知识图谱中查找与第一目标实体的名称相同的候选节点。其中,第一目标实体为目标实体关系元组中存在于知识图谱中的实体。
其次、将目标实体关系元组中不存在于知识图谱中的第二目标实体的得分记为0。
接着、获取所有候选节点的特征向量,并根据非结构化文本的特征向量和每个候选节点的特征向量计算非结构化为本与每个候选节点的相似度,并将所有相似度中最大相似度作为第一目标实体的得分。
在一种示例性实例中,假设非结构化文本的特征向量为textVec,候选节点的特征向量为relVec,则相似度计算公式为:(textVec·relVec)/|textVec||relVec|。
最后、根据目标实体关系元组中两个实体的得分更新知识图谱。
在一种示例性实例中,获取所有候选节点的特征向量,包括:
对每个候选节点进行如下操作:
首先、获取候选节点的名称、属性、包含第一目标实体的关系对应的词向量。
其次、将获得的所有词向量进行加法运算以得到候选节点的特征向量。
在一种示例性实例中,根据目标实体元组中两个实体的得分更新知识图谱,包括:
首先、若目标实体元组中两个实体的得分均达到预设阈值且两个实体之间的关系与目标实体元组中的关系词所表示的关系不同,在两个实体之间创建一条名称为目标实体元组中的关系词的边。
其次、若目标实体元组中两个实体的得分均未达到预设阈值,在知识图谱中创建两个节点分别存放目标实体元组中的两个实体,并在两个实体之间创建一条名称为目标实体元组中的关系词的边。
最后、若目标实体元组中有一个实体达到预设阈值,创建一个节点用于存放目标实体元组中另一个实体,并在两个实体之间创建一条名称为目标实体元组中的关系词的边。
本申请实施例提供的知识图谱的更新方法,由于对输入的非结构化文本进行了语句分析处理,并利用预先构建的实体关系元组抽取模型抽取了语句分析处理后的非结构化文本中的实体关系元组,因此实现了根据非结构化文本更新知识图谱,从而加快了知识图谱的更新频率,保证了后续知识图谱应用的顺利进行。
本申请实施例还提供一种知识图谱的更新装置,如图28所示,该知识图谱的更新装置2包括:
预处理模块21,用于对输入的非结构化文本进行语句分析处理。
第一处理模块22,用于利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组。
第二处理模块23,用于根据获得的实体关系元组更新知识图谱。
在一种示例性实例中,预处理模块21具体用于:
将输入的非结构化文本按照标点符号划分为若干个语句。
对每个语句进行依存关系分析,得到每个语句的依存关系集合。
根据依存关系集合中的主谓关系对存在零指代的语句进行零指代消解。
根据依存关系集合中的并列关系对存在并列子句的语句进行划分。
在一种示例性实例中,预处理模块21具体还用于:
获取第一个语句的依存关系结合,并根据第一个语句的依存关系集合获取第一语句的主谓关系SBV节点。
依次获取其他语句的依存关系集合,并每当获得一个语句的依存关系集合执行以下操作:
根据获得的语句的依存集合判断获得的语句中是否存在SBV节点。
当获得的语句中不存在SBV节点,将上一个语句的SBV节点插入获得的语句的第一个位置。
在一种示例性实例中,实体关系元组抽取模型包括:动词结构实体关系元组抽取模型、定语结构实体关系元组抽取模型、并列结构实体关系元组抽取模型和固定结构实体关系元组抽取模型。
在一种示例性实例中,动词结构实体关系元组抽取模型包括:及物动词关系结构实体关系元组抽取模型、轻动词关系结构实体关系元组抽取模型、不及物动词关系结构实体关系元组抽取模型。
在一种示例性实例中,及物动词关系结构实体关系元组抽取模型包括:从满足主语为依赖于主谓关系SBV标记的谓词pred的第一实体且宾语为依赖于动宾关系VOB标记的谓词pred的第二实体的语句中抽取实体关系元组(第一实体,谓词pred,第二实体)的模型;从满足第一实体依赖于SBV标记的谓词pred、介词prep依赖于状中关系ADV标记的谓词pred、第二实体依赖于介宾关系POB标记的介词prep并且名词依赖于VOB标记的谓词pred的语句中抽取实体关系元组(第一实体,谓词pred,第二实体)的模型;从满足第一实体依赖于SBV标记的谓词pred、介词prep依赖于动补关系CMP标记的谓词pred,并且第二实体依赖于POB标记的介词prep的语句中抽取实体关系元组(第一实体,谓词pred+介词prep,第二实体)的模型。
在一种示例性实例中,轻动词关系结构实体关系元组抽取模型包括:从满足主语为直接依赖于SBV标记的轻动词pred的第一实体,并且介词宾语为间接依赖于POB标记的轻动词pred的第二实体的语句中抽取实体关系元组(第一实体,谓词,第二实体)的模型;从满足主语为直接依赖于SBV标记的轻动词pred的第一实体,并且介词宾语为间接依赖于POB标记的轻动词pred的第二实体,并且介词呈被动语态的语句中抽取实体关系元组(第二实体,谓词,第一实体)的模型。
在一种示例性实例中,不及物动词关系结构实体关系元组抽取模型包括:将介词位于不及物动词的左侧,且谓词仅用为关系词的语句抽取为实体关系元组(第一实体,谓词,第二实体)的模型;将介词位于不及物动词的右侧,且谓词仅用为关系词的语句抽取为实体关系元组(第一实体,谓词+介词,第二实体)的模型。
在一种示例性实例中,定语结构实体关系元组抽取模型包括:从满足第一实体和第二实体都依赖于ATT标记的修饰词的语句中抽取实体关系元组(第一实体,修饰词,第二实体)的模型。
在一种示例性实例中,并列结构实体关系元组抽取模型包括:从出现并列连词的语句中抽取实体关系元组(第一实体,谓词,第三实体)(第二实体,谓词,第三实体),或(第一实体,谓词,第二实体)(第一实体,谓词,第三实体),或(第一实体,第一谓词,第二实体)(第一实体,第二谓词,第三实体)的模型。
在一种示例性实例中,固定结构实体关系元组抽取模型包括:特定句式结构实体关系元组抽取模型、“是”结构实体关系元组抽取模型、“的”结构实体关系元组抽取模型。
在一种示例性实例中,特定句式结构实体关系元组抽取模型包括:将“表示人名的第一实体+‘,’+表示机构名的第二实体+表示关系的名词”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型。
在一种示例性实例中,“是”结构实体关系元组抽取模型包括:将“第一实体是第二实体的名词”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;将“第一实体的名词是第二实体”的语句抽取为实体关系元组(第二实体,名词,第一实体)的模型。
在一种示例性实例中,“的”结构实体关系元组抽取模型包括:将“第一实体+‘的’+名词+第二实体”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;将“动词+第一实体+‘的’+第二实体”的语句抽取为实体关系元组(第一实体,动词,第二实体)的模型。
在一种示例性实例中,还包括:
判断模块24,用于判断获得的实体关系元组中的关系词是否存在于预先建立的关系词集合中;其中,关系词为连接实体关系元组中两个实体之间关系的词语,且包括:谓词、介词、修饰词、名词、动词。
删除模块25,用于当获得的实体关系元组中的关系词不存在于关系词集合中,删除该实体关系元组。
第二处理模块23,具体用于根据获得的关系词存在于关系词集合中的目标实体关系元组更新知识图谱。
在一种示例性实例中,第二处理模块23具体用于:
当目标实体关系元组中的实体均不存在于知识图谱中,将目标实体关系元组导入知识图谱。
当目标实体关系元组中的至少一个实体存在于知识图谱中,获取非结构化文本的特征向量,并根据非结构化文本的特征向量和目标实体关系元组更新知识图谱。
在一种示例性实例中,第二处理模块23具体还用于:
将非结构化文本进行分词并去停用词。
对经过处理的非结构化文本统计词频。
获取词频位于前N位的词的词向量,并将这些词向量进行加法运算以得到非结构化文本的特征向量。
在一种示例性实例中,第二处理模块23具体还用于:
在知识图谱中查找与第一目标实体的名称相同的候选节点;其中,第一目标实体为目标实体关系元组中存在于知识图谱中的实体。
将目标实体关系元组中不存在于知识图谱中的第二目标实体的得分记为0。
获取所有候选节点的特征向量,并根据非结构化文本的特征向量和每个候选节点的特征向量计算非结构化为本与每个候选节点的相似度,并将所有相似度中最大相似度作为第一目标实体的得分。
根据目标实体关系元组中两个实体的得分更新知识图谱。
在一种示例性实例中,第二处理模块23具体还用于:
对每个候选节点进行如下操作:
获取候选节点的名称、属性、包含第一目标实体的关系对应的词向量。
将获得的所有词向量进行加法运算以得到候选节点的特征向量。
在一种示例性实例中,第二处理模块23具体还用于:
若目标实体元组中两个实体的得分均达到预设阈值且两个实体之间的关系与目标实体元组中的关系词所表示的关系不同,在两个实体之间创建一条名称为目标实体元组中的关系词的边。
若目标实体元组中两个实体的得分均未达到预设阈值,在知识图谱中创建两个节点分别存放目标实体元组中的两个实体,并在两个实体之间创建一条名称为目标实体元组中的关系词的边。
若目标实体元组中有一个实体达到预设阈值,创建一个节点用于存放目标实体元组中另一个实体,并在两个实体之间创建一条名称为目标实体元组中的关系词的边。
本申请实施例提供的知识图谱的更新装置,由于对输入的非结构化文本进行了语句分析处理,并利用预先构建的实体关系元组抽取模型抽取了语句分析处理后的非结构化文本中的实体关系元组,因此实现了根据非结构化文本更新知识图谱,从而加快了知识图谱的更新频率,保证了后续知识图谱应用的顺利进行。
在实际应用中,所述预处理模块21、第一处理模块22、第二处理模块23、判断模块24和删除模块25位于知识图谱的更新装置中的CPU、MPU、DSP或FPGA等实现。
本申请实施例还提供一种知识图谱的更新装置,包括:处理器和存储器,其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一种所述的方法的处理。
本申请实施例还提供一种存储介质,存储介质上存储有计算机可执行命令,计算机可执行命令用于执行如上述任意一种所述的方法的处理。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (16)
1.一种知识图谱的更新方法,其特征在于,包括:
对输入的非结构化文本进行语句分析处理;
利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;
根据获得的实体关系元组更新知识图谱;
所述利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组之后,且所述根据获得的实体关系元组更新知识图谱之前,还包括:
判断获得的实体关系元组中的关系词是否存在于预先建立的关系词集合中;其中,所述关系词为连接所述实体关系元组中两个实体之间关系的词语,且包括:谓词、介词、修饰词、名词、动词;
当获得的实体关系元组中的关系词不存在于所述关系词集合中,删除该实体关系元组;
所述根据获得的实体关系元组更新知识图谱,包括:
根据获得的关系词存在于所述关系词集合中的目标实体关系元组更新所述知识图谱;
所述根据获得的关系词存在于关系词集合中的目标实体关系元组更新知识图谱,包括:
当所述目标实体关系元组中的实体均不存在于所述知识图谱中,将所述目标实体关系元组导入所述知识图谱;
当所述目标实体关系元组中的至少一个实体存在于所述知识图谱中,获取所述非结构化文本的特征向量,并根据所述非结构化文本的特征向量和所述目标实体关系元组更新所述知识图谱;
所述根据非结构化文本的特征向量和目标实体关系元组更新知识图谱,包括:
在所述知识图谱中查找与第一目标实体的名称相同的候选节点;其中,所述第一目标实体为所述目标实体关系元组中存在于所述知识图谱中的实体;
将所述目标实体关系元组中不存在于所述知识图谱中的第二目标实体的得分记为0;
获取所有所述候选节点的特征向量,并根据所述非结构化文本的特征向量和每个所述候选节点的特征向量计算所述非结构化为本与每个所述候选节点的相似度,并将所有相似度中最大相似度作为所述第一目标实体的得分;
根据所述目标实体关系元组中两个实体的得分更新所述知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述对输入的非结构化文本进行语句分析处理,包括:
将输入的非结构化文本按照标点符号划分为若干个语句;
对每个语句进行依存关系分析,得到每个语句的依存关系集合;
根据所述依存关系集合中的主谓关系对存在零指代的语句进行零指代消解;
根据所述依存关系集合中的并列关系对存在并列子句的语句进行划分。
3.根据权利要求2所述的方法,其特征在于,所述根据依存关系集合中的主谓关系对存在零指代的语句进行零指代消解,包括:
获取第一个语句的依存关系集合,并根据第一个语句的依存关系集合获取所述第一个语句的主谓关系SBV节点;
依次获取其他语句的依存关系集合,并每当获得一个语句的依存关系集合执行以下操作:
根据获得的语句的依存集合判断获得的语句中是否存在SBV节点;
当获得的语句中不存在SBV节点,将上一个语句的SBV节点插入获得的语句的第一个位置。
4.根据权利要求1所述的方法,其特征在于,所述实体关系元组抽取模型包括:动词结构实体关系元组抽取模型、定语结构实体关系元组抽取模型、并列结构实体关系元组抽取模型和固定结构实体关系元组抽取模型。
5.根据权利要求4所述的方法,其特征在于,所述动词结构实体关系元组抽取模型包括:及物动词关系结构实体关系元组抽取模型、轻动词关系结构实体关系元组抽取模型、不及物动词关系结构实体关系元组抽取模型。
6.根据权利要求5所述的方法,其特征在于,所述及物动词关系结构实体关系元组抽取模型包括:从满足主语为依赖于主谓关系SBV标记的谓词pred的第一实体且宾语为依赖于动宾关系VOB标记的谓词pred的第二实体的语句中抽取实体关系元组(第一实体,谓词pred,第二实体)的模型;从满足第一实体依赖于SBV标记的谓词pred、介词prep依赖于状中关系ADV标记的谓词pred、第二实体依赖于介宾关系POB标记的介词prep并且名词依赖于VOB标记的谓词pred的语句中抽取实体关系元组(第一实体,谓词pred,第二实体)的模型;从满足第一实体依赖于SBV标记的谓词pred、介词prep依赖于动补关系CMP标记的谓词pred,并且第二实体依赖于POB标记的介词prep的语句中抽取实体关系元组(第一实体,谓词pred+介词prep,第二实体)的模型;
所述轻动词关系结构实体关系元组抽取模型包括:从满足主语为直接依赖于SBV标记的轻动词pred的第一实体,并且介词宾语为间接依赖于POB标记的轻动词pred的第二实体的语句中抽取实体关系元组(第一实体,谓词,第二实体)的模型;从满足主语为直接依赖于SBV标记的轻动词pred的第一实体,并且介词宾语为间接依赖于POB标记的轻动词pred的第二实体,并且介词呈被动语态的语句中抽取实体关系元组(第二实体,谓词,第一实体)的模型;
所述不及物动词关系结构实体关系元组抽取模型包括:将介词位于不及物动词的左侧,且谓词仅用为关系词的语句抽取为实体关系元组(第一实体,谓词,第二实体)的模型;将介词位于不及物动词的右侧,且谓词仅用为关系词的语句抽取为实体关系元组(第一实体,谓词+介词,第二实体)的模型。
7.根据权利要求4所述的方法,其特征在于,所述定语结构实体关系元组抽取模型包括:从满足第一实体和第二实体都依赖于ATT标记的修饰词的语句中抽取实体关系元组(第一实体,修饰词,第二实体)的模型。
8.根据权利要求4所述的方法,其特征在于,所述并列结构实体关系元组抽取模型包括:从出现并列连词的语句中抽取实体关系元组(第一实体,谓词,第三实体)(第二实体,谓词,第三实体),或(第一实体,谓词,第二实体)(第一实体,谓词,第三实体),或(第一实体,第一谓词,第二实体)(第一实体,第二谓词,第三实体)的模型。
9.根据权利要求4所述的方法,其特征在于,所述固定结构实体关系元组抽取模型包括:特定句式结构实体关系元组抽取模型、“是”结构实体关系元组抽取模型、“的”结构实体关系元组抽取模型。
10.根据权利要求9所述的方法,其特征在于,所述特定句式结构实体关系元组抽取模型包括:将“表示人名的第一实体+‘,’+表示机构名的第二实体+表示关系的名词”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;
所述“是”结构实体关系元组抽取模型包括:将“第一实体是第二实体的名词”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;将“第一实体的名词是第二实体”的语句抽取为实体关系元组(第二实体,名词,第一实体)的模型;
所述“的”结构实体关系元组抽取模型包括:将“第一实体+‘的’+名词+第二实体”的语句抽取为实体关系元组(第一实体,名词,第二实体)的模型;将“动词+第一实体+‘的’+第二实体”的语句抽取为实体关系元组(第一实体,动词,第二实体)的模型。
11.根据权利要求1所述的方法,其特征在于,所述获取非结构化文本的特征向量,包括:
将所述非结构化文本进行分词并去停用词;
对经过处理的非结构化文本统计词频;
获取词频位于前N位的词的词向量,并将这些词向量进行加法运算以得到所述非结构化文本的特征向量。
12.根据权利要求1所述的方法,其特征在于,所述获取所有候选节点的特征向量,包括:
对每个所述候选节点进行如下操作:
获取所述候选节点的名称、属性、包含所述第一目标实体的关系对应的词向量;
将获得的所有词向量进行加法运算以得到所述候选节点的特征向量。
13.根据权利要求1所述的方法,其特征在于,所述根据目标实体元组中两个实体的得分更新知识图谱,包括:
若所述目标实体元组中两个实体的得分均达到预设阈值且两个实体之间的关系与所述目标实体元组中的关系词所表示的关系不同,在所述两个实体之间创建一条名称为所述目标实体元组中的关系词的边;
若所述目标实体元组中两个实体的得分均未达到预设阈值,在所述知识图谱中创建两个节点分别存放所述目标实体元组中的两个实体,并在所述两个实体之间创建一条名称为所述目标实体元组中的关系词的边;
若所述目标实体元组中有一个实体达到所述预设阈值,创建一个节点用于存放目标实体元组中另一个实体,并在所述两个实体之间创建一条名称为所述目标实体元组中的关系词的边。
14.一种知识图谱的更新装置,其特征在于,包括:
预处理模块,用于对输入的非结构化文本进行语句分析处理;
第一处理模块,用于利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;
第二处理模块,用于根据获得的实体关系元组更新知识图谱;
判断模块,用于判断获得的实体关系元组中的关系词是否存在于预先建立的关系词集合中;其中,关系词为连接实体关系元组中两个实体之间关系的词语,且包括:谓词、介词、修饰词、名词、动词;
删除模块,用于当获得的实体关系元组中的关系词不存在于关系词集合中,删除该实体关系元组;
第二处理模块,具体用于根据获得的关系词存在于关系词集合中的目标实体关系元组更新知识图谱;
第二处理模块具体用于:
当目标实体关系元组中的实体均不存在于知识图谱中,将目标实体关系元组导入知识图谱;
当目标实体关系元组中的至少一个实体存在于知识图谱中,获取非结构化文本的特征向量,并根据非结构化文本的特征向量和目标实体关系元组更新知识图谱;
第二处理模块具体还用于:
在知识图谱中查找与第一目标实体的名称相同的候选节点;其中,第一目标实体为目标实体关系元组中存在于知识图谱中的实体;
将目标实体关系元组中不存在于知识图谱中的第二目标实体的得分记为0;
获取所有候选节点的特征向量,并根据非结构化文本的特征向量和每个候选节点的特征向量计算非结构化为本与每个候选节点的相似度,并将所有相似度中最大相似度作为第一目标实体的得分;
根据目标实体关系元组中两个实体的得分更新知识图谱。
15.一种知识图谱的更新装置,其特征在于,包括:处理器和存储器,其中,存储器中写入有以下可被处理器执行的命令:
对输入的非结构化文本进行语句分析处理;
利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;
根据获得的实体关系元组更新知识图谱;
所述存储器中写入有以下可被处理器执行的命令:
判断获得的实体关系元组中的关系词是否存在于预先建立的关系词集合中;其中,关系词为连接实体关系元组中两个实体之间关系的词语,且包括:谓词、介词、修饰词、名词、动词;
当获得的实体关系元组中的关系词不存在于关系词集合中,删除该实体关系元组;
根据获得的关系词存在于关系词集合中的目标实体关系元组更新知识图谱;
所述存储器中写入有以下可被处理器执行的命令:
当目标实体关系元组中的实体均不存在于知识图谱中,将目标实体关系元组导入知识图谱;
当目标实体关系元组中的至少一个实体存在于知识图谱中,获取非结构化文本的特征向量,并根据非结构化文本的特征向量和目标实体关系元组更新知识图谱;
所述存储器中写入有以下可被处理器执行的命令:
在知识图谱中查找与第一目标实体的名称相同的候选节点;其中,第一目标实体为目标实体关系元组中存在于知识图谱中的实体;
将目标实体关系元组中不存在于知识图谱中的第二目标实体的得分记为0;
获取所有候选节点的特征向量,并根据非结构化文本的特征向量和每个候选节点的特征向量计算非结构化为本与每个候选节点的相似度,并将所有相似度中最大相似度作为第一目标实体的得分;
根据目标实体关系元组中两个实体的得分更新知识图谱。
16.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
对输入的非结构化文本进行语句分析处理;
利用预先构建的实体关系元组抽取模型抽取语句分析处理后的非结构化文本中的实体关系元组;
根据获得的实体关系元组更新知识图谱;
所述计算机可执行命令用于执行以下步骤:
判断获得的实体关系元组中的关系词是否存在于预先建立的关系词集合中;其中,关系词为连接实体关系元组中两个实体之间关系的词语,且包括:谓词、介词、修饰词、名词、动词;
当获得的实体关系元组中的关系词不存在于关系词集合中,删除该实体关系元组;
根据获得的关系词存在于关系词集合中的目标实体关系元组更新知识图谱;
所述计算机可执行命令用于执行以下步骤:
当目标实体关系元组中的实体均不存在于知识图谱中,将目标实体关系元组导入知识图谱;
当目标实体关系元组中的至少一个实体存在于知识图谱中,获取非结构化文本的特征向量,并根据非结构化文本的特征向量和目标实体关系元组更新知识图谱;
所述计算机可执行命令用于执行以下步骤:
在知识图谱中查找与第一目标实体的名称相同的候选节点;其中,第一目标实体为目标实体关系元组中存在于知识图谱中的实体;
将目标实体关系元组中不存在于知识图谱中的第二目标实体的得分记为0;
获取所有候选节点的特征向量,并根据非结构化文本的特征向量和每个候选节点的特征向量计算非结构化为本与每个候选节点的相似度,并将所有相似度中最大相似度作为第一目标实体的得分;
根据目标实体关系元组中两个实体的得分更新知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315927.3A CN111177315B (zh) | 2019-12-19 | 2019-12-19 | 知识图谱的更新方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315927.3A CN111177315B (zh) | 2019-12-19 | 2019-12-19 | 知识图谱的更新方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177315A CN111177315A (zh) | 2020-05-19 |
CN111177315B true CN111177315B (zh) | 2023-04-28 |
Family
ID=70653947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911315927.3A Active CN111177315B (zh) | 2019-12-19 | 2019-12-19 | 知识图谱的更新方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177315B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395860A (zh) * | 2020-11-27 | 2021-02-23 | 山东省计算中心(国家超级计算济南中心) | 一种大规模并行政策数据知识抽取方法及系统 |
CN113282717B (zh) * | 2021-07-23 | 2021-10-29 | 北京惠每云科技有限公司 | 文本中实体关系的抽取方法、装置、电子设备及存储介质 |
CN113779358B (zh) * | 2021-09-14 | 2024-05-24 | 支付宝(杭州)信息技术有限公司 | 一种事件检测方法和系统 |
CN113705198B (zh) * | 2021-10-21 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 场景图生成方法、装置、电子设备及存储介质 |
CN115438141B (zh) * | 2022-11-08 | 2023-03-24 | 智慧眼科技股份有限公司 | 一种基于知识图谱模型的信息检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797991A (zh) * | 2017-10-23 | 2018-03-13 | 南京云问网络技术有限公司 | 一种基于依存句法树的知识图谱扩充方法及系统 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN108874778A (zh) * | 2018-06-15 | 2018-11-23 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007062885A1 (en) * | 2005-11-29 | 2007-06-07 | International Business Machines Corporation | Method and system for extracting and visualizing graph-structured relations from unstructured text |
US11003716B2 (en) * | 2017-01-10 | 2021-05-11 | International Business Machines Corporation | Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data |
-
2019
- 2019-12-19 CN CN201911315927.3A patent/CN111177315B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797991A (zh) * | 2017-10-23 | 2018-03-13 | 南京云问网络技术有限公司 | 一种基于依存句法树的知识图谱扩充方法及系统 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN108874778A (zh) * | 2018-06-15 | 2018-11-23 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111177315A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177315B (zh) | 知识图谱的更新方法、装置及计算机可读存储介质 | |
CN111522816B (zh) | 基于数据库引擎的数据处理方法、装置、终端及介质 | |
WO2020135048A1 (zh) | 知识图谱的数据融合方法和装置 | |
CN107247707B (zh) | 基于补全策略的企业关联关系信息提取方法和装置 | |
US9740685B2 (en) | Generation of natural language processing model for an information domain | |
US8630989B2 (en) | Systems and methods for information extraction using contextual pattern discovery | |
KR101231560B1 (ko) | 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템 | |
US10296584B2 (en) | Semantic textual analysis | |
US8756207B2 (en) | Systems and methods for identifying potential duplicate entries in a database | |
Chen et al. | Chinese named entity recognition with conditional random fields | |
US10956662B2 (en) | List manipulation in natural language processing | |
CN111460787A (zh) | 一种话题提取方法、装置、终端设备及存储介质 | |
US10503830B2 (en) | Natural language processing with adaptable rules based on user inputs | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
US11556812B2 (en) | Method and device for acquiring data model in knowledge graph, and medium | |
CN112232074A (zh) | 实体关系抽取方法、装置、电子设备及存储介质 | |
CN109885693B (zh) | 基于知识图谱的快速知识对比方法及系统 | |
WO2021249311A1 (zh) | 命名实体的识别方法、识别设备及电子设备 | |
CN105608232A (zh) | 一种基于图形数据库的bug知识建模方法 | |
US20120317125A1 (en) | Method and apparatus for identifier retrieval | |
US20190005118A1 (en) | Method and system for managing associations between entity records | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
CN114676678B (zh) | 结构化查询语言数据的解析方法、装置和电子设备 | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
Higazy et al. | Web-based Arabic/English duplicate record detection with nested blocking technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |